Text
                    АЛЯГЛОМ.И.М.ЯГЛОМ
ВЕРОЯТНОСТЬ
ИНФОРМАЦИЯ


A. M. ЯГЛОМ и И. М. ЯГЛОМ ВЕРОЯТНОСТЬ И ИНФОРМАЦИЯ ИЗДАНИЕ ТРЕТЬЕ, ПЕРЕРАБОТАННОЕ И ДОПОЛНЕННОЕ ИЗДАТЕЛЬСТВО «НАУКА» ГЛАВНАЯ РВДКЦ&Я ФИЗИ КО-МАТЕМАТИЧЕСКОЯ ЛИТЕРАТУРЫ Москва 19 73
517.8 Я 29 УДК 519.21 Вероятность и информация. А. М. Я г л о м и И. М. Я г- л о м. Главная редакция физико-математической литературы издательства «Наука», 1973. Книга является общедоступным введением в новую область математики — теорию информации, тесно связанную с киберне- кибернетикой л имеющую ряд приложений в технике связи, лингвистике, биологии и т. д. В третьем издании подвергся тщательному про- просмотру весь текст и внесены многочисленные улучшения в изло- изложение. Данные о теоретико-информационных характеристиках конкретных видов сообщений (письменная и устная речь, фото- фототелеграммы, телевидение и пр.) пополнены результатами, полу- полученными в равных странах на протяжении 60-х годов нашего века, в качестве одного на примеров, иллюстрирующих общее понятие «линии (или канала) связи», рассмотрена «генетическая линия связи» и отвечающий ей «генетический код». Книга попол- пополнена двумя новыми параграфами, один яз которых дает представ- представление о теории кодирования — большом направлении, выделив- выделившемся ив теории информации и сегодня иногда рассматриваемом как самостоятельная научная дисциплина. Для чтения книги достаточно математической подготовки в объеме школьного курса. Книга рассчитана на студентов вузов и втузов (а частично — дажо и па учащихся старших классов средней школы), преподавателей средней и высшей школы, ин- инженеров-связистов, специалистов в -области физики, биологии-, лингвистики. к. в. ll.iV п-н '¦'»' " 0223—1772 Я fr42 @2)-73 7®^ ® Ийдлтсльстпо «Наукл», 1973 г.
ОГЛАВЛЕНИЕ Из предисловия к первому изданию .......... 5 Из предисловия ко второму изданию . 8 Предисловие к третьему изданию 12 Глава I. Вероятность ..... 17 § 1. Определение вероятности. Случайные События и случайные величины 17 § 2. Свойства вероятности. Сложение и умножение событий. Несовместимые и независимые собы- события 25 § 3. Условные вероятности 40 § 4. Дисперсия случайной величины. Неравенство Чебышева и закон больших чисел 47 § 5. Алгебра событий и общее определение веро- вероятности ..... 59 Глава II. Энтропия и информация 68 § 1. Энтропия как мера степени неопределенности 68 § 2. Энтропия сложных событий. Условная энтро- энтропия 87 § 3. Понятие об информации 104 § 4. Определение энтропии перечислением ее свойств 128 Глава III. Решение некоторых логических задач с по- кощью подсчета информации 137 § 1. Простейшие примеры . . . . .' 137 § 2. Задачи на определение фальшивых монет с по- помощью взвешиваний 146 § 3. Обсуждение 163 Глава IV. Приложение теории информации к вопросу о передаче сообщений по линиям связи .... 183 § 1. Основные понятия. Экономность кода .... 183 § 2. Коды Шеннона — Фано и Хафмана. Основная теорема о кодировании 198 § 3. Энтропия и информация конкретных типов сооб- сообщений 236 Письменная речь 236 Устная речь 273 Музыка 281 1*
4 ОГЛАВЛЕНИЕ Передача непрерывно изменяющихся сообщений. Телевизионные изображения 290 Фототелеграммы 301 Пропускная способность реальных линий связи 312 Общая схема передачи но линии связи. Пере- Передача генетической информации 320 § 4. Передача сообщений при наличии помех . . . 329 § 5. Коды, обнаруживающие и исправляющие ошибки 392 Приложение I. Свойства выпуклых функций . . . 441 Приложение II. Некоторые алгебраические понятия 458 Приложение III. Таблица величин —р log2 р . . . 483 Литература 487 Именной указатель 501 Алфавитный указатель 506
ИЗ ПРЕДИСЛОВИЯ К ПЕРВОМУ ИЗДАНИЮ За долгие годы сложилось такое положение, когда почти никакие сведения об интенсивной научной работе, ведущейся в области теоретической математики, не про- проникают за рамки узкого круга математиков-профессио- математиков-профессионалов; это обстоятельство вызывает даже иногда у неспеци- неспециалистов совершенно неправильное представление об определенной «завершенности» математики, делающей исследовательскую работу в этой области почти невозмож- невозможной или, во всяком случае, очень трудной. Причина такого положения кроется в том, что подавляющее боль- большинство работ, печатающихся в математических журна- журналах, относится к достаточно развитым разделам этой на- науки, с которыми трудно ознакомить лиц, не имеющих специальной подготовки; что же касается более элемен- элементарных частей математики, вроде элементарной геомет- геометрии, то трудно рассчитывать, чтобы за многовековую историю науки здесь были не замечены какие-либо факты или теоремы, имеющие действительно большое принципиаль- принципиальное значение*). Естественно, что и новые большие направ- направления, возникшие в математике за последние десятилетия, как правило, оперируют с достаточно сложными поня- понятиями и представлениями, мало доступными для попу- популяризации. Тем более значительной представляется за- заслуга замечательного американского математика и инже- инженера Клода Шеннона, который в 1947—1948 гг. сумел указать новую важную область математики, истоки ко- которой связаны с совсем элементарными соображениями. *) Однако даже в этих начальных разделах математики ос- остаются нерешенными некоторые серьезные вопросы и появляются иногда интересные и глубокие работы (см., например, брошюру В. Г. Болтянского «Равновеликие и равносоставлен- ные фигуры», М., Гостехиздат, 1956, излагающую, в основном, исследования последних лет).
US ПРЕДИСЛОВИЯ К ПЕРВОМУ ИЗДАНИЮ Основные задачи, которые ставил перед собой Шеннон при создании того направления, которое в последующие годы получило название «теория информации», были свя- вашл с чисто техническими вопросами электросвязи и радиосвяви *). Вообще говоря, новые применения мате- математики в технике и естествознании обычно бывают свя- связаны с использованием сложного математического аппа- аппарата и, кроме того, чаще всего не могут быть объяснены без глубокого проникновения в суть запутанных проблем современной пауки и техники; поэтому возможности попу- ляривации практических достижений математики сегод- сегодняшнего дня также являются весьма скромными. Имен- Именно поэтому представления неспециалистов о прикладном вначении математики зачастую ограничиваются заимст- заимствованными из школьного курса сведениями о том, что геометрия еще в древнем Египте использовалась для восстановления границ земельных участков после раз- разливов Нила, и некоторыми другими того же рода. И в этом отношении изложение круга идей, связанных с тео- теорией информации, представляется крайне заманчивым, так как простейшие практические приложения этих идей к современным техническим вопросам нполне могут быть объяснены читатолпм, обладающим минимальной мате- математической и технической иодготонкой. Настоящая книжка, рассчитаиппя на широкий круг читателей (для понимания всего ее содержа ния достаточно внакомства с математикой в объеме курса средней школы), разумеется, ни в какой мере но протондуот на то, чтобы служить хотя бы только элементарным «ведением в тео- теорию информации как научную дисциплину. Мы могли дать здесь лишь поверхностное представление о важных практических приложениях этой теории; также и глу- *) Благодаря своему общему хпрпктору роботы Шеннона оказали большое стимулирующее влиянии ни псо исследования, относящиеся к передаче и сохранению какой бы то ни было ин- информации в природе и технике; линиями, но которым передаст- передастся эта информация, могут являться пе только тологряфные и те- телефонные провода или среда, передающем рпдиосигнплы, по и нервы, по которым передаются сигналы от орпшов чупств к мозгу и от мозга к мускулам, или те почти сопсем ощо но исследованные пути, какими передаются от зародышепой клетки указании о даль- дальнейшем плане построения живого организма.
ИЗ ПРЕДИСЛОВИЯ К ПЕРВОМУ ИЗДАНИЮ 7 бокие чисто математические проблемы, связанные с тео- теорией информации, никак не могли быть здесь раскрыты. Основная цель, которую поставили перед собой авторы, гораздо проще — она состоит в том, чтобы ознакомить читателя с некоторыми несложными, но весьма важными, новыми математическими понятиями и на примере этих понятий показать один из возможных путей использова- вания математических методов в современной технике. Первая глава книги посвящена разъяснению старого (введенного еще в XVII веке) понятия вероятности, знакомство с которым необходимо для понимания всего дальнейшего содержания. Во второй главе рассматрива- рассматриваются введенные Шенноном понятия энтропии и информации, общетеоретическое значение которых бы- было оценено математиками лишь в самое последнее время. Третья и четвертая главы посвящены примерам и прило- приложениям; в отличие от первых двух глав строгие доказа- доказательства приводимых утверждений здесь зачастую лишь намечены или вовсе опущены, а в некоторых местах и сами утверждения сформулированы лишь в форме весьма правдоподобных предположений. При атом в третьей главе польза понятий энтропии и информации иллюстри- иллюстрируется на примерах с загаданными числами, фальшивыми монетами и т. п., кое в чем напоминающих те «игрушеч- «игрушечные» задачи с игральными костями и картами, на кото- которых в XVII в. зародилась теория вероятностей; более со- содержательные приложения технического порядка сосре- сосредоточены в четвертой главе. Мы рассчитываем, что озна- ознакомление с третьей главой поможет читателю лучше по- почувствовать смысл основных понятий, введенных в гла- главе II, и тем самым подготовиться к изучению наиболее сложной четвертой главы, использующей к тому же не- некоторые результаты третьей. Книга предназначена для всех любителей математики и в первую очередь для тех, кто ее в настоящее время пре- преподает или изучает; наряду с этим мы рассчитываем, что она может быть небезынтересной и для многих читателей, имеющих по своей специальности дело с техникой связи, но не обладающих солидной математической подготовкой. В основу книги положена лекция, прочитанная одним из авторов московским школьникам — участникам школьного математического кружка при Московском
ИЗ ПРЕДИСЛОВИЯ КО ВТОРОМУ ИЗДАНИЮ государственном университете; содержание лекции здесь значительно расширено. Авторы выражают искреннюю признательность А. II. Колмогорову, ценные советы которого способст- способствовали значительному улучшению книги. Они благодар- благодарны также редактору книги М. М. Горячей, замечания которой помогли устранить некоторые дефекты изложе- изложения. А. М. Яглом, Москва, май 1956 г. И. М. Яглом ИЗ ПРЕДИСЛОВИЯ КО ВТОРОМУ ИЗДАНИЮ Второе издание книги «Вероятность и информация» по структуре почти не отличается от первого издания; читатель, вздумавший сравнить оглавления двух изданий книги, отметит, что различия здесь весьма незначитель- незначительны. Не изменился также и характер книги, предполагаю- предполагающей у читателя весьма скромные математические знания (ыедостаток которых, впрочем, должен компенсироваться известной настойчивостью). При всем том частные раз- различия между двумя изданиями настолько значительны, что смело можно говорить о новой книге. Столь большие изменения частично связаны с тем, что эта книга посвящена очень молодой и бурно развиваю- развивающейся отрасли пауки, для которой два года, прошедшие со дня выхода п свет первого издания,— это большой срок. Кое-что стало за эти дна года яснее авторам книги; мно- многой удалось почерпнуть из многочисленных новых книг и статей — в последнее время количественный рост лите- литературы по теории информации происходит с нарастающей интенсивностью. Но особенно необходимой стала перера- переработка первого издания из-за одного просчета авторов. Эта книга родилась из лекции, прочитанной москов- московским пшольпикам,— и авторы твердо запомнили ее про- происхождение, па которое читатели, по-видимому, обратили мало внимания. Соответственно этому в предисловии к книге било указано, что она «предназначается для всех любителей математики и в первую очередь для тех, кто ее в настоящее время преподает или изучает». При этом
ИЗ ПРЕДИСЛОВИЯ КО ВТОРОМУ ИЗДАНИЮ мы, однако, просмотрели еще одну, весьма многочислен- многочисленную категорию читателей — лиц, серьезно интересую- интересующихся именно теорией информации (а не математикой вообще), но не желающих начинать ее изучение со спе- специальной литературы, овладение которой требует и вре- времени и труда. Больше всего замечаний об этой книге мы получили от математиков и от инженеров-связистов — и наши уверения, что книга не рассчитана ни на тот, ни на другой круг читателей, не производили на них никакого впечатления. Удивившая авторов быстрота, с которой первое издание книги исчезло из магазинов, появление переводов на несколько иностранных языков (венгерский, немецкий, французский, японский) — все это вынуждало считать, что книга ответила какой-то насущной потреб- потребности и заставило внимательно продумать вопрос о том, как эту потребность лучше удовлетворить. Мы и теперь склонны полагать, что наша книга мало подходит для изучения предмета специалистами по тео- теории вероятностей или по теории связи — первым естест- естественно рекомендовать небольшую, но тщательно написан- написанную книгу А. Ф а й н с т е й н а [5] *); для читателей же второй категории наиболее подходящей книгой явится, по-видимому, интересная книга Ф. М. В у д в о р д а [4]. Также и физикам или биологам, заинтересовавшимся идея- идеями Шеннона, естественно обратиться не к нашей книге, а к книгам Л. Б р и л л ю э н а [2] (физика) и У. Р. Э ш- б и [11] (биология). Однако всем этим категориям чита- читателей, возможно, будет небезынтересно ознакомиться и с настоящей, значительно более элементарной книгой. Лишь только филологам, которые уже на сегодняшний день представляют собой довольно значительную группу «потребителей» теории информации, нам нечего пореко- порекомендовать, что заставило нас при подготовке второго из- издания книги отнестись с большим вниманием к их воз- возможным запросам. И если при подготовке нового издания мы по-прежнему отвергали любой материал, включение которого повысило бы уровень математической подготов- подготовки, необходимый для чтения книги, то при этом теперь уже имелись в виду не только учащиеся средней школы, но ]) Цифры в квадратных скобках указывают номера в списке литературы в конце книги.
10 из предисловия ко второму изданию и биологи или филологи, не знакомые с высшей матема- математикой. Новая точка зрения на круг читателей книги обусло- обусловила ряд существенных изменений в ее тексте. Так, нап- например, из нового издания исчезли русские буквы Э (эн- (энтропия) и И (информация), которые, быть может, и об- облегчали чтение книги некоторым совсем неопытным чи- читателям, но зато, наверно, были неудобны для всех тех, кто имел (или пожелал бы иметь в дальнейшем) дело также и с другой литературой по этому предмету, использующей иные обозначения. Естественно также было уже в главе 11 уделить достаточно внимания статистическому толко- толкованию понятия энтропии, делающему его столь плодо- плодотворным для всех практических приложений теории ин- информации. Заметно расширена последняя глава книги, имеющая наибольшее прикладное значение; объем книги увеличился также за счет напечатанного мелким шриф- шрифтом (и могущего быть опущенным при первом чтении) материала, где, учитывая интересы математиков, мы, в частности, привели строгие доказательства некоторых предложений, лишь сформулированных в основном тек- тексте. Изменился и характер иллюстрирующих текст задач: в новом издании реже встречаются упражнения на урно- вую схему и математические развлечения, зато чаще — вопросы, в которых реально может быть использована теория информации. Однако мы не стали менять приня- принятую в первом издании терминологию, в некоторых случаях отличающуюся от используемой в научной литературе заменой специальных терминов более «обыкновенными» словами (например «линия связи» вместо «канала связи», «энтропия опыта» вместо «энтропии распределения веро- вероятностей» и т. п.). Мы сохранили также в книге целую гла- главу, специально посвященную «задачам на смекалку», по- поскольку, по существу, в этих задачах в новой (и довольно привлекательной) форме рассматриваются достаточно серьезные вопросы, непосредственно связанные с задача- задачами наиболее экономной передачи сообщений. Эту связь, которую, как оказалось, просмотрели некоторые из чи- читателей первого издания книги, мы теперь осветили не- несколько подробнее, чем раньше. К новому изданию книги приложена библиография, отсутствующая в первом издании. Убедившись (в част-
ИЗ ПРЕДИСЛОВИЯ КО ВТОРОМУ ИЗДАНИЮ 11 ности, я на опыте вашей работы над книгой) в удобстве, которое представляет для любых расчетов, связанных с теорией информации, наличие таблицы значений функ- функции — р log р (где 0 ^ р ^ 1), мы поместили такую таб- таблицу, заимствованную из сборника [46], в качестве треть- третьего приложения к книге. Мы сохранили в этой таблице двоичную систему логарифмов; в книге, однако, исполь- используются более привычные большинству читателей десятич- десятичные логарифмы (тем более, что нам хотелось разрушить имеющееся у некоторых инженеров представление о том, что основой теории информации является использование именно двоичных логарифмов). Наконец, самым значительным изменением является добавление к главе IV специального § 3, содержащего сводку данных об информации, содержащейся в конкрет- конкретных типах сообщений (письменная и устная речь, музыка, телевизионные и фототелеграфные изображения); в конце этого параграфа кратко указаны также некоторые дан- данные о пропускной способности различных линий связи. Этот параграф является самым большим в книге; он мало связан с последующим текстом и вполне может быть опу- опущен читателем, интересующимся лишь математической стороной теории информации. Нам, однако, кажется, что значительно больше будет таких читателей, для кото- которых этот параграф окажется как раз наиболее интерес- интересным. По своему характеру § 3 гл. IV несколько отли- отличается от остальной книги — фактически он представляет собой обзор большого числа сравнительно специальных работ, опубликованных за последние годы в различных научных и научпо-технических журналах. Для удобства читателей, специально интересующихся той или иной областью приложений теории информации, мы во всех случаях точно указали источники, содержащие более подробное изложение упоминаемых нами результатов (основная часть приложенной к книге библиографии от- посится именно к этому параграфу), и постарались сде- сделать наш обзор по возможности более полным (в той ме- мере, в какой это было возможно без уменьшения степени элементарности книги). Однако надо иметь в виду, что при той интенсивности, с которой в настоящее время во всем мире ведется работа по изучению статистических свойств сообщений и линий связи, можно опасаться, что
12 ПРЕДИСЛОВИЕ К ТРЕТЬЕМУ ИЗДАНИЮ уже к моменту выхода книги в свет приведенный в ней обзор не сможет претендовать на полноту, а еще через не- некоторое время собранные в нем дапные и вовсе устареют. Лам тем не менее кажется, что и тогда § 3 гл. IV не будет бесполезным: ведь основная его цель — дать представле- представление о порядке величин количества информации, встреча- встречающихся в науке и технике, и проиллюстрировать общее направление вдохновленных теорией информации техни- технических, филологических и биологических исследований, а вовсе не служить основой для дальнейшей научной ра- работы специалистов. В заключение нам хочется искренне поблагодарить всех читателей нашей книги, поделившихся с нами своими со- соображениями, способствовавшими улучшению нового из- издания, в том числе С. Г. Гиндикина, А. Н. Колмогорова, B. И. Левенштейна, П. С. Новикова, И. А. Овсеевича, C. М. Рытова, В. А. Успенского, Г. А. Шестопал, М. И. Эйдельнанта и особенно — Р. Л. Добрушина и А. А. Хар- кевича. Мы признательны также В. А. Гармашу, Л. Р. Зиндеру, Д. С. Лебедеву и Т. Н. Молошной за полезные беседы, которые мы имели с ними по вопросам, связанным с содержанием § 3 гл. IV книги. А. М. Яглом, Москва, март 1959 г. И. М. Яглом ПРЕДИСЛОВИЕ К ТРЕТЬЕМУ ИЗДАНИЮ Первое издание настоящей книги вышло в свет в 1957 г., а второе — в 1960 г.; настоящее же третье изда- издание по времени отстоит от второго на 13 лет. В таком большом перерыве между изданиями виноваты в первую очередь мы сами. Второе издание этой книги давно пре- превратилось в библиографическую редкость, запросы же от читателей продолжали поступать — и издательство неодно- неоднократно обращалось к нам с предложением об ее переиз- переиздании; мы, однако, никак не могли на это решиться. Нам было ясно, что книгу нельзя оставить в том виде, который она имела во втором издании, ибо необходимо было как-то откликнуться на существенные изменения, происшедшие за эти годы в теории информации; коренная же перера-
ПРЕДИСЛОВИЕ К ТРЕТЬЕМУ ИЗДАНИЮ 13 ботка книги (сопровождаемая даже изменением ее назва- названия, как многие нам советовали) явно требовала слиш- слишком большого труда и была нам, пожалуй, не под силу. В конце концов мы пошли по тому пути, который поч- почти всегда избирают люди, поставленные в затруднитель- затруднительное положение,— по пути компромисса. Настоящее, третье издание книги сохранило прежнее название и многое из первоначального ее облика; так, например, мы по-преж- по-прежнему не предполагаем у читателя никаких знаний, выхо- выходящих за пределы школьного курса математики. Таким образом, книга эта все еще остается более простой, чем все имеющиеся учебные и монографические изложения теории информации. Мы, однако, не могли игнорировать и то обстоятельство, что, к нашему удивлению, второе изда- издание «Вероятности и информации» как в нашей стране, так и за рубежом в ряде случаев использовалось в качестве основного пособия при чтении курсов лекций в высшей школе — и при переработке и пополнении текста стре- стремились сделать книгу более подходящей для такого, ра- ранее не предвиденного нами, ее употребления. В частности, мы отказались, наконец, от использования в книге десятич- десятичных логарифмов и непривычных десятичных единиц изме- измерения количества информации (дитов), уничтожив тем самым последнее прямое свидетельство происхождения этой книги из лекции, прочитанной много лет назад уча- учащимся средней школы *). Наибольшей переработке подверглась последняя глава книги, являющаяся в ней самой важной, так как фактиче- фактически главы I—III представляют собой лишь введение в основное содержание книги, сосредоточенное в главе IV. Имея в виду читателей, желающих ознакомиться по книге с основами математической теории информации, мы вклю- включили в § 2 гл. IV изложение оптимальных кодов Хафмана (более важных теоретически, чем рассматривавшиеся и в предыдущих изданиях коды Шеннона — Фано) и сущест- существенно переработали доказательство основной теоремы *) В литературе, обращенной к школьникам, использование двоичных логарифмов производит впечатление некоторой вычур- вычурности; однако в книге по теории информации, рассчитанной на более опытных читателей, такое впечатление, напротив, может вызвать употребление десятичных логарифмов вместо общеупот- общеупотребительных двоичных.
14 ПРЕДИСЛОВИЕ К ТРЕТЬЕМУ ИЗДАНИЮ о кодировании при отсутствии помех, сделав его более крат- кратким и математически четким; еще более изменен § 4, где, в частности, приведены два новых доказательства основ- основной теоремы о кодировании при наличии помех вместе с простым доказательством обратной теоремы о кодирова- кодировании. Той же цели служит и включение в первую главу книги закона больших чисел, позволившее сделать не- некоторые последующие выводы более строгими, а также заметное увеличение числа ссылок на серьезную научную литературу, к изучению которой естественно перейти после ознакомления с нашей книгой. Однако наиболее существенным обстоятельством, кото- которое нужно было учесть при подготовке книги к переизда- переизданию, было то, что за последние два десятилетия сама пробле- проблематика теории информации существенно изменилась: в на- настоящее время теория информации — это, в первую очередь, теория кодирования, бурное развитие которой невозможно было даже предсказать в период подготовки к печати пре- предыдущего издания. Поэтому сегодня даже популярная книга по теории информации, полностью игнорирующая то ее направление, которое вызывает наибольший интерес : и у теоретиков, и у инженеров-практиков, и на котором сосредоточена львиная доля усилий специалистов по тео- , рии информации во всем мире, представляется в чем-то неуместной. С другой стороны, общий характер теории кодирования и математические средства и методы, приме- применяемые в этой важной и изящной области прикладной математики, очень существенно отличаются от основного содержания нашей книги; переориентация книги в сторо- сторону теории кодирования вызвала бы необходимость всю ее переписать заново 1). Поэтому мы и здесь ограничились полумерами: добавленный к главе IV совсем новый за- заключительный параграф дает лишь самое первое представ- представление о задачах и методах теории кодирования; с другой стороны, и в своем настоящем виде этот параграф заметно отличается от остального содержания книги. Это различие побудило нас пополнить книгу новым Приложением II, посвященным некоторым чисто алгебраическим понятиям г) Мы этого но сделали — однако не можем не выразить со- сожаления по поводу отсутствия в русской учебной и научно-попу- научно-популярной литературе доступной для начинающих книги по теории кодирования.
ПРЕДИСЛОВИЕ К ТРЕТЬЕМУ ИЗДАНИЮ 15 и предложениям (но зато мы смогли исключить имев- имевшееся в старых изданиях Приложение II, ставшее ненужным после внесения некоторого усовершенство- усовершенствования в изложение теоремы о кодировании при отсутст- отсутствии помех). Строго говоря, новое Приложение II не не- необходимо для понимания содержания § 5 гл. IV, посвящен- посвященного теории кодирования; однако читатель, просмотрев- просмотревший его до ознакомления с содержанием указанного па- параграфа, будет, по-видимому, лучше представлять себе возможности дальнейшего развития и обобщения резуль- результатов этого параграфа. Особое место в книге занимает § 3 последней главы — об этом достаточно подробно говорилось в предисловии ко второму изданию. Содержащаяся в нем сводка данных, касающихся конкретных типов сообщений, является единственной известной нам сводкой такого рода в ли- литературе — последнее обстоятельство побудило нас по- постараться расширить и этот параграф, включив в него об- обзор большого числа более новых работ. Разумеется, не- несмотря на существенное увеличение относящейся сюда библиографии, мы не можем претендовать на то, что охва- охватили всю литературу по рассматриваемым темам — бесспорно в ней упущено большое число работ, разбро- разбросанных по огромному числу журналов самого разного профиля. Мы должны также предупредить читателя, что проверка имеющихся в отдельных исследованиях число- числовых данных и анализ степени их статистической досто- достоверности никак не входили в наши задачи — в этом отно- отношении, как нам кажется, вообще очень многое еще только предстоит сделать. Однако несмотря на то, что не все приведенные в § 3 данные вызывают полное доверие, включение всего этого материала в книгу является оправ- оправданным — оно позволяет читателю получить достаточно полное представление о достигнутых к настоящему вре- времени результатах в области конкретно-информационных исследований и об общей направленности ведущихся здесь работ. Разумеется, большое число связанных с теорией ин- информации направлений оказалось совсем не затронутым в нашей книге. Помимо естественной невозможности «объять необъятное», последнее отчасти связано со стремлением в какой-то мере сохранить в настоящем издании
16 ПРЕДИСЛОВИЕ К ТРЕТЬЕМУ ИЗДАНИЮ тот облик, который имела эта книга раньше. Так, например, мы по-прежнему почти полностью игнорируем в ней задачи, связанные с оценками энтропии и информа- информации опытов с бесконечным множеством возможных исходов (по поводу относящихся сюда общих понятий и опреде- определений см., например, [17]). Мы совсем не касаемся также так называемого «алгоритмического» подхода к понятию количества информации (о нем см., например, важные работы [15] и [16]) и лишь совсем вкратце упоминаем (в § 3 гл. IV) о комбинаторном определении соответствую- соответствующих понятий. Наконец, целиком вне рамок этой книги остаются все, пока еще сугубо предварительные, попытки расширительного толкования понятия информации, вы- выходящего за рамки теории Шеннона (типа «семантической информации» или «тезаруса»; см., например, [18]—[19а]). Главным достоинством предисловий является, как из- известно, то, что в них можно выразить благодарность всем, кто помог авторам в их работе. А. Н. Колмогоров любез- любезно предоставил нам свою рукопись, на основе которой было составлено описание принадлежащего ему сущест- существенного уточнения шениоиовского метода определения энтропии письменного текста при помощи опытов по отгадыванию; некоторые относящиеся сюда материалы передал нам также А. В. Прохоров. В. В. Иванов, И. А. Ов- сеевич, И. В. Петрова, Б. С. Цыбаков и В. Эндрес (Дарм- штадт, ФРГ) обратили наше внимание на некоторые ли- литературные источники, использованные при пополнении § 3 гл. IV. На содержании ряда мест книги отразились на- наши многочисленные беседы с Р. Л. Добрушиным на темы теории информации. Редактор третьего издания С. 3. Стамблор внимательно прочел весь текст и способст- способствовал его улучшению; он также передал нам большой список дополнительной литературы, частично использо- использованный и работе над книгой. Нам приятно выразить всем перечисленным здесь лицам нашу искреннюю призна- признательность. А. М. Яглом, Москва, май 1972 г. И. М. Яглом
¦ шу ,н я f..i 1 ОСЛОБ .0 оЛ ч *^ ! J 4'J .Д, Глава I . ВЕРОЯТНОСТЬ 1 § 1. Определение вероятности. Случайные события и случайные величины На практике очень часто приходится сталкиваться с опытами (иначе — испытаниями, наблюдениями, процес- процессами), могущими давать различные результаты в зависи- зависимости от обстоятельств, которых мы не знаем или не уме- умеем учесть. Так, например, при бросании игральной кости (однородного кубика, грани которого занумерованы циф- цифрами от 1 до 6) мы не можем знать заранее, какая из гра- граней окажется сверху, так как это зависит от очень мно- многих неизвестных нам обстоятельств (деталей движения руки, бросающей кость, положения игральной кости в момент броска, особенностей поверхности, на которую падает кость и т. д.). Нельзя также предсказать заранее, сколько выпускников средней школы подаст в определен- определенный год заявления в тот или в иной институт, сколько бракованных изделий окажется в выпущенной партии или сколько дождливых дней будет в будущем году; нельзя знать, сколько ошибок сделает школьник в предстоящей ему контрольной работе или на какой билет выпадет главный выигрыш в предстоящем тираже лотереи (номера выигравших билетов определяются путем извлечения не- нескольких бумажек с номерами из сосуда, в котором лежат тщательно перемешанные бумажки с номерами всех би- билетов) и т. д. Число подобных примеров, разумеется, можно было бы значительно увеличить. Применение математики к изучению явлений такого рода опирается на то, что во многих случаях при много- многократном повторении одного и того же опыта в одних и тех же условиях частота появления рассматриваемого резуль- результата (т. е. отношение числа опытов, в которых этот ре- результат наблюдался, к общему числу производимых опы- опытов) остается все время примерно одинаковой, близкой к
18 ВЕРОЯТНОСТЬ [Гл. I некоторому постоянному числу р. Так, например, извест- известно, что частота попадания в цель для данного стрелка в данных условиях стрельбы, как правило, почти всегда бывает примерно одинаковой, лишь изредка уклоняясь сколько-нибудь значительно от некоторой средней цифры (с течением времени эта средняя цифра может, разумеется, изменяться — в таких случаях говорят, что стрелок совершенствуется в стрельбе, или, наоборот, разучива- разучивается стрелять). Также и .частота выпадения шестерки на игральной кости или процент бракованных изделий при данных условиях производства обыкновенно мало меня- меняются при массовом повторении соответствующих «опытов» (бросания кости или изготовления данных изделий). Ис- Исходя из этого заключают, что в каждом случае сущест- существует определенное постоянное число, объективно харак- характеризующее сам процесс стрельбы, бросания кости, про- производства изделий и т. д., около которого и колеблется все время (не отклоняясь от него сколько-нибудь значи- значительно) средняя частота соответствующего результата (попадания в цель, выпадения шестерки, появления бра- бракованного изделия) в длинном ряду «опытов». Это постоян- постоянное число называют вероятностью рассматривае- рассматриваемого события. Аналогично определяют вероятность и в ряде других вопросов, относящихся к самым различным областям математики, механики, физики, техники, био- биологии. Наука, изучающая свойства вероятностей и при- применения этого понятия, называется теорией веро- вероятностей. Согласно сказанному выше вероятность того или иного события можно приближенно оценить по результатам длинной серии опытов. Однако само существование ве- вероятности, разумеется, нисколько не зависит от того, производим ли мы опыты или нет. В связи с этим воз- возникает весьма естественный вопрос о методах, позво- позволяющих паходить вероятности различных событий без предварительного проведения соответствующих опытов; владея такими методами, мы можем заранее делать опреде- определенные предсказания о результатах последующих опытов, что открывает большие возможности для естественно- естественнонаучных примепений понятия вероятности. Мы не будем здесь рассматривать зтот вопрос во всей полноте, а огра- ограничимся лишь одним простейшим примером, к которому,
I 1] ОПРЕДЕЛЕНИЕ ВЕРОЯТНОСТИ 19 однако, можно свести сравнительно широкий круг задач об определении вероятности *). Пусть мы имеем какой-то ящик (или, как чаще гово- говорят в подобных случаях, урну), в котором лежат тща- тщательно перемешанные 10 шаров, отличающиеся друг от друга только цветом: 5 шаров белых, 3 черных и 2 крас- красных. Вытащим не глядя из урны один шар; спрашивается, какова вероятность, что он будет того или другого цвета? Совершенно ясно, что здесь мы имеем 5 шансов из 10 вытянуть белый шар, 3 из 10 — вытянуть черный шар и 2 из 10 — вытянуть красный шар; другими словами, вероятности вытянуть белый, черный и красный шар 5 13 2 1 „ равны соответственно jo = у» 10 и 55 ^ ~5" * деи" ствительно, если мы попробуем много раз осуществить соответствующий опыт (каждый раз после осуществления опыта возвращая вынутый шар снова в урну и тщательно перемешивая все шары), мы убедимся, что примерно в 50% всех извлечений будет вынут белый шар, в 30% — черный шар и в 20% — красный шар. Естественно, что столь же просто решается задача о нахождении вероят- вероятностей и при любом другом количестве перемешанных шаров различных цветов в урне. Рассмотрим теперь еще несколько задач на определение вероятности, сводящихся к той же «задаче об урне». Задача 1. Какова вероятность того, что при бро- бросании наугад монеты сверху окажется герб? Очевидно, что эта задача равносильна следующей. Пусть мы имеем урну с двумя шарами, на одном из кото- которых написано «герб», а на втором — «цифра» (разумеется, вместо надписанных шаров можно рассматривать шары двух разных цветов, например, белого и черного). Какова *) Читателю, желающему более основательно ознакомиться с теорией вероятностей и с путями ее применения к естествознанию и технике, можно порекомендовать рассчитанную на широкого читателя книжку Б. В. Гнеденко и А. Я. Хинчина {25] или заметно бблыпую по объему, но также доступно составленную книгу Ф. Мостеллера, Р. Рурке и Дж. Томаса {26] (к последней книге приложен обстоятельный список литературы, сопровождаемый краткими аннотациями указанных в нем книг и статей). См. также несколько более трудные статьи А. Н. К о л- могорова [33] и М. К а ц а {34] и другую литературу, указан- указанную в списке литературы в конце настоящей книги.
20 ВЕРОЯТНОСТЬ [Гл. I вероятность, что при извлечении наудачу из урны одно- одного шара мы вынем тар с надписью «герб»? Ясно, что ис- искомая вероятность здесь равна у. Задача 2. Какова вероятность того, что при бро- бросании игральной кости у нас выпадет число очков, деля- делящееся 1Ш 3? Вместо бросания кости мы можем говорить об извле- извлечении из урны одного из имеющихся там шести шаров, занумерованных цифрами 1, 2, 3, 4, 5 и 6. Если теперь закрасить черной краской 3-й и 6-й шар, оставив осталь- остальные шары белыми, то мы придем к задаче об определении вероятности извлечения черного шара (числа 3 и 6 де- делятся на три, а остальные — не делятся). Очевидно, что 2 1 искомая вероятность здесь равна -g- = -g-. 3 а д а ч а 3. Известно, что на студенческом вечере при- присутствуют двести студентов из одного института, двести пятьдесят — из второго и триста — из третьего. Ка- Какова вероятность того, что студент, с которым Вы слу- случайно заговорили, учится во втором институте? Очевидно, что эта задача равносильна следующей. Пусть мы имеем урну с 750 шарами; 200 из этих шаров — белые, 250 — черные и 300 — красные. Какова веро- вероятность того, что при извлечении наудачу одного шара из урны мы вынем черный шар. Ясно, что эта вероятность 250 1 равна ш =-?. Постараемся теперь уловить общие принципы реше- решения всех этих задач. В разобранном перед задачами при- примере условие, что шары в урне тщательно перемешаны и вынимаются по глядя, означает, что мы с равными осно- основаниями можем ожидать появления любого из заключен- заключенных в урио шаров или, другими словами, что извлечения всех шаров равновероятны. А так как шаров всего у пас было 10, то естественно заключить, что для каждого из имеющихся шаров вероятность его извлече- извлечения равна тд. Далее, белых шаров у нас имеется пять; поэтому вероятность вынуть белый шар равна т^. Совершенно такие же рассуждения приводили к от- ответу в каждой из трех других задач. Так, например,
§ 1] ОПРЕДЕЛЕНИЕ ВЕРОЯТНОСТИ 21 в случае с бросанием игральной кости мы считали, что рав невероятны выпадения любой из шести граней куба; именно поэтому мы могли заменить задачу о бросании кости задачей об извлечении из урны одного из шести шаров. Но из шести граней имеются ровно две такие, что их выпадение удовлетворяет условиям задачи; вероят- вероятность выпадения какой-нибудь одной из этих двух гра- 2 ней равна -g-. Если предположить, что рассматриваемый опыт (из- (извлечение шара из урны, бросание монеты или игральной кости, разговор с одним из участников студенческого вечера и т. д.) может иметь п равновероятных исходов, то вероятность каждого из этих исходов следует считать равной —. Рассмотрим теперь какое-либо событие (из- (извлечение белого шара из урны, выпадение «герба» при бросании монеты или четной цифры при бросании играль- игральной кости, разговор со студентом, учащимся во втором институте и т. п.). определяемое результатами опыта. Если это событие осуществляется при т из п возможных равновероятных исходов опыта и не осуществляется при остальных п — т исходах, то вероятность его прини- принимается равной-jj. Другими словами, вероятность некото- некоторого события равна отношению числа равновероятных ис- исходов, благоприятных для данного события, к общему числу равновероятных исходов. Набранное курсивом предложе- предложение можно принять за определение понятия вероят- вероятности; при этом равновероятность отдельных исходов долж- должна оговариваться в описании производимого опыта (имен- (именно эту цель преследует указание на то, что игральная кость имеет строго форму куба и изготовлена из однородного материала, или что шары перемешаны и не отличаются ничем, кроме цвета). Хотя такое определение и не охва- охватывает некоторые важные случаи вычисления вероятнос- вероятностей (см., например, статьи 133] и [34], книги [271, [28] и [29], а также напечатанный мелким шрифтом § 5 этой главы), для нас оно в большинстве случаев будет до- достаточным. Условимся теперь о терминологии, которую мы будем далее применять. События, которые могут произойти или
.22 ВЕРОЯТНОСТЬ [Гл. I не произойти в результате произведенного опыта, мы бу- будем называть случайными событиями; в том же смысле мы будем говорить об исходах данного опыта. Случайные события мы будем обозначать большими латинскими буквами, а вероятности случайных событий (или определенных исходов опыта) буквой р; вероятность события А часто будет записываться как р (А). Значи- Значительную роль у нас будут играть опыты, которые могут иметь несколько различных исходов; в таком случае мы будем обозначать все эти исходы одной буквой с разными номерами (а сами опыты — чаще всего греческими бук- буквами). Каждому опыту такого рода отвечает определенная таблица вероятностей: исходы опыта I А\ I As I ... I AK вероятности p(Ai)\ p(Am ... Так, например, опыту, рассматриваемому в разобран- разобранном на стр. 19 примере, отвечает таблица Ai 1 2 А2 3 10 Аз 1 5 (здесь Ах — извлечение белого шара, А2 — черного и А9 — красного), а опыту, рассматриваемому в задаче 1,— простая таблица Вх 1 Т в2 1 Т (здесь Вх — выпадение «герба», а В2 — выпадение «циф- «цифры»); бросание игральной кости связано со следующей таблицей вероятностей: выпавшее число очков вероятности 1 1 6 2 1 6 3 1 6 4 1 6 5 1 6 6 1 6 и т. д.
i 1] ОПРЕДЕЛЕНИЕ ВЕРОЯТНОСТИ 23 Следует отметить одно существенное отличие послед- последней таблицы от первых двух. Здесь результаты опыта можно записать с помощью определенных чисел A, 2, 3, 4, 5 и 6) — возможность, которой мы не вмели в пред- предшествующих примерах. В этом случае мы можем сказать, что число очков, выпадаю- выпадающих при бросании кости, является случайной величиной, могущей принимать одно из шести возможных значений в за- зависимости от случая (т. в. в зависимости от не под- поддающихся учету обстоя- обстоятельств). Другими приме- примерами случайных величин могут служить число бра- бракованных изделий на сот- сотню, число рождений в ка- каком-либо городе за год, число очков, выбиваемых каким-либо стрелком при определенных условиях стрельбы с одного выстрела (ми- (мишень, на которой указаны числа очков, засчитываемых при попадании в каждую из ее частей, изображена на рис. 1) и т. д. *). Само название «случайная величина» обязывает нас как-то оценивать ее значение. Нетрудно понять, как следует это сделать. Рассмотрим, например, первую из перечисленных выше случайных величин (число брако- бракованных изделий на сотню); пусть это число в определен- определенных условиях производства не превосходит 6, причем еоответствующая таблица вероятностей имеет вид! число бракованных изделий I 0 |1|2|3|4|5|6 вероятности | 0,1 |o,15lo,2 [о,25| 0,1б| O,l|o,O5 Рис. 1. *) Понятие случайной величины стоит в стороне от основной темы этой книжки, но в теории вероятностей оно является одним из центральных. По этому поводу см., например, вторую часть книги Б. В. Гнеденко и А. Я. X и н ч и п а [25].
24 ВЕРОЯТНОСТЬ [Гл. I В таком случае из большого числа N сотен изделий при- примерно O,IN не будут содержать бракованных изделий, O,15N будут содержать по одному бракованному изде- изделию, 0,2N — по два, 0,25N — по три, O,15N — по четы- четыре, O,1N — по пяти и 0fi5N — по шести бракованных из- изделий. Следовательно, при большом N общее число а бракованных изделий можно считать равным а = 0,1-^-0 + 0.15ЛМ + ОДЛГ-2 + 0,25iV-3 + + ОДЛГ-5 + 0,05./V-6 и значит, среднее значение числа бракованных изделий на сотню (средний процент брака) будет равно ^=0,1-0 + 0,15-1 + 0,2-2 + 0,25-3 + 0,15-4 + 0,1-5 + + 0,05 -е= 2,7. Вообще, если таблица вероятностей для случайной величины а имеет вид вначения случайной величины I „ I „ I I I вероятности I Pi I Ра I ДО | • - - I Рк то среднее значение этой величины определя- определяется формулой ср. зн. а = рхах + р2а3 + psas + . . . + pkak. Из этой формулы, в частности, следует, что среднее зна- значение случайной величины является именно средним, т. е. что оно всегда не превосходит наибольшего из возмож- возможных значений случайной величины и не меньше наименьшего из ее значений. В самом деле, если аг — наибольшее зна- значение случайной величины а (т. е. ах > а2, аг > а8, . . . ..., al > aft), a ak — наименьшее ее значение (т. е. ah <^ аи Oft < Яг. • • ч «Л < «Л-l). то ср. зн. а = jBjttj + /?2«2 + • • • + РФп < Р\аг + pzat + ... . . . + phax = (Pt + p2 + . . . + jofe)aT = ax и ср. зн. a = р^х + p2a2 + . . . + phah > /?хаЛ + p2ah + ... . . . + phah = (Pl + p2 + . . . + pk)ah = ak (ибо j»! + jo2 + . . . + ph = 1).
{ 2J СВОЙСТВА ВЕРОЯТНОСТИ 25 3 а д а ч а 4. Пусть таблицы вероятностей, указываю- указывающие частоту попаданий в мишень для двух стрелков А и В, имеют вид: для стрелка А число очков 10 | 1 12 I 3 1 41 5| 6 | 71 81 9 1 10 вероятности |о,О2|о,Оз|о,О5| O,l|o,15| 0,2| 0,г| 0,l|o,07|o,05|o,03 для стрелка В число очков 10 11 12 I 3 1 41 5 | 61 71 8 1 9 1 10 вероятности |o,Ol|o,Ol|o,O4| O,l|o,25| 0,з|о, 1в|о,05|о,Оз|о,Ог|о,01 К ого из стрелков следует считать более метким? Здесь среднее число очков, выбиваемых одним выст- выстрелом, для стрелка А равно 0,02-0 +0,03-1 +0,05-2 + 0,1-3 + 0,15.4 + 0,2-5 + +0,2-6 + 0,1-7 + 0,07-8 + 0,05-9 + 0,03 -10 = 5,24, а для стрелка В оно меньше: 0,01-0 + 0,01-1 + 0,04-2 + 0,1 -3 + 0,25 • 4 + 0,3 • 5 + + 0,18-6 + 0,05-7 + 0,03-8 + 0,02-9 + 0,01-10 = «= 4,84 < 5,24. Поэтому более метким следует считать первого стрелка. § 2. Свойства вероятности. Сложение и умножение событий. Несовместимые и независимые события Из приведенного в предыдущем параграфе определения вероятности следует, что вероятность р (А) любого собы- события А есть правильная дробь: 0 < р (Л)< 1. При этом вероятность может равняться 1; это будет озна- означать, что событие А осуществляется при любом исходе рассматриваемого опыта, т. е. что событие Лдостовер- н о (так, например, равна 1 вероятность вынуть белый шар из урны, в которой заключены только белые шары). Вероятность может также равняться 0: это означает, что
26 ВЕРОЯТНОСТЬ [Гл. I событие ие осуществляется ви при каком исходе опыта, т. е. оно невозможно (нулю равна вероят- вероятность вынуть из урны с белыми шарами черный шар). Пусть теперь рассматриваемый опыт может иметь лишь два взаимно исключающих друг друга исхода А и В. В таком случае мы будем называть событие В проти- противоположным событию А и обозначать его через А (читать эту запись можно как «не Л»). Если событие А реа- реализуется при т из п равновероятных исходов опыта, то событие А реализуется при остальных п — т исходах; поэтому р {А) = —, р\А) — = 1 и, следова- следовательно, р (Л) = 1 - р (А). Таким образом, таблица вероятностей для опыта, имею- имеющего только два исхода, имеет простой вид; А I * р(А) \l-p(A) Рассмотрим теперь такие два события А и Аи что вы- выполнение события А с необходимостью влечет за собой и выполнение события Ах (например, А есть выпадение шестерки при бросании игральной кости, а А± — выпа- выпадение цифры, делящейся на 3). В таком случае событие At заведомо должно выполняться при всех тех исходах опыта, при которых выполняется событие А; поэтому ве- вероятность события Ах не может быть меньше вероятности события А. То обстоятельство, что выполнение А влечет за собой выполнение Alf мы будем записывать в виде А с At (читается «Л влечет i,»). Таким образом мы имеем следующее важное свойство вероятностей; если А сг Ау, то р (A) <j; p (At). Рассмотрим далее событие, которое состоит в том, что выполняется хоть одно из каких-то двух событий А и В; это событие мы будем называть суммой событий А и В и обозначать через А + В. При этом могут иметь место два существенно различных случая. Бели события А и В несовместимы, т. е. сразу оба они не могут иметь места, то событие А выполняется при каких-то щ
I SI СВОЙСТВА ВЕРОЯТНОСТИ 27 ив п равновероятных неходов опыта, а В — при т2 других исходах; в таком случае p(A +B) = p{A)+p{B) (правило сложения вероятностей). Так в рассмотренном на стр. 19 примере вероятность того, что будет извлечен белый или черный шар, в силу правила сложения, равна ~2~ + ТО" = Т"' Свойство вероятностей, составляющее содержание пра- правила сложения, может быть обобщено следующим образом. Пусть мы имеем к событий Аг, А2,..., A h, никакие два ив которых несовместимы между собой; обозначим через Аг -\- А2 + . . • -\- Ah собы- событие, которое состоит в том, что выполняется хоть одно из рассматриваемых & событий. В таком случае, оче- очевидно, р (Аг + Аа + . . . + Аь) = = р (AJ - этот более общий результат также иногда называют пра- правилом сложения вероятностей. В частности, если опыт может иметь к (и только к) различных взаимоиск- взаимоисключающих друг друга исходов, то ему отвечает таблица вероятностей А\ I А2 1 ... I Ак Р(А,) | Р(Аг) | ... | р(Ак) в которой сумма стоящих в нижней строке чисел равна единице: р (А,) + р (А2) + . . . + р (Л ft) = 1; это следует из того, что р (At) + р (Л2) +... + /? (Ak)= = р (At + А2 +. . . + Ak), а событие At+As + . . . +Ah достоверно (ибо какой-то один исход опыта осу- осуществляется наверное).
28 ВЕРОЯТНОСТЬ ¦ [Гл. I Предположим теперь, что события .ЛиВсовмести- м ы, т. е. могут реализоваться одновременно. В таком слу- случае уже нельзя утверждать, что р (А + В) = р (А) + + р (В). Действительно, пусть событие А выполняется при т1 из п равновозможных исходов опыта, а событие В — при т2 из этих п исходов. Событие А -f- В выполня- выполняется, если имеет место один из т1 первых или один из т2 вторых исходов; однако, так как эти исходы уже не обязательно все различны, то общее число их может оказаться меньшим, чем mt + т2. Таким образом, в общем случае можно лишь утверждать, что вероятность суммы двух событий всегда не превосходит сумму их вероятностей: р(А + В)^р(А) + р (В) (но р (А + В) > р (А) и р (А + В) > р (В), ибо в силу определения суммы событий АсА+ВиВаА + В). Аналогично и для любого числа к (не обязательно взаи- взаимоисключающих друг друга) событий имеем р(Аг + Az + . . .- Неравенство р (А -\- В)^. р (А) -\- р (В) можно не- несколько уточнить. Назовем произведением двух событий А и В событие, которое состоит в том, что вы- выполняются оба события; обозначим его через А В. Рас- Рассмотрим т»! равновероятных исходов опыта, при которых, выполняется событие А, и т2 исходов, при которых вы- выполняется событие В; предположим, что имеется точно I исходов, которые входят и в число щ первых исходов и в число т2 вторых. Очевидно, что если имеет место один из этих I исходов (и только в этом случае!), то выполня- выполняются сразу оба события А и В; поэтому р (АВ) = —. С другой стороны, если среди mt первых исходов и т2 вторых исходов имеется ровно / одинаковых, то всего мы имеем щ -{- т2 — I исходов (п сумме тг + ms имеется I исходов, которые засчитываются дважды). Таким образом, здесь / , . п. mi -\- ту — I mi ту /_ Р\ ~Г ; n n "Г n n и, следовательно, p {A + B) = p (A) + p {B) - p (AB).
§ 21 СВОЙСТВА ВЕРОЯТНОСТИ 29 Мы видим, что задача определения вероятности с у м- м ы А + В событий А и В сводится к нахождению веро- вероятности произведения.^/? этих событий. Послед- Последняя задача, в общем случае не очень простая, будет рас- рассмотрена в следующем параграфе. Однако имеется один частный случай, когда нахождение вероятности события АВ не составляет труда. Это — случай, когда события А и В являются независимыми, т. е. когда ре- результат опыта, с которым связано выполнение или не- невыполнение события А, никак не отражается на условиях опыта, с результатом которого связано событие В. Так, например, независимы события, состоящие в извлечении черного шара из двух различных урн, содержа- содержащих белые и черные шары; однако два последовательных из- извлечения черного шара из о д н о й урны (без возвращения вынутого шара обратно в урну) не представляют собой независимых событий (поскольку результат первого из- извлечения влияет на число оставшихся в урне черных ша- шаров и, следовательно, отражается на условиях второго опыта). Пусть событие А реализуется при т1 из п± равнове- равновероятных исходов первого опыта, а независимое от него событие В — при т2 из п2 равновероятных исходов вто- второго опыта; в этом случае вероятность события А равна —, а вероятность В равна —. Рассмотрим теперь слож- сложный опыт, состоящий в том, что производятся оба наши опыта. Очевидно, что этот сложный опыт может иметь ntn2 различных равновероятных исходов, поскольку каждому из «1 исходов первого опыта могут отвечать п2 различных исходов второго опыта. Из этих щп^ равновероятных ис- исходов событию А В будут благоприятствовать тп^гп^ ис- исходов, которые получаются, если комбинировать тх ис- исходов первого опыта, благоприятствующих событию А, с тп2 исходами второго опыта, благоприятствующими В. Та- Таким образом, вероятность события АВ будет равна mi m.2 и, значит, p (АВ) = p(A)p(B) (правило умножения вероятностей).
Sfr вероятность [гл. i Это правило можно обобщить следующим образом. Пусть А1з А2, . . ., Ак — какие-то /«взаимно неза- независимых событий, т. е. условия опыта, с резуль- результатом которого связано какое-либо одно из этих событий, никак не зависят от выполнения или невыполнения ос- остальных событий. В таком случае р (AtA2 . . .Ak) = p (AJ р {А2) . . . р (.4ft). Доказательство этого соотношения совершенно аналогич- аналогично выводу формулы р (АВ) — р(А)р(В), составляющей его частный случай. Если события А и Б и в независимы, то правило умножения р (АВ) = р (А) р (В) уже не обязано вы- выполняться; так, например, если В а А (скажем, А — выпадение четной цифры при бросании игральной кости, а В — выпадение двойки), то событие АВ совпадает с событием В и, следовательно, р {АВ) = р (В). Пока мы можем лишь утверждать, что р (АВ) <! р (А) и р (АВ) ^ ^ р (В) (так как из определения произведения событий вы- вытекает, что АВ сВи АВ с: А). Более подробно на воп- вопросе о вероятности произведения двух событий мы оста- остановимся в следующем параграфе. Для того чтобы пояснить применения выведенных про- простейших свойств вероятностей, рассмотрим несколько задач. Задача 5. Какова вероятность того, что при двух бросаниях монеты оба раза сверху окажется герб? Здесь ищется вероятность события АВ, где А есть выпадение герба при первом бросании, а В — выпадение герба при втором бросании. События А и В, очевидно, независимы; поэтому p(AB) = p(A)p(B) = -L-±- = ±- (см. задачу 1 на стр. 19). Задача 6. Какова вероятность того, что взятое на- наудачу целое положительное число, не превосходящее тысячи, окажется целой степенью (с показателем, большим еди- единицы) другого целого числа? Слово «наудачу» в условии этой задачи означает, что мы считаем появление любого числа от 1 до 1000
i 21 СВОЙСТВА ВЕРОЯТНОСТИ 31 равновероятным. Далее, так как 2»<1000<210, Зв<1000<3», 54<1000<5в, б8 < 1000 < б4, 78 < 1000 < 7<, tO3 = 1000 < 10*, И2 < 1000 < И8, 122 < 1000 < 123, . . . .., 312 < 1000 < 31s, 32а > 1000, то вероятность того, что число будет являться целой сте- D пенью 2, равна -|щ- (среди 1000 чисел от 1 до 1000 имеется 8 степеней двойки: 28 = 4, 28 = 8, 2<, 28, 2е, 27, 2е и 2е); точно так же вероятность того, что наше число будет целой степенью 3, 5, 6, 7, 10, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 22, 23, 24, 26, 28, 29, 30, 31 соответственно равна 5 3 2 2 2 _1 1 1 , 1000' 1000 ' 1000 ' 1000 ' 1000 ' 1000 ' 1000 •' •'' 1000 *е число является целой степенью 4, 8, 9, 16, 25 или 27, то оно одновременно является и целой степенью меньшего числа; поэтому эти случаи мы из рассмотрения исключи- исключили). Так как все соответствующие события попарно не- несовместимы, то искомая вероятность равна %2 С О Q A n looo" + Tooo + loW + Тооо + !боо~ + Т6Ш"+ ,1,1, . 1 _ 40 __J_ "t"lOOO""t"TOOOr"t"---"f'TOOOr~ 1000 ~~ 25 18 раз Задача 7. В колоде 52 карты; одна из четырех мас- мастей объявляется «козырной». Какова вероятность того, что взятая наудачу карта является тузом или козырем? Пусть событие А заключается в том, что выбранная карта является тузом, а событие В в том, что она явля- является козырем; в таком случае событие АВ состоит в том, что эта карта является козырным тузом и р {А) = та" (в колоде имеются карты 13-ти наименований? двойки, трой- тройки, ..., тузы), р (В) = -2-, р (АВ) = -jgj. Отсюда вытекает, что искомая вероятность равна
32 ВЕРОЯТНОСТЬ [Гл. I 3 а д а ч а 8. Шесть охотников увидели лису и одновре- одновременно выстрелили в нее. Предположим, что каждый из охотников на таком расстоянии обычно попадает в лису и убивает ее в одном случае из трех. Какова вероятность того, что лиса будет убита? Пусть события Alt А2, . . . ,Ав означают поражение лисы 1-м, 2-м, . . . , 6-м охотником. В условии задачи указывается, что р (Аг) = р (А2) = . . . = р (Ав) — -g-; требуется найти р (S), где S = Ах + А2 + . . . + Ав. События Аи А2, ¦ . .,Лв, очевидно, независимы; зто дает возможность при решении этой задачи воспользоваться формулой (АВ) = {А) р(В)-р (А)р (В) (см. ниже текст, напечатанный мелким шрифтом). Однако . такое решение не очень просто, так как формула, выра- выражающая вероятность суммы многих (совместимых) со- событий довольно сложна. Более удобно иное решение зтой задачи. Будем искать вероятность р (S) того, что лиса уцелеет. Промах 1-го, 2-го, . . ., 6-го охотника естественно обозначить через Лц Л2, . . . Д6; в силу формулы р (А) = 1 — р (А) имеем р (Лг) = р (Л ^ = . . . = р (Л"в) = -g-. Для того чтобы лиса уцелела, необходимо, чтобы все охотники промах- нулись,_т. е. здесь речь идет о вероятности события А1А2--'А6, где события AltA2, . . ., Же — взаимно не- независимы. Итак, р (S) = р (АХА2 ... Л,) = р (Л,)- ... -р (Ав) = _ 2 2 2 __ 2» __ 64 ~~ 3 " 3 ' * *' ' 3 ~~ 3" ~~ 729 ' —и в силу той же формулы р (Ж) = 1 — р (А), * 64 665 l Формулу р (А + В) = р(А) -\-р(В) — р (АВ) можно обобщить и на случай отыскания вероятности суммы произвольного числа ft (возможно — совместимых!) событий А\, Л2, . . . , А^. Имеем р {Ai + А2 + А3) = р {(Ai + Л2) + As} = = р (Ai + А2) + р (А9) - p[(Ai + А2)А3].
§ 2] СВОЙСТВА ВЕРОЯТНОСТИ 33 Здесь р (At + А„) — р (At) + р (А2) —р (AtA2). Сложнее раск- раскрыть смысл выражения р {{Ах + А*)А3). Согласно определению сум- суммы и произведения событий событие (Ах + A2)AS состоит в том, что выполняется хоть одно из событий At и А2 и, кроме того, событие А 3. Но это означает, что выполняется по крайней мере одно и;> событий AiAs и А2Аа, состоящих в выполнении А\ и As, соот- соответственно А2 и Л3. Таким образом, имеем (Ai + А2)А3 = AiA3 и, следовательно, р {(Ах + Аъ)А3) = р (АхА3 + AtAa) = = р (AtAs) + р (ЛИз) - Р {(AtAs) (A2AS)}. Далее, событие (AiA9) (А^Аа) состоит в том, что выполняются сразуяба события А\А3 (т. е. и Ль и Аа) и А^Аа (и А2, и As). Дру- Другими словами, событие (А\А3) (А^Аз) состоит в том, что выпэлна- ются три события At, А2 иА3,—т. е. оно не отличается от события А\А%АЬ. Таким образом, окончательно получаем р (Ах + А2 + А3) = = р (Ai) + р (А2) — р (АхА2) + р (А3) — р (AtA3) - р (АгА3) + + р или, в другом порядке, р (Ах + Л2 + As) = - Р (Ai) + р (А2) - р (АхА2) -f р (А3) - р (АхА3) - р + р (AiA2As). Аналогично этому для произвольного к имеем р (Ах + Аг + . . . + Ак) = = p(At)+p(A2) + . .. + р (Ак) - — р (AxAJ — р (AtAs) — ....— р (Ли-лЛк) + + р (АхА^Аъ) + р (АхАгА^ + . . . + р (А^А^хАн) - - р (AiAzA3Ai) — . . . + (-I)* p (AtA2 . . . АН). Доказать эту формулу можно с помощью метода математической индукции подобно тому, как мы доказали ее для к = 3. Покажем, как с помощью приведенной формулы решить за- задачу 8. При к = 6 имеем: P(Ai+A2+...+Ae) = = Р(Ах) + р(А2) + ... + р (Ло) - р (АхА2) — — р (AtA3) — ...—/> + р (АхА^А9) + р (AxA^At) + . . . + р {AtAsAe) — ... 2 А. М. Яглом, И. М. Яглом
34 ВЕРОЯТНОСТЬ 1Гл. I Но (события А\, А2, ... ,A-ii взаимно неваввсимы!) р (Ai) (Л) (Л) р (AxAJ = p / р (AiAsAg) = . .. = р {AtAsAe) = p Hi) />Иа) p(^s) = Ig")» • • • /1\в . . ,,р (AiAj . . . Ав) •= р Hi) Р(^а) • • • /> Ив) =(§¦) » откуда получаем; — т. е. аот же ревультат, чте и выше. Другие примеры применения атой «бщей формулы могут быть найдены, например, в книге {37]. Обратимся теперь к понятиям суммы и произ- произведения случайных величин, которые также будут полезны нам в дальнейшем. В качестве примера, иллюст- иллюстрирующего первое из этих понятий, рассмотрим следую- следующую задачу} Задача 9. Б цехе установлены два различных станкаг производящих одинаковые изделия. Ив опыта известно, что 1-й (более старый) станок может произвести в сутки до трех бракованных изделий, причем вероятности числа бракованных изделий здесь таковы! число браков, изделий'{в сутки) 10 1112 13 вероятности | 0,3 I 0,4 | 0,2 | 0,1 2-й же (новый) станок производит не больше одного бра- бракованного изделия в сутки, причем вероятность того, что хоть одно из произведенных за сутки изделий окажется бракованным, равна здесь всего 0,1: число браков, ивделий (в сутки) 10 11 вероятности | 0,9 | 0,1 Спрашивается, каково среднее число произведенных цехом в сутки бракованных изделий?
§ 2] СВОЙСТВА ВЕРОЯТНОСТИ 35 В этой задаче одновременно рассматриваются две слу- случайные величины а и В, первая из которых принимает значения о0, о17 а2 и а3 (а именно, 0, 1, 2 и 3) с вероят- вероятностями р0, plt p2 и р3 (в данном случае равными 0,3,0,4, 0,2 и 0,1; ясно, что р0 + рг -J- р2 + р3 — 1), а вторая принимает всего два значения Ьо и &г (а именно, 0 и 1) с вероятностями д0 и qx (равными 0,9 и 0,1; ясно, что Чо + Qi — !)• Средние значения этих случайных величин (среднее значение числа а бракованных изделий, произ- производимых за сутки 1-м станком, и среднее значение числа В бракованных изделий, производимых за сутки 2-м стан- станком) соответственно равны ср. зн. а = роао + Pid! + р2а2 + р3а3 = =0,3-0 + 0,4-1 + 0,2-2 + 0,1 -3 = 1,1 и ср. зн. Р = qub0 + ftfrj = 0,9 -0 + 0,1 -1 = 0,1. Нас же интересует случайная величина а + В — число бракованных изделий, производимых за сутки обоими станками; зта величина может принимать значения «о + &о> ао + W> ai + ^о» ai + &1*» а2 + ^о» а2 + f>u «з + &о и аз + ^i (в нашем случае — значения 0, 1, 2, 3 и 4). Будем (пока!) считать, что случайные величины а и В независимы, т. е. что, скажем, величина а принимает зна- значения 0, 1, 2 и 3 с вероятностями р0, ръ р2 и р3 (т. е. 0,3, 0,4, 0,2 и 0,1) независимо от того, какое значение прини- принимает (для тех же суток) величина В. В таком случае и со- события а = at (где i = 0, 1, 2 или 3) и В = bj (где / = 0 или 1) будут независимы, — и значит, р {а — щ и В = bj) = р(а = at) -р (В = bj) = piqj. Исходя отсюда, мы приходим к следующей (детализиро- (детализированной) таблице значений случайной величины а + В: значения | я0 + Ьо (= 0) I ав + bi (=1) I ai + Ьо (=1) I ai+bi ( = 2) вероятности | рода (=0,27) | poqt (= 0,03) | piqa (=0,36) | рщ (=0,04) «2-fbi(=0) | , Р2<?о(=0,18) =0,02) | />3до (= 0,09) 2*
36 ВЕРОЯТНОСТЬ [Гл. I Теперь по основной формуле для среднего значения случайной величины имеем: ср. зн. (а + Р) = poqo(ao + b0) + р<дг{а0 + Ьг) + + Pi9o («1 + h) + Р1Я1 К + h) + рд0 (о2 + b0) + + J»z9i («2 + h) + p3q0 {a3 + b0) + p^ (aa + Ьг) = = «о (РоЯо + Po9i) + <h (ptf,, + ptfj + a2 (p2q0 + «a (PsQo + PiQi) + h (poqo = «0P0 (?o + 9i) (9o + 9i) + &o<7o (Po + Pi + P2 + Ps) + + Ъ& (p0 + Pi + P2 + PS) = aiPi + ЯгРз + «зРз) + (ьо9о + bi9i) = = ср. зн. а + ср. зн. р = 1,2 (браков, изделий/сутки). Таким образом мы видим, что среднее значение суммы двух случайных величин равно сумме их средних значений. Впрочем, надо заметить, что последнее заключение, полученное нами с помощью довольно утомительных пре- преобразований выражения для ср.зн.(а + Р), не является особенно глубоким. В самом деле, пусть в какой-то день, который мы назовем первым, 1-й станок произвел я(г) бракованных изделий (где а^ равно 0, 1, 2 или 3), а 2-й станок — fc(x) бракованных изделий (где Ы1'' равно 0 или 1). Аналогично этому пусть во второй, в третий, . . ., в n-й день 1-й станок производит а<2), а<3), . . ., а(и) брако- бракованных изделий, а 2-й станок — Ы2\ Ы8\ . . ., Ып~> брако- бракованных изделий. Тогда общее число выпускаемых цехом бракованных изделий в первый, во второй, в третий, . . . . . . , в n-й день равно а<*> + Ы», а<2> + Ь<2>, аC> + Ь<3> , . . .,а<"> + К"), а среднее число выпускаемых за сутки бракован- бракованных изделий будет равно
§ 21 СВОЙСТВА ВЕРОЯТНОСТИ 37 Но при большом п величина (nq> + Ь<1>) + (а») + Ь<$) + (д<3> +^ + .„ + (д<п> + &<">) п будет очень близка к ср. зн. (а + Р), а величины — к ср. зн. а и ср. зн. р, откуда и следует, что ср. зн. (а + Р) = ср. зн. а + ср. зн. р. Замечательно, что устанавливаемый последним прос- простым рассуждением результат является более общим, чем тот, который был доказан ранее! В самом деле, в этом рас- рассуждении мы никак не использовали независимость величин аир (которая ведь и на самом деле может не иметь места, ибо на работе обоих станков могут сказы- сказываться некоторые общие факторы, связанные, например, с тем, что оба станка используют одно и то же сырье). Но в этом последнем случае мы уже не сможем утверж- утверждать, что р (a = at и В = bj) = р (а = at) -р (Р = bj) = поэтому вместо величин />о<7о, />o9i и т. д. в таблице зна- значений случайной величины а + р будут стоять какие-то вероятности р00 (вероятность того, что a = а0 и р = &0), Рт (вероятность того, что а = а0 и р = &,) и т. д., чис- численные значения которых зависят от неизвестной нам во всех деталях связи между величинами аир. Впрочем, это обстоятельство почти не отразится на про- проведенной выше выкладке. В самом деле, теперь мы будем иметь ср. зн. (а + Р) = р00 (а0 + Ьо) + рп (а0 + &г) + («1 + h) + Рп («1 + W) + pi0(a2 + Ьо) + рл (о, + &,) + + Pso («s + К) + Psi («з + h) = Яо (Poo + Рп) + + «1 Ою + Рп) + «2 (Рго + Pzi) + Рз (Рзо + Рп) + К (р00 + р10 + Pzo + Pso) + h (p01 + ри + р21 + ра1).
38 ВЕРОЯТНОСТЬ [Гл. I Но Роо + Poi = Р (а = «о и Р = К) + Р (а = о0 и В = bj = = р (а — а0 и Р == Ьо или Ьг). Однако Ьо и fcj — зто все возможные значения случайней величины р, так что р (а — а0 и р = &0 или Ьг) есть не что иное, как просто р (а = а0) = р0! Точно так же устанавливается, что Рю + Ри. = J»n Р20 + Р21 = /?а> Рзо + Рз1 = Рз- Далее, Роо + Ло + Рго + Рзо = Р (а = «о и Р = Ьо) + + р (а = сг и р = Ьо) + р (а = а2 и р = Ьо) + + /> (а = а3 и В = Ьо) = = /> (а = а0, или ац или а2, или а8 и Р = ^в) = = ^ (Р = Ь«) = 9о и аналогично Рп + Рп + Ра + Рзх = ft- Таким образом, в этом случае мы по-прежнему имеем ер. вв. (а + Р) = = («оРо + OiPi + «aPa + «зРз) + (Mo + *>i?i) = = ср. зн. а + ср. зн. р. Разумеется, полученный нами результат можно рас- распространить и на любое число случайных величин, для которых тоже среднее значение их суммы равно сумме их средних значений. Обратимся теперь к ситуации, в которой возникает по- понятие произведения двух случайных величин: Задача 10. Фермер ежегодно отправляет на рынок а0, alt a2 или а3 телят, причем вероятности (частоты) от- отдельных значений числа проданных телят здесь таковы'; число телят I «о I в> | а% I аз вероятности \ Ро \ pi \ Р2 \ Рз (разумеется, р0 + Pi + р2 + р3 — !)• С другой стороны, цена одного теленка в разные годы может равняться или Ьо или Ь1? причем вероятности отих цен равны соответст- соответственно q0 и qx (= 1 — q0): цепа теленка I ''u I fci вероятность | 9« | 9i
i 2] СВОЙСТВА ВЕРОЯТНОСТИ 39 Спрашивается, какова средняя годовая выручка фермера от продажи телят? Здесь мы снова инеем дело с двумя случайными вели- величинами аир, причем для сохранения аналогии с задачей 9 мы обозначили возможные значения этих величин и соответствующие этим значениям вероятности теми же символами а0, a±, a2l as; b0, Ьг, и р0, ри ра, ps; q0, qlt как и выше. Интересует же нас произведение ар этих двух ве- величин (произведение числа проданных телят на цену одного теленка), которое может иметь 8 значений aobo, aobL; аф0, ajfcj; a2b0, aj>ii aab0, аф^. При этом если счи- считать величины а и Р независимыми, то таблица вероятностей отдельных значений величины оф будет иметь вид вначения I афо I aofa I aibo I aj>i I вз&о I aj>i | аФв I вероятности I poqo \ poqi Поэтому среднее значение величины оф в этом случае равно ср.зн.(аР) = p^a^ + РоЯхпо^ + р^афо + W + РтД&Фо + (qob0 + />i% + Р2аа + РзЯзКЯоЬо + = (ср.зн.а)-(ср.зн.р). Таким образом мы видим, что для независимых случайных величин а и р среднее значение их произведения равно произведению средних значений этих величин. Так же и для большего числа взаимно независимых случайных величин среднее значение их произведения всег- всегда равно произведению их средних значений. Заметим, однако, что, в противоположность случаю суммы двух случайных величин, для их произведения независимость величин является существенным условием, без которого полученный нами результат может оказаться уже неверным. Для иллюстрации этого достаточно рас- рассмотреть случаи, когда aL = cs2 = а, где а характе- характеризуется следующей таблицей вероятностей: вначения величины a I +1 I —1 вероятности | 0,5 | 0,5
40 ВЕРОЯТНОСТЬ [Гл. I В этом случае, очевиден), ср. зн. аг = ср. зн. аа = 0,5 (+1) + 0,5 (—1) = О, так что (ср. зн. aj)-(cp. зн. а2) = 0-0 = О, в то время как величина ctj • a2 = а2 всегда равна +1 (ибо 1J = (_1J = + i)> так чт0 ср. зн. (ага2) = 1 > 0 = (ср. зн. а,)-(ср. зн. а2). С установленным на этом примере неравенством ср. зн. (а2) > (ср. зн. аJ мы снова встретимся в § 4 зтой главы. § 3. Условные вероятности Два события А и В мы нагвали независимыми, если ре- зультат опыта, с которым связано событие А, не влияет на условия опыта, с которым связано В. Однако это обстоя- обстоятельство вовсе не всегда имеет место. Соответствующий пример мы уже приводили выше; повторим его здесь по- подробнее. Пусть А —событие, состоящее в извлечении чер- черного шара из урны, содержащей т черных и п — т бе- белых шаров, В — событие, состоящее в извлечении чер- черного шара из т о й же урны после того, как из нее уже вынут один шар. Очевидно, что если первый выну- вынутый шар был черным, т. е. если событие А имело место, то в урне после первого извлечения остается т — 1 черных ии — т белых шаров и поэтому вероятность события В будет равна ——у-. Если же первый извлеченный шар был белым (имело место событие А), то в урне останется т черных ии — т — 1 белых шаров, и искомая вероятность станет равной _. . Таким образом, вероятность события В меняется в зависимости от того, осуществляется или не осуществляется А, т. е. вероятность события В здесь / m — 1 т \ может принимать два различных значения! j- и г 1, v /I — 1 ft — 1 У для которых следует иметь и рагличные обозначения.
§ 3] УСЛОВНЫЕ ВЕРОЯТНОСТИ 41 Вероятность, которую имеет событие В в том случае, когда известно, что событие А имело место, мы будем на- называть условной вероятностью собы- события Б приусловии А и обозначать через рА (В). Таким образом, в нашем случае рл (В) = т~ . Анало- Аналогично определяется условная вероятность р-^ (В) собы- события В при условии Л (т. е. при условии, что А не про- ; в нашем случае р_ (В) ~ j-. Очевидно, что условная вероятность рл (В) какого- либо события В при определенном условии А может быть и меньше и больше безусловной вероятности р (В) этого события (т. е. вероятности, которую имеет В, если про результат опыта, с которым связано А, ничего неизвестно). Так, в рассмотренном выше примере р (В) = —, посколь- поскольку заранее мы можем с равной вероятностью ожидать, что при втором извлечении мы вынем любой из п содер- содержащихся в урне шаров, а из этих п шаров ровно т чер- черных. Таким образом, здесь рА(В) = т~ . <-^- = р(В), а р_ (В) — ——у > — = р (В). Если события А и В не- независимы, то, очевидно, рл (В) = р(В). Последнее условие даже можно считать точным математическим о п- ределением понятия независимости событий, поз- позволяющим для любой пары событий А и В проверить, являются ли они независимыми или нет (см. по этому поводу пример, напечатанный мелким шрифтом в конце параграфа). Условные вероятности можно вычислять аналогично тому, как мы вычисляли в § 1 безусловные вероятности. Пусть событию А благоприятствуют N равновероятных исходов опыта, позволяющего определить, выполняются ли или нет событие А и некоторое другое событие В, при- причем из этих N исходов М благоприятствуют также и В, а остальные N — М не благоприятствуют В. В таком слу- чае рА (В) = -/у (и рА (В) = —^—1. Так, например, в ра- разобранном выше примере опыт, состоящий в последова- последовательном извлечении двух шаров из урны с п шарами, имеет п (п — 1) равновероятных исходов (в первый раз
42 ВЕРОЯТНОСТЬ [Гл. I мы можем вынуть любой из п имеющихся шаров, во вто- второй раз — один из п — 1 оставшихся), из которых собы- событию А благоприятствуют N = т (п — 1) исходов {в пер- первый раз извлекается один из т черных шаров, затем — любой из и— 1 оставшихся); из этих т (п — 1) исходов событию В благоприятствуют М = т (т — 1) исходов (в первый раз извлекается любой из m черных шаров, за- затем — любой из m — 1 оставшихся черных шаров) и, следовательно, здесь ,д\ _М_ m {in — 1) m — 1 Pa \D'~~W-~ m(n—l) n — 1 ' Обозначим теперь общее число равновероятных исхо- исходов опыта, с которым связано выполнение событий А и В, через К. Так как из этих К исходов выполнению и со- события А и события В благоприятствуют М исходов, то ве- вероятность события АВ, состоящего в том, что имеют место и . D М тг М N М М /Е>. N , ,. АнВ,равна ^. Но -^ = jf-jy . a ff=PA(B) »j? = P(A) (из К равновероятных исходов опыта событию А благо- благоприятствуют N). Следовательно, мы имеем р (АВ) - р (А) рА (В). Это и есть общее правило для определения вероятности произведения АВ двух событий; его также часто назы- называют правилом умножения вероятнос- вероятностей (то правило, которое мы называли правилом умно- умножения в § 2, является его частным случаем). Таким об- образом, для того, чтобы найти р {АВ), надо знать услов- условную вероятность рл {В), характеризующую зависимость, существующую между событиями А и В; одними веро- вероятностями р (А) и р (В) вероятность события АВ не оп- определяется. В том случае, когда вероятность события В не меняется в результате наступления или ненаступления события А, т. е. когда события ЛиДнезависимы, Ра (В) — р (В) и р (АВ) = р (А) р (В) — результат, кото- который мы уже имели выше. Из определения условной вероятности сразу выводят- выводятся следующие свойства этой величины: а) 0 < ра (В) < 1; ра (В) = 1, если А с: В (в част- частности, если В есть достоверное событие); ра (В) = 0, если А и В несовместимы (в частности, если В есть невозмож- невозможное событие);
§ 3] УСЛОВНЫЕ ВЕРОЯТНОСТИ 43 б) если В cz Ви то рА (В) < рА ^ в) если В и С несовместимы, то рА (В -\- С) = рА (В) -\- + Ра (С); если Bv В2, . . . ,Bh попарно несовместимы, то РД(Я, + Я, + ... + Bh) = pA(Bl) + pA(B,)+.. . + pA(Bk); г) PA(B)^i-pA{B). Доказательства этих свойств совершенно аналогичны при- приведенным в § 2 доказательствам тех же свойств для обыч- обычных (безусловных) вероятностей. Заметим еще, что из формулы р (АВ) = р (А) рл (В) следует, что (ибо события А В и ВА, разумеется, не отличаются). От- Отсюда вытекает, в частности, что, зная вероятности р (А) и р (В) двух событий А и В и условную вероятность рА (В) события В при условии А, мы можем определить также и условную вероятность рв (А}: Так, в разобранном выше примере с извлечением шаров из урны р (А) = р (В) = — (вероятности того, что при пер- первом и что при втором извлечении будет вынут черный шар, обе равны ¦—); поэтомурв (А) — рА(В) = n_i (здесь рв (А) — вероятность того, что неизвестный нам первый вынутый шар был черным, если известно, что при втором извлечении оказался вынутым черный шар). _ Наконец отметим, что поскольку одно из событий Л и Л обязательно имеет место, то сумма событий АВ («В и Л») и ЛВ («В и Л"») совпадает с событием В. А так как р(АВ) = =*р(А) рА(В), pJAB) = р (Л) р3 (В) и р(АВ + ЛВ) = = р (АВ) + р (АВ) (события АВ и АВ несовместимы, ибо несовместимы А и Л), то р(В) = р (А) рА (В) + р (А) рА (В).
44 вероятность 1гл. 1 Так, в случае того же примера, что и выше, Совершенно аналогично, если какой-либо опыт а может иметь А; (и только к) попарно несовместимых исходов Аи А2,. - - ,А ftt т<> любое событие В можно представить в виде суммы событий А^В + -^2# +... + ikBn p(B)=p(At)pA,(B) + р(А2) рАг(В)+. . .+p(Ak)-PAk(B). Эта формула называется формулой полной ве- вероятности. Задача 11. В трех урнах находятся соответственно: 1) 2 белых и 4 черных шара; 2) 4 белых и 2 черных шара; 3) 3 белых и 3 черных шара. Из одной урны {неизвестно из какой) вынут наудачу шар. Какова вероятность того, что шар извлечен из пер- первой урны, если он оказался: а) белым; б) черным? Пусть событие А состоит в том, что вынутый шар ока- оказался белым, а событие Л — в том, что он оказался чер- черным; далее, пусть В есть событие, которое состоит в том, что шар вынут из первой урпы. Нага опыт извлечения одного шара может иметь 3-6 = 18 исходов (по числу шаров во всех трех урнах), которые мы считаем равнове- равновероятными (другими словами, мы считаем равновероят- равновероятным, что шар вынут из любой из наших урн). Из этих 18 исходов событию А благоприятствуют 9, а из них собы- событию В благоприятствуют 2. Событию Л благоприятст- благоприятствуют тоже 9 из наших 18 исходов, но из них В благо- 2 приятствуют уже 4. Таким образом, имеем рА (В) = -д- 3 а д а ч а 12. Слово «папаха» составлено из букв разрез- разрезной азбуки. Затем карточки с буквами тщательно пере- перемешиваются и из них извлекаются по очереди и расклады-
§ 3] УСЛОВНЫЕ ВЕРОЯТНОСТИ 45 еаются в ряд какие-то четыре. Какова вероятность по- получить таким путем слово «папа»? Пусть событие А состоит в том, что первой извлекает- извлекается буква «и», событие В — в том, что второй извлекается буква «а», С — в том, что третьей извлекается снова «л» и D — в том, что четвертой буквой снова оказывается «а»; в таком случае то событие, вероятность которого нас ин- интересует, можно записать как ABCD. Далее, применяя последовательно несколько раз формулу для вероятности произведения двух событий, имеем 2 1 {С)=. = ± п, наконец, р (ABCD) = p {ABC) pABC (D) = 1. •§- = 1. Задача 13. Имеется 5 урн, из которых две содер- содержат по одному белому и по 5 черных шаров, одна урна — 2 белых и 5 черных шаров и, наконец, последние две урны — по 3 белых и по 5 черных шаров. Наудачу выбирается одна урна и из нее наудачу извлекается один шар. Какова ве- вероятность того, что этот шар окажется белым? Обозначим через Ах, А2 и А3 события, состоящие в том, что шар извлечен из урны, содержащей один, или два, 2 или три белых шара; в таком случае р (Аг) = -=-; р {А^ = 1 2 = -е- лр (А?) = -е- - Далее, если В есть событие, состоящее в том, что извлекается белый шар, то по формуле полной вероятности имеем: р(В) = p(Ax).pAi(B) + p(A2)-pAi{B) + р(А3)-рАз{В) = 2 J^,l JLL2 JL 23 Приведем в заключение простой пример, иллюстрирующий при- применение данного на стр. 41 определения независимости случайных , событий. Рассмотрим правильный тетраэдр из однородного мате- материала, на трех гранях которого нанесены цифры 1, 2 и 3, а на четвертой — все эти три цифры одновременно (рис. 2). Через А
46 ВЕРОЯТНОСТЬ [Гл. I обозначим событие, состоящее в том, что подброшенный кверху тетраэдр упал на грань, на которой имеется цифра 1; аналогично этому буквами В и С мы будем обозначать события, состоящие в падении тетраэдра на грань, имеющую на себе цифру 2, соответственно, 3. В таком случае ясно, что р {А) = р (В) = = /> (С) = 2". Действительно, тетраэдр может упасть на каждую из Ооих г ан">й с одинаковой вероятностью, а каждая из цифр имеется ровно на двух из четырех граней. Если теперь мы знаем, что событие А произо- произошло, то это значит, что тетраэдр упал или на грань, на которой нанесена одна цифра 1, или на грань, на которой име- имеются три цифры, 1, 2 и 3; при этом и событие В и событие С будут выпол- выполняться во втором случае и не будут выполняться в первом. Следовательно, здесь рА (В) = рА (С) = ?", так что Рис. г. РА (В) = Р (В) и рА (С) = р (С), т. е. и события^ и В, и событиям! и С будут независимы- м и; соответственно этому и р{АВ) = р(А)р(В) = Т , р(АС) (см. правило умножения вероятностей для независимых событий на стр. 29). Аналогично проверяется, что и события В и С явля- являются независимыми: для них тоже рв (С) = р (С) = -тр Из приведенного примера можно также сделать вывод, что из попарной независимости любых двух из трех событий А, В и С не вытекает еще независимость всех трех этих событий, т. е. вы- выполнение равенства р (ABC) =p(A)p {В) р (С) (ср. стр. 30). В самом деле, ясно, что в пашем примере одновремен- одновременное выполнение событий А и В уже плечет за собой выполнепие со- события С, так что здесь j в то время как
§ 4] ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ 47 § 4. Дисперсия случайной величины. Неравенство Чебышева и закон больших чисел Важнейшей характеристикой случайной величины, бесспорно, является ее среднее значение. С помощью сред- среднего значения мы можем сравнивать две случайные ве- величины: так, например, из двух стрелков (см. задачу 4, :\\\ Рис. 3. стр. 25) лучшим естественно считать того, для которого среднее число выбиваемых им очков будет больше. Од- Однако встречаются задачи, в которых знание одного лишь среднего гначения случайной величины доставляет слиш- слишком мало данных об этой величине. Рассмотрим, напри- например, пушку, ведущую прицельный огонь по мишени, удаленной от нее на расстояние а км (рис. 3). Бели обозначить дальность полета снаряда через а (км), то среднее значение величины а, как правило, будет равно а; отклонение среднего значения от а свидетельствовало бы о наличии систематической погрешности стрельбы (систематического перелета или недолета сна- снарядов), которую можно было бы устранить, изменив со- соответствующим образом наклон пушечного ствола. Од- Однако отсутствие систематической ошибки нисколько не гарантирует высокую точность стрельбы: чтобы оценить точность, нам необходимо еще знать, насколько близко ложатся снаряды к цели (ибо равенство ср. вн. а — а лишь означает, что перелет снаряда встречается в сред- среднем столь же часто, как и недолет). Как же определить точность стрельбы (и сравнить ка- качество стрельбы по цели двух орудий)? Отклонение сна- снаряда от цели задается числом а — а; однако среднее значение величины а — а будет, очевидно, равно пулюз ср. зн. (а — а) = ср. зн. а — а = а — о = О,
48 ВЕРОЯТНОСТЬ 1Гл. I ;что, впрочем, ясно, ибо в среднем положительные и от- ;рицательные значения величины а — а взаимно сокра- сократятся. Разумеется, хорошей характеристикой «разброса» было бы среднее значение величины | а — а | (где верти- вертикальные черточки, как всегда, обозначают абсолют- абсолютную величину числа); однако математики не очень любят иметь дело с абсолютной величиной чисел, по- поскольку она плохо поддается дальнейшим алгебраическим преобразованиям. Поэтому принято характеризовать раз- разброс случайной величины средним значением квадрата ее отклонения от своего среднего значения: ведь квадраты и положительных и отрицательных чисел всегда поло- положительны, и никакого «сокращения» отклонений здесь не произойдет. Полученное таким образом число называется дисперсией случайной величины а: дисп. а = ср. зн. (а — аJ (= ср. зн. (а — ср. зн. аJ). Дисперсия случайной величины а и является наибо- наиболее распространенной мерой «разброса» (или отклонения от среднего значения) рассматриваемой случайной вели- величины х). Ясно, что в случае орудий, ведущих прицельную стрельбу по мишени, лучшим следует считать орудие, для которого дисперсия величины а — длины полета сна- ! ряда — будет меньше (здесь мы считаем, что орудия уже i отрегулированы так, что средняя длина полета снаряда ' совпадает с расстоянием а от орудия до цели). Нетрудно понять, что для случайной величины а, ха- характеризуемой таблицей вероятностей: значения I nil яг I ... I fljj вероятности | р\ >) Ясно, что если — как в нашем примере — случайная ве- величина а измеряется в км, то и ее среднее значение имеет размер- размерность км, а дисперсия — размерность км2. Поэтому наряду с дис- дисперсией часто рассматривают число, равное корню квадратному из дисперсии случайной величины. Это число называется сред- средним квадратичным уклонением случайной геличины: ср. кв. укл. а = |Адисп. а; оно измеряется в тех же единицах, что и сама случайная величина а, и также служит мерой «разброса» ее значений.
§ 4] ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ 49 среднее значение а равно а = ср. зн. а = PjOj + р2а2 + . . . + phah (ср. выше, стр. 24), дисперсия найдется по формуле дисп. а = ср. зн. (а — аJ = = Pi К — af + р2 (а2 — аJ + . . . + pk (ak — aJ. Последнюю формулу можно записать и в несколько ином виде. Заметим, что (а — аJ == а2 — 2аа -f а2. Поэтому, поскольку среднее значение суммы (случайных) величин равно сумме их средних значений (см. стр. 38), дисп. а = ср. зн. (а — аJ = ср. зн. (а2 — 2аа + а2) = = ср. зн. а2 + ср. зн. (—2аа) + ср. зн. а2. Но а2 — это не случайная величина, а число, имеющее вполне определенное значение х); поэтому ср. зн. а2 = а2. С другой стороны, величина —2аа получается из слу- случайной величины а умножением всех ее значений на числе —2а; поэтому и ее среднее значение получается с помощью умножения среднего значения величины а на —2а: ср. зн. (—2аа) = —2а-ср.зн. а = —2а -а = —2а2. Таким обрагом, окончательно получаем: дисп. а = ср. зн. а2 + ср. зн. (—2аа) -+¦ ср. зн. а2 = = ср. зн. а2 — 2а2 + а2 = ср. зн. а2 — а2 = = ср. зн. (а2) — (ср. 8н. аJ, *) Можно, конечно, понимать аа как «случайную величину» со следующей «таблицей вероятностей»: значения вероятности отсюда также вытекает, что ср. зн. а* = !.•«* = а2,
50 ВЕРОЯТНОСТЬ [Гл. I т. е. дисперсия случайной величины равна среднему значе- значению ее квадрата, уменьшенному на квадрат среднего зна- значения. Отсюда, в силу того, что дисперсия случайной величины всегда неотрицательна (ибо это есть среднее значение величины (а — аJ, все значения которой поло- положительны), вытекает, что среднее значение квадрата слу- случайной величины всегда не меньше квадрата ее сред- среднего значения (ср. выше, стр. 40). Задача 14. Двум однотипным станкам отвечают следующие таблицы вероятностей (частот) того или ино- иного числа бракованных изделий (на тысячу изделий): 1-й станок: число браков, изделий {на тысячу) I 0 1 1 I 2 I 3 I 4 еероятности |o,l|o,2|o,4lo,2|o,l 2-й станок', число браков, изделий (но тыетуЦ О 1112 I 3 i 4 еероятности |о,15|о,2|о,25|о,з|о,1 Сравнить средние числа выпускаемых \-м и 2-м станками бракованных изделий и дисперсии тех же величин. Нетрудно видеть, что среднее число выпускаемых 1-м станком бракованных изделий (случайной величины а) и среднее число выпускаемых 2-м станком бракованных изделий (величины Р) будет одинаковым: ср. 8н. а = 0,1-0 + 0,2-1 + 0,4-2 + 0,2-3 + 0,1-4^ 2 и ср. вн. р= 0,15-0+ 0,2-1+0,25-2+0,3-3+ 0,1-4 = 2; с этой точки эрения оба станка можно считать равноценны- равноценными. Однако дисперсия величины а меньше дисперсии fi: йисп. а = 0,l-@-2)a + 0,2-A-2)а + 0,4-B-2)а + +0,2-C-2J + 0,1- D-2J = 1,2, a дисп. р = 0,15-@-2J +0,2-A-2J +0,25-B-2J + +0,3- C-2J + 0,1-D_2J = 1,5. Это значит, что продукция первого станка является более «стабильной»; здесь числа бракованных изделий в
§ 4] ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ 51 равных тысячах выпущенных пвделий более плотно груп- группируются вокруг среднего значения 2, чем в случае вто- второго станка. Заметим теперь, что дисперсия суммы двух независимы,! случайных величин всегда равна сумме их дисперсий. В самом деле, пусть а и В — две независимые слу- случайные величины, т. е. такие, что вероятности отдельных исходов одной из них нисколько не зависят от того, какие значения приняла в этот момент другая величина. В та- таком случае, как мы внаем (см. стр. 34—39), если ср. 8н. а = а и ср. вн. В = Ъ, то ср. вн. (а + В) = = а + Ь и ср. 8Н. (аВ) = ab. Наряду с а и В рассмотрим еще случайные величины а2 и В2, значения которых равны квадратам значений вели- величин а и В; для них также имеем: ср. 8Н. (аа -f- В2) = ср. зн. а2 + ср. 8н. р2. Далее, дисп. а = ср. зн. а2 — а2; дисп. В = ср. зн. В2 — Ъг и дисп. (а + В) = ср. вн. (а + ВJ — [ср. вн. (а + РI2 = = ср. зн. (а + рJ — (а + ЬJ = = ср. вн. (а2 + 2сф + Р2)— (а8 + 2аЪ + Ь2). Но поскольку среднее значение суммы случайных вели- величин равно сумме их средних значений, то ср. вн. (а« + 2ар + р2) = ср. зн. а« + ср. вн. Bеф) + + Ср. 8Н. Р2. А так как случайная величина 2аВ в два раза больше слу- случайной величины ар, то ср. вн. Bар) = 2 ср. зн. (аР) = 2ab. Таким обрагом, окончательно получаем: дисп. (а + Р) = = (ср. зн. а2 + 2аЬ + ср. зн. ра) — (а2+ 2аЬ + Ь2) = = (ср. зн. а2 + ср. вн. р2) — (а2 + &*) = = (ср. зн. а* — аа) + (ср. зн. р2 — fr8) = дисп. а + дисп. р.
52 ВЕРОЯТНОСТЬ [Гл. 1 Ясно, что и для произвольного числа п о- парно независимых случайных величин диспер- дисперсия их суммы равна сумме их дисперсий. Однако для н е независимых случайных величин это будет уже не так. Пусть, например, а4 и а2 — это одна и т а ж е случайная величина а со средним значением а; тогда «1 + а2 = 2а. В этом случае, очевидно, ср. зн. Bа) = 2 ср. зн. а (т. е. ср. зн. (at + а2) = ср. зн. at + ср. зн. а2). Однако дисп. Bа) = 4 дисп. а (т. е. дисп. (at + аг) = 2 дисп. at + 2 дисп. аа), поскольку дисп. Bа) = ср. 8Н. [2а — ср. зн. BаI2 = ср. вн. Bа—2аJ— = ср. 8Н. [4(а — аJ] = 4 ср. зн. (а — аJ = 4 дисп.а. Задача 15. Предприятие выпускает какие-то из- изделия, причем для каждого отдельного изделия существует определенная вероятность р оказаться бракованным (ска- (скажем, р = 0,002 = 0,2%). Считая, что все изделия из не- некоторой тысячи изделий независимо друг от друга могут оказаться бракованными с вероятностью р, найти сред- среднее значение числа бракованных изделий на 1000 выпущен- выпущенных изделий и дисперсию этой величины. Обозначим через at (где i — 1, 2, 3, . . ., или 1000) случайную величину, равную 1, если i-e изделие окажется бракованным, и 0 в противном случае; в таком случае все 1000 величин аг имеют одну и ту же таблицу вероят- вероятностей: значения I 110 вероятности | р I 1—р Поэтому ср. зн. at = pi + A — р)-0 = р (= 0,002). и а? дисп. а,- = ср. зн. а? —(ср. зн. агJ = [jo-1 + A —/?)-0] — _ р2 = р _ р2 = р A _ р) (= 0,002-0,998 = 0,001996).
§ 4] ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ 53 Интересующая же нас величина а равна сумме всех ве- величин а — at + а2 + сс3 + . . . + «юоо» причем, по предположению, все величины а/ взаимно не- независимы. Поэтому ср. зн. а — ср. 8Н. а4 + ср. зн. а2 + . . . + ср. 8н. а1ооо= = 1000 р (= 2) и дисп. а = дисп. at + дисп. аа + . . . + Дисп. а1000 = = ЮООр A-р) (= 1,996). Приведенное решение задачи 15 испольвует то, что среднее значение и дисперсия суммы п взаимно независимых случайных величин at, a2, . . ., ап с одинаковым средним значением а и одинаковой дисперсией d равны п-кратным среднему значению и дисперсии одной величины щ: ср. 8Н. (щ -\- О&2 + • . . + an) = п ср. 8Н. щ = па и дисп. (at + a2 + . . . + an) = п дисп. at = nd. В частности, если а — число осуществлений некото- некоторого события А в последовательности п взаимно независи- независимых испытаний, причем вероятность осуществления А при каждом испытании равна р, то ср. 8Н. а = пр и дисп. a = пр A — р). Из сказанного вытекает одно следствие, которое весь- весьма часто оказывается полезным. Рассмотрим среднее арифметическое ai + «2 + ¦ ¦ ¦ + ап «ор = п взаимно независимых случайных величин с одинаковым средним значением а и одинаковой дисперсией d. Так как все значения величины аср в п рае меньше соответствую- соответствующих значений величины at -f- a2 + • • • + an, то сред- среднее значение acp также в п раз меньше среднего значения
54 ВЕРОЯТНОСТЬ 1Гп. I суммы at + ай + . . . + ап, т. е. ср. 8Н. «ср = — (па) = а. Дисперсия же величины аср в и2 раз меньше диспер- дисперсии величины aj + «2 + • • • + ап (СР- с0 сказанным на стр. 52 о дисперсиях величин а и 2а); поэтому nd d дисп. acp = -^ = -. Таким образом, среднее значение среднего арифметического п взаимно независимых случайных величин с одинаковыми средним значением и дисперсией равно среднему значению каждой из этих величин; дисперсия же среднего арифмети- арифметического в п раз меньше дисперсии каждой из рассматри- рассматриваемых случайных величин. Приведенный вывод можно проиллюстрировать на следующем примере. Пусть нам надо с возможно боль- большей точностью определить значение какой-то физической величины а (для конкретности можно представлять себе, что речь идет, скажем, об определении i екоторого рас- расстояния на плоскости). Результат а одного измерения ин- интересующей нас величины можно считать случайной ве- величиной, ибо всегда существует определенная вероятность ошибки, связанная с неточностью измерительных прибо- приборов и недостаточной тщательностью измерения; при этом отсутствие систематической ошибки измерения означает, что ср. 8Б. а ~ с (ср. выше, стр. 47). Произведем теперь, скажем, 20 неза- независимых измерений и образуем среднее арифметическое аср результатов ait a2) . . ., a20 этих измерений. При этом ср. зн. аср = ср. 8н. а = а, т. е. значения величины аор, так же как и значения ве- величины а, группируются вокруг истинного значения а измеряемой величины. Однако, так как дисп. аср = 2q дисп. а,
§ 4] ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ 55 то разброс значений аср является заметно меньшим, чем разброс значений а; поэтому приняв sa а значение вели- величины аср, мы имеем все основания ожидать, что большая ошибка будет менее вероятной, чем в случае, когда ва а принимается результат а одного измерения. Так, на- например, если мы измеряем на плоскости расстояние поряд- порядка 100 м, то ошибка в 1—2 м часто является вполне воз- возможной; однако среднее арифметическое двадцати неза- независимых измерений вдесь почти наверное будет отли- отличаться от истинного значения заметно меньше чем на 1 м. Последнее замечание вплотную подводит нас к одному замечательному неравенству, вывод которого является основной целью этого параграфа. Так как дисп. аср < < дисп. а, то мы предположили, что вероятность заметного отклонения величины аср от среднего значения а этой величины меньше вероятности большого отклонения а от числа а = ср. вн. а. Это заключение можно строго обосновать, базируясь на следующем фундаментальном результате: если а — это случайная величина со средним значением а и дисперсией d, то всегда Здесь е — произвольное положительное число; вапись же Р (| а — а | > е) означает вероятность того, что значение случайной величины а отклонится от сред- среднего значения а той же величины больше чем на е. Нера- Неравенство (*) называется неравенством Чебы- ш е в а; оно показывает, что чем меньше дисперсия d случайной величины а, тем меньше вероятность значи- значительного отклонения а от числа а = ср. вн. а. Неравенство Чебышева (*) представляет собой част- частный случай другого неравенства (также обычно называе- называемого неравенством Чебышева), относящегося к произ- произвольным случайным величинам C, принимающим только неотрицательные значения. А именно, если р принимает только неотрицательные значения и среднее значение р равно Ъ, то, каково бы ни было положительное число с, 1г, (**)
56 ВЕРОЯТНОСТЬ | Гл. I где iP (p > с) — вероятность того, что случайная вели- величина Р примет значение, большее с. Ясно, что неравен- неравенство (*) вытекает из (**) — для того, чтобы в этом убе- убедиться, надо только выбрать в качестве 3 неотрицатель- неотрицательную случайную величину (а — аJ (среднее значение ко- которой по определению равно дисперсии d величины а) и заметить, что условие \а — а | ]> е равносильно условию (а — аJ >¦ е2. Поэтому нам достаточно доказать (**). Предположим, что таблица вероятностей величины р имеет вид значения I h i 63 I Ьз I • • • I ''n вероятности | />i | p* | pa \ ... \ pn в таком случае Ъ = ср. 8Н. р = p±b± + рф2 + p3bs + . . . + pnbn. Будем считать, что возможные эначения величины р пе- перечислены в нашей таблице в порядке возрастания, так что bt < b2 <Z b3 <; . . . < bn. Пусть bh — первое ив зтих значений, которое превосходит с (т. е. значения Ьи Ь2, .. .,fcft_i все меньше или равны с, a bk, Ьк+1, . . .,Ъп — больше с); так как все значения Р неотрицательны, то сумма в правой части предыдущего равенства не может увеличиться от того, что мы отбросим в ней слагаемые Р\Ъ± + pzb2 + . . . + pfc_ibfc_i. Следовательно, РкЪк + Pfc+A+i + ... + Pnbn. Заменим теперь в правой части полученного неравенства все значения bh, Ьк+1, . . ,,Ъп меньшим, чем они, числом с; при этом наша сумма только еще больше уменьшится и, вначит, b> phc + р&+1с + . . . + рпс = = (Ph + Рк+1 + • ¦ • + Рп)С- Таким обравом мы приходим к неравенству Р» + Рк+i + • • • + Рп< — » которое в точности совпадает с нужным нам неравенст- неравенством (**), поскольку сумма pk -f рк+1 + • . . -f- pn вероятно- вероятностей тех значений Р, которые превосходят с, как раз и равна Р (р > с).
§ 4] ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ 57 Вернемся теперь к случайной величине аср, представ- представляющей собой среднее арифметическое п независимых случайных величин а,, а2, . . ., ап с одним и тем же сред- средним значением а и одной и той же дисперсией d: Выше мы видели, что d ср. 8Н. ссср =г а и дисп. аср = — . Применяя теперь к величине аср неравенство Чебышева (*), получаем *>(|acp-a|>e)<A. (***) Так, например, пусть мы имеем 20 независимых измерений расстояния в 100 м (так что и среднее значение а резуль- результата каждого ив этих измерений равно 100 м)\ предпо- предположим, что дисперсия каждого измерения близка к 2 (м2). Иначе говоря, мы предполагаем, что квадрат ошибки каждого измерения в среднем равен 2, т. е. что абсолют- абсолютная величина ошибки каждого измерения обычно имеет порядок 1—2 м. В таком случае формула (***) при е = = 1 (м), дает Р(|аср-100|> 1X^=0,1. Таким образом, вероятность того, что среднее арифмети- арифметическое наших 20 измерений отклонится от истинного зна- значения расстояния больше чем на 1 м, будет вдесь ваве- домо меньше ОД х). Отметим еще специально, что если а — число осущест- осуществлений при п независимых испытаниях некоторого события А, вероятность осуществления которого при одном 1) Следует еще иметь в виду, что неравенство Чебышева (*), так же как и следующее ив него неравенство (***), являются весь- весьма грубыми: реальная величина стоящих в левых частях втих неравенств вероятностей чаще всего оказывается намного меньшей стоящих справа значений. Так, например, применив более сложные методы, можно показать, что в рассмотренном нами примере ве- величина Р (| аср — 1001 > 1) на самом деле будет меньше, чем 0,002.
58 ВЕРОЯТНОСТЬ [Гл. I испытании равна р, то (поскольку на стр. 53 было пока- показано, что ср. 8н. а = пр и диен, а = прA — р)) при любом е > О или, что то же самое, Отсюда следует, что при любом (сколь угодно малом!) числе е ^> 0 можно выбрать число п независимых испы- испытаний столь большим, что вероятность Р (| — Р того, что частота — осуществлений события Л в серии из п последовательных испытаний будет отличаться от вероятности р осуществления события А в одном испы- испытании больше чем на е, станет сколь угодно ма- мало й. В самом деле, ведь при любых р и е отношение р*- ~ , фигурирующее в правой части неравенства (••**), стремится к нулю при п -*- оо; вначит, при достаточно большом п оно будет сколь угодно мало. Но в жизни мы обычно пренебрегаем событиями достаточно малой ве- вероятности, считая их «практически невозможными» (при- (причем от того, насколько важно нам, чтобы мы не ошиблись в своем выводе, зависит то, начиная со сколь малой ве- вероятности мы склонны считать, что соответствующее со- событие заведомо не произойдет). Поэтому последнее за- заключение означает, что при любом положительном е мы можем найти столь большое N, что неравенство и > N «практически гарантирует» то, что отклонение частоты — от вероятности р будет меньше е. Это заключение, которое обосновывает высказанное в начале настоящей главы отождествление вероятностей случайных собы- событий с их частотами, носит название закона боль- больших чисел (поскольку оно связано с выбором боль- большого числа N испытаний). Аналогичный вывод можно сделать и из более общего чем (****), неравенства (***). А именно, ив (***) выте- вытекает, что для любого сколь угодно малого положитель-
i 5] АЛГЕБРА СОБЫТИЙ 59 ного числа е мы всегда можем выбрать столь большое число га случайных величин аи аа, . . ., ап (иначе говоря, выбрать столь большое число наблюдений или испытаний), чтобы оно гарантировало нам достаточную малость веро- вероятности Р (| аср — а | > е). В самом деле, ведь при любом е (и любом фиксированном значении д) правая часть —j неравенства (***) также стремится к нулю при неогра- неограниченном росте п. Таким обраэом, при любом е > 0 мы можем при помощи выбора достаточно большого числа га гарантировать «практическую достоверность» неравенства | аср — а | < е. Общее утверждение о том, что при до- достаточно большом числе однотипных независимых испы- испытаний (т. е. независимых испытаний, приводящих к результатам, имеющим одинаковое среднее значение и оди- одинаковую дисперсию) среднее арифметическое их результа- результатов аи a2, . . ., ап можно сделать сколь угодно близким к среднему значению а величин оц, а2, . . ., ап, также носит название закона больших чисел. На самом деле, мы можем даже не требовать, чтобы участвующие в определении величины аср взаимно неза- независимые случайные величины аи аг, а3, . . . все имели одинаковые средние значения и одинаковые дис- дисперсии. Действительно, если средние значения этих ве- величин равны аи a2t as, . . ., а все дисперсии dif d2, ds,. . . ограничены (т. е. существует такое число D, что dt •< D при всех г), то из неравенства Чебышева (*) следует, что . где «»- Отсюда, в свою очередь, вытекает, что для любого числа е > 0 мы можем, выбрав число п достаточно большим, «практически гарантировать» выполнение неравенства | «ср — ^р I < 8- ^то утверждение представляет собой еще одну форму 8 а к о н а больших чисел. § 5. Алгебра событий и общее определение вероятности В предыдущих параграфах у нас играли значительную роль две операция, сопоставляющие двум событиям А и В некоторое третье еобытие; эти операции мы назвали суммой и произведением событий А и В и обозначили через А + В и АВ (см. стр. 26 и 28). Некото- Некоторым основанием для этих названий служило то, что правила
60 ВЕРОЯТНОСТЬ 1Гя. I «сложения» и «умножения» событий во многом напоминают правила сложения и умножения чисел. Так, из самого определения суммы и Произведения событий следует, что А-\-В=В-\-Аш АВ = ВА; в одном место мы воспользовались также равенством (А + В)С = = АС + ВС (см. стр. 33). В настоящем параграфе мы более тща- тщательно проанализируем сходство и отличие «алгебры событий» от «алгебры чисел». В арифметике и алгебре рассматриваются числа разной приро- природы — целые, рациональные, действительные (как рациональные, так и иррациональные), комплексные. Во всех случаях каждым двум числам а и Ь можно поставить в соответствие два других чис- числа — их сумму а + Ь и произведение аЪ. При этом правила, отно- относящиеся к сложению, во многом напоминают правила, относящиеся к умножению; так, например, а + Ь = Ь + а и ab = Ъа, (а + Ь) + с = а+ (Ь + с) И (аЬ)с = а (Ъс). Эта апалогия между действиями сложения в умножения находит также отражение в существовании двух замечательных чисел 0 и 1, таких, что прибавление одного из них и умножение на второе не меняет никакого числа: а + 0 = а и а-1 = а. Однако аналогия между действиями сложения и умножения не простирается, к сожалению, особенно далеко. Причиной этого яв- является несимметричный распределительный (дистрибутивный) закон (а + Ь)с = ас + be, в записи которого сложение и умножение фигурируют совсем по-раз- по-разному. Действительно, если заменить в последней формуле всюду знак сложения на знак умножения и наоборот, то мы придем к не- нелепому равенству а-Ь+ с= (а + с)-(Ъ+ с). Поэтому многие свойства сложения и умножения весьма далеки друг от друга. Так, например, число 0 играет совершенно особую роль по отношению к умножению: эта особая роль определяется за- замечательным равенством а-0 = 0 (из которого, в частности, вытекает, что деление отличного от нуля числа а на 0 невозможно); в противоположность этому аналогичное равенство, относящееся к сложению: а+1 = 1, разумеется, не имеет места. Существуют, однако, и отличные от чисел объекты, для кото- которых можно определить операции сложения и умножения, обладаю- обладающие многими обычными свойствами сложения и умножения чисел. При этом в некоторых случаях мы получаем алгебраические сис- системы, в которых имеет место большая, чем в случае чисел, близость между определенными в этих системах действиями сложения и
8 5] АЛГЕБРА СОБЫТИЙ 61 умножения. Для примера рассмотрим совокупность всевозможных множеств («фигур») плоскости. Сумму А + В двух множеств А и В естественно определить как их объединение (рис. 4, а). При этом, очевидно, будем иметь А+В=В+А (в последнем равенстве слева и справа стоит объединение трех множеств А, В и С, которое можно было бы обозначить в просто как А + В + С без скобок). Роль нуля здесь будет играть так назы- называемое «пустое» множество О, вовсе не содержащее точек; для такого множества имеем Определим теперь проивведе- Рис. 4. ние А В двух множеств А и В как их общую часть или пересечение (рис. 4, б). В таком слу- случае, очевидно, АВ = ВА и {АВ)С = Л (ВС) (в последнем равенстве слева и справа стоит общая часть трех мно- множеств А, В.и С, которую естественно обозначить просто через ABC). Роль единицы здесь играет вся плоскость /. Действительно, для любого множества А имеем AI = А. Для определенной таким образом «алгебры множеств» имеет место также распределительный или дистрибутивный закон И + В)-С = А-С + В-С, для доказательства которого достаточно рассмотреть рис. 5, а, где заштрихованы двумя разными способами множества А + В и С, так что их произведение (пересечение) (А + В)-С оказывается покрытым двойной штриховкой; цифрой / обозначено произведе- произведение А-С и цифрой //— произведение /В-С. Однако здесь имеет место также и «второй дистрибутивный закон» А-В + С= (А + С)-{В+ С), получающийся из первого заменой сложения на умножение и на- наоборот. Для доказательства этого закона достаточно рассмотреть рис. 5, б, где двумя разными способами заштрихованы множества А + С и В + С, так что их произведение (А + С)-(В + С) оказывается покрытым двойной штриховкой; цифрой / обозначено множество А-В и цифрой // — множество С.
62 ВЕРОЯТНОСТЬ [Гл. I Аналогия между этими двумя распределительными законами определяет полное сходство между правилами, относящимися к сложению множеств, и правилами, относящимися к их умножению. Так, например, здесь, очевидно, А-О =О и А + 1= I; можно сравнить также равенства А-А = А и А+А=А, пп одно из которых не имеет места в алгебре чисел. В арифметике и алгебре значительную роль играет сравнение чисел по величине. Если считать основным знаком сравнения знак В . Рис. 5. <; (соотношение а ^ ft означает, что число а не больше числа ft), то основные правила, относящиеся к сравнению чисел, примут сле- следующий вид: а ^ а (всякое число а не больше са- самого себя); если а^/)иЬ<а, тоа=Ь (если а не больше Ь и ft не больше а, то числа а и b равны); если a<iii^ с, то а *С с (если число а не больше b и b не больше с, то а не больше с). Можно также ввести в рассмотрение сравнение множеств, условив- условившись писать А а В (этот знак d заменяет «составной знак» ^), если А есть часть множества В (могущая и совпасть со всем мно- множеством В). Здесь тоже очевидно х), х) Отметим одно существенное отличие между сравнением чисел и сравнением множеств. Для любых двух (действительных) чисел а к b имеет место одно из двух соотношений а ^ ft или b ^.а (мо- (могут даже выполняться оба эти соотношения, если числа а и b рав- равны). В противоположность этому для двух множеств А и В чаще всего не будет выполняться ни о д н о из двух соотношений А С В и В С А. (Подобное положение будет иметь место и для ком- комплексных чисел, если условиться, как это иногда делают, пи- писать а < b в том случае, когда комплексные числа а я Ъ имеют одинаковый аргумент и модуль числа а не больше модуля числа Ъ.)
§ 51 АЛГЕБРА СОБЫТИЙ 63 если А а В и В С А, то А = В\ если А а В и В а С, то А а С. Из других правил, относящихся к сравнению множеств, заслужи- заслуживают упоминания правила; и АВ а А, АСА + 1 а также ACI (последнее соотношение означает, что пустое множество О не содержит точек, отличных от точек множест- множества А,— это верно при любом А, ибо О вовсе не содержит никаких точек). Существенное отличие алгебры множеств от алгебры чисел заключа- заключается в наличии в алгебре множеств еще одной операции, ^ставящей в соответствие каждому множеству А новое множество А (допол- (дополнение А). Эта операция определяется следующим образом: А со стоит из всех точек плоскости не принадлежащих мно жеству А. Основные правила, относящиеся к этой новой операции таковы; _ _ О = / в / = О; 3 = А; если А а В, то В С А; Рис. в. и, наконец, А+ В = А-В в (см. рис. 6, на котором по-разному ваштрихованы множества А в Вт причем дважды заштрихованный оказалось множество А + В, а хоть один раз — множество Л"-В). Существует также много других совокупностей некоторых объек- объектов, для которых естественно определяются понятия суммы, произ- произведения, а также «упорядочение» А С В и «дополнение» А, удовлет- удовлетворяющие всем перечисленным выше алгебраическим свойствам. Одним из примеров таких совокупностей является рассмотренная в §§ 1—3 совокупность случайных событий: алгебра событий, как легко видеть, обладает' всеми теми же свойствами, что и алгебра множеств. Другие примеры можно получить, рассматривая вместо множеств точек плоскости множества элементов какой-либо другой природы, например, множества целых чисел. Если при этом под суммой и произведением множеств А и В по-прежнему понимат ь их объединение и пересечение (например, если A2viA$—> множеств а
64 ВЕРОЯТНОСТЬ [Гл, I чисел, делящихся, соответственно, на 2 и на 3, то в множество Аг + А3 входят все четные числа и те иа нечетных чисел, к отер .и делятся на 3, а множество А*Аз состоит из всех целых чисел, крат- кратных 6) и считать, что А С В, если А составляет часть В (например, А* С А%, где At — множество чисел, делящихся на 4), и что А — это множество всех целых чисел, не принадлежащих А (если А — множество всех простых чисел, то А содержит все составные числа и число 1), а иод I и О понимать соответственно множество всех целых чисел и множество, не содержащее ни одного числа, то сохранят силу все выписанные выше соотношения. В качестве еще одного примера можно рассмотреть множество всех делителей некоторого числа ./V, не делящегося ни на какой пол- полный квадрат, больший 1 (в частности, при ./V = 30— множество чи- чисел 1, 2, 3, 5, 6, 10, 15 и 30); если под А + В и АВ понимать соот- соответственно общее наименьшее кратное и общий наибольший дели- делитель чисел А и В, под А С В — соотношение «А есть делитель В» и обозначить через О и / — числа 1 й N (т. е. 1 и 30) и через А — число N/A (в нашем случае 30Л4), то по-прежнему А + В = В + А и АВ= ВА, (А + В)-С = А-С + В-С и А-В+ С= {А + С)-(В + С), АСА + В и ABC А, А + В = ~А-Ъ и ~а7Ё =А + В и т. д. Наконец, весьма лажный пример того же рода составляет мно- множество всех логических предложений (т. е. утверждений, относи- относительно каждого из которых имеет смысл говорить о том, что оно истинно или что оно ложно); это множество составляет предмет изучения математической логики. Здесь под суммой А + В и произведением! А-В предложений А и В следует понимать предложения «или А, или В» и соответственно «и А, и В*, под А С С В — то, что из истинности предложения А следует_и истинность предложения В (короче: «из А следует В»), лод А —'отрицание предложения А (предложение «А неверно»), под I к О — предло- предложение, которое ааведомо истинно, и предложение, которое заведомо ложно. В таком случае снова выполняются все вышеописанные соотношения, которые выражают определенные законы логики. Так, например, _ А+ А = / есть закон исключенного третьего: во всех случаях предложение А либо истинно, либо ложно; соотношение А-А = О есть закон противоречия: ни в каком случае предло- предложение А не может одновременно оказаться и истинным и ложным. Многочисленность и важность алгебраических систем, облада- обладающих всеми перечисленными выше свойствами, заставила матема- математиков специально ааняться их изучением. В настоящее время та- такие системы называются алгебрами Буля, по имени
5] АЛГЕБРА СОБЫТИЙ 65 известного английского математика и логика XIX в. Джорджа Буля, впервые применившего такую алгебру в своих исследова- исследованиях по логике 1). Элементы алгебры Буля, вообще говоря, не являются числа- числами. Однако часто удается поставить в соответствие каждому эле- элементу А число|^4| или р (А), удовлетворяющее следующим условиям: 0<р(Л)<1; р(О) = 0, рA) = 1; если А С В, то р (А) < р (В); если А-В = 0, то р (А + В) = р {А) + р (В). Это число называют абсолютной величиной эле- элемента А или его нормой, а саму алгебру Буля в этом случае называют нормированной. В качестве примеров можно привести семейство плоских фигур, принадлежащих квадрату со стороной единица (сам квадрат играет роль элемента / этой алгеб- алгебры Буля), где за абсолютную величину или норму фигуры А при- принята ее площадь, или множество всех делителей не делящегося нп на какой квадрат целого числа N (например, числа 30), где под нормой числа А понимается logNA (в нашем случае log30 A); совокупность всех предложений математической логики также мо- можно рассматривать как нормированную алгебру Буля, если усло- условиться считать абсолютную величину (норму) предложения равной 1, если это предложение истинно, и равной 0, если оно ложно. Примером нормированной алгебры Буля является и та алгебра собы- событий, которая изучалась в §§ 1—3; здесь роль абсолютной величины или нормы события А играет вероятность р (А) этого события. Связь теории вероятностей с алгебрами Буля может быть поло- положена в основу общего определения самого предмета этой науки. А именно, можно сказать, что теория вероятностей изучает сово- совокупности объектов, образующие нормированную алгебру Буля; эти объекты называются событиями, а норма р (А) события А называется вероятностью. Так, например, в «задаче об урне» (или в любой сводящейся к ней задаче) фактически рассматрива- рассматривается нормированная алгебра Буля всевозможных множеств, *) Алгебру Буля можно охарактеризовать как совокупность элементов, в которой определены две операции А и A -f- В (сопо- (сопоставляющие каждому элементу А, соответственно паре элемен- элементов А и В, какой-то элемент того же множества), обладающие свой- стлами: А + В = В + А, (А + В) + С = А + (В+ С), Все остальные свойства алгебр Буля могут уже быть выведены из втих трех основных свойств, если определить «произведение» АВ как А + В, соотношение А С.В_~ равенством А + В = В, элементы / и О — равенствами А + А = / и А А = О (где А — лгобоо). 3 А. М. Яглом, И. М. Ягпом
66 ВЕРОЯТНОСТЬ [Гл. I которые можно составить из заданных п элементов («точек»). При атом сумыа и произведение двух множеств здесь (как и во всех при- примерах ниже) определяются как их объединение и пересечение; норма же задается условием, что для всех множеств из одного элемента 1 (т. е. отдельных точек) она равна одному и тому же числу —. Столь же законными, однако, с нашей новой точки зрения будут задачи, возникающие из рассмотрения той же алгебры Буля, но при более общем условии, что нормы отдельных точек равны произвольным положительным числам pi, р2, . . . , рп, удовлетворяющим единст- единственному условию pi -f- fa -f- . . . + рп = 1 (к алгебре Буля такого типа с п = 6 сводится, в частности, задача о «неправильной» играль- игральной кости — имеющей искаженную форму или изготовленной из неоднородного материала). Ниже нам встретится также случай, в котором элементами алгебры Буля являются всевозможные части заданного отрезка АВ, а норма определяется как отношение дли- длины рассматриваемой части ко всей длине отрезка АВ (см. задачу 22 на стр. 112); аналогично этому иногда приходится рассматривать совокупность всех множеств, принадлежащих некоторой плоской фигуре или пространственному телу, и задавать норму, как отно- отношение площади или объема соответствующего множества к пло- площади всей фигуры или объему всего тела (ср., например, «задачи на геометрические вероятности» на стр. 45—50 книги [37]). Можно также обобщить на все эти случаи «задачу о неправильной кости», т. е. и при рассмотрении алгебры Буля всех множеств, принадле- принадлежащих заданному отрезку, фигуре или телу, вводить норму совер- совершенно произвольным образом, требуя лишь, чтобы она удовлетво- удовлетворяла условиям, наложенным выше на функцию р (А); при этом мы придем к новому широкому классу интересных теоретико-вероят- теоретико-вероятностных задач. Если принять набранное на стр. 65 курсивом утверждение в ка- качестве определения предмета теории вероятностей, то отсюда выте- вытекает, что в любой относящейся к этой теории задаче исходная алгеб- алгебра Буля обязательно должна быть задана заранее (т. е. так или иначе указана В самом условии задачи). Основной задачей теории вероятностей при этом следует считать нахождение вероятностей составных событий, образованных из заданных нам основных или первоначальных событий А, В, С, D, . . . при помощи операций булевской алгебры (например, событий АВ + ВС + СА или (А -f- В-С) (A +D)) по вероятностям этих основных событий (по- (подобно тому, как основная вадача геометрии состоит в высчислении каких-либо расстояний или углов по другим, исходным, расстоя- расстояниям и углам, предполагающимся известными — например, длины гипотенузы прямоугольного треугольника по известным длинам катетов). При таком подходе к теории вероятностей (указанном впервые в 1917 г. С. Н. Бернштейном) очень важный вопрос о спо- способах, нахождения основных вероятностей р (А), р (В) и т. д. ос- остается, разумеется открытым; однако для того, чтобы развиваемая теория имела практическое значение, эти вероятности обязательно должны задаваться так, чтобы они совпадали с эмпирическими частотами соответствующих событий в длинной серии опытов. Один возможный путь определения «основных вероятностей»,
8 5] АЛГЕБРА СОБЫТИИ 67 удовлетворяющий этому условию, дает приведенное в § 1 «класси- «классическое определение вероятности», опирающееся на понятие о «пол- «полной системе равновероятных исходов опыта»; в других случаях, когда такой полной системы не существует, для определения значе- значений р (А) приходится привлекать другие соображения (например, непосредственно находить приближенное значение р (А) с помо- помощью многократного выполнения опыта, с которым связано осущест- осуществление события у4). Суть дела, однако, заключается в том, что мето- методы определения исходных вероятностей нисколько не отражаются па всех дальнейших операциях с ними, составляющих основное содержание теории. Заметим еще, что то обстоятельство, что во всех приведенных выше примерах алгебра Буля задавалась как совокупность мно- множеств, составленных из точек одного «наибольшего множества», не является случайным — такое задание этой алгебры возможно во всех теоретико-вероятностных задачах. Исходя отсюда, можно даже с самог начала считать основным объектом изучения теории вероятностей не нормированную алгебру Буля всевозможных со- событий, а некоторое «полное множество элементарных событий», раз- различные части («подмножества») которого и отождествляются затем с «событиями». Для того, чтобы сделать эти рассуждения вполне за- закопченными, надо только сопоставить еще подмножествам А на- нашего «множества всех элементарных событий» определенную нор- норму р {А) и перечислить основные требования (аксиомы), которым должны удовлетворять сами рассматриваемые подмножества и их нормы, чтобы'мы действительно имели нормированную алгебру Буля. Такой метод аксиоматического построения теории вероятностей (предложенный в 1929 г. А. Н. Колмогоровым) обладает определен- определенными преимуществами перед методом, изложенным выше в настоя- настоящем параграфе, при исследовании более сложных и тонких вопро- вопросов теории и поэтому он является в настоящее время наиболее рас- распространенным; более подробное его изложение увело бы нас, однако, слишком далеко в сторону от нашей основной темы. 3*
Глава II ЭНТРОПИЯ И ИНФОРМАЦИЯ § 1. Энтропия как мера степени неопределенности Главным свойством случайных событий, изучение ко- которых составляет основной предмет этой книжки, является отсутствие полной уверенности в их наступлении, создаю- создающее известную неопределенность при выполнении связан- связанных с этими событиями опытов. Однако совершенно ясно, что степень этой неопределенности в различных случаях будет совершенно разной. Если наш опыт состоит в опре- определении цвета первой встретившейся нам вороны, то мы можем почти с полной уверенностью рассчитывать, что этот цвет будет черным — хотя зоологи и утверждают, что встречаются иногда белые вороны, вряд ли кто-нибудь усомнится в исходе такого опыта. Несколько менее опре- определенен опыт, состоящий в выяснении того, окажется ли первый встреченный нами человек левшой или нет — здесь тоже предсказать результат опыта можно почти не колеб- колеблясь, но опасения относительно правильности этого пред- предсказания будут более обоснованны, чем в первом случае. Значительно труднее предсказать заранее, будет ли пер- первый встретившийся нам на улице города человек мужчи- мужчиной или женщиной. Но и этот опыт имеет относительно небольшую степень неопределенности по сравнению, на- например, с попыткой заранее указать победителя в турнире с двадцатью совершенно незнакомыми нам участниками или определить номер лотерейного билета, на который вы- выпадет наибольший выигрыш в предстоящем тираже лоте- лотереи: если, скажем, предсказав, что первый встреченный нами на улице человек будет мужчиной, мы еще можем надеяться угадать, то вряд ли кто-нибудь рискнет сделать прогноз в предпоследнем или, тем более, в последнем случае. Для практики важно уметь численно оценивать сте- степень неопределенности самых разнообраз- разнообразных опытов, чтобы иметь возможность сравнить их с этой
§ 1] ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 69 стороны. Мы начнем здесь с рассмотрения опытов, имею- имеющих к р авновероятных исходов. Очевидно, что степень неопределенности каждого такого опыта опреде- определяется числом к: если при к = 1 исход опыта вообще не является случайным, то при большом к, т. е. при наличии большого числа разных исходов, предсказание результата опыта становится весьма затруднительным. Таким обра- образом, совершенно ясно, что искомая численная характери- характеристика степени неопределенности должна зависеть от к, т. е. являться функцией f(k) числа к. При этом для к = 1 эта функция должна обращаться в нуль (ибо в этом случае неопределенность полностью отсутствует), а при возра- возрастании числа к она должна возрастать. Для более полного определения функции / (к) надо предъявить к ней дополнительные требования. Рассмотрим два независимых опыта а и р (т. е. такие два опы- опыта, что любые сведения об исходе первого из них никак не меняют вероятностей исходов второго). Пусть опыт а имеет к равновероятных исходов, а опыт р имеет I равновероят- равновероятных исходов; рассмотрим также сложный опыт ар, состоя- состоящий в одновременном выполнении опытов аир. Очевидно, что неопределенность опыта ар больше неопределенности опыта а, так как к неопределенности а здесь добавляется еще неопределенность исхода опыта р. Естественно счи- считать, что степень неопределенности опыта ар равна сумме неопределенностей, характеризующих опыты а и р. А так как опыт ар имеет, очевидно, kl равновероятных исходов (они получаются, если комбинировать каждый из к воз- возможных исходов опыта ас/ исходами Р), то мы приходим к следующему условию, которому должна удовлетворять наша функция / (к): Последнее условие наталкивает на мысль принять за меру неопределенности опыта, имеющего к равновероятных исходов, число log к (ибо log (kl) = log к + log I). Такое определение меры неопределенности согласуется также с условиями, что при к = 1 она равна нулю и что при воз- возрастании к она возрастает х). 1) Нетрудно показать, что логарифмическая функция явля- является единственной функцией аргумента к, удовлетворяю- удовлетворяющей условиям / (kl) = / (к) + f(l), / A) = 0 и / (к) > / (I) при к > / (ср. ниже § 4, стр. 134 —135).
70 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II Заметим, что выбор основания системы логарифмов здесь несуществен, так как в силу известной формулы logbft = logba.logaft переход от одной системы логарифмов к другой сводится лишь к умножению функции / (к) = log к на постоянный множитель (модуль перехода logba), т. е. рав- равносилен простому изменению единицы измерения степени неопределенности. В конкретных применениях «меры степени неопределенности» обычно используются логариф- логарифмы при основании два (другими словами — считается, что f (к) = log2ft). Это означает, что за единицу измерения степени неопределенности здесь принимается неопределен- неопределенность, содержащаяся в опыте, имеющем два равновероят- равновероятных исхода (например, в опыте, состоящем в подбрасыва- подбрасывании монеты и выяснении того, какая сторона ее оказалась сверху, или в выяснении ответа «да» или «нет» на вопрос, по поводу которого мы с равными основаниями можем ожидать, что ответ будет утвердительным или отрицатель- отрицательным). Такая единица измерения неопределенности назы- называется двоичной единицей (сокращенно дв. ед.) или битом1); в немецкой литературе используется также выразительное ее название «Ja-Nein Einheit» («да- нет единица»). Подобная «да-нет единица» является в ка- каком-то смысле самой естественной", дополнительные сооб- соображения, указывающие, почему именно ей отдается пред- предпочтение в технике, станут ясны из содержания гл. IV этой книги. Мы тоже в дальнейшем будем все время пользоваться двоичными единицами (битами); таким об- образом запись log к (где мы, как правило, не будем указы- указывать основания системы логарифмов) будет обычно озна- означать log2 к. Заметим только, что в содержании книги прак- практически ничего не изменилось бы, если бы мы использова- использовали более привычные десятичные логарифмы; это лишь означало бы, что за единицу степени неопреде- неопределенности принимается неопределенность опыта, имеющего 10 равновероятных исходов (таким является, например* опыт, состоящий в извлечении шара из урны с десятью J) Английское слово bit было образовано е помощью сжатия слов binary digit, означающих «двоичная цифра» или «двоичная единица».
§ И ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 71 перенумерованными шарами, или опыт по отгадыванию одной цифры, если любая из десяти цифр имеет одинаковую вероятность быть загаданной). Эта последняя единица степени неопределенности (которую называют деся- десятичной единицей или д и т о м) примерно в 3 -g-раза крупнее двоичной единицы (ибо log2 10 -х. 3,32 ^ Таблица вероятностей для опыта, имеющего к равнове- равновероятных исходов, имеет вид: исходы опыта 1 к А* 1 к Аз 1 ft • • • АК пороятппсти Так как общая неопределенность опыта по нашему усло- условию равна log к, то можно считать, что каждый отдельный 1 исход, имеющий вероятность -р, вносит неопределенность, равную y log ft = — у log -? . Но тогда естественно счи- считать, что в результат опыта, таблица вероятностей для которого имеет вид исходы опыта вероятности А, А2 i Аз i исходы Alt А2 и А3 вносят неопределенность, равную соот- 11 11 11 ветственно — у log у , 5- log -^- и g- log -g-, так что общая неопределенность этого опыта равна Аналогично этому можно положить, что в самом общем случае, для опыта а с таблицей вероятностей всходы опыта As Aa вероятности \ Р(А{)\ р(Аг)\ p(As)\ ... \р(Ан)
72 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II мера неопределенности равна — р (Аг) log р (Аг) — р U2) log p (AJ — — р(А3) log р (А3) — . . . — р (A h) logp (Ah) (см. также § 4 этой главы, напечатанный мелким шрифтом). Это последнее число мы, руководствуясь некоторыми глубокими физическими аналогиями, несущественными, впрочем, для всего дальнейшего, будем называть энтропи- энтропией опыта а и обозначать черев Н(а) *). Перейдем к изучению свойств энтропии // (а). Отметим, прежде всего, что она не может принимать отрицательных значений: так как всегда 0 <^ р (А) <^ 1, то log p (А) не может быть положительным, а — р (A) log p (А) — отри- отрицательным. Заметим далее, что если р очень мало, то и произведение — р log р будет весьма малым, хотя — log p здесь и будет большим положительным числом. В самом деле, пусть, например, р = т^; в таком случае log p =¦ = — пи — р log р = 2»г, а дробь -=- при большом п (что соответствует малому р = -™) будет очень маленькой (ибо с ростом п число 2" растет несравненно быстрее, чем само число п — так, например, число 264 состоит из 20 цифр2)!). Отсюда вытекает, что при р -*- О произведе- произведение — р log p неограниченно убывает, так что lim (— р log р) = О р-М) (ср. ниже рис. 7 и 9, на которых изображен график функ- функции у = — р log р: из графика видно, что при /; = 0 г) Относительно отношения введенного здесь понятия энтро- энтропии к термодинамическому понятию энтропии, играющему важную роль в физике, см., например, книги И. А. Полетаева [10] и, особенно, Л. Б р и л л ю э н а [2]. 2) С этим связана известная, видимо, многим из читателей этой книги легенда об изобретателе шахмат, который в качестве награды попросил, чтобы ему выдали столько хлебных зерен, сколь- сколько получится, если положить на 1-ю клетку шахматной доски одно зерно, на 2-ю — два и далее на каждую клетку доски вдвое больше зерен, чем на предшествующую. Эта награда первоначально по- показалась обещавшему ее шаху очень скромной; однако на самом деле соответствующее количество зерен (равное 2м — 1) намного превосходит все имеющиеся на земле запасы зерна.
§ 1] ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 73 значение этой функции равно нулю). Поэтому если вероят- вероятность р (At) исхода Ai равна нулю (т. е. исход At невоз- невозможен), то соответствующий член — р (At) log p (At) в вы- выражении для энтропии можно просто отбросить (строго го- говоря, этот член не имеет смысла, так как log p (At) в этом случае не существует; именно поэтому нам и пришлось искать предел выражения — р log p при р ->¦ 0). В об- обратном случае, когда р (At) очень велико (т. е. близко к 1), член — р (Аг) logp (At) также будет очень мал, так как log p при р ->¦ 1 стремится к нулю; если вероятность р (At) точно равна единице (т. е. появление исхода At на- нашего опыта является достоверным событием), то log/) (A t) = = 0 и, значит, также — р (At) log p (At) = О (см. снова рис. 7 и Я). 'Гак как — р log р равно нулю лишь при р = 0 или р = 1, то ясно, что энтропия Н(а) опыта а равна нулю лить в том случае, когда одна из вероятностей р (AJ, р(А2), . . -, р (Ak) равна единице, а все остальные равны нулю (напоминаем, что р (Аг) + р (Аъ) -f- . . . ... + р (A h) = 1; см. выше стр. 27). Это обстоятельство хо- хорошо согласуется со смыслом величины Н (а) как меры cie- пени неопределенности: действительно, только в этом слу- случае опыт вообще не содержит никакой неопределенности. Далее, естественно считать, что среди всех опытов, име- имеющих к исходов, наиболее неопределен- неопределенным является опыт с таблицей вероятностей; исходы опыта вероятности Аг А2 1 к А3 1 к • • а ... Ак 4 который мы обозначим через аот в этом случае предсказать исход опыта труднее всего. Этому отвечает то обстоятель- обстоятельство, что опыт сс0 имеет наибольшую энтропию? если а — произвольный опыт, имеющий к исходов Ах, А2, . . ., Ак, то Н (а) = — р (A) log p (AJ — р (А2) log p (А2) — ... ... — р(Ак)log p(Ah)^ <log к- - |log|-4log^-...-4logj- = И к раз
ЭНТРОПИЯ И ИНФОРМАЦИЯ [ГЛ. II причем равенство достигается только в том случае, когда р (Аг) = р (Az) = ... = » (Ак) = -г-. Полное доказа- Л тельство этого результата мы пока отложим (см. Прило- Приложение I в конце книги); здесь же мы ограничимся тем, что поясним соответствующую теорему на примере, когда УК М^ J 0,1 о S В Рис. 7. \ к = 2. В этом случае она сводится к доказательству сле- следующего неравенства: - р (AJ log p (AJ - р (А2) log р (Л2) < log 2 = 1. Как мы уже отмечали, значение функции F (х) = = — х log х при х-*-0 стремится к нулю; с другой сторо- стороны, при х = 1 ее значение также равно нулю, а при О <^ х ^ 1 эта функция положительна (ибо в этом случае log х отрицателен); при х ^> 1 функция — х log x отрица- отрицательна. График рассматриваемой функции изображен на рис. 7, где ОЕ = 1, ОА = р (А^), ОВ = р (А2) и отрез- отрезки А М и BN изображают величины — р (AJ log p (AJ и —р (А2) log p (Л2). Так как ОА + ОВ = р (А,) + р (А2) = 1 = ОЕ , то расстояние OS от начала до середины S отрезка АВ рав- 1 111 но -к-; поэтому на рис. 7 отрезок SP равен —о"*0^ Т = Т' Но полусумма отрезков AM и BN равна средней линии SQ трапеции ABNM, которая не превосходит SP; следо- следовательно, т. е. у (-Р(A) logP(Л) -р(Аг) log р (ЛО — р (А2) log р (Л2) < 1,
§ 1] ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 73 где равенство имеет место лишь в том случае, когда отрезки ОА и ОБ оба совпадают с OS. Итак, мы доказали, что функция h (Р) = — Р log р — A — р) log A — р), определяющая энтропию опыта с двумя исходами (вероят- (вероятности которых равны р и 1 — р), принимает наибольшее значение (равное log 2 = 1) при р = ~. На рис. 8 изобр - жен график этой функции, показывающий, как меня- меняется энтропия h (p) при изменении р от 0 до 1. В случае опыта с к воз- возможными исходами энтро- энтропия задается формулой Н (ft, р2, . . ., pk) = = — Pi logPi — ра log p2 — — . . . — pft log Ph, Ofi h<ph 1,0 0,8 0,6 где Pi, p2, . . ., ph — ве- вероятности отдельных исхо- исходов, так что всегда pt + од о 1 \ этом более общем случае (ибо при Аг = 2 функция Н (Pi» Pvi • • ¦) Рп) обра- обращается в Н (plt 1 — Pl) = h зать, что функция Я (ри р2, . 0,2 Рис. 8. также можно дока- принимает наиболь- наибольшее значение (равное logft) при рх — рг'= ... == Ph = —• соответствующее доказательство приведено в Приложе- Приложении I (см. стр. 453). Для того чтобы представить себе ха- характер зависимости функции Н (рь р2, . . ., Ph) от отдель- отдельных вероятностей ръ р2, . . ., Рк, рассмотрим более вни- внимательно график функции — р log р, 0 < р < 1 (см. рис. 9, где в несколько большем масштабе воспроизведена часть рис. 7) г). Из этого графика видно, что при р < 0,1 величина — р log p растет чрезвычайно быстро; поэтому в этой области сравнительно небольшому уменьшению J) Таблица значений функции — рlogp (логарифмы —двоич- —двоичные!) составляет Приложение III к книге.
76 ЭНТРОПИЯ И ИНФОРМАЦИЯ [ГЛ. II вероятности р{ (i = 1, . . ., к — 1 или к) отвечает очень значительное уменьшение соответствующего слагаемого — pi log pi в выражении функции Н (ри р2, .. .,ph). Это приводит к тому, что обычно слагаемые — pt logpt, отве- отвечающие очень малым значениям вероятности pi, вно- вносят много меньший вклад в выражение II (ръ />2, . . ., ph), о,г ofi ' о,б" os ~i,o Рис. 9. чем прочие члены, так что при вычислении энтропии срав- сравнительно маловероятные исходы часто можно без большой ошибки просто опустить (ср. текст, напечатанный на стр. 86—87 мелким шрифтом). Наоборот, в области между р = 0,2 и р = 0,6, где функция — р log p принимает наи- наибольшие значения, она меняется сравнительно плавно; поэтому в этой области даже довольно значительное из- изменение вероятностей pt сравнительно мало отражается на величине энтропии. Отметим еще, что из непрерывности графика функции — р log p следует, что энтропия Н (а) непрерывно зависит от вероятностей отдельных исходов опыта а, т. е. что при очень малом изменении этих вероятностей и энтропия изменится очень мало. Задача 16. Имеются две урны, содержащие по 20 шаров — 10 белых, 5 черных и 5 красных в первой и 8 белых, 8 черных и 4 красных во второй. Из каждой урны вытаски- вытаскивают по одному шару. Исход какого из этих двух опытов следует считать более неопределенным?
§ 1] ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 77 Таблицы вероятностей для соответствующих опытов (обозначим их через ах и а2) имеют вид: опыт ах (извлечение шара из 1-й урны): цвет вынутого шара I белый I черный I красный вероятность 4 опыт а2 (извлечение шара из 2-й урны): цвет вынутого шара I белый I черный красный 2 вероятность _. э Энтропия первого опыта равна 1 = -jr-I а энтропия второго несколько больше: Я(а2) = _ ? log 4—* f4| -2 = 1,5 бита, да-^ 1,32 + ^--2,32^ 1,52 бита. Поэтому, если оценивать (как мы это условились делать) степень неопределенности исхода опыта его энтропией, то надо считать, что исход второго опыта является более неопределенным, чем исход первого. Задача 17. Пусть из многолетних наблюдений за погодой известно, что для определенного пункта вероят- вероятность того, что 15 июня будет идти дождь, равна 0,4, а вероятность того, что в указанный день дождя не будет, равна 0,6. Пусть далее для этого же пункта вероятность того, что 15 ноября будет идти дождь равна 0,65, вероят- вероятность того, что 15 ноября будет идти снег, равна 0,15 и вероятность того, что 15 ноября вовсе не будет осадков, равна 0,2. Если из всех характеристик погоды интересо- интересоваться лишь вопросом о наличии и о характере осадков, то
78 ЭНТРОПИЯ И ИНФОРМАЦИЯ ЕГл. II в какой из двух перечисленных дней погоду в рассматривае- рассматриваемом пункте следует считать более неопределенной? Согласно тому, как понимается здесь слово «погода», опыты ах и а2, состоящие в выяснении того, какая погода имела место 15 июня и 15 ноября, характеризуются сле- следующими таблицами вероятностей: одыт ад исходы опыта I дождь I отсутствие осадков вероятность | 0,4 | 0,6 ОПЫТ ОСг'. исходы опыта I дождь 1 снег I отсутствие ( j j осадков вероятность | 0,65 | 0,15 | 0,2 Поэтому энтропии наших двух опытов равны Я Ю = —0,4 log 0,4—0,6 log 0,6 ж 0,97 бита, И Я (а2) = - 0,65 log 0,65-0,15 log 0,15-0,2 log 0,2 ж ^1,28 бита >#(а1). Следовательно, погоду 15 ноября в рассматриваемом пункте следует считать более неопределен- неопределенной, чем 15 июня. Полученный результат, разумеется, существенно зави- зависит от того, как понимать слово «погода»; без точного разъ- разъяснения того, что под этим понимается, наша задача вооб- вообще не имеет смысла. В частности, если интересоваться только тем, будут ли в рассматриваемый день осадки или нет, то исходы «дождь» и «снег» опыта а2 следует объеди- объединить. При этом вместо а2 мы будем иметь опыт а2, энтро- энтропия которого равна Н (аа) = — 0,8 log 0,8—0,2 log 0,2 « 0,72 < Н (ах). Поэтому при таком понимании погоды надо считать, что 15 ноября погода является менее неопределен- неопределенной, чем 15 июня. Если же интересоваться не только осадками, но и, например, температурой воздуха, то решение задачи становится более сложным и требует при- привлечения дополнительных данных о распределении значе- значений температуры в рассматриваемом пункте 15 июня и 15 ноября.
§ 1] ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 79 Соображения, развитые в решении задачи 17, представ- представляют интерес для оценки качества предсказания погоды по тому или иному методу (аналогично обстоит дело и в слу- случае любого другого прогноза). В самом деле, при оценке качества прогноза нельзя учитывать лишь его точность (т. е. процент случаев, в которых прогноз оправдывается); иначе нам пришлось бы высоко оценивать любой прогноз, имеющий большие шансы оказаться правильным — в том числе, например, и предсказание отсутствия снега в Москве 1 июня, не представляющее, разумеется, ника- никакой ценности. При сравнении качества различных прогно- прогнозов следует учитывать не только их точность, но и труд- трудность удачного прогноза, которую можно характеризовать степенью неопределенности соответствующего опыта. К этому вопросу мы еще вернемся ниже (см. задачу 2t в § 3 этой главы, стр. 108). Исторически первые шаги к введению понятия энтро- энтропии были сделаны еще в 1928 г. американским инжене- инженером-связистом X артли1), предложившим характери- характеризовать степень неопределенности опыта с к различными исходами числом log к. Разумеется, Хартли хорошо пони- понимал, что предложенная им мера степени неопределенности, очень удобная в некоторых практических задачах, во мно- многих случаях оказывается мало показательной, поскольку она полностью игнорирует различие между характером имеющихся исходов (почти невероятному исходу здесь придается такое же значение, как и исходу весьма правдо- правдоподобному). Однако он считал, что различия между отдель- отдельными исходами определяются в первую очередь «психоло- «психологическими факторами» и должны учитываться поэтому лишь психологами, но никак не инженерами или матема- математиками. Ошибочность точки зрения Хартли была показана Клодом Шенноном, предложившим принять в качестве меры неопределенности опыта а с возможными исходами Ах, А2, . . ., Ah величину Н (а) = — р (Aj) log p (Aj) — р (Л2) log p (А2) —... ... — p{Ah) log p{Ah)t 1) Русский перевод работы Хартли напечатан в сборнике «Теория информации и ее приложения», М,, Физматгиз, 1969, стр. 5—35.
80 энтропия и информация [гл. и где р {Аг), р (А2), . . ., р (Ak) — вероятности отдельных исходов; он же предложил называть зту величину «энтро- «энтропией». Иначе говоря, согласно Шенному, исходу Л,- опыта а следует приписать неопределенность, равную —logр(Аг) (подобно тому, как в случае к равновероятных исходов, имеющих вероятность р = —, за меру неопределенности, /С согласно Хартли, следует принять число log к = — log p). Далее в качестве меры неопределенности всего опыта а принимается среднее значение неопределенно- неопределенности отдельных исходов (т. е. среднее значение случайной величины, принимающей значения — log p (Ay), —log р (А2), . - ., —log p (A h) с вероятностями р (Лх), р {А2), • • ., р (Ak); согласно приведенному на стр. 24 определению это среднее значение и равно Н(а)). Таким образом, загадочные «психологические факторы» Хартли здесь учитываются с помощью использования понятия вероятности, имеющего чисто математический (точнее ста- статистический) характер. Использование величины Н(а) в качестве меры неоп- неопределенности опыта а оказывается очень удобным для весьма многих целей; раскрытию этого обстоятельства и посвящена, в основном, последующая часть книги. Сле- Следует, однако, иметь в виду, что мера Шеннона, как и мера Хартли, не может претендовать на полный учет всех фак- факторов, определяющих «неопределенность опыта» в любом смысле, какой может встретиться в жизни. Так, например, мера Н(а) зависит лишь от вероятностей р(Ал), р(А%),... . . ., р (Ah) различных исходов опыта, но вовсе не зависит от того, каковы сами эти исходы — являются ли они в некотором смысле «близкими» один к другому или очень «далекими». Поэтому наша «степень неопределенности» будет одинаковой для двух случайных величин, характе- характеризующихся следующими таблицами вероятностей: значения I —2001 1 | 1000 и ' значения вероятности 0,9 1 4 1 4 1,1 1 4' вероятности 1 2 или для двух методов лечения больного, один из которых приводит к полному выздоровлению в 90 случаях из 100 и к заметному улучшению состояния больного — в осталь-
S 1] ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 81 ных 10 случаях, а второй также вполне успешен в 90 слу- случаях из 100, но зато в остальных 10 случаях завершается смертельным исходом. Существенное различие между двумя опытами в этих случаях должно оцениваться^ сов- Тем другими характеристиками, отличными от энтропии Шеннона._ —-~""Обмеченная особенность энтропии Н(а), как и ряд других особенностей этой величины, естественно объяс- объясняется тем, что понятие энтропии первоначально было вве- введено специально для решения некоторых вопросов теории передачи сообщений по линиям связи и поэтому оно осо- особенно удобно именно для такого использования. То обстоя- обстоятельство, что для определения времени, требующегося для передачи некоторого сообщения, или стоимости такой передачи, конкретное содержание самого сообщения совершенно несущественно, и проявляется в независимости энтропии Н(и) от значений Ах, Аг, . . ., Ah самих исходов опыта. С другой стороны, вероят- вероятности отдельных сообщений вовсе не безразличны для теории связи; об этом подробнее мы еще будем говорить в гл. IV. И особенно важно то обстоятельство, что при работе линии связи основную роль играют статисти- статистические закономерности, так как но такой линии всегда передается большое количество разнообразных сообщений. Поэтому мера неопределенности, используемая в решении задач, касающихся работы линий связи, должна быть приспособлена, в первую очередь, для оценки степени неопределенности сложных «составных опытов», состоя- состоящих из целой совокупности следующих друг за другом испытаний. Любопытно, что с точки зрения исследователя, изучаю- изучающего степень неопределенности таких составных опытов, различие между взглядами Хартли и Шеннона оказывает- оказывается совсем не таким значительным, как это может показать- показаться сначала. В самом деле, ведь даже с точки зрения Харт- Хартли нельзя совершенно игнорировать вероятности появ- появления исходов — иначе можно было бы произвольно уве- увеличить число к исходов нашего опыта, добавив к реально возможным исходам любое число фиктивных исходов, имеющих вероятность нуль. Поэтому при вычислении ме- меры неопределенности опыта по Хартли мы непременно должны отбросить все «невозможные» исходы, имеющие
82 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II нулевую вероятность. Но при этом вряд ли стоит учиты- учитывать и «практически невозможные» исходы, осуществление которых имеет столь малую вероятность, что на практике ее можно считать нулевой. Заменим теперь опыт а, имею- имеющий к различных исходов, другим опытом а#, состоящим в iV-кратном повторении (при одинаковых условиях) опы- опыта а. Число различных исходов этого последнего опыта будет равно kN; эти kN исходов мы получим комбинируя к возможных исходов первого выполнения опыта а с к воз- возможными исходами второго выполнения, к исходами третьего выполнения и т. д. вплоть до к исходов N-то вы- выполнения а. Поэтому степень неопределенности опыта aN по Хартли равна log kN = N log к, что снова приводит к выражению Jog к для степени неопределенности опыта а (ибо естественно считать, что степень неопределенности опыта, состоящего в iV-кратном повторении а, должна быть ровно в N раз больше степени неопределенности а; ср. аналогичное рассуждение на стр. 69). До сих пор, однако, мы ничего не говорили о в е р о- ятностях наших kN исходов опыта aN. Ясно, что если к исходов а являются равновероятными, то равнове- равновероятными будут и все kN исходов опыта а^, так как здесь ни один из этих kN исходов ничем не выделяется среди других. Если же к исходов опыта а имеют разные веро- вероятности р (AJ, р (А2), . . ¦, р (А ь), то разные вероятности будут иметь иР = 2m°e* исходов составного опыта аЛ». Оказывается, что при больших значениях N подавляющее большинство из этих 2ЛГ1с8* исходов будет иметь настолько ничто ж но малую вероятность, что даже суммар- суммарная вероятность всех таких маловероятных исходов бу- будет очень мала. Что же касается остальных (более веро- вероятных) исходов опыта алг, то вероятности всех этих исхо- исходов при большом N почти не отличаются друг от друга. Точнее говоря, можно показать, что при достаточно боль- большом N всегда можно отбросить некоторую (как правило, очень большую!) часть исходов опыта aN так, чтобы общая вероятность всех отброшенных исходов была меньше лю- любого заранее выбранного очень малого числа (например, меньше чем 0,01, или чем 0,001, или чем 0,000001; при этом только, чем меньшим мы выберем это число, тем большим придется взять N) и чтобы оставшиеся исходы опыта аде имели бы уже все практически одинаковую веро-
§ 1] ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 83 ятностъ. Весьма важно при этом, что число оставшихся после такого отбрасывания исходов опыта ац оказывается имеющим порядок 2NH^, где Ща) = — р (А г) log р (А х) —... ... — р (A h) log р (А ь) — энтропия опыта а1). Поэтому ясно, что за меру степени неопределенности опыта aN даже с точки зрения Хартли естественно принять число log 2N'HW = N• Н (а) (ибо исходами, суммарная веро- вероятность которых ничтожно мала, естественно пренебречь); при этом для степени неопределенности исходного опыта а получается значение N-H(a)/N = Н (а). Таким обра- образом, мы видим, что точка зрения Шеннона отличается от точки зрения Хартли в первую очередь привлечением длинных цепочек, составленных ив повторных осуществ- осуществлений одного и того же опыта а; рассмотрение подобных цепочек является характерным для теоретико-вероят- теоретико-вероятностного (или статистического) подхода. Утверждение, выделенное курсивом, поясняет статисти- статистический смысл понятия энтропии; оно лежит в основе боль- большинства технических приложений этого понятия. Однако доказательство этого утверждения не очень просто; мы отложим его (а также и несколько более аккуратную фор- формулировку самого утверждения) до заключительной главы книги, непосредственно посвященной применениям по- нятня энтропии к теории передачи сообщений. Реальная ценность понятия энтропии определяется в первую очередь тем, что выражаемая им «степень неопре- неопределенности» опытов оказывается во многих случаях именно той характеристикой, которая играет роль в разнообраз- разнообразных процессах, встречающихся в природе и технике в так или иначе связанных с передачей и хранением каких-либо сообщений. О некоторых технических применениях по- понятия энтропии мы будем сравнительно подробно говорить дальше; здесь же мы остановимся лишь на одном примере совсем другого рода. Одной из основных задач, с которыми имеет дело экспериментальная психология, является изучение х) Отсюда, в частности, вытекает, что если только не все ис- исходы опыта а равновероятны и, следовательно, И (а) < log k, то число отброшенных исходов составляет подавляющую часть исходов опыта aN (ибо отношение 2N'H^: fcN =2^н<а>: 2^-1оек= = 2~N'llosH~^"И при большом N будет очень мало).
ЭНТРОПИЯ И ИНФОРМАЦИЯ [ГЛ. II психических реакций, т. е. ответов организма на какое-либо раздражение или воздействие. При этом раз- различаются простая реакция — какой-то опреде- определенный ответ на некоторый заданный сигнал,— в с л о ж- ная реакция, важнейшей из которых является реакция выбора, состоящая в том, что на разные сигналы даются разные ответы. Известно, что время про- простой реакции у человека не зависит от подаваемого сиг- сигнала (для тренированных взрослых людей его минималь- минимальное значение близко к 0,1 сек). Значительно более слож- сложным является вопрос о времени сложной реакции, сущест- существенно зависящем от условий эксперимента и, прежде всего, от «степени сложности» реакции. Еще в 80-е годы прошлого столетия психологами было выяснено, что средняя ско- скорость, с какой человек может реагировать на последова- последовательность беспорядочно чередующихся сигналов к различ- различных типов (при условии, что на каждый тип сигнала он должен реагировать по-разному) монотонно уменьшается с возрастанием к. Подтверждающие этот факт опыты по определению среднего времени реакции выбора производи- производились очень много раз и всегда приводили к примерно оди- одинаковым результатам; наиболее обычная постановка их заключалась в том, что на стенке перед испытуемым через определенные промежутки времени вспыхивала одна из к лампочек или появлялась одна из А цифр, и в зависимо- зависимости от номера сигнала он должен был нажать одпу из к кнопок, на которых заранее лежали его пальцы, или же произнести одно из к заранее назначенных слов. Специ- Специальное устройство при этом отмечало время, проходящее между появлением сигнала и реакцией на пего испытуе- испытуемого; зависимость получаемого среднего значения Т та- такого времени от числа к и изучалась. Естественно, что среднее время, требующееся для ре- реакции на сигнал, можно также рассматривать как опре- определенную меру «степени неопределенности» ожидаемого сигнала: чем большая неопределенность в исходе имеет место, тем больше требуется времени на уяснение того, какой именно сигнал был подан. Имеющиеся опыты пока- показывают, что среднее время реакции растет с увеличением числа к различных типов сигналов примерно как log /г, т. е. как шенноновская энтропия II (а) опыта а, состоявше- состоявшего в подаче сигнала (во всех экспериментах, о которых
§ i] ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 85 здесь идет речь, вероятности сигналов различных типов всегда были одинаковыми). Для примера на рис. 10 (за- (заимствованном из работы американского психолога Р. X аймана [38]) кружками отмечены данные восьми опытов, состоящих в определении среднего времени, тре- требующегося испытуемому, чтобы указать, какая из к лам- лампочек (где к менялось от 1 до 8) зажглась. Это среднее Энтропия, биты Рис. 10. Н время определялось из большого числа серий зажиганий, в каждой из которых частоты зажиганий всех лампочек были одинаковыми, причем предварительно испытуемый специально тренировался в подобных опытах. По оси ординат на рис. 10 отложено среднее время реакции, а по оси абсцисс — величина log к; при этом, как мы видим, все 8 кружков довольно точно укладываются на одну прямую. Исходя из этих данных, можно было бы предположить, что среднее время реакции во всех случаях определяется энтропией опыта а, состоящего в подаче сигнала. Из этого предположения следует, что уменьшение степени неопре- неопределенности опыта путем замены равновероятных сигналов
86 ЭНТРОПИЯ И ИНФОРМАЦИЯ ?Гл. Ц неравновероятными должно на столько же уменьшить среднее время реакции, на сколько оно уменьшается при уменьшении числа используемых типов сигналов, приво- приводящем к такому же изменению энтропии Н (а). Это утвер- утверждение допускает прямую экспериментальную проверку, полностью его подтверждающую. Так, на том же рис. 10 квадратиками отмечены результаты восьми опытов (про- (проведенных с тем же испытуемым, что и раньше), в которых к лампочек (где к равнялось 2, 4, 6 или 8) зажигались с разными относительными частотами р (Аг), р (Лг), . . . ..., р (A h), причем предварительно испытуемый некото- некоторое время тренировался на сериях зажиганий с такими частотами. Здесь снова по оси ординат откладывалось среднее время реакции Т, а по оси абсцисс — энтропия Н(а) = -р Ш log р (А,) - р D0 logp (A2) - ... - — р (Ah) log p (Ak); при этом оказывается, что квадрати- квадратики с большой степенью точности укладываются на ту же прямую, что и кружки. Мы видим, таким образом, что энтропия Н (а) действительно является именно той ме- мерой степени неопределенности исхода опыта, которая ре- решающим образом определяет среднее время, требуемое для определенной реакции на появившийся сигнал. Причина изменения среднего времени реакции при из- изменении относительной частоты различных сигналов, оче- очевидно, кроется в том, что испытуемый быстрее реагирует должным образом на более часто повторяющийся (т. е. более привычный для него) сигнал, но зато медленнее реа- реагирует на редкий сигнал, являющийся для него неожи- неожиданным. Разумеется, эти факторы носят психологический характер. Тем не менее мы видим, что и они могут быть количественно охарактеризованы величиной энтропии И (а) опыта а, вопреки опасениям Хартли, предполагав- предполагавшего, что никакие «психологические факторы» (которые, впрочем, в его понимании имели гораздо более косвенное отношение к психологии, чем в настоящем примере) не могут быть количественно учтены. В заключение этого параграфа приведем некоторые данные, ха- характеризующие незначительность роли, которую играют в опреде- определении энтропии опыта со многими исходами многочисленные ма- маловероятные исходы. Рассмотрим опыт, состоящий в выборе из печатного текста на- наудачу одного слова из четырех букв; при этом наш текст мы будем считать написанным по-английски, что позволяет исполь-
I -il энтропия сложных событий, условная энтропия 87 зовать данные, содержащиеся в известном «Словаре Торндайка» (Е. L. T h о г n d i k e «A Teacher's Word Book», New York, 1932), в котором указаны частоты 20 000 наиболее распространенных анг- английских слов, полученные путем статистической обработки очень б"Л1>1пого и разнообразного английского текста. Всего в этом сло- иаро содержится 1550 четырехбуквенных слов; в соответствии с этим мы можем считать, что наш опыт а имеет 1550 различпых ис- исходов. Вычислим теперь энтропию Н (а)= - р (Ai) log p (Ai) — р (Л2) log р(Аг)— ... ... — р (Aim) log p (Aim) этого опыта, приняв вероятность р (А() каждого исхода равной частоте щ/N соответствующего слова; здесь щ есть число повто- повторений этого слова, указанное в словаре Торндайка, а N — щ+ + «о + • • • + «is»- Оказывается, что эта энтропия близка к 8,14 бпт *). Отбросим теперь все слова, для которых щ < 150; при этом остается лишь 865 четырехбуквенных слов, т. е. немного больше 50% от их исходного числа (точнее говоря — 55,8%). В то же время отвечающая этим 865 исходам опыта а часть суммы Н (а) равна примерно 8 бит, т. е. составляет более 98% от всей величины // (а). Отбросим теперь все слова, для которых щ < 750; при этом у нас останется 395 слов, т. е. всего около четверти B5,5%) пер- первоначального количества; однако этим 395 исходам будет отве- отвечать часть суммы Я (а), большая чем 7,47 бит, т. е. составляющая свыше 92% всей величины Н (а). Если мы отбросим затем все сло- слова с щ < 1550, то у нас останется только 214 слов A3,8% от исход- исходного количества); однако этим 214 исходам опыта будет отвечать часть суммы Н (а), близкая к 6,88 бит, т. е. составляющая около 85% ее первоначального значения. Наконец, если отбросить все слова с щ < 3150, то останется всего 119 четырехбуквенных слов G,7% от первоначального количества); однако этим 7,7% исходов будет отвечать около 78% суммы Н (а) (эта часть суммы Н (а) пре- превышает 6,44 бит). § 2. Энтропия сложных событий. Условная энтропия Пусть аир — два независимых опыта с таб- таблицами вероятностей: опыт а исходы опыта I Ах I Ла I ... I А^ вероятности | />(/4i) 4) Это значение, как и все последующие численные данпые, ганметвовано из сборника [46].
88 ЭНТРОПИЯ И ИНФОРМАЦИЯ 1Гл. И опыт В исходы опыта I Б\ I Ва I ... I Вг вероятности | р (Б\) \ р (ДО \ ... \ Рассмотрим сложный опыт аВ, состоящий в том, что одновременно осуществляются опыты а и В. Этот опыт может иметь М исходов: АгВи АгВ2, . . ., A^r, A2Blt A2B2, . . ., А2Вг] . . . . . .; AhBlt AkB2, . . ., AhBh где, например, Л^ означает, что опыт а имел исход Ах, а опыт В — исход Bv Очевидно, что неопределенность опы- опыта аВ больше неопределенности каждого из опытов а и В, так как здесь осуществляются сразу оба эти опыта, каж- каждый из которых может иметь разные исходы в зависимости от случая. Докажем равенство Н (оР) = Н (а) + Н (Р) (правило сложения энтропии), которое хо- хорошо согласуется со смыслом энтропии как меры степени неопределенности. Согласно определению Н (аВ) имеем: Я (аВ) - - р ИА) logp {A^J-p (A.B,) log p (A tB2)-. .. . . .- р (А^д log piA^,) - - р (AiBJ log p (AzBJ-p (A2B2) log p {A^B2)~ . .. - р(А hBJ log p (A hBt)-p (A hB2) log p (A hB2)- . .. ...-p(AhBl)logp(AhBl). Но так как опыты а и В независимы, то р (А^^ = = р (AJ p (Bt), р {АгВ2) = р (AJ р (В2) и т. д. (см. § 2 гл. I. Поэтому первая строка стоящего справа
§ 2] ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ. УСЛОВНАЯ ЭНТРОПИЯ 89 выражения может быть записана такз - р (АО р (ВО (log p (АО + log p (В$ - - р (АО р (ВО (log p (АО + log p (ВО) - ... ...-р (Аг) р (Bt) (log р (АО + log p (Bt)) = = - р (At) (р (ВО + Р (В2) + ... + p(B,))logp (A0+ + Р (АО (- Р (ВО log р (ВО - Р (В2) log р (ВО - ... •• --Р(В,) log p(B,)) = = -р (АО log р (АО + р (АО Н (р) (так как р (ВО + р (ВО + • • • + р (Bi) = 1). Совершен- Совершенно аналогично 2-я, . . ., к-я строки в выражении для Н (сф) равны - р (АО log р (АО + р (АО Н ($), - р (Ak) log p(Ah) + p(Ah)H(® и, значит, Я (ар) = - р (АО log р (АО - р (АО log p (АО - ... . . . — р (Ак) logp (Ah) + + (р (АО + р (АО + - . . р (Ah)) Я(Р) - Н(а) + Н (Р) (так как и р (Л^ + р (А2) + . . . + р (Ah) = 1). Предположим теперь, что опыты аиРне незави- независимы (например, что аир — последовательные извлече- извлечения двух шаров иэ одной урны; ср. выше, стр. 40). В этом более общем случае мы не можем ожидать, что энтропия сложного опыта аР будет равна сумме энтропии аир. В самом деле, здесь может представиться такой случай, когда результат второго опыта полностью определяется результатом первого (например, если опыты а и Р состоят в последовательном извлечении шаров из урны, содержа- содержащей всего два разноцветных шара). В этом случае после осуществления а опыт Р уже не будет содержать ника- никакой неопределенности; поэтому здесь естественно пред- предполагать, что энтропия (мера степени неопределенности) сложного опыта аР будет равна энтропии одного опыта а, а не сумме энтропии опытов а и Р (в дальнейшем мы убе- убедимся, что это на самом деле так). Постараемся выяснить, чему равна энтропия сложного опыта ар в общем случае.. Повторим вывод формулы для энтропии Я(аР) слож- сложного опыта аР, отказавшись от предположения о независи- независимости опытов аир. Очевидно, мы, как прежде, будем
90 ЭНТРОПИЯ И ИНФОРМАЦИЯ ?Гл. II иметь Н (сф)— — р (AxBj) log p (АхВх)—р (AJ9s)log р(АхВ2)--. .. ...-р {AxBt) log p (АхВг) - — р 042^) 1°Е Р (АФл) — Р (А2В2) log р (А2В2) —. . . ... — р (А2В{) log p (А2В{) — - р (Л >j log р (A hB\)- p (AhB2)log p (A hB2)- ... . . . - р (АъВд log p (A hBt), где снова через А1% А2, . . ., Ah и Вх, В2, . . ., Bt обозна- обозначены соответственно исходы опытов аир. Однако здесь уже нельзя заменить вероятности р (А^^), р (AtB2) и т. д. просто произведениями соответствующих вероят- вероятностей: теперь р (А^) равно не р (Aj) p (Bj), a р (Аг) pAl {Bx), где pAl (В,) — условная вероят- вероятность события Вг при условии Аг (см. § 3 гл. I). Это обстоятельство вносит существенные изменения в даль- дальнейшие рассуждения. Как прежде, рассмотрим сначала лишь члены, стоящие в первой строке выписанного выше выражения для Н (осР). Очевидно, что их можно переписать в виде - Р (А) Ра> (BJ (log p (AJ + log Pa, (Si)) - - Р (Л) Рлг (В2) (log p (At) + log pAl (B2)) - ... ... - Р (А) Ра, (Bt) (log р (Л) + log pAl (В,)) = = - р (Аг) (рл, (J?0 + Pa, (BJ + ... + Pa, (Bt)) log p (At) + + Р (А) (- Pa, (Si) log рА, (#х) - Pa, (Bt) log pAl (B2) - ... PA,( Но Pa, (Si) + Рл, (В2) + ... + рА, (В,) = = Рл,(В1 + Вш + ... + В,) = 1, ибо событие Вх + В2 + . . . + В\ — достоверное (ка- (какой-либо из исходов Blt В2, . . ., Вг опыта р наверное име- имеет место). С другой стороны, сумма - РАг {By) lOg PA, (Bl) - PA, (#2) ^g pAt (BZ) — представляет собой знтропию опыта р при условии, что имело место событие Ах (энтропия опыта р зависит от ис-
§ 2] ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ. УСЛОВНАЯ ЭНТРОПИЯ 91 хода опыта а, так как от исхода а зависят вероятности от- отдельных исходов Р). Это выражение естественно назвать условной энтропией опыта Р при условии А%и обозначить через Яд,(Р). Таким образом, первая строка выражения для Я(сф) может быть переписанав следующем виде; - р (AJ log р (Ах) + р (AJ HAl (P). Точно так же 2-я, . . ., к-я строки этого выражения соот- соответственно равны - Р Ш log р (А2) + р (А2) HAl (Р), р - (A k) log p (A h) + р (А к) Нан (р), где Нлг (Р), • • ч Я а (Р) — условные энтропии опыта Р при условиях Л2, . . ., Ak. Отсюда вытекает следующая формула: - Р (Л) bg р {А2) - ... - р (Ак) log p (Ак) + + р (ЛО Нм (Р) + р Dа) НАг (Р) + ... + р (Ак) Нан (Р) = = Я (а) + {р (At) HAt (Р) + Р (Аъ) НА, ®) + ... ...+р(Ак)НАн(№. Первый член последнего выражения представляет собой энтропию опыта а. Что же касается второго, то это есть среднее значение случайной величины, принимающей с вероятностями р (Аг), р (Ай), . . ., р (Ah) значения #а, (Р), На, (Р), • • ., Нан (Р), т. е. значения, равные услов- условной энтропии опыта Р при условии, что опыт а имеет ис- исходы Ах, А2, . . ., Ah. Это среднее значение естественно назвать средней условной энтропией опыта р при условии выполнения опы- опыта а, или, короче, условной энтропией р при условии выполнения а; мы будем обозначать его через На (Р): На (Р) - р (Аг) HAl (Р) + Р (А) НА, ф) + ... + р {Ак)НА% (р). Таким образом, окончательно имеем Я (ар) = Я (а) + Яа(р).
92 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II Это и есть общее правило для определения энтропии слож- сложного опыта оф. Его тоже можно назвать правилом сложения энтропии, аналогично выведенному выше правилу, относящемуся к тому частному случаю, когда опыты аир независимы. Следует отметить, что именно средняя условная энтро- энтропия На (Р) играет существенную роль в рассматриваемых в этой книге вопросах. Дело в том, что коль скоро мы знаем заранее, какой именно исход At опыта а имел место, то при последующем определении условной энтропии Наг (Р) опыта р мы можем полностью игнорировать все строки таблицы условных вероятностей РлЛ^гЬ ...,PaJ PAAB1),PAl(Bi),...,pAl(Bi), PAH(B1),PAk(Bz),...,PAb(Bl), кроме единственной строки, отвечающей исходу A t. Поэто- Поэтому условная энтропия Наг (Р) совсем не зависит от того, как изменяются вероятности отдельных исходов Р при к — 1 исходах опыта а (из общего числа к исходов) и, сле- следовательно, она лишь в весьма малой степени характе- характеризует связь между опытами а и р, полное выражение которой дается всей таблицей условных вероятностей *). Напротив того, средняя условная энтропия На (Р), вы- вычисление которой не предполагает известным исход а, глубоко отражает взаимную зависимость опытов а и р. Подробнее об этом мы будем говорить в § 3 настоящей главы. Укажем некоторые важнейшие свойства величины Наф). Очевидно, что зто есть неотрицательное число. Ясно, что если все вероятности р (Лх), р (А2), . . ., р {Ah) отличны от нуля, т. е. если опыт а имеет действительно к исходов, то На (Р) = О в том и только в том случае, если ') Заметим, что знание этой таблицы (и таблиц вероятностей опытов аир) позволяет вычислить также и условные вероятности исходов Аи А2, ..., Ак опыта а при условии, что опыт р имел ка- какой-либо определенный исход Blt или В2, ..., или Bi; об этом см. выше, стр. 43.
§ 2] ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ. УСЛОВНАЯ ЭНТРОПИЯ 93 х (Р) = Нлг (Р) = • • • = На,, (Р) = 0, т. е. если при любом к исходе опыта а результат опыта р становится полностью определенным (тривиальным образом это условие выпол- выполняется в том случае, если опыт р с самого начала не являет- является неопределенным). При этом мы имеем Н («Р) = Н (а) (см. выше, стр. 89). Если же опыты а и Р являются незави- независимыми, то HAl (Р) = ЯлЛР) = ¦ • • = Нак (Р) = Н (р) и В этом случае формула Я(аР) = Н(а) + На (Р) переходит в более простую: #(ар) = Ща) + Я(Р) (см. выше, стр. 88). Очень существенно, что во всех случаях условная энтро- энтропия На($) заключается между нулем и энтропией Н (Р) опыта Р (безусловной): О < Яа(Р) < Я (Р). Таким образом, случаи, когда исход опыта р полностью определяется исходом а и когда опыты а и Р независимы, являются в определенном смысле крайними. Это утверждение тоже хорошо согласуется со смыслом энтропии как меры неопределенности: совершенно ясно, что предварительное выполнение опыта а может лишь уменьшить степень неопределенности Р или, в крайнем случае (например, в случае независимости опытов а и Р), не изменить эту степень неопределенности, но никак не может ее увеличить1). Полное доказательство сделанного утверждения (включающее также доказательство того, что На (Р) = Н (Р) т о л ь к о тогда, когда опыты аир пезависимы) мы отложим до Приложения I в конце книги; здесь же мы лишь проиллюстрируем его на примере случая кЪгда опыт а имеет два равновероятных исхода 1) Во избежание возможных заблуждений отметим, что ус- условная энтропия ИА (Р) может быть и меньше и больше величи- величины Н (р) (см., например, ниже задачи 18 и 19). Это связано с тем, что изменение таблицы вероятностей опыта Р, обусловленное тем обстоятельством, что другой опыт а имел определенный исход Alt может быть довольно произвольным (ср. выше, стр. 41).
94 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II Лу и А2. В этом случае На (Р) = р (Л,) Ял, (Р) + р (А2) НАг (р) = -I" (Р) + Итак, наша задача сводится к доказательству неравенства т. е. неравенства 4" I ~ Ра, (Вг) log pAl (В,) - pAi (В2) log рл, (^2) - ... ...-РлАВд log Р -2-1—Ра, (Вг) Jog рАг {Вх) — рА, (^г) log рА, (Вг) — ... ... - Ра, (В,) log рА, {Bt)\ < - р {Вх) log p EХ) - - р(В2) logр (В2) - ... - р (В,) logp (В,), где, как всегда Blt Вг, . . ., J9, означают исходы опыта р. Рассмотрим снова график функции F(x) = — ж log ж, и jCTb на рис. 11 ОЛ = /?Л1 (By), OB = joas(^i); тогда от- отрезки AM и Z?iV имеют длины — pAi (Sj log pAt (Bj) и - Pa, (Bj) log pa, (SO- Сумма - ~pAl (B,) logpAt (BJ- — -^Pa, (Вг) log—pa, (By) равна средней линии SQ тра- трапеции ABNM. С другой стороны, отрезок SP, превос- превосходящий SQ, равен — р (BJ log p (BJ, так как р
§ 2] ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ. УСЛОВНАЯ ЭНТРОПИЯ 95 (см. формулу полной вероятности на стр. 44). Следова- Следовательно, Г Ра, (ВД log pAl Ш - -|- Рлг (Вх) log рАг (BJ < Аналогично этому доказываются неравенства Y Рлп (В*) bg Ра, (В2) - \ рАг (Вг) log PAi (В2) < < -р(Вг) log р(В2), - -|- Pa, (B{) log рл, (Bt) ~~pAi {B{) log рА, (В,) < Сложив все эти неравенства, мы придем к требуемому ре- результату. Заметим еще, что так как сложные события оф и Ра не отличаются одно от другого, то Я (оф) = И (Ра), т. е. Я (а) + #«(Р) = Я (Р) + Яр (а). Отсюда следует, в частности, что, зная энтропии И (а) и Я (Р) опытов а и р и условную энтропию Яа (Р) опыта Р при условии выполнения а, мы можем определить также и условную энтропию Яр(а) опыта а при условии выполне- выполнения Р: Поскольку 0 ^ Яв (а) <^ Я (а), го из формулы Яа (р) = = Яр (а) -\- Нф) — Н (а) следует, что Я(Р)-Я(а)<Яа(Р)<Я(Р); при Н ф) > Н (а) эта оценка величины условной энтро- энтропии На (Р) оказывается более точной, чем приведенная на стр. 93. Равенство На (р) = Я (Р) - Я (а) имеет место при Яр (а) = 0, т. е. если исход опыта Р пол- полностью определяет исход опыта а; при этом всегда будет Н ф) ^> Н (а) (что, разумеется, также хорошо согласуется со смыслом слова «неопределенность опыта»).
96 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II Задача 18. Известно, что некоторой болезнью в среднем болеют 2 человека из 100. Для выявления больных используется определенная реакция, которая всегда оказы- оказывается положительной в том случае, когда человек болен; если же человек здоров, то она столь же часто бывает по- положительной, как и отрицательной. Пусть опыт Р со- состоит в определении того, болен или здоров человек, а опыт а — в определении результата указанной реакции. Спра- Спрашивается, какова будет энтропия Н (Р) опыта Р и услов- условная энтропия -На(Р) опыта Р при условии осуществления а? Очевидно, здесь два исхода опыта Р — исход Вг (чело- (человек здоров) и исход J92 (человек болен) — имеют вероятно- вероятности: р (BJ = 0,98 и р (В2) = 0,02. Поэтому Я(Р) = — 0,98 -log 0,98 — 0,02 -log 0,02 ж 0,14 бита. Опыт а также имеет два исхода: Аг (положительная реакция) и А2 (отрицательная реакция). Вероятности этих исходов равны р (AJ = 0,51 и р (Л2) = 0,49 (ибо исход Ах имеет место в половине тех случаев, когда опыт Р имеет исход Вг, и во всех случаях, когда р имеет исход В2, а исход А2 — лишь в половине случаев, когда р имеет исход Вг). При этом, если опыт а имел исход At (а таких случаев большинство!), то условные вероятности исходов р будут равны Ра, {Вд = ж и Р (Я) (ибо из 51 случая, когда реакция оказывалась положи- положительной, в 49 случаях человек оказывался здоровым и в двух случаях — больным); поэтому условная энтропия Нх (Р) будет заметно больше безусловной энтропии Я (Р): Abg^0,24 бита. Зато если опыт а имеет исход А2, то мы с уверен- уверенностью можем утверждать, что опыт р имел исход Bt (человек здоров); следовательно, На2 (Р) = 0. Таким образом, средняя условная энтропия опыта Р при
I 2] ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ. УСЛОВНАЯ ЭНТРОПИЯ 97 условии осуществления а будет все же меньше безуслов- безусловной энтропии Н (Р): Яа(Р) =0,51-ЯЛ1(Р)+0,49-Ялг(р) ^0,51-0,24^0,12 бита- Иначе говоря, выполнение опыта а уменьшает степень не- неопределенности опыта Р примерно на 0,02 бита. Задача 19. Пусть опыты а и Р состоят в последо- последовательном извлечении двух шаров из урны, содержащей т черных и п — т белых шаров (а — извлечение первого шара, Р — извлечение второго шара). Чему равны энтропии И (а) и Н (Р) опытов а и ft и условные энтропии /Га(Р) и Н$ (а) тех же опытов"* Решите ту же задачу при условии, что опыт а состоит в извлечении к шаров из урны, а опыт Р — в последующем извлечении егце одного шара. Начпем со случая, когда опыт а состоит в извлечении одпого шара. Пусть события At и Аг состоят в появлении черного и белого шара при первом извлечении, а события 2},иВ8 — в появлении черного и белого тара при вто- втором извлечении. Пока нам ничего не известпо пи о пер- первом, ни о втором опыте, мы можем ожидать осуществления этих событий со следующими вероятностями: исходы опыта | А\ | А2 опыт о опыт 3 вероятности п исходы опыта п — т вероятности т п п Таким образом, оба эти опыта имеют одинаковую энтро- энтропию: Я/ v тг /nv TYI -ш ТП П TYI ш И — fid (а) = Я(Р)=-—log — —log——. Если нам известен исход опыта а, то вероятности от- отдельных исходов опыта Р будут иметь другие значения. А именно (ср. выше, стр. 40 и след.): А А. М. Яглом, И. М. Яглом
ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II Отсюда следует, что тт Уги т — li то — 1 п — то 1 п — т ЯЛ,(Р)= г-log з г-1о8 j-f lVr/ n — 1 ° n — 1 n — 1 e n— 1 rT /n. m , m и — т. — 1 . n — то — 1 При этом, если т<С п — т, то Ял, (р) < Я (Р), Ял2 (Р) > Я (р) (ибо неопределенность опыта, состоящего в извлечении одного шара из урны с т черными и тх = п — т белыми шарами тем больше, чем ближе к единице отношение —). Наконец, имеем На (Р) = р (Ау) Ял, (Р) + р (Аг) НА, (Р) = то п . п — тоГ то . то п — то — 1, п — то — 1 (во всех случаях Яа (Р) < Я (Р)) и Яр (а) = На (Р) + {Я (а) - Я (Р)} = На (р). Перейдем теперь к поставленной во второй части усло- условия более общей задаче. Опыт а, состоящий в извлечении из урны к шаров, мы теперь будем обозначать через ah. Пусть число к не превосходит чисел тип — т. В таком случае опыт ah может иметь к + 1 различных исходов, соответствующих тому, что среди извлеченных шаров ока- окажется 0, 1,2,.. ., к черных; обозначим эти исходы через Ао, Аи А2, . . ., Ah. Вероятность р (At) исхода At С1 Сн~г (i = 0, 1, . . .,к) будет равна отношению —т ™~~т-: общее число равновероятных исходов опыта ah равно Сп (числу всевозмолшых групп из к шаров, которые можно составить из имеющихся п шаров), а благоприятствовать исходу A f из них будут С1т • Сп~1п исходов (так как i чер- черных шаров из имеющихся т можно выбрать С1т способа- способами, а остальные к — i белых шаров — Сп~т способами).
§ 2] ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ. УСЛОВНАЯ ЭНТРОПИЯ 99 Отсюда следует, что энтропия опыта ah равна Ск г* r\ r.k-i rX rM~i Н(ак) = 2=2. log 7 /-ffc-2 С* log — Г Опыт p имеет два исхода Вг (извлечение черного шара) и В2 (извлечение белого шара). Вероятности этих исходов т п—т r\ a соответственно равны —и . сштропия опыта р по-преж- по-прежнему равна UL 2L JLHL log JLZHL . ь /1 Пусть теперь мы знаем, что имел место исход A t опыта ah. Это значит, что в урне после осуществления этого опыта осталось т — г черных и п — т — к -{- I белых шаров. Соответственно этому т— i - т — I п —т — fc + ' 1 п — т — 10 1Оё Для вычисления Нак (Р) остается только воспользоваться формулой Наконец, условная энтропия/Гр (aft) определяется по фор- формуле Яр Ю = Нак (Р) + Я (о*) - Я (Р). 4*
100 ЭНТРОПИЯ И ИНФОРМАЦИЯ 1Гл. II Аналогично рассматриваются случаи, когда к больше одного из чисел тип — т, или даже больше обоих этих чисел. Мы здесь не будем разбирать все представляющиеся возможности, а ограничимся лишь несколькими замеча- замечаниями. а) Пусть к — п — 1. Опыт an_i имеет всего два исхода Ах и А2, отвечающих тем случаям, когда последний ос- оставшийся в урне шар является черным и когда он является белым. Вероятности зтих двух исходов равны — и s ибо выбор п — 1 извлеченных шаров равпосилеп выбору одного остающегося шара и, следовательно, наш опыт an_x по существу не отличается от опыта <х,, состоящего в извлечении из урны с п шарами одного единственного шара. Таким образом, энтропия опыта ссп-1 равна Я(ап_1) = - — log— —log-^-, т. е. совпадает с энтропией опыта р. Что же касается услов- условной энтропии Нап1 (Р), то она, разумеется, равна нулю, поскольку исход опыта ап-г полностью предрешает исход опыта р. По аналогичной причине будет равна нулю и условная энтропия Н$ (ап-^). б) Пусть к = п — 2. Опыт an_2 имеет три исхода Ао, Ау и Л2, отвечающих тем случаям, когда в урне остается два черных шара, или черный и белый шар, или два белых шара (мы считаем здесь, что ни одно из чисел то и п — вне меньше 2). Вероятности зтих исходов равны С Cln'Cn-m 2m (n — m) = г = „ / /I \ — C"~m (и —m)(w —m —1) ^ч <" /72 n (n — 1) Соответственно этому энтропия опыта ап_2 равна rr / ч т (т — 1) 1 "г (т — 1) 2т (п — га) Н (а„_2) = п у _ ; log д ^ _ ' и ^ ' X • 2от (га — т) _ (ге — т)(п — т — 1) . (п — т) (п — та — 1) Х g п(п — 1) и (и — 1) ^ и (и — 1)
§ 2] ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ. УСЛОВНАЯ ЭНТРОПИЯ Ю1 Условные энтропии опыта В при условии реализации опре- определенного исхода опыта ап_2 будут равны г) а условная энтропия опыта В при условии осуществления ап_2 есть тт ,пл _ 2т (п — т) ¦"«П-2 W - п(П — 1) ' Наконец, условная энтропия опыта ап_2 при условии осуществления опыта В будет равна яр к_2) = я«п_2 (Р) + н к_2) - я ф). в) Если т = 1, то опыт а& имеет только два исхода Ах и Ао, отвечающих тем случаям, когда единственный черный шар находится среди к извлеченных шаров или среди п — к оставшихся в урпе; вероятности этих исходов равны ... к I л \ п — ^ Р (Ад = — , р (Л) = —тг- • Условная энтропия опыта В при условии, что опыт ah имел исход Аг, равна нулю: HAl (В) = 0, ибо исход Аг опыта ah, очевидно, однозначно определяет исход опыта В. Условная энтропия опыта В при условии, что опыт ось имел исход Ао, равна а ,п\ 1 1 1 п — Ь — 1 1 п — к — 1 #А,(Р) = --^ГГ1о8!Г=Т ^ГТГ-1^ n-k ; она превосходит (безусловную) энтропию того же опыта (ибо если среди заключенных в урне шаров лишь один по цвету отличается от остальных, то степень неопреде- неопределенности опыта, состоящего в извлечении одного шара, *) Здесь HAi (Р) > Н (Р), так как опыт Р, имеющий два ис- исхода, не может иметь энтропию, превышающую 1 бит.
102 8НТР0ПИЯ И ИНФОРМАЦИЯ [Гл. II будет тем меньше, чем больше общее число шаров). Сред- Средняя же условная энтропия опыта р меньше (безусловной) энтропии Н (Р). Если производить много раз пару опытов аир так, чтобы каждый раз опыт Р следовал за опытом а, то услов- условная энтропия #в(Р) будет характеризовать ту среднюю т 600 1,0 2fl 3fi Энтропия, биты Рис. 12. Н степень неопределенности исхода опыта Р, которая остает- остается после того, как становится известным исход предшест- предшествующего ему опыта а. В частности, в опытах по определе- определению среднего времени реакции (см. выше, стр. 83 и след.) всегда производится целая серия подач сигнала, при- причем перед каждой из них испытуемый знает, какие сиг- сигналы ему подавались ранее. Поэтому степень неопределен- неопределенности подаваемого сигнала здесь равна у словной эптропии соответствующего опыта при условии, что исходы всех предыдущих опытов (т. е. предыдущих подач сигнала) являются известными. В описанных на стр. 83— 86 опытах последовательные подачи сигналов всегда выби- выбирались независимыми друг от друга; поэтому в этих
§ 2] ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ. УСЛОВНАЯ ЭНТРОПИЯ ЮЗ опытах условная энтропия опыта а совпадала с его безус- безусловной энтропией Н(а). Если, однако, время реакции дейст- действительно определяется степенью неопределенности пода- подаваемого сигнала, измеряемой его энтропией, то из сказан- сказанного выше должно следовать, что изменение степени неоп- неопределенности при помощи введения зависимости между последовательными подачами сигналов должно оказать то же самое влияние на изменение среднего времени реак- реакции, как такое же изменение степени неопределенности при помощи изменения общего числа используемых равно- равновероятных сигналов или при помощи изменения относи- относительных частот этих сигналов. Результаты проверки этого заключения приведены на рис. 12, заимствованном из той же статьи [38], на которую мы ссылались на стр. 85. На этом чертеже нанесены 8 кружков и 8 квадратиков, кото- которые мы уже видели па рис. 10, и, кроме'того, еще 8 тре- треугольников, отвечающих результатам 8 опытов (прове- (проведенных над тем же испытуемым, что и раньше), в которых требовалось по-разному реагировать на зажигание каждой из к лампочек (опыт Р; в разных опытах к принимало значения 2, 3, 4, 5 и 8), зажигавшихся в среднем с оди- одинаковой частотой р — -г-, но так, что частота зажига- К ния каждой лампочки существенно зависела от того, какая лампочка зажглась непосредственно перед ней (опыт а). На рис. 12 по оси ординат по-прежнему откладывалось среднее время реакции Т (получаемое из длинной серии испытаний, проводимых после долгой предварительной тренировки испытуемого при фиксированных условиях зажигания отдельных лампочек), а по оси абсцисс — сред- средняя условная энтропия На(Р) = piAJ HAl (P) + р (А,) НАМ + ... + р(Ак) Ялк(Р) = = 4- Ша, (Р) + #ЛДР) + ... + Нлк (РI (Аи А%, . . ., Ak — исходы опыта а). То обстоятельство, что на рис. 12 треугольники с большой степенью точности попали на ту же прямую, вокруг которой группируются кружки и квадратики, показывает, что условная энтропия На (Р) действительно является именно той мерой степени неопределенности, которая определяет время реакции человека на исход опыта.
104 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II § 3. Понятие об информации Вернемся снова к величине Я(В), характеризующей степень неопределенности опыта В. Равенство этой вели- величины нулю означает, что исход опыта В заранее известен; большее или меньшее значение числа #(В) отвечает боль- большей или меньшей проблематичности результата опыта. Какое-либо измерение или наблюдение а, предшествую- предшествующее опыту В, может ограничить количество возможных исходов опыта В и тем самым уменьшить степень его неоп- неопределенности; так, степень неопределенности опыта, со- состоящего в нахождении самого тяжелого из трех грузов, уменьшается после сравнения на весах двух из них. Для того чтобы результат измерения (наблюдения) а м,ог ска- сказаться на последующем опыте В, разумеется, необходимо, чтобы этот результат не был известен заранее; поэтому а можно рассматривать как вспомогательный опыт, также имеющий несколько допустимых исходов. Тот факт, что осуществление а уменьшает степень неопределенности В, находит свое отражение в том, что условная энтропия Наф) опыта 6 при условии выполнения а оказывается меньше (точнее — не больше) первоначальной энтропии #(В) того же опыта. При этом, если опыт 6 не зависит от а, то осуществление а не уменьшает энтропии В, т. е. #а(Р) = Н (В); если же результат а полностью предоп- предопределяет исход 6, то энтропия 6 уменьшается до пуля: Наф) = 0. Таким образом, разность / (а, 6) = Я (В) - Яа(В) указывает, насколько осуществление опыта а уменьшает неопределенность 6, т. е. как много нового узнаем мы об исходе опыта В, произведя измерение (наблюдение) а; эту разность называют количеством информа- информации относительно опыта В, содержа- содержащимся в опыте а, или, короче, информаци- информацией о В, содержащейся в а. Таким образом, мы получаем возможность числен- численного измерения информации, что весьма полезно во многих случаях. Так, например, в условиях задачи 18 (стр. 95—97) можно сказать, что используемая реакция дает информацию о заболеваниях рассматривае- рассматриваемой болезнью, близкую к 0,14—0,12 = 0,02 (где за еди-
§ 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 105 ницу принята информация, доставляемая нам одним от- ответом «да» или «нет» на вопрос, в отношении которого мы заранее склонны были считать утвердительный и отрица- отрицательный ответы одинаково вероятными); цифра 0,02 и оце- оценивает пользу реакции. Другие примеры использования понятия количества информации будут при- приведены в гл. III и IV. Соотношение между понятиями энтропии и информа- информации в известном смысле напоминает соотношение между физическими понятиями потенциала и разности потен- потенциалов. Энтропия есть абстрактная «мера неопределен- неопределенности»; ценность этого понятия в значительной мере за- заключается в том, что оно позволяет оценить влияние на определенный опыт р какого-либо другого опыта а как «разность знтропий» / (a, Р) = Н (Р) — Наф)- Так как понятие информации, связанное с определенными измене- изменениями в условиях опыта р, является, так сказать, «более активным», чем понятие энтропии, то для лучшего уяс- уяснения смысла энтропии полезно свести это последнее поня- понятие к первому. Энтропию Н (Р) опыта Р можно определить как информацию относительно р, содер- содержащуюся в самом этом опыте (ибо осу- осуществление самого опыта р, разумеется, полностью опре- определяет его исход и, следовательно, Н$ (Р) = 0), или как наибольшую информацию относитель- относительно р, какую только можно иметь («пол- («полную информацию» относительно Р). Иначе говоря, энтро- энтропия Н (Р) опыта Р равна той информации, которую мы получаем, осуществив этот опыт, т. е. с р е д н е й ин- информации, содержащейся в одном ис- исходе опыта р1). Эти выражения, которые будут г) Замотим,| что выражение для энтропии .„ — p(Bi) . log имеет вид среднего вначения случайной величины, принимающей вначения ¦— logp(i?)j, — logp(Bs), ..., — logp(i?j) с вероятностя- вероятностями, равными соответственно p(BJ, p (Ва), ..., рEг)(ср. стр.24). В свя8и с этим можно считать, что при осуществлении опреде- определенного исхода Bi нашего опыта мы получаем информацию, рав- равную ¦—log p (Bi). В таком случае, если, например, опыт р имеет всего два вовможных исхода Bt и Вв с вероятностями 0,99 и 0,01, <го при осуществлении исхода Bt мы получим очень небольшую ин- информацию—log 0,99 » 0,017 бит. Это представляется вполне естест-
106 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II широко использоваться в гл. III и IV, понятно, имеют тот же смысл, что и «мера неопределенности»: чем больше не- неопределенность какого-либо опыта, тем большую инфор- информацию дает определение его исхода. Подчеркнем еще, что информация относительно В, содержащаяся в опыте а, по определению представляет собой среднее значение случайной величины Я(В) —Яа.(В), связанной с отдельными исходами At опы- опыта а; поэтому ее можно было бы назвать также «средней информацией относительно В, содержащейся в а». Часто может случиться, что, желая узнать исход какого-либо опыта В, мы можем с этой целью по-разному выбирать вспомогательные опыты (измерения, наблюдения) а; так, например, при нахождении самого тяжелого из определен- определенной системы грузов мы можем в разном порядке сравни- сравнивать отдельные грузы. При этом рекомендуется начинать с того опыта а0, который содержит наибольшую информацию относительно В, ибо при ином опыте а мы в е- роят н о, добьемся менее значительного уменьшения сте- •пени неопределенности {5 (энтропии Яф)). Реально же впол- вполне может случиться, что опыт а окажется более полезным, чем а0; может даже оказаться, что исход А опыта а0 будет настолько неудачен, что энтропия Нлф) окажется боль- га е первоначальной энтропии Н($). Такое положение дела является вполне естественным, так как случайный характер исходов опыта В, разумеется, не позволяет за- заранее указать кратчайший путь к выяснению результата этого опыта: самое большее, на что мы можем рассчиты- венным: в самом деле мы и до опыта знали, что почти наверное осу- осуществится исход Ви так что результат опыта мало что изменил в имеющихся у нас сведениях. Наоборот, если осуществится ис- исход В2, то полученная информация будет равна —log 0,01 = — 6,6 бит, т. с. будет гораздо больше, чем в первом случае; это естественно, так как сведения, полученные в результате опыта, здесь много более интересны (осуществилось событие, которое трудно было ожидать). Одпако такое большое количество инфор- информации при многократном повторении опыта мы будем получать очень редко; поэтому среднее количество инфор- информации, содержащееся в одном исходе, оказывается здесь мень- меньшим, чем в том случае, когда вероятности обоих исходов равны. Заметим еще, что в практических задачах нас всегда интересует только это среднее количество информации; представление же о количестве информации, связанном с отдельными исходами опыта, по'.ти никогда не употребляется.
I 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 107 вать — это указать путь, который вероятнее в с е- г о окажется кратчайшим; именно эту возможность и предоставляет теория информации *¦). Отдельные же вели- величины Н (Р) — Наг (Р) фактически даже не являются харак- характеристиками опыта р, поскольку если нам известен ре- результат A i опыта а (и опыты аир не независимы), то мы тем самым теряем право говорить о первоначальном опыте р, а должны учитывать те изменения в условиях этого опыта, которые вытекают из того, что а имеет исход А й таким образом На^ (Р) это есть просто энтропия некото- некоторого нового опыта, к которому сводится опыт р при условии, что реализуется событие At. Задача 20. Пусть опыт Р состоит в извлечении одного шара из урны, содержащей 5 черных и 10 белых шаров, опыт ak — в предварительном извлечении из той же урны (без возвращения обратно) к шаров. Чему равна энтропия опыта Р и информация об этом опыте, содер- содержащаяся в опытах а^, а2, а^ и а14? Энтропия опыта р, очевидно, равна Нф) = |-log-g §- log -§-~ 0,92 бита. Далее, согласно формулам, полученным в ходе реше- решения задачи 19, имеем {в битах): Цж1°еъ + ж1°*11)~ °'004' г) Не следует думать, что методы теории информации ни в ка- каких случаях не позволяют получить такую оценку, скажем, для числа вспомогательных опытов а, необходимых для определения результата определенного опыта р, которая имела бы а б с о л го т- п ы й характер, а не являлась бы лишь наиболее вероятной. Так, например, если информация /(а, Р) равна энтропии #(Р) опыта Р, то мы можем быть уверены, что при любом исходе о п ы т а а результат р становится полностью определенным (и ана- аналогично этому — если информация / (а, Р) равна нулю, то при любом исходе Л; о п ы т a ot энтропия Н А (Р) равна пер- первоначальной энтропии Н ([})). См. по этому поводу гл. III настоя- настоящей книги.
108 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II / (а,, (!) = И ф) - й«, ф) = - -1- log -5- - -|- log -§" + 15 _ 1 * 2 2 2-5-10 _~ ,, и, наконец, / (а14, р) = Я (р) - Наи (Р) = Я (Р) (« 0,92). Задача 21. Пусть для некоторого пункта вероят- вероятность того, что 15 июня будет идти дождь, равна 0,4, а вероятность того, что дождя не будет, равна 0,6. Пусть далее для этого же пункта вероятность дождя 15 октября равна 0,8, а вероятность отсутствия дождя в этот день — всего 0,2. Предположим, что определенный метод прогноза погоды 15 июня оказывается правильным в 3/5 всех тех слу- случаев, в которых предсказывается дождь, и в 4/б тех случаев, в которых предсказывается отсутствие осадков; в приме- применении же к погоде 15 октября этот метод оказывается правильным в в/10 тех случаев, в которых предсказывается дождь, и в половине случаев, в которых предсказывается отсутствие дождя (сравнительно большой процент оши- ошибок в последнем случае естественно объясняется тем, что предсказывается маловероятное событие, предугадать ко- которое довольно трудно). Спрашивается, в какой из двух указанных дней прогноз дает нам больше информации о ре- реальной погоде? Обозначим через рх и Р2 опыты, состоящие в определе- определении погоды в рассматриваемом пункте 15 июня и 15 октяб- октября. Мы считаем, что эти опыты имеют всего по два исхода— В (дождь) и В (отсутствие осадков); соответствующие
ттгтятгтк пт5 информации 109 таблицы вероятностен имею$" в|ид: В В t неходы \ В \ В . _ I ОПЫТ р вероятн. I 0,4| 0,6 вероятн. | 0,8| 0,2 <¦¦'.' С1* <Ч ct Следовательно, энтропии юпытов pt и р2 равны ' Я (РЛ = — 0,4 log 0,4 — 0,6 log 0,6 як 0,97 бита, Я (Р2) = — 0,8 log 0,8 — 0,2 log 0,2 ж 0,72 бита. Пусть теперь аг и а2 — предсказания погоды на 15 июня и на 15 октября. Опыты а1 и а2 также имеют по два исхода: А (предсказание дождя) и А (предсказание сухой погоды); при этом пары опытов (о^, PJ и (а2, Р2) ха- характеризуются следующими таблицами условных вероят- вероятностей: пара (сц, Pi) л I А 1 а пара (a,, ft) Ра ( П Ра ( П Р* ( ' 0,9 | 0,1 | 0,5 | 0,5 (напомним, что рА (В) + рА (Б) = рА (В) + р^(в) = 1). Эти таблицы позволяют определить также и неизвестные нам вероятности рг (А) и рг (Ж), р2 (А) и jd2 (А) исходов А и А опытов at и аа. В самом деле, по формуле полной ве- вероятности (см. выше, стр. 44) имеем для опыта ^ 0,4 = р (В) = Pl (A) fg> (В) + А (Л) р§> (Б)"= и для опыта Р2 .. ' 0,8 = р(В) = р2 D) р9» (Я) + pz (A)pf (В) - Так как рг (А) = 1 — />! (^4), рг (А) = 1 — jd2 (i4), то от- отсюда получаем ft И) = ft (Л) = 0,5, р2 И) = 0,75, р2 (А) = 0,25.
НО энтропия и информация [гл. п Подсчитаем теперь энтропии Яд (р^), Н-^фг), Да(Р2) и %<р2) (в битах): Ил(М = - 0,6 -log 0,6 - 0,4 -log 0,4 ^ 0,97, Hj (px) = - 0,2 -log 0,2 - 0,8 -log 0,8 « 0,72 НА (Р2) = - 0,9 -log 0,9-0,1 -log 0,1 « 0,47, % (W = - 0,5 -log 0,5-0,5 -log 0,5-1. Следовательно, Hai (W = Pt (А) И л ф + А (Л) Яг C,)« 0,84, Яаг (Р2) = А (Й'ЯаU) + ft "(i) ///(Pa)« 0,60. Таким образом, мы видим, что информация, содержа- содержащаяся в прогнозе погоды на 15 июня (опыт щ) о реальной погоде в этот день (об олыте Pj), равна / К, р,) = Н (Р,) - На, (Рд)« 0,97 - 0,84 = 0,13 бит, что несколько больше, чем информация о реальной погоде 15 октября (об опыте рг), содержащаяся в прогнозе погоды на этот день (в олыте а2): 1 (о,, р2) = В (р2) - Еа% (р2) « 0,72 - 0,60 = 0,12 бит. Этот результат позволяет считать прогноз погоды на U5 шопя более ценным, чем прогноз на 15 октября, не- несмотря на то, что последний прогноз чаще оказы- оказывается правильным: действительно, в силу формулы полной вероятности, для прогноза погоды на d5 июня вероятность оказаться правильным равна ft (А) р$ (В) + Pt (Ж) р% (В) - 0,5 - 0,6 + 0,5 - 0,8 - 0,7, в то время как для прогноза погоды на 15 октября эта ве- вероятность равна р2 (А) р<? (В) + р2 {Ж) pf (В) =- 0,75 -0,9 + 0,25 • 0,5 = 0,8. Вообще, количество информации / (а, Р), содержащее- содержащееся в предсказании а исхода некоторого случайного собы- события (или опыта) р, является объективной характеристикой 'ценности прогноза. Оно равно нулю, если На (Р) = Н (Р), о1, е. если события аир независимы (так что «прогноз» а
§ 3] ПОНЯТИЕ ОБ. ИНФОРМАЦИИ Щ никак не связан с событием Р) или если Н (J3) = 0 (так что исход Р известен заранее и не нуждается в предсказании); во всех остальных случаях количество информации поло- положительно, но не больше степени неопределенности Н (Р) опыта Р (причем /(а, р) = Я (Р), лишь если Яа(Р) =0, т.е. если «прогноз» а однозначно определяет исход Р). Отме- Отметим, впрочем, что подобный способ оценки качества любо- г о прогноза уже по самой своей универсальности не мо- может охватить все возможные аспекты вопроса. В частно- частности, наша характеристика ценности прогноза полностью игнорирует содержание различных исходов про- прогнозируемого опыта Р, а оперирует лишь с вероятно- вероятностями этих исходов. Между тем вполне реальна такая ситуация, когда в силу различного характера разных ис- исходов Р один из них значительно важнее предсказать без- безошибочно, чем другие. Так при предсказании какого-либо стихийного бедствия В (землетрясения, наводнения; в бо- более скромном варианте — заморозков) обычно крайне важно не ошибиться, предсказывая, что В не насту- наступит, в то время как ошибка в предсказании наступ- наступления В чаще всего является значительно более без- безобидной (она влечет за собой лишь необоснованное приня- принятие мер предосторожности). Подобные различия между ивг- ходами опыта Р должны учитываться иными численными характеристиками, отличными от информации /. В этой связи мы можем повторить относительно инфор- информации / то же самое, что было сказано выше (см. стр. 80— 81) об энтропии Н. Понятие информации возникло непо- непосредственно из задач теории связи и специально было по- подобрано так, чтобы отвечать запросам этой теории. По- Поскольку передача по линии связи (например, телеграфной) сообщения определенной длины требует в случае совер- совершенно несущественного или даже лживого сообщения и в случае сообщения о величайшем открытии примерно оди- одинакового времени и одинаковых затрат, то с точки зрения теории связи приходится считать, что и количество инфор- информации в этих сообщениях является одинаковым. Разу- Разумеется, подобное определение количества информации, полностью отвлекающееся от смыслового содержания рас- рассматриваемого сообщения, не может быть годным во всех случаях, в которых в обыденной жизни употребляется слово «информация». Ясно, однако, что ценность любого
112 энтропия и информация [гл. и научного понятия определяется никак не количеством слу- случаев, не обслуживаемых этим дэнятием, а един- единственно лишь важностью и распространенностью кон- конкретных задач, при решении которых данное понятие оказывается полезным. В отношении же по- понятия информации таких задач оказывается множество (см., в частности, ниже гл. III и IV). Задача 22. Пусть опыт р состоит в определении положения некоторой точки М, относительно которой д заранее известно толъ- -¦ . г > ко, что она расположе- ,'А n j i I 1„ на на отрезке А В длины Г "'...м.... л...,,.,., jfl L (рис 13)j а опытеа_ 1 J в измерении длины от- L резка AM с помощью не- РИС. 13. которого измерительно- измерительного прибора, дающего нам значение длины с точностью до определенной «ошибки из- измерения» Д (например, с помощью линейки, на которой нанесена шкала с делениями длины Д). Чему равна ин- информация /(а, Р), содержащаяся в результате измере- измерения, относительно истинного положения точки Ml С первого взгляда может показаться, что эта задача не может быть решена с помощью приведенных выше фор- формул: ведь в этих формулах речь все время шла об опы- опытах, могущих иметь лишь конечное число исходов, а те- теперь у нас р может иметь бесконечно много ис- исходов (точка М может совпасть с любой точкой отрезка АВ). И действительно, мы не можем здесь приписать опы- опыту Р никакой конечной энтропии; тем не менее оказывает- оказывается, что информация / (a, J3) (являющаяся разностью двух энтропии Н (Р) и На (Р)) в рассматриваемом случае имеет вполне определенное конечное значение. Чтобы по- пояснить это предположим сначала, что длины L и Д соиз- соизмеримы между собой и разобьем весь отрезок АВ на маленькие отрезки длины е, выбранной так, чтобы и на всем отрезке Л5и на отрезке длины Д уложилось целое число таких малых отрезков (т. е. чтобы отношения L/e и Д/е оба выражались целыми числами). Поставим за- задачу об определении положения точки М с точно- точностью до величиные. Так как заранее нам было извест-
§ 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ ИЗ но только, что точка М располагается где-то на отрезке АВ, то мы можем считать, что опыт ре, состоящий в опре- определении ее положения с точностью до е, имеет L/e равнове- равновероятных исходов, так что его энтропия равна Н (Ре) = == log —. После того как мы произвели опыт а, т. е. из- мерили длину AM с помощью нашего измерительного при- прибора, мы выяснили, что на самом деле точка М помещается внутри меньшего интервала длины Д (определяющего точ- точность измерения); поэтому при известном исходе а опыт ре будет иметь уже всего Д/е равновероятных исходов, так что На(%) = log —. Следовательно, / (а, РЕ) = Н (Ре) ~ На (Ре) = log 4 - bg 4 = bg 4~- При неограниченном уменьшении е (т. е. при опреде- определении положения нашей точки со все большей и большей точностью) обе энтропии Н (ре) и На (РЕ) будут неограни- неограниченно возрастать; однако информация / (а, ре) при этом вовсе не меняется, оставаясь все время равной log -д-. Естественно поэтому, что информацию / (а, Р) (которую мы можем определить, например, как предел / (а, ре) при е -> 0), надо считать также равной log -g — это и есть информация относительно истинного положения М, со- содержащаяся в результате измерения с точностью Д. При неограниченном увеличении точности прибора (т. е. не- неограниченном уменьшении Д) эта информация неограни- неограниченно возрастает, однако возрастание это сравнительно мед- медленное: при увеличении точности в п раз мы получаем до- дополнительно лишь log n единиц информации (например, при увеличении точности в 2 раза мы выгадываем 1 бит информации, а при увеличении точности в 1000 раэ — меньше 10 бит информации). В наших рассуждениях мы предполагали, что длины L и Д являются соизмеримыми. Ясно, однако, что это пред- предположение не является существенным; если выбрать е достаточно малым, то предположение о том, что на отрез- отрезках АВ и Д укладывается целое число малых отрезков длины е, всегда будет выполняться с большой степенью
114 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II точности, так что полученньй нами результат не может измениться и в случае несоизмеримых L и Л. ' Более подробное обсуждение затронутого в этой задаче вопроса об информации, содержащейся в результате изме- измерения, можно найти в книге JI. Бриллюэва [2]. Отметим еще, что при решении задачи 22 мы встрети- встретились с новой для нас ситуацией. Нам пришлось здесь иметь дело с опытом р, имеющим бесконечное число исходов, так что соответствующую энтропию Н (Р) мы должны были считать бесконечной. Для того чтобы подсчитать информацию об этом опыте, содержащуюся в другом опыте а, мы рассмотрели вспомогательный опыт j?E, получаемый при помощи объединения в один- единственный исход целой группы исходов р\ отличаю- отличающихся друг от друга не больше чем на малую величину е. При этом оказалось, что как энтропия Н (ре) этого нового опыта, так и условная энтропия На (Ре) имеют уже конеч- конечное значение; так как их разность к тому же оказалась не зависящей от выбора е, то эту разность мы и приняли за информацию / (а, р). Подобного рода обстановка постоянно встречается при рассмотрении опытов J3, имеющих непрерывное множество исходов. Во всех таких случаях энтропия Н (Р) оказы- оказывается бесконечной; однако вместо нее часто можно рас- рассматривать конечную энтропию /У(ре) = #е(Р)« получае- получаемую при объединении исходов J3, отличающихся не более чем на некоторое малое е, в один исход. В практических задачах обычно только энтропия /7е(Р) (называемая е-энтропией опыта Р) и имеет смысл, так как мы вообще не можем различить между собой исходы р, отли- отличающиеся меньше чем на некоторую малую величину (оп- (определяемую точностью имеющихся в нашем распоряжении измерительных приборов). К этом вопросу мы еще вер- вернемся ниже (см. стр. 290—292). Приравняв энтропию Н (а) средней информации, со- содержащейся в исходе опыта а, мы можем, в частности, дать новое истолкование результатам психологических экспери- экспериментов, описанных на стр. 183—186 и 102—103. А именно, мы видим теперь, что согласно этим результатам среднее время, требующееся для четкого уяснения значения не- некоторого сигнала и правильной реакции на него, возра-
g 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ Ц5 стает пропорционально средней информации, содержа- содержащейся в этом сигнале. Исходя отсюда, можно предполо- предположить, что в случае достаточно регулярно происходящих событий, характеризующихся определенной статистиче- статистической устойчивостью (т. е. подчиняющихся законам теории вероятностей), сообщение о возникновении такого собы- события передается через органы чувств и нервную систему в среднем за время, пропорциональное содержащейся в этом событии информации. Иначе говоря, можно пред- предположить, что передача сообщений в живом организме во многих случаях происходит так, что за одинаковое время в среднем передается одинаковое количество информации. Отметим здесь же, что, как будет видно из содержания гл. IV, такой же закономерностью характеризуется пере- передача сообщений по всем техническим линиям связи. Из сделанного предположения вытекает простое след- следствие, которое может быть проверено экспериментально. В самом деле, пусть при проведении опыта по определе- определению среднего времени реакции мы предлагаем испытуемо- испытуемому реагировать очень быстро — быстрее чем он может пол- полностью уяснить себе, какой именно сигнал перед ним появился. Пусть, например, рассматриваемые сигналы состоят в зажигании одной из п лампочек и требуется при зажигании i-й лампочки нажать i-ю кнопку. При умень- уменьшении времени реакции Т испытуемый, естественно, бу- будет все чаще и чаще ошибаться — нажимать вместо i-й кнопки какую-нибудь другую, например, /-ю. Это означа- означает, что из-за необходимости очень быстро реагировать он становится не в состоянии полностью воспринять всю ин- информацию, заключающуюся в появлении определенного сигнала. Если, однако, время Т не слишком мало, то не- некоторую полезную информацию о сигнале вспытуемыйвсе же успеет уловить; это будет проявляться в том, что реак- реакция его не будет совершенно беспорядочной, а в среднем он будет при зажигании i-й лампочки все же чаще нажи- нажимать i-ю кнопку, чем какую-либо другую. Опыт а, состоя- состоящий в нажимании испытуемым одной из п кнопок, здесь будет содержать определенную информацию об опыте р\ состоящем в зажигании одной из п лампочек; это и будет та средняя информация, которую способен воспринять за время Т испытуемый. Согласно нашему предположению вта информация должна так же зависеть от времени
116 ЭНТРОПИЯ И ИНФОРМАЦИЯ [ГЛ. II реакции Т, как зависит от Т энтропия Я (Р) в том слу- случае, когда Т определяется как наименьшее время, доста- достаточное для безошибочной реакции. Проверка последнего заключения была проведена английским психологом У. X и к о м [39]; полученные им результаты мы изобразили на рис. 14. Кружками здесь 1200 o,6 i,z rjB Информация , б, Рис. 14. 3,0 обозначено среднее время реакции, определенное из опыта, совпадающего с описанным на стр. 83—85; перед испы- испытуемым (которым в данном случае являлся сам исследо- исследователь) зажигались с равными частотами п различных лампочек (где п в разных опытах менялось от 1 до 10) и измерялось среднее время Т, требующееся для правиль- правильной реакции на поступивший сигнал. Как мы уже знаем, Т при этом линейно возрастает с ростом энтропии Н (Р) = = / (Р, р); это проявляется в том, что на нашем рисунке» где по оси ординат отложено время Т, а по оси абсцисс I (Pi P)i все кружки со значительной степенью точности попадают на одну прямую. Крестиками же здесь обозна- обозначены результаты опытов, в которых использовались все 10 лампочек, зажигавшихся с одинаковой частотой, но время реакции Т заранее устанавливалось столь малым, что реакция испытуемого в ряде случаев поневоле оказы- оказывалась ошибочной. Для того чтобы оценить среднюю информацию, содержащуюся в опыте а (нажимании ис- испытуемым одной из 10 кнопок) относительно опыта Р (по- (появления одного иэ 10 сигналов), производилась большая
§ 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 117 серия иэ N испытаний с одним и тем же Г и подсчитывалось общее число щ^ всех тех случаев, в которых в ответ на зажигание ?-й лампочки была нажата /-я кнопка (i и / принимают всевозможные значения от 1 до 10; при этом сумма всех щ j равна N, а общее число всех случаев, в ко- которых испытуемый реагировал правильно, равно п1Л + + n2i2 + . . . + nio.iо)- Ясно, что вероятности 10 исходов опыта Р здесь можно приближенно считать равными _ z,i + 2л -\ \- n2W _ «10Л з2 пт 1 • ••» У1О пт а вероятности 10 исходов опыта а — равными Pi = И1.2 + И2,2 Н ЬИ10.2 „ _ И1.1О+ .10+ сложный опыт оф здесь будет иметь 102 = 100 различных исходов, вероятности которых приближенно равны соот- соответствующим частотам И1,2 _ Я1О,1О _ Л.2 Отсюда для энтропии опытов Р, а и сф получаются вы- выражения: Н (Р) = — ft bg дх — д2 log д2 — . . . — д10 log g10, Н (а) = — /?1 log Pi — р2 log /?2 — . . . — /?10 log p10, Я(аР) = — Pbilogp!,!—pli8 log р1Л—. . . — позволяющие приближенно подсчитать эти энтропии по определяемым из эксперимента числам m,j. После этого из формулы Я (аР) = Н (а) + Яа(Р) (см. стр. 91) мы можем определить среднюю условную энтропию На (Р): Я«(Р) = Я (аР) - Я(а),
118 энтропия и информация [гл. п а по Я (Р) и На (Р) можно найти и информацию / (а, Р) об опыте Р, содержащуюся в опыте а: / (а, Р) = Я (Р) - Я« (Р). Это значение информации / (а, Р) и откладывалось по оси абсцисс на рис. 14 при нанесении на него крестиков. Отметим, что постановка опыта здесь в некотором смыс- смысле обратна той, которая рассматривалась на стр. 83—86 и 102—103: если раньше мы задавали заранее информацию I (Р» Р) — Н (Р) и исследовали зависимость от нее времени реакции Т, то теперь заранее задается время Т (т. е. тре- требуется, чтобы испытуемый реагировал через определенное время Т после появления сигнала) и изучается зависи- зависимость от этого времени информации I (a, P). То обстоя- обстоятельство, что крестики на рис. 14 группируются вокруг той же прямой, что и кружки, подтверждает предположе- предположение о линейной зависимости времени реакции именно от информации, содержащейся в сигнале. Разумеется, было бы неоправданным распространять результаты этих нескольких опытов, проводившихся в весьма специфической обстановке, на все вообще процес- процессы передачи информации в живом организме. На самом деле простая линейная зависимость между временем ре- реакции и информацией, содержащейся в поданом сигнале, наблюдается не во всех опытах; кроме того, даже в тех случаях, когда такая зависимость имеет место, коэффи- коэффициенты соответствующей линейной функции могут прини- принимать весьма разные значения (см., например, сводный рис. 15, заимствованный из статьи В.И.Николаева [40]; ср. также книгу [41], включающую список литературы, содержащий более 500 названий). Факторы, от которых за- зависят эти коэффициенты, изучались многими авторами (см., например, обзорные статьи [42] — [44]); однако в этой области остается еще очень много открытых вопро- вопросов. Тем не менее имеющиеся данные (по поводу которых см. также книгу [45] и сборник [46]) определенно показы- показывают, что введенное выше понятие информации часто мо- может быть с успехом использовано для количественного описания процессов восприятия и усвоения живыми ор- организмами сигналов разного рода, поступающих к ним из внешнего мира.
§ 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 119 Докажем теперь, что информация относительно опыта Р, содержащаяся в опыте а, всегда равна информации отно- относительно а, содержащейся в J3. Это непосредственно следу- следует из результатов предыдущего параграфа: так как Н (а) + Наф) = #(Р) + #р(а) (см. выше, стр. 95), то I (а, Р) = Н (Р) - #в(Р) = Я (а) - Яр(а) = / (р\ а). Таким образом, информацию I (a, P), которую содержи? 3,2 г,8 / - о опыты хш я Кросемана » Хаимшш " Фшлтса » Анчет ГавртВа и I г 3 Ь 5 6 7 Информация , бйпы Рис. 15. опыт а относительно опыта Р, можно также назвать взаимной информацией двух опытов а. и Рдруг относительно друга. Равенство информации / (a, J3) и I (P, а) подчеркивается следующей простой формулой, которая во многих случаях оказывается
120 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II весьма удобной / (а, Р) = Я (о) + Я (Р) - Я (оР) (ср., например, выше, стр. 117—118). Эта формула вытека- вытекает из того, что #а(Р) = Я (аР) — Н (а) (ибо Н (аР) = =Я(а) + Яа(Р)); в ее правую часть опыты аи Р входят совершенно симметрично. Приведенную здесь симметричную формулу для коли- количества информации можно преобразовать так, чтобы ее правая часть непосредственно выражалась через вероят- вероятности р (Аг), . . ., р (Ah) и р (В%), . . ., р (Bi) различных исходов опытов а и р и через вероятности р (AiBt), р (AXBJ), . . ., p(AhBi) исходов сложного опыта оф. В самом деле, согласно определению энтропии Н (а) = — р (Aj) log р (А%) — р (А2) log p (Л2) — ... ...— р (Ah) logp (Ah), Я (Р) = - р (В,) log p (BJ - р (BJ log p(B2)- ... ...- р (Bt) log p (Вг) и Я(сф) = - р (А&) logp (A&) - ... - p(AhBl)logp(AhBl). С Другой стороны, согласно правилу сложения вероятно- вероятностей (см. стр. 27) р (At) = p (AtBJ + р (АгВ2) + . . . + p(AtBl), i = 1, 2, . . ., к и р (В,) = р (Л,Д,) + р (А2В}) + ... + р(А hBj), 7 = 1,2,.. ., I, так что -р (At) log p (At) = - р (A,Bt) log p (A,) - - р (AtB2) log p (At) - . . . -р (AtB,) log p (Ад, - р (В}) log p (Bj) = - p (A,Bj) log p (Bj) - - p (AtBj) log p (Bj) - . . .- p (AhBj) log p (Bj).
§ 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 121 Подставив все эти выражения в исходную формулу, получим 1{а, ft = - р (А&) [log p (AJ + + log p (BJ - log p ( - р (А&) [log p (AJ + log p (BJ - log p ( - р (AhBt) [log p(Ah) + log р (Вд ~ bg p (А„Вг)\ или, окончательно, •>log Эта формула, очевидно, также симметрична относительно опытов аир. Формулу / (а, Р) = / (Р, а) можно также записать в следующем виде! / (а, Р) = Я (а) - #р(а). Из нее следует, что информация /(а, Р), содержащаяся в опыте а относительно опыта Р, не превосходит энтро- энтропии Н (а) опыта а — обстоятельство, которое часто ока- оказывается полезным. Впрочем, последнее предложение, разумеется, нельзя считать неожиданным: естественно, что информация, которую содержит опыт ао другом опыте Р, не превосходит информации, содержащейся в а относительно самого себя — энтропии Н (а) этого опыта. Таким образом, энтропия Н (а) может быть также определена как наибольшая информация, которая может содержаться в опыте а («полная информация», содержащаяся в а). Из формулы / (а, Р) = Н (а) — #р(а) вытекает также, что информация I (а, Р) точно равна энтропии Н (а) опы- опыта а е том и только в том случае, когда условная энтропия Яр (а) равна нулю, т. е. когда результат опыта Р полно- полностью определяет исход вспомогательного опыта а; именно так будет обстоять дело, например, в задачах, разбира- разбираемых в следующей главе. Если же Яр(а) =j= 0, то
122 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II информация /.(а, Р) будет ровно на величину Яр (а) меньше энтропии Н (а). В частности, если опыты а и Р независимы (и только в этом случае) информация I (a, Р) будет равна нулю. Заметим еще, что если условная энтропия Яр (а) равна нулю и, следовательно, информация / (а, Р) относитель- относительно р, содержащаяся в а, является наибольшей (т. е. ни про какой другой опыт р2 опыт а не содержит большей информации), то информация относительно любого неза- независимого от Р опыта у, содержащаяся в а, равна нулю — это дает основание говорить, что опыт а «прямо направ- направлен» к выяснению исхода р и не содержит никакой «посто- «посторонней» информации. В общем же случае информация отно- относительно любого независимого от Р опыта у, содержащаяся в опыте а, не превосходит величины Яр (а) = / (а, а) — — / (а, Р); если Яр(а) = 0, то это утверждение обращается в более частный результат, указанный выше. Доказатель- Доказательство сделанного утверждения требует введения одного важного вспомогательного понятия; оно будет приведено (вместе с доказательством других сформулированных ниже утверждений) в самом конце параграфа. Пусть теперь ее, Р и у — три произвольных опыта. В таком случае всегда / (Pv, «) > / (Р, а); иначе говоря, сложный опыт $у (т. е. пара опытов р и у) всегда содержит не меньшую информацию относительно любого опыта а, чем простой опыт р. Этот факт представ- представляется вполне естественным с точки зрения наших нагляд- наглядных представлений об «информации»; строгое доказатель- доказательство этого и подобных ему предложений и делает закон- законным употребление слова «информация» в применении к величине / (а, Р). При этом равенство / фу, а) = /(Р, а) будет иметь место лишь в том случае, когда условная ве- вероятность любого исхода опыта а при условии, что опыты Р и у имеют некоторые определенные исходы, не изменяет- изменяется при изменении исхода у (т. е. зависит лишь от исхода Р). В зтом последнем случае совершенно естественно счи- считать, что сложный опыт Py не содержит никакой дополни- дополнительной информации относительно а по сравнению с опы- опытом Р, так что равенство / фу, а) = I (P, а) здесь также
§ 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 123 находится в полном соответствии с наглядными представ- представлениями о понятии «информация». Предположим теперь, что равенство / фу, а) — I (Р,а) имеет место. Можно доказать, что в этом случае всегда / (у, а) < / (Р, а). Таким образом, если сложный опыт $у не содержит ника- никакой дополнительной информации об а по сравнению с опы- опытом р, то информация об а, содержащаяся в опыте yf не может быть больше информации об а, содержащейся в опыте р. При этом знак «меньше или равно» в последнем неравенстве можно заменить знаком равенства в том и только в том случае, когда / фу, а) = I (у, а), т. е. когда сложный опыт р-у не содержит дополнительной информа- информации об а также и по сравнению с опытом у. Неравенство / (у, a) sg; / (p, а), о котором здесь идет речь, играет в теории информации значительную роль (см., например, 18] и [47], а также гл. IV этой книги). Оно по- показывает, что при последовательной пере- передаче информации об опыте а, осуществля- осуществляемой посредством цепочки опытов Р, у, б, . . ., где толь- только опыт р непосредственно связан с а, а у всю содержа- содержащуюся в нем информацию об а получает из связи с опы- опытом р (так что Pv уже не содержит об а дополнительной информации по сравнению с Р), 6 всю информацию об а получает из связи с опытом -у и т. д., информация об а может лишь уменьшаться: Я (а) = / (а, а) > / (Р, а) > I (у, а) > / F, а) > ... Наглядной иллюстрацией этого положения может слу- служить известная детская игра в «испорченный телефон», при которой первый играющий тихо произносит на ухо своему соседу некоторое слово (опыт а); сосед тихо пере- передает расслышанное им слово (которое может и отличаться от первоначально произнесенного) следующему играю- играющему (опыт Р); этот играющий также передает услышан- услышанное слово соседу (опыт у) и т. д.; в конце игры все говорят услышанные ими слова, и проигравшим считается тот из участников, кто первым неправильно услышал передавае- передаваемое слово. В этой игре может случиться так, что второй играющий передает первоначально сказанное слово неправильно, а третьему в результате повторной ошибки покажется, что он услышал то же слово, которое
124 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II передавалось вначале; однако при большом числе повто- повторений той же процедуры второй играющий, разумеется, в среднем будет чаще передавать дальше слово, которое на самом деле произнес первый игрок, чем третий играющий. Но наше понятие информации I как раз и является статистическим понятием, характеризующим соотношения, имеющие место «в среднем»; поэтому для него всегда будет выполняться выписанная выше цепь не- неравенств. Ясно, что с точки зрения наглядных представ- представлений о передаче информации это обстоятельство также можно считать очевидным. Неравенства / фу, а)>1 (Р, а) и / фу, а) > / (у, а.) (см. стр. 22) можно дополнить еще одним неравенством, несколько менее очевидным с точки зрения интуитивно ожидаемых свойств величины, получившей название «информации». Ясно, что, вообще говоря, вдолне может иметь место неравенство / фу, а)<1 ф, а) + I (у, а); так, например, если р = у, то и Ру = р, — и потому в таком слу- случае, вообще говоря, / (Pv, о) = / (Р, а)<1 ф, а) + 1 (v, а) = 2/ ф, а). Однако если опыты Р и у независимы (т. e./(S, y) = = I (V> Э) = 0), то неравенство / (Pv, к) < / (Р, и) + / (у, а) является невозможным: в этом случае обязательно / (Pv, а) > / (Р, а) + / (V, о). Невозможность неравенства / (Р, а) + / (v, а) > ' (Р у, а) здесь объясняется тем, что независимость опытов р и у гарантирует отсутствие «общей части» величин / (Р, к) и / (v, ос): ведь здесь опыты р и а доставляют существенно разную информацию об опыте к и связанная с выполнением сразу обоих опытов Р и у информация / (Pv, а) не может оказаться меньше суммы информации / (Р, а) и / (у, а). Это можно сравнить с неравенством площадь (Fi + F2) < площадь Fi + площадь F2, где Fi + F2 — объединение фигур Fi и F2, которое, оче- очевидно, невозможно, если Fi и F2 не имеют общей части. Однако здесь, казалось бы, можно ожидать равенства / (Pv, а) = I ф, а) + I (v, а), ибо неясно, за счет чего информация / фу, а) может оказатьс я больше суммы информации / (Р, «) и / (v, «). Дело, однако, заключается в том, что даже в случае незави- независимости опытов р и у их совместное осуществление (т. е. опыт Pv), позволяющее сразу узнать и исход р, и исход у, вообще говоря,
3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 125 может доставить больше информации, чем раздельное осуществле- осуществление р и у (с которым связана величина / (Р, к) + / (\>, «)). Проил- Проиллюстрировать это можно на примере, изложенном мелким шрифтом на стр. 45—46. Рассмотрим опять изображенный на рис. 2 тетраэдр, и пусть а (соответственно р и у) — опыт, состоящий в проверке того, имеется ли или отсутствует на той грани, на которую упал тетраэдр, цифра 1 (соответственно 2 и 3); таким образом, опыт а может иметь исходы А и А, опыт р — исходы В а В, а опыт у — исходы С и С. Из приведенных на стр. 46 подсчетов сразу следует, что все три опы- опыта к, р и у являются попарно независимыми; таким образом, здесь / ф, а) = 0 и / (у, ее) = 0, так что / (Р, а) + I (у, а) = 0. С другой стороны, результат сложного опыта fiy уже полностью определяет исход ос (опыт а имеет исход А, если р и у имеют «оди- «одинаковые» исходы, т. е. и р и у имеют «положительные» исходы В и, соответственно, С или же и р и у имеют «отрицательные» исходы В и, соответственно, С; опыт ос имеет исход А, если р и у имеют «различные» исходы, т. е. В и С или В и С). Таким образом, здесь / (Pv, «) = II (а) = 1 бит, / (Pv, ос) > / (Р, ос) + / (у, «) (= 0). Более того, вдесь опыты ft и у не содержат никакой информации об а, а опыт (Зт содержит об а «полную» информацию, т. е. наи- наибольшую информацию, какую только об а можно иметь. Доказательство приведенных выше утверждений может быть получено на основе изучения величины /р (v, ос) = Яр (ос) - Н^ (ос), которую мы будем называть средней условной инфор- информацией двух опытов^иадруг относительно друга при условии выполнения опыта C или, короче, просто условной информацией опытов у и ос при условии р. Прежде всего отметим, что условная ин- информация /р (у, ос) всегда неотрицательна. Этот факт немедленно вытекает из неравенства Ярт (ос) < Яр (ос), означающего, что предварительное осуществление сложного опыта PV (т. е. двух опытов р и у) всегда уменьшает степень неопределен- неопределенности опыта а не в меньшей степени, чем осуществление одного опыта р (строгое доказательство этого неравенства см. в Приложе- Приложении I в конце книги). Так как, кроме того, всегда #pY (a) ^ 0 (ибо Нру (ос) — это некоторая условная энтропия), то 0 < /р (V, «) < Яр (ос). При этом /р (у, а) = Яр (а) лишь если Яру (а) = 0, т. е. если слож- сложный опыт Ру однозначно определяет исход опыта «; /р (v, ос) = 0
126 энтропия и информация [гл. п лишь' если HjjY (а) = Яр (а), а следовательно, и / фу, к) = / ф, и), т. е. если условные вероятности всех исходов опыта а при усло- условии, что опыты р и у имеют некоторые определенные исходы, не зависят от исхода у (см. конец Приложения I). Докажем теперь, что условная информация симметрична; Jp (Y. а) = Jp (а. V) (это обстоятельство подчеркивается и самим названием «условная информация опытов у и а друг относительно друга»). В самом деле, по определению /р (v, а) = Яр (а) - Ярт (а), /р (ос, V) = Щ (V) - Яра (V)- Но так как сложный опыт сфу, состоящий в осуществлении трех опытов к, C и у, можно с одинаковым правом рассматривать как объединение сложного опыта кр и опыта v или же как объединение опыта а и сложного опыта Ру 1), то Я (ару) = Я («Р) + Яар (у) = Я (Р) + Яр (а) + Яар (V) Я (KpV) = Я (pv) + Яру (а) = Я (Р) + Яр (у) + Яр». Следовательно, Яр (а) + Яар (v) = Яр (v) + Яр., (а), а. е. /р (v, а) = Яр (а) - Яру (а) = Щ (у) - Яар (у) = /р (а, у)- Равенство /р (у, а) = /р (а, у) вытекает также из следующей «симметричной эаписи» условной информации In (у, а), легко про- проверяемой непосредственно: если А% (где i = 1,2, . . .,{), В} (где 7 = 1,2 , . . ,,т) и Cj? (где ft = 1,2, . . . ,п) — всевозможные исходы опытов а, р и у, то /р (Y. «) = Р (?i) ^в, (V. «) + Р (#а) ^вг (V, «) + ... ... + /» №«) ^вт (V. где (Г,«) = Рв, х) Символически это можно записать равенствами «PV = («P)V = « (PV) (ср. с «ассоциативным ваконом» умножения событий на стр. 61 § 4 гл. I).
3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 127 — взаимная информация опытов а и у при условии, что опыт Р имел исход Bj. Такая вались хорошо поясняет смысл условной ин- информации /q (у, а); нам она, однако, не понадобится. Из формулы /p(v» °0 = Нр(а) — Яру (а) легко получается важное соотношение / (рт, а) = / (Р, а) + /р (v, ос), близкое по форме к равенству Н фу) = Н ф) + Яр (у) (это соот- соотношение следует'изтого, что/ фу, к) = Н (к) — #gY (а) и / (E, к) = =#(а)—//р (к)). Ясно, что наши утверждения, касающиеся величины информации I фу, а), являются автоматическими следствиями это" го соотношения и свойств условной информации. В дальнейшем нам будет полевна еще следующая формула тройной информации: / (Pv, а) + / (Р, Т) = / («v. P) + / («, V)- Для доказательства этой формулы надо только поменять местами опыты р и у в полученном выражении для / фу, а) и использовать аналогичное Еыражекие для /(осу, Р), после чего для правой и ле- еой частей нашей формулы получаются одинаковые выражения / (РТ, а.) + I ф, y) = I (v, а) + 1у (р, а) + / ф, у) I («у, Р) + / («, V) - I (V. Р) + Гу (в, Р) + / (а, у). Из формулы тройной информации сразу следует указанный выше результат о содержащейся в третьем опыте а информации относительно опыта у, независимого от некоторого другого опыта р, В самом деле, независимость опытов Р и у означает, что / (й, у) = 0; с другой стороны, мы знаем, что всегда / (му, Р) >/ («, р). В силу формулы тройной информации отсюда вытекает, что в случае не- независимости опытов р и у I (а ,у) = / (Pv, а) - / (аТ, Р) < / (Ру, а) - / (а, Р) = /р (V, а), a /g (у, а) всегда не больше, чем Н$ (а). С другой стороны, вос- воспользовавшись «симметричностью» информации (т. е. равенством / (к, р) = / (Р, а)), мы можем переписать формулу тройной инфор- информации так: / (PV. а) + / (Р, v) = / (Р, «V) + / (V, «). а неравенство / {а,у, Р) ^ / (к, Р) заменить следующим: / (Р. «V) > / (Р, а), откуда сразу следует, что в случае независимости опытов Р и у (т. е. если / (Р, у) = 0) / (РТ, о) > / (Р, о) + / (т, а) (ср. выше, стр. 124). Неравенство / (у, а) ^ / (Р, а) для случая, когда /р (у, а) = 0, также может быть получено из формулы тройной информации.
128 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II Для его вывода надо лишь заменить в этой формуле / (ау, 6) на / (V.P) + ?у (к. Р) и учесть, что в нашем случае I фу, а) = I ф, и), и что информация всегда симметрична; после этого мы придем к соотношению / (Р, а) = / (v, a) ^ /Y (a, P), сразу показывающему, что наше неравенство имеет место. Мы видим также, что это неравенство обращается в равенство тогда и только тогда, когда 1у (к, Р) = 0. В этом случае / (у, и) = / (Py, а), т. е. сложный опыт Ру не содержит никакой дополнительной информации относительно а и по сравнению су — обстоятельство, которое тоже было отмечено выше. В заключение обратим еще внимание на то, что неравенство / (Py, к) > / (Р, к) («сложный опыт Py содержит о любом опыте к не меньшую информацию, чем простой опыт C») можно в известном смысле сопоставить неравенству для энтропии Я фу) ^ Я C) («сте- («степень неопределенности сложного опыта Py всегда не меньше сте- степени неопределенности простого опыта р»). Однако в случае эн- энтропии существует еще и оценка величины И фу) с другой сторо- стороны: Н фу) ^ Н ф) + Я (у) («степень неопределенности сложно- сложного опыта Ру всегда не больше суммы степеней неопределенности опытов р и у»). В случае информации положение оказывается совсем иным: зная количество информации об опыте се, содержа- содержащееся в двух опытах Р и Yi мы не можем оценить сверху инфор- информацию об а, содержащуюся в сложном опыте Py- Так, в случае, разобранном на стр. 125 (где опыты а, Р и у состояли в выяснении того, имеется ли на грани, на которую упал изображенный на рис. 2 тетраэдр, цифра 1, соответственно, 2 и 3) мы имели / (Р, а) = / (v, а) = 0, a / (Pv, а) = 1(= И (а)); поэтому из того, что информации / (Р, а) и / (y, а) обе малы, еще никак нельзя заключить, что также и информация / (PYi «) будет малой. § 4. Определение энтропии перечислением ее свойств Основным понятием этой главы является введенное в § 1 по- понятие энтропии или меры степени неопределенности опыта а, мо- могущего иметь в зависимости от случая тот или иной исход. Целе- Целесообразность принятого определения энтропии в § 1 как-то мо- мотивировалась; однако приведенная там аргументация имела лишь наводящий характер и настоящим оправданием такого определе- определения меры степени неопределенности явился лишь весь ряд тео- теорем, доказанных в этой главе, а также в гл. IV и в Приложении I к книге. Сейчас мы снова вернемся к 'определению энтропии и покажем, что оно с необходимостью вытекает из простейших тре- требований, которые естественно наложить на величину, призванную служить количественной характеристикой степени неопределен- неопределенности.
§4] ОПРЕДЕЛЕНИЕ ЭНТРОПИИ ПЕРЕЧИСЛЕНИЕМ ЕВ СВОЙСТВ 129 Естественно считать, что энтропия (мера степени неопределен- неопределенности) И (се) опыта а, которому отвечает таблица вероятностей исходы опыта I Аъ I A* I I Ак вероятности I р (Aj) \ р (^42) | ... \ Р {Ак) зависит лишь от величин р (At), р (А2), . . . , р (Ан) (является функцией этих величин). Мы обозначим здесь вероятности р (Аг), р (Ай), . . .,р (Лц) через ръ р2, . . . ,рк, а энтрвпшо И (а) — через Н (pi, р2. • ¦ • .Рк) (CP- выше, стр. 75). Сформулируем теперь те условия, выполнения которых естест- естественно требовать от функции Н (plt p2, . . .,Рк). Прежде всего ясно, что эта функция не должна зависеть от порядка чисел р±, р2,... • • • >Pir ведь изменение порядка этих чисел означает лишь изме- изменение столбцов в таблице вероятностей и не связано с каким бы то ни было изменением самого опыта к. Таким образом первое усло- условие гласит: 1°. Значение функции Н (р1г р2, • . .,Pfe) не меняется при лю- любой перестановке чисел р1г р2, . . .,р^. Столь же естественно и второе условие: 2°. Функция Н (р1? р2, . . ., Рк) является непрерывной, 1. е. мало меняется при малых изменениях вероятностей р„ й| • • -iPje—ведь при малых изменениях вероятностей и степень неопределенности опыта должна мало изменяться. Третье условие, которое мы введем, является несколько более сложным. Для того чтобы яснее понять, в чем оно заключается, предположим сначала, что рассматриваемый опыт а имеет всего три исхода Аг, At, Aa, т. е. что его таблица вероятностей имеет вид исходы опыта I A\ I A%. \ А* вероятности I pi \ ра | рз Мера неопределенности И (а) этого опыта, равна И (Pi, p%, Рз)< неоп- неопределенность здесь возникает из-за того, что мы не знаем, какой именно из трех исходов опыта а будет иметь место. Будем теперь выяснять, какой из исходов опыта а на самом деле имел место, в два этапа. А именно выясним прежде всего, имел ли место один из первых двух исходов Аг и А2 или же последний исход А3; это оз- означает, что наш опыт к мы заменим новым опытом Р с таблицей вероятностей исходы опыта I В I Аз вероятности | pi+рг | Рз Мера неопределенности этого нового опыта, очевидно, равна Н (р) = Л (рг 4- р2, р3). Ясно, что мера неопределенности а должна быть больше, чем мера неопределенности Р — это связано с тем, что знание исхода Р еще не определяет полностью исхода к, так как и 5 А. М. Яглом, И. М. Яглом
130 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. И после определения исхода Р может остаться еще некоторая неоп- неопределенность в исходе о. Нетрудно ответить и на вопрос о том, на сколько имен- н о мера неопределенности а должна быть больше меры неопреде- неопределенности |3. Ясно, что если мы будем повторять опыт а многократно и каждый раз будем сначала выяснять, имел ли опыт Р исход В или А8, то в некоторых случаях — в тех, когда опыт о имеет исход А3,— это выяснение решит вопрос и об исходе о. В других слу- случаях — а именно, когда опыт о имеет исход At или А2,— нам посте установления исхода Р придется определить, какой именно из вти< двух исходов имел опыт о, что равносильно выяснению исхода нового опыта 0' с таблицей вероятностей исходы опыта I Ai I A% вероятности "ь Pi+Рг Pi- Мера неопределенности этого опыта Э', очевидно, равна Н (Р') = (Pi pa \ ¦ ,—, .—). А так как вероятность(т. е. средняя частота) случаев, в Которых приходится после выполнения Р дополнительно выяснять еще и исход опыта Р', равна р± + р2, то естественно считать, что мера неопределенности Я(о) опыта о должна пре- превосходить меру неопределенности Нф) опыта Р на величину (Pi + Р2)Вф'), т. е. что должно выполняться равенство Н {pi, P2, Рз) = H{pi+ ръ р3) + (pi + ръ)-Н \^р1^_р2 , ¦pi+pi ) • Те же соображения, примененные к опыту о с таблицей вероят- вероятностей исходы опыта I Ах I А2 I Аз | ... I Лй вероятности | pi \ ра | рз | ¦ ¦ ¦ \ Рк приводят к третьему свойству функции Н (рх, р2, . . . ,Ръ): 3°. Функция Н (pj, р2, . . . jPfc) удовлетворяет соотношению В (Pi, р2, . . .,Pfc) = В (рх + р2, р3, . . .,рл) + Это соотношение означает, что неопределенность Н (Р) опыта Р с таблицей вероятностен исходы опыта I В I Аз I I Ak \pi+P вероятности \pi+P2 | рз I ... I Рк
§ 4] ОПРЕДЕЛЕНИЕ ЭНТРОПИИ ПЕРЕЧИСЛЕНИЕМ ЕЕ СВОЙСТВ 131 получаемого отождествлением двух первых неходов опыта а, меньше неопределенности Н (о) этого последнего опыта на умно- умноженную на рх + р2 меру неопределенности опыта р', состоящего в выяснении того, какой именно из первых двух исходов опыта о имел место, если известно, что осуществился один из именно этих двух исходов. Можно доказать, что условия 1°, 2° н 3° уже полностью опре- определяют вид функции Н (pi, />2, . . .,pjc): единственная функция, ко- которая удовлетворяет всем втим условиям, имеет вид *) И (Pi, Р2. • ' '.Рк) = с (—Pi log Pi — Р2 bg р2 — . . . — Рк log Рк).(*) Однако доказательство этого факта не очень просто (впервые оно было получено Д. К. Ф а д д с е в ы м [48]). В дальнейшем было также показано, что условие 2° на самом деле можно даже еще значительно ослабить (например, его можно заменить условием 2°а: функция И (р, 1— р) непрерывна в точке р = 0 (т. е. Н (р, 1 — р) -* —» Н @, 1) при р —» 0), или условием 2°б: функция Н (р, 1 — р) не меняет знака и ограничена на интервале 0 ^ р ^ 1 — формула (*) при этом все равно будет однозначно вытекать из условий 1° и 3 (некоторые другие допустимые варианты ослабления условия 2° и ссылки на относящуюся сюда довольно большую литературу мо- могут быть найдены, например, в статье 3. Д а р о ц и [49]). Но мы не будем здесь гнаться за наибольшей общностью, а, следуя Шен- Шеннону [1], не только будем считать справедливыми все три усло- условия 1° — 3°, но и дополним их еще одним условием, справедливость которого из них в действительности вытекает, но введение которого заметно упрощает все рассуждения. В дальнейшем значительную роль будет играть функция Н (ilk, ilk, . . ., I/ft) — мера неопределенности опыта о0, имею- имеющего к равновероятных исходов. Очевидно, что в силу равновероятности всех исходов опыта о0 степень его неопределен- неопределенности Н (<х0) зависит лишь от числа ft исходов, т. е. является функцией одного аргумента к: Н (i/k, ilk,.. ., ilk) = f (ft). Ясно также, что степень неопределенности опыта аа должна быть тем больше, чем больше число к его исходов. Таким образом, можно утверждать, что 4е. Функция Н (I/ft, I/ft, • » . , ilk) = / (ft) растет с увеличением числа к. Покажем теперь, что функция И (pf, p2, . . ., />*), удовлетво- удовлетворяющая условиям 1° — 4°, обязательно имеет вид (*) (где с — какое-то положительное число). Для этого нам придется не- несколько обобщить равенство A), выполнение которого составляет х) Если требовать положительности коэффициента с, то при- придется еще оговорить, что функция И (pj, р2, . . .Tpft) должна быть неотрицательна (разумеется, достаточно включить в число основ- основных условий требование неотрицательности, например, одной ве- величины Н fg-, ¦g-lj. Заметим еще, что если не фиксировать заранее основания системы логарифмов, то в формуле (*) можно отбросить множитель с (ибо с logap = logj,p, где b = a1**), 5*
132 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II содержание условия 3°. Покажем прежде всего, что H(pi, . .., pft) = Я(рх+ . .. + рг, pi+lf.... рк) + (смысл этого равенства, очевидно, аналогичен смыслу первоначаль- первоначального соотношения A) с той лишь разницей, что здесь речь идет об объединении i исходов\<4j, А2, . . ., Ai опыта а в один исход В). При i = 2 это равенство совпадает с A) и, следовательно, справед- справедливо в силу условия 3°. Предположим теперь, что справедливость его для некоторого значения i уже доказана; в таком случае, ис- используя также справедливость его для i = 2, имеем И (pi, P2 рк) = Н (pi + рг + ... + Pl, pi+v . . ., рк) + = \ Рц-v С другой стороны, поскольку для значения i наше равенство счи- считается доказанный, то Pi п( Pi \Р1 + ... 1 pi + ... I Pi+.-. Отсюда сразу следует справедливость доказываемого равенства для значения i + 1: # (Pi. P2, • .., Pft) = Я (pi + Рз + ... + pi+v pJ+a,..., pfe) +
§ 4] ОПРЕДЕЛЕНИЕ ЭНТРОПИИ ПЕРЕЧИСЛЕНИЕМ ЕЕ СВОЙСТВ 133 В силу принципа математической ипдукции мы можем теперь быть уверены в том, что требуемое равенство выполняется при любому. Так как функция Н (рх, р2, ¦¦•,/>к) но зависит от порядка своих аргумоптов рх, р2, . . . ,pfe (условие 1°), то из доказанного также следует, что я (Pi- Ps Pi-v Pv Pi+i Рр Pfrv • ¦ ¦ • Pi? = = н (Pv Р2 Pi-v Pi + Pin + • • • + Pj' Pj+v •¦•./>/,-) + + (Pj + ft+1 + • ¦ • + P,-) X Pi Pj+l Pj ) i + ---+Pjr 1 <«</<*, и вообще H (Pi Pw Pi,+i P^ *Vl Pi,- • ¦"' Pis+V - • ¦ . Pfc) = ... + Pi|, pij+1 + . . . + /-b, . . . , p.+1 + . . . + plc) + .<ia<k. B) Это довольп© сложное по форме равенство выражает в весьма общей форме правило сложения энтропии из § 21). Обобщение B) соотношения A) нам будет нужно не само по себе, а лишь в применении к функции / (к). Предположим, что к — 1т, где 1шт — какие-то целые числа, и что к = 1т вероятно- вероятностей ри р2; . . ., pfe, фигурирующих в формуле B), все равны между собой (и следовательно, равны г^-) — в таком случае левая часть *) Нетрудно убедиться, что если it = i, i2 = 2i, i3 = 3i, . . . .. .,k = (s + 1)г и величиныPuPi, • • •> Pi^ Pil+V Pi1+2 . • • • Pij ¦ ¦ • суть вероятности исходовЛ^^, A-Ji^, . .., Афг; A2Blt A2Bt, ...,A2Bi; . . . сложного опыта оР (так что суммы р! + р2 + • • • + Pj,, pjt+l + pij+2 + - . . + Pj, i • • будут равны вероятностям исходов Alt A2, ¦ ¦ ¦ опыта а), то равенство B) иарейдут в правило сложе- сложения сштроний. .
134 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II этого равенства будет равна / Aт). Далее предположим, что группы (Pi> • • •. Р»,). (Pil+1 >¦ • • . Pi)i • • ч (Pis+i Рк)> фигурирую- фигурирующие в том же равенстве B), состоят из I чисел каждая; в таком случае число таких групп будет равно т. При атом мы будем иметь Pi + . - • + Ph = PiM + ... + Рь= • ¦ = PiM + • • • + Pfe = Im m ' и, следовательно, первая строка в правой части равенства B) об- 1 1 1 ратитсяв И (—,—,..., —) = / (т). Что же касается до осталь- fit fit Tib ных членов правой части равенства B), то число этих членов будет равно т и все они будут равны ~ m \l/m ' • • •' 1/т}— т "\1 ' * • • • I Таким образом, в рассматриваемом случае равенство B) примет следующий простой вид: / Aт) = / (То) + m. i- f(l) = / (т) + f (I). Ba) Из Bа), в частности, следует / (к2) = / (к-к) = / (Л) + / (к) = 2/(ft), / (*3) = / (Л2-*) = / (Л«) + / (Л) = 3/(ft), /(*•) = /(*«.*) = 4/(ft) и вообще / (ft") = nf{k). B6) Мы знаем, что соотношение Bа) выполняется для функции / (к) = с log к. Нетрудно показать также, что функция с log Л яв- является единственной функцией, удовлетворяющей соотно- соотношению Bа) и условию 4°. В самом деле, пусть Ли/ — два произ- произвольных целых положительных числа. Выберем еще какое-либо большое целое число Л' и найдем такое число п, что Согласно условию 4е,
§ 4] ОПРЕДЕЛЕНИЕ ЭНТРОПИИ ПЕРЕЧИСЛЕНИЕМ ЕЕ СВОЙСТВ 135 или, в силу B6), nf(l) < Nf(k) < (и + l)/(i); отсюда вытекает, что п /(ft) ^п + 1 ДГ ^/(*) ^ ЛГ * Заметим теперь, что из равенства ln ^ kN <; ?n+1 следует и log « < ЛГ log fc < (n + 1) log I или n log fe w+1 TV ^log/ < Я • / (Л) log Л Таким образом, отношения тт?Г и ТТЛ" заключаются в одних и тех >ке пределах, и, следовательно, должны быть близки между собой: !/(*) logl\<N- А так как последнее неравенство имеет место при любом значе- значении N, то /(fc) logfe /(О ~log^ или /(ft) /(О log fc log < " Это соотношение имеет место для каждых двух чисел к и Z; следовательно, /(*) /С) log л - log г —с> где с не вависит от к н I, и, значит, / (Л) = с log /с. А так как функция / {к) — возрастающая, то с >¦ 0. Пусть теперь plt />2, . . ., р^ — произвольные дроби: (р — общий знаменатель всех этих дробей), меньшие единицы и такие, что рг + р2 + , • . + p/j = 1. Согласно формуле B)
136 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II (стр. 133) имеем р раз р раз _„М i_ J_ A. J_ _L J_ J_ - _L\_ ~ \p ' p '" " p ' p' p •'•••' p ' • • •' p ' p ••••"* py ~ раз Qs раз дь раз в, раз раз efr раз Pa, •.. , pfc) + Pi/ (9i) + рг/ (да) + ... + pkf (gfc). Отсюда следует, что Я (Pi, p2, . . .,рк) = / (р) — Pi/ to) — Ptf Ы — • « • — Рц/ (9R) = = (Pi + Pa + • • • + Pk)/ (P) — Pi/ (?i)— Pa/ te)- • • • — Pi1 (9fe) = = Pi (/ (p) - / (ft)) + p8 (/ (p) - / Ы) + • • + pfc (/ (p) - / to»)). А так как /(P) — /(9i) = clogp— clog ?i = — clog -j- => — clog, pi, f(P) — f Ы = —clogpa,...,/ (p) — / (gk) = — clog pfc, то окончательно получаем #(Pi, Pa, , .. -, рн) = с (— pi log pi — pa log p2 — . . . — pklog pk). Последнее равенство доказано пока только для рациональ- рациональных значений plt р2, . . ., pfe. Но в силу непрерывности функции В (pi, р2, ... , Рк) отсюда следует, что оно верно для любых Pi< Р-2, - ¦ • »Р)с- Этим и завершается рассуждение.
Глава III РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ С ПОМОЩЬЮ ПОДСЧЕТА ИНФОРМАЦИИ § 1. Простейшие примеры Для иллюстрации применимости понятий и предло- предложений, введенных в гл. II, мы разберем здесь несколько занимательных задач, типа собранных в книге Б. А. К о р- демского «Математическая смекалка» [50] х). При этом в §§ 1 и 2, посвященных конкретным примерам та- таких задач, мы часто будем пользоваться «наглядными пред- представлениями» об информации, отложив более аккуратное обсуждение приведенных здесь рассуждений до заключи- заключительного § 3. Начнем с довольно популярных в школьных матема- .тических кружках логических задач о «городах лжецов и честных людей». Задача 23. Пусть известно, что жители некоторо- некоторого города А всегда говорят правду, а жители соседнего го- города Б всегда обманывают. Наблюдатель Н. знает, что он находится в одном из этих двух городов, но не знает в ка- каком именно. Путем опроса встречного ему требуется оп- определить, в каком городе он находится, или в каком городе живет еготвбееедник (жители А могут заходить в Б и на- наоборот), или то и другое вместе. Спрашивается, каково наи- наименьшее число вопросов, которые должен задать Н. (на все вопросы Н. встречный отвечает лишь «5с» или «мет»)? Пусть И. надо определить, в каком городе он находит- находится. Здесь опыт р, результат которого нас интересует, мо- может име ь два исхода (этот опыт состоит в выяснении того, в каком из двух городов А и Б находится наблюда- наблюдатель И.). Если считать, что заранее Н. не имеет никакой информации о том, в какой из двух городов он попал, то эти исходы следует считать равновозможными; следователь- следовательно, энтропия Н (Р) опыта р (т. е. «полное» количество информации, которое содержится в исходе этого опыта) 1) В дальнейшем мы будем цитировать эту книгу как «М.с.»
138 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III равна одному биту. Далее, опыт а, состоящий в том, что Н. задает встречному один вопрос, также может иметь два исхода (собеседник может ответить утвердительно или от- отрицательно); поэтому энтропия Н (а) этого опыта (равная «полному» количеству информации, содержащейся в отве- ответе на поставленный вопрос) самое большее равна одному биту. В задаче спрашивается, можно ли так поставить опыт а, чтобы информация / (а, Р), содержащаяся в опыте а относительно опыта р, равнялась энтропии Н ф) = I опыта р, т. е. чтобы исход а полностью опре- определял исход р. Так как единственная связь между информацией / (а, р) и энтропией Н (а) заключается в том, что / (а, Р)< Н (а) (ибо / (а, Р) = Я (а) - Щ (а)), a H (а) может равняться 1, то, вообще говоря, можно на- надеяться, что при удачном выборе опыта а будет иметь место равенство / (а, Р) = #(Р). Для этого необходимо только, чтобы вопрос а был таким, чтобы утвердительный и отрицательный ответ на него были равновероятны г) (только в этом случае будут иметь место равенства Н (а) = 1 = Н (Р)), и чтобы исход опыта Р оп- определял исход а (только при этом условии имеет место равенство / (а, Р) = Н (а) или 7/р (а) = 0, указывающее, что вопрос а «прямо направлен» к выяснению исхода Р и ответ на этот вопрос не содержит никакой «посторонней» информации). Всем этим условиям удовлетворяет вопрос «Живете ли Вы в этом городеЪ, полностью решающий за- задачу (положительный ответ на этот вопрос может быть дан только в городе А, а отрицательный — только в Б). Еще проще видеть, что Н. может с помощью одного во- вопроса установить, в каком городе живет его собеседникЗ для этого достаточно задать любой вопрос, ответ на кото- который Н. знает заранее (например, «Нахожусь ли я в городе?» или «.Равно ли 2-2 четыремЪ). Если же Н. должен узнать, и в каком городе он нахо- находится и в каком городе живет его собеседник, то ему тре- требуется определить исход сложного опыта р4р2, где опыт pt 1) При условии равновероятности того, что Н. находится в А и в В и что его собеседник живет в А и в Б.
§ 1] ПРОСТЕВШИЕ ПРИМЕРЫ 139 состоит в выяснении того, где находится Нм а опыт C2 — в выяснении места жительства его собеседника. Энтропия Я (Pi P2) этого опыта больше энтропии Я (рх) опыта р4: Н (PiP2) = Я (РО + Яр, (р2) (см. § 2 гл. II). Иначе говоря, в этом случае требуется получить информацию большую, чем 1 бит (напомним, что Я (pt) = 1). Так как энтропия Я (а) опыта а с двумя исходами, состоящего в постановке вопроса, не может превосходить 1, то один опыт а не дает возможности получить информацию, равную Я (PiP2), т. е. не позволяет полностью определить исход опыта р4ра (за исключением того мало интересного случая, когда ус- условная энтропия Яр, (р2) равна 0, т. е. когда исход Pj оп- определяет исход р2 — так будет обстоять дело в том случае, когда жители А не могут попасть в Б, и наоборот). Таким образом, оценки количества информации дают нам строгое доказательство того, что один вопрос (как бы он пи был поставлен!) не позволяет выяснить сразу и то, в каком го- городе находится Н., и то, в каком городе живет его собе- собеседник. Если же Н. задаст два вопроса (т. е. произведет сложный опыт ata2, имеющий 4 возможных исхода), то он, разумеется, может выяснить исход опыта ptp.2 (с по- помощью вопроса а4 можно определить исход р1} а затем с помощью вопроса а2 — исход р2). Усложним теперь несколько условия задачи 23. Задача 24. Пусть имеются три города А, Б и В, причем жители А во всех случаях говорят правду, жители Б — только неправду, а жители В через раз отвечают на вопросы верно и неверно. Наблюдатель Н. хочет выяснить, в каком городе он находится и в каком городе живет встреченный им человек. Сколько вопросов ему потребуется задать этому встречному, если на все вопросы его собеседник отвечает лишь «да» или «нет»? Здесь требуется определить, какой из девяти воз- возможных исходов имеет интересующий нас опыт р (Н. мо- может находиться в одном из трех городов А, Б и В и, не- независимо от этого, его собеседник может проживать в од- одном из этих же трех городов). Если полагать, что заранее у Н. нет никаких сведений, относящихся к опыту р, то все эти девять исходов можно считать равновероятными и эн- энтропия Я(Р) опыта р (а, следовательно, и количество инфор- информации, получаемой при выяснении исхода этого опыта) будет равна log 9. Пусть сложный опыт А& = ata2.. .ah состоит
140 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III в том, что Н задает к вопросов. Так как на каждый вопрос он может получить утвердительный или отрицательный от- ответ, то энтропия каждого из опытов at, а2, ..., ah не пре- превосходит одного бита. С другой стороны, Н (а,аа) = Н (а,) + На, (а,) < Н (а,) + Н (а,) (ибо На1(а^ <; Н (а2)) и аналогично Н (А»)=# (oA^Oi) <# (а,) (строгое доказательство этого неравенства легко полу- получить, воспользовавшись методом математической индук- индукции). Иначе это можно выразить так: если ответ на каждый вопрос дает нам информацию, не превосходящую одного бита, то, задав А; вопросов, мы можем получить информа- информацию не большую, чем к бит. Поэтому, если к = 3, то по- полученная информация будет меньше чем log 9 (она может быть, самое большее, равна 3 = log 8 < log 9) и, значит, три вопроса не могут обеспечить выяснения и местонахож- местонахождения Н. и места проживания его собеседника. Четыре же удачно поставленных вопроса, может быть, позволят вы- выяснить все, что требуется (ибо можно лишь утверждать,, что Н (А4) ^ 4 ч= log 16). И действительно, легко видеть, что следующие 4 вопроса: 1) Нахожусь ли я в одном из городов А п Б? 2) Нахожусь ли я в городе В? 3) Живете ли Вы в городе В? 4) Нахожусь ли я в городе А? обеспечивают выяснение всего, что интересует Н. В самом деле, утвердительные или отрицательные ответы па оба вопроса 1) и 2) сразу указывают, что собеседник II. живет в В. Пусть, например, ответы на оба эти вопроса являются утверди- утвердительными (аналогично разбирается и случай, когда оба ответа — отрицательные). В этом случае отрицательный (неправильный) ответ на вопрос 3) означает, что ответ на вопрос 2) был верен, и четвертый вопрос уже не нужен; положительный (правильный) ответ на вопрос 3) означает, что верен ответ на вопрос 1), и для того, чтобы выяснить, в капом городе находится Н., требуется за- задать вопрос 4) (ответ на который будет заведомо неверен). Утвер- Утвердительный же ответ на вопрос 1) и отрицательный — на вопрос 2) или обратная ситуация указывают, что собеседник Н. живет в А или Б. При этом отрицательный (правильный) ответ на вопрос 3) означает, что отвечающий живет в А а вопрос 4) оказывается нужным лишь в том случае, если ответ на вопрос 2) был отрицатель-
§ 1] ПРОСТЕЙШИЕ ПРИМЕРЫ 141 ным; положительный (неправильный) ответ на вопрос 3) означает, что собеседник Н. живет в Б л вопрос 4) оказывается нужным лишь в том случае, если ответ на вопрос 2) был положительным. Вот еще одна задача подобного рода (см. «М. с», за- задача 283): Задача 25. Сколько вопросов надо задать, чтобы отгадать задуманное собеседником целое положительное число, не превосходящее 10 (или 100, или 000, или произволь- произвольного целого положительного числа п), если спрашиваемый на все вопросы отвечает лишь «да» или «нето»? Пусть известно, что задуманное число не превосходит 10. В таком случае опыт р, состоящий в выяснении этого числа, может иметь 10 различных исходов. До ответа на первый поставленный вопрос все эти исходы можно считать рав- равновероятными, так что энтропия Я(Р) опыта р (т. е. тре- требуемая информация) равна log 10 za 3,32 бита. Рассмот- Рассмотрим сложный опыт Aft = ata2 . . . ah, заключающийся в том, что спрашивающий задает А вопросов. Энтропия опы- опыта аи заключающегося в постановке одного вопроса, не превосходит одного бита, так как а4 может иметь два ис- исхода (положительный и отрицательный ответы на вопрос); энтропия опыта Afe не превосходит к бит (см. предыду- предыдущую стр.). С другой стороны, информация / (Aft, P) от- относительно опыта р, содержащаяся в опыте Aft-, не может превосходить полной информации, содержащейся в исхо- исходе последнего опыта — энтропии Н (Ak). Для того чтобы исход опыта Afe полностью определял исход р, необходи- необходимо, чтобы имело место равенство / (Aft, Р) = Н (Р). Отсю- Отсюда заключаем, что в этом случае log 10 = Н (Р) = / (Ah, P)< H (Ah) < к т. е. к > log 10 х 3,32, или, так как к — целое число, Покажем теперь, что с помощью четырех вопросов дей- действительно можно полностью определить исход р, т. е. обнаружить загаданное число х. Легко понять, как для этого следует поступать. Прежде всего естественно доби- добиваться, чтобы информация, содержащаяся в ответе на
142 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III первый вопрос (т. е. энтропия Н (а4)), была возможно боль- большей, т. е. чтобы она действительно равнялась одному би- биту; для этого надо, чтобы оба исхода нашего опыта а4 бы- были равновероятны. Далее следует потребовать, чтобы ин- информация / (<*!, Р) относительно р, заключенная в аи равнялась энтропии Н (а4) опыта аи а не была бы мень- меньше этой величины. Для этого надо, чтобы ответ на первый вопрос не содержал «посторонней» информации, т. е. что- чтобы условная энтропия Н$ (at) равнялась нулю (другими словами: чтобы исход опыта Р полностью определял ис- исход at). Эти соображения ясно указывают, как следует по- поставить первый вопрос. Разобьем множество всех возмож- возможных значений х (т. е. множество целых положительных чи- чисел от 1 до 10) на две равные по численности ча- части (так как исходы опыта а! должны быть равновероятны) и спросим, относится ли гк одной или к другой из них; так, например, можно спросить, будет ли х больше 5. Оче- Очевидно, что в этом случае ' На1 ф) = р(Лг)HAl (Р) + Р(А2)НАг(Р) = Я(Р)- 1 (At и А2 — исходы опыта at; р (Л4) = р (Л2) = -к-); кро- кроме того, так что при любом исходе опыта а4 энтропия интересу- интересующего нас опыта р уменьшится на 1 бит. Далее следует точно таким же образом разбить новое множество допусти- допустимых значений х на две возможно более близ- близкие по численности части и выяснить, к какой из них х принадлежит (если обнаружилось, что ж больше 5, то можно спросить, больше ли это число, чем 7; если же х не превосходит 5, то можно спросить, больше ли х, чем 3) и т. д. Если каждый раэ разбивать множество допусти- допустимых значений # на возможно более близкие по численности части, то мы, наверное, опреде- определим х с помощью четырех вопросов х). *) Разумеется, после того как уже выяснено, что число а; имеет одно из т значений, где то нечетно (например, т = 5), мы не можем добиться строгой равновероятности исходов последу-
§ 1] ПРОСТЕЙШИЕ ПРИМЕРЫ 143 Совершенно так же показывается, что наименьшее чи- число к вопросов, позволяющее определить загаданное чи- число х, которое может иметь 100 или 1000 значений, опреде- определяется неравенствами к > log 100 т 6,64 и, соответственно, к ^ log 1000 zzi 9,97; так как во всех случаях к — целое число, то отсюда получаем к > 7 и к > 10. Вообще наименьшее число к вопросов, позволяющее найти загаданное число х, имеющее одно из п допустимых значе- значений, определяется неравенствами к — 1 < log п < к (или 2й-1 < п < 2к). A) Заметим еще, что независимо от значения п к > log n; при этом к — log n только в том случае, когда число п является целой степенью числа 2 и, следовательно, log n есть целое число. Однако при весьма больших п разница между числами к и log n оказывается очень малой по срав- сравнению с самими этими числами (ибо при больших п и ве- величина log п будет большой, а разность к — log n всегда не превосходит единицы). Таким образом, можно считать, что при больших п отношение log n энтропии рассматри- рассматриваемого опыта Р к (равной 1 биту) информации относитель- относительно р, содержащейся в опыте а, состоящем в выяснении от- ответа на один вопрос, весьма точно указывает число к опы- опытов, требующихся для того, чтобы определить исход р. Задача 25 на первый взгляд представляется столь же искусственной, как и две ей предшествующие; впос- впоследствии, однако, мы увидим, что она имеет серьезные ющего опыта Oj+1, поскольку т возможных значений х здесь нель- 8я разбить на равные по численности части; следовательно, энтро- энтропия // (аг+1) опыта ai+1 будет меньше 1. Это означает, что наш опрос не будет наиболее выгоден с точки зрения полученной ин- информации, т. е. что с помощью того же числа вопросов можно найти загаданное число и тогда, когда множество его возможных значе- значений имеет большую численность (так, с помощью 4 вопросов можно обнаружить загаданное число, имеющее ие одно из 10, а даже одно из 24 = 16 возможных значений).
144 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III технические приложения х). Более подробное обсуждение приведенного здесь решения этой задачи (включающее так- также а более общую формулировку ее условия) мы отложим до § 3 этой главы. Очень близка к задаче 25 и следующая Задача 26. Некто задумал два (различных) числа, не превосходящих 100. Сколько надо задать ему вопросов для того, чтобы определить эти числа, если на каждый во- вопрос спрашиваемый отвечает лишь «да» или «нет»? В этом случае опыт р, исход которого нам требуется определить, может иметь С\т = 4950 различных исходов; если, как всегда, считать все эти исходы равновероятны- равновероятными, то энтропия Н (Р) опыта р (т. е. информация, которую мы получим, определив исход Р) будет равна log 4950. А так как информация, которую может дать ответ на один вопрос, не превосходит одного бита (ибо опыт а, состоя- состоящий в постановке одного вопроса, может иметь два исхода: «9а» и «нет»), то наименьшее число вопросов, с помощью которых всегда можно определить исход Р, никак не мо- может быть меньше чем log 4950^ 12,27 (ср. с решением задачи 25). Таким образом, если мы зада- зададим меньше тринадцати вопросов, то наверное может слу- случиться, что оба загаданных числа нам определить не удастся. Нетрудно видеть также, что 13 удачно поставленных вопросов всегда позволяют найти загаданные числа. Для того чтобы достичь этого, надо добиваться, чтобы информа- информация / (а, Р) относительно исхода опыта р, содержащаяся в исходе опыта а — ответе на один вопрос (точнее — на каждый из задаваемых вопросов), была как можно ближе к одному биту. Отсюда ясно, что вопросы надо ставить так, чтобы оба ответа «0а» и «нет» имели возможно более близ- близкие вероятности. А для этого достаточно разбить сначала 4950 исходов р на две возможно более близкие по числен- численности части (так, чтобы каждая часть содержала 2475 исходов) и выяснить, к какой из этих частей относится тот х) Следует, впрочем, указать, что на самом деле и за шуточ- шуточными формулировками задач 23—24 скрывается достаточно серь- серьезное содержание (ср. стр. 163—165).
§ 1] ПРОСТЬЙШИЕ ПРИМЕРЫ 145 исход р, который имеет место (т. е. прежде всего следует спросить, принадлежат ли или не принадлежат загадан- загаданные два числа к первой группе, содержащей 2475 пар чи- чисел). Вслед за этим надо точно так же разбить на две по возможности близкие по численности части ту группу ис- исходов р, к которой оказался принадлежащим интересую- интересующий нас исход, и выяснить, к какой из этих двух меньших частей он относится, и т. д. Ясно, что при этом мы всегда определим загаданную пару чисел с помощою не более чем тринадцати вопросов. Заметим еще, что отличие задачи 26 от задачи 25 мож- можно считать чисто словесным. Ясно, что в решении задачи 25 играет роль только общее количество п тех чи- чисел, одно из которых загадано. При этом, разумеется, все- всегда можно считать, что эти п чисел являются номерами каких угодно объектов — например, номерами п каких-то предметов, или п пар чисел, или п каких-то других групп чисел и т. д.— на решение задачи это никак не повлияет. Но если считать, что число п в задаче 25 равно 4950 и что соответствующие 4950 чисел — это номера всевозможных пар чисел, каждое из которых не превосходит 100, то мы придем к задаче 26. Точно так же показывается, что наименьшее число во- вопросов, с цомощью которых можно определить загаданные т чисел, не превосходящих п, равно наименьшему целому числу к, такому, что к ^> log С™- Если же, например, мы знаем, что загадано или одно число, не превосходящее п, или ни одного числа, то для того, чтобы выяснить, было ли число загадано и если да, то какое именно, требуется не меньше чем log (re + 1) и не больше чем log (п + 1) + 1 вопросов: ведь в этом случае число возможных ис- исходов соответствующего опыта р равно п + 1 (единица в этой сумме соответствует случаю, когда никакое число не было загадано). Наконец, если предположить, что было загадано не более т чисел, где то^тг, каждое ив ко- которых не превосходит п, то число вопросов, нужных для выяснения того, сколько чисел было загадано и какие имен- именно, будет заключено между log(C
146 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. Ш В самом деле, рассматриваемый здесь опыт р может иметь С™ + С™ + ... + Сп + 1 разных исходов (поскольку могут оказаться загаданными: или одна из С™ групп из т чисел, или одна из CJ? групп из т — 1 чисел, ..., или од- одно из С„ = п отдельных чисел, или же вообще ни одно из чисел). Перенумеровав эти N = С™ + С™ + ... • • • + Сп + 1 исходов опыта Р числами от 1 до N, мы придем к задаче 25 (в которой лишь число п заменено на N). Ни- Ниже мы еще воспользуемся этим замечанием. § 2. Задачи на определение фальшивых монет с помощью взвешиваний Этот параграф мы начнем со следующей задачи, весьма близкой к задаче 25. Задача 27. Имеется 25 монет одного достоинства; 24 из них имеют одинаковый вес, а одна — фальшивая — несколько легче остальных. Спрашивается, сколькими езве- ши:аниями на чашечных весах без гирь можно обнаружить эту фальшивую монету (ср. «М. с», задачи 277, 1) и 2)). Опыт р, результат которого требуется определить, име- имеет в этом случае 25 возможных исходов (фальшивой может оказаться любая из 25 монет); эти исходы естественно счи- считать равновер ятн м <. т к что Н (Р) = log 25. Иначе го- говоря, определение фальшивой монеты в данном случае связано с получением информации, измеряющейся числом log 25. Опыт аь состоящий в одном (каком угодно) взве- взвешивании, может иметь три исхода (может перевесить левая или правая чашка весов и весы могут остаться в j авнове- сии); поэтому Н (ai) <; log 3 и информация / (a4, P), по- получаемая при проведении такого опыта, не превосходит log 3. Рассмотрим теперь сложный опыт А& = aia,2... а&, заключающийся в к последовательных взвешиваниях; он дает информацию, не превосходящую к log 3 (ср. выше, стр. 40). Если опыт Aft позволяет полностью определить исход опыта р, то должно быть Я (Ац) > / (Aftf P) > Н (Р) или к log 3 > log 25. Отсюда заключаем, что Зк >> 25, т. е.
§ 2] ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ 147 или, так как к — целое число, Нетрудно показать, что с помощью трех взвешиваний всег- всегда можно определить фальшивую монету. Для того чтобы информация, получаемая при проведении опыта аь была возможно большей, надо, чтобы исходы этого опыта имели возможно более близкие вероятности. Предположим, что на каждую чашку весов нами положено по т монет (яс- (ясно, что не имеет смысла класть на чашки разное число мо- монет: в этом случае исход соответствующего опыта будет заранее известен и полученная информация будет равна нулю); не положены на весы будут 25—2т монет. Так как вероятность того, что фальшивая монета окажется в дан- данной группе из п монет, равна ^= (ибо все исходы опыта р мы считаем равновероятными!), то три исхода опыта at _. т т 25 — Ъп _ будут иметь вероятности 25 > 25 и —95—' наи°олее близки одна к другой эти вероятности будут в том слу- случае, когда т = 8 и 25 — 2т = 9. Если мы положим на каждую чашку весов по 8 монет, то первое взвешивание (опыт cti) позволит нам выделить группу в 9 монет (если весы окажутся в равновесии) или в 8 монет (если одна из чашек перетянет), в которой находится фальшивая моне- монета. В обоих случаях при втором взвешивании (опыт а2) для получения наибольшей информации на обе чашки ве- весов следует положить по 3 монеты из этой группы; при этом сложный опыт сцсбз позволяет выделить группу в 3 (или в 2) монеты, среди которых находится фальшивая. При третьем взвешивании (опыт а3) мы положим на обе чашки весов по одной из оставшихся подозрительными мо- монет и легко обнаружим фальшивую. Точно так же показывается, что наименьшее число к взвешиваний, позволяющих обнаружить одну фальшивую (более легкую!) монету, имеющуюся в группе из п монет, определяется неравенствами или к - 1 < -Ц? <*. B) Если п — большое число, то это число к с большой сте- losr n пенью точности дается отношением ° „, т. е. отношением log о
148 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III энтропии опыта р, состоящего в определении фальшивой монеты, к наибольшей информации, которую можно полу- получить при одном взвешивании (ср. стр. 143). В дальнейшем -нам будет полезен также аналогичный результат, относящийся к несколько более общей поста- постановке задачи. Прежде всего ясно, что если мы имеем п мо- монет, одна из которых является фальшивой — несколько более тяжелой, чем остальные,— то наименьшее чи- число к взвешиваний на чашечных весах без гирь, позволяю- позволяющее обнаружить эту фальшивую монету, определяется теми же неравенствами B): замена более легкой монеты более тяжелой практически не меняет наших рассужде- рассуждений. Рассмотрим теперь более общий случай, когда наши п монет разбиты, на две группы — группу А из а монет и группу В из Ъ = п — а монет, причем известно, что одна из этих п монет является фальшивой и что, если зта мо- монета принадлежит к группе А, то она легче остальных, а если она принадлежит к группе В, то тяжелее остальных, и покажем, что и здесь нименъшее число к взвешиваний, позволяющих обнаружить фальшивую монету, дается не- неравенствами B) *); при 6 = 0 это утверждение переходит в сделанное выше. В самом деле, так как интересующий нас опыт р, оче- очевидно, может иметь п различных исходов, то 3" ;> п — в противном случае опыт Ak = аод... ah, состоящий в /с-кратном взвешивании, никак не может однозначно определить исход опыта р (ибо в этом случае / (Afe, P) ^ < Н (Ah) < к log 3 = log 3* < log n = Я (Р); исходы Р мы, как и всегда, считаем равновероятными). С другой стороны, при п ^ Зл фальшивую монету всегда можно выделить к взвешиваниями; это легко показать, восполь- воспользовавшись, например, методом математической индукции. В самом деле, если А = 1, т. е. п = 1,2 или 3, то наше ут- утверждение почти очевидно (с одним ограничением, указан- указанным в подстрочном примечании на этой странице): при п = = 1 фальшивая монета известна заранее, а при п = 2 (и а = 2 или Ъ — 2) и при п = 3 для ее определения до- достаточно сравнить вес двух монет из одной группы. Пред- х) Это утверждение имеет одно очевидное исключение: если га=2, а==Ь=1, то фальшивую монету, разумеется, вовсе не- невозможно выделить.
§ 2] ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ 149 положим теперь, что мы уже доказали, что при п <С 3fc фальшивую монету всегда можно выделить при помощи не больше чем к взвешиваний и пусть Зк< п ^ Sk+1. Легко видеть, что при этом всегда можно будет отобрать четное число 2х монет из группы А и четное число 2у монет из группы В так, чтобы числа х и у удовлетворяли условиям: 2х + 2у < 2-3", п — Bх + 2у) < 3\ т. е. Поместим теперь на каждую чашку весов по х монет из группы А и по у монет из группы В; не использованными у нас останутся п4 — п — 2х — 2у <; 3fc монет. Если весы при таком взвешивании (опыт at) останутся в равновесии, то значит фальпшвая монета находится среди ге4 отложен- отложенных монет (т. е. среди ai = а — 2х не участвующих в первом взвешивании монет группы А или среди bt = Ъ — — 2у не использованных монет группы В); если одна из чашек перетянет, то фальшивая монета находится среди х монет группы Л, лежащих на более лёгкой чашке, или сре- среди у монет группы В, лежащих на более тяжелой чашке. Но так как nt <^ 3* и х + у <^ Зк, то согласно сделанному предположению мы в обоих случаях сможем выделить фальшивую монету, произведя еще не более чем А; взвеши- взвешиваний х); следовательно, из наших п <^ 3k+1 монет одну фальшивую, наверное, можно выделить при помощи не больше чем к -\- I взвешиваний. Это рассуждение и завер- завершает доказательство сделанного выше утверждения. Рассмотрим теперь следующую, несколько более слож- сложную задачу такого же типа, пользующуюся большой попу- популярностью в школьных математических кружках: Задача 28. Имеется 12 монет одного достоинства; 11 из них имеют одинаковый вес, а одна — фальшивая — *) Если п > 2, то случай, когда х = у = 1 или ej = Ъ±= 1, теперь уже не представляет исключения: ведь помимо одной со- сомнительной монеты из группы А и одной—из группы В мы имеем теперь еще некоторое число заведомо не фальшивых («настоящих») монет; сравнив вес одной их них с весом одной из сомнительных монет, мы сможем одним взвешиванием выделить фальшивую монету.
150 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III отличается по весу от остальных (причем неизвестно, легче ли она или тяжелее настоящих). Каково наименьшее число взвешиваний на чашечных весах без гирь, которое позволяет обнаружить фальшивую монету и выяснить, легче ли она, чем остальные монеты, или тяжелее? Решить тот же вопрос для случая 13 монет (ср. «М. с», задача 277C) или Д. О. Ш к л я р с к и й, Н. Н. Ч е н ц о в, И. М. Я г- л о м [51], вадача 6а)). Здесь рассматривается опыт р, имеющий 24 (или 26) воз- возможных исходов (каждая из 12 или из 13 имеющихся монет может окаваться фальшивой, причем она может быть или легче или тяжелее настоящих). Если считать все эти исхо- исходы равновероятными, то энтропия Н ф) опыта р будет рав- равна log 24 или log 26. Таким образом, требуется получить log 24 или, соответственно, log 26 единиц информации. Так как, произведя сложный опыт Aft = а^ ... ak, со- состоящий в к взвешиваниях, мы можем получить информа- информацию, не бблыпую, чем к log 3 = log 3k, a 33 = 27, то с первого взгляда кажется правдоподобным, что н в случае 12 и в случае 13 монет трехкратное взвешивание может по- позволить найти фальшивую монету и выяснить, легче ли она или тяжелее других. На самом деле, однако, в случае 13 монет трех взвешиваний может оказаться недостаточно; этот факт весьма просто доказывается с помощью несколь- несколько более тщательного вычисления информации, доставляе- доставляемой первым взвешиванием. В самом деле, первое взвешивание может заключаться в том, что на обе чашки весов кладется по 1, по 2, по 3, по 4, по 5, или, наконец, по 6 монет; соответствующие опы- опыты обозначим через aj0, где i может быть равно 1, 2, 3, 4, 5 или 6. Если i равно 1,2,3 или 4 и весы в результате пер- первого взвешивания остаются в равновесии, то опыт ccj.l) указывает, что фальшивой является одна ив 13—2г отло- отложенных монет; так как это число не меньше 5, то остаются возможными 10 (или еще больше) исходов и два последую- последующих взвешивания не могут гарантировать выявления фаль- фальшивой монеты и выяснения того, легче ли она или тя- тяжелее остальных (ибо 2 log 3 =-log 9 < log 10). Если i равно 5 или бив опыте а*1' одна (например, правая) чаш- чашка весов перевесила, то опыт aj*1 указывает, что либо фальшивой и более тяжелой является одна ив i «правых»
§ 2] ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ 151 монет, либо же фальшивая и более легкая — одна иэ i «левых» монет. Таким образом, и вдесь у нас остается еще i -)- i = 2г > 10 возможных исходов опыта Р — и опять двух взвешиваний недостаточно для того, чтобы выяснить, какой из них на самом деле имеет место. Перейдем теперь к случаю 12 монет. Пусть при первом взвешивании мы положили на обе чашки по i монет (опыт Oj1*). Если при этом чашки весов остались в равновесии (исход Р опыта а^; подобные обозначения мы будем упот- употреблять и в дальнейшем), то фальшивой является одна из 12—2i отложенных монет, что отвечает 2 A2—2i) равнове- равновероятным исходам рассматриваемого опыта р (из общего чи- числа 24 исходов). Если перевесила правая чашка (исход П), то либо фальшивой и более тяжелой является одна из i «правых» монет, либо фальшивой и более легкой явля- является одна из i «левых» монет — зти случаи отвечают 2i исходам Р; точно так же случаю, когда перевесила левая чашка (исход Л) отвечают еще 2г исходов р. Таким обра- 8ом, три исхода опыта а^1) имеют вероятности 2A2 — 2t) _ 6 — i _M___J_ _?_ 24 ~~ 6 ' 24 "~ 12 И 12 • Отсюда сразу следует, что из шести опытов а^, а?2\ af\ а^\ а^ и ccj"' наибольшую энтропию имеет опыт с44), три исхода которого равновероятны; поэтому в этом случае мы получим наибольшую информацию и наиболее целесообразно начинать именно с него. Далее рассмотрим отдельно два случая. А. При переем взвешивании чашки весов остались в равновесии. В таком случае фальшивой является одна из 4 отложенных мопет. Нам надо при помощи двух взве- взвешиваний определить, какая именно из них является фаль- фальшивой, и выяснить, легче ли она или тяжелее остальных; так как у нас осталось 2-4 = 8 возможных исходов опыта Р, а 2 log 3 = log 9 ^> log 8, то можно ожидать, что это возможно. Если, однако, положить на каждую чашку ве- весов по одной из наших четырех монет, а две монеты отло- яоиъ (опыт а!^) и чашки весов останутся в равновесии, то последним взвешиванием нам надо будет определить, какой именно из четырех исходов, остающихся еще
152 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III возможными, имеет место — а этого сделать нельзя (ибо 4 ^> 3). Если же положить на каждую чашку по две из на- наших четырех монет (опыт а|2)) и одна из двух чашек пере- перетянет, то у нас снова остаются возможными еще четыре исхода опыта р—и опять нам будут нужны по крайней мере еще два взвешивания, чтобы полностью определить, какой из них имеет место. Таким образом, создается впечатление, что и в случае 12 монет трех взвешиваний недостаточно для решения задачи. Однако это заключение является преждевременным. Ведь у нас в запасе есть еще 4 + 4 = 8 заведомо настоя- настоящих монет, которые могут участвовать во втором взвеши- взвешивании; поэтому у нас имеется значительно больше двух возможных вариантов опыта а2. Обозначим через а?>л опыт, состоящий в том, что на правую чашку весов кладут- кладутся i ив наших четырех подозрительных монет, а на левую / ^ i ив этих монет и еще i — / ваведомо настоящих монет (разумеется, не имеет смысла класть настоящие монеты на обе чашки весов); в таком случае а%'а и с42'2) — это те опыты а^11 и а|2), которые рассматривались выше. Че- Через р (Р), р (Я) и р (Л) мы обозначим соответственно ве- вероятности того, что при опыте с4**й чашки весов останутся в равновесии и что перетянет правая или левая чашка ве- весов. Эти вероятности легко подсчитать; они равны отноше- отношению числа' тех исходов р, при которых о4*** имеет исход Р, соответственно П или Л, к общему числу оставшихся возможными исходов р (это число равно 8). Так как, оче- очевидно, i + / <^ 4, то все опыты 0$'л легко перечислить; отвечающие им значения вероятностей р (Р), р (Я) и р (Л) собраны в таблице на следующей странице, в которой указана также энтропия (в битах) Н(а%"iy) опыта о4*'й (рав- (равная - р (Р) logр(Р)-р (Я) logр(П)-р (Л) logр(Л)). Из этой таблицы видно, что наибольшую энтропию име- имеют опыты а|а' и °43' i поэтому для получения наиболь- наибольшей информации следует в процессе второго взвешивания либо положить на одну чашку весов две из четырех сомни- сомнительных монет, а на вторую чашку — одну из сомнитель- сомнительных монет и одну заведомо настоящую, либо положить на одну чашку три сомнительные монеты, а на вторую — три заведомо настоящие. Нетрудно видеть, что в обоих
§2] ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ 153 г 1 1 2 2 2 3 3 4 J 1 0 2 1 0 1 0 0 Р{Р) 1 2 3 4 0 1 Т 1 2 0 1 # 0 1 4 1 "8" 1 2 3 8 1 4 1 2 3 8 1 2 Р(Л) 1 4 1 8 1 2 3 ~ТГ 1 4 1 2 3 8 1 2 Я (а8<*- ))) 1,50 1,06 1,00 1,56 1,50 1,00 1,56 1,00 случаях мы можем ватем третьим взвешиванием полностью определить исход р. Действительно, если опыт с42"lj или опыт о48>о> имеет исход Р, то фальшивой является един- единственная сомнительная монета, не участвующая во втором взвешиваний; при этом для того, чтобы выяснить, легче она или тяжелее остальных, надо сравнить вес ее с весом одной из 11 заведомо настоящих монет C-е взвешивание). Если опыт сбг2'1} имеет исход П, то либо фальшивой явля- является одна из двух «правых» монет, причем эта монета тя- тяжелее остальных, либо фальшивой является единствен- единственная сомнительная монета, лежащая на левой чашке, при- причем она легче настоящих; сравнив вес двух «правых» монет C-е взвешивание), мы узнаем исход р (если эти мо- монеты имеют одинаковый вес, то фальшивой является третья из подозреваемых монет; в противном случае — более тя- тяжелая из двух взвешиваемых). Если опыт off*0) имеет ис- исход П, то фальшивой является одна из трех лежащих на правой чашке монет, причем она тяжелее настоящих; сравнивая вес двух из этих монет C-е взвешивание), мы узнаем исход р (фальшивой является более тяжелая из
154 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III сравниваемых монет, а если они одинаковы, то третья мо- монета). Аналогично разбираются и случаи, когда опыты аB2>1> или а|3>0) имеют исход Л. Б. При первом взвешивании одна из двух чашек весов (например, правая) перетянула. В таком случае либо одна из четырех «правых» монет является фальшивой и более тяжелой, чем остальные, либо одна из четырех «левых» монет является фальшивой и более легкой. При втором взвешивании мы можем на правую чашку весов положить it «правых» монет и i2 «левых», а на левую чашку — Д «правых» монет, /2 «левых» и (it + h) — (/1 + /2) заведомо настоящих монет из числа не участвующих в первом взвешивании (опыт а$иг*'3"А); мы считаем, что U + h > /1 + /а)- Здесь тоже можно было бы составить таблицу энтропии опытов agu> 1'' *л> при всевозможных зна- значениях iit i2, /1 и /2; однако, так как число возможных вариантов тут довольно велико, то некоторые из них целесообразно исключить с самого начала. Заметим, что так как информация, которую можно по- получить об исходе р, произведя третье взвешивание (опыт а3)| не превосходит log 3 (ибо Н (а3) ^ log 3), то после двух взвешиваний у нас должны остаться не более трех возможных исходов опыта Р: в противном случае опыт <х3 не даст возможности однозначно определить ис- исход р. Отсюда, прежде всего, следует, что число сомни- сомнительных монет, не участвующих во втором взвешивании, не должно превосходить 3, так как в случае исхода Р опыта сс2 под подозрением останутся именно эти монеты. Таким образом, имеем 8 - (ц + h + п + /2) < 3, т. е. h + h + h + h > 5 или, так как ц + ц > /, + /8, «1 + Ч > 3, h + h > 5 - (i, + h). Далее, если опыт а^"игп'и) имеет исход П, то либо од- одна из ц «правых» монет, лежащих на правой чашке, явля- является фальшивой и более тяжелой, либо одна из /2 «левых» монет, лежащих слева, является фальшивой и более легкой. Совершенно так же в случае исхода Л можно подо- подозревать, что фальшивой является одна из i2 «левых» мо- монет, лежащих справа, или одна из Д «правых» монет.
2] ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ 155 лежащих слева. Отсюда получаем еще два неравенства: h + h<3 и *, -ь л < з, выполнения которых естественно требовать. Наконец, ясно, что должны выполняться также неравенства h к + h и Перечислим теперь все случаи, удовлетворяющие на- нашим условиям: и 2 2 2 1 1 1 3 1 2 2 2 3 2 и 1 1 1 2 2 2 1 3 2 2 2 2 3 л 2 2 1 1 0 1 1 0 1 1 0 1 0 h 1 0 1 2 2 1 0 1 1 0 1 0 1 1 4 3 8 3 8 1 4 3 8 3 8 3 8 3 8 1 4 3 3 8 1 4 1 4 Р(П) 3 1 4 3 8 3 8 3 8 1 4 3 Т 1 4 3 8 1 3 8 3 "8" 3 8 3 3 8 1 4 3 8 1 Т 3 8 1 4 3 8 3 8 3 тг 1 4 3 8 3 8 1,56 1,56 1,56 1,56 1,56 1,56 1,56 1,56 1,56 1,56 1,56 1,56 1,56
156 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. Ill Таким образом, мы видим, что здесь имеются уже не 2, как в предыдущем случае, а целых 13 вариантов опыта а2, при которых зтот опыт содержит одну и ту же наибольшую информацию относительного опыта р (совершенно ясно, что здесь информация / (а2, Р) равна энтропии Н (а2)). При любом выборе опыта а2 этой информации оказывается достаточно для того, чтобы иметь возможность полностью определить исход р с помощью еще одного, 3-го, взвешива- взвешивания. Так, например, в случае исхода Р опыта а22'1:21) фальшивой является одна из двух не участвующих во вто- втором взвешивании «левых» монет; так как мы знаем, что эта монета легче настоящей, то для того, чтобы найти ее, до- достаточно сравнить вес этих двух монет (или сравнить одну из них с заведомо настоящей). В случае исхода П того же опыта либо фальшивой и более тяжелой окажется одна из двух лежащих на правой чашке «правых» монет, либо фальшивой и более легкой будет единственная «левая» мо- монета, лежащая на левой чашке; для того чтобы найти фаль- фальшивую монету, нам достаточно сравнить вес двух подо- подозреваемых «правых» монет. Точно так же исследуется случай, когда опыт asj2'1'2'1' имеет исход Л. Этим полностью завершается исследование случая 12 монет. Теперь мы можем вернуться к случаю 13 монет и доказать, что в зтом случае достаточно четырех взвешива- взвешиваний (ранее мы показали только, что трех взвешиваний о этом случае может не хватить). Положим на обе чаши ве- весов по 4 монеты; пять монет отложим в сторону. Если одна из двух чашек весов перетянет, то мы будет иметь ту же си- ситуацию, с которой встретились, разбирая случай исхода П первого взвешивания в задаче о 12 мопетах (с той несу- несущественной разницей, что теперь у нас имеются уже не 4, а 5 заведомо настоящих монет); в этом случае уже тремя взвешиваниями можно обнаружить фальшивую монету и узнать, легче ли она или тяжелее остальных. Если же ве- весы окажутся в равновесии, то нам надо будет выделить фальшивую монету не из 4, а из 5 сомнительных. Здесь мы можем начать со сравнения веса какой-нибудь одной из подозреваемых монет и заведомо настоящей: если их ве- веса окажутся различными, то наша задача сразу будет разрешена; в противном случае мы снова придем к случаю 4 сомнительных монет, при котором двумя взвешиваниями можно определить фальшивую монету и выяснить, легче
$ 2] ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ 157 ли она или тяжелее остальных (см. случай А на стр. 151 и след.). Обобщим теперь условия предыдущей вадачи' Задача 29. Имеется п монет одного достоинства; одна из этих монет — фальшивая, более легкая или более тяжелая, чем остальные. Каково наименьшее число к взве- взвешиваний на чашечных весах без гирь, которое позволяет найти фалъгиивую монету и определить, легче ли она или тяжелее, чем остальные (ср. Д. О. Шклярский и др. [51], задача 66)). Прежде всего, поскольку энтропия рассматриваемого здесь опыта р (все исходы которого мы, как всегда, считаем равновероятными) равна log 2/г, а энтропия опыта Afc = = а^г ... ак, состоящего в й-кратном взвешивании, не превосходит к log 3 = log 3ft, то должно быть \ т. е. л<-^- или, так как пик — целые числа и 3* — нечетно, Следовательно, можно утверждать, что Так, например, если п >—=-—= 13, то фальшивая монета не может быть определена менее чем тремя взвешиваниями. Нетрудно видеть также, что даже и в том случае, когда 3*—1 , ге = —^—> fc взвешивании не всегда позволяют обнаружить фальшивую монету и определить, легче ли она или тяжелее остальных (так, при п = 13 фаль- фальшивая монета не во всех случаях может быть определена тремя взвешиваниями). Доказательство этого в общем слу- случае принципиально не отличается от приведенного выше доказательства для частного случая п = 13 и к = 3
158 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ ГГл. Ш (см. начало решения задачи 28). Действительно, при оценке энтропии опыта А^ = а1а2 ... а^ мы до сих пор исходили из того, что энтропия каждого отдельного взвешивания мо- может равняться log 3; в нашем случае, однако, из-за того, 3* — 1 о что п — —н— не делится на о, уже энтропия первого взвешивания (опыт ах) не может достигнуть этого значе- значения (ибо три исхода первого взвешивания никак не могут быть равновероятны). Поскольку п — 1 = —*—^ Де" лится на 3, то ясно, что выгоднее всего при первом взвеши- взвешивании на каждую чашку весов положить по n_l_3fc-1-l 3 ~~ 2 монет, а остальные 3*-* + ! монет отложить в сторону; в этом случае вероятности трех / и—1 1 1 и—1 исходов опыта ах I равные —5— : п = -^— =—, —^— : п = \ Од ОН о 1 1 и-4-2 1 . 2\ - - ~ "~зй"и ~3~"п = Т "^ Зп) "удут ближе всего друг к другу и, следовательно, энтропия Н(аг) соответствую- соответствующего опыта будет больше, чем в любом другом случае. Но легко убедиться, что остающаяся после этого степень неопределенности такова, что она не может быть полностью уничтожена при помощи к — 1 взвешиваний. Проще всего это показывается так: предположим, что при первом взвеши- взвешивании чашки весов окажутся в равновесии; в таком случае п+2 e^ + l фальшивая монета находится среди —g— = —^~— монет, отложенных в сторону при этом взвешивании, так что у нас останутся еще 3fcJ + 1 равновероятных исходов ин- ' тересующего нас опыта В (фальшивой может оказаться лю- бая из —=^— отложенных монет и она может быть или легче или тяжелее настоящих). Выяснив, какая из этих возможностей на самом деле имеет место, мы получим ин- информацию, равную log C*-1 + 1), что превосходит наи-
2Г] ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ It9 большую информацию log З* = (к — 1) log 3, которую можно получить в результате к — 1 взвешиваний. Анало- Аналогично показывается, что при любом другом выборе опыта (Xi (первого взвешивания) этот опыт может иметь такой ис- исход, при котором оставшихся к — 1 взвешиваний будет недостаточно для однозначного выяснения исхода опыта |3. Итак, мы видим, что если то к взвешиваний может оказаться недостаточно. Пока- . 3* — 1 - ^-3* — 3 жем теперь, что если п < —«j— (т- е- если л ^ —,—» другими словами, если k > log3 B/г + 3) = log "o~*~3 ), то к взвешиваний уже будет достаточно *); этим реше- решение нашей задачи будет завершено. Начнем со следующей вспомогательной задачи: пусть, кроме п монет, одна из которых фальшивая, у нас имеется по крайней мере одна заведомо настоящая мо- монета; требуется выделить фальшивую монету и определить, легче ли она или тяжелее остальных. В этом случае мы ^ 3* —1 по-прежнему можем утверждать, что если п ">—^—» то к взвешиваний будет недостаточно (ибо степень неопре- неопределенности исходного опыта от добавления настоящих мо- монет, разумеется, не изменится). Однако теперь мы уже 3* — 1 не можем быть уверены, что и при п = —^— фальши- фальшивую монету заведомо нельзя определить при помощи к взвешиваний. В самом деле, использовав дополнительную настоящую монету, мы можем добиться большей, чем рань- раньше, близости вероятностей трех исходов первого взвешива- взвешивания и, следовательно, получить при этом взвешивании бблыпую информацию; для этого надо только положить п+2 e^ + l . на каждую чашку весов по —д— = «р—" монет (одна из использованных З* -+- 1 монет — имеющаяся у нас х) Это утверждение имеет два очевидных исключения: если п = 1, то нельзя определить, легче или тяжелее фальшивая моне- монета настоящих (которых в этом случае нет совсем); если п = 2, то фальшивую монету невозможно выделить.
160 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ 1Гл. Ill ч П— 1 З*-1— 1 настоящая монета), а остальные —о— = *— сомни- сомнительных монет отложить в сторону. В таком случае веро- вероятности отдельных исходов первого взвешивания будут, как легко видеть, равны "I - * 1 3 3 Зп ' т. е. они действительно будут несколько более близки друг к другу, чем раньше; следовательно, и энтропия Н (at) опыта аг здесь будет больше. Этой небольшой разницы уже оказывается достаточно для того, чтобы обеспечить возможность выделения фальшивой монеты и определения того, легче ли она или тяжелее других, при помощи к взвешиваний. Для доказательства того, что при наличии в нашем распоряжении хоть одной заведомо настоящей монеты при п < —к— можно обойтись к взвешиваниями, удобно воспользоваться методом математической индукции. Это утверждение совершенно очевидно при к = 1 (т. е. при п = 1). Предположим теперь, что оно уже доказано для некоторого значения к и покажем, что в таком случае gfc j gfc+1 j при —к— <С п =SS о— оказывается достаточно к + 1 взвешиваний; отсюда уже будет следовать справедливость нашего утверждения во всех случаях. При первом взве- взвешивании на одну чашку весов положим какое-то число х из наших п монет, а на вторую х — 1 из п монет и еще одну заведомо настоящую монету; неиспользованными при этом окажутся щ = п — Bх — 1) монет. Число х выбе- выберем так, чтобы было 2x — 1^3 и п — Bx — т. е. 3* > 2x - 1 > n - —c
2] ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ 161 3 — i ясно, что при 'п <1 -—2— это сделать можно (ибо 3* 1 зк+1 1 3* 1 3s — 1 ^,3*+1-l 3* — 1 „ft\ _ n ^— ^ о 2— = ) • ^сли ПРИ первом взвешивании чашки весов окажутся в равновесии, то в дальнейшем нам останется только выделить ^ 3* — 1 фальшивую монету из числа п^ —к— отложенных монет; так как у нас имеются, кроме того, заведомо настоя- настоящие монеты, то (в силу предположения индукции) это мо- можно сделать к взвешиваниями. Если же одна из чашек пе- перевесит, то у нас останутся 2х — 1 ^ 3ft сомнительных монет; при этом мы будем знать, что если фальшивой яв- является одна из некоторых а монет, то она является более легкой, чем остальные, а если одна из Ъ остальных (а + -\- Ь ^ 3fc), то более тяжелой (если перетянула первая чашка, то а = х — 1, Ь = х; если перетянула вторая, то а = х, b — х — 1). В этом случае также к последующими взвешиваниями всегда можно выделить фальшивую моне- монету (см. выше, стр. 148—149). Вернемся теперь к нашим первоначальным п <Г ^3* — 3 , ^—2— монетам, одна из которых является фальши- фальшивой. При первом взвешивании положим на обе чашки ве- весов по —5— монет; неиспользованными при этом оста- останутся монет *). Если весы останутся в равновесии, то сомнитель- З* — 1 ными будут пх<^ —ц— неиспользованных монет; так как, кроме того, мы будем иметь еще З* — 1 заведо- заведомо настоящих монет, то, согласно доказанному выше, при помощи последующих к — 1 взвешиваний мы сможем вы- долнть фальшивую монету и определить, легче ли она или gfc 3 J) В том случае, когда «равно —«j—• информация / (щф) относительно Р, содержащаяся в нашем опыте ах A-е взвешивание), будет точно равна Iog3. 6 А. М. Яглом, И. М. Яглом
162 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III тяжелее настоящих. Если же одна из двух чашек перетя- перетянет, то мы будем иметь З*-1 — 1 < З*-1 фальшивых монет и будем знать, что если фальшивой является одна из опре- определенных а = —5 монет, то она легче настоящих, а если одна из Ь = -—к~— (= а) ДРУГИХ» то тяжелее; в силу сказанного на стр. 148 здесь мы тоже при помощи к — 1 последующих взвешиваний сможем выделить фаль- фальшивую монету. Тем самым доказательство сделанного ра- ранее утверждения о требующемся числе взвешиваний пол- полностью завершено. Отметим еще, что при большом п число к, определяе- определяемое из неравенств logB» + lc~1< l0g3 с большой степенью точности можно заменить отношением 1ое2п . , log 2га . 3 (в том смысле, что отношение к : . 3 при воз- возрастании п быстро стремится к единице). Условия задач, связанных с определением фальшивых монет с помощью взвешиваний на чашечных весах без гирь, можно, разумеется, весьма разнообразить. До сих пор мы всегда считали, что лишь одна из имеющихся монет является фальшивой (имеет вес, отличающийся от веса остальных монет); можно, однако, также предполо- предположить, что среди заданных монет имеются две или большее число фальшивых; еще более трудны задачи, в которых само число фальшивых монет предполагается неизвест- неизвестным *). Можно также считать, что фальшивые монеты мо- могут быть двух или более различных весов; представление о возникающих при этом новых задачах может дать сле- следующая проблема, поставленная польским математиком Г. Штейнгаузом ([56], стр. 42): *) По поводу случая двух или более фальшивых задач см., например, [52] (ср. также [53]); общему случаю посвящены статьи [54J и [55], в последней из которых подробно обсуждаются несколько разных вариантов задачи о фальшивой монете (с ука- ганием на их возможное прикладное значение) в приведена обширная библиография.
§ 3] ОБСУЖДЕНИЕ 163 Задача 30. Имеется 4 предмета разного веса и ча- чашечные весы без гирь, на которых можно сравнивать веса любых двух предметов. Укажите способ, позволяющий с по- помощью самое большее пяти взвешиваний установить после- последовательность весов этих предметов. Докажите, что не су- существует способа, гарантирующего возможность установ- установления очередности весов предметов при помощи не более чем четырех взвешиваний. Для 10 предметов попарно разного веса существует спо- способ установления очередности весов предметов с помощью не более 24 взвешиваний (найдите его); можно ли это число взвешиваний уменьшить! Полное решение этой задачи (в которой, разумеется, число предметов на самом деле может быть произвольным) до снх цор неизвестно; некоторые частные относящиеся сюда результаты можно найти, например, в работах [57] и [58] *). Существует и ряд других задач подобного рода (об этом будет подробнее сказано в следующем пара- параграфе); как правило, они являются весьма трудными, но теория информации помогает отыскать хотя бы общий под- подход к их исследованию. § 3. Обсуждение В §§ 1 и 2 этой главы понятия энтропии и информации, введенные в гл. II, применялись к анализу некоторых ло- логических задач типа «математических развлечений». Из дальнейшего будет видно, что рассуждения того же рода оказываются полезными также и при решении ряда до- достаточно серьезных вопросов. Тем более целесообразно обсудить здесь подробнее общую идею всех рассмотренных примеров; при этом мы, естественно, придем также к не- несколько более общей постановке задач, весьма важной для следующей главы. Все примеры в §§ 1 и 2 были построены по одной схеме. Во всех этих примерах нас интересовал некоторый объект из конечного множества М однотипных объектов! так, в *) Ср. также рассчитанную на учащихся средней школы статью: Г. М. Адельсон-Вельский, И. Н. Вернштейн, М. Л. Г е р в е р, Кто поедет в Рио?, журнал «Квант», К» 8, 1972, стр. 2—8, посвященную близкой тематике. 6*
164 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III задачах 23—24 множество М состояло из нескольких го- городов — и требовалось определить, в каком городе нахо- находится наблюдатель Н.; в задаче 25 множество М состояло из целых положительных чисел, а в задаче 26 — из Ci00 = = 4950 пар чисел', в задачах 27—29 множество М состоя- состояло из монет — и нам требовалось выделить одну из этих монет, а именно, фальшивую монету; наконец, в за- задаче 30 множество М состояло из всевозможных упорядо- упорядоченных наборов имеющихся в нашем распоряжении пред- предметов (так что в случае 4-х предметов множество М со- содержало 4 ! = 24 всевозможных упорядочиваний наших предметов) — и задача состояла в том, чтобы выяснить, какой из этих порядков соответствует последовательно- последовательности весов предметов, начиная с самого тяжелого из них и кончая самым легким. Употребляя привычную нам из пер- первых двух глав кииги терминологию, можно сказать, что мы говорили об опыте р, могущем иметь п различных исходов Ви Вг, ..., Вп; множество всех этих исходов мы и обозначили через М. Для выделения интересующего нас объекта (исхода опыта Р) использовались вспомога- вспомогательные о п ы т ы а; каждый из этих опытов мог иметь т < п возможных исходов (этими опытами а бы- были либо вопросы, могущие иметь 2 разных ответа: «9а» и «нет», либо взвешивания на чашечных весах без гирь, мо- могущие иметь 3 разных исхода Р, ПшЛ)—и эти исходы вы- выделяли те или иные подмножества множества М исходов р, позволяя отбрасывать ряд из исходов Bt, В%, ..., Вп как «ложные» или «не выполняющиеся». Требовалось указать наименьшее число вспомогательных опытов а, необходимых для выяснения правильного ответа иа интересующий нас вопрос (т. е. для установления исхода опыта р) и описать, как именно можно быстрее всего най- найти этот ответ. Сходную с описанной структуру имеют не только «иг- «игрушечные» задачи §§ 1—2, но и многие жизненно важные проблемы; к ним относятся, например, в первую очередь интересующие нас в этой книге задачи рационального ко- кодирования сообщений (см. гл. IV), задачи сортировки пред- предметов по тем или иным критериям, задачи отыскания сло- слова в словаре или требуемой книги в большой библиотеке, задачи составления рациональных программ контроля тех или иных объектов, например станков на фабрике и т. д.
6 3J ОБСУЖДЕНИЕ 165 Такая широта возможных приложений вызвала в наше время большой интерес к тематике §§ 1 и 2 и привела к со- созданию разработанной терминологии. Системы опытов а, приводящие к обнаружению интересующего нас объекта (исхода опыта Р), называются вопросниками, а сами опыты а — вопросами; при этом вопросы могут различаться как числом возможных ответов *), так и — в ряде случаев — «ценой вопроса», характеризующей за- затраты, которых требует соответствующий опыт а, или усилия, которые надо приложить для «получения ответа» (т. е. для выяснения исхода а). Задача состоит в том, что- чтобы отыскать такую процедуру «постановки вопросов» (т. е. такую последовательность опытов а), которая при- приводит к требуемому ответу (к исходу опыта Р) с по- помощью наименьшей (по числу или по общей «цене») цепоч- цепочки «вопросов». Теории вопросников посвящена сегодня огромная литература, из которой мы назовем только моно- монографии [59] французского математика К. П и к а р а и обзорную статью [60]. Ясно, что во всех задачах рассматриваемого рода фак- фактически требуется наиболее целесообразно использовать ту информацию об исходе опыта р, которая содержится в результатах вспомогательных опытов а. Однако представ- представляется, что слово «информация» здесь употребляется в обычном, «житейском» смысле, а вовсе не в том более спе- специальном смысле, которое мы придавали ему в гл. II. В самом деле, введенная в гл. II величина / имела чисто статистический смысл — ведь само ее опреде- определение базировалось на понятии вероятности. В наших же задачах не фигурируют никакие многократно повторяю- повторяющиеся испытания и не участвуют никакие вероятности; поэтому возможность применения к этим задачам разви- развитой в гл. II теории на первый взгляд может показаться удивительной. *) В принципе не исключена также и ситуация, когда раз- разные опыты а имеют разное число возможных ответов; так, например, можно представить себе такой вариант задачи об отга- отгадывании фальшивой монеты, когда ищущее эту монету лицо мо- может либо задавать вопросы человеку, знающему, какая монета является фальшивой (такой опыт может иметь два ответа: «5а» и «нет»), либо прибегнуть к взвешиванию монет (этот опыт может иметь три ответа: Р, П и Л).
166 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III Выход из создавшегося положения, которым мы. фак- фактически все время пользовались, состоит в следующем. Предположим, что мы много раз решаем одну и ту ;це задачу (т. е. ищем правильный ответ на один и тот же вопрос), причем правильные ответы оказываются в раз- разных случаях различными и каждый из ответов имеет определенную вероятность оказаться правильным; соот- соответствующие вероятности р (Bx), p (В2), ...,р(Вп)ыы счи- считаем произвольными, но заданными нам заранее. В таком случае мы можем говорить об «опыте р, состоящем в вы- выяснении правильного ответа», употребляя слово «опыт» в точности в том самом смысле, в каком употреблялось это слово в предыдущей главе. Опыту р отвечает таблица ве- вероятностей исходы опыта I Bi I Вг I ... I Вп вероятности | р (Bi) \ р (Въ) | ... | р (Вп) и энтропия — р {Bj) logp (Вг) — р (Z?2)log p(B2) — ... ... — р (Вп) log p (Вп), которую мы, как обычно, обоз- обозначим через Я (Р). Так как вспомогательные опыты а у нас всегда были «прямо направлены» к выяснению ис- исхода р в том смысле, что знание исхода Р полностью определяло и исход а, то задание вероятностей п исхо- исходов опыта Р позволяет определить и вероятности т исходов любого такого опыта ац поэтому и в примене- применении к аг слово «опыт» можно употреблять в том же смыс- смысле, что и в гл. II. Далее, из того, что исход Р полностью определяет исход ах, следует, что условная энтропия Яр (аг) равна нулю, а условная энтропия Hai (p) — разности Я (Р) — Я (а,) энтропии опытов р и ах (см. стр. 95). Но условная энтропия Яа, ф) равна средне- среднему значению энтропии Ял, (Р), ..., Нлт (Р) опыта р, отвечающих различным возможным исходам Аи ..., Ат опыта <хх. Поэтому хоть при одном исходе Ai из числа этих т исходов энтропия HAi (P) окажется не меньше, чем Я ф) — Я (ах); таким образом, наверное возможны случаи, когда после выясне- выяснения результата испытания ах остающаяся энтропия (сте- (степень неопределенности) опыта р будет не меньше разности Нф)н ы
§ 3] ОБСУЖДЕНИЕ 167 Ясно, как можно обобщить последнее рассуждение. Выберем какую угодно последовательность вспомогатель- вспомогательных опытов (испытаний) аи а2, ..., ah, т. е. рассмотрим некоторый сложный опыт Ah = аха2 ... ah. Бу- Будем считать при этом, что отдельные опыты alt a2, ..-, ak не должны быть независимы, т. е. что результаты предше- предшествующих испытаний могут отражаться на условиях про- проведения последующих; возможно даже, что при некото- некоторых специальных исходах нескольких первых опытов a все последующие опыты становятся ненужными, т. е. могут пониматься как опыты, имеющие единственный строго определенный исход (это означает, что сложный опыт Ah состоит из не более чем к опытов а, но не обяза- обязательно точно из к таких опытов). В рассмотренных выше примерах знание исхода Р всегда определяло исход слож- сложного опыта А,(, так что по вероятностям отдельных исхо- исходов Р можно было найти и вероятности различных исходов сложного опыта Ah; поэтому употребление слова «опыт» в применении к Аь также не может вызвать недо- недоразумений. Заметим еще, что если каждый из опытов alt a2, ..., ah может иметь не более чем т исходов, то общее число различ- различных исходов Ah не превосходит тк. Из того, что исход р определяет исход Aft, следует, что средняя условная энт- энтропия НА (Р) опыта Р при условии осуществления слож- сложного опыта Afe равна разности Н (Р) — Н (Ah) энтропии опытов Р и А),; поэтому хотя бы при одном исходе А& (т. е. при каких-то определенных исходах к испытаний alf a2, ..., ah) «остаточная энтропия» р будет не меньше, чем Н (Р) - Я (Аь). Предположим теперь, что разность Н (р) — Н (Ah) больше нуля. В таком случае хотя бы при одном исходе сложного опыта Ah у нас будет оставаться еще некоторая неопределенность в исходе опыта р; другими словами, при многократном повторении всей серии из к опытов а и выделении лишь тех случаев, когда эти опыты имели не- некоторые определенные заранее результаты, правильным будет оказываться иногда один, а иногда другой из отве- ответов на наш основной вопрос. Отсюда вытекает, что в слу- случаях, когда сложный опыт Ah имеет указанный исход, мы не сможем по этому исходу однозначно выяспить, ка- какой именио из ответов на рассматриваемый в задаче вопрос
168 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III является правильным; значит, к опытов а здесь не хвата- хватает для такого выяснения. Именно это рассуждение и использовалось выше для решения задач 23—29. При этом учитывалось еще то об- обстоятельство, что подобного рода вывод о невозможности выяснения исхода р по исходам к опытов а может быть сде- сделан всегда, когда хотя бы при одном выборе вероятностей р (JB\), р (В2), ..., р (Вп) исходов р имеет место неравенство Н (Р) — Н (Аь) ^> 0. Обычно оказы- оказывается достаточно рассмотреть лишь «самый невыгодный» случай, когда энтропия опыта р принимает наибольшее значение, т. е. когда все исходы этого опыта являются равновероятными: р (Z?i) = р (Во) = ... = р (Вп) = —; именно так мы и поступали выше, когда говорили, что «из-за отсутствия каких-либо сведений о возможных неходах р мы будем считать все эти исходы равновероят- равновероятными». Ясно, что при таком выборе вероятностей исходов Р будет справедливо равенство: Н (р) = log п. Что же ка- касается сложпого опыта Аь, то точный подсчет его онтро- 11ии в конкретных задачах часто не прост; однако во мно- многих случаях удается ограничиться простейшей оценкой Н (А-ь) <[ log rnn = к log m, вытекающей из того факта, что число различных исходов Аь не может превосходить тк. В более сложных случаях мы точно подсчитывали наи- наибольшую «остаточную энтропию» опыта р, отвечающую наиболее «неудачному» исходу первого опыта аь и лишь после этого в отношении последующих опытов а2, ..., а/, просто использовали то, что энтропия каждого из них не превосходит log m (ср. выше, стр. 150—151 и 157—158). Отметим еще, что оценка H(Ah) <^ к log m сразу приво- приводит к важному неравенству к>~^-, A) ^ log т1 у ' которое, разумеется, можно вывести и не используя поня- понятий теории информации: оно означает лишь, что при нали- наличии п разных возможностей нельзя однозначно выделить одну из них при помощи сложного опыта, могущего иметь меньше чем п различных исходов х). Выше наша оценка *) Подчеркнем, что подсчет числа имеющихся возможностей здесь равносилен использованию простейшего понятия степени неонределевности «в смысле Хартли» (ср. стр. 79).
3] ОБСУЖДЕНИЕ 169 нужного числа опытов а часто сводилась к использованию лишь этого простейшего неравенства. Наш основной вывод о невозможности однозначного определения исхода Р по исходу сложного опыта Ah в случаях, когда Я (р) — Я (Aft) ^> О, можно обосновать и несколько иначе. Если исход нашего сложного опыта Аь во всех случаях однозпачно определяет исход р, то Нлк (Р) = 0 и, значит, в силу равенства / (Аь, Р) = — Я (р) — ЯА)с (Р) инфорамацня / (Аь, р) об опыте р, содержащаяся в опыте Аь, должна быть равна степени неопределенности Р, т. е. / (Ah, (В) = Я (Р). С другой сто- стороны, так как в наших случаях исход опыта р однозначно определял исход сложного опыта Ah, то одновременно / (р, Ah) — Я (Аь). Таким образом, если сложный опыт Aft (состоящий не более чем из к испытаний а) позволяет во всех случаях однозначно указать правильный ответ на по- поставленный вопрос (т. е. найти исход опыта Р), то должно иметь место равенство H(Ah) = Я(р). Например, в усло- условиях задачи 29 легко видеть, что Я(ах) = log 3^1,58бит (все исходы первого взвешивания у нас были равно- равновероятны); далее, при любом исходе первого взвешивания второе из них (опыт а2) выбиралось так, что его три исхода 13 3 имели вероятности у- , -^ и -^- и, следовательно, II = — ^-log^- — -jj-log-g- —-g- log -?- ^1,58 бит (см. стр. 153и 155); наконец,третье взвешивание (опыт а3) в случае,когда а2 имело исход с вероятностью -г , сводилось к сравнению на чашечных весах двух монет заведомо разного веса, т. е. имело энтропию log 2 = 1, а в остальных -г- всех случаев (при любом из двух исходов а2 с вероятностями -^-) оно могло иметь три равновероятных исхода, т. е. имело энт- ропню log 3. Поэтому здесь #„,„„ (аа) = -^ log 2 + + -j- log 3 л; 1,44 бит, и так как Н (Р) = log 24 я? ss 4,58 бит, то Н (А3) = Я (aiaia3) = Я (а,) + Я„, (а2) + На,а, (а3) « « 1, 58 + 1,56 + 1,44 = 4,58 бит = Я (Р),
170 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III как это и должно быть. Если же равенство Н (Aft) = Н .(Р) не выполняется, а имеет место неравенство Н (Ай) < < Н (|3), то это означает, что опыт Ak наверное не позво- позволяет однозначно указать правильный ответ. Легко понять также, что предположение о том, что ис- исход Р полностью определяет исходы испытаний а, не яв- является необходимым для справедливости последнего вы- вывода. Если это предположение не выполняется, то задание вероятностей отдельных исходов р не позволяет однознач- однозначно судить о вероятностях всех исходов вспомогательных опытов а. Поэтому, предполагая, что опыты по определе- определению исхода р с помощью испытания а производятся м и о- гократно, здесь следует дополнительно задать и эти последние вероятности (разумеется так, чтобы их значе- значения не противоречили заданным раньше значениям веро- вероятностей исходов р). При этом по-прежнему, если сложный опыт Aft = aia2 ... ak, состоящий не более чем из к ис- испытаний а, полностью определяет исход р, то информация 1 (Ah, р) = Н (р) - Нч (р) равна энтропии Н (р); с другой стороны, поскольку всегда / (Аь, Р) = Н (Aft) — — Яр (Aft) ^ H (Ah), то должно иметь место неравенство Н (Р) ^ Н (Ah). Таким образом по-прежнему, если Н (Ай) < Н (Р), то исход сложного опыта А^ = axa2 ... ak не может во всех случаях однозначно определить исход Р; отсюда уже можно получить определенную оценку наименьшего чи- числа к испытаний а, позволяющих определить исход р. Однако в рассматриваемом здесь случае получаемая таким путем оценка оказывается заметно менее точной, чем в слу- случае, когда исход р однозначно определяет исходы всех ис- испытаний а. Это связано с тем, что теперь испытания а уже не направлены прямо к выяснению исхода р и, следова- следовательно, информация / (Aft, P) относительно р, содержащая- содержащаяся в к испытаниях alt a2, ..., ah, уже не равна энтропии Н (Ай), а меньше этой энтропии. Для примера предположим, что в условии задачи 29 (см. стр. 157) нам не требуется выяснить, является ли фаль- фальшивая монета более тяжелой или более легкой, чем на- настоящие (надо лишь указать эту фальшивую монету). Будем считать, что каждая из п имеющихся монет с опре- определенной вероятностью может оказаться фальшивой; в
§ 3] ОБСУЖДЕНИЕ 171 таком случае мы можем подсчитать вероятности всех ис- исходов опыта р. Если кроме того, считать, что фальшивая монета имеет определенную вероятность оказаться более тяжелой или более легкой, чем остальные, то можно будет определить и вероятности всех исходов любых испытаний а, что позволяет с полным правом говорить об энтропии опытов а и Р и об информации, содержащейся в одном из них относительно другого. В частности, если считать все исходы опыта р равновероятными (т. е. считать, что каж- каждая из п монет имеет одинаковую вероятность оказаться фальшивой), то энтропия Н (Р) опыта Р будет равна log n; с другой стороны, энтропия каждого из опытов а не превосходит log 3 (ибо подобный опыт по-прежнему мо- может иметь 3 разных исхода: Р, П и Л), а энтропия слож- сложного опыта Ай = c^dg ... ah не превосходит к log 3. От- Отсюда вытекает, что наименьшее число к взвешиваний, не- необходимое для определения фальшивой монеты, должно удовлетворять неравенству Эта оценка приводит к меньшему числу к, чем аналогич- аналогичная оценка наименьшего числа взвешиваний, необходи- необходимых для обнаружения фальшивой монеты и выясне- выяснения того, легче ли она или тяжелее остальных, имеющая вид: (ибо здесь опыт р имеет In разных исходов, так как каждая монета может оказаться и легче и тяжелее остальных). Но оценка C) является довольно точной: так, при к = 3 она дает n ^ 13, а на самом деле, как мы знаем, наиболь- наибольшее число монет, из которых можно тремя взвешиваниями выделить фальшивую монету и обнаружить, легче ли она или тяжелее остальных, равно 12 (см. выше задачу 28). В противоположность этому оценка B) очень неточна; из нее вытекает лишь, что при к — 3 число п «^ 27; на самом же деле, однако, можно проверить, что наибольшее число монет, из числа которых можно тремя взвешивания- взвешиваниями выделить фальшивую монету, не выясняя, легче ли она или тяжелее остальных, равно лишь 13. Причина
172 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. Ill этого кроется в том, что здесь опыты а (т. е. взвешивания монет) не будут прямо направлены к определению исхода |3 (они будут содержать «постороннюю» информацию, а именно информацию о весе фальшивой монеты); поэтому каждый такой опыт вносит заметно меньший, чем log 3, вклад в накапливаемую информацию об исходе р и, сле- следовательно, число опытов а должно быть большим, logre чем ~^. Iog3 Обратимся теперь к вопросу о том, как можно доказать, что при помощи не более чем к вспомогательных опытов а действительно можно однозначно определить исход интересующего нас опыта Р; до сих пор мы говорили лишь одоказательствах невозможности вы- выяснения исхода р с помощью слишком малого числа испы- испытаний а. Подобное «доказательство возможности» требует явного указания наиболее целесообразной цепочки аи а2, ..., ah вспомогательных опытов, или, другими слова- словами, указания соответствующего сложного опыта А&. Ра- Разумеется, получаемое при этом «решение» не содержит не- непосредственно понятий энтропии и информации. Однако эти понятия играют важную эвристическую роль, помогая быстрее всего отыскать соответствующую цепочку испы- испытаний. В самом деле, цель наших испытаний состоит в определении исхода опыта р\ т. е. в получении полной ин- информации об этом опыте; поэтому естественно подбирать эти испытания таким образом, чтобы они содержали воз- возможно большую информацию об исходе р. Строгий метод решения задачи заключается в перечислении всех воз- возможных сложных опытов Aft = с^сц ... аь, вычислении для каждого из них информации / (Аь, Р) и отборе тех Aft, для которых / (Aft, Р) = Н (Р); в случае, когда ис- исход р однозначно определяет исход всех испытаний а, вычисление информации значительно облегчается тем об- обстоятельством, что здесь / (Аь, Р) = Н (Ай). Так как, однако, оперировать сразу со сложными опытами Ah довольно неудобно, то практически обычно начинают с определения того из вспомогательных опытов аг A-е ис- испытание), который содержит наибольшую информацию 1 (ai» P) об исходе опыта Р; далее подбирают второе испы- испытание а.2 (зависящее, вообще говоря, от исхода о^) так, чтобы информация / (а1а2, C) была возможно большей и
g 3] ОБСУЖДЕНИЕ 173 т. д.; именно так мы и поступали выше при решении за- задач 23-29 1). В §§1 и 2 все время предполагалось, что все исходы опы- опыта р являются равновероятными. Это предполо- предположение означает, что все исходы р считаются равноправ- равноправными; оно является вполне естественным, так как нам надо, чтобы обнаружение исхода р не требовало большого числа испытаний, каким бы ни был этот исход. Ясно, что удовлетворяющий этому условию путь опреде- определения исхода р приводит, вообще говоря, к сложному опыту Afe, состоящему во всех случаях (т. е. при любом исходе Р) примерно из одного и того же числа отдельных испытаний а. Вспомним, например, задачу 25 из § 1, в кото- которой требовалось с помощью наименьшего числа вопросов установить, какое из чисел от 1 до 10 загадало некоторое лицо. В решении этой задачи предлагалось выяснить пре- прежде всего, не превосходит ли яагадаппое число г числа 5 (испытание <хг); затем, в зависимости от исхода «,, рско- мепдовалось установить, не больше ли х чем 7 или чем 3 (испытание а2); далее, учитывая исход а2, можно было спросить, не больше ли х, чем число 8, или чем 6, или чем 4, или чем 1 (испытание а3); наконец, если три испытания ат, а2 и а3 не приводили к выяснению значения х, следовала х) Приведем один поучительный пример, иллюстрирующий осложнения, которые могут встретиться при осуществлении этой программы в тех случаях, когда Н~ (а) ф 0 и испытания а не направлены целиком к выяснению исхода опыта р. Пусть нам тре- требуется при помощи взвешиваний на чашечных весах без гирь опре- определить, является ли имеющаяся среди данных четырех монет одна фальшивая монета более легкой или более тяжелой, чем остальные (но не требуется найти эту фальшивую монету!). Ясно, что здесь любое взвешивание at будет содержать пулевую информацию относительно интересующего пас опыта Р (так как при любом ис- исходе опыта % вероятности того, что фальшивая монета легче и что она тяжелее настоящих никак не изменятся), т. е. любой выбор ctj приводит к одному и тому же на первый взгляд малоутешитель- малоутешительному результату. Однако па самом деле то обстоятельство, что всег- всегда / (at, Р) = 0, вовсе пе означает, что вспомогательные опыты а вообще бесполезны: опыт с^ не доставляет непосредственно ни- никакой информации об Р, но он зато увеличивает пригодность после- последующих испытаний для этой цели. В самом деле, легко видеть, что, положив на чашки весов по одной или по две монеты (т. е. выбрав опыт с^ произвольно), мы сразу же придем к положению, когда при помощи еще одного взвешивания (опыт а2) уже можно однозначно определить исход р.
174 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ 1Гл. III еще спросить, не больше ли х чем 9 пли чем 2 (испытание а4). Во всех случаях для обнаружения числа х здесь при- приходится использовать не более четырех вопросов; при этом, если х равно одному из чисел 2, 3, 9 или 10, то число во- вопросов будет точно равно 4, а в остальных шести случаях оно будет равно 3. Ясно, что если бы мы с самого начала спросили, не равно ли число х, скажем, 10, то мы имели бы определенные шансы обойтись одним единствен- единственным вопросом; однако в большинстве случаев нам при- пришлось бы затратить больше четырех вопросов, что делает такой путь выяснения исхода Р менее выгодным. Заметим теперь, что если бы мы начали с вопроса о том, не превосходит ли загаданное число х числа 8, то мы имели бы шансы обнаружить х при помощи всего двух во- вопросов (если это число х равнялось 9 или 10), и в то же вре- время нам ни в каком случае не потребовалось бы использо- использовать более четырех вопросов (ибо если после первого во- вопроса окажется, что число х ие превосходит 23 = 8, то да- далее мы можем обнаружить его при помощи трех вопросов; см. решение задачи 25). Таким образом, на первый взгляд представляется, что такой путь обнаружения загаданного числа х даже более удобен, чем предложенный в § 1. Од- Однако это заключение является слишком поспешным. В самом деле, если мы не будем считать длину самой длинной цепочки испытаний единственным критери- критерием, определяющим ценность какого-либо метода обнаруже- обнаружения х, а будем учитывать также и то, что в некоторых слу- случаях этот метод приводит к цели быстрее, то и в отношении старого метода мы должны будем считаться с тем, что он во многих случаях позволяет найти х с помощью трех, а не четырех вопросов. Для того чтобы сравнить «выгодность» обоих методов решения задачи 25 при таком новом подходе к ней. предпо- предположим, что мы многократно повторяем попытку обнаружить загаданное число х, причем вероятность быть загаданным для всех десяти чисел по-прежнему предпола- предполагается одинаковой. При первом методе решения задачи 6 3 нам примерно в т^ = -^- всех случаев придется задать три вопроса и в tq- == -g- всех случаев (когда х равно 2, 3, 9 или 10) — четыре вопроса; таким образом, сред-
§ 3] ОБСУЖДЕНИЕ 175 нее значение числа заданных вопросов здесь будет равно Второй метод решения задачи обеспечивает нахождение х 2 1 с помощью двух вопросов в jo = 5" от о°Щего числа всех попыток (когда х равно 9 или 10), зато в остальных ^ = 4 = -е- случаев придется задать четыре вопроса; поэтому здесь среднее значение числа заданных вопросов будет равно 1 „ , 4 . 18 "й 2+4 36 Таким образом, в среднем второй метод обнаружения х несколько менее выгоден, чем первый. Это обстоятель- обстоятельство имеет общий характер — можно показать, что ка- каково бы ни было число п, не существует метода решения за- задачи 25, который был бы е среднем выгоднее метода, наме- намеченного на стр. 142—143. Последнее заключение позволяет подойти по-новому к задачам, рассмотренным в §§ 1 и 2; оно проливает также до- дополнительный свет на смысл использования при решении этих задач понятий энтропии и информации. Ясно, что применение этих понятий, носящих существенно статисти- статистический характер, является вполне уместным лишь в тех случаях, когда и сама решаемая задача имеет статистиче- статистический характер, т. е. связана с многократным повторением одного и того же испытания. Все дело в том, что именно так можно понимать и приведенные выше задачи 23—29, если интересоваться не точным числом испытаний а, тре- требующихся для однократного выяснения исхода какого- либо опыта Р, а средним значением этого числа при многократном повторении указанного опыта. Если при этом еще условиться считать все исходы р4 равнове- равновероятными, то при выборе испытаний oct, a2, ..., a.h так, чтобы среднее значение их числа было наименьшим, число этих испытаний для всех исходов р1 оказывается примерно одинаковым; поэтому и наибольшее значение
176 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III требуемого числа испытаний здесь будет, вообще говоря, наименьшим возможным. Попробуем теперь отказаться от условия равноверо- равновероятности исходов р. Для примера вернемся снова к той же задаче 25, но теперь осложним несколько ее формулиров- формулировку. Предположим, что некто задумал определенное число х, которое может принимать одно из п значений; нам тре- требуется отгадать это число, задавая задумавшему его ка- какие-либо вопросы, на которые он отвечает «9а» или «нет». При этом будем считать, что мы заранее имеем определен- определенную информацию о числе х, заставляющую нас считать, что что п возможных значений этого числа не являются равно- равновероятными, т. е. что одни из них вернее окажутся зага- загаданными, чем другие х). Как в этом случае следует задавать вопросы? Ясно, что если ни одно из п значений х не исключается полностью имеющейся у нас информацией (в противополож- противоположном случае следовало бы говорить не о п, а о меньшем чи- числе возможных значений х), то наименьшее число вопро- вопросов, которое во всех случаях гарантирует нахож- нахождение загаданного числа х, по-прежнему определяется неравенствами A) § 1 (стр. 143), причем вопросы здесь надо задавать так же, как указано выше. Действительно, если бы существовала последовательность из меньшего числа вопросов, позволяющая во всех случаях (т. е. независимо от ответов на эти вопросы) однозначно определить число х, то это противоречило бы результату задачи 25. Отсюда, од- однако, еще не следует, что всегда целесообразно поступать точно так же, как в случае равновероятности всех значе- значений х; после сказанного выше это должно быть совершенно ясно. Так, например, если имеется весьма большая вероят- вероятность того, что загаданное число имеет какое-то определен- определенное значение х0 (скажем, если эта вероятность равна 0,99 или еще больше), то, разумеется, прежде всего сле- следует спросить, не равно ли х этому числу х0, несмотря па то, что в случае отрицательного ответа мы потратим один *) Для конкретпости можно представить себе, что загаданное число было записано, а отгадывающий подсмотрел эту запись, но не вполне уверен в том, что он увидел (однако, разумеется, строгий смысл этого условия связан с предположением о том, что в процес- процессе многократного повторения процедуры отгадывания одни числа оказываются загаданными чаще, чем другие).
6 3] ОБСУЖДЕНИЕ 177 вопрос с очень малой пользой для себя (множество возмож- возможных значений х уменьшится всего лишь на единицу). В общем же случае следует каждый раз разбивать множе- множество возможных значений х на две такие части, чтобы вероятности того, что загаданное число принад- принадлежит к одной и к другой из этих частей, были возможно более близки. Такое разбиение обеспечивает наибольшую возможную энтропию опыта а, состоящего в постановке вопроса о том, не принадлежит ли х к одной из этих ча- частей, а следовательно, и наибольшую возможную информа- информацию, содержащуюся в а относительно интересующего нас опыта р. Правда, при этом мы не сможем уже обеспечить минимум наибольшего числа вопросов, которое нам может понадобиться в самом неблагоприятном случае, но зато среднее значение общего числа вопросов здесь будет, вообще говоря, меньше (или во всяком слу- случае — не больше), чем при любой другой постановке во- вопросов. Вместо строгого доказательства последнего утвержде- утверждения мы ограничимся тем, что немного позже проверим его на одном простом частном примере (см. текст, напечатанный мелким шрифтом в конце этого параграфа). Что же каса- касается до самого общего случая, то для него сравнительно легко доказывается лишь, что среднее значение I числа требуемых для определения х вопросов всегда будет н е меньше чем Н ф) (где Н ф), как обычно,— энтропия интересующего нас опыта Р) *). Этот результат представ- представляет собой обобщение неравенства k !> log n, относящегося к случаю равновероятности всех возможных значе- значений х; он может быть обоснован при помощи рассуждений, близких к тем, которые привели нас к указанному неравенству. В самом деле, информация, доставляемая ответом на один вопрос, очевидно, во всех случаях не мо- может превосходить одного бита; поэтому, задав к вопро- вопросов, мы получаем информацию, не превосходящую к бит. Если теперь мы многократно (скажем, 10 000 раз) будем определять загаданное число, задавая вопросы в г) Для случая, когда число п очень велико, а вероятность каждого отдельного значения х мала, можно показать также, что это среднее значение будет весьма близко к Н ф) (ср. гл. IV).
178 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III соответствии с каким-то выбранным нами методом, в при атом вероятности того, что загаданным оказывается то или иное из п чисел, будут иметь заданные значения, то с р е д- няя информация, получаемая при одном определении числа х, будет равна Н (Р), а общая информация, получен- полученная после 10 000 повторений отгадывания, будет близка к 10 000 Н (Р). При этом число задаваемых вопросов здесь может существенно меняться от случая к случаю в зави- зависимости от того, какое именно число х было загадано (до- (достаточно вспомнить про случай, когда существует опре- определенное число х0, для которого очень велика вероятность быть загаданным). Однако, по самому определению сред- среднего значения I общее число вопросов, заданное во всех 10 000 опытов по обнаружению х, будет близко к 10 0001 (это означает, что всреднем одно обнаружение х тре- требует как раз I вопросов). Отсюда можно заключить, что должно выполняться неравенство 10 000 Н (р) < 10 0001, 1>Н (Р), D') —что нам и требовалось доказать. Учитывая большую важ- важность неравенства D') для теории передачи сообщений (см. по этому поводу § 2 гл. IV), мы в дальнейшем приведем также совсем другое, очень изящное его доказательство, являющееся более формальным, но идейно более простым (см. заключительную часть параграфа). Все сказанное относительно задачи 25 может быть без труда перенесено и на задачу 27 (стр. 146). Здесь также можно несколько обобщить условия задачи, считая, что разные монеты имеют различные вероятности оказаться фальшивыми (это можно понимать, например, в том смыс- смысле, что внешний вид различных монет внушает подозрения в различной степени). В таком случае наиболее целесооб- целесообразным будет при каждом взвешивании делить подозри- подозрительные монеты на три части так, чтобы вероятно- вероятности для фальшивой монеты оказаться в двух равных по числу монет частях, положенных на правую и на левую чашки весов, и в третьей части, отложенной в сторону, бы- были все время возможно более близки одна к ДРУг°й- Правда, при таком образе действий общее число взвешиваний, нужное для определения фальшивой
§ 3J ОБСУЖДЕНИЕ 179 монеты, может в неудачном случае оказаться и большим того, которое дается неравенствами B) из § 2 (стр. 147); од- однако среднее значение требуемого числа взвешива- взвешиваний при этом будет наименьшим. Можно показать также, что это среднее значение I всегда будет не меньше чем UjjUj, где Н (Р) — энтропия опыта, состоящего в опре- определении фальшивой монеты: Ш D4 (см., в частности, заключительную часть настоящего па- параграфа); при большом числе монет и малой вероятности того, что каждая из них окажется фальшивой, это среднее значение I всегда будет весьма близко к т-Щ. Приведем теперь простой пример, иллюстрирующий тот факт, что при обнаружении загаданного числа х (не превосходящего не- некоторого п) выгоднее всего каждый раз разбивать множество п возможных значений х на две части так, чтобы вероятности для х принадлежать к той или к другой части были возможно более близки одна к другой. Пусть число п возможных значений х равно 4; в этом случае число к, определяемое неравенствами A) (стр. 143), равно 2. Пред- Предположим теперь, что у нас есть основание считать одно значение х0 числа х более героятным, чем остальные три ц, х^ и х3; пусть р есть вероятность того, что х равно х0, а д — вероятности того, что х равно щ (здесь i — любое из чисел 1, 2, 3; р > д, р + Зд = 1). В качестве первого вопроса можно спросить, совпадает ли а; с од- одним из чисел х0 или я^; можно также сразу задать вопрос о том, не равно ли х числу хс. Опыты, состоящие в постановке этих двух воп- вопросов, обозначим через а^ и а^; так как исходы опыта а^ имеют вероятности р + д и 2д, то Я (а*4) = — (р + д) log (р + д) — — 2q log Bq)Y, два же исхода опыта а® имеют вероятности р и Зд, так что Н (а^) = —р logp — З9 log (Зд). Если р >¦ -g-, то, ра- аумеется, исходы опыта а^ имеют более близкие вероятности, чем ... 1 исходы опыта aj1'; если же -^ > р > д, то следует сравнить раз- разности (р+д) —2д — р—д и Зд — р вероятностей двух исходов для опытов а® и а®. Так как р — д > Зд — р, если р > 2j, т. е. 2 / 1 — р 2 2\ если />>-§¦( ибо g = —g-, а p>-g*(l — p) при />>тН, , то мы 2 заключаем, что при р >тг следует начать с опыта а^', а при
180 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III р <-g- с опыта а*1'; при р = -g-, по-видимому, безразлично, с ка- какого из этих двух опытов мы начнем. Если мы начинаем с вопроса «Не равно ли х одному ив чисел х0 и «!?», то тем самым мы разбиваем множество возможных значений х на две равные по численности части; в таком случае при любом ответе на первый вопрос мы находим х с помощью двух вопросов. Если же мы начинаем с вопроса «Не равно ли х числу хо?у>, то мы имеем определенные шансы обнаружить х одним вопросом; вероятность, что это будет именно так, равна вероятности того, что х совпадает с х0, т. е. равна р. Однако если х не равно х0, то мы уже не можем гарантировать возможность обнаружить х следующим вопросом; на вопрос «Не равно ли х числу х^?» может последовать положительный ответ (вероятность этого равна q), но может после- последовать и отрицательный ответ (вероятность этого равна вероятности того, что х совпадает с х2 или сха, т. е. равна 2q),—и в этом послед- последнем случае нам понадобится еще один, третий вопрос. Таким обра- образом, в том случае, когда мы начинаем с опыта о^\ мы имеем веро- вероятность р определить х одним вопросом, вероятность q того, что нам потребуется два вопроса, и вероятность 2д того, что надо будет задать три вопроса. Отсюда видно, что среднее значение числа вопросов здесь равно р-1 + д-2 + 2д-3 = р + 8д. 2 / Нетрудно проверить, что р + 8q < 2, если />>тНибо p-\-&q = _8-5р i-p\ g , поскольку q = —g— 1; таким образом, мы убеждаемся, что действительно с опыта а^ целесообразно начинать в том слу- 2 чае, когда р > -g-. В заключение параграфа приведем еще строгое доказательство неравенств D') и D"), не использующее никаких результатов гл. II, кроме определения энтропии опыта. При этом нам понадобится сле- следующий факт. Пусть ри рг, . . ., рп — какие-то п положительных чисел, сумма которых равна 1, a ql7 qz, . . ., qn — какие угодно дру- другие п положительных чисел, сумма которых не превосходит 1; в таком случае всегда — Pi log pi — р2 log p2 — . . . — рп log Pn< — Pi log qt — — рг log q2 — . . . — pn log qn. (*) Полное доказательство неравенства (*) мы отложим до Приложения I в конце книги (см. стр. 454); здесь же заметим лишь, что при п = 2, Pi — Рг — ~2 ' ffi + <?г = 1, это неравенство принимает вид 1 1 l
§ 3] ОБСУЖДЕНИЕ 181 или иначе lg+lg7<— 1 = log у, т. е. ??<у 1 Таким образом, если pt = р2 = -g- и qx + fe = 1. 'fo оно сводится к известному неравенству между средним арифметическим п средним геометрическим двух чисел. Вернемся теперь снова к опыту Р с п исходами Въ В2, , , „ Вп и таблицей вероятностей исходы опыта i Bi I Вг I ... I Bn вероятности | pi \ рз | ... | рп Пусть для выяснения того, какой из исходов р* осуществился на самом деле, производятся последовательные испытания (вспомога- (вспомогательные опыты) а, каждое из которых может иметь т различных исходов; наибольшее число испытаний, которое может потребо- потребоваться для определения исхода Р, мы, как и раньше, обозначим через к. Пусть далее щ — число тех исходов р, которые могут быть обнаружены при помощи одного испытания ах, n2 — число исходов Р, которые могут быть обнаружены при помощи двух испы- испытаний ах и as,..., наконец, щ— число исходов р, которые могут быть обнаружены лишь при помощи к испытаний ах, а2, . . ., а^; оче- очевидно, что щ + Bj + . . . + rejj = п. Заметим, что число п исходов Р, которые могут быть обнару- обнаружены с помощью одного испытания ах, очевидно, не превосходит числа т исходов at: п1 ^ т'г при этом щ= т лишь в том (разумеется, мало интересном) случае, когда п = т. и каждому исходу испытания аг отвечает единствен- единственный исход Р (например, когда в условии задачи 25 число возмож- возможных значений загаданного числа равно 2). Если же существуют такие исходы ах, которые не определяют однозначно исход Р, т. е. если имеются случаи, когда оказывается необходимым произвести последующее испытание а2, то, наверное, щ < т. При этом число исходов опыта а], не определяющих однозначно исход Р, будет равно т — щ\ так как число исходов опыта а2 равно т, то число щ тех исходов Р, которые могут быть обнаружены с помощью двух испытаний at и а2, наверное удовлетворяет неравенству иа ^ (т — nt)' т = т2 — nxm. Аналогично этому, если в некоторых случаях требуется произвести ещо и третий вспомогательный опыт а3, то п2 < (т — щ) т, причем не более чем при (т — щ)т — щ исходах опыта а2 тре- требуется произвести опыт а3. Так как к тому же сам опыт а3 имеет всего т разных исходов, то очевидно п3 <! [(т — п^т — nj]' т = п? — щт? — щт. Точно также показывается, что ni ^ [(т3 — щпр — щт) — п3]т = т4 — щтъ — щт2 — nsm
182 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. Ш и т. д.; наконец, для числа щ исходов Р, обнаружение которых тре- требует ровно к испытаний, по индукции легко получаем — пк_х] т = Перенесем здесь все члены правой части, кроме первого члена тк, влево и разделим обе части полученного неравенства на тк; тогда будем иметь: Обозначим через Ц (где (=1,2,..., п) число испытаний а, которые приходится произвести для обнаружения исхода C в том случае, когда оказывается, что этим исходом является исход В\. В таком случае щ из п чисел li будут равны 1, щ из этих чисел будут равны 2, .... гак из этих чисел будут равны Л. Поэтому послед- последнее неравенство можно переписать также в следующем виде: Напомним теперь, что для справедливости выписанного выше неравенства (•) надо лишь, чтобы сумма всех чисел pj была равна 1, а сумма всех чисел qi (i = 1, 2, . . ., га) не превосходила 1. Поэтому мы можем положить в этом неравенстве, в частности, р\ равным вероятности i-ro исхода Bi опыта Р, a q% равным —- , так что то1* — PI bg pi — Р2 log P2 — . . . — Р„ log pn < В левой части последнего неравенства, очевидно, стоит энтропия И (Р) опыта Р. Заменив теперь в правой части — log —r- (где i т i равно 1, 2, , . ., га) на Zj-log m, получим В (Р) < Ыг + Ргк + . . . + pnlj log т. Но по самому определению среднего значения (см. стр. 24) сумма Pih + Pih + • • • + Prln равна как раз среднему значению I числа требуемых испытаний а. Таким образом, мы получаем основное неравенство Это и есть тот результат, который мы хотели доказать; при т = 2 (например, в случае, когда опыты а — это вопросы, на кото- которые отвечают лишь «9а» или «нет) он переходит в неравенство D') (ибо log 2 = 1), а при т = 3 (например, в случае, когда а — это вгвешивания на чашечных весах без гирь) •—- в неравенство D").
Глава IV ПРИЛОЖЕНИЕ ТЕОРИИ ИНФОРМАЦИИ К ВОПРОСУ О ПЕРЕДАЧЕ СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ § 1. Основные понятия. Экономность кода Для того чтобы проиллюстрировать пользу введенных в гл. II понятий энтропии и информации, мы разобрали в главе III ряд «занимательных задач» типа тех, которые обычно рассматриваются в школьных математических кружках. В настоящей главе мы рассмотрим некоторые простейшие, но сами по себе достаточно серьезные прило- приложения тех же понятий к практическому вопросу о переда- передаче сообщений по линиям связи. При этом окажется, что применения эти имеют очень много общего с рассмотрен- рассмотренными выше «игрушечными задачами» об отгадывании за- задуманного числа или об определении фальшивой монеты с помощью взвешиваний, так что ряд приведенных в преды- предыдущих параграфах рассуждений может быть непосредст- непосредственно перенесен на решение практических вопросов техни- техники связи. Рассмотрим прежде всего общую схему передачи сооб- сообщений по линиям связи; для определенности будем гово- говорить, например, о телеграфии. На одном конце линии от- отправитель подает некоторое сообщение, записанное при по- помощи 33 букв русского алфавита (исключая букву ё, но включая сюда и «нулевую букву» — пустой промежуток между словами), или 27 букв латинского алфавита, или при помощи 10 цифр (числовое сообщение), или при помо- помощи букв и цифр вместе взятых. Для передачи этого сооб- сообщения в случае обычного проводного телеграфа исполь- используется постоянный ток, некоторые характеристики кото- которого телеграфист может менять по своему усмотрению; при этом он создает определенную последовательность сигналов, воспринимаемых вторым телеграфистом на при- приемном конце линии. Простейшими различимыми сигнала- сигналами, широко используемыми на практике, являются п о- с ы л к а тока (т. е. включение его на некоторое впол- вполне определенное время) и отсутствие посылки — пауза
184 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV (выключение тока на то же время); при помощи одних только этих двух сигналов уже можно передать любое сообщение, если условиться заменять каждую букву или цифру определенной комбинацией посылок тока и пауз. В технике связи правило, сопоставляющее каждому пе- передаваемому сообщению некоторую комбинацию сигна- сигналов, обычно называется кодом (в случае телеграфии, например, телеграфным кодом), а сама операция перевода сообщения в последовательность различимых сигналов — кодированием сообщения. При этом коды, исполь- использующие только два различных элементарных сигнала (на- (например, посылку тока и паузу), называются двоичны- двоичными кодами; коды, использующие три различных эле- элементарных сигнала — троичными кодами и т. д. В телеграфии, в частности, применяется целый ряд различных кодов, важнейшими из которых являются код Морзе («азбука Морзе») и код Вод о. В коде Морзе каждой букве или цифре сообщения сопоставляется некоторая последовательность кратковременных посылок тока («точек») и в три раза более длинных посылок тока («тире»), разделяемых кратковременными паузами той же длительности, что и «точки»; пробел между буквами (или цифрами) при этом отмечается специальным разделитель- разделительным знаком — длинной паузой (той же длительности, что и «тире»), а пробел между словами — еще в 2 раза более длинной паузой. Хотя этот код использует лишь посылки тока и паузы, его можно считать троичным, так как каж- каждое закодированное сообщение здесь естественно разлага- разлагается в совокупность следующих трех сравнительно крупных «элементарных сигналов» — точек, к каждой из которых добавляется всегда следующая за точкой кратко- кратковременная пауза, тире со следующей за каждым тире крат- кратковременной паузой и длинных пауз, разделяющих от- отдельные буквы. В настоящее время код Морзе обычно ис- используется лишь при повреждении основных телеграфных линий, а также в коротковолновой радиотелеграфии, име- имеющей многие важные применения. В обычных же букво- буквопечатающих телеграфных аппаратах, стоящих на всех больших телеграфных линиях, чаще всего применяет- применяется двоичный код Бодо, сопоставляющий каждой букве некоторую последовательность из пяти простейших эле- элементарных сигналов — посылок тока и пауз одинаковой
§ 1] ОСНОВНЫЕ ПОНЯТИЯ. ЭКОНОМНОСТЬ КОДА 185 длительности. Так как при этом все буквы передаются ком- комбинациями сигналов одной и той же длительности (коды, обладающие этим последним свойством, называются рав- равномерными), то в коде Бодо не требуется специального знака, отделяющего одну букву от другой — и без того из- известно, что через каждые пять элементарных сигналов кончается одна буква и начинается следующая (в приемных аппаратах такое разделение на комбинации из пяти сигна- сигналов обычно производится автоматически). Поскольку комбинируя две возможности для первого сигнала с двумя возможностями для второго, двум.я — для третьего, двумя—для четвертого и двумя — для пятого, мы можем составить всего 25 = 32 различных комбинаций, то код Бодо в его простейшей форме позволяет передавать 32 различные буквы г). В некоторых телеграфных аппарата^ кроме простого включения и выключения тока можно также изменять его направление на обратное; при зтом появляется возмож- возможность вместо посылок тока и пауз использовать в качестве основных сигналов посылки тока в двух различных на- направлениях или же использовать сразу три различных эле- элементарных сигнала одной и той же длительности — по- посылку тока в одном направлении, посылку в другом направ- направлении и паузу. Возможны также еще более сложные теле- телеграфные аппараты, в которых посылки тока различаются не только по направлению, но и по силе тока; тем самым мы получаем возможность сделать число различных эле- элементарных сигналов еще большим. Увеличение числа раз- разных элементарных сигналов позволяет сделать код более сжатым (т. е. уменьшить число элементарных сигналов, требующихся для передачи данного сообщения или же передавать при помощи сигналов той же длительности зна- значительно больше различных «букв»). Однако вместе с тем оно усложняет и удорожает систему передачи, так что в х) Так как 32 комбинаций для передачи всех букв и цифр оказывается недостаточно, то в аппаратах, работающих на коде Бодо, имеются два регистра; после перевода регистра та же комби- комбинация используется для передачи еще одного знака. При этом число возможностей почти удваивается, что позволяет передавать все буквы, цифры и знаки препинания. В случае одного регистра такие же возможности предоставляют коды, сопоставляющие каждой букве или цифре комбинацию шести элементарных сигналов; подобные коды также иногда используются в телеграфии.
186 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV технике все же предпочтительно используются коды с ма- малым числом элементарных сигналов. В радиотелеграфе вместо изменений силы тока изме- изменениям подвергаются некоторые параметры радиоволны — синусоидального колебания высокой частоты,— т. е. эле- элементарные сигналы здесь имеют другой смысл; однако и в этом случае каждая передаваемая буква заменяется не- некоторой последовательностью элементарных сигналов, вос- воспринимаемых на приемном конце линии. Аналогично об- обстоит дело и в большинстве других линий связи; подроб- подробнее об этом мы еще будем говорить ниже (см. §§ 3 и 4). Отвлечемся теперь от технических подробностей и сформулируем осповную математическую задачу, с кото- которой приходится иметь дело в технике связи. Пусть имеет- имеется сообщение, записанное при помощи некоторого «алфа- «алфавита», содержащего п «букв» (например, 33 русские бук- буквы, или 10 цифр, или 43 буквы и цифры, или буквы, цифры и знаки препинания и т. д.). Требуется «закодировать» это сообщение, т. е. указать правило, сопоставляющее каждому такому сообщению определенную последователь- последовательность из т различных «элементарных сигналов», составля- составляющих «алфавит» передачи. Как выгоднее всего это сделать? Прежде всего надо объяснить, в каком смысле здесь по- понимается слово «выгоднее». Мы будем считать кодирова- кодирование тем более выгодным, чем меньше элементарных сигна- сигналов приходится затратить па передачу сообщения. Если считать, что каждый из элементарных сигналов продол- продолжается одно и то же время, то наиболее выгодный код по- 8волит затратить на передачу сообщения меньше всего времени. Так как сооружение и содержание линии связи обычно обходится очень дорого (а в случае радиосвязи, где дело обстоит несколько иначе, чрезмерное увеличение числа линий связи является невозможным, поскольку при этом такие линии начинают мешать друг другу), то пере- переход к более выгодному коду, позволяющий увеличить эф- эффективность использования данной линии связи, имеет несомненное практическое значение. Постараемся теперь несколько подробнее разобраться в том, какие вообще бывают коды. Будем для определенно- определенности пока считать, что т = 2 (т. е. что наш код — двоич- двоичный). Кроме того ограничимся лишь случаем побуквен- ного кодирования, т. е. случаем кодов, приспособленных
§ 1] ОСНОВНЫЕ ПОНЯТИЯ. ЭКОНОМНОСТЬ КОДА 187 для передачи каждой буквы сообщения по отдельности (о возможностях, доставляемых отказом от этого послед- последнего условия, будет говориться позже). В таком случав кодирование, очевидно, состоит в том, что каждой из п «букв» нашего «алфавита» сопоставляется какая-то после- последовательность двух элементарных сигналов — кодо- кодовое обозначение соответствующей «буквы». От- Отвлекаясь от физической природы используемых элементар- элементарных сигналов, мы можем заменить их цифрами 0 и 1, т. е. рассматривать все кодовые обозначения как некоторые последователности этих двух цифр. Для задания кода на- надо перечислить п таких последовательностей, которые со- сопоставляются п имеющимся «буквам». При этом не всякие п различных последовательностей цифр 0 и 1 определяют пригодный для практического использования двоичный код; требуется еще, чтобы закодированное сообщение мо- можно было однозначно декодировать, т. е. чтобы в длинной последовательности цифр 0 и 1, сопостав- сопоставляемой многобуквенному сообщению, всегда можно было понять, где кончается кодовое обозначение одной буквы и начинается обозначение следующей. Проще всего до- добиться этого, если, как в коде Морзе, ввести специальный разделительный знак (в технической литературе такой знак иногда называют «запятой»), отличающийся от всех других кодовых обозначений и легко различимый, и пере- передавать этот знак между кодовыми обозначениями каждых двух «букв». Ясно, однако, что этот путь вряд ли может быть выгодным, так как здесь число «букв» в передаваемом со- сообщении практически удваивается (за счет добавления (п + 1)-й разделительной «буквы», вставляемой между ка- каждыми двумя другими буквами); поэтому ниже мы будем интересоваться лишь однозначно декодируемыми кодами без разделительного знака (т. е. «кодами без запятой»). Примерами таких кодов являются, в частности, те, в кото- которых кодовые обозначения всех букв имеют одну и ту же длину (т. е. равномерные коды; ср. выше описание кода Бодо). Кроме того, существуют также и многие неравно- неравномерные коды (содержащие кодовые обозначения различ- различной длины), которые могут быть однозначно декодирова- декодированы и поэтому не требуют разделительного знака. Так, на- например, в случае двухбуквенного алфавита (при п = 2) простейшим кодом без запятой является равномерный код
188 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV с кодовыми обозначениями 0 и 1; если, однако, мы заме- заменим кодовое обозначение 1 совокупностью двух цифр 11, или 10, или 01 (но, разумеется, не 00), то такой код все рав- равно будет без труда однозначно декодироваться (во всех этих случаях кодовые обозначения второй буквы легко идентифицируются в длинной последовательности кодо- кодовых обозначений обоих типов по входящей в них цифре 1). Общее необходимое и достаточное условие, выделяю- выделяющее однозначно декодируемые коды сре- среди всех других совокупностей п последовательностей цифр 0 и 1, может быть найдено в статье А. Сардинасаи Дж. Паттерсона [61] (см. в этой связи также работу [62], посвященную общей теории двоичных неравномер- неравномерных кодов). Для нас здесь, однако, достаточно будет лишь отметить, что неравномерный код наверное может быть однозначно декодирован, если никакое кодовое обозначение не совпадает с началом какого-либо другого более длинного кодового обозначения (так что, например, если «101» — это кодовое обозначение какой-то буквы, то уже ие может быть букв, имеющих обозначение «1», «10» или же «10110»). В самом деле, если это условие выполняется, то, читая под- подряд кодовую запись сообщения и имея перед собой список всех кодовых обозначений, всегда можно точно сказать, в каком месте кончается обозначение одной буквы и начи- начинается обозначение следующей (так как здесь последова- последовательность элементарных сигналов, начинающаяся вслед за окончанием очередного кодового обозначения, сама будет образовывать кодовое обозначение только в случае, если мы оборвем ее в одном-единственном строго определен- определенном месте) *). Заметим еще, что равномерный код также, ра- х) Коды, удовлетворяющие указанному условию, иногда на- называются мгновенными (или мгновенно декоди- декодируемыми), поскольку в случае других однозначно декодиру- декодируемых кодов для того, чтобы установить, что мы дошли до конца очередного кодового обозначения, иногда (или даже всегда) при- приходится ознакомиться и с несколькими последующими элементар- элементарными сигналами (т. е. декодирование осуществляется с запазды- запаздыванием по сравнению с передачей сообщения). В рассмотренных выше трех примерах неравномерного кода для двухбуквепного алфа- алфавита с кодовыми обозначениями 0 и 11, или 0 и 10, или 0 и 01, первые два, очевидно, являются примерами мгновенных кодов, а третий — нет (в этом третьем случае для выяснения смысла цифры О в длинной последовательности цифр 0 и 1, образующей закодирован- закодированное сообщение, необходимо знать также и следующую цифру).
§ 1] ОСНОВНЫЕ ПОНЯТИЯ. ЭКОНОМНОСТЬ КОДА 189 зумеется, удовлетворяет напечатанному курсивом усло- условию. Коды же, не удовлетворяющие этому условию, мы, как правило, вообще не будем рассматривать; поэтому в дальнейшем всюду, где не оговорено обратное, под «кодом» будет пониматься такая совокупность п кодовых обозна- обозначений, сопоставляемых п буквам алфавита, для которой выполняется указанное выше условие. Перейдем теперь к вопросу о связи двоичного кодиро- кодирования с условиями задачи 25 об отгадывании загаданного числа, не превосходящего п, при помощи вопросов, на ко- которые отвечают только «5а» или «нет». Связь эта является самой непосредственной. В самом деле, пусть мы имеем некоторый двоичный код; будем считать, что п «букв», ко- которым сопоставляются наши кодовые обозначения, это всевозможные числа от 1 до п. Пусть нам надо отгадать какое-то загаданное число. В качестве первого вопроса спросим: «Является ли первой цифрой кодового обозна- обозначения задуманного числа цифра 1?», в качестве второго — спросим: «Является ли второй цифрой этого кодового обо- обозначения цифра 1?» и т. д. При этом мы последовательно определим все цифры кодового обозначения задуманного числа: поскольку никакое из этих обозначений не сов- совпадает с началом другого из них, то как только мы при- придем к комбинации цифр, являющейся одним из исполь- используемых кодовых обозначений, мы с полной уверенностью сможем остановиться и назвать загаданное число. Таким образом, каждому двоичному коду для п-буквеиного алфа- алфавита отвечает некоторый метод обнаружения одного из п задуманных чисел при помощи вопросов, на которые от- отвечают только «да» и «нет». Обратно, любой метод обнару- обнаружения загаданного числа позволяет сопоставить каждому из п чисел последовательность цифр 1 и 0, где первая циф- цифра показывает, будет ли в случае, когда загадывается дан- данное число, ответ на первый вопрос гласить «5а» или «нет», вторая цифра точно так же указывает ответ на второй во- вопрос, третья цифра — ответ на третий вопрос и т. д., т. е. приводит к двоичному коду. Сформулированное выше условие здесь, очевидно, всегда выполняется, так как из того, что наш метод позволяет по ответам на поставлен- поставленные вопросы однозначно указать загаданное число, сразу следует, что никакое из полученных кодовых обозначений не может являться продолжением другого обозначения
190 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. V/ (например, наличие среди кодовых обозначений последова- последовательности «101» означает, что ответы «да», «нет» и «да» уже полностью определяют число, и исключает возмож- возможность существования обозначения «ЮНО»). Итак, мы видим, что возможные двоичные коды для п-буквенного алфавита точно соответствуют всевозможным методам определения одного из п задуманных чисел при по- помощи вопросов, на которые отвечают только «да» или «нет». Теперь нетрудно уже понять, какой код будет наи- наиболее выгодным. Будем пока измерять выгодность (или, лучше сказать, экономность) данного двоич- двоичного кода при помощи максимального числа элементар- элементарных сигналов (иначе — цифр 1 и 0), требующегося для пе- передачи (или записи) одной буквы: чем меньше это макси- максимальное число, тем более экономен наш код (более точное определение «степени экономности» кода, исходящее из подсчета среднего числа элементарных сигналов, приходящихся на одну букву, будет рассмотрено в следую- следующем параграфе). В таком случае вопрос о построении наи- наиболее экономного кода будет совпадать с содержанием за- задачи 25. Согласно решению этой задачи наибольшее число к элементарных сигналов, приходящееся на одну букву, не может быть меньше, чем log n, т. е. в лучшем случае оно определяется неравенствами A) на стр. 143. Тот факт, что всегда к > log n легко объясняется соображениями теории информации: одна буква п-буквенного алфавита может содержать информацию, равную log n (для этого надо только, чтобы все «буквы» сообщения были незави- независимыми друг от друга и каждая из них могла принимать все значения с одинаковой вероятностью), а каждый пере- передаваемый элементарный сигнал, принимающий одно из двух значений (например, являющийся или посылкой тока, или паузой), может содержать информацию, не большую, чем 1 бит; поэтому для передачи одной буквы надо не мень- меньше чем log n элементарных сигналов. Для построения наиболее экономного двоичного кода мы можем воспользоваться решением за- задачи 25. А именно, разобьем наши п «букв» на две возмож- возможно более близкие по своей численности группы и для всех букв первой группы примем за первую цифру кодового обозначения цифру 1, а для всех букв второй группы — цифру 0; далее, каждую из этих двух групп снова разо-
§ 1] ОСНОВНЫЕ ПОНЯТИЯ. ЭКОНОМНОСТЬ КОДА ; 191 бьем на две возможно более близкие по численности груп- группы и примем за вторую цифру кодового обозначения циф- цифру 1, если соответствующая буква входит в первую из двух полученных более мелких групп, и цифру 0, если она входит во вторую из этих групп; затем разобьем каждую из четырех уже имеющихся групп на две еще более мелкие группы по возможности близкой численности и в зависи- зависимости от этого разбиения выберем третью цифру кодового обозначения и т. д. Согласно сказанному в § 1 гл. III при этом мы придем к двоичному коду, для которого максимальное число к цифр в одном кодовом обозначе- обозначении определяется неравенствами A) на стр. 143, так что никакой код не может быть более экономным, чем этот. Разумеется, это еще не означает, что не существует так- также и других столь же экономных кодов, т. е. что наиболее экономный код может быть только один. В ча- частности ясно, что, оценивая экономность кода количеством цифр 0 и i в наиболее длинном кодовом обо- обозначении, мы можем вовсе не рассматривать неравномер- неравномерных кодов; добавив, например, в каждом из них в кон- конце кодовых обозначений, длина которых меньше макси- максимальной, некоторое число произвольно выбранных цифр (например, одних лишь цифр 0), мы придем к равномерно- равномерному коду, имеющему ту же максимальную длину кодового обозначения, что и исходный неравномерный код. Это обстоятельство существенно для приложений, так как рав- равномерные коды имеют заметные практические преимуще- преимущества: они значительно проще декодируются, причем деко- декодирование здесь легко может быть автоматизировано. От- Отметим еще, что и равномерных кодов с наименьшей воз- возможной длиной кодовых обозначений может быть не- несколько. В связи с их большой практической важностью мы опишем здесь еще один метод построения такого кода, по существу довольно близкий к описанному выше. Метод, о котором пойдет речь, связан с использовани- использованием двоичной системы счисления. Обыч- Обычно мы пользуемся десятичной системой счисления, в кото-" рой каждое число представляется в виде суммы степеней числа 10: n = ah -10* + Cfc-ц -10*-1 + ... + ах -10 + с„, где ah, ah-u ..., al5 a0 — цифры числа, могущие прини-
192 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV мать значения от 0 до 9; число п при этом обозначается по- последовательностью своих цифр, т. е. как ahah^l ... ata0. Аналогично этому число п можно представить и в виде суммы степеней числа 2: п = h -2' + 6М -2'-1 + ... + Ьг -2 + Ьо; здесь «цифры» bh 6(_х, ..., Ъг, Ьо уже должны быть все меньше 2, т. е. могут принимать лишь значения 1 и 0. В двоичной системе счисления число обозначается по- последовательностью соответствующих «двоичных цифр»; так, например, поскольку 6 = 1 -2а + 1 -21 + 0 -2°, 9 = 1 -23 + 0 -22 + 0 -21 + 1 -2°, то в двоичной системе счисления числа 6 и 9 будут обо- обозначаться, соответственно, как 110 и 1001. Можно, разу- разумеется, представлять числа и в виде суммы степеней лю- любого другого числа т; при этом мы придем к т-ш ч н о й системе счисления, в которой «цифры» могут принимать т значений 0, 1, 2, ..., т — 1 (такие системы нам еще понадобятся ниже). Число к цифр в обычной («десятичной») записи числа п, очевидно, определяется неравенствами Ю"-1 < п < 10"; так числа в промежутке между 101 = 10 и 102 — 1 = 99 будут двузначными, числа между 102 = 100 и 10s — 1 = = 999 — трехзначными и т. д. Аналогично этому в дво- двоичной системе счисления число к «цифр» в записи числа п определяется неравенствами 2к~1 < п < 2" (отсюда, в частности, сразу следует, что число 6 — «трех- «трехзначное», а 9 — «четырехзначное»). Поэтому, если мы вы- выпишем первые п целых чисел, начиная с числа 0 (т. е. .числа 0, 1, 2, ..., п — 1), то окажется, что при 2"'1 < п < 2к двоичная запись всех этих чисел содержит не более к зна- знаков, причем точно к знаков нам, наверное, хоть раз пона- понадобится. Добавив теперь в начало двоичной записи всех
§ 1J ОСНОВНЫЕ ПОНЯТИЯ. ЭКОНОМНОСТЬ КОДА 193 менее чем fc-значных чисел некоторое число нулей, мы придем к равномерному двоичному коду для и-буквенного алфавита с минимальной возможной длиной кодовых обо- обозначений. Так, например, при п = 10 соответствующими кодовыми обозначениями будут следующие комбинации, представляющие собой запись в двоичной системе счис- счисления всех чисел от 0 до 9, дополненную, если надо, до четырех знаков нулями в начале: 0000, 0001, 0010, ООН, 0100, 0101, ОНО, 0111, 1000, 1001. Столь же просто стро- строятся по этому методу все кодовые обозначения и при любом другом п; никакого предварительного разбиения сово- совокупности п чисел на мелкие группы здесь не требуется 1). Выше было показано, что в случае и-буквенного алфа- алфавита длина кодовых обозначений (т. е. число входящих в них элементарных сигналов) для самого экономного рав- равномерного двоичного кода равна наименьшему целому чис- числу &» удовлетворяющему неравенству к !> log п. Отме- Отметим теперь, что если число log n не является целым, то ко- кодовые обозначения такой длины могли бы быть, вообще говоря, использованы для передачи большего ко- количества информации, чем то, которое реаль- реально передается в случае кодирования сообщений, записан- записанных с помощью n-буквенного алфавита. Рассмотрим для примера случай п — 10 (скажем, случай передачи число- числового сообщения). Каждая цифра передаваемого сообще- сообщения (записанного в обычной десятичной системе счисления) может принимать одно из десяти значений, т. е. может со- содержать информацию, равную самое большее log 10 ^ ях 3V3 битам — такое значение информации будет дости- достигаться в случае, когда все цифры сообщения являются независимыми друг от друга и каждая из них может при- принимать все значения с одинаковой вероятностью. Каж- Каждая цифра закодированного сообщения (т. е. каждый пе- передаваемый элементарный сигнал — например, посылка *) Нетрудно видеть, что в случае, когда п является целой сте- степенью числа 2 (скажем, при п = 8, п = 16, или п — 32), код, по- получаемый с помощью двоичной системы счисления, точно совпадает с тем, который задается решением задачи 25. [При п = 10 «дво- «двоичный код» приводит к решению задачи 25, начинающемуся с вопроса «не превосходит ли загаданное число восьми?»; ср, выше, стр. 174.] 7 А. М. Яглом, И. М. Яглом
194 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ (Гл. IV тока или пауза) может принимать одно из двух значений, т. е. может содержать информацию, самое большее равную 1 дв. ед. (одному биту). Но при использовании равномер- равномерного двоичного кода мы затрачиваем на передачу одной цифры сообщения 4 элементарных сигнала, а на переда- передачу сообщения из N цифр — AN элементарных сигналов. Между тем при помощи AN двоичных сигналов мы могли бы передать информацию, равную AN битам, т. е. инфор- 2 манию, примерно на -%-N бит большую, чем наибольшая о информация, которая только может содержаться в числе из N цифр (равная N десятичным единицам информации). Нетрудно понять, чем это объясняется. Дело в том, что при п = 10 в закодированном сообщении все знаки нико- никогда не будут взаимно независимыми и принимающими оба возможных значения с одинаковой вероятностью; эти условия могут выполняться лишь при п = 2к. В ча- частности, если пользоваться кодом, построенным с помощью разложения чисел от 0 до 9 по двоичной системе счисле- счисления, то в случае, когда в исходном сообщении все цифры встречаются одинаково часто, в закодированном сообще- л. п « 25 5 нии цифра О будет встречаться в ун- = -q- раза чаще чем цифра 1 (так как легко проверить, что в выписанных на предыдущей странице десяти кодовых обозначениях цифра 0 встречается 25 раз, а цифра 1 — лишь 15 раз). Между тем для того, чтобы последовательность из данного числа цифр 0 и 1 содержала наибольшую информацию, требует- требуется, чтобы все цифры этой последовательности принимали оба значения с одинаковой вероятностью (и были взаимно независимы). Для передачи длинных числовых сообщений можно по- построить, однако, и более выгодный двоичный код. Для этого надо только отказаться от побуквенного кодирова- кодирования (под «буквами», из которых состоят наши сообщения, разумеется, понимаются цифры 0, 1, ..., 9), а вместо этого использовать так называемые блоковые коды, в которых кодовые обозначения сопоставляются «блокам», состоящим из фиксированного числа последовательных «букв». Начнем со случая простейших блоков из двух «букв»} т. е. разобьем наше сообщение на последователь-
§ J] ОСНОВНЫЕ ПОНЯТИЯ, ЭКОНОМНОСТЬ КОДА 195 ные пары цифрой будем переводить в двоичную си- систему счисления не отдельно каждую цифру, а каждое из двузначных чисел, полученных при таком разбиении. Чи- Число двоичных знаков, требуемых для записи всех двузнач- двузначных чисел (от 00 до 99 включительно), равно числу вопро- вопросов,, нужных для отгадывания задуманного числа в преде- пределах первой сотни, т. е. равно 7 (см. задачу 25, стр. 143). Таким образом, при такой системе кодирования на две цифры сообщения тратится 7 элементарных сигналов (а не 2-4 = 8, как раньше), т. е.для передачи числа из N цифр (будем для простоты считать N четным) надо передать 3,5-N элементарных сигналов — на -g-N сигналов мень- меньше, чем при первоначальной системе кодирования. При необходимости передавать много цифр (случай большого N) выгода оказывается весьма ощутимой. Еще выгоднее было бы разбить передаваемое число на блоки из т р е х цифр и переводить в двоичную систему счисления лишь получаемые при этом трехзначные числа. Для передачи трехзначного числа, очевидно, надо затра- затратить 10 элементарных сигналов (ср. стр. 143), так что при таком способе кодирования число из N цифр (в случае N кратного трем) передается при помощи -g- N = 3 -g- N элементарных сигналов. Выгода от перехода к разбиению сообщения на еще более крупные блоки и перевода в дво- двоичную систему каждого из этих блоков в отдельности практически оказывается уже совсем небольшой (при пе- переходе от блоков из трех цифр к блокам из четырех цифр экономность кодирования даже уменьшается: на переда- передачу четырех цифр, как легко видеть, требуется 14 = =3,5-4 элементарных сигналов). Тем не менее интересно отметить, что, применяя разбиения на достаточно крупные блоки, мы можем еще более «сжать» наш код и сделать отношение числа элементарных сигналов в закодированном сообщении к числу цифр в исходном (обыкновенном, т. е. десятичном) числе сколь угодно близким к предельному зна- значению, равному log 10 = 3,32193... В самом деле, восполь- воспользовавшись разбиением на блоки, скажем, из N цифр, мы *) Такое разбиение сообщения на последовательные пары цифр, очевидно, равносильно переводу его в с т о н ч н у ю систе- систему счисления. 7*
196 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV придем к коду, в котором на каждые N цифр сообщения приходится к элементарных сигналов, где к — целое чи- число, удовлетворяющее неравенствам к — 1 < log KF < к, или, что то же самое, N log 10 < к < N log 10 + 1. Отсюда видно, что среднее число -^ элементарных сиг- сигналов, приходящихся на одну десятичную цифру, в та- таком коде не может отличаться от величины log 10 больше, чем на jj', выбрав N достаточно большим, мы всегда мо- можем сделать эту разницу сколь угодно малой (ср. стр. 143). Разумеется, в приведенных рассуждениях почти ни- ничего не изменится, если исходное сообщение не является числовым, а состоит из «букв» произвольного п-буквенного «алфавита» (например, из обычных русских букв, или ив латинских букв, или из букв и цифр, или из букв, цифр и знаков препинания и т. д.). В этом случае, воспользовав- воспользовавшись кодированием сразу крупных блоков из N таких «букв» (для чего надо только разложить по двоичной си- системе счисления первые nN чисел), можно добиться того, чтобы среднее число элементарных сигналов, приходящихся на одну букву сообщения, стало сколь угодно близким к величине log n (меньше этой величины наше среднее число никогда быть не может, как это следует из простого под- подсчета количества информации). Лишь, в том случае, ко- когда п является целой степенью 2 (скажем, равно 2"), та- такое разбиение на крупные блоки оказывается ненужным: здесь уже код, сопоставляющий некоторое кодовое обо- обозначение каждой отдельной букве, может быть сделан пре- предельно экономным, так что переход к кодированию по бло- блокам не дает никакой выгоды. Отметим в этой свя- связи, что в некоторых отношениях «кодирование по блокам» всегда является менее удобным, чем «кодирование по от- отдельным буквам»: при кодировании по блокам декодиро- декодирование, естественно, оказывается более сложным и громозд- громоздким (в тем большей степени, чем длиннее соответствующие блоки) и, кроме того, оно производится здесь всегда с не-
S 1] ОСНОВНЫЕ ПОНЯТИЯ. ЭКОНОМНОСТЬ КОДА 197 которым запаздыванием (получив закодированное сообще- сообщение, мы не имеем возможности выяснить, какой была пер- первая переданная буква, пока не будут переданы следующие iV -— 1 букв). Все приведенные рассуждения без труда переносятся и на случай, когда при передаче используются не 2, а т элементарных сигналов (случай m-ичного кода); толь- только здесь при построении наиболее экономного равномерно- равномерного кода надо пользоваться не двоичной, а m-ичной систе- системой счисления. Если п равно целой степени т, то вполне можно ограничиться кодированием каждой буквы сообще- сообщения в отдельности; уже при этом число элементарных сиг- сигналов, требующихся для передачи одной буквы, может быть сдолапо равным наименьшему возможному значению, а именно — значению ,og . Если же п не является це- log m ^ лой степенью т, то при сопоставлении кодового обозна- обозначения каждой букве сообщения в отдельности нам при- придется затратить на каждую букву к ^>. элементар- элементарных сигналов; здесь к — наименьшее целое число, превосходящее *-|— . В этом случае мы можем построить более экономный код, перейдя к кодированию сразу це- целых iV-буквенных блоков; выбрав N достаточно большим, мы всегда можем добиться того, чтобы среднее число эле- элементарных сигналов, затрачиваемых для передачи одной буквы сообщения, стало сколь угодно близким к r-f—• В частном случае т = 3 соответствующие рассуждения бу- будут близки к тем, которые приводились в § 2 гл. III при определении числа взвешиваний на чашечных весах без гирь, нужного для нахождения фальшивой монеты (см. стр. 146 и след.): так как каждое взвешивание может иметь три исхода, то результат последовательности та- таких взвешиваний можно представить в виде последова- последовательности цифр, каждая из которых принимает одно из трех значений *), т. е. в виде некоторого числа, записанно- записанного в троичной системе счисления. *) Эти значения можно обозначить, как это принято в троич- троичной системе счисления, цифрами 0,1 и 2, а можно также вместо этого писать, например, буквы Р, П и Л (ср. с § 2 гл. III).
198 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV § 2. Коды Шеннона — Фаво и Хафмана. Основная теорема о кодировании Основной результат предыдущего параграфа заключа- заключается в следующем; если число букв в «.алфавите» равно п, а число используемых элементарных сигналов равно т, то при любом методе кодирования среднее число элементарных сигналов, приходящихся на одну букву алфавита, не может быть меньше чем ^ ^} однако оно всегда может быть сделано сколь угодно близким к этому отношению, если только отдельные кодовые обозначения сопоставлять сразу достаточно длинным «блокам», состоящим из боль- большого числа букв. С идейной точки зрения этот результат, очевидно, примыкает к простейшим соображениям, вы- высказанным в свое время Хартли: он никак не связан с теоретико-вероятностными рассмотрениями (слово «ве- «вероятность» в § 1 даже ни разу не упоминалось) и факти- фактически опирается лишь на элементарный подсчет числа «различных последовательностей из N букв «-буквенного алфавита» и «различных последовательностей из iV, элемен- элементарных сигналов». Поэтому вряд ли можно считать, что результаты предыдущего параграфа доказывают важность теории информации для технической задачи передачи сооб- сообщений, о чем говорилось в предисловии к настоящей книге. На самом деле, однако, результаты § 1 могут быть зна- значительно улучшены, если воспользоваться введенным в гл. II понятием энтропии и учесть статистические свойства реальных сообщений. В самом деле, ведь в § 1 эконом- экономность кода мы весьма грубо характеризовали лишь наи- наибольшим числом элементарных сигналов, прихо- приходящихся на одну букву кодируемого сообщения, и в связи с этим рассматривали только простейшие коды — равно- равномерные. Если в конце параграфа мы и говорили о сред- среднем числе сигналов, приходящихся на одну букву сообщения, то это было связано лишь с тем, что там рас- рассматривались равномерные коды сразу для многобуквен- многобуквенных блоков и отношение числа элементарных сигналов в кодовом обозначении к числу букв в соответствующем блоке (которое мы и называли средним числом элементар- элементарных сигналов, приходящихся на одну букву) могло не быть целым числом. Между тем на практике обычно приходится
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 199 иметь дело с сообщениями, в которых относительные ча- частоты различных букв значительно отличаются друг от друга (достаточно сравнить, например, частоты букв о и щ в любом русском тексте; подробно об этом мы еще будем говорить в следующем параграфе). Поэтому основное зна- значение здесь должно играть теоретико-вероятностное среднее значение числа элементарных сигналов, приходящихся на одну букву сообщения, определяемое в соответствии с реальными статистическими закономер- закономерностями, характеризующими передаваемые сообщения. Посмотрим теперь, что же можно сказать о кодировании сообщений, подчиняющихся определенным статистическим закономерностям. Мы рассмотрим здесь лишь простейший случай сообщений, записанных при помощи некоторых п «букв», частоты появления которых на любом месте сооб- сообщения полностью характеризуются вероятностями plt р2,... • ¦•> Рп-, где, разумеется, рг + р2 + ... +рп = *• Упро- Упрощение, которым мы при зтом пользуемся, состоит в том, что вероятность pt появления i-й буквы на любом месте сообщения предполагается одной и той же, вне зависи- зависимости от того, какие буквы стояли на всех предыдущих местах; иначе говоря, последовательные буквы сообщения предполагаются независимыми друг от друга. На самом деле в реальных сообщениях это чаще всего бы- бывает не так; в частности, в русском языке вероятность появления той или иной буквы существенно зависит от предыдущей буквы (см. ниже, стр. 240 и след.). Однако строгий учет взаимной зависимости букв сделал бы все дальнейшие рассмотрения очень сложными; в то же время естественно думать, что он не должен изменить приведен- приведенные ниже результаты, так как, если угодно, под «буквами» мы можем сразу понимать блоки из многих букв, зави- зависимость которых друг от друга является уже сравнитель- сравнительно слабой 1). Мы будем пока рассматривать только двоичные коды; обобщение полученных при этом результатов на коды, использующие произвольное число т элементарных сигналов, является, как всегда, крайне простым и о нем *) Действительно, можно доказать, что все эти результаты сохраняются для весьма широкого класса случаев, в которых по- последовательные буквы сообщения являются зависимыми друг от друга (ср. ниже, стр. 216—217).
200 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV будет достаточно сказать лишь несколько слов в самом конце параграфа. Начнем с простейшего случая кодов, со- сопоставляющих отдельное кодовое обозначение — после- последовательность цифр 0 и 1 — каждой «букве» сообщения. Выше мы уже отмечали, что каждому двоичному коду для я-буквенного алфавита может быть сопоставлен некото- некоторый метод отгадывания загаданного числа х, не превосхо- превосходящего п, при помощи вопросов, на которые отвечается лишь «да» или «кет»; обратно — любой метод отгадыва- отгадывания такого числа приводит нас к определенному двоич- двоичному коду. При заданных вероятностях рг, р2, ..., рп от- отдельных букв передача многобуквенного сообщения соот- соответствует как раз 'положению вещей, описанному на стр. 176 и след.; наиболее экономный код здесь будет сопоставляться тому методу отгадывания числа х, для ко- которого при этих именно вероятностях п значений г сред- среднее значение числа задаваемых вопросов оказывается наи- наименьшим. Само это среднее значение может рассматривать- рассматриваться также как среднее значение числа двоичных знаков (цифр 0 и 1) в одном кодовом обозначении; иначе говоря4 оно точно равно среднему значению числа элементарных сигналов, приходящихся на одну его букву при передаче многобуквенного сообщения. Мы можем теперь непосредственно применить к нашей задаче результаты, изложенные на стр. 176 и след. Соглас- Согласно этим результатам прежде всего среднее число двоичных элементарных сигналов, приходящихся в закодированном сообщении на одну букву исходного сооби{ения, не может быть меньше Н, где Н — — рх log рх — р2 log рг — .. ••• — Рп 1°8Рп — энтропия опыта, состоящего в распозна- распознавании одной буквы текста (или, короче, просто энтропия одной буквы). Отсюда сразу следует, что при любом методе кодирования для записи длинного сообщения из М букв тре- требуется не меньше чем МИ двоичных знаков. Эти факты немедленно вытекают из того, что информация содержа- содержащаяся в отрывке текста, содержащем М букв, в нашем слу- случае равна МН (напомним, что отдельные буквы мы счи- считаем взаимно независимыми); в то же время информация, содержащаяся в одном элементарном сигнале (двоичном внаке), никак не может превосходить одного бита (ср. стр. 177—178; другой вывод того же самого результата указан мелким шрифтом на стр. 180—182).
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 201 Если вероятности рг, p2i ..., рп не все равны между со- собой, тоЯ< log n; поэтому естественно думать, что учет статистических закономерностей сообщения может поз- позволить построить код более экономный, чем наилучший равномерный код, требующий, согласно результатам § 1, не менее М log п двоичных знаков для записи текста из М букв. Как именно следует поступать для получения наибо- наиболее экономного кода, ясно из сказанного на стр. 176—177. Удобно при этом начать с того, что расположить все имею- имеющиеся п букв в один столбик в порядке убывания вероят- вероятностей. Затем все эти буквы следует разбить на две груп- группы — верхнюю и нижнюю — так, чтобы вероятности" для буквы сообщения принадлежать к каждой из этих групп были возможно более близки одна к другой; для букв первой группы в качестве первой цифры кодового обозна- обозначения используется цифра 1, а для букв второй группы — цифра 0. Далее, каждую из двух получепных групп снова надо разделить на две части возможно более близкой сум- суммарной вероятности; в качестве второй цифры кодового обозначения мы будем использовать цифру 1 или 0 в за- зависимости от того, принадлежит ли наша буква к первой или ко второй из этих более мелких групп. Затем каждая из содержащих более одной буквы групп снова делится на две части возможно более близкой суммарной вероятности и т. д.; процесс повторяется до тех пор, пока мы не придем к группам, каждая из которых содержит по одной-един- ственной букве. Такой метод кодирования сообщений был впервые предложен в 1948—1949 гг. независимо друг от друга Р. Фано и К. Шенноном; поэтому соответствую- соответствующий код обычно называется кодом Шеннона — Фа- н о (иногда также просто кодом Фано *)). Так, на- например, если наш алфавит содержит всего шесть букв, вероятности которых (в порядке убывания) равны 0,4, 0,2, 0,2, 0,1, 0,05 и 0,05, то на первом этапе деления букв на группы мы отщепим лишь одну первую букву A-я группа), оставив во 2-й группе все остальные. Далее, вто- вторая буква составит 1-ую подгруппу 2-й группы; 2-я же подгруппа той же группы, состоящая из оставшихся че- четырех букв, будет и далее последовательно делиться на *) На самом деле точно этот метод кодирования был предло- предложен лишь Р. Фано; К. Шенноном же был предложен несколько другой метод, близкий к описанному здесь.
202 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV части так, что каждый раз 1-я часть будет состоять из одной лишь буквы (см. таблицу ниже). Аналогично в при- приведенной на следующей странице таблице разобран случай более богатого буквами «алфавита», включающего 18 букв, имеющих следующие вероятности: 0,3; 0,2; 0,1 B буквы); 0,05; 0,03 E букв); 0,02 B буквы); 0,01 F букв). буквы 1 \2 •3 «4 5 '6 вероят- вероятность 0,4 0,2 02 01 0,05 0,05 разбиение на подгруппы (римские цифры обозначают номера групп и подгрупп) кодовое обозначение } I ] > I }» Vn 1 01 001 0001 00001 00000 Основной принцип, положенный в основу кодирования по методу Шеннона — Фано, заключается в том, что при выборе каждой цифры кодового обозначения мы стараемся, чтобы содержащееся в ней количество информации было ¦наибольшим, т. е. чтобы независимо от значений всех пре- 'дыдущих цифр эта цифра принимала оба возможных для нее значения 0 и 1 по возможности с одинаковой вероят- вероятностью. Разумеется, количество цифр в различных обозначениях при этом оказывается различным (в част- частности, во втором из разобранных примеров оно меняет- меняется от двух до семи), т. е. код Шеннона — Фано яв- является неравномерным. Нетрудно понять, однако, что никакое кодовое обозначение здесь не может оказаться на- началом другого, более длинного обозначения (это ясно, в частности, и из того, что такой код фактически совпадает с описанным на стр. 176 и след. методом решения задачи об отгадывании загаданного числа; ср. стр. 189—190); поэтому закодированное сообщение всегда может быть однозначно декодировано. Весьма существенно, что бук- буквам, имеющим большую вероятность, в коде Шеннона — Фано соответствуют более короткие кодовые обозначения, чем сравнительно маловероятным буквам (ибо при после- последовательном делении на группы буквы, имеющие большую вероятность, быстрее оказываются выделенными в от-
§2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 203 м буквы 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 вероят- вероятность 0,3 02 0,1 0,1 0,05 0,03 0,03 0,03 0,03 0,03 0,02 0,02 0,01 0,01 0,01 0,01 0,01 0,01 разбиение V т * 1 * II II } I 1}» « II т J 1 V II на подгруппы II, \' !!¦ ("П. } I I 1П > I 1 } I \i i ,т } i II I > > " 11 ) 1 i кодовое оСозначениа 11 10 011 0101 0100 00111 00110 00101 00100 00011 000101 000100 000011 0000101 0000100 000001 0000001 0000000 дельную группу из одного элемента; ср. приведенные выше примеры). В результате, хотя. некоторые кодовые обозначения здесь и могут иметь весьма значительную длину, среднее значение длины такого обозна- обозначения все же оказывается лишь немногим большим ми- минимального значения Н, допускаемого соображениями сохранения количества информации при кодировании. Так, для рассмотренного выше примера 6-буквенного алфавита наилучший равномерный код состоит из трехзначных ко- кодовых обозначений (ибо 2я < 6 < 23), и потому в нем на каждую букву исходного сообщения приходится ровно 3 элементарных сигнала; при использовании же кода Шеннона — Фано среднее число элементарных сигналов, приходящихся на одну букву сообщения, равно d-0.4 + 2-0,2 + 3-0,2 + 4-0,1 + 5. @,05 +0,05) = 2,3. Это значение заметно меньше, чем 3, и не очень далеко от энтропии Н = —0,4 log 0,4 — 2-0,2 log 0,2 — 0,1 log 0,1 — — 2.0,05 log 0,5 ^ 2,22.
204 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Аналогично этому для рассмотренного примера 18-бук- венного алфавита наилучший равномерный код состоит из пятизначных кодовых обозначений (так как 2* < 18 <^ <^ 25); в случае же кода Шеннона — Фано имеются буквы, кодируемые даже семью двоичными сигналами, но зато среднее число элементарных сигналов, приходящихся на одну букву, здесь равно 2-0,5 + 3-0,1 + 4-0,15 + 5-0,15 + 6-0,06 +7-0,04 = 3,29. Последнее значение заметно меньше, чем 5, — и уже не намного отличается от величины #=— 0,3 log 0,3—0,2 log 0,2 — ... — 6-0,0,01 log0,01« « 3,25. Особенно выгодно бывает кодировать по методу Шен- Шеннона — Фано не отдельные буквы, а сразу целые блоки из нескольких букв. Правда, при этом все равно невоз- невозможно превзойти предельное значение Н двоичных знаков на одну букву сообщения (ибо для случая независимости отдельных букв энтропия iV-буквенного блока будет рав- равна NH и, следовательно, при любом методе кодирования на один блок никак не может прийтись в среднем меньше, чем NH двоичных знаков); однако даже в сравнительно неблагоприятных случаях кодирование целыми блоками позволяет весьма быстро приблизиться к этому минималь- минимальному значению. Рассмотрим, например, случай, когда имеются лишь две различные буквы А и Б, имеющие веро- вероятности р (А) = 0,7 и р (Б) = 0,3; тогда Н = —0,7 log 0,7—0,3 log 0,3 = 0,881... Применение метода Шеннона — Фано к исходному двух- буквенному алфавиту здесь оказывается бесцельным: оно приводит нас лишь к простейшему равномерному коду буква А Б вероятность 0,7 0,3 кодовое обозначение 1 0 требующему для передачи каждой буквы одного двоичного знака — на 12% больше минимального достижимого зна-
§2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 205 чения 0,881 дв. зн./букву. Применяя же метод Шеннона — Фано к кодированию всевозможных двухбуквенных ком- комбинаций (вероятности которых определяются правилом умножения вероятностей для независимых событий; см. стр. 29), мы придем к следующему коду: комбинация букв I вероятность АА АВ БА ББ 0,49 0,21 0,21 0,09 кодовое обозначение 1 01 001 000 Среднее значение длины кодового обозначения здесь равно 1-0,49 + 2-0,21 + 3-0,30 = 1,81, так что на одну букву алфавита здесь приходится в сред- 1 81 нем -hr = 0,905 двоичных знаков — лишь на 3% больше значения 0,881 дв. зн./букву. Еще лучшие результаты мы получим, применив метод Шеннона — Фано к кодирова- кодированию трехбуквенных комбинаций; при этом мы придем к следующему коду; комбинация букв I вероятность кодовое обозначение ААА ААБ АБА БАА АББ БАБ ББА БББ 0,343 0,147 0,147 0,147 0,063 0,063 0,063 0,027 11 10 011 010 0010 ООН 0001 0000 Среднее значение длины кодового обозначения здесь рав- равно 2,686, т. е. на одну букву текста приходится в среднем 0,895 двоичных знаков, что всего на 1,5% больше значе- значения Н ^ 0,881 дв. зн./букву. В случае еще большей разницы в вероятностях букв А и Б приближение к минимально возможному значению Н дв. зн./букву может быть несколько менее быстрым, но оно проявляется не менее наглядно. Так, при р (А) = = 0,89 мр (Б) = 0,11 это значение равно — 0,89 log 0,89—
206 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV — 0,11 Iog0,ll»s0,5 дв. зн./букву, а равномерный код А-+-1, Б ->¦ 0 (равносильный применению кода Шеннона — Фано к совокупности двух имеющихся букв) требует затраты одного двоичного знака на каждую букву — в два раза больше. Нетрудно проверить, однако, что применение кода Шеннона — Фано к всевозможным двухбуквенным комби- комбинациям здесь приводит к коду, в котором на каждую бук- букву приходится в среднем 0,66 двоичных знаков; приме- нение*того же кода к блокам из трех букв позволяет пони- понизить среднее число двоичных знаков, приходящихся на одну букву, до 0,55; наконец, кодирование по методу Шеннона — Фано всевозможных четырехбуквенных бло- блоков требует затраты на каждую букву в среднем 0,52 дво- двоичных знаков — всего на 4% больше минимального зна- значения 0,50 дв. зн./букву. Близок к коду Шеннона — Фано, но еще выгодней, чем этот последний, так называемый код Хафмана (см. [63]), к описанию которого мы сейчас и перейдем. Построение этого кода опирается на простое преобразо- преобразование того алфавита, на котором записываются пере- передаваемые по линии связи сообщения, называемое сжатием алфавита. Путь мы имеем алфавит А, содержащий буквы Оц а2, •••, ап, вероятности появления которых в сообще- сообщении соответственно равны рг, р2, ..., рп; при этом мы счи- считаем буквы расположенными в порядке убывания их вероятностей (или частот), т. е. полагаем, что Pi > Ps > Pa > ••• >/>n-i > Рп- Условимся теперь не различать между собой две наименее вероятные буквы нашего алфавита, т. е. будем считать, что ап_х и ап — это одна и та же буква Ь нового алфа- алфавита Ац, содержащего, очевидно, буквы ах, а2, ..., ап_2 и Ь (т. е. ап-г или ап), вероятности появления которых в со- сообщении соответственно равны рг, р2, ..., рп-2 и /?п_х + + рп. Алфавит Ах и называется полученным из алфавита А с помощью сжатия (или однократного сжатия). Прилагательное «однократное» в скобках в конце по- последней фразы имеет следующий смысл. Расположим бук- буквы нового алфавита Ах в порядке убывания их вероятно- вероятностей и подвергнем сжатию алфавит Ах; при этом мы придем к алфавиту А2, про который естественно сказать, что он
S 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 207 получается из первоначального алфавита А с помощью двукратного сжатия (а из алфавита Ах — с помощью простого или однократного сжатия). Ясно, что алфавит А2 будет содержать уже всего п — 2 буквы. Продолжая эту процедуру, мы будем приходить ко все более корот- коротким алфавитам; после (п — 2)-кратного сжатия мы придем к алфавиту А„_2, содержащему уже всего две буквы. Вот, например, как преобразуется с помощью после- последовательных сжатий рассмотренный выше алфавит, со- содержащий 6 букв, вероятности которых равны 0,4, 0,2, 0,2, 0,1, 0,05 и 0,05: а о. ю 1 2 3 4 5 6 Вероятности исходный алфавит А 0,4 0,2 0,2 0,1 0,05 ] 0,05 J- сжатые алфавиты А, 0,4 0,2 0,2 0,1 1 1—0,1 J- А, 0,4 0,2 0,2 1 1—0,2 ]- — 0,4 А4 ,-0,6 Условимся теперь приписывать двум буквам послед- последнего алфавита А„_2 кодовые обозначения 1 и 0. Далее, если кодовые обозначения уже приписаны всем буквам алфавита Aj, то буквам «предыдущего» алфавита А^_х (где, разумеется, Ах_г = Ао— это исходный алфавит А), со- сохранившимся и в алфавите А^, мы припишем те же кодовые обозначения, которые они имели в алфавите Аг_х; двум же буквам а и а" алфавита А7-, «слившимся» в одну букву b алфавита А^, мы припишем обозначения, получающиеся из кодового обозначения буквы Ъ добавле- добавлением цифр 1 и 0 в конце (см. таблицу на следующей стра- странице). Легко видеть, что из самого построения получаемого таким образом кода Хафмана вытекает, что он удовлет- удовлетворяет указанному на стр. 188 общему условию: никакое кодовое обозначение не является здесь началом другого, более длинного кодового обозначения. Заметим еще, что кодирование некоторого алфавита по методу Хафмана (так же, впрочем, как и по методу Шеннона — Фано) не
208 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. ГУ a бук '' 1 2 3 4 5 6 исходный алфавит А 0,4 0,2 0,2 0,1 0,05 0,05 0 10 111 1101 110011 iwooj*~ вероятности v 1 0,4 0,2 0,2 01 i-oi 0 10 111 11011 liooj*" i кодовые обозначения сжатые алфавиты А2 0,4 0,2 0,2 1-0,2 0 10 1111 110J Аз 0.4 0 -0,4 111 0.2 10 Г" А4 ,—0,6 1 I 0,4 0 является однозначно определенной процедурой. Так, на- например, на любом этапе построения кода можно, разу- разумеется, заменить цифру 1 на цифру 0 и наоборот; при этом мы получим два разных кода (отличающихся, правда, весьма несущественно друг от друга и имеющих те же длины всех кодовых обозначений). Но помимо того в не- некоторых случаях можно построить и несколько суще- существенно различающихся кодов Хафмана; так, например, в разобранном выше примере можно строить код и в соот- соответствии со следующей таблицей: & 1 2 3 4 5 6 вероятности и кодовые обозначения исходный алфавит А 0,4 11 0,2 01 0,2 00 0,1 100 0,05 10111 0,05 lOlOj*"" сжатые алфавиты А. 0,4 11 0,2 01 0,2 00 ,-¦0,1 1011 | 0,1 100|*~ А* - 0,4 11 -^0,2 10 0,2 011 0,2 00j*~ А, ,—0.4 0 0,4 111 | 0,2 ЮГ А. I-OJB 1 | 0.4 0 Получаемый при этом новый код также является кодом Хафмана, но длины имеющихся кодовых обозначений те- теперь уже оказываются совсем другими. Отметим, однако, что среднее число элементарных сигналов, при- приходящихся на одну букву, для обоих построенных кодов Хафмана оказывается точно одинаковым: в первом слу- случае оно равно 1-0,4 + 2-0,2 + 3-0,2 + 4-0,1 + 5- @,05 + 0,05) = 2,3,
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 209 а во втором — равно 2.@,4 + 0,2 + 0,2) + 3-0,1 + 4.@,05 + 0,05) = 2,3. Далее, оба кода явно относятся к числу весьма эконом- экономных (в данном конкретном случае средняя длина кодового обозначения здесь совпадает с той, которая получилась выше при использовании кода Шеннона — Фано). Более того, можно показать, что код Хафмана всегда является самым экономным из всех возможных в том смысле, что ни для какого другого метода кодирования букв некоторого алфавита среднее число элементарных сигна- сигналов, приходящихся на одну букву, не может быть меньше того, какое получается при кодировании по методу Хаф- Хафмана (отсюда, разумеется, сразу вытекает и то, что для любых двух кодов Хафмана средняя длина кодового обоз- обозначения должна быть точпо одинаковой — ведь оба они являются наиболее экономными). Доказательство этого свойства оптимальности кодов Хафмана совсем несложно. Рассмотрим снова какой-то ге-буквен- ный алфавит (обозначим его, например, через В), содержащий буквы fcj, b2, . . .,bn-i, bn, вероятности которых равны ft.fti • * -i9n-i. Qn, где ft > fe > • • • > Qn-l > ?n> (*) и получающийся та него сжатием (п — 1)-буквенный алфавит (ал- (алфавит Bj), содержащий буквы blt b2, . . ., bn_2, с, вероятности появ- появления которых соответственно равны 5i, йъ, . . ., ?n-2» ?n-i + ?п — 9- Предположим' теперь, что мы имеем какую-то систему кодовых обозначений для букв алфавита В,; эту систему кодовых обозна- обозначений мы перенесем гатем и в алфавит В, сохранив обозначения всех букв, входящих одновременно в оба алфавита, а буквам bn-i и Ъп приписав обозначения, получающиеся из обозначения бук- буквы с прибавлением в конце соответственно цифр 1 и 0. Покажем теперь, что если код для алфавита Вх был оптимальным, то и по- полученный таким путем код для алфавита В будет оптимальным. Выделенное курсивом утверждение мы будем доказывать от противного. А именно, мы предположим, что полученный код для Вне является оптимальным, и покажем, что в таком случае не мог быть оптимальным и исходный код для 1В±. В самом деле, обозначим среднюю длину кодового ©бозначения буквы (т. е. среднее число приходящихся на одну букву элементарных сигналов) для рассматриваемых кодов, отвечающих алфавитам Bj и В, через L^ и L; при этом, очевидно, L = Lx+qs (**) Действительно, алфавиты Bi и В отличаются лишь тем, что имею- имеющая вороятность g буква с алфавита Bj заменяется в алфавите В двумя буквами Ьп^и Ьп с той же самой общей вероятностью
210 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV появления д (= gn_i + дп); отвечающие же этим алфавитам длины кодовых обозначений отличаются лишь увеличением на единицу длин, отвечающих буквам fcn_i и Ьп, по сравнению с длиной, от- отвечающей букве с алфавита Bj. Отсюда и из определения средней длины кодового обозначения сразу следует соотношение (**). Мы предположили, что отвечающий алфавиту В код не оп- оптимален; другими словами — что существует отличный от рас- рассматриваемого код, сопоставляющий буквам Ъх, Ь2, . . .,Ьп-и Ъп кодовые обозначения длин (в элементарных сигналах) кл, к2, . . . . . . , *n-i> *ni такой, что для него средняя длина кодового обозначе- обозначения одной буквы г + . .. + Л„_1-9„_1 + кп-дп меньше L. При этом мы можем считать, что *1 < кг < .. . < кп-1 < кп. (***) В самом деле, если Ь{ и bj (где I и / — какие-то два из номеров 1, 2, . . ., п) — такие буквы, что gj < g$ (откуда в силу (*) следует неравенство i > /), a fcj < к}, то мы просто поменяем кодовые обоз- обозначения букв fcj и bj, после чего средняя длина кодового обозна- обозначения буквы еще уменьшится; поэтому если дг >• gj, то обязательно fc4 < kj. Ну а в пределах группы букв bu, bu+i,.. ., bv (где 1 < м < < v ^ п) такой, что ди = ди*х = . . . = gv, мы всегда можем рас- расположить буквы в таком порядке, что ки < ku+i ^ . . . ^ kv. Из неравенств (•••}, в частности, следует, что букве Ьп отве- отвечает кодовое обозначение, имеющее самую большую длину Ап. Далее, мы можем быть уверены в существовании такой буквы Ь{ алфавита В, кодовое обозначение которой получается из кодо- кодового обозначения буквы. Ьп заменой последнего влементарного сигнала — 1 на 0 или 0 на 1. В самом деле, если бы такое кодовое обозна- обозначение вовсе отсутствовало, то мы могли бы просто откинуть по- последний элементарный сигнал в кодовом обозначении буквы Ьп, не придя при этом в противоречие С основным условием, определяю- определяющим коды без разделительного знака (напомним, что букв, имею- имеющих более длинные, чем Ьп, кодовые обозначения, у нас нет). Но при этом мы снова уменьшили бы среднюю длину кодового обо- обозначения одной буквы, что противоречит предположению об опти- оптимальности рассматриваемого кода. Но из неравенств (•••) и равенства ki = kn следует, что не- неизбежно ki = An_i (но при этом не обязательно I = п — 1). Поме- Поменяем теперь кодовые обозначения букв bj и bn_l, если I ф п — 1 (если I = п —1, то этот этап рассуждения является лишним); при этом величина L', очевидно, не изменится. А теперь перейдем от рассматриваемого кода для алфавита В к коду для алфавита Bj, сохранив кодовые обозначения всех букв bf,b2, ..., bn^, а букве с приписав кодовое обозначение, получающееся ив кодовых обозна- обозначений букв Ьп-1 и Ьп отбрасыванием последней цифры (которой эти кодовые обозначения лишь и отличаются). Очевидно, что средняя длина b\ полученного таким путем кода для алфавита Bj связана
§2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 211 со средней длиной V кода для В аналогичным (**) соотношением откуда, в силу неравенства V < L, следует, что Но это и доказывает, что исходный код для Bf не был опти- оптимальным. Мы, по существу, уже завершили доказательство оптималь- оптимальности кодов Хафмана. Действительно, ясно, что принятый нами код для последнего алфавита Ап_2) приписывающий двум буквам, из которых этот алфавит состоит, кодовые обозначения 1 и 0, яв- является оптимальным: отвечающая ему средняя длина 1 ко- кодового обозначения буквы никак не может быть уменьшена. Но отсюда, в сиду только что доказанного, следует, что и код для ал- алфавита An^j" является оптимальным, откуда, в свою очередь, выте- вытекает оптимальность кода для алфавита Ап_х и т. д.— и'так до пос- последнего кода (кода Хафмана), отвечающего исходному алфавиту А1.1 = Ао, т. е. алфавиту А. Достигнутая в рассмотренных выше примерах степень близости среднего числа двоичных знаков, приходящихся на одну букву сообщения, к значению Н может быть еще сколь угодно увеличена при помощи перехода к кодиро- кодированию все более и более длинных блоков. Это вытекает из следующего общего утверждения, которое мы будем в дальнейшем называть основной теоремой о кодировании1): при кодировании сообщения, раз- разбитого на N-буквенные блоки, можно, выбрав N достаточно большим, добиться того, чтобы среднее число двоичных элементарных сигналов, приходящихся на одну букву ис- исходного сообщения, было сколь угодно близко к Н (други- (другими словами — сколь угодно близко к отношению количе- количества Н информации, содержащейся в одной букве сообще- сообщения, к 1 биту, т. е. к наибольшему количеству информа- информации, могущему содержаться в одном элементарном сигнале). Иначе это можно сформулировать еще так: очень длинное сообщение из М букв может быть закодировано при помощи сколь угодно близкого к МН (но, разумеется, ни в каком случае не меньшего!) числа элементарных сигналов, если только предварительно разбить это сообщение на 1) Точнее следовало бы сказать: основной теоре- теоремой о кодировании при отсутствии помех. Обобщение этого результата на случай наиболее выгодного кодиро- кодирования, учитывающего влияние помех, будет рассмотрено в § 4.
212 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV достаточно длинные блоки uaN букв и сопоставлять отдель- отдельные кодовые обозначения сразу целым блокам. Отметим еще, что мы не случайно ничего не говорим здесь о том, как имен- именно следует производить кодирование iV-буквенных блоков: как будет видно из дальнейшего, методы кодирования бло- блоков могут быть весьма различными (так, например, здесь можно — хоть это, разумеется, далеко не единственные имеющиеся здесь возможности — следовать методу ко- кодирования Шеннона — Фано или методу Хафмана). Таким образом, основную роль при получении наиболее эконом- экономного кода играет именно разбиение сообщения на весьма длинные блоки. В § 4 мы увидим, что кодирование сразу длинных блоков имеет значительные преимущества и при наличии помех, препятствующих работе линий связи (хотя сами методы кодирования при этом требуют суще- существенного изменения). Ввиду большой важности сформулированной здесь основной теоремы о кодировании мы приведем ниже два совершенно разных ее доказательства (оба они фактически принадлежат К. Шеннону). Первое из них, по существу, опирается на использование метода кодирования Шен- Шеннона—Фано, хотя, как мы увидим ниже, прямой аппелля- ции к этому методу доказательство не содержит. Предпо- Предположим сначала, что при составляющем основу метода Шен- Шеннона — Фано последовательном делении совокупности кодируемых букв (под которыми могут пониматься также и целые «блоки») на все меньшие и меньшие группы нам каждый раз удается добиться того, чтобы вероятности двух получаемых групп были точно равны между со- собой. В таком случае после первого деления мы придем к группам, имеющим суммарную вероятность 1/2, после второго — к группам суммарной вероятности 1/4,..., после Z-ro деления — к группам суммарной вероятности 1/2'. При этом Z-значное кодовое обозначение будут иметь те буквы, которые оказываются выделенными в группу из одного элемента ровно после I делений, т. е. буквы, вероят- вероятность которых равна 1/2*; иначе говоря, при выполнении этого условия длина lt кодового обозначения будет связана с вероятностью pt соответствующей буквы формулой Pi = -ir. /г = log— = - logp^
§ 2J КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 213 На самом деле, наше условие может быть точно выпол- выполнено лишь в некоторых исключительных слу- случаях: из последних формул сразу следует, что вероят- вероятности pi всех букв алфавита здесь должны равняться еди- единице, деленной на целую степень числа 2. В общем же случае величина— log pi7 где pt — вероятность г-й буквы алфавита, как правило, целым числом не будет; поэтому длина lt кодового обозначения i-й буквы не сможет быть равна — log pi. Поскольку, однако, при кодировании по методу Шеннона — Фано мы последовательно делим наш алфавит на группы по возможности близкой суммарной вероятности, то длина кодового обозначения i-й буквы при таком кодировании будет близка к —log р{. Обозначим, в зтой связи, через /,- первое целое число, не меньшее чем —logpt, т. е. такое, что lt < — logpi + 1. (А) Последнее неравенство можно переписать еще так: - /, < logp, <-(/,- 1), нлн ±<фг. (Б) Докажем теперь, что существует такой метод коди- кодирования, при котором длина кодового обозначения i-й бук- буквы точно равна этому числу lt; только этот факт (а не опи- описание соответствующего метода кодирования г)) понадо- понадобится нам для доказательства основной теоремы. Покажем прежде всего, что в случае любых п чисел lt1 12, ..., 1п, удовлетворяющих неравенству существует двоичный код, для которого эти числа являются длинами кодовых обозначений, сопоставляемых п буквам некоторого алфавита. В самом деле, пусть пх — число тех из чисел 1и 12, ..., 1п, которые равны 1; п2 — число тех х) О нем см. текст, напечатанный мелким шрифтом на стр. 231 и след.
214 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV из них, которые равны 2; ... ; наконец, nk —число тех из этих чисел, которые равны к (где п± + пг-\- ... + пп — п, так что к — это значение наибольших из чисел ^и hi •••» ^п)« В таком случае неравенство A) можно пере- переписать в виде откуда сразу следует, что ¦у- «S^ 1 или пх ^ 2; -|-<1--5- или и,<2B-в,); i-<l _•*—*- или л, < 2 [4 - + 2*-% + • • • + л*-01 (ср. выше, стр. 181—182). Но ясно, что условие /ij <! 2 га- гарантирует возможность выбрать % различных кодовых обозначений длины 1. Аналогично этому неравенство па^ ^ 2 B — /ij) указывает на возможность выбрать допол- дополнительно «а кодовых обозначений длины 2, начинающихся с двоичных цифр, отличных от тех, которые уже «заняты» кодовыми обозначениями длины 1; ведь число таких «сво- «свободных» начальных цифр равно 2 — «x и к каждой из них можно приписать в конце или цифру 0, или цифру 1. Точно так же неравенство па <] 2 [4 — B/^ + пгI га- гарантирует возможность выбирать п3 кодовых обозначений длины 3, первая цифра которых отлична от nt цифр, «за- «занятых» кодовыми обозначениями длины 1, а первые две цифры — от п2 двузначных чисел, «занятых» кодовыми обозначениями длины 2 (так как 2nt + n% — это число двузначных двоичных чисел, или начинающихся одной из «1 цифр, являющихся кодовыми обозначениями длины 1, или же совпадающих с одним из п2 обозначений длины 2, а 4 — это число всех возможных двузначных двоичных чисел, с которых в принципе может начинаться кодовое
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 215 обозначение длины 3). Последнее рассуждение может быть продолжено и дальше; при этом неравенство пк относящееся к числу пк, обеспечивает возможность выбо- выбора пн кодовых обозначений длины к, первая цифра кото- которых не совпадает ни с одним из пг кодовых обозначений длины 1, первые две цифры не совпадают ни с одним' из п2 кодовых обозначений длины 2, первые три цифры не сов- совпадают на с одним из па кодовых обозначений длины 3 и т. д., так что из 2К~1 в принципе возможных начальных комбинаций к — 1 двоичных цифр 2k~a/ix + 2k~sn2 + ... ... + %_! комбинаций являются «занятыми» (ср. выше, стр. 181—-182). В результате как раз и получается резуль- результат, согласно которому выполнение неравенства A) гарантирует возможность выбора п кодовых обозначений длин Zlt Z2, ..., ln, удовлетворяющих условию, напечатан- напечатанному на стр. 188 курсивом; эти-то обозначения мы и можем сопоставить имеющимся п буквам алфавита. Для завершения доказательства существования тре- требуемого кода нам остается только заметить, что в силу неравенства (Б), определяющего длины lt кодовых обоз- чений, —j-<^ Pi при всех i = 1, 2, ..., л, где pt — ве- вероятность t-й буквы алфавита. Таким образом, <2 Z 2 п поэтому числа lt действительно удовлетворяют неравен- неравенству A), нужному для того, чтобы они могли быть длинами кодовых обозначений двоичного кода. Теперь уже совсем легко доказать основную теорему о кодировании. В самом деле, среднее число I двоичных сигналов, приходящихся на одну букву исходного сооб- сообщения (иначе говоря, средняя длина кодового обозна- обозначения), по определению, дается суммой 1 = Р\к + P*h + - + PJn- Умножим теперь задающее величину It неравенство (А) на Pi, сложим все полученные таким образом неравенства,
216 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV отвечающие значениям i = 1, 2, ..., п, и учтем, что н = — где Н = Н (а) — энтропия опыта а, состоящего в опре- определении одной буквы сообщения, и что рг + р2 + ... ... -\-рп = 1. В результате получаем, что Применим это неравенство к случаю, когда описанный выше метод используется для кодирования всевозможных N- буквенных блоков (которые можно считать «буквами» нового алфавита). В силу предположения о не- независимости последовательных букв сообщения энтропия опыта c^cta ... алг, состеящего в определении всех букв блока, равна Н (aia2 ... aN) = Н Ю + Н (а2) + ... +# (aN) = = NH (а) = NH. Следовательно, средняя длина In кодового обозначения .Л^-буквенного блока удовлетворяет неравенствам Но при кодировании сразу iV-буквенных блоков среднее число I двоичных элементарных сигналов, приходящихся на одну букву сообщения, будет равно средней длине for кодового обозначения одного блока, деленной на число N букв в блоке: 1 — N • Поэтому при таком кодировании т. е. здесь среднее число элементарных сигналов, прихо- приходящихся на одну букву, отличается от минимального зна- значения Н не больше, чем на -щ. Полагая N -> сю, мы сразу приходим к основной теореме о кодировании. Прежде чем идти дальше, отметим, что приведенное здесь доказательство может быть применено также и к
i 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 217 более общему случаю, когда последовательные буквы текста являются взаимно зависимыми. При этом придется только неравенство для величины lN пи- писать в виде #(ЛГ) < In < #(ЛГ) + 1» где Н(Ю = я Ка2аз ... aN) = Н К) + #«, (а2) + — энтропия ./V-буквенного блока, которая в случае за- зависимости букв сообщения друг от друга всегда будет меньше чем NH (ибо Н (аг) = Н и Н (ах) > На1 (аг) > >#aias (аз) > • •. > ^о,ог — ojv.j («лг)). Отсюда следует, что , 1 где Z есть среднее число элементарных сигналов, приходя- приходящихся на одну букву сообщения, и, значит, в этом более общем случае при N -> оо (при безграничном увеличении длины блоков) среднее число элементарных сигналов, за- затрачиваемых на передачу одной буквы1 неограниченно при- приближается к величине //«, где #«, = lim —дг- N—со /V есть «удельная энтропия», приходящаяся на одну букву многобуквенного текста (об этой последней величине мы еще будем подробнее говорить в следующем параграфе) х). Перейдем теперь ко второму доказательству на- нашей основной теоремы о кодировании; последовательные буквы сообщения мы при этом снова будем считать вза- взаимно независимыми. Доказательство, которое будет дано ниже, является несколько более длинным, чем первое, но *) Существование предела Яот сразу следует из неравенств Н(at) > Яа(а2) > ЯО1(Х2(а3) > ..., показывающих, что после- п\ ЯB) Я(8) HiN) довательность H(a)—Hw, —х—, ¦ „ , »¦», —^=—,..«'является монотонно невозрастаю щей последовательностью положительных (т. е. больших нуля) чисел.
218 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV зато оно более поучительно, так как хорошо поясняет смысл самого понятия энтропии (см. выше, стр. 82—83). Кроме того, это новое доказательство покажет нам, что даже и в случае резко отличающихся вероятностей раз- различных букв при кодировании очень длинных блоков все равно можно пользоваться «почти равномерным» кодом, сопоставляющим всем блокам, кроме некоторой части их, имеющей ничтожно малую суммарную вероятность, ко- кодовые обозначения одинаковой длины. Что же касается последних «маловероятных» блоков, то легко понять, что их мы можем кодировать уже почти «как попало»: так как вероятность появления какого-либо из них очень мала, то метод кодирования этих блоков не будет играть существенной роли. Для большей наглядности мы начнем наше доказатель- доказательство с подробного рассмотрения простейшего случая, когда весь «алфавит» состоит всего из двух букв а и б, имеющих вероятности рх =¦ р и р2 — 1 — Р == G« Будем кодировать всевозможные цепочки («блоки»), состоящие из N после- последовательных букв а и б. Общее число различных таких iV-членных цепочек будет равно 2N (ср. стр. 82). Одна- Однако большинство из этих N-члепшых цепочек будут иметь ничтожную вероятность: так как относительная часто- частота появления двух букв рассматриваемого «алфавита» равна р и д, то при достаточно большом N заметную вероятность будет иметь лишь совокупность тех цепочек, в которых из общего числа N букв примерно Np раз встре- встречается буква а, а остальные примерно N — Np — Nq раз —буква б. Выражаясь точнее, можно сказать, что при очень большом N все цепочки, в которых относительная частота появления буквы а не заключена в пределах между р — б и р + е, где е — произвольно выбранное очень маленькое число (например, 0,001 или 0,0001, или 0,000001; за б можно принять любое из этих чисел и даже любое еще меньшее число, если только N будет достаточно велико), имеют крайне малую суммарную вероятность, так что их можно вообще не принимать в рас- расчет. Что же касается цепочек, в которых буква а встре- встречается от N (р — б) до N (р + е) раз, то каждая такая цепочка в отдельности также, разумеется, будет очень маловероятной (при большом N общее число возможных цепочек очень велико, а вероятность каждой из них в от-
S 21 КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 219 дельности очень мала), но суммарная вероятность всех этих цепочек будет весьма близка к 1. Заметим теперь, что число Л^-буквенных цепочек, в которых буква а встречается ровно Np раз *), равно числу Cnp сочетаний из N элементов по Np. Поэтому нам надлежит теперь оценить величину Су (см. сноску х)) в зависимости от N и К. Для того чтобы идея приведенного ниже рассуждения стала более ясной, напомним сначала (не нужный нам для дальнейшего!) вывод формулы для числа С§- Предположим, что мы имеем N (бумажных) жетонов и N различных красок, которыми мы хотим окрасить эти жетоны — каждый своей краской. Так как первый жетон мы можем окрасить любой из имеющихся Л'" красок, второй — любой из N — 1 оставшихся, третий — любой из неиспользованных ранее N — 2 красок и т. д., наконец, последний жетон — единственной оставшейся в нашем распоряжении краской, то общее число возможных окрасок жетонов равно N-(N -1)- (N -2). (iV-3).....l - №. Назовем теперь какие-то К красок «первыми», а остав- шие N — К красок — «вторыми»; далее выберем какие-то К жетонов, которые мы будем считать «первыми» (а прочие N — К жетонов —«вторыми»). В таком случае мы будем иметь К\ способов окраски К «первых» жетонов К «пер- «первыми» красками и {N — К)[ способов окраски оставшихся N— К жетонов N — К «вторыми»»красками. Комбини- Комбинируя дкбор из К\ способов окраски К «первых» жетонов с любым из (N — К)\ способов окраски оставшихся жето- жетонов, мы получим всего К1- (N — К)\ способов окраски N жетонов, при которых «первыми» К красками окрашены выбранные К «первых» жетонов. А так как, кроме того, К «первых» жетонов можно выбрать из общего числа N жетонов CJy способами, то общее число *) Если Np не целое, то это число мы заменим ближай- ближайшим целым числом К: при большом iV различие между Np и К будет весьма малоощутимым. Аналогичное замечание можно сделать и относительно числа Ne.
220 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ 1Гл, IV различных окрасок должно быть равным С%Ю. (N - К)\. Следовательно, N\ = С%К\ (N — К)\, откуда и следует искомая формула гк _ /VI ,%Л Ojv~ Kl(N — K)\ ' * > Хорошо известная формула (*) дает точное выражение для числа С% через числа N и К; однако при большом N (а ведь нас в дальнейшем только и будет интересовать слу- случай большого N) она малоудобна. В самом деле, N\ есть произведение ^различных множителей; оценить его величину при большом N совсем пе просто. Поэтому в дальнейшем мы будем пользоваться не этой формулой, а приближенной оценкой для величины С^, отличающейся от правой части формулы (*) главным образом тем, что в ней будут фигурировать степени чисел N, К и N — К, которые легко оценить с помощью логарифмиро- логарифмирования. Вот как получается эта оценка числа С%. Рассмотрим ту же задачу об окрашивании N жетонов N красками, которая использовалась для вывода формулы (*); только теперь мы откажемся от условия, чтобы каж- каждый жетон был обязательно окрашен своей краской. В та- таком случае первый жетон мы по-прежнему сможем окра- окрасить любой из N красок; однако также и второй, и тре- третий, ..., и последний жетон мы также сможем покрасить любой из iV красок, так что общее число возможных раскра- раскрасок будет в этом случае равно N ¦ N ¦ . . N = NN. N сомножителей Если теперь мы снова выберем какие-то К «первых» кра- красок и К «первых» жетонов, то эти К жетонов К красками можно будет окрасить Кк способами; оставшиеся же N — К жетонов можно будет (N — K)N~K способами окра- окрасить N — К «вторыми» красками. Комбинируя каждую из возможных Кк окрасок «первых» жетонов с каждой из (N — K)N~K окрасок оставшихся жетонов, мы получим
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 221 всего KK.(N-Kf~K различных способов окраски всех N жетонов. Это послед- последнее число надо еще умножить на Cjv поскольку С$> равно числу способов, каким можно выбрать К «первых» жето- жетонов из общего числа N жетонов. Заметим теперь, что получившееся число $K(N — Kf~K не равно общему числу NN возможных окрасок N же- жетонов, а меньше этого числа: в самом деле, Cjv -KKX X (N—K)N~K — это число таких окрасок, в которых К «первых» красок используются ровно К раз (а ведь суще- существуют и окраски, в которых эти К красок, например, используются N раз или не используются вовсе!). Таким образом, окончательно получаем откуда и следует нужная нам оценка величины С'§•! Заменим теперь в неравенстве (**) К на Np; при этом N — К обратится в N — Np = N A — р) = Nq. По- зтому для числа С^р «наиболее вероятных» N буквенных цепочек, т. е. таких, в которых буква а встречается ровно Np раз (а буква б — оставшиеся Nq раз), мы получаем оценку N N Примерно, столько же будет цепочек, в которых буква а встречается Np + 1» Np + 2, ..., Np + Ne раз или же Np — 1, Np — 2, ..., Np — iVe раз (так как во всех этих случаях отклонение частоты появления буквы а от той,
222 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV для которой мы производили наш расчет, будет очень не- небольшим). Поэтому, не делая большой ошибки, можно считать, что общее число «вероятных» цепочек (т. е. таких цепочек, что все остальные цепочки вместе взятые имеют ничтожно малую вероятность, которой можно пренебречь) не превосходит значения где е — некоторое малое число. Воспользуемся теперь для кодирования наших М\ (или менее Afj) «вероятных» цепочек наилучшим равномерным кодом х). Так как число таких цепочек очень велико, то длина кодового обозначения при этом будет практически совпадать с двоичным логарифмом числа цепочек (ср. стр. 143), т. е. будет не больше чем log Mi = Iog2e + logN — N (plogp + ffbgg). Поэтому среднее число двоичных знаков, приходя- приходящихся на одну букву сообщения, здесь не превосходит вели- величины Iog2e где Н = —р log p — q log q. При N -*¦ со оба члена в предпоследней формуле, сле- следующие за Н, стремятся к нулю (напомним, что отношение -Щ*— = —jt- log -^- неограниченно убывает при возра- возрастании N; см. стр. 72), откуда и вытекает, что ограни- ограничившись одними лишь «вероятными» цепочками, можно сделать среднее число двоичных знаков, приходящихся на одну букву сообщения, сколь угодно близким к Н 2). 1) Отметим, что применение к этим «вероятным» цепочкам неравномерного кода не может дать существенной выгоды, так как вероятности всех таких цепочек сравнительно мало отличаются друг от друга (поскольку относительная частота отдельных букв во всех их примерно одна и та же). s) Меньше Н это число быть не может (см. выше, стр. 200).
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 223 Что же касается оставшихся «маловероятных» цепочек, то если даже мы потратим на кодирование каждой буквы этих цепочек в несколько раз больше чем Н двоичных знаков, то все равно среднее значение числа таких зна- знаков, приходящихся на одну букву сообщения, при этом почти не изменится (так как суммарная вероятность всех таких цепочек ничтожно мала). Поэтому при кодировании фактически надо лишь позаботиться, чтобы ни одно из соответствующих кодовых обозначений не совпало с про- продолжением какого-либо из прочих используемых обозна- обозначений. Для этого можно, например, с самого начала до- добавить единицу к общему числу «вероятных» цепочек (замена М\ на М\ + 1, разумеется, не повлияет на даль- дальнейшие оценки) и воспользоваться тем, что в таком слу- случае мы, наверное, будем иметь по крайней мере одно «незанятое» кодовое обозначение той же длины, что и все обозначения для «вероятных» цепочек. Если теперь мы поместим в начале всех обозначений для «маловероятных» цепочек это «незанятое» кодовое обозначение, то тем са- самым уже будет гарантировано, что ни одно из новых обо- обозначений не будет продолжением одного из старых. Вслед за зтим обозначением мы можем добавить, например, ре- результат применения к «маловероятным» цепочкам какого- либо наиболее экономного равномерного кода, после чего для всех «маловероятных» цепочек окончательно полу- получаются обозначения одной и той же длины, удовлетворяю- удовлетворяющие требуемым условиям. Общий случай n-буквенного алфавита, в котором от- отдельные буквы имеют вероятности pt, рг, ..., рп, где Pi + Pz + -•• + Рп — 1» разбирается почти так же. В слу- случае длинных цепочек из N букв наибольшую вероятность будут иметь цепочки, в которых первая букв а встречается около Npi раз, вторая — около Np2 раз, ..., п~я — около Npn раз. Число цепочек, в которых первая буква встре- встречается ровно Npi раз, вторая — ровно Np% раз, ..., п-я — ровно Npn раз, равно числу разбиений N элементов на п групп, содержащих соответственно Npt, Np2, —, Npn элементов. Рассмотрев теперь задачу об окрашивании N жетонов N красками так, чтобы каждая краска была использована ровно один раз, и разбив краски на п групп, содержащих, соответственно, Npit Np2, ..., Npn красок, мы сможем
224 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV совершенно аналогично выводу формулы (*) доказать, что число таких разбиений N элементов на п групп равно TV! (NPl)\ (Npz)\ . . . (Npn)l (эта формула обобщает обычную формулу для числа со- сочетаний х)). Рассмотрев далее задачу об окрашивании N жетонов N красками (по-прежнему разбитыми на п групп, первая из которых содержит Npi красок, вторая — Np2 красок, ..., последняя — Npn красок), в которой уже не требуется, чтобы каждая краска была использована ровно один раз, мы аналогично выводу неравенства (**) убедимся, что интересующее нас число разбиений N элемен- элементов на п групп меньше величины 1 Применив этот результат к «вероятным» цепочкам, у ко- которых частота появления первой буквы заключена между pt — е и Pi + е, частота появления второй — между р2 — е и р2 + е, ..., частота появления n-й буквы —меж- ДУ Рп — е и Рп + е, получим, что общее число таких це- цепочек, наверное, не превосходит числа 4 9п pnNn П. J. ?t Ki IV Что касается остальных цепочек, у которых частота по- появления хоть одной из букв не укладывается в указанные пределы, то суммарная вероятность всех этих цепочек будет ничтожно мала, так что их можно вовсе не прини- принимать во внимание. Теперь уже совсем легко показать, что закодировав все наши «вероятные» цепочки с помощью наиболее эко- экономного равномерного кода, мы придем к кодовым обоз- обозначениям, длина которых не больше чем NH + nlogN + где Н = —pi log/?! — р2 log рг — ... —pnlogpn. *) Вывод этой формулы имеется также в книге [26], стр. 75.
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 225 Следовательно, среднее число двоичных знаков, требую- требующихся для записи одной буквы, здесь не превосходит тт , log N , n log 2e При JV-^-oo это число стремится к Н, что и дает предель- предельное среднее число двоичных знаков, приходящихся на од- одну букву сообщения при кодировании по такому методу. Это и есть тот результат, который мы стремились доказать. В заключение стоит еще раз подчеркнуть принципи- принципиальную основу приведенного доказательства. Если мы будем рассматривать все цепочки из N букв п-буквенного «алфавита» (или, что то же самое, все цепочки из N по- последовательных исходов многократно повторяющегося опыта, могущего иметь п различных исходов), то общее число различных таких цепочек будет равно Однако вероятность каждой отдельной такой цепочки и да- даже некоторых значительных совокупностей таких цепочек при большом N будет совершенно ничтожной. Нами было доказано, что если мы разрешим исключить из рассмотре- рассмотрения часть наименее вероятных цепочек, но только так, чтобы суммарная вероятность всех отброшенных цепочек была достаточно мала (скажем, не превосходила некото- некоторого заранее выбранного очень малого числа 6), то при любом (сколь угодно малом!) 6 в случае достаточно большого N можно добиться того, чтобы оставшееся число цепочек имело порядок где Н — энтропия 1). Отметим тут же, что поскольку Н меньше, чем log n (за исключением случая равной 1) Выражение «имело порядок» здесь означает, что на самом деле перед 2NH может стоять еще некоторый множитель, пропорци- пропорциональный конечной степени W (т. е. пропорциональный 2AlogJV> где А — фиксированное число); ясно, что при очень большом W этот множитель будет во много раз меньше основного члена 2ЛН и не будет играть существенной роли. Отметим в этой связи, что в приведенном выше выводе мы доказали только, что число 8 А, М. Яглом, И. м. Яглом
226 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV вероятности всех букв или всех исходов), то число на- наших «вероятных» цепочек при очень большом N будет несравненно меньшим общего числа цепочек (отношение 2NH ; 2m°sn = 2-N<logrrt~H) числа «вероятных» цепочек к числу всех цепочек быстро стремится к нулю при N-*- —*¦ оо). Кроме того, мы доказали, что при большом N можно добиться того, чтобы относительные частоты появ- появления отдельных букв в наших «вероятных» цепочках сколь угодно мало отличались от наиболее вероятных частот pi, p2, ..., рп. Так как вероятность той или иной цепочки зависит лишь от количества встречающихся в ней отдельных букв (вероятность цепочки, в которой поршя буква встречается Nt раз, вторая — N2 раз, ..., п-п — яг JVl NZ ^ vi\ J\n раз, равна рх р2 ¦•• Рп )» то отсюда видно, что при большом N можно добиться, чтобы все «вероятные» це- цепочки очень мало отличались по своим вероятностям. Иначе говоря, мы доказали здесь утверждение, выделенное кур- курсивом на стр. 82—83; именно это утверждение и опре- определяет основную роль понятия энтропии в теории коди- кодирования. Ввиду особой важности указанного утверждения имеет смысл задержаться на нем немного больше и привести еще одно простое его доказательство. Выше мы исходили из подсчета общего числа iV-буквенных цепочек, в которых частоты отдельных букв алфавита мало отличаются от соответствующих вероятностей pif p2, ..., рп. При этом было также отмечено, что вероятности всех таких цепочек близки между собой и практически не отличаются от ве- вероятности piPlръ** ... рп п цепочки, в которой Nt = «вероятных» цепочек не превосходит значения Be)nNn.2NH. Легко вонять, однако, что оно во всяком случае не меньше, чем число цепочек, в которых первая буква встречается ровно Np± раз, вто- вторая — ровно Np2 рае, ..., ге-я — ровно Npn раз, а последнее число, как было показано, всегда больше, чем Таким образом, с точностью до множителя порядка конеч- конечной степени N число «вероятных» цепочек действительно совпа- совпадает с 2NB,
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 227 = Npu N2 = Np.it ..., Nn = Npn, т. е. частоты появления каждой из п букв алфавита точно совпадают с вероятно- вероятностями ри р2, ..., рп. Последнюю вероятность, очевидно, можно переписать в виде (так как Я = — pilogpj — p2logp2--...—pnlogpn — это фик- фиксированное конечное число, а N очень велико» то ясно, что 2~HN — зто очень малая вероятность). Заметим теперь, что полученная формула сразу влечет за собой также и нужную нам оценку общего числа различных «вероятных» цепочек. В самом деле, ведь суммарная вероятность всех таких цепочек очень близка к единице (она отличается от единицы лишь на какое-то очень малое число); поскольку вероятность суммы несовместимых событий равна сумме соответствующих вероятностей, ясно, что общее число рассматриваемых цепочек должно бьпь близко к единице, деленной на вероятность отдельной цепочки, т. е. к числу 2PN. Таким образом, интересующее нас утверждение будет доказано, если только мы сможем показать, что из сово- совокупности всех nN цепочек из N букв можно выбросить какую-то совокупность «редких» цепочек (суммарная ве- вероятность которых при достаточно большом N может быть сделана сколь угодно малой) так, чтобы все оставшиеся цепочки имели уже практически одинаковую вероят- вероятность, равную 2~HN. Заметим теперь, что вероятность любой цепочки из N букв n-буквенного алфавита (характеризуемого вероят- вероятностями 1-й, 2-й, ..., ге-й букв, равными соответственно Pit Рг» —i Рп) такой, что эти N букв выбираются после- последовательно одна за другой независимо от ранее выбранных букв, равна произведению pit pit ... piN, где iit ц, ..., iN — номера последовательных букв нашей цепочки. Сле- Следовательно, логарифм этой вероятности равен log Pi, + log ph + \- log plN = log ph + log pit + •»• + log piN = N. Но величины pit, pit, ..., piN все определяются резуль- результатами опытов, состоящих в выборе одной из букв среди п 8*
228 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV букв алфавита; поэтому все они представляют собой слу- случайные величины, могущие принимать п значе- значений log/jj, logp2, ..., logpn с вероятностями, равными, со- соответственно, pi, p2, ..., рп. Применив к такой случайной величине доказанный на стр. 57—59 закон больших чисел, мы найдем, что с вероятностью, которую при достаточно большом N можно считать сколь угодно близкой к едини- единице, среднее арифметическое bg ри + log рп Н Ь log piN _ будет отличаться от cp.3H.logp = p1logp1+ pJogp2 -f ...+pnlogpn = —Я не больше, чем на заданное очень малое число е. Но зто и значит, что из числа всех N-буквенных цепочек можно выбросить какую-то совокупность «редких» цепочек очень малой суммарной вероятности так, чтобы вероятность всех оставшихся цепочек была уже примерно одинаковой и весьма близкой к 2~HN. Последнее утверждение и есть то, которое мы стремились доказать. Остановимся еще вкратце на вопросе о роли предполо- предположения, согласно которому последовательные буквы со- сообщения выбираются каждый раз независимо от всех предшествующих букв. На стр. 216—217 мы уже указы- указывали, что первое из рассматривавшихся доказательств основной теоремы о кодировании на самом деле не зависит от выполнения этого условия, причем в общем случав взаимно зависимых букв значение энтропии Н одной буквы должно быть заменено приходящейся на одну букву удельной энтропией #«, = lim S^l. (где #(N) — энтропия блока из N букв). Исходя отсюда ка- кажется естественным предположить, что и второе доказа- доказательство, в ходе которого существенно использовалось предположение о независимости букв сообщения, на самом деле должно быть применимо и к общему случаю сообщений со взаимно зависимыми буквами. Иначе говоря, можно думать, что и в случае сообщений, буквы которых зависят друг от друга, среди всех цепочек из N букв, где N доста- достаточно велико, также можно выделить совокупность «ве- «вероятных» цепочек, суммарная вероятность которых будет
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 229 лишь очень мало отличаться от единицы, причем число этих вероятных цепочек будет иметь порядок 2HcoN яг; 2H<N), a вероятность каждый из них будет близка к 2~Ha>Nx2~H^NK Выделенное курсивом утверждение играет в теории ин- информации очень важную роль; однако его доказательство не очень просто, и, кроме того, оно вообще не может быть получено для всех без исключения случаев, а требует, чтобы распределения вероятностей для последователь- последовательных букв сообщения удовлетворяли бы некоторым до- дополнительным условиям (весьма общим и на практике всегда выполняющимся, но не могущим даже быть сфор- сформулированными без привлечения ряда совсем новых тео- теоретико-вероятностных понятий). Отметим еще, что сами эти условия могут выбираться по-разному; так, для од- одних таких условий сделанное выше утверждение было до- доказано еще Шенноном ([1], теорема 3), в то время как позже совсем другие очень общие условия его справедли- справедливости были указаны Б. Макмилланом [64]. Мы здесь не будем более подробно задерживаться на этом вопросе, а ограничимся лишь ссылкой на книги [5] — [7] и [22], в которых он разбирается во всех деталях. Все предыдущее содержание этого параграфа легко переносится также и на случай m-ичных кодов, исполь- использующих т элементарных сигналов. Так, например, для построения тп-ичных кодов Шеннона — Фано надо лишь разбивать группы символов не на две, а на т частей по воз- возможности близкой вероятности, а для построения т-ично- го кода Хафмана надо использовать операцию сжатия алфавита, при которой каждый раз сливаются не две, а т букв исходного алфавита, имеющих наименьшие ве- вероятности. Ввиду важности кодов Хафмана, остановимся на последнем вопросе чуть подробнее. Сжатие алфавита, при котором т букв заменяются на одну, приводит к уменьшению числа букв на т — 1; так как для построе- построения m-ичного кода, очевидно, требуется, чтобы последо- последовательность «сжатий» в конце концов привела нас к ал- алфавиту из т букв (сопоставляемых т сигналам кода), то необходимо, чтобы число п букв первоначального ал- алфавита было представимо в виде п = т + к (т — 1), где к — целое число. Этого, однако, всегда можно добиться, добавив, если нужно, к первоначальному алфавиту еще
230 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV несколько «фиктивных букв», вероятности которых счита- считаются равными нулю. После этого построение m-ичного кода Хафмана и доказательство его оптимальности (среди всех тге-ичных кодов) проводятся уже точно так же, как и в случае двоичного кода. Так, например, в случае уже рас- рассматривавшегося выше алфавита из 6 букв, имеющих вероятности 0,4, 0,2, 0,2, 0,1, 0,05 и 0,05 для построения троичного кода Хафмана, надо присоединить к на- нашему алфавиту еще одну фиктивную букву нулевой ве- вероятности и далее поступать так, как указано ниже: буквы 1 2 3 4 5 6 7 вероятности исходный алфавит 0,4 02 0,2 0,1 0,05 0,05 0 0 2 10 11 1201 121 L- _г и кодовые обозначения 0,4 02 0,2 0,1 -01 сжатые 0 2 10] 11 «- 12 J алфавиты 0,4 pi 0 1 2 Столь же просто переносятся на случай т-ичных ко- кодов и оба приведенных выше доказательства основной теоремы о кодировании. В частности, соответствующее видоизменение первого доказательства основывается на том факте, что любые п чисел lit /2, ..., 1п, удовлетворяющих неравенству V + + +<1 B) являются длинами кодовых обозначений некоторого т-ичного кода для п-буквенного алфавита. Доказательство этого факта точно повторяет рассуждения, приведенные на стр. 213—215 для случая т = 2; поэтому на нем здесь можно не задерживаться. Используя неравенство B) так же, как на стр. 215—216 использовалось неравенство A), легко получить следующий результат (называемый основ- основной теоремой о кодировании для m-ичных кодов); при любом методе кодирования,
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 231 использующем т-ичный код, среднее число элементарных сигналов, приходящихся на одну букву сообщения, никогда не может быть меньше отношения -j—— (где Н — энтро- энтропия одной буквы сообщения); однако оно всегда может быть сделано сколь угодно близким к этой величине, если коди- кодировать сразу достаточно длинные «блоки» из N букв. Отсю- Отсюда ясно, что если по линии связи за единицу времени мож- можно передать L элементарных сигналов (принимающих т различных значений), то скорость передачи сообщений по такой линии не может быть большей, чем L log т , , „ —^— букв/ед. времени; однако передача со скоростью, сколь угодно близкой к v (но меньшей v\), уже является возможной. Величина С = /'log m, стоящая в числителе выражения для v, зависит лишь от самой линии связи (в то время как знаменатель Н харак- характеризует передаваемое сообщение). Эта величина указы- указывает наибольшее количество единиц информации, которое можно передать по нашей линии за единицу времени (ибо один элементарный сигнал, как мы знаем, может содер- содержать самое большее log m единиц информации); она назы- называется пропускной способностью линии связи. Понятие пропускной способности играет важную роль в теории связи; мы к нему еще вернемся в дальней- дальнейшем (см. стр. 312—320 и § 4 этой главы). Сделаем еще одно замечание по поводу приведенного на стр. 212 и след. первого доказательства основной теоремы о кодирова- кодировании. Центральную роль в этом доказательстве играл факт сущест- существования двоичного кода, в котором длина Ц кодового обозначения г-й буквы удовлетворяет неравенствам — bg Pi < U < — log pi + 1 (А) или, что то же самое, <<jpt- (Б) В случае произвольного m-ичного кода эти неравенства принима- принимают вид log P{ log Pi
232 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV или, что то же самое, Выше мы доказали существование такого двоичного кода, опираясь на неравенство A) на стр. 213, но не выписывая явным обравом сами кодовые обозначения; в случае m-ичного кода совершенна также может быть использовано неравенство B) на стр. 230. Сей- Сейчас мы опишем один метод построения самого соответствующего кода; при этом, для простоты, мы ограничимся случаем десятичного кода, сопоставляющего каждой из п букв алфавита какую-то по- последовательность цифр 0, 1, . . ., 9*). Для такого десятичного кода неравенства (А') и (Б'), очевидно, принимают вид (логарифмы — десятичные!) и Располояшм все буквы «алфавита» в порядке убывания их ве- вероятностей:! рг > р2 ^ р8 ^ . . . ^ рп. Среди этих вероятностей, разумеется, могут встречаться и одинаковые; поэтому вероятность сама по себе не может однозначно характеризовать соответствующей буквы. Если, однако, мы составим суммы: Рх =0, Р2 — pt, Pa — Pi+ Pi, Pi = Pi + Pa + Ps» » • • * • ¦ . Pn = Pi- + Pa + « * • + Pn-n то эти суммы будут уже все различны; таким образом, п ч и с е л Pit Pz> • • •> Рп можно рассматривать как своеобразный «алфавит», однозначно соответствующий исходному алфавиту из п б у к в. Нам надо теперь только закодировать этот новый «алфавит», т. е. сопо- сопоставить каждому из п чисел Р\ определенную последовательность элементарных сигналов (или цифр) — этим одновременно будет ре- решена и задача кодирования первоначального алфавита. Нетрудно укавать путь решения этой вадачи. Представим каждое ив (меньших единицы!) чисел Р\ в виде (вообще говоря, *) Общий случай будет отличаться от этого, в основном, тем, что там нам придется разлагать фигурирующие ниже числа Р^ в (бесконечные) т-ичные дроби, т. е, представлять каждое число Pj в виде суммы а» где все «цифры» aj, с2,..., а^,. * . в записи этой дроби принимают какие-то из значений 0, 1, 4 . ., т — 1. Мы рекомендуем читателю самостоятельно продумать соответствующее построение.
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 233 бесконечной) десятичной дроби: Pi = 0,а1а2аа * . • efc . . ,, где Oj, а2, а3, . . . — какие-то цифры (если Р{ выражается в виде конечной десятичной дроби, то все цифры а%, начиная с не- некоторой, будут равны 0). Тем самым каждому Р% сопоставляется бесконечная последовательность axa2as . . . цифр (т. е. элементар- элементарных сигналов); при этом полученные таким образом п последова- последовательностей цифр будут, разумеется, все различны, ибо никакие два числа Рг не равны между собой. Заметим теперь, что различие между последовательностями а1а^а3 ... не может проявляться лишь в очень далеких от начала цифрах. В самом дела, поскольку pi+i - pi = Pi> pi+z -Pi= то в силу неравенств (Б") все числа Pi+V ^+2> • • ч^п отличаются от числа Pi по меньше, чем на ; поэтому разложения всех этих чисел в десятичную дробь отличаются от десятичной дроби, выражающей число Pi, не позже чем п /j-й цифре: все десятичные дроби ?"i+1, Pi+2' • • Ш1рп огпличаются от десятичной дроби Р\ хоть е одной из первых 1г цифр. Поэтому, если мы оставим в отвечающей Pi (где i =1, 2, . . ., п) десятичной дроби лишь первые Zj цифр, то мы получим п (конечных!) десятичных дробей, которые все раз- различны и ни одна из которых не является началом другой. Соответ- Соответствующие п последовательностей <2iO2°3 . . . ац цифр (сопоставляе- (сопоставляемые п буквам первоначального алфавита) и образуют требуемый десятичый код. Выше уже указывалось, что любые п чисел llt l2, . . , 1п, удовлетворяющие неравенству + ^ + +^1 B) являются длинами кодовых обозначений для некоторого т-ичного кода, сопоставляющего п буквам алфавита п последовательностей элементарных сигналов, принимающих т возможных значений. Про- Проведя соответствующие рассуждения в обратном порядке, нетрудно доказать и что длины Ц, h, . . ., ln кодовых обозначений любого т-ичного кода для п-буквенного алфавита обязательно удовлетворяют неравенству B) — фактически это было уже установлено в конце предыдущей главы (см. стр. 181—182), правда, без использования принятых в этой главе терминов. Таким образом, выполнение неравен' ства B) к е о б х о д и м о и достаточно для того, чтобы числа li, 1ц, , . ., 1п могли являться длинами кодовых обозначений некоторого т-ичного кода. Это утверждение впервые было доказано в 1949 г. американский ученым Л. К р афтой в его неопубли- неопубликованной диссертации (см., например, книги [6] в [20]), а позже
234 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV было еще обобщено Б. Макмилланом [65]; поэтому неравен- неравенство B) часто называют неравенством Крафта или н о- равепством Макмиллана. Обобщение Макмиллана свя- связано с тем обстоятельством, что до сих пор мы рассматривали толь- только коды, удовлетворяющие общему условию, выделенному курси- курсивом на стр. 188 (и названные мгновенными или мгновен- мгновенно декодируемыми в подстрочном примечании на той же странице); только к этим кодам и относились все приведенные вы- выше рассуждения. Макмидлан доказал, однако, что условие B) необ- необходимо и достаточно также и для существования однозначно деко- декодируемого (но не обязательно мгновенного!) т-ичного кода с дли- длинами кодовых обозначений, равными llt h, ¦ . ., ln. Так как любой мгновенный код одновременно является и одпозначно декодируе- декодируемым, то доказательства, очевидно, требует только необходи- необходимость указанного неравенства для однозначно декодируемых кодов, т. е. тот факт, что в случае любого однозначно декодируемого wi-ичного кода для n-буквенного алфавита длины lit h, . . ., ln кодовых обозначений обязательно удовлетворяют неравенству B). Это последнее утверждение наиболее просто было доказано Дж. К а р у ш е м [66], которому мы и будем следовать в нашем изло- изложении. Обозначим сумму -j- + —^ + ... + —р-,, где llt l2, . . .,1п ni — длины кодовых обозначений некоторого однозначно декодируе- декодируемого то-ичного кода, сопоставляемых п буквам алфавита, через А и образуем выражение t раз Раскрыв в последнем произведении скобки, мы получим сумму п* слагаемых вида ^^ где каждый показатель степени N равен ка- какой-то сумме вида lit + Jla+ • • • + ht (номера iu h, . . ., it здесь принимают значения 1,2,..., п, причем они, разумеется, не дол- должны быть все различными). Если предположить, что длины п кодовых обозначений для однозначно декодируемого т-ичного кода упорядочены так, что 1 < 1± < 12 < . . . < 1„, то для каждой суммы п 1 + \
2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 235 будет справедливо двойное неравенство t < n < ап (ясно, что N = t, если /{> = l{s = , , , = Ц( = 1, и N = tln, если l^ = Iia =з , , , = /i{ = ln). Обозначим теперь число'различных сумм lit + 11г + . .» + ht, принимающих значение N, через KN. Тогда легко видеть, что, раскрыв скобки в выражении At, мы получим (где, вообще говоря, некоторые из коэффициентов Kt, Ki+i, . . . .... Ktin будут равны нулю). Заметим теперь, что число KN различных сумм lit + 1^ + . . + ?iit принимающих значение N, равно чис- числу разных f-буквенных слов bi,fcis. . - ht (где Ь±, fc2, *» ,,Ь„ —• буквы нашего алфавита), кодируемых последовательностями пв ЛГ влементарных сигналов. Так как рассматриваемый кед является •)дновначно декодируемым, то ясно, что действительно, mN — это общее число различных последователь- последовательностей из N сигналов, каждый из которых может принимать одно из т значений, а если бы какие-то два равных слова кодировались бы одинаковыми последовательностями элементарных сигналов, то ото значило бы, что код не является однозначно декодируемым. Поэтому при любом (натуральном) * А отсюда ужо и следует, что А <1 (т, е. что справедливо неравенство BI): в самом деле, при любом А > 1 величина А1 росла бы при возрастании t быстрее, чем ct, где с —1 какое угодно фиксированное число 1) (например, число 1п), и поэтому при достаточно большом ( обязательно выполнялось бы неравенство А* > lnt. 1\ Обозначим 1/; через р', тогда log (Л') = tlogA =—-—, a log (ct) — log с + log t — log с — log p. Ясно, что при малом р \t. e. при большом it) первое из этих чисел гораздо больше второго, пбв logo _ постоянное (не зависящее от р) число, log А >0 (так losr A 1 как А > 1), а отношение (<— log р): —-— = , А (— р log p) стремится к нулю при р -» 0 (cp.J стр. 72),
236 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV Из того, что и для мгновенных и для любых однозначно деко- декодируемых кодов необходимое и достаточное условие существования кода с кодовыми обозначениями данных длин llt l«, • • ,,1п имеет один и тот же вид B), следует, что для любого овноаначно декодируемого т-ичного кода существует мгновенный код с кодовыми обозначениями букв, имеющими те же длины, что и в случае исходного однозначно декодируемого кода. А отсюда, в свою очередь, в частности выте- вытекает, что коды Хафмана являются оптимальными (т. е. имеющими наименьшую среднюю длину кодового обозначения одной буквы) не только среди всех мгновенных кодов (а именно это и было нами доказано на стр. 209—211; ср. также стр. 230), но и среди всех вооб- вообще однозначно декодируемых кодов. § 3. Энтропия и информация конкретных типов сообщении В предыдущих двух параграфах мы занимались вопро- вопросом о кодировании и передаче абстрактных «сообщений», записанных на некотором «языке», «алфавит» которого содержит п «букв». Здесь мы скажем о тех выводах, ко- которые можно сделать отсюда в применении к конкретным типам сообщений — в первую очередь к сообщениям на русском языке или на каком-либо из иностранных язы- языков (см. также 167], [68]). Письменная речь Основной результат § 1 этой главы состоял в том, что для передачи Л/-буквенного сообщения (где М считается достаточно большим) по линии связи, допускающей т различных элементарных сигналов, требуется затратить М log П е не меньше чем -j—-—сигналов, где п — число букв «ал- log m фавита», с помощью которого записано сообщение; при этом существуют методы кодирования, позволяющие сколь угодно близко подойти к границе-т-^-^. Так как русский «телеграфный» алфавит содержит 32 буквы (мы здесь не различаем букв е и ё, ъ ш ъ, которые в большинстве теле- телеграфных кодов передаются одной и той же комбинацией элементарных сигналов, но причисляем к числу букв и «нулевую букву» — пустой промежуток между словами), то согласно этому результату на передачу М-буквеи- ного сообщения надо затратить -Л/-^— = М-т " -
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 237 элементарных сигналов. Здесь #0 = log 32 =- 5 бит — энтропия опыта, заключающегося в приеме одной буквы русского текста (информация, содержащаяся в одной бук- букве), при условии, что все буквы считаются одинаково вероятными. На самом деле, однако, появление в сообщении на русском языке разных букв совсем не одинаково вероятно. Так, например, в любом тексте буквы о и е встречаются много чаще, чем буквы ф или щ; поскольку средняя длина слова в русском языке значительно меньше 31 буквы, то вероятность появления пробела («нулевой буквы») на много превосходит значение 1/32, которое мы имели бы,- если бы все 32 буквы были равновероятны. Поэтому ин- информация, содержащаяся в одной букве любого осмыслен- осмысленного русского текста, всегда меньше, чем log 32 = 5 бит. Отсюда ясно, что для получения текста, в котором каж- каждая буква содержит 5 бит информации, пельзя просто взять отрывок из какой-либо русской книги; для этого требуется выписать 32 буквы на отдельных билетиках, сло- сложить все эти билетики в урну и затем вытаскивать их по одному, каждый раз записывая вытянутую букву, а би- билетик возвращая обратно в урну и снова перемешивая ее содержимое. Произведя такой опыт, мы придем к «фразе» вроде следующей: СУХЕРРОБЬДЩ ЯЫХВЩИЮАЙЖТЛФВНЗАГФОЕН- ВШТЦР ПХГБКУЧТЗКЮРЯПЧЬКЙХРЫС Разумеется, этот текст, хоть он и составлен из русских букв, имеет очень мало общего с русским языком! Для более точного вычисления информации, содержа- содержащейся в одной букве русского текста, надо знать веро- вероятности появления различных букв. Эти вероятности можно приближенно определить, взяв достаточно большой отрывок, написанный по-русски, и рассчитав для него относительные частоты отдельных букв. Строго говоря, эти частоты могут несколько зависеть от характера тек- текста (например, в учебнике по высшей математике частота обычно очень редкой буквы ф будет заметно выше средней из-за частого повторения слов «функция», «дифференциал»»
238 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV «коэффициент» и некоторых других; еще больше отклоне- отклонения от нормы в частоте употребления отдельных букв можно наблюдать в некоторых художественных произве- произведениях, особенно в стихах1)); поэтому для надежного определения «средней частоты» буквы желательно иметь набор различных текстов, заимствованных из различных источников. Как правило, однако, подобные отклонения будут все же сравнительно небольшими и в первом прибли- приближении ими можно пренебречь. Ориентировочные значе- значения частот отдельных букв русского языка собраны в сле- следующей таблице (ср. А. А. Харкевич [69], Д. С. Л е- бедевиВ. А. Гармаш [70]; тире здесь означает про- пробел между словами): буква относ, частота буква относ, частота буква относ, частота буква относ, частота 0,175 0,040 0,018 0,009 о 0,090 с 0,038 ы 0,016 ж 0,007 е,е 0,072 0,035 0,016 ю 0,006 0,062 0,028 ь, ъ 0,014 ш 0,006 0,062 м 0,026 б 0,014 Ч 0,004 т 0,053 а 0,025 0,013 щ 0,003 0,053 0,023 0,012 0?003 0,045 0,021 й 0,010 Ф 0,002 Приравняв эти частоты вероятностям появления соответ- соответствующих букв, получим для энтропии одной буквы рус- русского текста приближенное значение 2): Hi = Н {ад = — 0,175-log 0,175—0,090-log 0,90— -0,072 • log 0,072 - ... - 0,002 • log 0,002 ^ 4,35 бит. г) В качестве примера здесь можно назвать, скажем, некогда знаменитое стихотворение К. Д. Бальмонта «Камыши» (Полноч- (Полночной порою в болотной глумш/9уть слышно, бесшумно шуршат камыши...), все построенное на обыгрывании шипящих ввуков ч и ш. Другие, еще гораздо более выразительные примеры того же рода, заимствованные из пемецкой, английской и португаль- португальской художественной литературы, читатель может найти в гл. 3 книги [3]. 2) Так как значения частот отдельных букв в отрывке, содер- содержащем конечное число N букв, не совпадают точно с соответству- соответствующими вероятностями, то ясно, что значение энтропии, получаю- получающееся при замене вероятностей частотами, не будет точным. Воп- Вопросу о степени точности получаемых таким образом значений эн- энтропии и о поправках, которые целесообразно вводить в них при недостаточно большом N, посвящена статья Г. П. Б а ш а р и- н а [71]; те же поправки рассматриваются и в статье Дж. М и п- Л е р a (G, A, Miller) в сборнике [46], стр. 95—1G0,
§3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 239 Из сравнения этого значения с величиной Но — = log 32 = 5 бит видно, что неравномерность появления различных букв алфавита приводит к уменьшению ин- информации, содержащейся в одной букве русского текста, примерно на 0,65 бит. Воспользовавшись этим обстоятельством, можно уменьшить число элементарных сигналов, необходимых для передачи М-буквенного сообщения, до значения М -,—— (т. е. в случае двоичного кода — до значения Н^М х. х 4,35 М\ для сравнения укажем, что Н^М = ЪМ — это значение, достигаемое при кодировании по методу Бодо, сопоставляющему М-буквенному сообщению цепочку из ЪМ элементарных сигналов). Сокращение числа требую- требующихся элементарных сигналов может быть достигнуто, например, кодированием отдельных букв русского алфа- алфавита по методу Шеи попа — Фапо (см. пышс, стр. 201 и след.). Нетрудно проверить, что применение этого ме- метода к русскому алфавиту приводит к следующей таблице кодовых обозначений: буква а б в г д е, ё ж в и й код. обозя. 111 1010 000101 01010 000100 001101 1011 0000011 000111 1001 0000101 буква к л м н о п Р с т У Ф код. ооозн. 01000 01001 00111 0111 110 001100 01011 оно 1000 00101 000000000 буква X ч ч VI щ ы ъ,ъ э ю • я код. обозн. 0000100 00000010 000011 00000011 00000001 001000 000110 000000001 00000010 001001 Среднее количество элементарных сигналов, требую- требующихся для передачи одной буквы сообщения при таком методе кодирования, будет равно 0,265-3 + 0,347-4 + 0,188-5 + 0,150-6 + 0,032-7 + + 0,013-8 + 0,005-9 «4,4, т. е. будет весьма близко к значению Hi ях 4,35 г). *) Впрочем, значительная сложность расшифровки закодиро- закодированного таким способом сообщения делает этот код практически
240 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV гт Но и равное -j—— значение среднего числа элементарных сигналов, приходящихся на одну букву передаваемого со- сообщения, также не является наилучшим. В самом деле, при определении энтропии Н1 = Н (оц) опыта аи состоящего в определении одной буквы русского текста, мы считали все буквы независимыми. Это значит, что для со- составления «текста», в котором каждая буква содержит Hi ^ 4,35 бит информации, мы должны прибегнуть к по- помощи урны, в которой лежат тщательно перемешанные 1000 бумажек, на 175 из которых не написано ничего, на 90 — написана буква о, на 72 — буква е, ..., наконец, на 2 бумажках — буква ф (см. таблицу частот русских букв на стр. 238). Извлекая из такой урны бумажки по одной, мы придем к «фразе» вроде следующей *): ЕЫНТ ЦИЯЬА ОЕРВ ОДНГ ЬУЕМЛОЛЙК ЗБЯ ЕНВТША. Эта «фраза» несколько более похожа на осмысленную рус- русскую речь, чем предыдущая (здесь все же наблюдается сравнительно правдоподобное распределение числа глас- гласных и согласных и близкая к обычной средняя длина «слова»), — но и она, разумеется, еще очень далека от ра- разумного текста. Несходство нашей фразы с осмысленным текстом есте- естественно объясняется тем, что на самом деле последова- последовательные буквы русского текста вовсе не независимы друг от друга. Так, например, если мы знаем, что очередной буквой явилась гласная, то значительно возрастает веро- вероятность появления на следующем месте согласной буквы; мало удобным. Это можно проверить, например, попытавшись декодировать, скажем, следующую «фразу»: 010100101100100100. 1101111010011001111010001100011011110000000000000000010 111110111001010011011100001010111101110111110100011000 .11011010111000101110001101110 (декодирование заметно облегча- облегчается, если предварительно выписать все кодовые обозначения в порядке убывания вероятностей соответствующих букв). 1) Этот и последующие примеры «искусственных фраз» заим- заимствованы из статьи Р. Л. Добрушина [72]. (Как объяснено в этой статье, вместо вытаскивания бумажек из урны с 1000 бумаж- бумажками можно поступить значительно проще: воспользоваться любой русской книгой и выбрать из нее ряд букв н а у д а ч у.)
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 241 буква «ь» никак не может следовать ни за пробелом, ни за гласной буквой (в явном противоречии с тем, как обстояло дело во втором и пятом «словах» нашей «фразы»); за буквой «ч» никак не могут появиться буквы «ы», «я» или «к», а скорее всего будет стоять одна из гласных «м» и «е» или согласная «то» (слово «что») и т. д. Наличие в русском языке дополнительных закономер- закономерностей, не учтенных в нашей «фразе», приводит к даль- дальнейшему уменьшению степени неопределенности (энтро- (энтропии) одной буквы русского текста. Поэтому при передаче такого текста по линии связи можно еще уменьшить сред- среднее число элементарных сигналов, затрачиваемых на передачу одной буквы. Нетрудно понять, как можно оха- охарактеризовать количественно это уменьшение. Для этого надо лишь подсчитать условную энтропию Н2 — Нп1 (аг) опыта а2, состоящего в определении одной буквы русского текста, при условии, что нам известен исход опыта а4, состоящего в определении предше- предшествующей буквы того же текста (заметим, что при приеме очередной буквы сообщения мы всегда знаем уже предшествующую букву). Согласно сказанному на стр. 91, условная энтропия #2 определяется следующей формулой: #2 = #«, (сс2) - Н (a&J - Н (at) = = —р ( ) log р ( ) — р (— a) log p (— а) — — Р (— б) logp (— б) — . . . — р (яя) log р (яя) + + Р (—) log р (—) + р (a) log p (а) + + р (б) log р (б) + . . . + р (я) log р (я), где через р (—), р (а), р (б), ..., р (я) обозначены вероят- вероятности (частоты) отдельных букв русского языка (их зна- значения были нами указаны на стр. 238), а через р ( ), р (— а), р (— б), ..., р (яя) — вероятности (частоты) все- всевозможных двухбуквенных сочетаний. Для приближен- приближенного определения таких «двухбуквенных вероятностей» надо лишь подсчитать частоты появления различных ком- комбинаций двух соседних букв в каком-либо длинном рус- русском отрывке; при этом, разумеется заранее можно ска- вать, что вероятности р ( ), р (яъ) и многие другие (например, р (ъъ), р (— ъ), р (чя) и т. д.) будут равны нулю. Существенно подчеркнуть, что в силу результатов § 2 гл. II
242 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV мы можем быть уверены, что условная энтропия Я2 = = Hai (cc2) окажется меньше безусловной энтропии Ht. Величину Н2 можно конкретизировать как «среднюю информацию», содержащуюся в определении исхода сле- следующего опыта. Имеется 32 урны, обозначенные 32 бук- буквами русского алфавита; в каждой из урн лежат бумажки, на которых выписаны двухбуквенные сочетания, начи- начинающиеся с обозначенной на урне буквы, причем коли- количества бумажек с разными парами букв пропорциональны частотам (вероятностям) соответствующих двухбуквен- ных сочетаний. Опыт состоит в многократном извлечении бумажек из урн и выписывании с них последней буквы. При этом каждый раз (начиная со второго) бумажка из- извлекается из той урны, которая содержит сочетания, на- начинающиеся с последней выписанной буквы; после того как буква выписана, бумажка возвращается в урну, со- содержимое которой снова тщательно перемешивается. 1Можно также (что заметно удобнее практически) вместо урны воспользоваться какой-либо русской книгой, в ко- которой надо лишь, начиная каждый раз с выбранного на- наудачу места, отыскивать первое появление последней уже выписанной нами буквы и следующую за ней букву книги дописывать к уже имеющемуся тексту.] Опыт такого рода приводит к «фразе» вроде следующей: УМАРОНО КАЧ ВСВАННЫЙ РОСЯ НЫХ КОВКРОВ НЕДАРЕ. По звучанию эта «фраза» заметно ближе к русскому язы- языку, чем «фраза», выписанная на стр. 240 (например, здесь мы имеем не только правдоподобное соотношение числа гласных и согласных букв, но и близкое к привычному чередование" их, благодаря чему фразу уже можно «про- «произнести»). Разумеется, и величина -^—— не дает еще окончательной оценки наименьшего значения среднего числа элементар- элементарных сигналов, требующихся для передачи одной буквы русского текста. Дело в том, что в русском языке (как и любом другом) каждая буква зависит не только от непо- непосредственно предшествующей ей, но и от ряда предыду- предыдущих букв. Например, известно, что сочетание ее является
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИИ 243 довольно частым, так что после буквы е мы свободно можем ожидать появления еще одного е; однако если также и предпоследней буквой является е, то появление еще од- одного е становится уже почти невероятным (ибо сочетание еее встречается крайне редко); после сочетания — и (бук- (буква и после пробела) весьма часто следует еще один пробел (союз «ш»), а после сочетания тс естественно ожидать бук- букву я (глагольное окончание «тся») и т. д. Поэтому знание двух предшествующих букв еще более уменьшает не- неопределенность опыта, состоящего в определении следую- следующей буквы, что находит отражение в положительности разности Hz — Н9, где Hs — «условная энтропия второго порядка»: На = #„,„„ (а8) = Я(а1а2а8) — Щ**!***) — = — Р ( ) log р ( )— р ( a)logp ( а) —... ... — р (яяя) Jog p (яяя) + + Р ( ) 1°ёР ( ) + Р (— о) logp (— a) + ... ... + р (яя) logp (яя). Наглядным подтверждением сказанного является то об- обстоятельство, что опыт, состоящий в вытаскивании бу- бумажек с трехбуквенными сочетаниями из 322 урн, в каж- каждой из которых лежат бумажки, начинающиеся на одни и те же две буквы (или, что то же самое, опыт с русской книгой, в которой много раз наудачу отыскивается первое повторение последнего уже выписанного двухбуквенного сочетания и выписывается следующая за ним буква), приводит к «фразе» вроде следующей: ПОКАК ПОТ ДУРНОСКАКА НАКОНЕПНО ЗНЕ СТВОЛОВИЛ СЕ ТВОЙ ОБНИЛЬ, еще более близкой к русской речи, чем предыдущая. Аналогично этому можно определить и энтропию Н* = На1а^г (а4) == Н (с^агадоО — Н (а1а2а8) = = — Р ( ) logp ( ) — — р ( a) logp( а) — ... ... — р (яяяяIоц р (яяяя) + + Р ( ) log р ( ) + р ( a) log р ( а) + ... ... + р (яяя) log р (яяя)%
244 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV отвечающую опыту по определению буквы русского текста при условии знания трех предшествующих букв. Соот- Соответствующий этой величине опыт, состоящий в извлечении бумажек из 323 урн с четырехбуквенными сочетаниями (или — аналогичный описанному выше эксперимент с русской книгой), приводит к «фразе» вроде следующей: ВЕСЕЛ ВРАТЬСЯ НЕ СУХОМ И НЕПО И КОРКО, составленной уже из «почти русских» слов. Еще лучшее приближение к энтропии буквы осмысленного русского текста дают величины HN = Haia2... ajv х(aN) = Я (а,а2... aN) — Н (а^ ... alV-i) при N = 5,6, .... Нетрудно видеть, что с ростом N энтро- энтропия Нп может только убывать (ср. выше, стр. 125). Если еще учесть, что все величины Н^ положительны, то отсюда можно будет вывести, что величина #a,a,... aN_t (aiv) = HN при N -*- со стремится к определенному пределу //«,, очевидно, совпадающему с пределом #«,, о котором шла речь в предыдущем параграфе (см. стр. 217) *). 1) Равенство рассмотренного в § 2 предела H (ax) + Hai (а2) + ... + Hai... a/yi <aN) H lim —тр = limу введенной здесь величине Ято следует из того, что при большом rr(JV) N почти все слагаемые в числителе дроби ¦ будут близки к исключение составят лишь первые слагаемые, вклад которых в общую сумму при очень большом Л' будет незначителен. Таким образом, и последовательность «удельных энтропии» (N) g() hN = ¦ и последовательность «условных энтропии» сходятся при N -* оо к одному и тому же пределу Яте. При этом hx— Ях = Я (ах), но HN < hN при N > 1 (так как hN равно сред- среднему арифметическому N чисел, лишь последнее из которых равно HN, а все остальные больше); поэтому величины HN, N = 1, 2, 3... будут заметно быстрее приближаться к предельному значению Я,,,, чем величины hN (ср. сноску на стр. 303).
§ 3J КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИИ 245 Из результатов § 2 следует, что среднее число элементар- элементарных сигналов, необходимое для передачи одной буквы русского текста, не может быть меньшим г ; с другой стороны, возможно кодирование, при котором это среднее число будет сколь угодно близко к величине 2_ (ср. выше, log т v ^ стр. 217). Разность Д=1—~, показывающую, насколько tin меньше единицы отношение «предельной энтропии» Яю к величине Но = log n, характеризующей наибольшую информацию, которая может содержаться в одной букве алфавита с данным числом букв, Шеннон назвал избы- избыточностью языка (в рассматриваемом случае — рус- русского). Данные, о которых мы будем говорить ниже, за- заставляют предполагать, что избыточность русского языка (как и избыточность других европейских языков) заметно превышает 50%. Говоря не совсем точпо, мы можем ска- сказать, что выбор следующей буквы осмысленного текста более, чем на 50% определяется самой структурой языка и, следовательно, случаен лишь в сравнительно небольшой степени. Именно избыточность языка позволяет сокра- сокращать телеграфный текст за счет отбрасывания некоторых легко отгадываемых слов (предлогов и союзов); она же позволяет легко восстановить истинный текст даже при наличии значительного числа ошибок в телеграмме или описок в книге. Для того чтобы яснее представить себе смысл величины R, предположим, что русский текст кодируется при по- помощи 32-ичного кода, в котором элементарными сигна- сигналами служат те же русские буквы. Такой «код» будет представлять собой некоторый способ сокращенной записи русской речи при помощи обычных букв. В слу- случае паиболее экономного кодирования для ваписи М-бук- венного сообщения нам понадобится в среднем -j~ M = —~- М =A—R) М элементарных сигналов(букв), т. е. по сравнению с обычной записью текст удается сокра- сократить на RM букв. Этот результат, разумеется, не означает, что мы можем произвольным образом отбросить RM букв и по оставшимся безошибочно восстановить исходное сообще- сообщение! для сокращения сообщения на RM букв необходимо
246 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV воспользоваться специальным «самым лучшим» методом кодирования, после применения которого все буквы сооб- сообщения становятся взаимно независимыми и равновероят- равновероятными. Отсюда ясно, что закодированный текст при этом будет иметь тот же характер, что и «фраза» на стр. 237, т. е. будет казаться совершенно бессмысленным; «про- «прочесть» такой текст будет много труднее, чем прочесть «фра- «фразу», приведенную в подстрочном примечании на стр. 239— 240 (так как теперь кодовые обозначения сопоставляются уже не отдельным буквам, а сразу длинным «блокам»). От- Отметим еще, что при таком кодировании любая описка будет «роковой»: при декодировании она приведет к новому осмысленному тексту и мы ее не заметим, а если и заметим, то не сможем понять, что же было написано на самом деле. Что же касается до сокращения текста при помощи неяо- средственного пропуска части букв, выбранных наудачу, то заранее можно лишь утверждать, что при отбрасывании более чем RM букв мы заведомо не сможем безо шибочно восстановить первоначальный текст. Специаль- Специальные опыты (относящиеся к английскому языку) показы- показывают, что обычно такое восстановление удается лишь тог- тогда, когда число отброшенных букв не превосходит 25% от общего их числа. Избыточность R является весьма важной статистичес- статистической характеристикой языка; однако ее численное значение пока ни для одного языка не определено с удовлетворитель- удовлетворительной точностью. В отношении русского языка, в частности, как будто имеются лишь данные о значениях величин Н2 и Ня, полученные в Институте проблем передачи информа- информации Академии наук СССР (см. Д. С. Лебедев, В. А. Г а р м а ш [70]). В этой работе для нахождения относительных частот (т. е. приближенных значений веро- вероятностей) всевозможных двухбуквенных и трехбуквен- трехбуквенных сочетаний был использован отрывок из романа «Вой- «Война и мир» Л. Н. Толстого, содержащий около 30 000 букв; подсчет числа повторений различных двухбуквенных и трехбуквенных комбинаций в этом отрывке осуществлялся с помощью счетно-аналитических машин. В результате были получены следующие значения (в битах)! Но Нг Нг Яа log 32 = 5 4,35 3,52 3,01
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 247 (для полноты мы здесь привели также и значения энтро- энтропии Но и Н1г указанные ранее на стр. 237 и 238). Строго говоря, отсюда можно только вывести, что для русского языка R [> 1 — тг ~ 0,4; естественно думать, однако, ¦ что на самом деле величина R значительно больше зтого числа (энтропия На равна средней информации, содер- содержащейся в букве «фразы», приведенной на стр. 243, а эта «фраза» является заметно менее «упорядоченной», чем ос- осмысленный русский текст). Последнее заключение подтвер- подтверждается также и имеющимися в настоящее время (весьма неполными) данными об избыточности других языков. Ясно, что для всех языков, использующих латинский алфавит, максимальная информация Но, которая могла бы приходиться па одну букву текста, имеет одно и то же значение: #0 = log 27 « 4,76 бит (латинский алфавит содержит 26 различных букв, к ко- которым мы добавляем 27-ю «букву» — пустой промежуток между словами). Дальнейшие подсчеты, однако, должны производиться отдельно для каждого языка, так как ча- частоты появления тех или иных букв или многобуквенных сочетаний не одинаковы в различных языках. Так, на- например, расположив все буквы в порядке убывания вероятностей (начиная с самой частой из них), мы придем к последовательности букв, начинающейся с — ETAONRI... в случае английского языка, с — ENISTRAD... в случае немецкого языка и с — ESANITUR... в случае французского (см. [73]; «—» во всех случаях обозначает пробел между словами); средняя длина слова, определяющая вероятность «про- «пробела» в немецком языке заметно больше, чем в английском или французском; буквы W и К сравнительно часто встре- встречаются в немецком и английском языках, но имеют прак- практически нулевую вероятность во французском; сочетание ТН очень распространено в английском языке, а сочета- сочетание SCH — в немецком, но в других языках эти соче- сочетания весьма редки; за буквой С почти всегда следует бук- буква Н в немецком языке, но не в английском или во фран- французском и т. д. Использовав таблицы относительных
248 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV частот различных букв в английском^ немецком, француз- французском и испанском языках, можно показать, что энтропия Нг для этих языков равна (в битах): язык I англ. | немецк. I франц. I испанск. Нх | 4,03 | 4,10 | 3,96 | 3,98 (ср. Барнард [74]). Мы видим, что во всех случаях величина Нг заметно меньше, чем Но — log 27 ^ 4,76 бит, причем ее значения для различных языков не очень сильно разнятся между собой. Что же касается «условных энтропии» Hn (где N > 1), то они основательнее всего изучены для английского языка, которым мы, в основном, и ограничимся в даль- дальнейшем. Величины Я2 и Я8 для этого языка были еще в 1951 г. подсчитаны Ш енноном 175]; при этом он ис- использовал имеющиеся таблицы частот в английском язы- языке различных двухбуквенных и трехбуквенных сочета- сочетаний. Учтя также и статистические данные о частотах появ- появления различных слов в английском языке, Шеннон су- сумел приближенно оценить и значения величин Нь и HJ). а) Зная частоты (вероятности) рг, р$, ..., рк отдельных слов (здесь К —• общее число слов, встречающихся в рассматриваемых текстах), можно определить «энтропию первого порядка» jy(cn0Ba) =: = — Pi log Pi — Pa log Pa ^ ... — pK log рк. Разделив получен- полученную величину на среднее число w букв в слове, мы получим оценку для условной энтропии Hw порядка w. А именно, нетрудно понять, жт(олова) что —-— < Hw, ибо связи между w буквами одного слова за- заметно сильней связей между w произвольными последовательными ^(слова) буквами осмысленного текста. С другой стороны, отношение ———t наверное, больше средней информации И = Ято, содержащей- содержащейся в одной букве текста, поскольку величина #?слова* совсем не учитывает зависимостей, существующих между словами (ср. ниже, стр. 263 и след.). [Ср., впрочем, работу В. К). У р б а х а [76], в которой критикуется методика Шеннона в приводятся несколько иные чём в [75] значения энтропии HN (в работе [76] пробел меж- между словами не включался в число букв, что, однако, само по себе учитывается очень просто — см. ниже, стр. 260 и след.).]
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 249 В результате он получил следующий ряд чисел: По Их «2 -" 3 ** 5 Hg 4,76 4,03 3,32 3,10 »2,1 «1,9 Отсюда можно заключить, что для английского языка из- 1 9 быточность R во всяком случае не меньше, чем 1 -~=х zzz л; 0,6, т. е., наверное, превосходит 60%. Для более точной оценки величины R надо еще выяс- выяснить, насколько отличается величина Не — средняя ин- информация, содержащаяся в букве текста при условии, что нам уже известны предыдущие 7 букв, от предельного значения На,. Иначе говоря, нас интересует вопрос о том$ насколько существенно ограничивает произвол в выборе очередной буквы английского текста знание той части пред- предшествующего текста, которая удалена от этой буквы более чем на 7 букв (при условии, что и последующие 7 букв нам также известны). Поскольку средняя длина апглийского слова равна всего лишь 4—5 буквам, т. е. заметно меньше 7 букв, то речь вдесь может идти лишь о влиянии стати- статистических закономерностей, определяющих порядок сле- следования отдельных слов друг за другом (или даже еще более общих закономерностей, касающихся целых фраз). Непосредственное решение интересующего нас вопроса при помощи подсчета величин Н9, Н10 и т. д. по приведен- приведенной на стр. 244 формуле невозможно, так как уже для вы- вычисления Н9 требуется знание вероятностей всех 9-бук- венных комбинаций, число которых выражается 13-значным числом (триллионы!). Поэтому для оценки ве- величин Hn при больших значениях N приходится ограни- ограничиваться косвенными методами. На одном остроумном методе такого рода, предложенном Ш енноном [75], мы здесь вкратце остановимся. «Условная энтропия» Нп представляет собой меру сте- степени неопределенности опыта адг, состоящего в опреде- определении N-й буквы текста, при условии, что предшествую- предшествующие N — 1 букв нам известны. Естественно, что эта вели- величина определяет степень трудности отгадывания iV-й бук- буквы по N — 1 предыдущим. Но эксперимент по отгадыва- отгадыванию N-й буквы легко может быть поставлен: для этого достаточно выбрать (N — 1)-буквенный отрывок осмыс- осмысленного текста и предложить кому-либо отгадать
250 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV следующую буквух). Подобный опыт может быть повторен многократно; при этом трудность отгадывания N-ш буквы может быть оценена с помощью среднего значения Qn числа попыток, требующихся для нахождения правиль- правильного ответа. Ясно, что величины QNi определенные для разных значений N, являются определенными характери- характеристиками статистической структуры языка, в частности, его избыточности: в случае нулевой избыточности знание сколь угодно длинного отрывка текста не увеличит вероятность правильно угадать следующую букву (эта вероятность во всех случаях будет равна — , где п — число букв алфавита); равенство же избыточности величине — можно весьма огрубленно описать как утверждение о том, что каждая то-я буква текста является «лишней», одно- однозначно восстанавливаемой по т—1 предыдущим. Очевидно, что среднее число попыток Qn с возраста- возрастанием N может только уменьшаться; прекращение этого уменьшения будет свидетельствовать о том, что соответ- соответствующие опыты имеют одинаковую степень неопреде- неопределенности, т. е, что отвечающая им «условная энтропия» Hn практически уже достигла предельного значения /Too. Исходя из этих соображений, Шеннон произвел ряд по- подобных экспериментов, в которых N принимало значения 1, 2, 3, ..., 14, 15 и 100. При этом он обнаружил, что от- отгадывание 100-й буквы по 99 предшествующим является ваметно более простой вадачей, чем отгадывание 15-й буквы по 14 предыдущим. Отсюда можно сделать вывод, что Н15 ощутимо больше, чем Я100, т. е. что Н15 никак еще нельзя отождествить с предельным значением /Too. Впослед- Впоследствии такие же опыты были проведены на несколько боль- большем материале Н. Бертоном и Дж. Ликлайде- р о м [77] для N = 1, 2, 4, 8, 16, 32, 64, 128 и N ж х 10 000; из их данных можно заключить, что величина Нзг (так же как и Hei и Н12й) практически не отличается от Н10000, в то время как «условная энтропия» Н1в еще х) Шеннон предлагает задавать вопросы ряду лиц и остановить- остановиться на том из них, ответы которого окажутся наиболее удачными, поскольку здесь считается, что отгадывание происходит наибо- наиболее рациональным образом, т. е. с полным знанием всех присущих языку статистических закономерностей.
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 251 заметно больше этой величины. Таким образом, можно предположить, что при возрастании N величина Hn убы- убывает вплоть до значений N, имеющих порядок 30, но при дальнейшем росте N она уже практически не меняется; поэтому вместо «предельной энтропии» Нт можно говорить, например, об условной энтропии Hso или Hi0. Эксперименты по отгадыванию букв не только позволя- позволяют судить о сравнительной величине условных энтропии Hn при разных N, но дают также возможность оцепить и сами значения НN. Эта возможность связана с тем, что по данным таких экспериментов можно определить не только среднее число Qn попыток, требующихся для отгадывания N-ж буквы текста по N — 1 предшествующим, но и веро- вероятности (частоты) qN, qn, •¦-, qN того, что буква будет пра- правильно угадана с 1-й, 2-й, 3-й, ..., ге-й попытки (где п = = 27 —число букв алфавита; очевидно, что C^v = r/v^ + -f- <?n*2 -J- ... -J- Qn-п). Нетрудно поиять, что верояшо- сти q\, q\, ..., q™ равны вероятностям р{а^), р{а_,), ... ...,;> (ап) букв ах, а2,..., ап алфавита, расположенных в по- порядке убывания частот. В самом деле, если ни одна из букв, предшествующих отгадываемой букве х, нам не известна, то естественно прежде всего предполо- предположить, что х совпадает с самой распространенной буквой at (причем вероятность правильно угадать здесь будет равна р (%)); затем следует предположить, что х совпадает с а2 (вероятность правильного ответа здесь будет равна р (а2)) и т. д. Отсюда следует, что энтропия Нх равна сумме — д\ log q\ — 9? log q\ — ... - fi log q". Если же N ]> 1, то можно показать, что сумма — q% log qN — q% log qN — ... — ?w log qN (*) не будет превосходить условную энтропию Hn (это связано с тем, что величины q%, q%, ..., qN представляют собой оп- определенным образом усредненные вероятности исходов опыта aw). С другой стороны, несколько более сложные соображения, на которых мы здесь не будем останавли- останавливаться, позволяют доказать, что сумма (qh - qN)-log l + 2(qN- q%) log 2 + ... ... + («-!) (q™ - g$log (n - 1) + nq» log n (**)
252 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV при всяком N будет не больше условной энтропии Н^. Таким образом, выражения (*) и (**) (составленные из вероятностей qh, q%, ..., <$. которые можно оценить по данным эксперимента) определяют границы, между ко- которыми должна заключаться величина HN. Надо только еще иметь в виду, что обе оценки (*) и (**) получаются в предположении, что qh, q%, ..., <$ — это те вероятности угадывания буквы по N — 1 преды- предыдущим буквам с первой, второй, третьей и т. д. попыток, которые получаются в предположении, что отгадывающий всегда называет очередную букву наиболее целе- целесообразно — с полным учетом всех статистических закономерностей данного языка (ср. сноску на стр. 250). В случае же реальных опытов любые ошибки в стратегии отгадывающего (т. е. отличия называемых им букв от тех, которые следовало бы назвать, исходя из точной ста- статистики языка) будут неизбежно приводить к завышению обеих сумм (*) и (**); именно поэтому целесообразно учи- учитывать лишь данные «наиболее успешного отгадывающего», так как для него это завышение будет наименьшим х). Поскольку, однако, каждый отгадывающий иногда оши- ошибается, то оценку (**) на практике нельзя считать вполне надежной оценкой снизу истинной энтропии (в отличие от оценки сверху (*), которая из-за ошибок отгадывающего может только стать еще больше). Кроме того, значения сумм (*) и (**), к сожалению, не сближаются неограниченно при увеличении N (на- (начиная с N ~ 30 эти суммы вообще перестают зависеть от N); поэтому полученные на этом пути оценки избыточности *) Ясно, что большая или меньшая удачливость отгадывающего характеризует степень (обычно — интуитивного) понимания им статистических законов языка, т. е. присущее данному лицу «чув- «чувство языка» (или «чувство стиля» данного автора, тексты которого используются для предсказания букв,— ср. замечание в первой из работ [15] о «телепатической связи с авторами» одного из прини- принимавших участие в подобных опытах лиц, видимо, обладавшего особо развитым литературным чутьем). В соответствии с этим предпринимались попытки использования результатов опытов по предсказанию букв для объективной характеристики степени владения иностранным языком ([78]; ср. также [79]) или родным языком (см. [80], где описаны опыты по отгадыванию букв сугубо специального текста несколькими группами лиц, имеющими весь- весьма разную практику в чтении текстов подобного содержания).
g 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 253 языка не будут особенно точными *). В частности, опыты Шеннона [75] показали лишь, что величина H100i по-видимому, заключается между 0,6 и 1,3 бит. Отсюда можно заключить, что избыточность /?i4^i Нш " * Ho log 27 для английского языка по порядку величины должна быть близка к 80%. Эксперименты Н. Бертона и Дж. Ликлайдера [77] привели к близким резуль- результатам: по их данным истинное значение избыточности ан- английского языка лежит где-то между 2/3 (т. е. 67%) и 4/5 (т. е. 80%). Аналогичное (но несколько менее полное) исследование избы- избыточности немецкого ииыка было выполнено известным немецким специалистом и области электросил;)!! К. К к> п ф м ю л л с р о м [82]. Использовав имеющиеся данные о частотах появления раз- различных слогов и слов в немецком языке и произведи некоторые опыты по отгадыванию последующих слогов или слов немецкого текста по известному предшествующему отрывку, Кюпфмюллер пришел к выводу, что для немецкого языка Ято я; 1,3 бит. Отсюда 1 3 вытекает, что избыточность Л этого языка близка к 1 — 7рт§ ~ 0,7 —> значение, которое имеет тот же порядок величины, что и приведен-. ные выше оценки избыточности для английского языка. Значение Н2 ¦ для немецкого языка может быть найдено, в частности, в работе [115], о которой подробнее мы будем говорить в разделе, посвящен- посвященном устной речи. Для французского языка наиболее полное исследование его энтропии и избыточности было выполнено Н.В. Петровой [83]. Для нахождения величин HN, где N невелико, Петрова обра- обработала совокупность текстов общим объемом в 30 000 букв, исходя из которой вычислялись вероятности (частоты) отдельных букв, а также их двухбуквенных и трехбуквенных сочетаний. При этом она пришла к следующим результатам: Ни Н\ Н^ Нз pg 27 ж 4,76 3,95 3,17 2,83 (ср. выше, стр. 249). Для определения величин HN при больших N использовались опыты по отгадыванию букв, причем частично *) Ср. работу А. П. С а в ч у к [81], в которой сконструиро- сконструированы совершенно искусственные «языки», для которых шеннонов- ские оценки (•) или, соответственно, (**) энтропии являются точ- точными.
254 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV применялась предложенная А. Н. Колмогоровым методика, о кото- которой мы еще скажем ниже; при атом было получено, что Яте «1,40 бит, а следовательно, Я ж 71%. Сходные результаты были полу- получены также для итальянского, шведского и ряда других языков (см., например, [67], [84], [85]). Разумеется, тот факт, что оценки избыточности нескольких европейских языков, использующих одинаковый алфавит, при- приводят к заключению, что эти величины имеют примерно одинако- одинаковые значения, не позволяет еще распространить этот вывод также и на очень далекие по лингвистической структуре языки или на язы- языки, резко различающиеся своими алфавитами. В этой связи пред- представляет интерес исследование Е. НьюманаиН. Во [86], по- попытавшихся сравнить энтропии HN и избыточности R для трех язы- языков с заметно различающимся числом букв в алфавите: полине- полинезийского языка Самоа, алфавит которого содержит всего 16 букв (около 60% которых являются гласными), английского языка и рус- русского языка, причем в последнем случае специально выбирались тексты, напечатанные по старой орфографии (принятой в России до 1917 г), использующей 35-буквенный алфавит: кроме знако- знакомых нам букв он содержал еще буквы -в («ять»; читалась как бук- буква е), i («и десятеричное»; читалась как и), 6 («фита», читалась как ф) и очень редко употребляемую букву V («ижица», также чита- читалась как и). Естественно, что величины Яо для этих трех языков имеют очень разное значение (см. таблицу ниже). Еще более сильно различаются приведенные в той же таблице значения Н% для трех языков, подсчитанные Ньюманом и Во на основе анализа одного и того же отрывка (длиной около 10 000 знаков) из трех переводов Библии. Грубо говоря, это означает, что распределение вероятностей отдельных букв в русском языке является наиболее равномерным, а в языке Самоа ¦¦—¦ самым неравномерным (в значительной степени это объясняется тем, что в языке Самоа средняя длина слова очень мала: она составляет всего около 3,2 буквы против 4,1 буквы для английского языка и 5,3—для русского языка; поэтому пробел в язы- языке Самоа имеет очень большую вероятность, в английском явыке —• меньшую и в русском — еще меньшую). Однако уже величины Яа для трех языков оказываются более близкими, чем значения Щ: двухбуквенные связи в русском языке являются более жесткими, чем в английском и тем более ¦— чем в языке Самоа. К сожалению, оценки последующих значений HN. указываемые Ньюманом и Во, являются менее надежными (они были получены авторами с помощью разработанной Е. Ньюманом и Л. Гер- с т м а н о м [87] методики, вызывающей известные сомнения); однако их выводы, касающиеся сравнительных значений HN для трех языков, являются довольно правдоподобными: Самоа Английский Русский (старая орфография) Яо Hi Я log 17: s4,08 3,40 2,68 log 27 х 4,76 4,08 3,23 log 36 ж 5,17 4,55 3,44
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 255 Согласно этим выводам величины HN убывают в русском языке быстрее всего, а в языке Самоа —> медленнее всего; в результате, начиная примерно с N = 10, величины HN (а следовательно,—и ве- величины Н^) для трех языков оказываются довольно близкими друг к другу. Это означает, что среднее количество информации, при- приходящейся на одну букву текста, для трех языков с заметно раз- различающимся количеством букв алфавита оказывается примерно одинаковым. Если этот вывод является справедливым, то из него, разумеется, следует, что избыточпость для языков с большим чис- числом различных букв будет заметно большей, чем для языков с бо- более бедным алфавитом. Заметим также, что во всех европейских языках гласные буквы являются гораздо более частыми, чем согласные; это обстоятель- обстоятельство создает значительные различия в частотах отдельных букв, заметно отражающиеся уже на значении «энтропии 1-го порядка» Hi (а также на «предельной энтропии» Н = Н^ и на избыточ- избыточности Я) языка. Ипым будет положение в ряде восточных языков, например, в арабском и древнееврейском (иврит): в этих языках гласные отсутствуют — они опускаются п письменном тексте и восстанавливаются читателем «но смыслу» (что возможно в силу избыточности языка). Ясно, что статистическая структура записан- записанного на этих языках текста будет резко отличаться от той, с какой мы сталкиваемся в случае европейских языков, в силу чего и зна- значения всех теоретико-информационных характеристик языка здесь могут принимать совсем другие значения (в частности, избыточ- избыточность будет заметно меньше). В качестве иллюстрации к этому замечанию можно сослаться на работу немецкого лингвиста Г. Б л ю- м е [88], который сравнил статистические характеристики совокуп- совокупностей трехбуквенных слов иврита и английского языка и нашел, что для этой совокупности Я(ивр) х 3O3 (бит/букву) и Л<ивр) = 1 — ^-» 0,16, в то время как Я(англ) д. 08д (бит/букву) и Д<3аНГЛ) ~ 0,82. Обстоятельно исследовался в 60-годах и вопрос об энтропии отдельных индийских языков, в первую очередь—распространенных в южной Индии дравидских языков, принадлежащих к числу древ- древнейших на земле [89];' в этих работах, исходя из данных стати- статистики языка (и с учетом введенной в [71] поправки), находились значения энтропии невысокого порядка, а также использовал- использовался «метод отгадывания» К. Шеннона, позволяющий оценить значения HN, где N сравнительно велико. При этом новые — по сравнению с относящимися к европейским языкам работами .— за- затруднения возникали здесь в силу некоторой неопределенности ал- алфавитов большинства из рассматриваемых языков (ср. со сказан- сказанным ниже, стр. 265 и 278). Так, например, в языке томили (исследо- (исследованию которого посвящена работа Г. Сиромони — см. [89]) имеется старинный алфавит и современный алфавит; в современном
256 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV алфавите (близком к алфавитам ряда других индийских языков) имеется 12 гласных, 18 согласных, 216 слитных согласных-гласных и еще один не произносимый знак (Aitham) специального назначе- назначения. В работе Сиромони Aitham игнорировался вовсо, а «соглас- «согласные-гласные» рассматривались как пары букв; однако такой подход к языку тамили не является единственно возможным. Кое что о конкретных результатах исследований, посвященных индийским языкам, будет еще сказано ниже (см. стр. 271). Наконец, укажем, что различия в имеющихся оцен- оценках значения энтропии Н = #«, (или даже величин HN, где N сравнительно невелико), найденных для раз- разных европейских языков с помощью «метода отгады- отгадывания», являются, как правило, заметно меньшими, чем точность соответствующих оценок, определяемая разли- различием между выражениями (*) и (**) для энтропии N-ro порядка. Таким образом, метод Шеннона оказывается явно недостаточным для определения различий в удельной энтропии (приходящейся на одну букву) для различ- различных языков, хотя существование различия в средней дли- длине слов для разных языков и различия в длине парал- параллельных текстов на разных языках, имеющих одно и то же содержание (ср. Б.Рамакришна и Р. Субра- Субрама н и а н [90], а также последнюю из работ [89] *)), соз- создают впечатление, что эти различия в удельной энтропии вполне могут иметь порядок 10—20% То же самое можно сказать и о различиях в энтропии текстов различного ха- характера (в частности, принадлежащих различным авто- авторам), написанных на одном и том же языке: представляет- представляется довольно очевидным, что различия эти могут быть до- довольно большими, — но и они могут быть обнаружены с помощью метода Шеннона только в самых крайних ис- исключительных случаях (вроде того, к которому относятся работы Фрика и Самби или ФрицаиГрайера, указанные на стр. 268). *) Впрочем, указанные две работы на самом деле представля- представляют интерес лишь с точки зрения постановки вопроса, но не с точки зрения полученных здесь конкретных результатов, так как для оценки «эффективности» различных языков здесь используется толь- только сравнение относящихся к этим яэыкам «энтропии первого по- порядка» Hif совершенно не учитывающих крайне важные для струк- структуры языка статистические связи между последовательными бук- буквами текста.
S 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 257 В этой связи представляются крайне желательным иметь более точные методы определения энтропии языка. А. Н. Колмогоров указал не так давно, что такие более точ- точные методы могут быть сравнительно просто получены с по- помощью дальнейшего развития метода отгадывания. Преж- Прежде всего Колмогоровым было отмечено, что в принципе метод отгадывания (в предположении, что отгадывающий всегда будет следовать «оптимальной стратегии», выте- вытекающей из полного учета всех присущих данному языку статистических закономерностей) позволяет получить не только оценки энтропии сверху и снизу, ноиточную оценку значения этой величины. В самом деле, пред- предположим, что отгадывающему предлагается каждый раз не перечислять по порядку те буквы, которые, как он дума- думает, должны появиться, а сразу назвать все условные ве- вероятности рх, р2 , ..., рп того, что появится 1-я, 2-я, ... .., п-я из букв алфавита (при условии, что предшествую- предшествующие N — 1 букв текста ему известны). Пусть теперь этот опыт повторяется много раз и каждый раз подсчитывается величина —log рк, где к — порядковый номер той буквы, которая появилась на самом деле (таким образом, в каж- каждом отдельном опыте из названных «отгадывающим» п чисел рх, •.., рп, где п — число букв алфавита, на самом деле учитывается лишь одно, но какое именно — заранее неизвестно). Тогда нетрудно показать, что если условные вероятности всегда будут указываться точно, то среднее значение подсчитываемой величины — log р? (т. е. сумма всех таких величин, определенных в большом числе М опытов, деленная на М) при неограниченном увеличении М будет неограниченно приближаться к истинной энтро- энтропии HN одной буквы текста. Разумеется, этот метод является совершенно непрак- непрактичным: немыслимо требовать от отгадывающего, чтобы он каждый раз указывал весь набор условных вероятно- вероятностей всевозможных букв — и при этом никогда не оши- ошибался. Существенно, однако, что любые ошибки в назван- названных значениях условных вероятностей приведут лишь к возрастанию соответствующей суммы значений — log р^ (это обстоятельство, как нетрудно показать, следует из неравенства (*) на стр. 251). Поэтому вполне до- допустимо заранее ограничить множество распределений 9 А. М. Яглом, И. М. Яглом
253 ПЕРЕДА ЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV вероятностей, которые может называть отгадывающий, и тем существенно облегчить его работу; при этом сумма полученных таким образом значений —log р%, разделен- разделенная на число М опытов, все равно будет оценкой сверху истинной энтропии Н^. В реальных опытах, проводившихся под руководством Колмогорова над русскими литературными текстами, отгадывающему позволялось делать следующие предска- предсказания (см. [91]): 1) следующей буквой наверное будет одна определен- определенная (скажем, к- я) буква алфавита; 2) следующей буквой наверное будет одна из указы- указываемых отгадывающим двух или трех букв алфавита; 3) следующей буквой вероятно (но не наверное!) будет одна определенная (скажем, к-я) буква алфавита; 4) следующей буквой вероятно будет одна из указы- указываемых отгадывающим двух или трех букв; 5) кроме того, отгадывающему позволялось сказать, что он не знает, какой будет следующая буква. При этом считалось, что каждое из этих утверждений равносильно выбору следующего условного распреде- распределения вероятностей для последующей буквы текста: 1) к-я буква имеет некоторую заранее фиксированную большую вероятность Р; для ?-й же буквы, где i=j=k, веро- „ . 1 — Р ятность появиться принимается равной Pi=Pv -. » где Pi и рь — безусловные вероятности ?-й и к-ш букв рус- русского языка, указанные в таблице на стр. 238; 2) выбранные две или три буквы имеют одинаковую условную вероятность Р/2 или Р/3; остальные буквы по- прежнему имеют вероятности р\, пропорциональные их бе- безусловным вероятностям pt; 3) к-я буква имеет некоторую фиксированную вероят- вероятность Q (меньшую, чем Р\), а i-я буква при i =f= к имеет 1 — Q вероятность рг = pt • . _ ; 4) выбранные две или три буквы имеют одинаковую вероятность QI2 или G/3, а остальные буквы — вероятно- вероятности, пропорциональные их безусловным вероятностям; 5) условная вероятность появления i-й буквы алфа- алфавита при всех i принимается равной ее безусловной веро- вероятности pt.
i 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 259 Вероятности Р и Q пока остаются неопределенными; так как, однако, любая неточность в предсказываемых условных распределениях вероятностей может лишь уве- увеличить получаемую оценку для Ни, то вполне допустимо подобрать эти две вероятности по известным результатам опытов так, чтобы сумма всех величин —log рн (где р% — предсказанная условная вероятность реально появившей- появившейся буквы) была возможно меньшей. Нетрудно подсчитать, что при таком определении ве- вероятностей PvlQ окончательная оценка энтропии Hn будет даваться формулой ИN «-А- [МЛ + М А + М\ + Л/; log 3 + ?], где М — общее число опытов; Mt — число предсказаний типа 1) или 2); М2 — число предсказаний типа 3) или 4); Мх — число предсказаний типа 2) или 4), в которых пред- предсказывается одна из двух букв; М2 — число предсказа- предсказаний типа 2) или 4), в которых предсказывается одна из трех букв; /^ = qx log qy — A — ft) log A — qj, где qx — ^-, a m1 — число ошибок в предсказаниях типов 1) и 2); h2= — qz log q2 — A — q2) log A — q2), где qz = — jf — средняя доля ошибок в предсказаниях типов 3) и 4); наконец, S — распространенная по всем случаям ошибок в предсказаниях типов 1) — 4) и всем «отказам» (предсказаниям типа 5)) сумма выражений—log/?i, где pi — или «безусловная вероятность» pt реально появив- появившейся буквы (в случае предсказаний типа 5)), или же «предсказанная вероятность» p'lf разделенная на 1 — Р (в случае предсказаний типов 1 и 2)), или, наконец, она же, разделенная на 1 — Q (в случае предсказаний типов 3) и 4)). Выписанная здесь формула на первый взгляд кажется сравнительно сложной, но на практике она оказывается довольно удобной и приводит к не слишком громоздким расчетам. Опыты подобного рода, проводившиеся в стати- статистической лаборатории Московского государственного уни- университета, позволили получить для классической русской прозы С. Т. Аксакова («Детские годы Багрова-внука») и 9*
260 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV И. А. Гончарова («Литературный вечер»), оценку удель- удельной энтропии Не (не отличающейся, например, от Нво) порядка 1—1,2 бит, являющуюся, по-видимому, довольно точной (вероятно, превышающую истинное значение #<„ не больше, чем на 10—15%). Соответственно этому для избыточности литературного языка русской классической прозы отсюда получается значение, по порядку величины близкое к 80%. Напомним, что во всем предыдущем к числу «букв» мы причисляли и пустой промежуток между словами, что совершенно естественно с точки зрения телеграфии. Иног- Иногда, однако, представляет интерес также рассмотрение обыч- обычного алфавита, не учитывающего пробелов; так, например, может встать вопрос об информации, содержащейся в од- одной напечатанной букве текста. Естественно, что при этом приведенные выше результаты претерпят неко- некоторые изменения. Так, например, русский алфавит теперь придется считать 31-буквенным (буквы ьиг мы отожде- отождествляем по-прежнему), так что Но = log 31 ж 4,95 бит; частоты отдельных букв также изменят свои значения (см. таблицу этих частот в книге А. А. Харкевича [69]), что приводит к новому значению энтропии Hlt а именно #х ш 4,46 бит. Латинский алфавит при таком рассмотре- рассмотрении надо будет считать 26-буквенным, так что для всех языков, использующих этот алфавит, Но = log 26 :=; 4,7 бит. Значения (в битах) знтропий Hlt Hz и Н3, а также приближенные значения энтропии Нь и Нв для англий- английского языка, полученные в пренебрежении пробелами между словами, приведены в следующей таблице (ср. Шеннон [75]): Яо Hi Hi Н3 Нь #8 4,70 4,14 3,56 3,3 »2,6 ж2,3 Сравнив эту таблицу с приведенной на стр. 249, мы убе- убедимся, что учет пробелов между словами в английском языке приводит к увеличению энтропии Но и уменьшению всех последующих энтропии Н^. То, что для всех языков Н$ проб) > #Г8 пр°0) совершенно очевидно; ведь всегда log n ]> log (n — 1). Далее, учет пробела при- приводит к появлению дополнительной «буквы», имеющей
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 261 сравнительно с другими очень большую вероятность, что облегчает предсказание исхода опыта а1? а следовательно, уменьшает степень его неопределенности Н±. Аналогично объясняется уменьшение Н^ при учете пробела и для других значений N. В частности, при достаточно большом N (превышающем среднюю длину слова) исход опыта, состоящего в определении N-ik буквы текста по известным N — 1 предшествующим буквам во всех тех случаях, когда этой N-& буквой оказывается «пробел», будет прак- практически однозначно определяться самой структурой языка (легко понять, что при большом N ошибки при отгады- отгадывании исхода этого опыта обычно будут иметь место лишь тогда, когда N-r буква оказывается первой или, в крайнем случае, второй буквой нового слова). Отсюда вытекает, что учет пробела заметно уменьшает неопределенность этого опита, и, значит, 11% "|><<г>) < Я#К1 >о0). Можно получить даже точную зависимость, связываю- щую два значения избыточности R — вычисленное при условии пренебрежения пробелами между словами и при учете этих пробелов. В самом деле, рассмотрим два оди- одинаковых достаточно длинных текста, отличающихся лишь тем, что в одном из них мы не отмечаем промежутков между словами. Каждый из текстов однозначно восстанав- восстанавливается по другому: разумеется, мы можем отбросить все промежутки между словами в обычном тексте и почти столь же просто восстановить пробелы в написанном «вплотную» (без интервалов между словами) тексте на знакомом языке. Отсюда можно заключить, что «полная информация» (произведение «удельной информации» или «информации, приходящейся на одну букву текста» Нсо, на число букв), содержащаяся в том и другом тексте, должна быть одной и той же. А так как число «букв» в тек- тексте с пробелами превосходит число букв написанного * + 1 «вплотную» текста в —¦— раз, где s — средняя длина слова (ибо в среднем один пробел приходится на s букв текста), то тт(с проб) тг(без проб) . s -Ь 1 Л1 оо ¦ -" ОО " . Учитывая еще, что вероятность р0 пробела равна . . (один пробел приходится на s + 1 «букв» текста с
262 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. пробелами) и, следовательно, s = 1, мы можем пе- переписать эту формулу так J): _1_ Я (с проб) ттфез проб) , рэ оо — -" оо • "л ИЛИ Ht прсб) = A - Ро) Я^ез проб) = A - Но если общее число букв алфавита (включая пробел) равно в, то /4е пгоб) = log п, #Г3 "Рсб) = log (n - 1) и гНс проб) гДбез проб) (с проб) д(без проб) ' ^ /^0/ ¦ iog (П _ ИЛИ Это и есть формула, связывающая значения избыточности языка, полученные при пренебрежении пробелами и при учете пробелов. х) Последний результат можно весьма просто доказать и не ссылаясь на постоянство «полной информации». В самом деле, пусть aN — опыт, состоящий в отгадывании JV-й «буквы» текста с пробелами между словами по N — 1 предшествующим буквам. Выяснение исхода aN мы будем производить в два этапа: прежде всего проверим, не является ли N-й «буквой» пробел (опыт Р); если же это не так, то мы дополнительно выясним, какая именно эта буква (опыт a'N). Если р0 — вероятность пробела, то второй опыт a'N нам, очевидно, придется производить лишь в A — />0)-й части всех случаев. Отсюда вытекает, что Н (aw) = Н (Э) + A - р0) Н (a'w), где H(aN), H(aN), П ф) — средние условные энтропии со- соответствующих опытов при условии, что нам известны N — 1 предшествующих букв (ср. с § 4 гл. II). А так как при большом N можно считать, что Н ф) = 0 (пробел восстанавливается по пред- предшествующим N — i буквам однозначно) и Н (aN) = Н^ ПР°6), H(a'N) = #2е3 Пр°б)> то мы получаем Н(с проб) = A _ р0) я(без
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 263 Сходные соображения могут быть использованы и для определения среднего количества информации Н^лова\ содержащейся в одном слове текста. Энтропию нулевого порядка одного слова //(слова) — iOg % можно оценить, подсчитав число К слов в каком-либо достаточно полном словаре данного языка; энтропию //<слова> = —р1 \Og р1— — р2 log р2 — ••• — рк l°g Рк можно подсчитать с по- помощью «частотного словаря», указывающего частоты (ве- (вероятности) рг, р2, . . ., рк отдельных слов 1). Однако не- непосредственное вычисление «условной энтропии первого порядка» //(слова> требует уже знания частот всевозмож- всевозможных сочетаний из двух слов, определить которые практи- практически невозможно, так как общее число таких сочетаний громадно. Еще менее перспективна задача вычисления по- последующих «условных энтропии» Hfлопа), #?слова) и т. д. При этом надо иметь в виду, что статистические связи между отдельными словами зачастую являются заметно бо- более жесткими, чем связи между буквами (появление в тек- тексте слова «дифференциальный» сильнее ограничивает веро- вероятности следующих за ним слов, чем, скажем, появление буквы «г» — вероятности последующих букв) и что связи эти замеТно более «дальнодействующие» (появление в на- начале сколь угодно толстой книги слова «лемма» резко уменьшает вероятность встретить слово «любовь» в ее конце). Все это делает вопрос об определении «предельной энтропии» («удельной информации») //<?лова) как будто бы чрезвычайно трудным. Сопоставим теперь друг другу два текста — написан- написанный обычным образом с помощью букв и «иероглифиче- «иероглифический», в котором за единую «букву» принимается целое слово (иероглифическая письменность как раз и характе- характеризуется тем, что в ней отдельные знаки обозначают целые слова). При этом каждый из двух текстов, разумеется, однозначно, восстанавливается по другому — зная все буквы какого-либо текста, мы знаем тем самым и все входя- входящие в него слова, а знание всех слов равносильно знанию буквенной записи. Поэтому и здесь «полная информация», 1) Вроде известного словаря Торндайка, о котором мы гово- говорили на стр. 87 (см. также [92] и другие статьи на тему о частот- частотных словарях, напечатанные в том же сборнике).
264 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV содержащаяся в двух текстах, будет одна и та же, т. е. Я?пова). число слов текста = Я^уквы) ¦ число букв текста. А так как отношение числа букв к числу слов равно сред- средней длине слова, то, следовательно, Я(слова) = ^(без проб) . g иди ^(слова) = ff<fi проб) . ((, + ^ где s — средняя длина слова (и, значит, s + 1 — среднее число приходящихся па одно слово «букв», к числу кото- которых причисляется также и пробел между словами). Из последней формулы вытекает соотношение г/ (слова) тт (буквы) , „ 1 со -"оо / , л у. lOg Л дЧслова) д(буквы) * ' '¦* log n ИЛИ где, как и выше, s — средняя длина слова, К — общее число.слов, встречающихся в рассматриваемых текстах, п — число «букв» алфавита, к которым причисляется и пробел между словами; под Я(б'квы> и ДСтивы) здесь, как и почти всюду выше, понимается Я<с проб) и i?(° пр°6). В частности, для русского языка мы имеем п = 32 и s + 1 = — = тг^Е- ^ 5,7; положив К = 50 000 (та- ково примерное число слов в довольно полных слова- словарях) *), мы получим ,. 7 Iog32 _ log 50 000 Таким образом, мы видим, что избыточность для слов заметно меньше избыточности для букв, т. е. что «иеро- «иероглифическая» письменность в известном смысле является J) Так как число слов К входит в предыдущую формулу под знаком логарифма, то неточность определения этого числа лишь незначительно отражается на результате (если положить К ~ 100 000, то мпожитель 1,85 в нижеследующей формуле за- заменится на 1,74).
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 265 более «выгодной», чем буквенная. Это обстоятельство тес- тесно связано с выгодой кодирования сразу длинных блоков из большого числа «букв», о которой много говорится в этой главе; слова как раз и являются подобными «бло- «блоками» (причем «блоками», вероятности появления которых сравнительно высоки). Ясно, что сходные соображения позволяют также связать отнесенные к одной букве текста значения эн- энтропии (информации) Н = //<*> и избыточности R с темп же величинами, определенными для какой-либо другой лингвистической единицы {слога, фразы, морфемы и т. д.; ср. со сказанным на стр. 280 относительно фонем). Это обстоятельство поясняет причины, в силу которых подав- подавляющее большинство теоретико-информационных иссле- исследований и:шка исходит из буквенного его алфа- алфавита: связь отнесенных к одной букве, слогу, слову и т. д. значений энтропии позволяет ограничиться рассмо- рассмотрением какой-либо одной из этих величии; с другой стороны, буквенный алфавит обладает преимуществами привычности, однозначной определенности (ибо для боль- большинства других лингвистических единиц вроде слога, морфемы или даже слова не существует точных определе- определений, не допускающих разных толкований самого опреде- определяемого понятия) и ограниченности (поскольку «алфавит» слов или, тем более, фраз языка является практически необъятным). Укажем еще, что связь между значениями //(буквы) и //(слова) может быть использована двояким образом! она позволяет свести определение величины //(олова) к (предполагаемой известной) величине //(буквы). с дру- другой стороны, эти же соображения позволяют оценить эн- энтропию //<буквы)? опираясь на полученные тем или иным способом приближенные значения #(слова>. Приближенное значение //(слова) (ТОчнее говоря, значение энтропии первого порядка //<слова)) можно вычислить, например, воспользовавшись так называемым законом Цип- ф а, утверждающим, что при упорядочивании слов языка в порядке их частот (т. е. вероятностей) частота п-го по порядку слова для всех не слишком больших значений п оказывается примерно пропорциональной 1/п. Этот закон был сформулирован и проверен на большом лингвистиче- лингвистическом материале в книге Дж. Ц и п ф а [93]; в дальнейшем
266 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV он многократно обсуждался и уточнялся целым рядом авторовх). Широко обсуждается, в частности, закон Ципфа в гл. 5 и 12 книги [3], в ч. I книги [94] и в статьях [95] — [96], где, в частности, воспроизведены заимствован- заимствованные из книги [93] графики, демонстрирующие приложи- приложимость закона Ципфа к текстам, написанным на разных язы- языках и имеющих разный характер (скажем — к тексту ро- романа «Улисс» Дж. Джойса и к «среднестатистическому» американскому газетному тексту). Первые применения закона Ципфа к определению энтропии слова (и оценке, исходя отсюда, также и энтропии одной буквы) указал еще Шеннон [751; дальнейшие относящиеся сюда данные могут быть найдены в статьях Е. Н ь ю м а н а и Л. Г е р- с т м а н а [87], Дж. Миллера [95] и М. Г р и г- н е т т и [97]. Приближенная оценка энтропии первого порядка Я(слова) до формуле Я(сж>ва) = _ ft jog р^_р^ bg p^_ • • • — Рк log рк была получена (в применении к ру- румынскому языку) И. Воинеску, А. Фрадисом и Л. Михаил еску (см. третью из работ [118]). Фактически, однако, эта работа посвящена энтропии не письменной, а устной речи (частоты pt, р2, . . ., рк здесь определялись из анализа магнитофонной записи ответов на длинную серию стандартных вопросов десяти разных испытуемых); поэтому более уместно о ней говорить в сле- следующем разделе нашей книги (см. ниже, стр. 279). Заме- Заметим, кроме того, что основная цель исследования Воинеску и др. заключалась вовсе не в определении величины //(слова) для обычного румынского языка, а в сравнении значений //у5™***), отвечающих речи здоровых людей, с соответствующими значениями, отвечающими речи дру- других десяти испытуемых, больных афавией (т. е. расстрой- расстройством речи вследствие частичного поражения головного мозга). Поэтому оно примыкает и к исследованиям стати- статистических характеристик «специальных языков», к рас- рассмотрению которых мы теперь и перейдем. *) Так, еще сам Ципф заметил, что в некоторых случаях более точпо считать, что частота п-го слова на самом деле пропорциональ- пропорциональна 11па, где постоянная а близка к единице, но все же не равна точпо единице (см. по этому поводу также работы 194], [96]).
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 267 Данные об энтропии одной буквы текста, о которых речь шла выше, относились, как правило, к «среднему литера- литературному языку», поскольку материалом для эксперимен- экспериментов по определению энтропии служили чаще всего л и- тературные тексты: так А. Н. Колмогоров и его сотрудники использовали произведения С. Т. Акса- Аксакова и И. А. Гончарова (см. стр. 259—260), а К. Ш е н нон [75], работавший в сотрудничестве со своей женой Бетти Шеннон, анализировал отрывки из книги Дюма Малона «Вирджинец Джефферсон». Но на стр. 237—238 уже указы- указывалось, что частоты появления различных букв могут зави- зависеть от характера рассматриваемого текста; точно так же и значения энтропии Hn или избыточности R будут различ- различными дли текстов, заимствованных из разных источников. При этом любой «специальный язык» (папример, научный или технический текст по определенной специальности, деловая переписка, какой-либо жаргон) будет, как прави- правило, иметь избыточность выше средней из-за меньшего ко- количества употребляемых слов и наличия часто повторяю- повторяющихся специальных терминов и оборотов — весьма благо- благоприятное обстоятельство, очень облегчающее просмотр научной литературы по определенной специальности или чтение такой литературы на недостаточно знакомом языке. Исключение в этом отношении могут представлять жар- жаргоны, специально преследующие своей целью уменьшение избыточности языка, например, воровской жаргон, на котором весьма краткие выражения могут иногда заменять длинные и содержательные фразы, или некоторые научные жаргоны с широко разработанной терминологией, вроде того, который употребляется в математике французской школой Бурбаки *); еще более яркий пример в этом на- направлении доставляет символический язык современной математической логики, характеризующийся исключи- исключительной смысловой насыщенностью. Вопрос о влиянии характера текста на значения энтропии и ивбыточности, приходящиеся на одну букву текста, исследовался ленинградским лингвистом Р. Г. Пиотровским и его] уче- учениками, в частности >—Н. В. П е т р о в о й, сравнившими теоре- теоретико-информационные характеристики равных типов русской *) Более общедоступный пример разобран в статье [80],'о ко- которой мы уже говорили выше (стр. 252).
268 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV и французской речи (см. [67], [83], [98]I). При этом в соответствии со сказанным выше избыточность «деловых» текстов оказалась за- заметно больше «средней» избыточности языка и избыточности ли- литературных текстов. В противоположность этому избыточность разговорной речи, найденная в этих работах, оказалась немного ниже средней — видимо, в первую очередь в силу большей «воль- «вольности» разговорной речи, меньшей стесненности ее правилами сти- стилистики и даже просто грамматики. Полученные Р. Г. Пиотров- Пиотровским и его группой результаты собраны в следующей таблице: Язык в целом Разговорная речь Литературные тексты Деловые тексты (п бит/букву) русск. яз. 1,37 1,40 1,19 0,83 франц. яз. 1,40 1,50 1,38 1,22 п (в процентах) русск. яз. 72,6 72,0 76,2 83,4 франц. яз. 70,6 68,4 71,0 74,4 Более частный характер имеет исследование ленинградцев О. Л. Смирнова и А. В. Екимова 199], изучавших харак- характеристики случайно взятой выборки телеграфных текстов объемом в 15 000 букв; при этом использовался метод угадывания Шеннона (и идущее от А. Н. Колмогорова его уточнение; ср. стр. 256 и след.). Полученный Смирновым и Бкимовым результат: ^¦(телегр. русск. языка) ^ j ^.^(литературн. русск. языка) естественно связан с намеренным уменьшением избыточности телеграфных тек- текстов (например, за счет пропуска союзов). Другой «специальный язык» — язык переговоров по радио между дежурным на аэродроме и пилотами находящихся в воздухе самолетов, был изучен американскими учеными Ф. Ф р и к о м и У. С а ы б и [100], а также Э. Фрицеми Дж. Грайером 1101]. Естественно, что рассматриваемые в этих работах переговоры очень стандартны по своей форме и ограничиваются несколькими постоянно повторяющимися узкими темами. Неудивительно по- поэтому, что избыточность соответствующей речи (оцениваемая или с помощью «опытов по отгадыванию», или же с помощью непосредст- непосредственного изучения статистики небольшого числа стандартных обо- *) Р. Г. Пиотровский и Н. В. Петрова использовали метод угадывания Шеннона в уточненном А. Н. Колмогоровым его ва- варианте (ср. стр. 257—259). Указываемые этими авторами значения избыточности R ниже приведены в соответствие с взятыми из тех же работ значениями Н.
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 269 ротов, ив которых складываются эти переговоры) оказалась за- заметно превышающей избыточность «литературного языка». В част- частности, ограничившись еще более узким классом сообщспий, пере- передаваемых дежурным пилоту приземляющегося в определенных условиях самолета, Фрик н Самби получили для избыточности значение, близкое к 96% (почти то же значение избыточности, близкое к 93%, можно получить, исходя из результатов Фрица н Грайера). Столь большая избыточность здесь имеет вполне ясные основания — из-за наличия значительных помех (связанных с соз- создаваемым самолетами шумом) меньшая избыточность могла бы привести к ошибкам при приеме, могущим в рассматриваемом слу- случае иметь самые тяжелые (даже трагические) последствия. Высокая избыточность, характерная для любого «специаль- пого языка», учитывается, например, при составлении кодов для деловой переписки больших американских фирм. В настоящее вре- время такие коды разрабатываются с непременным участием специалис- специалистов но теории информации, и наличие в ведущихся фирмой пере- гопорпх частых повторений отдельных слов и целых оборотов поз- позволяет песьма :П111Ч111('Л1.11A ионысить экономность кодой. Со сказанным связан такжо интересный, но пока мало изученный вопрос о различиях в избыточности языка разных литературных текстов. Можно предпола- предполагать, что разные литературные жанры отличаются разной избыточностью, связанной с присущей именно этому типу произведений манерой изложения; можно думать также, что и внутри одного литературного произведения в разных отрывках (диалог, описание и т. д.) избыточность будет разной. Высокая избыточность может характери- характеризовать избитый, шаблонный язык литературного произ- произведения, но может также служить лишь свидетельством неторопливой манеры автора (так, высокая избыточность была обнаружена в упомянутых на стр. 259—260 экспери- экспериментах по определению энтропии одной буквы текста в «Литературном вечере» И. А. Гончарова, написанном спо- спокойным, плавным языком, характеризующимся большим числом достаточно естественных подробностей). Низкая избыточность может служить свидетельством богатства и яркости (неожиданности, нестандартности) литературной речи (возможно, здесь примером может служить язык У. Фолкнера) — однако слишком низкая избыточность языка литературного произведения неизбежно будет вос- восприниматься как нарочитая усложненность речи. Еще более низкую избыточность будет иметь «заумь» типа той, которую употреблял русский поэт В. Хлебников (напомним, что нулевая избыточность характеризует
270 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV приведенную на стр. 237 «фразу», которую вряд ли можно считать отличающейся «хорошей» литературной формой). Примыкает сюда и широко обсуждавшийся в 60-х годах вопрос о сравнении избыточности прозаической и поэти- поэтической речи (см. [102] — [104] и ряд статей в сборнике [105]; ср. также включенные в ссылку [84] статьи Л. Д о- лежеляи Е. Никола у, К. Сала, А. Роче- р и к). Ясно, что поэтическая форма (ритм, рифма) накла- накладывает на язык некоторые дополнительные ограничения, т. е. повышает его избыточность. Можно даже пытаться оценить численно, скажем, влияние ритма стиха, опреде- определив количество словосочетаний, удовлетворяющих задан- заданной ритмической схеме, и сравнив его со всем богатством словосочетаний; удобно при этом исходить из словаря, определенного по прозаическим произведениям *того же автора*). Несколько сложнее учесть влияние рифмы, но и здесь вполне возможны грубые оценки. Ориентиро- Ориентировочные оценки, проведенные А. Н. Колмогоровым для классического русского четырехстопного ямба (этим сти- стихом написан, например, «Евгений Онегин» А. С. Пушки- Пушкина 2)), показали, что выполнение требований, накладывае- накладываемых поэтической формой, снижает «неопределенность» H^ одной буквы текста на довольно значительную величину, порядок которой сравним с половиной величины #«,, под- подсчитанной для «среднелитературного» текста. И в самом деле, проведенный А. Н. Колгогоровым опыт по угады- угадыванию последующих букв показал, что для «плохого» стиха, в котором уменьшение содержащейся в одной букве информации не компенсируется свойственными «хорошим» стихам повышенной эмоциональностью, яркостью речи и богатством словаря, «предельная информация» #«., при- приходящаяся на одну букву текста, существенно (примерно вдвое) меньше величины //«,, определенной для класси- *) См., например, работу А. М. Кондратова [103], в которой подсчитывается энтропия невысокого порядка, определяе- определяемая ритмической схемой русского стихотворного и прозаического (научного, делового, художественного и разговорного) текста (в битах/слог); ср. также статью Г. Л ю д т к е (Н. Liidtke) «Срав- «Сравнение метрических схем в отношении их избыточности» в сбор- сборнике [105]. 2) Четырехстопный ямб характеризуется строфой, теоретиче- теоретически состоящей из восьми правильно чередующихся ударных и без- безударных слогов (на практике некоторые ударения иногда выпадают).
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 271 ческой русской прозы *). Однако в произведениях больших поэтов уменьшение информационной насыщенности одной буквы текста, связанное с соблюдением известных фор- формальных правил, по-видимому, в очень большой степени компенсируется повышенной яркостью и нестандартностью речи, так что вполне можно ожидать, что здесь избыточ- избыточность языка имеет тот же порядок, что и избыточность про- прозаических литературных текстов. Обсуждению влияния различных связанных с литературным стилем факторов на значение энтропии и избыточности речи посвя- посвящена работа У. П е й с л и [106] (в которой, к сожалению, исполь- использовалась не особенно надежная методика Е. Ньюмана и Л. Герстмана [87] и Е. Ньюмана и Н. Во [86]). Пойсли проанализировал 39 разных отрывков английского текста и сравнивал между собой эптрошш: а) двух стихотворных переводов «Илиады», принадлежащих разным авторам; б) четырех переводов двух различных отрывков из той же «Илиады», а также четырех (современных) переводов двух отрывкол из одной главы евангелия от Матвея (в обоих случаях выбирались ваметпо отличающиеся по содержанию отрывки); в) четырех прозаических и чотырех стихо- стихотворных переводов «Илиады», г) девяти разных переводов евангелия от Матвея, относящихся к разным эпохам. В ряде случаев обна- обнаруженная У. Пейсли разница между значениями энтропии, при- приходящейся на одну букву текста, оказалась ощутимой, причем здесь можно было заметить даже некоторые общие закономерности (вроде уменьшения избыточности литературных текстов е приближе- приближением времени написания к современному); впрочем, все эти выводы еще нуждаются в дополнительной проверке. Близкий характер имеют упоминавшиеся выше исследования [89], посвященные ряду индийских языков; в этих работах также сопоставляются значения энтропии, вычисленные для текстов раз- разного характера (например, прозаических и поэтических) и разного времени написания. Некоторые из полученных в работах 189] резуль- результатов епределенным образом перекликаются с полученными У. Пей- Пейсли на материале английского языка; впрочем, сопоставление здесь затрудняется существенна разными алфавитами английской и индийских письменностей (ср. со сказанным на стр. 255—256). Из работ, более непосредственно связанных с сопоставлением прозаической и поэтической речи (вопрос, не обойденный внима- вниманием также в статьях [106] и [89]), в первую очередь назовем ис- исследования Л. ДолежеляиЕ. Няколау, К. Сала, А. Рочерик (см. [84]), подсчитавших энтропии разных поряд- порядков для прозаической и поэтической чешской и румынской речи и даже для отдельных прозаиков и поэтов; впрочем, полученные этими авторами предварительные оценки явно еще нуждаются в *) Сопоставлялись «Поединок» А. И. Куприпа и напечатан- напечатанное на обороте одного из листков отрывного календаря стихотво- стихотворение весьма скромного литературного достоинства.
2 72 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV уточнении. С. Маркус [104] предпринял рискованную попытку перенести в поэтику связи между понятиями «энтропии» и «энер- «энергии»; на этой базе он рассмотрел некоторые содержащиеся в работе Е. Николау, К. Сала и А. Рочерик результаты, касающиеся под- подсчета энтропии для произведений Эминеску, относящихся к раз- различным периодам творчества поэта. Более частный характер имеет работа Т. Тарноци [102], в которой подсчитан ряд теоретико- информационных характеристик венгерской прозы и поэзии. Укажем в заключение, что само применение к (уникальным по самому определению!) литературным текстам стандартных теоре- теоретико-информационных представлений, возникших в связи с чисто прикладными задачами техники связи и игнорирующих вопрос о смысловом содержании передаваемого сообщения, а базирующих- базирующихся лишь па чисто статистических понятиях (типа частот букв в «статистическом ансамбле» некоторого «среднего текста»; однако какое содержание можно вложить в понятие «статистического ан- ансамбля» стихов А. С. Пушкина?), вызывало и вызывает известные сомнения. Для А. Н. Колмогорова (см. [15]) эти соображения} по- послужили поводом для широкой постановки вопроса о возможностн разных подходов к самому понятию «количества информации» и для пропаганды «чисто комбинаторного» подхода к этому понятию, в частности, в применении к изучению энтропии языка и, особенно, литературных текстов. Сущность комбинаторного подхода к определению энтропии заключается в следующем. Шенноновскую энтропию Н, приходящуюся на одну букву текста, можно определить условием, что для n-буквепного алфавита число iV-буквенных текстов (где N достаточно велико), удовлетворяющих заданным статистическим ограничениям, равно не nN = 2log>l'N (= 2H°N), как было бы, если бы мы имели право брать любые наборы из N последователь- последовательных букв, а всего лишь М = 2нгу(ср. стр. 82—83 и 225). В соответст- соответствии с этим, владея понятием «осмысленного» текста, мы можем определить энтропию И как где М (N) есть число всевозможных осмысленных текстов длины N; это последнее определение уже не зависит ни от каких теоретико-вероятностных представлений. Пытаясь численно оценить значение «комбинаторной энт- энтропии» ЯкомВ> число М (N) можно оценивать с помощью подсчета числа возможных продолжений текста. А именно, пусть * — «пустое» слово, вовсе не содержащее букв; далее через I (* аха2 . . . ofc) (или через / (e^Oj . . . о^), где оь о2, . . ., «^ —неко- —некоторые буквы рассматриваемого языка) обозначим число всевоз- всевозможных «осмыслепных продолжений» последовательности букв ejOj . . Ofj, т. е. число таких букв х, что отрывок а^а^ . . . о^ж может быть продолжен до осмысленного текста. В таком случае значение М (n) = I (*)l (*%)Z (*%o2) . . . I (*%o2 . . . fljv-i)
3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 273 осредненное по ряду цепочек букв, можно рассматривать как оценку интересующей пас величины М (N). Сказанное намечает путь к чисто комбинаторным расчетам энтропии и избыточности «грамматически правильного» текста. Пер- Первые попытки такого рода были выполнены А. Н. Колмогоровым и ого сотрудниками (см. первую из работ [15]); при этом число возможных продолжений текста здесь определялось по списку слов, включенных в «Словарь русского языка» С. И. Ожегова. Получен- Полученная при этом оценка Н = A,9 ±0,1) бнт/букву, естественно, замет- заметно превышает указанные на стр. 260 оценки энтропии «литератур- пых текстов» (так как «степень неопределенности» буквы литера- литературного текста ограничена отнюдь не одними лишь требованиями грамматической правильности). К сожалению, более подробное описание этих исследований, а также результатов аналогичных исследований, начатых в Ленинграде Р. А. Зайдманом, пока не опубликовано. Устная речь Перейдем теперь к затронутому уже на стр. 2G8—2G9 вопросу об энтропии и информации устной речи. Ес- Естественно думать, что все статистические характеристики такой речи будут еще более зависеть от выбора разговари- разговаривающих лиц и от характера их разговора, чем это наблю- наблюдалось в случае речи письменной — ведь письменная речь, как правило, является более «сглаженной», чем устная. И хотя по данным Р. Г. Пиотровского и его сотрудников «в среднем» энтропия устной речи несколько выше энтро- энтропии письменных текстов, для некоторых типов устной речи (см., скажем, пример в конце стр. 268) это будет безусловно не так. Пониженное значение энтропии устной речи может быть связано с тем, что в разговоре мы зачастую употреб- употребляем больше повторений одних и тех же слов (меньше за- заботимся о «красоте стиля») и нередко добавляем довольно много «лишних» (т. е. не несущих содержательной инфор- информации) слов — это делается как для облегчения восприятия речи, так и просто затем, чтобы говорящий имел время обдумать, что он хочет сказать дальше. В частности, очень высока избыточность разговоров при высоком уровне помех (например, в гудящем самолете, вагоне электрички или в метро), а также разговоров пьяниц, упрямо повторяю- повторяющих одни и те же (как правило, далекие от «высокой» ли- литературы) слова и выражения — последнее связано с тем,
274 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV что в этом случае затруднено и само произнесение речи, а не только ее восприятие. Определив среднее число букв, произносимых за еди- единицу времени, можно приближенно оценить количество информации, сообщаемое при разговоре за 1 сек; обычно оно, по-видимому, имеет порядок 5—6 бит (это количество информации,естественно, сильно зависит от «скорости разго- разговора», которая может меняться весьма значительно! «очень быстрая» речь почти в 5 раз скорее «очень медленной» 1)). Эти данные согласуются с данными физиологической аку- акустики, позволяющими оценить общее число произнесен- произнесенных человеком в единицу времени «различимых звуков» (ср. обзор Дж. Миллера [95]). Однако эта оценка скорости передачи информации при разговоре относится лишь к «смысловой информации», ко- которую можно извлечь и из записи сказанных слов. На са- самом деле живая речь всегда содержит, кроме того, еще довольно значительную дополнительную информацию, которую говорящий сообщает нам иногда добровольно, а иногда и прямо против своего желания; эта дополнитель- дополнительная информация может и противоречить «смысловой ин- информации», причем в таких случаях она, как правило, заслуживает большего доверия. Так, из разговора мы мо- можем судить о настроении говорящего и об его отношении к сказанному; мы можем узнать говорящего, если даже никакие другие источники информации (включая сюда и «смысловую информацию») не указывают нам его; мы мо- можем во многих случаях определить место рождения не- незнакомого нам человека по его произношению (последнее обстоятельство играет основную роль в завязке действия пьесы Б. Шоу «Пигмалион»); мы можем оценить громкость устной речи, которая в случае передачи голоса по линии связи (телефон, радио) во многом определяется чисто тех- техническими характеристиками линии передачи, и т. д. Количественная оценка всей этой информации представ- представляет собой очень сложную задачу, требующую вначитель- й) Мы не говорим здесь, разумеется; о разговорах с особо вы- высокой избыточностью, типа обсуждавшихся выше: так, в случае переговоров между пилотом и дежурным на аэродроме скорость передачи информации не превосходит 0,2 бит/сек, т. е. намного меньше, чем для самого медленного разговора на общие темы,
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 275 но больших знаний об языке, чем имеется в настоящее время; в частности, здесь нужны весьма обширные и раз- разнообразные статистические данные, пока почти полностью отсутствующие. Исключением в этом отношении является сравнительно узкий вопрос о логических ударениях, подчеркивающих в фразе отдельные слова; эти ударения также несут опре- определенную информационную нагрузку, которую (для част- частного случая разговоров по телефону) можно оценить коли- количественно. Необходимые для этого статистические данные были получены английским связистом Дж. Б е р р и [107], проанализировавшим ряд «типичных английских теле- телефонных разговоров»; в частности, согласно данным Берри ударонио чащо всого падает на наиболее редко употреб- употребляемые слона (что, впрочем, довольно естественно — ясно, что вряд ли кто будот выделять логическим ударением наиболее распространенные слона — например, предлоги или союзы). Если вероятность того, что данное слово WT находится под ударением, мы обозначим через qr, то сред- средняя информация, заключающаяся в сведениях о наличии или отсутствии ударения на этом слове, будет равна —ft. log ft — A — qr) log A — qr). Пусть теперь plt p2, . . ., рк — вероятности (частоты) всех слов Wu W2, . . ., WK (здесь К — общее число всех упо- употребляемых слов; вероятности ри рг, . . . рк, играющие основную роль во всех статистических теориях языка, приводятся в так называемых «частотных словарях» — ср. выше, стр. 263). В таком случае для средней информа- информации Н, заключенной в логическом ударении, можно написать следующую формулу: Н = рг [—ft log ft — A — ft) log A — ft)] + + Ps l— Яг bg ft — A — ft) log A - ft)] + . . . . • • + Рк l—Як log дк — A — Як) log A — ft?)]. Подставив сюда данные Берри, французский ученый Б. Мендельброт Ц08] подсчитал, что средняя информация, которую мы получаем, выяснив, на какие слова падает логическое ударение, по порядку величины близка к 0,65 бит/слово. Что же касается всей вообще разнообразной «несмыс- ловой» информации, содержащейся в устной речи, то
276 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV имеющиеся данные позволяют дать лишь весьма грубую и несовершенную оценку ее суммарной величины. Такая оценка была получена немецким связистом К ю п ф м ю л- л е р о м в интересном исследовании [82] об устной и пись- письменной немецкой речи, о котором мы уже упоминали раньше. В своей работе Кюпфмюллер и не пытался учи- учитывать сложные статистические закономерности инто- интонаций, тонов голоса и других особенностей речи; по су- существу он ограничился лишь «нулевой энтропией» Но, связанной с числом различных возможностей, а затем гру- грубо ориентировочно принял соответствующую избыточность равпой 50%. Наряду с информацией, содержащейся в ин- интонации, Кюпфмюллер отдельно оценил информацию, связанную с индивидуальными особенностями голоса го- говорящего человека, а также информацию, доставляемую громкостью речи; сумма трех полученных при этом вели- величин сопоставлялась с содержащейся в той же речи «смы- «смысловой информацией». Для оценки общего числа распо- распознаваемых степеней громкости и общего числа «речевых мелодий» (типов интонации, определяемых небольшими изменениями основной частоты голосовых колебаний) были привлечены данные физиологической акустики*); общее число различаемых человеком индивидуальных голосов определялось, так сказать, «на глаз». Естест- Естественно, что найденные на этом пути оценки «общего числа возможных исходов» не могут претендовать на особенно большую точность; однако, так как информация опреде- определяется логарифмом этого числа, то даже грубые оценки позволяют подсчитать информацию с весьма приличной точностью (ведь при общем числе возможных исходов порядка 1 000 для того, чтобы преувеличить информацию в два раза, пришлось бы преувеличить это число возмож- возможностей в 1000 раз!). Подобные подсчеты привели Кюпф- мюллера к выводу, что дополнительная информация, со- содержащаяся в интонации, громкости и особенностях инди- индивидуального голоса при нормальном разговоре не должна *) Может показаться, что громкость и интонация могут менять- меняться непрерывным образом, так что здесь должно иметься бесконеч- бесконечно много разных возможностей. На самом деле, однако, челове- человеческое ухо различает лишь конечное число разных степеней гром- громкости и конечное число интонаций; подробнее об этом мы еще бу- будем говорить ниже (см. стр. 290 и след.).
3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 277 превосходить 75% от «смысловой информации»; при очень быстром разговоре она составляет не более 30% от смы- смысловой информации, а при очень медленном — не более 150% (существенное различие этих чисел частично может объясняться тем, что при быстром разговоре мы можем распознать заметно меньше разных голосов и меньше раз- различаем интонацию) 1). В работе Кюпфмюллера указаны также «удельная» эн- энтропия и информация устной речи, отнесенные к одной произнесенной букве. Фактически, однако, эти цифры имеют лишь условный характер (они нужны только для сравнения устной речи с письменной); в действительности жо но л ром я разговора отдельные буквы никогда не про- произносятся, п нроизпосятся звуки, существепно отличаю- отличающиеся от буки. Поэтому основным племоптом устной речи (в том же смысле, в каком буква является основным эле- элементом письменной речи) надо считать отдельный звук — фонему. Осмысленная устная речь составляется из фонем точно так же, как осмысленная письменная речь составляется из букв; при передаче устной речи по линии связи мы должны только проследить, чтобы все фопемы передавались правильно — тогда и смысл всей речи будет передан правильно, т. е. никакая часть «смысловой инфор- информации» не будет потеряна. Поэтому во всех случаях, когда нас интересует лишь передача «смысловой информации» устной речи (а таких случаев—большинство), наибольший интерес представляет не энтропия и информация одной «произнесенной буквы» (являющейся чисто условным по- понятием), а энтропия и информация одной реально произ- произнесенной фонемы. Список фонем данного языка, разумеется, не совпадает со списком букв алфавита. Общее число фонем заметно превышает число букв, так как одна и та же буква в раз- разных случаях может звучать по-разному (например, про- произношение гласной существенно зависит от того, находится *) По-видимому, это обстоятельство связано с тем, что веду- ведущие от органов слуха к головному мозгу нервные каналы могут пропускать за определенное время лишь строго определенное ко- количество информации (см. ниже, стр. 318—320). Поэтому увеличе- увеличение скорости передачи «смысловой информации» неизбежно влечет за собой уменьшение скорости передачи по тем же каналам инфор- информации другого типа.
278 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗЩ 1Гл. IV ли она под ударением или не находится; одна и та же согласная может произноситься и твердо и мягко и т. д.). При этом приходится иметь в виду, что если даже в отно- отношении числа букв алфавита возможны разные точки зрения (так, например, не совсем ясно, следует ли считать е и ё или и и й одной или двумя буквами русского алфавита; далее, в относящихся к телеграфии исследованиях обычно принимают ь и ъ за одну букву, что, разумеется, вовсе не всегда можно считать оправданным1)), то в отношении «ал- «алфавита фонем», по поводу самого определения которых (см., например, В. А. Успенский [109]) лингвисты пока не пришли к согласию, расхождения между отдельными авторами являются неизбежными. В частности, американ- американские ученые Е. К. Черри, М. Халле и Р. Якоб- Якобсон [110] (ссылающиеся на ряд авторитетных советских лингвистов) выделили в русском языке 42 различные фо- пемы и подсчитали частоты отдельных фонем (а также различных комбинаций двух и трех следующих друг за другом фонем), воспользовавшись, в основном, довольно старыми и неполными данными известного русского фило- филолога А. М. П е ш к о в с к о г о [111] 2). Исходя из этих данных, они определили значения «максимальной возмож- возможной энтропии» Но = log 42 одной фонемы, энтропии первого порядка Их = —рх log pt — pz log рг — ... • • • — Pn 1°? Рил (гДе Ръ Ра» • • ¦¦> Рп — относительные частоты различных фонем) и «условных энтропии» Я2 и На (определяемых в точности так же, как и для письменной речи). Полученные результаты (в битах) сведены в сле- следующую таблицу: Я3 т Я2 т log 42 к. 5,38 4,77 3,62 0,70 *) Это отождествление смазывает существенное различие меж- между частотой букв ь п ъ (первая ив которых встречается в тексте много чаще, чем вторая; напротив, при использовании «старой орфографии», принятой в нашей стране но 1917 г., буква ъ ока- оказывается гораздо более частой, чем ь). 2) Гораздо более широкое исследование частот отдельных фо- фонем в их парных комбинаций (проведенное на обширном совре- современном материале) было выполнено на кафедре фонетики Левин- градского государственного университета (см. Л. Р. 3 и н д е р [112]); в этом исследовании общее число фонем было принято рав- равным 48 (в первую очередь за счет более детального разграничения гласных звуков).
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИИ 279 Поучительно сравнить эти значения с приведенными на стр. 246 значениями величин Но, Нг, Н2п Hs для пись- письменной русской речи (ср. также стр. 254 и др.). Сравнение показывает, что если только данные работы [110] являются обоснованными х), то убывание ряда условных энтропии для фонем происходит заметно быстрее, чем в случае букв письменного текста. В отношении английской устной речи некоторые ре- результаты были подучены Дж. Б л э к о м и П. Д ь е- н е ш е м {см. [113]). Первый из этих авторов подсчитал энтропии Но, Нг и Н2 одной фонемы по статистическим данным, относящимся к совокупности одно- и двусложных апглийских слов (которая, разумеется, не характеризует еще песь английский язык в целом), причем число фонем он считал рпвпым 41. Второй автор определил относитель- относительные частоты фоном и всех их пнрпых сочетаний («ди- («диграмм» по данным, относящимся к «сродному английскому языку», и приняв число фонем равным 45 (энтропия Ht одной диграммы, следующая из данных Дьенеша, при- приведена в работе [115]). Родственные статистические ре- результаты о фонемах и парах фонем французской речи опубликованы Ж. Гатоном м М, Ламоттом [114]. Немецкий ученый В. Эндрес [115] попытался оценить суммарную избыточность одной фонемы немецкой и английской речи, воспользовавшись спектрограммами фонем (дающими представление фонемы в виде некоторой фигуры на плоскости) и применив затем методы прибли- приближенного определения избыточности соответствующих ри- рисунков, родственные использованным в заключительной части работы [135] (о которой см. ниже, стр. 303 и след.) для оценки избыточности изображений букв в машинописном тексте; согласно его данным для обоих языков избыточность фонем имеет порядок 80 — 85% (т. е. близка к избыточ- избыточности букв письменной речи). Изучению энтропии низких порядков в устной румынской речи (и сравнению полу- полученных данных с теми, которые относятся к письменной 1) К сожалению, в работе [110] не указан точно объем материа- материала использованного для определения частот различных фонем и их двойных и тройных сочетаний. Поэтому можно опасаться, что значение Н$ оказалось сильно заниженным из-ва недоста- недостаточности статистических данных (ср. ниже сноску на стр. 289).
280 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV речи) посвящена работа А. Ф р а д и с а, Л. М и х а ii- ле с к у и И. Воинеску [116]; относящиеся к та- татарскому языку данные имеются в работе Т. И. Ибра- Ибрагимова [117]. Отметим, наконец, работы И. Воине- Воинеску, А. Фрадиса и Л. М и х а й л е с к у [118], посвященные сравнению теоретико-информационных ха- характеристик (энтропии Нх и Н2 одной фонемы, разностей Но — H-l, а также энтропии //(слова); см. выше стр. 263) устной речи здоровых людей и людей больных афазией (т. е. расстройством речи). При этом оказалось, что для речи больных афазией энтропии Ни Н2 и /7<слова) все принимают заметно меньшие значения, чем для речи здо- здоровых людей (т. е. избыточность речи здесь заметно повы- повышается), а кроме того указанные энтропии еще, как пра- правило, и гораздо сильнее меняются при переходе от одного больного к другому, чем при переходе от одного здорового человека к другому (особенно реэкий характер преобре- тают указанные явления в применении к величине ц^"ова\ существенно зависящей от объема словаря говорящего и от степени равномерности использования им слов этого словаря). С помощью соображений, использованных нами выше для определения избыточности д(слова)? можно также ус- установить связь между избыточностями устной и письмен- письменной речи. Из того, что устная речь может быть записана, а письменная — прочитана, следует, что «полная инфор- информация», содержащаяся в определенном тексте г), не зави- зависит от того, в какой форме — устной или письменной — этот текст представлен, т. е. что #?уквы). число букв = //S0HeMbI)- число фонем (ср. выше, стр. 264). Отсюда вытекает, что где со есть среднее число букв, приходящихся на одну фонему («средняя длина фонемы»); зта величина явля- является важной статистической характеристикой языка, х) Разумеется, в случае устной речи здесь учитывается лишь содержащаяся в ней «смысловая» информация (ср. выше, стр. 274).
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 281 связывающей устную и письменную речь. Из последней формулы следует также, что (ср. стр. 262 и 264) Я(фонемы) Я(буквы) к ИЛИ = . ю д(фонемы) д(буквы) - log n ^(фонемы)ч __ /J ^(буквыХ _ ^ tog я где /с — общее число фонем, аи — число букв; за здесь естественнее принимать R^3 проб) Однако исполь- использование этой формулы затрудняется отсутствием стати- статистических данных, позволяющих определить величину со (даже по поводу числа фонем к мы не имеем пока едино- единодушного миопия филологоп) '). Музыка Исследования того же рода могут быть пропедетш и в отношении музыкальных сообщений. Естест- Естественно думать, что связи между последовательными зву- звуками некоторой мелодии, выражающимися отдельными нотными знаками, достаточно сильны: так как одни соче- сочетания звуков будут более благозвучны, чем другие, то первые будут встречаться в музыкальных произве- произведениях чаще вторых. Если мы выпишем ряд нот на- наудачу, то информация, содержащаяся в каждой ноте этой записи, будет наибольшей; однако с музыкальной точки зрения такая хаотическая последовательность нот не будет представлять никакой ценности. Для того чтобы получить приятное на слух звучание, необходимо внести в наш ряд определенную избыточность; при этом, однако, можно опасаться, что в случае слишком большой избыточности, при которой последующие ноты уже почти однозначно х) Сопоставив фонемы английской речи 43-м фонетическим виакам, употребляющимся в англо-русских словарях, мы сможем приближешю определить «среднюю длину фонемы» со из сравнепия длины буквенной записи английских слов и их фонетической тран- транскрипции. При этом получается со х-1,2, что дает A _ ^(Фонемы)) = A _ ^(буквы)) . j 2 .|?||1 ~ 1H5 A _
282 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV определяются предшествующими, мы получим лишь край- крайне монотонную и малоинтересную музыку. Какова же та избыточность, при которой может получиться «хорошая» музыка? Весьма правдоподобно, что избыточность простых мело- мелодий никак не меньше, чем избыточность осмысленной речи; представляло бы интерес специально изучить вопрос об избыточности различных форм музыкальных произведений или произведений различных композиторов. К сожалению, в настоящее время мы имеем еще мало конкретных дан- данных такого рода. Одни из первых результатов в этом на- направлении были получены в 1956 г. американским ученым Р. Пинкертоном [119], проанализировавшим с точ- точки зрения теории информации популярный в Америке альбом детских песенок. Для простоты в этой работе предполагалось, что все звуки находятся в пределах одной октавы; так как к тому же в рассматриваемых мелодиях не встречались так называемые хроматизмы, то все эти мелодии могли быть приведены к семи основным звукам; 0о, ре, ми, фа, соль, ля и си (которым на фортепьяно соот- соответствуют белые клавиши). Все анализируемые песенки записывались как последовательности этих «основных элементов», каждый длительностью в одну восьмую; учет звуков, длительностью более одной восьмой, осуществлял- осуществлялся с помощью добавления к семи нотам восьмого «основ- «основного элемента» О, обозначающего продление предшествую- предшествующего звука еще на промежуток времени в одну восьмую (или же паузу в одну восьмую). Таким образом, «макси- «максимальная возможная энтропия» Но одной ноты здесь равна Но = log 8 = 3 бита. Подсчитав частоты (вероятности) отдельных нот во всех 39 анализируемых песенках, Пинкертон нашел, что #! = — р (О) log р(О) — р (до) log р (до) — р (ре) log p (ре) — — р (ми) log р (ми)— р (фа) log р (фа)— р (соль) log p (соль) — — р (ля) logр (ля)—р (ев) log р (си) ж 2,73 бит; здесь, например, р (до) означает вероятность ноты до. Воспользовавшись найденными Пинкертоном вероятно- вероятностями сочетаний из двух нот, можно подсчитать также условную знтропию Нъ, она оказывается близкой к 2,42 бит (впрочем, в статье Пинкертона указываются лишь
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 283 определенным образом осредненные вероятности двух- нотных сочетаний, так что полученное значение Н2 яв- является завышенным). Разумеется, по одним только зна- значениям Нх и Н2 еще очень мало что можно сказать о сте- степени избыточности рассматриваемых мелодий (можно лишь сказать, что, по-видимому, она заметно выше, чем 1 k- m 0,2). Некоторые косвенные данные, под- подтверждающие этот вывод, будут приведены ниже. Еще до появления работы Пинкертона па конференции по теории информации в Лондоне (осень 1955 г.) было сооб- сообщено о работе Ф.иК.Аттнив, подсчитавших часто- частоты отдельных нот и двунотных комбинаций в ряде аме- американских ковбойских песен. Значительно более деталь- детальное исследование такого рода было выполнено в 1957 г. в лаборатории вычислительных машин Гарвардского уни- университета (см. Ф. Б р у к с и др. [120]). Здесь были про- проанализированы отрывки из 37 гимнов различных компо- композиторов и эпох, имеющих одну и ту же метрическую струк- структуру. Применение быстродействующей электронной вы- вычислительной машины позволило авторам отказаться от упрощения, заключающегося в отнесении всех нот к одной и той же октаве; в качестве различных «основных элемен- элементов» здесь рассматривались все ноты четырех октав хроматической гаммы (включающей также и пять проме- промежуточных звуков, соответствующих черным клавишам фортепьяно) — всего 49 различных элементов, не считая специальных обозначений для звуков, продолжающихся иа предыдущего временного интервала. За единицу дли- длительности одного основного элемента была снова выбрана длительность в одну восьмую, так как более короткие но- ноты ни в одном из рассматриваемых гимнов не встречались. С помощью современных средств вычислительной тех- техники Брукс и др. подсчитали частоты всех отдельных «основных элементов», всех комбинаций из двух соседних таких элементов, из трех элементов и т. д., вплоть до ком- комбинаций из восьми соседних элементов включительно. Полученные результаты в принципе дают возможность написать приближенные выражения для всех условных энтропии от Но, Hlt #2 и до Hs включительно. Правда, при этом надо иметь в виду, что использованный стати- статистический материал (состоящий из 37 небольших отрывков
284 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV из различных гимнов) заведомо недостаточен для полу- получения сколько-нибудь надежных оценок вероятностей сочетаний из большого числа нот; поэтому найденные на этом пути значения энтропии высоких порядков (энтро- (энтропии Нй, Н7 и Нв, во всяком случае) были бы очень мало обоснованы. Тем не менее уже и значения первых несколь- нескольких условных энтропии могут иметь определенный ин- интерес; поэтому можно только пожалеть, что авторы рабо- работы [120] не произвели таких вычислений (и не привели никаких данных, позволяющих как-нибудь оценить соот- соответствующие энтропии). Аналогичный анализ мелодий известного американ- американского сочинителя песен Стефана Фостера A826—1864) был выполнен (правда, в более скромных размерах) Г. Олсоном и Г. Беларом 1121]. Эти авторы рассмотрели 11 наиболее популярных песен Фостера и, положив в основу музыкальную шкалу из 12 разных нот (охватывающих полторы октавы), подсчитали частоты (т. е. эмпирические значения вероятностей) каждой от- отдельной ноты и всевозможных групп из двух и трех после- последовательных нот. Ясно, что исходя из полученных данных можно без труда оценить также и условные энтропии Но, Нг, Н2 и Н3 одной ноты в песенках Фостера (хотя это и не было сделано в статье [121]). Дальнейшие сведения об исследованиях статистических закономерностей музы- музыкальных произведений могут быть найдены в книге Р. X. Зарипова [122], содержащей обширную биб- библиографию. Примеры непосредственного вычисления теоретико- информационных характеристик различных музыкальных произведений имеются в статьях Дж. Юнгблада [123], Дж. К о э н а [124], Г. Сиромони и К. Р. Раджагопалана [125], Л. Хиллераи Дж. Б и ш е м а [126], М. Роланда [127] и некото- некоторых других (см. также обзор этого направления в гл. 13 книги [3]). Так, например, в статье [124] (в которой ис- использованы также и результаты Юнгблада и Броули) значения энтропии Н-, и Н2 и соответствующих избыточ- // н ностей Лг = 1 — j~ и Rz = 1 — ~ первых двух порядков, отнесенные к одной ноте, вычислены (и сравни- сравниваются между собой) на материале музыки отдельных ком.
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 285 позиторов-романтиков XIX в. (Шуберта, Мендельсона, Шумана) и всей немецкой романтической музыки XIX в. в целом, а также на материале католических религиозных гимнов и современного американского рок-энд-рола. В статье [127] сравниваются значения избыточности для классической музыки Гайдна и модернистской музыки Шенберга (естественно, что у Шенберга избыточность ока- оказалась меньшей, чем у Гайдна). В работе [126] приведены некоторые результаты анализа одного из произведений близкого к Шенбергу композитора Веберна, а в [125] под- подсчитаны значения Н1 для ряда произведений южно-индий- южно-индийской музыки XVIII—XIX столетий. В статьях [124] и [1201 приводятся также и некоторые данные относительно «ритмичеокой избыточности» различных музыкальных про- произведений (аналогичной инбыточности «стихотворных рит- ритмов» в поэзии). Однако до сих пор псо полученные оценки информационных характеристик муамкальпмх произве- произведений все же должны рассматриваться как предваритель- предварительные и методы их вычисления требуют еще дальнейшего обсуждения (об этом говорится, в частности, в заклю- заключительной части статьи [124]). Заметим также, что основная цель статистических под- подсчетов различных вероятностей, описывающих музыкаль- музыкальную структуру, во многих случаях состояла вовсе не в оп- определении энтропии и избыточности. Дело в том, что вы- высокая степень избыточности хорошей музыки позволяет дать совсем другое, довольно неожиданное, применение статистическим таблицам, задающим вероятности и ус- условные вероятности различных нот. Для того чтобы по- подойти к этому применению, вспомним приведенные на стр. 237,240, 242, 243 и 244 «модели русских фраз» — после- последовательности букв русского алфавита, в которых в боль- большей или меньшей степени учитывались имеющиеся в рус- русском языке внутренние связи между соседними буквами. Мы видели, что чем дальше простирались те зависимости, которые учитывались при составлении наших фраз, тем «более русскими» становились эти фразы, т. е. тем более приближались они по звучанию к обычной русской речи. Ясно, однако, что вряд ли можно надеяться получить на этом пути полностью осмысленные выражения — всегда в наших фразах будет иметься некоторый элемент случай- случайности, путающий их смысл. Попробуем теперь применить
286 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV эти же методы к муэыке. При этом мы будем получать «музыкальные фразы» — последовательности нот, все более и более близкие по своей статистической структуре к тем источникам, которые использовались для вычисле- вычисления частот различных нот и их комбинаций. Как и в слу- случае «моделей русских фраз», эти новые «музыкальные фразы» не будут точно повторять ни одну из последова- последовательностей, положенных в основу при вычислении частот; однако в то время как в случае языка это обстоятельство делает наши «фразы» бессмысленными, в случае музыки именно оно делает их заслуживающими внимания — ведь они будут представлять собой новые, оригинальные му- музыкальные произведения! Разумеется, трудно сказать заранее, насколько инте- интересными могут быть такие «модели музыкальных мелодий»; неясно также, сколь глубокие связи должны быть учтены для получения сочетаний, близких «по духу» к исходному материалу (т. е., например, имитирующих произведения определенного жанра или определенного автора). Суще- Существенно заметить, однако, что в силу значительной избы- избыточности музыки мы уже на одном из ранних шагов опи- описанного на стр. 237 и след. процесса можем прийти к до- достаточно гармоничным звучаниям. Это было убедительно показано еще в первых чисто любительских эксперимен- экспериментах, произведенных Пинкертоном [119]. В этих экспериментах учитывались только вероятности отдельных нот и двухнотных комбинаций, которые к тому же очень сильно округлялись; для нахождения последовательных нот «искусственных музыкальных фраз» использовалось последовательное извлечение бумажек с записанными на них двумя нотами из нескольких «урн» (точнее говоря, просто кучек), каждая из которых содержала всего 12 бу- бумажек, или даже еще более простая и грубая процедура. Накладывая, кроме того, дополнительные связи, обеспе- обеспечивающие сохранение определенного ритма «музыкаль- «музыкальных фраз», Пинкертон смог получить несколько новых мелодий, которые, по утверждению автора, иногда не уступали мелодиям исходных детских песенок из исполь- использованного им альбома. Запись одной из таких «случайно получившихся» мелодий приведена ниже: 7 7
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 2&7 Избыточность этой мелодии может быть сравнительно просто подсчитана, исходя из статистических закономер- закономерностей, положенных в основу при ее получении; она ока- оказалась превышающей 63%. По словам Пинкертона, «эта мелодия довольно монотонна, но все же менее монотонна, чем некоторые из настоящих детских мелодий»; отсюда можно заключить, что и в «настоящих» детских песенках избыточность, вероятно, имеет тот же порядок. Аналогичные попытки получения новых мелодий с по- помощью опытов типа извлечения билетиков из урны про- производились Ф. и К. Аттнив в применении к ковбойским песням. При этом также учитывались лишь вероятности отдельных нот и двухнотных комбинаций (т. е. строились «фразы» типа приведенной на стр. 242) и также дополни- дополнительно требовалось, чтобы сохранялся определенный ритм. Единственным отличием от работы Пинкертона было то, что ковбойские мелодии оказалось удобнее составлять «с конца», используя подсчитанные условные вероятности того, что заданной ноте будет предшествовать та или иная нота. Как было указано на Лондонской кон- конференции по теории информации, среди нескольких де- десятков «случайных музыкальных фраз», составленных Аттнив, две оказались удачными — похожими на настоя- настоящие ковбойские мелодии. Сравнительно малый процент удач естественно обьясняется тем, что во внимание при- принимались лишь самые простые статистические закономер- закономерности рассматриваемых песен. Той же самой была и основная цель работы [120] Брукса и др.— составление новых мелодий с помощью «случайных экспериментов». В данном случае только «из- «извлечение билетика из урны» автоматически осуществлялось электронной машиной; операции такого типа оказываются весьма полезными при многих вычислениях на таких машинах (так называемые «методы Монте-Карло»)— и в на- настоящее время существуют хорошо разработанные методы их автоматического выполнения. Громадные возможности современной быстродействующей вычислительной техники были продемонстрированы, в частности, тем, что Брукс и др. сумели составить всевозможные «модели музыкальных фраз» — от «фраз первого порядка», в которых учитыва- учитывались лишь относительные частоты появления отдельных нот (типа «русской фразы», приведенной на стр. 240), и
288 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV вплоть до «фраз восьмого порядка» включительно, в кото- которых принимались во внимание частоты всевозможных по- последовательностей из восьми нот. При составлении «фразы гс-го порядка» (где п в разных опытах принимало значе- значения 1, 2, 3, 4, 5, 6, 7 или 8) каждый раз заранее задава- задавалась определенная «ритмическая схема» (касающаяся рас- распределения длительностей нот и пауз), а затем все ноты последовательно выбирались «наудачу», но в соответствии с подсчитанными частотами различных сочетаний из п нот. Если при таком выборе заданная «ритмическая схема» оказывалась не удовлетворенной, то соответствующая нота браковалась и машина автоматически повторяла процедуру «случайного выбора»; если 15 последовательных попыток приводили к «бракованным нотам», то машина останавливалась и составление всего ряда нот начиналось
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 289 с самого начала. Всего таким образом было составлено около 600 «новых гимнов» (при общем числе попыток порядка 6000); большой процент неудач объясняется тем, что при некоторых значениях п (в частности, при п = 5 и п — 7) оказалось очень трудно удовлетворить ритмиче- ритмической схеме. На стр. 288 приведены примеры построенных мелодий с п = 1, 2, 4, 6 и 8. При п = 1 и п = 2 построенные «мелодии» содержат много странных сочетаний нот и не- неестественных интервалов; несмотря на наличие жесткой ритмической схемы, эти «мелодии» нелегко пропеть. При п — 4 и п = 6 они заметно более приближаются к обычным гимнам. В случае же п = 8 «творчество» элек- электронной машины свелось к малооригинальным компиля- компиляциям: целые куски полученных «мелодий» полностью совпадают с отрывками из одного из гимнов и лишь иногда (в местах, где дна или болсо из рассмотренных 37 гимнов имеют одинаковые группы из 7 нот) происходит переход от одного гимна к другому (в частности, записанный выше отрывок составлен из частей трех разных гимнов; места перехода обозначены фигурной скобкой снизу). Это об- обстоятельство связано с малым объемом материала, исполь- использованного при составлении таблиц частот, что, естественно, приводило к чрезвычайно высокой избыточности *). Дело в том, что многие комбинации из 8 нот встречались в про- проанализированных отрывках гимнов лишь по одному разу; поэтому при п = 8 много нот подряд оказывались выбранными из одного гимна. Родственные попытки были описаны и в статье О л - сона и Белара [121], также использовавших анализ частот отдельных нот, их пар и троек в песнях С. Фостера для создания специальной «машины-композитора», сочи- сочиняющей (а затем даже и проигрывающей) простенькие музыкальные композиции, аналогичные (с точки зрения своей статистической структуры) мелодиям Фостера. В по- последующие годы опыты по сочинению искусственных х) Заметим, что в любом отрывке, в котором никакие N сосед- соседних йот (или букв, или фонем) не повторяются, энтропия HN будет равна нулю, т. е. подсчитанная по HN избыточность будет равна единице. Поэтому надежное определение условной энтропии HN при большом Л^ требует использования громадного статистическо- статистического материала. 10 А. М. Яглом, И. М. Ягпом
290 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV музыкальных композиции с помощью вычислительных машин, использующие данные статистического анализа различных музыкальных произведений, получили боль- большое развитие в ряде стран; при этом, например, в США мелодии, «сочиненные машиной», многократно передава- передавались по радио и были записаны на пластинки, поступив- поступившие в продажу. Мы здесь, однако, не будем задерживаться, на обсуждении указанных опытов, лишь косвенно связан- связанных с непосредственным изучением теоретико-информа- теоретико-информационных характеристик музыкальных текстов, а отошлем интересующихся читателей к книге Р. Х.Зарипова [122], в которой все эти опыты рассмотрены весьма подробно. Передача непрерывно изменяющихся сообщений. Телевизионные изображения Прежде чем идти дальше, подчеркнем одно обстоятель- обстоятельство, имеющее очень большое значение и для теории и для практики передачи информации по линиям связи. Ясно, что устная речь или музыка принципиально отличаются от письменной речи в том отношении, что здесь «возмож- «возможными сообщениями» являются уже не последовательности символов («букв»), могущих принимать конечное число значений, а совокупности звуковых колебаний, могущих меняться непрерывным образом. Поэтому, строго говоря, следовало бы считать, что каждый звук может иметь бесконечно много «значений»; однако в таком случае все формулы нашей книги становятся неприменимыми. Выше мы вышли из этого затруднения, воспользовавшись разбиением всех звуков русского языка на конечное число фонем, а всех музыкальных звуков — на конечное число нот. Но законно ли это? Для ответа на этот вопрос надо будет разобраться в истинном смысле использованного разбиения. Дело заключается в том, что если нас интересует лишь «смысло- «смысловая информация», содержащаяся в устной речи, то можно не обращать внимания на любые изменения звуков речи, не препятствующие пониманию сказанного и не меняющие его смысла. Поэтому мы вполне можем объединить боль- большое число схожих между собой звуков, если только за- замена одного из них другим не изменяет смысла сказанного.
§ 3] КОНКРЕТНЫЕ ТИПЫ СООВЩЕНИ 291 Но фонема фактически и представляет собой как раз такую совокупность близких между собой звуков, имею- имеющих одно и то же смысловое значение (наоборот, замена одной фонемы в устной речи другой может изменить смысл слова; это свойство часто кладется в основу при опреде- определении фонемы). Отсюда ясно, что при рассмотрении во- вопроса о содержащейся в устной речи смысловой информа- информации мы должны считать «основными элементами» речи не псе вообще различные между собой звуки (число которых, разумеется, бесконечно), а лишь всевозможные «осмыс- «осмысленные звуки», имеющие различный смысл — фонемы. Точно так же в случае музыки, если интересоваться лишь информацией, содержащейся в самом исполняемом про- произведении, а не в трактовке его данным исполнителем, то слпдуот отождествить все звуки, выражаемые одной и той ;ко нослидовательностью нотных знаков, т. е. рассма- рассматривать лишь конечное число различных «основных зву- звуков», соответствующих коночному числу имеющихся нот. Но ведь можно поставить попрос и шире: в случае речи помимо «смысловой информации» можно рассматри- рассматривать также и информацию, содержащуюся в интонации и в тоне голоса, а в случае музыки можно специально ин- интересоваться особенностями данного индивидуального ис- исполнения (передача этих особенностей является весьма важной задачей техники связи). Надо ли в этом случае считать, что каждый звук может принимать бесконечное множество значений и поэтому имеет бесконечную энтро- энтропию? На этот вопрос мы фактически уже один раз ответили отрицательно — на стр. 276—277, где были указаны кон- конкретные оценки энтропии устной речи с учетом различных форм «несмысловой» информации. Сейчас мы несколько подробнее остановимся на разъяснении этого обстоя- обстоятельства. Верно, конечно,- что громкость звука или высота тона могут меняться непрерывным образом, т. е. могут при- принимать бесконечное число различных значений; к тому же в принципе эти значения могут сколь угодно быстро сме- сменять одно другое. Однако наше ухо может различать только не слишком быстро следующие друг за другом звуки; поэтому можно считать, что все звуки, которые мы слышим, имеют определенную минимальную длитель- длительность. Кроме того, мы можем различить лишь звуки, ю*
292 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV отличающиеся по громкости и по высоте не меньше чем на некоторое определенное конечное значение, и не воспри- воспринимаем ни слишком высокие, ни слишком низкие, ни слиш- слишком тихие, ни слишком громкие звуки (громкие звуки нас оглушают). Отсюда вытекает, что на самом деле различимо лишь конечное число градаций громкости и высоты тона. Отождествив на этом основании все звуки, громкость и вы- высота тона которых находятся в пределах одной градации, мы снова придем к привычному для нас случаю последова- последовательностей сигналов, могущих принимать лишь конеч- конечное число разных значений. Рассмотренная здесь песьма общая ситуация очень близка к той, с которой мы столкнулись при решении за- задачи 22 из § 3 гл. II (стр. 112). Там нам также встретился случай опыта р, имеющего бесконечное число возможных исходов; однако оказалось, что при решении задачи опыт р* вполне можно заменить новым опытом ре, полу- получающимся из р при помощи отождествления всех его ис- исходов, отличающихся друг от друга меньше чем на неко- некоторое малое число е. Энтропию Hz этого нового опыта ре (в отличие от энтропии самого опыта р являющуюся уже конечной величиной) мы назвали е-знтропией опы- опыта р. Во всех вопросах, касающихся передачи сообще- сообщений, представляемых непрерывно меняющимися величина- величинами, е-энтропия играет весьма важную роль. При передаче таких сообщений совокупность всевозможных значений передаваемого сигнала всегда разбивается на конечное число градаций («ячеек» в пространстве значений) и все значения в пределах одной градации отождествляются между собой (например, считаются совпадающими с «цен- «центром» соответствующей ячейки). Эта операция замены непрерывного сообщения новым сообщением, принимаю- принимающим лишь конечное число возможных значений, называ- называется в технике связи квантованием сообщения. Квантованное сообщение всегда имеет конечную энтропию (представляющую собой один из вариантов е-энтропии исходного непрерывного сообщения), зависящую от вы- выбора применяемого метода квантования, но характери- характеризующую также и степень неопределенности исходного непрерывного сообщения; это последнее обстоятельство как раз и определяет возможность использования соот- соответствующей величины в технике связи.
$ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 293 Важным классом таких непрерывно меняющихся сооб- сообщений являются изображения, передаваемые по телевизионным или фототелеграфным линиям связи. Легко понять, что принципиально здесь мы имеем то же положе- положение, что и в случае передачи звука — наш глаз способен различить лишь конечное число степеней яркости изо- изображения и лишь не слишком близкие его участки; по- поэтому любое изображение можно передавать «по точкам», каждая из которых является сигналом, принимающим лишь конечное число значений. В случае фототелеграфа во многих случаях можно считать, что каждый «элемен- «элементарный сигнал» (т. е. мельчайший элемент изображения — «точка») принимает лишь одно из двух значений — явля- является либо «белым», либо «черным»; в телевидении же не- необходимо учитывать значительное число (несколько десят- кон) градаций степени почернепия («яркости») каждого элемента. Кроме того, фототелеграфные изображения являются неподпижпыми, и на телеэкране ежесекундно сменяется 25 кадров, создапая впочатлоиио «движения». В обоих случаях, однако, по линии связи фактически пере- передается не исход опыта а0, состоящего в определении зна- значения непрерывно меняющейся от точки к точке (а в слу- случае телевидения — и во времени) окраски или яркости изображения, а исход совсем другого «квантованного» опыта а±, состоящего в определении цвета (белого или черного) или градаций яркости в конечном числе «точек». Этот новый опыт а± может иметь уже лишь конечное число исходов, и мы можем измерить его энтропию Н (являю- (являющуюся, по существу, одним из вариантов е-энтропии исходного опыта а0). Общее число элементов («точек»), на которые следует разлагать изображение, определяется в первую очередь так называемой «разрешающей способностью» глаза, т. е. его способностью различать близкие участки изображения. В современном телевидении зто число обычно имеет поря- порядок нескольких сотен тысяч (в советских телепередачах изображение разлагается на 400 000—500 000 элементов, в американских — примерно на 200 000—300 000, в пере- передачах некоторых французских и бельгийских телецен- телецентров — почти на 1 000 000). Нетрудно понять, что по этой причине энтропия телевизионного изображения имеет огромную величину. Так, если даже считать, что
294 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV человеческий глаз различает лишь 16 разных градаций яркости (значение явно заниженное) и что изображение раз- разлагается всего на 200000 элементов, то мы найдем, что «эн- «энтропия нулевого порядка» здесь равна Но = log 16200000 = = 800 000 бит. Значение истинной энтропии Я, разумеется, будет меньше, так как телевизионное изображение имеет значительную избыточность Я — 1 —тг- . Действительно, ведь при вычислении величины //„ мы предполагали, что значения яркости в любых двух «точках» изображения являются независимыми между собой, в то время как на самом деле яркость обычно очень мало меняется при пере- переходе к соседним элемептам того же (или даже другого, но близкого по времени) изображения. Наглядный смысл этой избыточности R заключается в том, что среди наших 16*°° °00 возможных комбинаций значений яркости во всех точках экрана осмысленные комбинации, которые можно назвать «изображениями», будут составлять лишь ничтожно малую часть. Подавляющее же большинство зтих комбина- комбинаций будет представлять собой совершенно беспорядочную совокупность точек разной яркости, весьма далекую от какого бы то ни было «сюжета». Между тем реальная «сте- «степень неопределенности» Н телевизионного изображения, разумеется, должна учитывать лишь те комбинации зна- значений яркости, которые имеют хоть какие-то шансы быть переданными, а не все вообще комбинации значений яр- яркости г). а) Не следует только думать, что иа крайней редкости «ос- «осмысленных изображений» автоматически вытекает, что избыточ- избыточность if обязательно очень велика. В самом деле, предположив, например, что человеческий глаз различает всего 10 различных градаций яркости (так что общее число возможных комбинаций яркости равно 10200 ш) и что «осмысленные изображения» (кото- (которые для простоты мы будем считать все равновероятными) состав- составляют всего 0,00...01% (где вслед за вапятой стоит 1997 нулей!) от всех возможных комбинаций яркости, мы легко найдем, что * п * . 200 000-2000 избыточность R близка к 1 200000 ~ »°* = *%> '• е> весьма мала (если бы мы увеличили число различаемых градаций яркости, то она бы стала еще меньше). Этот как будто бы неожи- неожиданный результат объясняется крайней медленностью изменения функции log n при больших значениях п, о которой мы уже упо- упоминали на стр. 264 (в связи с оценкой избыточности «иероглифи- «иероглифической» письменности) и на стр. 276 (в связи с оценкой «несмысло- вой» информации устной речи).
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 295 Для определения точного значения энтропии Н (или избыточности В) телевизионного изображения нужно детально изучить статистические зависимости между яр- яркостями различных точек экрана. Эта задача весьма труд- трудна, и в настоящее время мы имеем лишь несколько отно- относящихся сюда частных результатов. Так, американский инженер У. Ф. Шрейбер [129] нашел значения эптропий Но, Нх, Н2 и Н3 для двух конкретных телеви- телевизионных изображений, первое из которых (изображение А — парк с деревьями и строениями) было более сложным, а второе (изображение В — довольно темная галерея с прохожими) было более однотонным по цвету и содержа- содержало меньше деталей. Шрейбер различал при этом 64 разных градаций яркости элемента телевизионного изображения; поэтому энтропия Но (отнесенная к одному элементу, а но ко «сему изображепию п целом) здесь оказалась рав- равной Но = log 64 — 6 бит. Далее с помощью специального радиотехнического устройстпа он подсчитал для обоих рассматриваемых изображений относительные частоты (вероятности) ри р2, . . ., Pet в°ех различимых градаций яркости и определил «энтропию первого порядка» Нг = Н (ах) = — Pi log рг — р2 log р2 — . . . — p6llogpet (заметим, что непосредственный подсчет частот plt p2i . . . . . ., p6i без привлечения радиотехники при общем числе элементов экрана порядка 200 000 вряд ли мог бы быть осуществлен). То же самое радиотехническое устройство было применено затем для вычисления относительных частот ptj пар соседних (по горизонтали) элементов, в ко- которых первый элемент имеет i-e значение яркости, а вто- второй j-e, а также относительных частот ptjk троек соседних (также лишь по горизонтали) элементов, в которых первый элемент имел i-e значение яркости, второй j-e, а третий к-е (числа i, /, и к пробегали все значения от 1 до 64). Эти частоты позволили определить «энтропии сложных опытов» Н и Я (с^ОСС) = p lOg р| Р.в4»в4 Я (с^ОгССз) = — plu lOg рш—|... — Рв4
296 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл IV а затем и «условные энтропии» (ср. выше, стр. 241—243) II2 = На, Ы =Я(аха2) - Н К) и Я3»= Яа,а, (а,) = = Я (а^ад) — Я ( последняя ив которых, впролем, была подсчитана лишь для изображения Б. Полученн >ге результаты сведены в сле- следующую таблицу: Н„ нх и* Нъ Изображение А 6 5,7 3,4 — Нз(.бражение В 6 4,3 1,9 1,5 Из таблицы видно, что энтропия Нх лишь немного отли- отличается от максимальной энтропии Яо, причем для изобра- изображения А она заметно больше, чем для Б (это, очевидно, связано с большей однотонностью изображения Б по сравнению с изображением А). Условная энтропия Я2 (т. е. средняя «степень неопределенности» яркости элемен- элемента экрана при известной яркости соседнего по горизонтали элемента) уже гораздо больше отличается от Яо; для изо- изображения Б она также и заметно меньше, чем для А, что соответствует меньшему обилию деталей в изображении Б. Избыточность Я, оцененная по величине Я2 (т. е. разность тт 1 j^-) для изображения А равна 44%, а для изобре- изобрело жения Б — 68%; действительное значение избыточности может быть только больше этого. Что же касается услов- условной энтропии Я3 при известных яркостях двух предыду- предыдущих элементов той же строки, то она сравнительно мало отличается от Я2 (ей соответствует значение избыточности изображения Б, равное 75%); отсюда можно заключить, что знание яркости самого близкого элемента определяет весьма большую часть общей избыточности. Близкий характер имеют также работы Д. С. Лебе- Лебедева и Е. И. Пийль [130] (см. также книгу [128]) и Дж. О. Лимба [131]. В статье [130] и книге [128] приведены результаты вычислений (опирающихся на ис- использование несколько более бедного, чем в работе [129],; статистического материала и на разбиение возможных значений яркости элемента телевизионного изображения на 8, а не на 64 градаций) энтропии Я„ и Нх и ряда услов- условных энтропии Я2, Я3 и Я4 одного элемента изображения для следующих четырех спортивных телевизионных сю-
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 297 жетов: А — быстро бегущие баскетболисты, Б — лицо одного зрителя на трибуне стадиона крупным планом, В — панорамирование вида зрителей на трибуне и Г — быстро бегущие футболисты. Будем обозначать циф- цифрами 1 и 2 соседние с данным по горизонтали и по вер- вертикали элементы изображения, цифрой 3 — соседний по диагонали элемент, цифрой 4 — тот же, что и рассматри- рассматриваемый, элемент на предшествующем кадре телевизионной передачи, цифрой 5 — элемент на той же горизонтали, 6 уПреВшевтВующив —1 тдры if 1 Данный —1 кадр ! 3 0 9 3 i г D а) Рис. 16. соседний с элементом 1, и, наконец, цифрой 6 — тот же элемент на кадре, предшествующем тому, который содер- содержит элемент 4 (см. рис. 16, а), и будем указывать в обозна- обозначениях условных знтропий сверху в скобках номера эле- элементов изображения, степень яркости которых считается известной. В таком случае найденные в ИЗО] (см. также [128]) значения энтропии (в битах) могут быть сведены в следующую таблицу: А Б В Г Но 3 3 3 3 6) Hi 1,96 1,95 2,78 2,45 tfD, в) 0,69 0,98 — 1,77 0,36 0 39 — — 1,34 1,95 2 78 — — — 2,00 2,08 2) А Б В Г 0,68 0,35 — 0,56 — 0,27 — 1,22 1,83 — . 2. з) 0,26 1,18 1,19 (черточки в таблице^ означают, что соответствующие энтропии не были сосчитаны). В работе [131] были
298 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV проапализированы следующие четыре части (содержащие по 5000 отдельных элементов каждая) двух телевизионных изображений: А — покрытая травой и кустами поверх- поверхность земли средним планом, Б — примыкающая к части А и аналогичная ей часть того же пейзажа, В — часть неба, покрытого сравнительно однородными светлыми об- облаками, и Г — травянистая растительность крупным пла- планом. Изображения были разбиты на 16 градаций яркости; при вычислении условных энтропии элемента изображения с номером О использовались данные, относящиеся к эле- элементам 1, 2, 3, 4 и 5 той же и предыдущей строк того же кадра (см. рис. 16, б). Полученные в [131] результаты приведены ниже в виде таблицы» а.«.« яа.4.5) 1,46 1,47 1,15 1,28 0,90 0,92 0,87 0,86 — 1,54 — 0,91 — 1,39 Содержащиеся в [128], [130], [131] данные качественно близки к результатам работы [129] (количественное срав- сравнение здесь затруднено различиями в числе используемых уропней квантования, влияющим на численные значения энтропии), но заметно более полны. В частности, вывод Шрейбера (относящийся к сравнительно однотонному и бедному деталями изображению Б) о том, что при извест- известном одном предшествующем элементе изображения знание еще каких-то других элементов уже мало меняет степень неопределенности (т. е. энтропию) данного элемента теле- пизионного изображения, прекрасно согласуется с данны- данными, относящимися к однотонным и бедным деталями изоб- изображениям лица крупным планом (изображение Б работ [130], [128]) и облачного неба (изображение В работы [131]). Заметим, однако, что согласно приведенным в [128] данным указанный вывод неплохо выполняется и для всех других исследованных изображений (включая и наиболее «пестрое» изображение В), в то время как резуль- результаты [131], относящиеся к изображениям А, Б и Г, его не подтверждают. Анализ данных Лимба позволяет также л в в г А В А, и Б пГ Б,ВъГ Но 4 4 4 4 4 4 4 Я1 2,85 2,51 1,32 3,72 2 90 3 29 3,52 1 2 1 1 2 1 ,24 99 ,04 70 _ — я<" 2,38 1,96 0,99 3 10 2,27 2,17 2,31 я?-« 1,82 1,66 0,94 2,01 _ — 2 2,10 1,66 0,97 2,23 2,03 1,65 2,00
§ 3] [КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 299 заключить, что использование вероятностей (т. е. частот), подсчитанных для большого и весьма неоднородного изо- изображения (моделью которого можно считать объединение разнородных частей А, Б, В и Г двух разных кадров), приводит лишь к небольшому увеличению значений ус- условных энтропии (при известных значениях яркости одного, двух или трех предшествующих элементов) по сравнению со средними значениями условных энтропии, подсчитанных для каждой из частей большого изображе- изображения в отдельности. Далее, результаты работ [130], [128], относящиеся к условным энтропиям при известных зна- значениях яркостей того же элемента изображения на одном или двух предыдущих кадрах, показывают, что для рас- рассматривавшихся быстро меняющихся изображений эти условные энтропии оказываются заметно превосходящими условную энтропию при известной яркости предшествую- предшествующего (вдоль строки) элемента того же кадра; поэтому учет связи между значепиями яркостей на последователь- последовательных кадрах телевизионной передачи здесь не может при- привести к значительному возрастанию избыточности, опре- определенной из анализа распределения яркостей на одном кадре. Последний вывод, разумеется, не может быть спра- справедлив для телевизионных сюжетов, при которых изобра- изображение мало меняется во времени; однако надежные коли- количественные данные, относящиеся к таким случаям, пока еще отсутствуют (некоторые оценки влияния временных связей, основанные на косвенных соображениях, могут быть найдены в книге [132]). Общая избыточность телеви- телевизионных изображений по данным работы [131] и в случае богатого деталями изображения («растительность круп- крупным планом»), и в случав бедного деталями однотонного изображения («небо») оказывается не меньшей, чем 80% (но для «средних» изображений А и Б она почему-то ока- оказывается не столь высокой, хотя все же не меньшей, чем 65%). В то же время результаты [130], [128] приводят к выводу, что для бедного деталями изображения («лицо») избыточность не меньше, чем 90%, а для изображения, богатого деталями («зрители»), она не меньше, чем 60%. Заметим, что большие, чем найденные Шрейбером [129], значения избыточности в работах [128], [130], 11311 могут естественно объясняться более грубым делением на градации яркости; что же касается расхождения в выводах
300 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗ И [Гл. IV Лебедева и Лимба о различиях избыточности «однотон- «однотонных» и «пестрых» изображений, то они отражают уже отмеченное выше расхождение в выводах этих авторов о характере убывания ряда энтропии Но, Ht, Нй, Н3, Ht для всех не слишком бедных деталями изображений (при- (причины этого расхождения пока неясны, но в целом резуль- результаты работ [128], [130] кажутся все же более правдопо- правдоподобными, чем результаты статьи [131]). Ясно, что подсчеты того типа, который описан в рабо- работах [128] — [131], не могут быть использованы для опре- определения влияния на избыточность изображения связей между большим числом его элементов: уже в случае энтро- энтропии Я4 число различных комбинаций значений яркости в четырех точках оказывается огромным (напомним, что в работах [128], ИЗО], [131] применялось сравнительно грубое деление на градации яркости), а при дальнейшем возрастании порядка условной энтропии это число стре- стремительно возрастает и трудности вычислений становятся непреодолимыми. Поэтому заслуживает внимания попыт- попытка американского ученого Н. Цаннеса и его сотруд- сотрудников [133] применить для оценки условной энтропии изображения с учетом также и далеких связей между эле- элементами «метод угадывания», предложенный Шенноном [75] для оценки энтропии высокого порядка письменной речи и описанный выше на стр. 249 и след. В опытах Цаннеса в качестве исходного материала были выбраны 20 фотографий частей лунной поверхности, каждая из которых была представлена в виде совокупности 50 X 50 = 2500 отдельных элементов, принимающих одно из восьми возможных значений в зависимости от своей «яркости» (т. е. степени почернения). Далее эти фотогра- фотографии были разбиты на 4 группы родственных по своему характеру фотографий. Одна из фотографий (вместе с ее числовой формой, представляющей собой квадратную таблицу из 2500 чисел от 0 до 7) давалась отгадывающему лицу (студенту старшего курса университета), которому предлагалось внимательно ее изучить (достигаемое таким путем «ознакомление с изображением», разумеется, мало сравнимо с присущим каждому грамотному человеку знанием структуры родного языка, использовавшемуся в опытах по отгадыванию письменных текстов, но здесь уж ничего поделать нельзя), после чего тот же человек
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 301 начинал последовательно отгадывать элементы другой фотографии из той же группы. При отгадывании разре- разрешалось после каждого уже отгаданного элемента двигать- двигаться в любом направлении; на каждую догадку давался от- ответ «да» или «нет», который считался содержащим один бит информации (на самом деле он часто содержал замет- заметно меньшую информацию, так как оба возможных ответа вовсе не были равновероятны). Таким образом, среднее число вопросов, приходящихся на один элемент изобра- изображения, доставляло довольно грубую оценку сверху (т. е. сильно завышенную) средней энтропии одного элемента изображения. В описанных в [133] двух опытах по отга- отгадыванию эта средняя оценка оказалась примерно равной 1,8 бит в одном случае и 1,3 бит во втором; авторы отме- отмечают, что специалист в области изучения фотографий лунной поверхности, предварительно потренировавшись, мог бы, вероятно, получить зпметно лучшие результаты (т. е. меньшую оценку онтронии). Во всяком случае и так обе полученные оценки оказались заметно меньшими, чем значение Но = 3 бита; истинная энтропия Н, по-имдимому,. еще значительно меньше, чем эти оценки. Если, следуя предложению Шеннона, приведенному в сноске на стр. 250, использовать только результат более удачливого из двух отгадывающих лиц, то соответствующая оценка снизу избыточности изображения лунной поверхности будет близка к 60%. В последнее время в связи с появлением цветного теле- телевидения возникла также потребность в оценке информа- информации, содержащейся в окраске изображения. Первые грубо ¦ ориентировочные расчеты такого рода показали, что для цветных телевизионных изображений, приближающихся по качеству к хорошим цветным иллюстрациям в журна- журналах, информация по порядку величины сравнима с удвоен- , ной информацией, содержащейся в соответствующем черно- белом изображении (ср. [132]). Фототелеграммы ¦ Перейдем теперь к данным, касающимся ф о т о т е - ' л е г р а ф а. Общий принцип передачи изображений здесь , близок к принципу телепередач: изображение разлагается ¦ на мельчайшие квадратики («растровые элементы»),-.
302 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV после чего по линии передается информация о цвете каж- каждого такого элемента (черный он или белый). Таким об- образом, по сравнению с черно-белыми телевизионными изо- изображениями рассматриваемые сейчас изображения более просты: для них не существует градаций яркости (т. е. степени почернения), а цвет может принимать лишь два значения. Естественно, что максимальная информация (т. е. энтропия Но), содержащаяся в сведении о цвете одно- одного элемента, равна Но = log 2 = 1 бит; эта информация достигается, когда черные и белые элементы встречаются одинаково часто и цвет каждого элемента независим от цвета всех остальных. На самом деле два цвета обычно встречаются с разной частотой (число белых элементов, как правило, значительно превосходит число черных) и между цветами отдельных элементов существует заметная зависимость; поэтому истинное значение энтропии одного элемента фототелеграммы заметно меньше, чем 1 бит. Чему же оно равно? Можно подсчитать, что при передаче по фототелеграфу обычного книжного или журнального печатного текста относительная частота р0 белых элементов близка к 0,8, а частота pi черных элементов — к 0,2. Отсюда следует, что энтропия Ht здесь равна Hi = — 0,2-log 0,2—0,8-log 0,8'я=: 0,73 бит, 0 73 что соответствует избыточности JR = 1 —¦ = 0,27 = = 27%. Однако это значение избыточности сильно зани- занижено, так как оно не учитывает зависимости между цве- цветами соседних элементов. К сожалению, точный количе- количественный учет этой зависимости (простирающейся на боль- большое число соседних элементов) весьма сложен; поэтому представляют интерес и приближенные методы оценки энтропии Н«, и избыточности R. Одна из первых, весьма мало совершенных попыток оценить энтропию На, = Н фототелеграфных сообщений описана в работе американского связиста С. Дейча 1134]. В этой работе анализировался небольшой отрывок английского текста (порядка нескольких строк), напеча- напечатанного сравнительно крупными буквами. Так как запи- записанный на бумаге текст совсем не просто непосредственно
S 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 303 разбить на мельчайшие «растровые элементы», исполь- используемые в фототелеграфии, и при таком разбиении анализи- анализируемый отрывок оказывается состоящим из громадного числа элементов, что необычайно усложняет арифметиче- арифметический подсчет частот различных комбинаций, то Дейч использовал разложение анализируемого текста на срав- сравнительно большие квадратики, состоящие из многих раст- растровых элементов каждый. Такой квадратик он считал белым или черным в зависимости от того, какой цвет имеет большая часть квадратика (т. е. если более 50% площади квадратика оказывалась белой, то весь квадратик считал- считался белым; в противном случае он считался черным). Есте- Естественно, что в таком случае для «квадратика», как и для растрового элемента, Но = log 2 = 1 бит. Далее Дейч подсчитал условные энтропии Ht, Я2 и На для вертикаль- вертикальных «блоков», состоящих из нескольких соседних квадра- квадратиков (для горизонтальных «блоков» была подсчитана лишь величина Н2, которая оказалась немного большей соответствующей величины для вертикальных «блоков»). Энтропия Hi оказалась равной 0,67 бит, что соответствует избыточности JR, равной 33%; энтропия Н3 имела уже значение 0,57 бит, т. е. отвечала избыточности R = 43% г). При помощи некоторых косвенных соображений в рабо- работе [134] было также показано, что энтропия одного «квад- «квадратика» на самом деле должна быть заметно меньше, чем 0,5 бит, так что избыточность JR здесь должна значительно превышать 50%. Заметим, впрочем, что все эти цифры не заслуживают особенно большого доверия, так как ис- использованное в работе [134] разбиение текста на сравни- сравнительно большие квадраты заметно искажает его стати- статистическую структуру. Значительно более детальное исследование того же рода выполнил немецкий ученый Г. Кайзер [135]. Он уже а) Для вертикальных блоков была подсчитана еще энтропия блоков из N соседних влеыептов для N = 1,2, 3 и 7. Любо- (N) ff() пытно, что отношение при N = 7 оказалось равным всего 0,58 бит, т. е. даже несколько большим, чем Ид. Этот факт нагляд- наглядно показывает, насколько медленнее приближается к величине #„, последовательность величин hN = ———, N = 1, 2, 3, .,., чем последовательность HN (ср. сноску на стр. 244).
304 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV 0,6 разбивал напечатанные на пишущей машинке тексты на гораздо более мелкие квадратики со стороной 0,2 мм (одна печатная страница при этом оказывалась разбитой при- примерно на миллион отдельных элементов). Для того чтобы сделать возможными расчеты со столь большими статисти- статистическими совокупностями, Кайзер сконструировал специ- альную измерительную аппа- аппаратуру, автоматически выде- выделяющую последовательные «блоки» из небольшого числа N соседних элементов и ре- регистрирующую на счетчиках число блоков различного со- состава. Эта аппаратура была затем применена к блокам различного направления (го- (горизонтальным, вертикальным и расположенным под углом к печатному тексту), причем оказалось, что все резуль- результаты подсчетов мало меняют- меняются при изменении направле- направления. Исходя отсюда, Кайзер, в основном, ограничился ана- анализом данных для горизон- горизонтальных блоков, в примене- применении к которым он изучил зависимость удельных знтро- п \ \. —. 1— "—. 2 шли *7—' I gfei7 оват 5 N Рис. 17. пий hN = —jv~» гДе N = 1, 2, 3, 4, 5 и 6, от следующих факторов: а) степени «жирности» (т. е. толщины букв) текста, б) расстояния между строками и в) размера маши- машинописи (т. е. степени увеличения машинописной копии). Полученные им результаты, относящиеся к нормальному го «жирности» и размеру тексту и пяти разным расстоя- расстояниям между строками (от наиболее густой машинописи «через один интервал» и до наиболее редкой — «через ори интервала»), показаны на рис. 17. Из него видно, что избыточность наиболее «густого» (но нормального во всех других отношениях) машинописного текста наверное пре- превосходит 50%, в то время как для наиболее «редкой» машинописи она уже не меньше, чем 80% (причем, по-
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 305 видимому, цифры эти сильно занижены, так как h6 явля- является весьма грубой оценкой величины Я«,). В случае тонко напечатанного текста все энтропии, естественно, оказываются меньшими, а избыточности — большими, причем особенно заметно уменьшается значение ht = Ht; с ростом же N значения hN для тонкого шрифта постепенно приближаются к значениям для обычного шрифта. Для тек- текста, напечатанного очень «жирно», наоборот, все энтропии оказываются большими, чем для нормального текста, причем самая большая разница снова наблюдается при N = 1, а самая маленькая — при N — 6. При подобном увеличении машинописной копии значения ht = Hit ра- разумеется, не меняются (так как не меняется доля белых и черных элементов), но статистические связи между соседними элементами при этом возрастают, и потому все энтропии Hn с N > 1 здесь уменьшаются, а избыточпости возрастают. В отношении аипчений hN с N ^> E в работе [135] приведены лишь некоторые довольно грубые оценки, согласно которым, например, для напечатанного через один интервал нормального машинописного текста hv> ж ^ 0,40 — 0,45 бит. Ясно, что величины hj^ при небольших N никак не ха- характеризуют полной избыточности машинописного текста, обусловленной всеми существующими в таком тексте ста- статистическими зависимостями. Это видно, в частности, из того, что, применив совсем другой метод, Кайзер сразу же получил результаты, сильно отличающиеся от описанных выше. Дело в том, что сконструированная им измеритель- измерительная аппаратура, конечно, не могла как следует учесть то, что все черные элементы в ее поле зрения на самом деле представляли собой части 26 немецких букв вполне опре- определенной формы. Поэтому Кайзер попытался дополни- дополнительно выяснить, какова наименьшая доля квадрата, плотно охватывающего одну букву, по виду которой гра- грамотный человек может уже догадаться, какая же это бук- буква. Поставленные с этой целью опыты показали, что если для каждой буквы выбирать наиболее характерную ее часть, то достаточно показать лишь около 15% площади квадрата. Отсюда можно заключить, что избыточность двумерного рисунка отдельных букв (а значит, и очень тесно напечатанного буквенного текста) в среднем близка к 85% (белые же промежутки между буквами, словами и
306 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV строками в напечатанном тексте вообще можно считать целиком избыточными). Кроме того, надо учесть, что по- показывались лишь части одной изолированной буквы; но ведь если заранее знать весь предшествующий этой букве текст, то очень часто букву можно будет угадать, даже не видя никакой ее части. Поэтому ясно, что доля одной буквы текста, нужная для ее угадывания, в среднем дол- должна быть заметно меньшей, чем 15%. Исходя из данных работы [82], о которой говорилось на стр. 253, Кайзер за- заключил, что знание предшествующих букв немецкого машинописного текста должно еще примерно втрое умень- уменьшить предельную степень неопределенности //«,; поэтому он пришел к выводу, что истинная избыточность тесного машинописного текста, по-видимому, близка к 95%. Эта оценка избыточности уже учитывает очень сложные и охватывающие одновременно много «растровых элемен- элементов» статистические связи, порожденные и правилами на- написания букв, и грамматикой, и структурой языка; ис- использование всех их в технике фототелеграфии пока еще остается делом далекого будущего. Б дальнейшем мы больше не будем учитывать смысло- смысловую и грамматическую избыточность фототелеграфных текстов, а будем рассматривать лишь статистические за- закономерности простого чередования черных и белых рас- растровых элементов. В таком случае сравнительно непло- неплохую оценку энтропии Н одного растрового элемента можно получить с помощью представления каждой строки фото- фототелеграммы в виде последовательности чередующихся белых и черных участков различной длины. Подсчитав относительные частоты появления всех таких участков, можно определить соответствующую «энтропию первого д-(учаот) порядка» /у][тчаст); при этом отношение — , где w— среднее число элементов в одном участке, будет, наверное, больше, чем истинное значение энтропии Н одного эле- элемента (ср. сноскух)] на стр. 248). С помощью этого метода У. М а й ч е л 1136] показал, что при передаче текста, густо напечатанного («через один интервал») на пишущей машинке с крупным шрифтом, энтропия Н будет меньше, чем 0,3 бит, т. е. избыточность JR будет превышать 70%; близкий вывод получен с помощью того же метода и в ра- работе [135]. Более детальное исследование такого рода было
§ 3] КОНК РЕТНЫЕ ТИПЫ СООБЩЕНИЙ 307 выполнено на очень большом статистическом материале для русского печатного (книжного или журнального) текста В. А. Гармашем и Н. Е. Кирилло- Кирилловы м [137]. Эти авторы подсчитали не только частоты одноцветных участков различной длины, но и частоты всевозможных пар подобных участков и определили по этим данным для участков энтропию первого порядка //(участ) и энтропию второго порядка //<Участ>. Под- д-(участ) считав отношение — , они выяснили, что при пере- передаче печатного текста Н ^ 0,33 бита, т. е. JR>67%; ^(участ) неравенство Н «^ — позволило еще уточнить эту оценку и показать, что // <^ 0,28 бита и, соответствеп- но, Л>1 — 0,28 = 72%. Иной метод оценки ;>птропии Н и избыточности R для фототелеграмм был исиол ыюиан Р. Р. Васильевым [138] и В. Г. Фролушкипым f 139]. Ясно, что точ- точный подсчет энтропии Шк~> опыта, состоящего в опреде- определении цвета TV последовательных растровых элементов, при большом N будет очень сложен из-за того, что общее число 2N исходов этого опыта крайне велико. Разобьем поэтому соответствующие 2N исходов на какие-то п групп, содержащих соответственно Ми Мг, . - ., Мп исходов (где Mt + М2 + . . . + Мп = 2N) и будем опре- определять лишь вероятности qu q2, . . ., qn того, что после- последовательные N элементов принадлегкат 1-й, 2-й, . . ., п-& группе. Предположим теперь, что внутри каждой из групп все исходы являются равновероятными (невыполнение этого предположения может только уменьшить эн- энтропию HiN4), и при этом предположении определим значение HW>. В таком случае исходам, принадлежащим i-й группе (где I может быть равно 1, 2, . . ., п) в выраже- выражении для /?W будут отвечать Mt одинаковых членов — щ fog щ, (знак <^ связан с тем, что наш подсчет дает, вообще гово- говоря, завышенное значение .HW). Подобным же образом
308 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV предположив, что один из исходов i-й группы имеет вероят- вероятность 1, а все остальные имеют вероятность 0, т. е. невоз- невозможны (невыполнение этого предположения может лишь увеличить энтропию Н(Щ), мы получим Н(Ю > _ ?1 log qi — ft log % — . . . — qn log qn. (**) P. P. Васильев [138] исходил из того, что при передаче печатного текста весьма значительная часть из- избыточности связана с большой частотой сравнительно длинных участков из N белых элементов (возникающих из-за наличия междустрочных пространств и полей). Соответственно этому у него 1-я группа исходов состоит из единственного исхода — того, при котором все N эле- элементов являются белыми; остальные же 2W — 1 исходов составляют 2-ю группу. При этом формулы (*) и (**) дают - 9 log q - A - q) log ^~^ >#<"> > > — fflogg— A — <?)log(l — q), где q — вероятность «белого» блока из N растровых эле- элементов. Учитывая еще, что при большом N выражение 2N — 1 почти не отличается от 2™, так что log B'v — 1) можно заменить на log 2^ = N, найдем, что ^ — glogg — (I — g)log(l— g) 2> п где /jjv = —X— — приближенное значение «удельной энтро- энтропии» одного растрового элемента. Чтобы получить удовле- удовлетворительные оценки для Н = Я«, = lim hN здесь надо брать N-*ee N порядка одного или нескольких десятков; при этом q для газетного текста оказывается близким к 0,5 (или даже большим), а для машинописного текста, отпечатанного обычным образом («через два интервала») — близким к 0,7 (или большим). Отсюда ясно, что при передаче га- газетного текста Н < -^ + 0,5 = 0,6 и R > 1—0,6 = 40%;
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 309 при передаче обычного машинописного текста Н< 'ю - + 0,3^0,33 и #> 1-0,33 = = 67%. Достоинством такой сравнительно грубой оценки энтропии Н является то, что здесь легко указать конкретный метод кодирования, позволяющий вести передачу со скоростью _ с _ NC Н —9log9 — (I — j)log(i—?) + ЛГA — g) (в растр, элем./ед. времени), где С — пропускная способ- способность используемой линии связи (см. [138]). В работе [139] всевозможные блоки из N растровых эломоптоп разбивались на большое число групп, характе ризуомых опродожшиыми значениями «насыщенности» и «детальности». Иод «нпсыщомиостыо» здесь понимается просто общее число входящих в состав блока черных элементов (так что для блоков из N эломоптов «насыщен- «насыщенность» может принимать N + 1 значений: 0, 1,2,.. ., N), а под «детальностью» — число одноцветных участков, на которые разбивается данный блок («детальность» блока из N элементов может равняться 1, 2, 3, . . ., или N, т. е. может иметь N различных значений). Подсчет зна- значений «насыщенности» и «детальности» отдельных блоков производился автоматически, с помощью сконструирован- сконструированной Фролушкиным очень удобной специальной аппара- аппаратуры. Значение N в работе [139] принималось равным 100, т. е. оценивалась величина /f<i°°) и энтропия Н одного ) элемента приравнивалась к hi00 = .^ . Б связи с таким выбором числа N измерительная схема была снабжена устройством, автоматически включающим ее на промежу- промежуток времени, соответствующий передаче по линии 100 растровых элементов фототелеграммы; вслед за тем схема выключалась, значения «детальности» и «насыщен- «насыщенности» записывались и лишь после этого на схему снова подавался другой отрывок фототелеграммы. Исследованию подвергались отдельно фототелеграммы с рукописным, машинописным и печатным (газетным) текстом, причем во всех случаях бланк фототелеграммы заполнялся текстом максимально плотно — так, как он
310 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV обычно заполняется при реальных передачах. Каждый из трех типов текста был представлен 10 образцами, и из каждого образца выбиралось 400 различных блоков из 100 элементов. По полученным данным определялись частоты (приближенные значения вероятностей) различных значении «насыщенности» и «детальности», а также ча- частоты различных комбинации значения «насыщенности» и значения «детальности». Подсчитав далее число Mjf80* блоков, имеющих заданную «насыщенность» п, число Mm блоков, имеющих заданную «детальность» т и, наконец, число Мп,т блоков, имеющих одновременно «насыщенность» п и «детальность» т. (определение всех этих чисел может быть осуществлено с помощью неслож- несложных комбинаторных рассуждений *)) и, воспользовав- воспользовавшись формулой (*) (стр. 307), мы получим три различные оценки энтропии Н (а следовательно, и избыточности В — i —¦тр-). Ясно, что все эти оценки будут давать не- сколько завышенное значение И (и заниженное значе- значение R), причем третья из них (отвечающая делению на наи- наибольшее число групп), в принципе должна быть более точной, чем первые две. В результате проведенного исследования были полу- получены следующие оценки вначений Н и R для трех типов текста (см. таблицу на следующей странице). Мы видим, что оценка Н по данным о «насыщенности» оказывается заметно более грубой, чем оценка по данным о «детальности». Отсюда можно заключить, что предпо- предположение о равновероятности всех блоков с одинаковым значением «детальности» лучше соответствует действитель- действительности, чем предположение о равновероятности блоков одинаковой «насыщенности» — блоки с одинаковой «де- Легко понять, что в общем случае блоков ив N влементов —1I {т —1I (N — тЩ (последняя формула следует ля того, что в этом случае т — 1 «границ» между различными одноцветными участками можно выб- выбрать C™lJ разными способами, а после этого можно еще по произ- произволу выбрать первый одноцветный участок либо белым, либо чер- черным). Что же касается числа Мп,т, то оно задается более сложной формулой, которую мы здесь не приводим.
S3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 311 Рукописный текст Машинописный текст Газетный текст . . . Среднее . . . Оценка по данным о «насыщенности» Н (в битах) 0,37 0,53 0,43 0,44 я 63% 47% 57% 56% Оценка по данным о «деталыгости» И (в битах) 0,22 0,30 0,34 0,29 П 78% 70% 66% 71% талыюстыо» образуют более однородные группы, чем блоки с одинаковой «насыщенностью». Оценка пптропии // по данным о вероятностях все- возможпых комбинаций «насыщенности» и «детальности», требует значительного уноличоиия объема использованного материала. В самом дело, нетрудно подсчитать, что для блоков из 100 элементов всего можно составить около 5000 (точнее говоря, 5001) различных таких комбинаций. Следовательно, все множество различных блоков (содер- (содержащее 2100 ^> 1030 элементов, т. е. число элементов, вы- выражающееся 31-значным числом!) здесь разбивается на 5001 отдельную группу. Ясно, что вероятности всех этих групп никак нельзя оценить по данным о частотах, полу- полученным при исследовании 400 X 10 = 4000 различных блоков. Поэтому третья оценка энтропии в работе [1391 дается только для «среднего русского текста» (на основа- основании данных о частотах отдельных групп во всей совокуп- совокупности исследованных блоков без отношения к тому, из текста какого типа они извлекаются). Эта оценка, получен- полученная с помощью формул (*) и (**), имеет вид 0,23 > И > 0,06, т. е. 77% < R < 94%. Истинные значения энтропии Н и избыточности R по-ви- по-видимому должны заключаться где-то между указанными здесь пределами. До сих пор, говоря о фототелеграммах, мы рассматри- рассматривали только случаи передачи по фототелеграфу текстового материала (рукописного, машинописного или печатно- печатного). Однако фототелеграф может использоваться и для
312 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл IV передачи ряда других типов черно-белых сообщений, и для мпогих из них значения средней энтропии (на один раст- растровый элемент) и избыточности могут оказаться совсем другими, чем для буквенного текста. Так, например, яс- ясно, что в случае чертежей следует ожидать заметно боль- большей избыточности, чем в случае текста (в первую очередь из-за того, что на чертежах «черное» занимает гораздо меньше места, чем на листе с буквенным текстом). Этот вывод подтверждается уже первыми (весьма грубыми, а именно — заметно завышенными) оценками энтропии Н для чертежей, полученными (на оспове данных о р аспре- делении длин одноцветных участков) в уже цитировавшей- цитировавшейся выше работе М а й ч е л а [136]. Согласно оценкам Май- чела в случае сложных радиосхем с рядом надписей с уве- уверенностью можно утверждать, что #^0,12 бит, т. е. R > > 88%, в то время как для простых чертежей энтропия Н вполне может оказаться еще более чем вдвое меньшей (т. е. избыточность будет превосходить 95%). Более акку- аккуратный (но и заметно более сложный) метод приближенной оценки энтропии и избыточности простых чертежей (сос- (состоящих из ряда непрерывных линий) предложил У. Ф о й Ц40]. В случае разобранного в работе [140] одного част- частного модельного примера учет лишь отличия относитель- относительной частоты рх черных элементов от 1/2 приводил к оцен- оценкам Н <1 0,08 бит, R Г> 92% (значение рг здесь было близко к 0,01), в то время как использование предложен- предложенного автором более точного метода позволяло получить следующий результат: Н ^0,015 бит, Д>98,5%. Что же касается до передаваемых по фототелеграфу рисунков и фотографий, то эти типы сообщений фактически мало от- отличаются от черно-белых телевизионных изображений; поэтому на данных об их энтропии и избыточности мы можем специально не останавливаться, отослав читателя к предыдущему разделу настоящего параграфа. Пропускная способность реальных линий связи В заключение этого параграфа мы остановимся еще на вопросе о практической ценности оценок энтропии и информации реальных сообщений для техники связи. Роль энтропии в теории передачи сообщений определяется
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 313 основной теоремой § 2 (стр. 230—231): максимальная до- достижимая скорость v передачи по линии связи опре- определяется формулой v = -jj элементов/ед. времени, где Н — энтропия одного элемента сообщения (будет ли это буква, фонема, нота, элемент телеияображения или растровый элемент фототелеграммы — безразлично), а С — пропускная способность этой линии связи. Поэтому для того, чтобы найти предельную скорость передачи, надо знать не только энтропию Н, определению которой для разных случаев была посвящена предшествующая чисть настоящего параграфа, по еще и пропускную спо- способность С. Мрм жо определяется пропускная способность? И § 2 мы шимми!, что С -- L log ni, где через L обозначено число элементарных сигналов, которые можно передать по липии за единицу времени, а через т — общее число используемых различных сигна- сигналов. На практике число т часто выбирается из условия* чтобы для соответствующей линии связи можно было соз- создать достаточно простую и дешевую передающую и при- принимающую аппаратуру. Так, например, очень часто при- применяются всего 2 элементарных сигнала (обычно — посыл- посылка тока и пауза): дело в том, что задача различения таких двух сигналов на приемном конце является технически наиболее простой и основанные на этом принципе прием- приемные аппараты наиболее дешевы и надежны. В тех случаях, однако, когда нам необходимо передать как можно больше сообщений за единицу времени, естественно пренебречь простотой и дешевизной оборудования линии и стремиться максимально увеличить значения L и т. И здесь на пер- первый взгляд кажется, что возможности совершенно без- безграничны: ведь обычно сигналы, передаваемые по линии связи, могут изменяться непрерывно, так что их как будто можно выбирать сколь угодно краткими по длительности и сколь угодно мало отличающимися друг от друга. Но это означает, что числа Lnm могут быть сделаны сколь угодно большими и, следовательно, пропускная способность любой линии, передающей непрерывные сигналы, факти-
314 П ЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV чески безгранична. Какую же роль в таком случае может играть большее или меньшее значение энтропии Ш На самом деле, однако, приведенное здесь рассуждение неверно! любая линия связи, передающая непрерывные сигналы, также имеет строго ограниченную пропускную способность. Прежде всего мы никогда не можем мгновенно изменить значение передаваемого сигнала — на это всег- всегда требуется определенное время. В используемых на практике линиях связи минимальное время, требующееся для ощутимого изменения сигнала, строго регулируется техническими характеристиками самой линии. Это приводит к тому, что для каждой линии лишь значения сигнала, разделенные определенным минимальным промежутком времени т0, могут выбираться более или менее произвольно: после того как эти значения выбраны, все значения сиг- сигнала в промежуточные моменты времени будут уже одноз- однозначно определены. Иначе говоря, максимальное число L — = — различных элементарных сигналов, которое можно передать по линии связи за единицу времени, является некоторой технической характеристикой линии, которую нельзя изменить, не внося, изменений в самую линию. Это обстоятельство, играющее основную роль во всех приме- применениях теории информации к вопросу о передаче непре- непрерывных сигналов, впервые было четко сформулировано еще до возникновения современной теории информации (в d933 г.) В. А. Котелышковым. В работе Котельникова число L было выражено также через привычные для тех- техников характеристики линии связи (через так называе- называемую «ширину полосы пропускания»); полученное выраже- выражение показывает, что, например, в случае радиосвязи пе- перестройка линии с целью увеличения значения L не может принести выгоды, поскольку она сделает невозможной работу радиолиний, ведущих передачу на близкой длине волны (см., например, [4], [13] или [69]). Но, может быть, хотя бы число т можно выбрать сколь угодно большим — ведь этого уже достаточно для того, чтобы добиться сколь угодно большой пропускной способ- способности С? К сожалению, это тоже неверно. Прежде всего мы не можем использовать сигналы сколь угодно большой интенсивности, так как при этом нам придется затратить на их создание громадную мощность. Существует строго оп-
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 315 ределенная средняя мощность Р передаваемого сигнала, однозначно определяемая энергетическим питанием нашей линии связи. Кроме того, мы не можем различить и сиг- сигналы, значения которых слишком близки друг к другу. С этим обстоятельством мы уже встречались на стр. 290— 292, где максимальная степень близости, при которой сиг- сигналы еще можно различить, определялась чисто физиоло- физиологическими факторами («разрешающей способностью» гла- глаза или уха). В случае технических линий связи прием осу- осуществляется специальными аппаратами, и ценой услож- усложнения и удорожания этих аппаратов их разрешающую способность можно сделать практически сколь угодно высокой, т. е. можно добиться, чтобы паши аппараты различали даже очень близкие между собой сигналы. Но существует еще одна причина, препятствующая разли- различению близких сигналов — помехи. Дело в том, что в любой линии сними существуют помехи, которые никак не могут быть устранены; ити помехи искажают значение передаваемого сигнала. В случае электросвязи, например, эти помехи могут вызываться малыми колебаниями на- нагрузки в сети, электрическим полем соседней линии, или даже просто тем обстоятельством, что электроны во всех проводниках всегда находятся в случайном «тепловом» движении (зависящем от температуры проводника и вполне аналогичном хаотическому движению молекул газа); в случае радиосвязи они могут создаваться грозо- грозовыми разрядами в атмосфере или электрическими разря- разрядами, создаваемыми промышленными или транспортными установками (например, искрением дуги проходящего неподалеку трамвая). Если мы обозначим через W среднюю мощность этих помех (т. е. мощность тех искажений, которым подвергаются наши сигналы в процессе передачи), то те сигналы, разность которых имеет много меньшую чем W мощность, на приемном конце нельзя будет раз- различить никакими аппаратами — небольшая разница меж- между ними будет полностью «смазана» значительно бблыпими «случайными» искажениями. Поэтому различными здесь оказываются лишь сигналы, отличающиеся не меньше, чем на некоторое определенное значение; так как, кроме того, максимальный уровень наших сигналов (определяю- (определяющийся средней мощностью сигнала Р) также не может быть безгранично велик, то может' существовать лишь
316 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV конечное число т различных между собой градаций значе- значения сигнала. Количественный анализ возникающей здесь ситуации был произведен Шенноном [1] (см. также [4] или [13]), показавшим, что, вообще говоря, число т можно определить формулой т = f 1 + ™. Таким об- образом, мы приходим к следующему выражению для про- пропускной способности С произвольной линии, передающей непрерывно изменяющиеся сигналы: (где Lt — некоторая «упиверсальная» характеристика ли- линии связи, не зависящая от передаваемого сообщения) *). Вывод этой замечательной формулы представляет собой один из важнейших вкладов теории информации в общую теорию связи. Приведенная формула позволяет без труда подсчитать пропускную способность каждой конкретной линии связи; кроме технических характеристик самой линии, при этом надо еще только знать отношение ™ средних мощностей сигнала и помех. Оказывается, что для телетрансляцион- телетрансляционных линий С обычно имеет порядок десятков миллионов бит/сек.; для телефонных, фототелеграфных и радиотран- радиотрансляционных линий С измеряется многими тысячами или де- десятками тысяч бит/сек., а для телеграфных линий—сотнями или несколькими десятками бит/сек, (см., например, [69], [132] или [141]). Существенно при этом, что имеющаяся про- пропускная способность во всех случаях (кроме, быть может, телеграфа) теоретически позволяет передавать информа- информацию с гораздо большей скоростью, чем та, которая до- достигается при обычных технических передачах. Так, на- например, по телеграфу информация обычно передается со скоростью, не превышающей 75 бит/сек.; по телефону — со скоростью, не превышающей 2500 бит/сек; по телеви- телевидению— со скоростью, не превышающей 500 000 бит/сек. Таким образом, все реально используемые в настоящее *) Мы говорим здесь лишь о пропус кной способности липии, передающей непрерывные сигналы, поскольку случай передачи дискретных сигналов при наличии помех будет специально рас- рассматриваться в следующем параграфе.
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 317 время способы передачи сообщений, как правило, исполь- используют лишь небольшую часть пропускной способности су- существующих линий связи. Более полное использование пропускной способности требует применения значительно более совершенных методов кодирования и декодирования; в этой связи возникает много трудных и научных, и чисто технических проблем, занимающих в настоящее время умы большого числа исследователей во всех странах мира (подробнее об этом будет говориться в заключительном параграфе настоящей главы). Заметим, что достижения последних лет в области теории и практики кодирования и декодирования в принципе позволяют уже сейчас сущест- существенно повысить эффективность использования линий свя- аи: тик п акспориментальных передачах, специально ор- ганинпншшмх американскими учеными и инженерами, удалось достигнуть скорости передачи информации по телефону норндкя 7Г>00—8000бит/сек, (см., например, [13], стр. 415, [142] или же [176], стр. 18), а по телевидению — порядка 20 000 000 бит/сек, (см. [142]). Однако и такие скорости передачи информации кажутся все же недостаточ- недостаточными для нужд будущего — общее количество информа- информации, передаваемое по имеющимся линиям связи, в боль- большинстве стран мира стремительно возрастает с каждым годом, а в дальнейшем можно ожидать широкого развития новых типов передачи информации (например, видеоте- видеотелефона), а также появления двусторонней телевизионной связи между отдельными учреждениями в разных городах и массового использования непосредственной передачи циф- цифровых данных в крупные централизованные вычислитель- вычислительные центры, что приведет к значительному убыстрению этого процесса. Поэтому в настоящее время в ряде лаборато- лабораторий мира начата разработка совершенно новых видов линий связи, обладающих заметно большими пропускными спо- способностями — в первую очередь металлических и диэлек- диэлектрических волноводных линий г) с пропускными способ- способностями порядка 5 • 108 — 1 • 109 бит/сек, и оптических вол- волноводов из стекловолокна с пропускной способностью *) Волноводы (радио и оптические) представляют собой фак- фактически трубопроводы, по которым распространяются волны. На- Наличие внешней оболочки позволяет сильно уменьшить уровень помех и вместе с тем использовать очень широкую полосу частот, не создавая препятствий для других линий связи.
318 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ ГГл. IV порядка 10е бит/сек, на одно волокно (о таких проектах го- говорилось, в частности, в ряде докладов на международной конференции по технике связи в Монреале в июне 1971 г., на международной конференции по теории информации в Цахкадворе, Арм. ССР, в сентябре 1971 г. и других недав- недавних научных совещаниях, имеющих отношение к науке о связи). Разумеется, реальное внедрение таких новых линий связи требует еще преодоления большого числа технических трудностей,— но сам факт появления такого рода исследований уже представляется знаменательным. Интересно отметить, что понятие о пропускной способ- способности, возникшее в технике, вполне может быть применено и к тем «линиям связи», по которым каждый живой орга- организм получает информацию от своих органов чувств. В са- самом деле, мы уже описывали в гл. II специальные пси- психологические эксперименты, показывающие, что время, требуемое для усвоения центральной нервной системой какой-либо информации, прямо пропорционально количе- количеству этой информации; таким образом, здесь выполняются те нее закономерности, которые имеют место для всех тех- технических линий связи. В последнее время появились также некоторые работы, обосновывающие применимость к нервным линиям связи в человеческом организме форму- формулы (*) Шеннопа (стр. 316); этот вопрос, однако, в настоящее время еще нельзя считать выясненным окончательно. Пропускная способность С отдельных органов чувств может быть весьма грубо оценена на основе физиологиче- физиологических данных об их разрешающей способности (т. е. об об- общем количестве объектов, различимых при помощи того или иного органа чувств) и о среднем времени, нужном для восприятия (т. е. о максимальной частоте смены внешних воздействий, при которой эти воздействия все еще могут восприниматься раздельно). Таким образом удается, в частности, показать, что пропускная способность разных органов чувств резко различна: человеческий глаз при благоприятных условиях освещения, по-видимому, спо- способен воспринимать (и передавать центральной нервной системе) информацию со скоростью порядка миллионов (или десятков миллионов) бит/сек., в то время как ухо воспринимает информацию с гораздо меньшей скоростью порядка тысяч или десятков тысяч бит/сек, (см., например, [143] — [146]). Столь различная пропускная способность
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 319 отчасти может объясняться резким различием числа нерв- пых волокон, обслуживающих слух и зрение (по современ- пым физиологическим данным число «ушных нервных волокон» имеет порядок 30 000, против примерно 800 000— 900 000 «глазных нервных волокон»). Осязание же, по- видимому, по своей способности воспринимать и передавать информацию находится где-то в промежутке между зре- зрением и слухом. Надо, однако, отметить, что лишь очень небольшая часть передаваемой органами чувств информа- информации может быть сознательно усвоена человеческим моз- мозгом; это ясно следует, например, ив приведенных на стр. 277 данных о скорости восприятия информации при раз- разговоре (мы отмечали там, что при быстром разговоре часть «носмыслопой» информации пропадает, так как человек не успепаот оо иосприттять). Тщательный анализ результатов, касающихся мшесимплытой достижимой скорости разгово- разговора, чтения, письма (стенографического) и т. д. показывает* что во всех случаях человек способсп усвоить поступаю- поступающую информацию лишь если скорость ос поступления по превосходит примерно 50 бит/сек, (см., например, [147] и 1148]) *). Величина того же порядка получается и при определении количества информации, усваиваемой зри- зрителем при просмотре быстро мелькающих на экране кад- кадров [149]. Наконец, специально поставленные опыты по определению минимального времени физиологических ре- реакций (ср, стр. 83 и след.), достигаемого при наиболее благоприятных условиях восприятия, также показывают, что пропускная способность центральной нервной систе- системы человека по порядку величины равна 30—40 бит/сек, (см. [148], [150]). Разумеется, в отношении дальнейшего уточнения этих чисел и выяснения их зависимости от ин- индивидуальных особенностей человека и его физического и психического состояния остается сделать еще очень много2); однако сам факт плодотворности применения *) Напомним еще, что в соответствии со сказанным на стр. 277 при нормальном разговоре лишь около половины воспринимаемой слушателем информации содержится в записи речи его собеседни- собеседника; остальная же информация касается голоса говорящего, его эмоций, смысловых ударений и т. д. *) См., в частности, обзор этого вопроса в книге 141] и имею- имеющиеся там ссылки на оригинальную литературу, соаержащую мно- множество противоречащих друг вругу ванных.
320 ПЕРЕДАЧА СОО БЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV общих идей теории информации к изучению нервной де- деятельности человека и животных теперь уже не вызывает сомнений. Общая схема передачи по линии связи. Передача генетической информации В заключение настоящего параграфа скажем еще не- несколько дополнительных слов об общей схеме передачи сообщений по линии связи, с которой мы фактически начали § 1 этой главы. Процесс передачи сообщений по произвольной линии связи можно схематически изобра- 8ить следующим образом: сообщение сигнал на входе на входе 1- о кодирование помехи 4 на линия связи сигнал сообщение выходе на выходе Р Pi декодирование В случае, например, передачи текстовых сообщений по телеграфу сообщения аг и pt на входе и на выходе записы- записываются на определенном (одном и том же!) языке с по- помощью соответствующего буквенного алфавита и могут отличаться друг от друга лишь в результате каких-то искажений в процессе передачи, а сигналы а и р на входе и на выходе представляют собой последовательности элек- электрических «элементарных сигналов» (обычно — посылок тока и пауз). Таким образом, операции кодирования и де- декодирования здесь состоят в преобразовании буквенного сообщения аг в последовательность «элементарных сигна- сигналов» айв обратном переходе от принятой последователь- последовательности р «элементарных сигналов» к буквенному сообще- сообщению рх. В телефонии сообщение аг имеет характер звука, т. е. определенных колебаний давления; кодирование здесь состоит в преобразовании этих колебаний давления в ко- колебания электрического тока, а декодирование — в об- обратном преобразовании принятых колебаний тока в звук. В линии связи современной электронной вычислительной машины сигнал аг на входе представляет собой определен- определенную последовательность чисел, кодирование состоит в
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 321 его преобразовании в определенную последовательность а электрических сигналов, непосредственно вводимых в машину, а декодирование — в преобразовании поступив- поступивших в машину сигналов р (представляющих собой сумму «вводимых сигналов» а и «искажений в процессе ввода»), приводящем к совсем новому сообщению pt— ответу за- задачи, решаемой машиной; здесь уже $t принципиально отличается от а2 и преобразование аг в р2 составляет ос- нопную цель нашей линии связи. Точно так же и в слу- случае передачи зрительного «сообщения» по нервным во- волокнам ах и р2 резко отличаются друг от друга — здесь щ состоит из совокупности световых волн разной длины кол и м (т. о. разного цвета) и разной амплитуды (т. е. иптопсипппсти), n Pi представляет собой совокупность побуждений определенных поршплх клеток (нейронов) головного моага (тик начинаемых «зрительных нейро- нейронов»), воспринимаемых нами как некоторая зрительная картина. Сигнал а в этом частном случае представляет собой совокупность электрических импульсов, вырабаты- вырабатываемых приемниками света (колбочками и палочками) глаза, а кодирование состоит в преобразовании света в такие импульсы и пока изучено довольно плохо; декоди- декодирование же здесь состоит в переходе от электрических им- импульсов р, дошедших до мозга по неровным волокнам, к возбуждениям нейронов plt и его детали известны еще значительно хуже, чем детали кодирования. Общие вопросы, касающиеся описания произвольной линии связи при наличии помех и определения теорети- теоретических границ возможностей использования таких линий для передачи информации, будут нами рассмотрены в сле- следующем § 4, а заключительный § 5 будет посвящен вве- введению в обширную теорию оптимального кодирования и декодирования дискретных сообщений, передаваемых по линиям связи с помехами. Сейчас же мы лишь отметим, что во многих случаях даже вопрос об изучении самой «аз- «азбуки», на которой записываются сообщения аг и plt и о природе передаваемых «элементарных сигналов» а пред- представляет очень большой интерес и является совсем не простым. Наиболее ярким примером здесь является проб- проблема передачи генетической информации, успехи в изучении которой относятся к числу крупнейших науч- научных достижений двух последних десятилетий. 11 А. М. Яглом, И. М. Яглом
322 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Ввиду общенаучной важности этой проблемы и ее тесной связи с общей постановкой задачи о передаче информации, быть может уместно остановиться здесь на относящихся сюда результатах немного более подробно. «Линии связи», сопоставляемые явлениям наследственности, играют первостепенную роль в самом сущест- существовании органической жизни. По этим линиям постоянно с пора- поразительной точностью передается огромная и крайне важная инфор- информация. Всего на Земле зарегистрировано около 2 млн. отдельных видов животных и растений — и по рассматриваемым «линиям связи» безошибочно передаются сигналы, указывающие, какой именно вид должен развиться из единственной зародышевой клет- клетки. При этом передаваемая информация отнюдь не ограничивается одним лишь указанием вида — она содержит также достаточно исчерпывающие сведения об особенностях строения вида и, кроме того, множество данных, касающихся наследственных особенно- особенностей индивидуального организма, развившегося из данной клетки. Вся эта информация сохраняется где-то в ничтожном объеме ядра зародышевой клетки и передается какими-то достаточно сложными путями телу («цитоплазме») как исходной клетки, так и всех про- прочих клеток, возникающих из данной путем деления; она сохраня- сохраняется также и в процессе дальнейшего воспроизведения последую- последующих поколений аналогичных особей. Строение соответствующих линий связи и методы передачи информации по ним еще не так давно казались совершенно таин- таинственными и быстрое продвижение в этой области, связанное с громадными успехами молекулярной биологии в период после по- последней мировой войны, мало кто мог предвидеть. Основную роль вдесь сыграло открытие фундаментальной роли колоссальных по- полимерных молекул так называемой дезоксирибонуклеиновой кислоты (сокращенно ДНК), располагающихся в хромосомах ядра клетки. Известно, что эти молекулы состоят из длинной цепи чередующихся углеводных и фосфатных групп одинакового состава, причем к каждой углеводной группе присоединено еще иекоторое одно азо- азотистое основание из числа четырех возможных оснований такого типа, называемых аденин, гуанин, цитоаин и тимин. Все допусти- допустимые различия в молекулах ДНК ограничиваются различиями в последовательном чередовании соответствующих оснований (кото- (которые, для краткости, можно обозначать их первыми буквами А, Г, Ц и Т, а можно и просто занумеровать цифрами 0, 1, 2 и 3). Таким образом, исходное «сообщение» ах здесь хранится в хромосомах ядра клетки и ваписано на «четырехбуквенной алфавите» молекул ДНК. Одна молекула ДНК в хромосоме может содержать несколь- несколько десятков тысяч или даже более углеводных групп (а, следова- следовательно, и оснований), а число отдельных хромосом в ядре клетки может равняться нескольким десяткам; таким образом, количество информации, которое может быть запасено в хромосомах, имеет порядок log 4100 °°° = 200 000 бит (или еще больше). Этого количества информации с избытком хва- хватает для хранения всех передающихся по наследству данных. На самом деле строение хромосом является еще несколько бо- более сложным— каждая хромосома представляет собой не одипар-
, 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЯ 323 пую, а двойную нить ДНК, составленную из двух таких моле- молекул, свернутых в форме двух спиралей, навивающихся в противо- противоположных направлениях на один (реально не существующий) цилиндр. Эти две молекулы ДНК являются не одинаковыми, а «дополнительными» — аденину в одной из них всегда отвечает в другой тимин, а гуанину — цитозин; соответствующие пары ос- оснований, расположенные на цилиндре друг против друга, связаны между собой сравнительно слабыми водородными связями. Такое «дпойпое» строение хромосом играет основную роль в процессе их иоспроизведения при делении клеток («митозе»), когда каждая из дпух новых клеток приобретает свой набор хромосом, идентичный набору хромосом исходной клетки; этот процесс, по-видимому, связан с «развертыванием» двух входящих в хромосому нитей ДНК, при котором две длинные молекулы ДНК расходятся между собой и каждая присоединяет затем к себе еще одну «дополнительную» молекулу, образуя самостоятельную двойную спираль. Происхо- дшцни тниим путем передача информации от родительских клеток к дочприим играет фундаментальную роль во всех жизпенных явле- явлениях; лдось роль породаиисмпго «сообщения» cti играет набор хромо- хромосом (набор молекул ДНК) исходной клетки, а в качество «сообщения на выходе» pt выступают наборы хромосом двух новых клеток. Получение «сообщение па выходе» Р, испосредствоппо из «сообщения на входе» ах снимает в этом случае вопросы о кодировании и де- декодировании «сообщений». В то же время вопрос о «помехах» в нашей линии связи является необычайно важным, ибо возникаю- возникающие в результате этих «помех» (роль которых может играть, на- например, радиоактивное облучение клетки) искажения представляют собой изменения наследственных признаков («мутации»), играю- играющие основную роль в процессе эволюции органических видов. Перейдем теперь к передаче информации от хромосом к телу («цитоплазме») клетки, определяющей процесс построения из одной зародышевой клетки целой особи данного конкретного вида. Основ- Основную роль во всех жизненных функциях организма играют белковые вещества, в частности ферменты, управляющие всеми происходя- происходящими в живых организмах биохимическими реакциями. Синтез белка происходит во вкрапленных в цитоплазму клеток так назы- называемых рибосомах; скорость этого синтеза достигает порядка одной молекулы белка в минуту. При этом строение белковых моле- молекул также является довольно простым — все белки построены из примерно 20 различных аминокислот, чередующихся в определен- определенном порядке вдоль линейной молекулы белка; эти аминокислоты перечислены в таблице на следующей странице вместе с при- принятыми в биохимии сокращениями их названий. Таким образом, можно сказать, что приемным концом («выхо- («выходом») рассматриваемой здесь линии связи служат рибосомы; «со- «сообщение на выходе» Р * представляет собой в этом случае белок и за- записано оно на «двадцатибуквенном алфавите» аминокислот. Оста- Остается еще только установить, как происходит перенос информации от ДНК к белкам, в частности, что надо понимать под «сигпалом на входе» а и «сигналом на выход)» Р- На последний вопрос также можно дать сегодня вполне удовле- удовлетворительный ответ. Основную роль в процессе передачи информации 11*
324 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Аминокислота Алании Аргинин Аспарагин Аспарагиновая кислота Валин Глутамин Глутаминовая кислота Глицин Гистидин Мзолейцин Сокращенное обозначение Ала Арг Асн А сп Вал Глн Глу Гли Гис Иле Аминокислота Лейцин Лизин Метиопин Про лин Серин Треонин Триптофан Тирозин Фенилалалип Цистеин Сокращенное обозначение Лей Лив Мет Про Сер Тре Три Тир Фен Цис от ДНК хромосом к белковым молекулам играет еще одна нуклеи- нуклеиновая кислота — так называемая рибонуклеиновая кислота (сок- (сокращенно РНК). Строение РНК весьма близко к строению ДНК — только углеводная группа здесь немного иная и роль тимнпа играет иное основание — урацил, немного отличающееся от тимина по химическому составу. Таким образом, молекулу РНК можно рассматривать как «сигнал», закодированный с помощью четырех «элементарных сигналов» А, Г, Ц и У (или 0, 1, 2 и 3'), весьма близких к «буквам» исходного «сообщения» А, Г, Ц и Т. На молекулах ДНК хромосом, как на некотором «шаблоне», синтезируются определенные линейные молекулы РНК (так назы- называемая «информационная» РНК или иРНК), которые в дальнейшем выделяются из ядра клетки и проникают в рибосомы; эти молекулы иРНК и играют основную роль в процессе синтеза белка. Таким образом, изображенная на стр. 320 общая схема передачи инфор- информации по линии связи в рассматриваемом случае имеет следующий вид: хромосомы рибосомы ДНК | РНК РНК —I белок Здесь роль «сообщения на входе» а± и «сообщения на выходе» Pj играют ДНК и белок, а роль «сигнала на входе» а и «сигнала на выходе) Р — молекулы иРНК. Согласно приведенной схеме «передаваемое сообщение» од за- записано на «четырехбуквенном алфавите», а «принимаемое сообщение» (i, — на «двадцатибуквениом алфавите», так что для нашей линии связи число т элементарных сигналов, поступающих на «вход» линии, и число г элементарных сигналов, принимаемых на «вы- «выходе», различны (т = 4, а г = 20); «коды» же, с помощью которых ал писаны «сигналы» аир, имеют четыре «элементарных сигнала». Что же касается операций кодирования и декодирования, a1, et
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 325 преобразований «сообщения» ocj в «сигнал» а и «сигнала» Р в «со- «сообщение» Эх, то они были изучены, в основном, лишь сравнительно подавно. Естественно, что более простой (а потому — и менее ин- интересной) из перечисленных выше двух операций является опера- операция «кодирования», сводящаяся к преобразованию последователь- последовательности чередующихся четырех «букв» А, Г, Ц и Т в последова- последовательность четырех «элементарных сигналов» А, Г, Ц и У. Здесь можно указать много простых и априорно допустимых систем коди- |юн;мшя: так, например, своеобразная «дополнительность» опреде- j .IX пар оснований, проявляющаяся, в частности, в строепии «днийиых» молекул ДНК, предсказывает вариант, при котором гуа- пни «порождает» цитозин, цитозин — гуанин, тимин — адепип и адешш — урацил. По-видимому, именно такое кодирование, в основном, и осуществляется в природе, хотя, возможно, оно и не является совершенно универсальным *). Значительно больший интерес представляет в пашем случае «дскодироннмш!», состоящее в переходе от «четырехбуквенного n;ii.iun» и 14IK к «днидцптнбунненному языку» белка; именно его поэтому н пмгмт обычно и ннду, когда говорят о «генетическом коде». Ясно, что один опюпппно iil'IIK, которое) может принимать всего четыре «значении»— Л, /', Ц или У,— и и пак не может содер- содержать полной информации об одной из диад ц и т и возможных аминокислот. Поэтому приходится считать, что одну аминокислоту определяет последовательность из нескольких соседних оснований в молекуле РНК; такую последовательность оснований, «кодирую- «кодирующую» одну «букву» алфавита аминокислот, принято называть кодовом. Так как число различных последовательностей из двух оснований РНК равно 4-4 = 16, что меньше числа разных аминокислот, то кодон должен содержать не меньше трех оснований; три же основания он содержать вполне может, так как число всевозможных троек оснований равно 4-4-4 = 64, что за- метно больше двадцати. Первая гипотеза о природе генетического кода была предложена в 1954 г. известным американским физиком и астрофизиком Г. Г а- новым [151]. Гамов предположил, что заданная аминокислота в белковой цепи определяется некоторой тройкой соседних оснований РНК, скажем — первым, вторым и третьим основания- основаниями, следующая аминокислота — сдвинутой на единицу тропкой, т. е. вторым, третьим и четвертым основаниями, еще следующая —¦ сдвинутой на два основания тройкой и т. д.; такой код с частично перекрывающимися кодонами получил название «перекрывающегося кода» (см. схему на следующей стр., где нуликами обозначены основа- пия, а звездочками —- аминокислоты). При этом предполагалось, что аминокислота белка зависит только отсостава соответствую- соответствующего кодона, но не от порядка отдельных оснований в кодоне. Основным аргументом в пользу этой гипотезы для Гамова явилось то, что число различных по составу троек, которые можно образовать *) Так, папример, существуют вирусы, у которых вообще роль молекул ДНК играют длинные молекулы РНК, так что здесь «со- «сообщение на входе» ai с самого начала записано в «алфавите» А, Г, Ц, У,
326 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гп. IV из четырех оснований, равно 2C\ + C\ =20. число тросда по- число троек основа- число троек из парно различ- ний. содержащих два трех одинако- ных оснований одинаковых основания вых оснований ; . .00000000000000000. РНК - белок Предложенный Г. Гамовмм «перекрывающийся код», так же как и выдвинутый совместно Г. Гамовым иМ. Ичасом [152] «неперекрывающийся комбинационный код» (см. схему вниэу), f котором тоже аминокислота белка определялась единственно составом кодонов, но не расположением в нем оснований, ...0000000000000 00 00 0.. .РНК ¦•¦11**11 ...белок' оказались не соответствующими действительности. Однако четко поставленная Г. Гамовым задача описания процесса синтеза белков в живой клетке как согласующегося с экспериментальными данными «перевода» сигнала р, записанного на четырехбуквенном языке РНК, в сообщение р1? записанное на двадцатибуквенвом языке белков, сыграла большую роль в дальнейших успехах этой области молекулярной биологии. С «комбинационным кодом» Г. Гамова и М. Ичаса одно время конкурировала выдвинутая знаменитым Ф. К р и к о м и его сотрудниками [153] идея «кода без запятой», довольно долго широко обсуждавшаяся многими учеными разных специальностей (см., например, примыкающую сюда статью математиков С. Г о л о м- б а, Л. Велчаи генетика М. Дельбрюка [154]). Термин «код без запятой» здесь понимается немного иначе, чем на стр. 187, где фактически под этим понимался произвольный однозначно расшифровываемый код —¦ равномерный код, состоящий только из трехбуквенных кодонов, этому последнему условию, очевидно, всегда будет удовлетворять. Но дело в том, что если мы допустим, что код —¦ неперекрывающийся, то неясно, как именно распознается конец одного кодона и начало следующего — ведь в принципе одну и ту же последовательность оснований, скажем,...АГГЦТЦА... можно по-разному разбить на трехбуквенные «кодоны»: ее можно «прочесть» и как ...{АГГ) (ЦТЦ) (А..., и как ...АГ) (ГЦТ) ЩА..., и как ...А) {ГГЦ) (ТЦА).... Можно указать три возможности избе- избежать возникающей таким образом неопределенности. В принципе может существовать какой-то особый знак, указывающий начало
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 327 считывания последовательности кодонов1). Возможно также су- существование специальной последовательности оснований (быть может, содержащей большее или меньшее число оснований, чем отвечающие аминокислотам кодоны), отделяющей отдельные кодоны друг от друга — подобная последовательность оснований расшифро- расшифровывается как «запятая», отделяющая друг от друга «слова» (кодоны). Наконец, специалисты по теории связи знают и такие «коды без запятой», что произвольная последовательность «букв» (в нашем случае — оснований ДНК) допускает лишь одну возможность се осмысленного прочтения; другие же варианты разбиения этой последовательности «букв» на отдельные «слова» приводят к после- последовательности бессмысленных сочетаний «букв», не отвечающих никаким «словам». Ясно, что так определенный «код без запятой» должен быть «не- полпым»— в нем должны существовать последовательности букв, не отвечающие никаким «словам» (не составляющие кодонов). Прини- Принимая, чти каждый кодой состоит из трех оснований (триплетный код), мм легко шшдим наибольшее возможное число осмысленных кодонои. Ясно, что «триплеты», состоящие из трех одинаковых «букв» (оснований), например, ААА но могут иметь смысла, ибо иначе длинпая последовательность соответствующих «букв»— ...ЛААЛАААА...— могли бы осмысленно считыпаться, начиная с любого места. Остающиеся 64—4 = СО ранных триплетов можно разбить на 20 групп по 3 триплета, получающихся друг из друга «циклической перестановкой букв» (оснований)— таковы, скажем, триплеты АГЦ, ГЦА и ЦАГ или ЦЦТ, ЦТЦ и ТЦЦ. Ясно, что из этих трех триплетов смысл может иметь только один, ибо в про- противном случае также нельзя было бы однозначно определить, с какого места надо начать считывание кодонов в длинной последо- последовательности одинаковых триплетов одного из этих видов. Таким образом, наибольшее возможное число осмысленных кодонов в случае триплетного кода без запятой не может превышать 60 : 3 = 20 — и можно показать, что оно в точности равно 20. В этом обстоятельстве Ф. Крик и разделяющие его точку зрения исследователи видели один из веских аргументов в пользу своей гипотезы. Решение вопроса о строении «генетического кода» было найдено, однако, не за письменным столом, а непосредственно в лаборато- лабораториях. 15 начале 60-х годов (в 1961—1963 гг.) группе биохимиков, возглавляемой американцем М. Н и р е н б е р г о м, удалось показать, что синтез цепочек аминокислот, во всем напоминающих белок, можно осуществить и в отсутствии живых клеток, выделив отдельно рибосомы живых клеток, поместив их в органическую среду, содержащую основные компоненты среды цитоплазмы, и добавляя синтетическую РНК заданного состава, в процессе синтеза белка играющую роль информационной РНК живой клетки. *) Заметим сразу же, что, видимо, именно этот вариант и реа- реализуется в действительности, хотя детали «указания», предписы- предписывающего именно с данного основания начать «считывание» кодонов, пока остаются неясными.
328 ПЕРЕДАЧА СООБЩЕНИЙ ПО. ЛИНИЯМ СВЯЗИ [Гл. IV В первом опыте такого рода, осуществленном М. Ниренбергом в Г. Маттеи, синтетическая РНК содержала одно только повторя- повторяющееся урациловое основание; при этом наблюдался синтез искусственного белка, состоящего из многократно повторяющейся аминокислоты фенилалаиина (Фен). Таким образом РНК ...УУУУУУУУУ... порождала белок ...ФенФенФенФен..., от- откуда следовало, что если код является триплетным, то кодону УУУ должна соответствовать аминокислота Фен. Аналогично было установлено, что кодону ЦЦЦ отвечает аминокислота п р о- л и н (Про). В течение всех 60-х годов в многочисленных биохимических лабораториях мира велся широкий «штурм» проблемы генетического кода; из числа участвующих в этом исследователей, кроме М. Ни- рснберга и его сотрудников (из которых особо большую роль сыг- сыграл Ф. Ледер), следует упомянуть работающих в США индуса Г. X. Хорана и мексиканца С. Очоа. Мы не станем рассказывать здесь об этом подробно, отослав желающих к старым обзорам Г. Гамова, М. Ичаса и А. Р и ч а [155], дающим возмож- возможность познакомиться с ранними этапами попыток расшифровки генетического кода, к (тоже довольно старым) статьям Ф. Кри- Крика, М. Ниренберга и др. [156], рассчитанным на широкого читателя, и, особенно, к обстоятельной монографии М. Ичаса И 57], список литературы к которой содержит 869 названий. Трудами многих ученых было установлено, что генетический код действи- действительно является триплетным и неперекрывающимся; что рп является «вырожденным» в том смысле, что некоторым аминокислотам отве- отвечают сразу несколько разных кодонов; что существуют «бессмысленные» (т. е. не несущие генетической информации) Кодоны УУУ УУЦ УУА УУГ ЦУУ цуц ЦУА ЦУГ ЛУУ ЛУЦ АУЛ ЛУГ ГУУ ГУЦ ГУА ГУ Г Амино- Аминокислоты Фен Фен Лей Лей Лей Лей Лей Лей Иле Иле Иле Мет Вал Вал Вал Вал Кодоны УЦУ уцц У1 У1 ЦЬ цц ГА Г У Ц А ццг АЦУ АЦЦ АЦА АЦГ ГЦУ гцц ГЦА ГЦГ Амино- Аминокислоты Сер Сер Сер Сер Про Про Про Про Тре Тре Тре Тре А.га Ала Ала Ала Кодоны УГУ УГЦ УГА УГГ ц L L ГГУ ГЦ 'ГА ЦГГ АГУ АГЦ АГА АГГ ГГУ ГГЦ ГГА ГГГ Амино- Аминокислоты Цис Цис — Три Арг Аре Арг Аре Сер Сер Арг Арг Гли Гли Гли Гли Кодоны УАУ УАЦ УАА УАГ п L L L 'АУ ГАЦ А А АГ ААУ ААЦ ААА ААГ ГАУ ГАЦ ГАА ГАГ Амино- Аминокислоты Тир Тир — , Гис Гис Глн Глн Асн Асн Лиз Лив Асп Асп Глу Глу
S 4] ПЕРЕДАЧА СООБЩЕНИЯ ПРИ НАЛИЧИИ ПОМЕХ 329 триплеты, которые вообще не являются кодонами в том смысле, что им не отвечает ни одна аминокислота *). Таблица на стр. 328 указывает, кзк представляют себе сего- сегодня ученые генетический код (черточка в левом столбце означает, что соответствующий триплет не является кодовом). (, § 4. Передача сообщений при наличии помех В двух первых параграфах настоящей главы на при- примере телеграфии были рассмотрены некоторые общие вопросы теории передачи сообщений по линиям связи. При этом, однако, все время подразумевалось, что сигна- сигналы передаются по линии связи без всяких иска- ж опий, т. е. что передача ведется в отсутствие помех. Между том п практике связи так фактически никогда не бмпает: псогдп шмможнм некоторые помехи, вызывающие искажение сигнала » процессе передачи. Кратко об этом уже упоминалось в § 3 в спяаи с анализом работы линий связи, передающих непрерывные сообщения (см. стр. 315—316). В настоящем параграфе мы снова вернемся к простейшей схеме дискретной линии связи, рассмотрен- рассмотренной в §§ 1 и 2, т. е. будем предполагать, что по линии пе- передается лишь конечное число различных «элементарных сигналов» постоянной длительности (в самом простом слу- случае лишь два различных сигнала — посылка тока и пау- пауза). Но, в отличие от §§ 1 и 2, теперь мы уже не будем пре- пренебрегать влиянием помех, т. е. будем учитывать воз- возможность путаницы — элементарный сигнал одного типа в результате искажений, вносимых помехами, может быть ошибочно принят на приемном конце как сигнал другого типа (например, посылка тока может восприниматься как пауза, а пауза — как посылка тока). Посмотрим, что мо- может дать теория информации в применении к этому более сложному (но зато и более реальному) случаю. Будем для простоты, как и в § 2, предполагать, что последовательные «буквы» сообщения взаимно незави- независимы, причем п букв алфавита характеризуются определен- определенными вероятностями рг, р%, ..., рп появления на любом месте сообщения той или иной буквы. Рассмотрим линию связи, в которой для передачи используется т различных *) Но которые тем не менее имеют определенный генетический смысл (см. по этому поводу гл. VIII книги [157]).
330 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV элементарных сигналов Ах, А21 ..'., Ат, причем за едини- единицу времени может быть передано L таких сигналов (т. е. длительность одного сигнала равна т = -у-). Тогда, сог- согласно основному результату § 2, при отсутствии помех сообщение по нишей линии связи можно передавать со споростью, сколь угодно близкой к величине Q v = -j[ букв. fed. времени (где С = L log m — пропускная способность линии связи, а Н = — Pi log рг — р2 log pa — ...— р„ log pn — энтропия одной буквы передаваемого сообщения); однако скорость передачи, превосходящая v, здесь никогда не может быть достигнута. При этом для достижения скорости передачи, очень близкой к v, надо лишь разбить передаваемое сообщение на достаточно длинные блоки и воспользоваться, например, для передачи отдельных бло- блоков оптимальным кодом Хафмана или же каким-либо близким к оптимальному кодом (скажем, кодом Шенно- Шеннона — Фано или кодом с такими длинами 11 кодовых обозна- обозначений, что — log ptllog m^lt<. — log jt?i/log m + 1). Иначе говоря, для этого надо воспользоваться кодом, для которо- которого избыточность в закодированном сообщении будет наи- наименьшей возможной или, по крайней мере, достаточно близкой к таковой. При наличии помех в линии связи дело будет обстоять песколько иначе. Естественно, что в этом случае только наличие избыточности в передаваемой последовательно- последовательности сигналов может помочь нам точно восстановить пе- переданное сообщение по принятым данным: в случае значительных помех мы даже, наоборот, стремимся еще больше увеличить избыточность, например, повторяя каждое переданное слово по нескольку раз или заменяя каждую букву сообщения отдельным словом, начина- начинающимся с этой буквы (передача «по буквам»). Ясно, что использование кода, приводящего к наименьшей "избы- "избыточности закодированного сообщения, здесь уже будет
t 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 331 нецелесообразным и скорость передачи сообщения долж- должна быть уменьшена. Насколько же придется ее уменьшить? Для ответа на этот вопрос нам придется предваритель- предварительно разобрать, как математически описывается линия свя- связи, в которой имеются какие-то помехи. Предположим сперва, что рассматриваемая линия связи использует т различных элементарных сигналов At, A2, ..., Ат, но иа-за наличия помех переданный сигнал A t (где i = 1, 2,.. .„ или т) может быть иногда принят на приемном конце линии связи за какой-то другой (отличный от At) сигнал A j. Для того чтобы количественно описать эту ситуацию, надо задать вероятность jpa, (^i) того, что, передавая сигнал И1, мы па приемном конце получим правильный сигнал Л, (таге что рл, (Аг) — это вероятность безошибочной передачи сигнала Ах), и вероятности Рл,(А2), рл, (As),... • • • » Р.А, (Л m) того, что переданный сигнал Аг будет на приемном конце расшифрован кпк.Аг,Ая, ...,Ат. Далее надо задать вероятности рА, (Аг), рАг (А2), ..., pAs: (Am) получения на приемном конце сигналов At, А2,.. •, Amt если на самом деле передавался сигнал А2, и т. д. вплоть довероятностейр^С^!),/^ (Аг) рлп (Ат) того, что на приемном конце будут получены сигналы А1г А2, ... ..., Ат, если на самом деле передавался сигнал Ат. Ве- Вероятности J J Рлт(Ат) в рассматриваемом случае статистически характеризу- характеризуют помехи, имеющиеся в нашей линии связи, т. е. они яв- являются математическими характеристиками рассматри- рассматриваемой линии. Таким образом, полное математическое описание линии связи с помехами, приводящими к тому, что передаваемые сигналы могут иногда неправильно рас- расшифровываться на приемном конце, состоит в задании целого числа т, указывающего, сколько различных эле- элементарных сигналов можно передавать по этой линии» числа L (или т ==-т")» определяющего скорость передачи
332 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV элементарных сигналов, и еще т? неотрицательных чисел Pa.(Aj) (которые, очевидно, должны удовлетворять т условиям: раг (А-^ + Раг(А2) + ... + Ра{ (Ат) = 1 при всех значениях i = 1, 2, ..., т), характеризующих влия- влияние помех. Напомним в этой связи, что в §§ 1 и 2 разные линии связи различались лишь числом т используемых элементарных сигналов и (см. конец § 2) скоростью их передачи L. Приведенное описание линии связи с помехами можно также еще несколько обобщить, допустив, что помехи могут иногда так исказить передаваемый сигпал, что на прием- приемном конце его нельзя будет отождествить ни с одним из т используемых элементарных сигналов At. Для того чтобы учесть также и такую возможность, целесообразно допустить, что на приемном конце могут быть получены не обязательно те же т элементарных сигналов At, А2,. . . А,п, которые передавались по линии, а совсем другие какие- то г (где г может быть и больше т, и меньше т, и равно т) элементарных сигналов Вг, В2, ..., Вг (все или некоторые из которых могут отличаться от сигналов Аи А2,..., Ат; ср. пример 4° ниже). В таком случае помехи будут ста- статистически характеризоваться тг неотрицательными чи- числами Pa, (#i), РаЛВ2), - • -, Ра, (Вг); Pa, (#i), Ра, (В2),. .., рА, (В,); . РАт(В1), РАт(В2), ..., PAjBr), т удовлетворяющими т условиям: рА (BJ -f- рл, (В2) -\-... ... + раг (Вг) = 1 при всех i = l,2,..., т; через Раг (Bj) здесь обозначается вероятность того, что на при- приемном конце будет принят сигнал Bj, если на самом деле был передан сигнал At. Вся же линия связи будет теперь характеризоваться целыми числами тяг, числом L (илит = у-) viтг числамирл, (В}). Использование такого более общего описания линии связи нисколько не услож- усложняет всех последующих рассуждений по сравнению с тем случаем, когда полагается, что г = т и сигналы на при-
g 41 ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 333 омном конце линии совпадают с передаваемыми сигналами Л,, Аг, ..., Ат; именно его мы в дальнейшем и будем применять *). Предположим теперь, что р (А^) — это вероятность того, что передаваемым сигналом является сигнал А1г р (Л2) — вероятность, что им является сигнал А2,... ... , р (Ат) — вероятность, что им является сигнал Ат (гдо, очевидно, р (AJ + р (Л2) + • • • + Р (Ат) = 1). В та- таком случае опыт р, состоящий в определении того, какой именно сигнал передается, будет иметь энтропию Н ф), ранную // (Р) =--= - р (A,) log р (А,) - р (Л2) log p (А2) - ... ... — р (Ат) log p (Ат). Опыт «, состоящий и пмнгиоиии того, какой сигнал при этом будет принят па приемном конце, будет, очевидно, опытом с г исходами, заиисиммм от опыта Р; условная ве- вероятность исхода В} этого нового опыта при условии, что опыт р имел исход A i (где i = 1, 2, . .. , т; / = 1,2,... .. . , г), как раз и равняется рлг (Bj). Средняя информация об опыте р, содержащаяся в опыте а, равна / (а, Р) = Н (Р) - Яа (Р), где На (Р) — условная энтропия, определяющаяся из формул, приведенных на стр. 90—91 (с заменой в этих формулах к и I на таг). Разумеется, информация / (а, Р) ксегда не больше энтропии Н (Р) опыта р, т. е. той наибольшей информации об опыте Р, которую только можно получить и которая содержится, например, в са- самом этом опыте. Информация / (а, Р) равна энтропии Н (Р) только в том случае, когда исход опыта а однозначно определяет исход опыта р, т. е. когда по принятому сиг- сигналу всегда можно однозначно выяснить, какой сигнал *) Вообще говоря, можно даже еще несколько обобщить и это описание, допустив, что на приемном конце может быть получено произвольное (т. е., например, бесконечное или даже непрерывное) множество различных сигналов В. На этот случай также можно перенести почти все указанные ниже резуль- результаты, но только здесь уже ряд формул будет выглядеть более слож- сложно; поэтому указанного обобщения понятия линии связи мы ниже вовсе не будем касаться.
334 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ (Гл. IV был передан (с практической точки зрения это означает, что помехи здесь совсем не препятствуют нормальному приему); информация / (ос, Р) равна нулю в том случае, когда опыт а не зависит от р* (т. е. когда принятые сигналы вовсе не зависят от того, какие сигналы передавались — из-за очень сильных помех никакой передачи сообщений фактически вообще не происходит). Напомним теперь, что при отсутствии помех про- пропускная способность С линии связи опреде- определялась как наибольшее количество единиц информации, которое можно передать по втой линии за единицу време- времени (см. стр. 231). Постараемся обобщить это определение иа случай линии связи с помехами. Для такой линии сред- среднее количество информации, получаемой на приемном конце при приеме одного элементарного сигнала, равно величине / (а, р) = Я (Р) - На (р), зависящей от вероятностей p(At),p{A^, ... ,р(Ат) того, что передан сигнал Аг, Аг, , Ат. Пусть с == max / (а, Р) есть самое большое значение информации / (а, р), которое может быть достигнуто при помощи измене- изменения вероятностей р (At), p(A2), • • -, р(Ат), и пусть это значение достигается при значениях р° (AJ, р° (А2), ... ..., р°{Ат) этих вероятностей (ср. ниже конкретные при- примеры вычисления величины с и вероятностей р° (Аг), р° {А2), ..., р° (Ат)). Величина с определяет наибольшее количество информации, которое можно получить на приемном конце при приеме одного элементарного сиг- сигнала. Если же желать получать наибольшее количество информации в течение определенного промежутка време- времени (скажем, в течение единицы времени), то естественно все это время выбирать значения передаваемых элемен- элементарных сигналов с одними и теми же вероятностями р° (AJ, р° (А2), . .., р° (Ат), не зависящими от того, какие именно сигналы были уже переданы раньше (см. по этому поводу мелкий шрифт на стр. 383—384, где бу- будет строго доказано, что, выбирая последовательные зна- значения передаваемых сигналов взаимно зависимыми, не- невозможно увеличить общее количество передаваемой ин-
fi 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 335 формация). При такой передаче каждый принимаемый элементарный сигнал будет содержать с единиц информа- информации, т. е. количество информации, переданное за единицу времени, будет равно С = Lc = L max / (а, Р). Эта величина С и называется пропускной спо- способностью линии связи с помехами.: Так как наибольшее значение / (а, Р) не может превос- превосходить Н (Р), a //(P) всегда не больше, чем log m (см. стр. 73—74), то ясно, что пропускная способность линии связи с помехами всегда не больше, чем пропускная способ- способность линии без помех, по которой за единицу времени может быть передано то же число элементарных сигналов и которая использует то же число разных сигналов. Сле- Следовательно, помехи могут только уменьшить пропускную способность линии связи, как это и должно быть по здра- здравому смыслу. Примеры. 1°. В случае, когда г — т., сигналы Ви ..., Вг совпа- совпадают с А1г ..., Ат и pAi (А}) = 1 при j = i, а значит, рлг (Aj) = О при / ф t, т. е. если всегда принимается тот же самый сигнал, который был передан (помехи не препятствуют передаче или даже вовсе отсутствуют)! На (Р) = 0 и с = max / (а, Р) = max Н (Р) = log m (зто наибольшее значение достигается, когда все значения передаваемого сигнала равновероятны, так что вдесь р° (А,) = р° (Л2) = ... = р°{Ат) = —). Итак, в этом случае С = L log т. Отсюда видно, что приведенное в § 2 опреде- определение пропускной способности линии связи без помех является частным случаем рассмотренного здесь более общего определения. 2°. Пусть по линии связи можно передавать два эле- элементарных сигнала (скажем, посылку тока At и паузу А2) и те же два сигнала Ах и А2 принимаются на приемном конце. Пусть, далее, вероятность безошибочного приема любого из передаваемых сигналов равна 1 — р, а веро- вероятность ошибки равна р. В этом случае PA, Ui) = Ра, (А2) = 1 — р, ра, (Ав) = рА, (AJ = р.
336 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV так что указанная на стр. 331 таблица условных вероят- вероятностей здесь имеет вид 4 — Р, р; р, 1 — р. Соответствующая лшшя связи называется двоичной симметричной линией; она схематически изображена на рис. 18, где линии со стрелками указыва- указывают, в какие принимаемые сигналы могут перейти переда- передаваемые сигналы Аг и А2, а рядом с линиями выписаны вероятности соответствующих переходов. Для вычисления величины с мы воспользуемся равен- равенством / (а, р) = Н (а) - Щ (а). Из приведенной выше таблицы условных вероятностей видно, что если передается сигнал Ах, то на приемном кон- конце мы с вероятностью 1 — р получим тот же сигнал At, а с вероятностью р — сигнал А2; если же передается сиг- сигнал Агл то мы с вероятностью р получим сигнал Аи а с вероятностью 1 — р — сигнал Аг. Поэтому #а, (а) = #а. (а) = -A - р) log A - р) - р log p и lh («) = Р (Аг) HAi (а) + Р UJ HAt (а) = = — A — р) log A — р) — р log р независимо от значений вероятностей р (Лх) и р ^ (ибо всегда р (At) -\- р (Л2) = 1). Следовательно, в рас- рассматриваемом случае Щ (а) вовсе не зависит от вероят- вероятностей р (Аг) и р (А ^ и для вычисления с = max / (а, Р) = max [H (а) — #<* (а)] надо только определить максимальное значение И (а). Но величина Н (а) — энтропия опыта а, могущего иметь ! всего два исхода,— никак не может превосходить 1 бит (см. стр. 74). С другой стороны, значение Н (а) — 1 наверное достигается при р (Аг) = -g-, р (Л2) = -g-. так
5 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 337 как в таком случае и оба исхода опыта а также будут иметь одинаковые вероятности (в общем случае эти вероятности, очевидно, равны q (Аг) = р (AJ-(i. — р) + р (Аг)*р и ц (А2) = р {Аг) -р + р (Лг) -A — р)). Отсюда вытекает, что в рассматриваемом случае с = 1 + A — р) log A — р) + р log р С = L [1 + A - р) log A - р) + р log p]. Мы получили явную формулу, показывающую, как зависит пропускная способность двоичной симметричной линии связи от вероятности р ошибки при передаче. Гра- График функции С (р) изобра- изображен на рис. 19. Наибольшее значение (равное L) эта функ- функция принимает при р = О (т. е. при отсутствии помех) и при р = 1 (т. е. в случае по- помех, переводящих каждый передаваемый сигнал Ах в ¦ рис. ig_ А2, а каждый сигнал А2— в Аг; ясно, что такие помехи нисколько не мешают понять, какой именно сигнал был передан). Вообще при р ]> -я- мы всегда можем в принятом сообщении заменить каждый принятый сигнал Ах на А2, а каждый принятый сигнал А2 — на Аг; при этом мы при- придем к линии связи с вероятностью ошибки 1 — С U Отсюда ясно, что при замене р на 1 — р значение про- пропускной способности С не может измениться (это видно и из полученной выше формулы), т. е. график функции С должен быть симметричен относительно прямой р = -^ При р = -д- пропускная способность С равна нулю; это связано с тем, что при р = -^-, независимо от того, какой сигнал был передан, мы
338 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV получим на приемном конце с вероятностью -*¦ сигнал At и с вероятностью-г- — сигнал А2, так что принятый сигнал не будет содержать никакой информации о том, какой сигнал был передан г). При значениях р проме- промежуточных между 0 и ^ (или между у и 1), мы будем иметь положительную пропускную способность, меньшую чем L, причем при возрастании р (в случае р <^ -я-) или В03" растапии 1 — р (при р ^> -я-) эта пропускная способность быстро убывает. Так, например, если L = 100, то при р = = 0,01 (т. е. в случае, когда из 100 передаваемых двоич- двоичных сигналов в среднем один сигнал принимается с ошиб- ошибкой) С ;5s 92 бита; при р = 0,1 (т. е. если 10 из 100 сиг- сигналов претерпевают искажение) С «s 53 бита, а при р = = 0,25 (т. е. если четверть всех сигналов принимается не- неправильно) С я? 19 бит. 3°. Рассмотрим теперь более общий пример линии свя- связи, использующей т различных элементарных сигналов Аи А2, ..., Ат1 причем те же сигналы принимаются и на приемном конце линии (т. е. г = т, Bt = At при всех i) и вероятность безошибочной передачи каждого из этих сигналов равна 1 — р, а в случае ошибки переданный сиг- сигнал может с одинаковой вероятностью [равной —т) быть воспринятым как любой из т — 1 отличных от него сигналов. Таблица условных вероятностей здесь имеет вид Р Р Р _ Р m ггт.* — Р, яг—г»• • • • ^rzr\ > ., 1 — Р. *) Вместо использования линии связи здесь можно с тем же успехом бросать у приемного конца монету и считать, что в случае выпадения «герба» принимается сигнал Af, а в случае выпадения «цифры»—: сигнал А^.
4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 339 а соответствующая линия связи называется т - и ч н о й симметричной линией. Воспользуемся опять представлением / (а, р4) в виде Н (а) — Яр (а); при этом, очевидно, HAi(а) = НА,(о) - ... = НАп(а) = и, следовательно, Яр («) = - A - р) log A - р) - р log j^--. Итак, как и в случае примера 2°, мы опять получаем, что //р (а) не зависит от вероятностей р {А^, р (Л2), ..., р (Ат) и для нахождения пропускной способности падо лишь оп- определить наибольшее значение Н (а). Это максимальное значение находится вполне аналогично случаю примера 2°: оно равно log m и достигается, когда все исходы опыта а (т. е. все возможные значения сигнала, поступающего на приемный конец) будут равновероятны (для чего надо только, чтобы и вероятности р (Аг), р (Л2), ..., р (Ат) посылки сигналов Аг, Аг, ..., Ат были все одинаковыми). Поэтому здесь Р° (Аг) = 1 с = тах/(а,р) = logw + р log^Tj + A —p)log(l — р) и С = L[logm + plog-^-j + A -р)log(l -p)]. График функции С {р) (для случая т = 4) изображен на рис. 20 (стр. 340). Эта функция достигает максимального значения (равного L log т) при р = 0 (при отсутствии по- помех), а при возрастании р от нуля до значения р = ^— опа плавно уменьшается до нуля. То, при что р = пропускная способность оказывается равной нулю, со- совершенно естественно: в этом случае при любом значении посылаемого сигнала на приемном конце мы можем полу- получить каждый из сигналов Ау, Az, ..., Ат с одинаковой
340 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV вероятностью —, так что никакой передачи информации о посылаемом сигнале здесь не происходит. При дальнейшем увеличении р мы снова получаем (правда, небольшую) положительную пропускную способность: в этом случае, приняв сигнал At, мы сможем отсюда сделать вывод, что -V 0 Of 0,2 0,3 Oft 0,5 0,6 0,7 0,6 Ц9 Ifl Рис. 20. более вероятной является передача какого-либо отлич- отличного от Ai сигнала, т. е. будем иметь все же некоторую информацию о том, какой именно сигнал был-передан. При т—1 этом при возрастании р от —— до единицы пропускная способность снова увеличивается; при р = 1 она равна г 1 т L log т . fo m—1 4°. Рассмотрим теперь снова двоичную линию связи, по которой могут передаваться два сигнала Аг и Аъ, но теперь уже допустим, что на приемном конце полученный сигнал иногда может быть расшифрован как один из тех же двух сигналов, но иногда он так искажается, что его становится совершенно невозможно узнать. В этом по- последнем случае приходится считать, что принят какой-то совсем новый сигнал А3, появление которого можно интер- интерпретировать как событие: передаваемой сигнал стерся и не допускает расшифровки (поэтому такая линия связи называется двоичной линией со стира-
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 341 п и е м ). Мы здесь ограничимся рассмотрением простей- простейшей двоичной симметричной линии связи со стиранием, для которой вероятность «стирания» обоих передаваемых сигналов А1 и А., равна одному и тому же числу q (т. е. рА, (Аа) = рЛз (А:)) = д), и, кроме того, если стирания не произошло, то оба сигнала At и А2 с одной и той же ве- вероятностью 1 — р — q будут правильно расшифрованы на приемном конце, а с вероят- вероятностью р они будут перепу- перепутаны (т. е. сигнал Ах будет принят за А2, соответствен- соответственно, сигнал А2 будет принят за Aj). Таким образом, в слу- случае двоичной симметричпой линии со стиранием т = 2, г = 3 и таблица условных ве роятностей pa. (Bj) = раг (Aj) имеет вид 1 — р — q, p, q; Р, 1 — Р — Ч, Ч (см. рис. 21). Ясно, что какой бы сигнал ни передавался, на приемном конце мы с вероятностью q получим сигнал Аа, в то время как из двух остальных сигналов один будет иметь вероят- вероятность 1 — р — q, а второй — вероятность р. Следова- Следовательно, здесь HAi (a) = На, (а) = =— A — р — q) log(l — р — q) — р log p — glogg, а значит и Яр (а) = — A — р — q) log (I — р — q) — р log p — — Я log q, так что / (а, Р) = Я (а) + A - р - q) log (I - р - д) + + р log p + q log q. Так как опыт а в рассматриваемом случае может иметь три исхода Аг, А2 и As, то Я (а) < log 3; поэтому с = max / (а, р*)< log 3 + A — р — q) log (I — р — q) + + р log p + q log q.
342 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Но ложет ли энтропия опыта а равняться log 3? Легко видеть, что вообще говоря, не может ни при каких вероятностях р (AJ и р (А2) передачи сигналов Ах и Ла. В самом деле, равенство Н (ос) = log 3 будет выполняться лишь тогда, когда все три исхода опыта а равновероятны (т. е. все имеют вероятность 1/3); в нашем же случае вероятность исхода Аг («стирания») при любом выборе р (Ах) и р (А2) будет равна числу q, которое характери- характеризует линию связи и вовсе не обязано равняться 1/3. Сле- Следовательно, энтропия опыта а имеет вид Н (а) = — qx log qx — q2 log q2 — q log q, где q фиксировано, a qx = p (Ax) A — p — q) + p (A? p и <7г = P iAi) P ~b P (A2) A — p — q) — это вероятности появления на приемном конце линии сигналов Ах, соот- соответственно А%, которые зависят от значений р(Ах) и р(А2). Ясно, что 9i + да = * — Я ПРИ всех значениях р (Ах) и р (А2). Но легко видеть, что максимум выражения — Ч\ l°g 9i — 9а fog 92» где qx + q2 — 1 — q (здесь q — фиксированное число; разумеется, 0 < q < 1), достига- достигается при qx = q2 = —^- х). Кроме того легко видеть, что значения qx = qz = —^- являются возможными: для этого надо только принять, что р (Ах) = р (Л) Таким образом, в рассматриваемом случае *) В самом деле, добавив к — д1 log ?j — gt log g2 постоянное слагаемое A — g) log A — g) — (gi + g2) log A — g) и ватем ум- умножив полученную сумму на постоянный множитель i , мы получим выражение — t log\_q — %_q log г_ ¦g "° 1 — g ставляющее собой энтропию опыта с двумя исходами, имеющими ве- роятиости-j— и ^ . Эта энтропия, очевидно, принимает наиболь- наибольшее значение при qi — q2', следовательно, наибольшее вначение исходного выражения — д± log дх — ga log g$ также достигается при
§4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 343 с = max / (а, Р) = - A - д) log ^ + + A — р — q) log (I — р — q) + p log p = = A - q) A - log A - q)) + + A — P — q) log A — p — q) + p log /> и, значит, С = L {A - q) [1 - log A - g)l + + D — P — 9) log A — /? — q) + jo log p}. Полученная пропускная способность С зависит от двух чисел р и д, характеризующих вероятности ошибок различного типа в нашей линии связи. Нетрудно пока- показать, что С будет умень- с шаться и при возрастании q, и при возрастании р (при естественном предпо. ложении, что -s-). За- ЗаРис. 22. метим еще, что в реальных двоичных линиях связи со стиранием обычно справед- справедливо неравенство р <[ <?» т. е. вероятность такого искажения передаваемого сигнала, при котором его невозможно узнать, обычно пре- превосходит вероятность искажения, при котором он оказыва- оказывается по форме похожим на второй из используемых сигна- сигналов. В ряде случаев вероятность р вообще оказывается так мала, что ею можно пренебречь, т. е. можно считать, что единственно возможные вредные искажения сигнала помехами это те, при которых сигнал на выходе невозмож- невозможно расшифровать (т. е. в ходе передачи он «стерся»). Если допустимо считать, что р = 0, то формула для пропускной способности С приобретает особенно простой вид: С = L A — q) (см. рис. 22). Последний результат представляется совер- совершенно естественным: при р = 0 из L двоичных сигналов, передаваемых по нашей линии связи за единицу времени, в среднем Lq сигналов будет «стираться», т. е. не будет переносить никакой информации, в то время как остальные
344 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV L A — q) сигналов будут точно расшифровываться на при- приемном конце, так что каждый из них будет содержать ров- ровно 1 бит информации. То обстоятельство, что во всех предыдущих примерах пропускная способность С достигалась при одинаковых вероятностях передачи любого из используемых элемен- элементарных сигналов, разумеется, имеет случайный характер; оно объясняется просто тем, что для простоты расчетов во всех этих примерах табли- А о I ^cfi на условных вероятностей Pa.(Aj), характеризующих ли- линию связи, выбиралась очень симметричной. Для иллюст- иллюстрации того, что дело может обстоять и иначе,, приведем еще результаты, относящие- относящиеся к следующему несколько более сложному примеру, впервые рассмотренному Шенноном [Ц: 5°. Пусть по линии связи можно передавать jrpn эле- элементарных сигнала Alt A2 и А3, причем первый сигнал значительно отличается от двух других и всегда может быть безошибочно угадан на приемном конце линии, а каждый из двух других сигналов с вероятностью 1 — р принимается правильно, а с вероятностью р воспринима- воспринимается как второй из них. Иначе говоря, мы считаем, что т = г = 3и что таблица условных вероятностей рл{ (Aj) имеет вид 1, 0, 0; О, 1 — р, р; О, р, 1 — р (см. рис. 23). Следовательно, здесь HAl (а) = 0, На, (а) = АА, (а) = = — A — р) log A — р) — р log р Яр (а) = [р (А2) + р (А,)] [- A - р) log A - р) - — р log р\, I(a,P) = -q (AJ log q (Аг) - q (A2) log q (AJ - — q(As) \ogq(As) + + [p (A2) + p (A3)} [A — p) log A - p) + P log p\,
§ 41 ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 345 где g(At) = р (Аг), д (А2) = р (А2) A — р) + р (А3) р и д (А3) = р (Л2) р + р (А 3) A — /?) — вероятности исходов Ау, А2, А3 опыта а. Отметим, что Яр (а) зависит не от всех трех вероят- вероятностей р (Ах), р (Л2), р (А3), а лишь от р (Л2) + р (Аа) = = 1 — р (At). Воспользовавшись рассуждением, приве- приведенным в сноске на стр. 342, легко показать, что при фикси- фиксированном р (Аг) = д (AJ энтропия Н (а) (а значит, и информация / (а, Р)) будет наибольшей, если вероятности q (А2) и д (Аа) (а следовательно, и р (Л2) и р (А3)) будут равны между собой: р (Л2) = р (А3) = q (А2) = д (А3) = i^Zp^ . После этого остается только определить, при каком зна- значении р (А у) выражение 7(о,Р)= -р(Аг) log p(At) - -Н-р (AJ] [log *-ЦА* - A - р) log (!-/>)- — р log р], где р — заданное неотрицательное число, не превосходя- превосходящее единицы, будет наибольшим. Последняя задача яв- является довольно сложной, если пользоваться лишь ме- методами элементарной математики, но легко решается с помощью дифференциального исчисления *). Оказывается, что искомое значение р (Aj) равно Итак, в рассматриваемом случае г) Известпо, что точка х отрезка О^х^ 1, в которой функция 1 1С у = —х log х — A — х) [log —j— — log а] (где о = рр A — рI~р и все логарифмы — двоичные) принимает наибольшее вначение, совпадает с той, в которой обращается в нуль производная этой функции.
346 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV подставляя эти значения вероятностей в выражение для / (а, Р) и умножая результат на число L сигналов, пере- передаваемых за единицу времени, легко находим пропускную способность нашей линии связи: С = L log [1 + 2 pv A - ру-»]. График функции С = С (р) приведен на рис. 24. При р = = 0 эта функция принимает наибольшее значение: при р —> 0, как нетрудно показать, рр A — рI~р -* 1. и, следовательно, здесь р° (At) = р° (у12) = р° (А3) = у и С = L log 3. Этот результат, разумеется, очевиден: при о 0,1 щг цз i 1 1 1 1 0,5 0,6 0,7 0,8 Ц9 tfi Рис. 24. р — 0 мы будем иметь просто линию связи без помех, использующую три различных элементарных сигнала (см. пример Iе). При возрастании р от 0 до -^ пропускная способность С уменьшается, так как при передаче второго или третьего сигнала мы здесь будем терять часть ин- информации из-за наличия помех; в этой связи и вероят- вероятность р° (Лх) здесь оказывается несколько большей чем ¦я- (т. е. первый сигнал здесь выгодно передавать несколько чаще, чем второй или третий). При р = у пропускная спо- способность принимает наименьшее значение, равное С = L
§ И ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 347 / М\ТМ\Т1\т1 1так как (-.г-) • \~-o~) ~~2~) • Для достижения этой пропускной способности первый сигнал следует передавать в половине всех случаев (р° (Аг) — -тг), а второй и третий — во второй половине случаев (фактически сигналы А2 и Аа здесь следует рассматривать как один общий сигнал, так как на приемном конце все равно их никак нельзя различить, а можно лишь утверждать, что передан был какой-то из них, а не сигнал А,; поэтому случай р =-гг равносилен случаю линии без помех, использующей два различных сигнала). При дальнейшем увеличении р от т до 1 значение С (р) снова возрастает, причем С(р) = С A — р) (по тем же причинам, что и в случае примера 2°). Другой пример линии связи, для которой вероятности р° (At) не равны между собой, можно получить, предпо- предполагая, что т = г = 2, но что вероятности ошибки при пе- передаче двух используемых сигналов не одинаковы (случай двоичной несимметричной линии). Б этом случае, однако, все формулы оказываются заметно более . сложными, чем в рассмотренных выше примерах; поэтому мы на нем не будем останавливаться. Будем теперь считать, что пропускная способность С линии связи нам известна. В случае отсутствия помех, как мы видели в § 2, знание величины С позволяет весьма точно оценить возможную скорость передачи сообщений по данной линии: ни при каком методе кодирования эта скорость не может превзойти величины v = -й- букв/ед. времени (где Н — энтропия одной буквы передаваемого сообще- сообщения); однако скорость передачи, сколь угодно близкая к v, всегда может быть достигнута. При наличии помех, кроме скорости, следует учитывать еще и степень точности передачи, характеризуемую вероятностью ошибки в опре- определении каждой отдельной переданной буквы. Легко
348 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV попять, что при скорости передачи г\ букв/ед. времени, пре- превышающей величину v — С/Н (где С — это определенная выше пропускная способность линии связи с помехами!), точная передача (позволяющая безошибочно восстано- восстановить все буквы переданного сообщения) никак не может иметь места (это утверждение представляет собой не вполне четкую формулировку так называемой обрат- обратной теоремы о кодировании при на- наличии помех, о которой мы подробно будем го- говорить на стр. 362—363). В самом деле, при безошибочной передаче со скоростью vx количество информации о бук- буквах сообщения, передаваемое по линии за единицу време- времени, будет равно полной степени неопределенности ^-буквенного «блока», т. е. равно произведению vxH (напом- (напомним, что отдельные буквы мы считаем независимыми); следовательно, переданное за единицу времени количест- количество информации о посылаемых кодовых обозначениях (т. е. о сигналах, являющихся исходами опытов р1) тем более не может быть меньше чем vxH (ср. стр. 123). Но так как v-JI ^> С при Vy > v = j7, то из самого определения величины С вытекает, что безошибочная передача сооб- сообщений со скоростью Vi ^> v букв за единицу времени не может быть осуществлена. Исходя из этих соображений, можно даже точно оценить наименьшую вероятность ошибки, обязательно имеющуюся даже при «наилучшей» передаче сообщения с данной скоростью г\> v (см. ниже, стр. 361 и след.). Заметим далее, что если не накладывать вообще ника- никаких ограничений на скорость передачи сообщений, то в большинстве случаев без труда можно добиться того, что- чтобы вероятность ошибки в определении каждой переданной буквы оказалась сколь угодно малой; как правило, для этого достаточно просто очень много раз повторять каждый передаваемый сигнал (или каждую группу таких сигналов). Заранее, однако, можно было бы думать, что для того, чтобы добиться очень малой вероятности ошибки, необходимо очень сильно уменьшить скорость передачи (такое резкое уменьшение скорости, в частности, будет иметь место, если вероятность ошибки мы будем уменьшать при помощи многократного повторе- повторения сигналов). Точнее говоря, на первый взгляд кажется
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 349 естественным думать, что любое уменьшение вероятности ошибки в определении каждой передаваемой буквы долж- должно быть неизбежно связано с уменьшением также и ско- скорости передачи, причем неограниченного уменьшения ве- вероятности ошибки никак нельзя добиться не уменьшая неограниченно скорость передачи. Оказалось, что в дей- действительности дело обстоит совсем не так. А именно, Шеннон доказал, что для любой линии связи с помехами всегда можно подобрать специальный код, позволяющий передавать сообщения по этой линии с заданной скоростью, сколь угодно близкой к v = -jr букв/ед. времени (но обязательно все же несколько меньшей, чем эта вели- величина!) так, чтобы вероятность ошибки в определении каж- каждой переданной буквы оказалась меньше любого заранее заданного числа е (например, меньшей чем 0,001, или чем 0,0001 или чем 0,000001). Разумеется, код, о котором здесь идет речь, будет зависеть от ей чем меньше е, тем оп будет, как правило, более сложным. Предложение, выде- выделенное курсивом, обобщает сформулированную в § 2 основную теорему о кодировании; его можно назвать о с- новной теоремой о кодировании при наличии помех. Существенную роль в доказа- доказательстве этой теоремы играет использование кодирова- кодирования сразу очень длинных «блоков» из большого числа букв; поэтому передача сообщений со скоростью, близкой к », и с очень малой вероятностью ошибки обычно будет сопряжена со значительным запаздыванием при расшиф- расшифровке каждой переданной буквы. Прежде чем идти дальше, отметим, что здесь, так же как и в случае рассматривавшейся в § 2 этой главы основной теоремы о кодировании при отсутствии помех, предположение о том, что отдельные буквы текста взаим- взаимно независимы, на самом деле не является суще- существенным. В дальнейшем мы им почти не будем пользовать- пользоваться, а будем лишь использовать то частное обстоятельство, что при достаточно большом N из nN различных ЛГ-бук- венных блоков (где каждая буква может принимать п различных значений) только 2HN являются «вероятными» (и имеющими примерно одинаковую вероятность). В случае^
350 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV когда последовательные буквы текста взаимно зависимы, последнее обстоятельство будет уже неверным; однако, как было отмечено на стр. 228—229, в этом случае при широких условиях также среди всевозможных ЛГ-буквен- ных блоков, где N достаточно велико, можно будет выде- выделить сравнительно небольшую долю примерно одинаково вероятных блоков, имеющих весьма близкую к единице суммарную вероятность. Общее число «вероятных» бло- блоков из N взаимно зависимых букв согласно сказанному на стр. 229 имеет порядок 2НооЛГ ж 2H(N), где Я^> — зн- тропия JV-буквенного блока, а //«, = lim —^ удель- пая энтропия, приходящаяся на одну букву текста. Таким образом, если буквы текста являются зависимыми, то, вообще говоря, мы должны лишь заменить во всем даль- дальнейшем энтропию Н одной буквы на меньшую чем Н удельную энтропию Но. Точно так же и в случае передачи со скоростью vu превышающей v = jf букв./ед. времени, мы можем воспользоваться тем, что суммарное количество информации, содержащей в г\Т буквах передаваемого тек- текста (где Т — время передачи), ни при каком Т не может быть меньше, чем г^У/Т» бит. Отсюда сразу вытекает, что утверждение, выделенное курсивом на стр. 349, будет справедливо и в случае передачи сообщений, буквы ко- которых взаимно зависимы, если только заменить скорость v = -г? букв/ед. времени на v = тг букв/ед. времени. ?1 ОО Будем теперь для простоты снова предполагать, что отдельные буквы передаваемых сообщений взаимно н е- 8 а в и с и м ы (т. е. будем всюду использовать обычную энтропию Н одной буквы, а не удельную энтропию На,). К сожалению, строгое математическое доказательство ос- основной теоремы Шеннона о кодировании при наличии по- помех и в этом случае является все же довольно сложным. В работе [1], положившей начало всей теории информации, такое строгое доказательство вообще отсутствует; Шеннон здесь ограничился лишь изложением ряда общих сообра- соображений, весьма наглядно объясняющих причины, по кото- которым эта теорема должна иметь место. Позже Файн- с т е й н (см., например, [5]) дал строгое доказательство
$ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 351 основной теоремы Шеннона, идея которого кое в чем от- отклоняется от первоначальных соображений Шеннона. Полное доказательство этой теоремы, близкое к выводу, вкратце намеченному в [1], содержится в работе Шен- Шеннона [158], в которой одновременно показано, что на том же пути можно получить и заметно более сильные ре- результаты, о которых мы еще скажем ниже. В настоящей книге мы начнем с разбора самых простых, идущих от Шен- Шеннона, рассуждений, заставляющих считать основную теоре- теорему о кодировании правдоподобной, а в дальнейшем на стр. 373 и след. обрисуем также и метод строгого ее доказа- доказательства, опирающийся на более глубокие соображения работы [1]; кроме того, учитывая очень большую важность рассматриваемой теоремы, мы дополнительно изложим мелким шрифтом в самом конце настоящего параграфа (на стр. 385—390) еще одно строгое ее доказательство для частного случая двоичной симметричной линии связи, идея которого родственна той, которую использовал Файн- стейн. Пусть р — опыт, состоящий в выборе (и последующей передаче по линии связи) одного из т элементарных сиг- сигналов Alf А2, ..., Ат с вероятностями р° (At), p° (Az), ... ..., р° {Ат), которым отвечает наибольшая инфор- информация / (а, р") (т. е. для которых реализуется пропускная способность нашей линии связи). Теорема Шеннона ут- утверждает, что существует способ кодирования сообщений, позволяющий вести передачу со скоростью, сколь угодно близкой к v = L jj букв/ед. времени, где с = Я (Р) - На ф) = Я (а) - Яр (а) (но несколько меньшей этой величины!), так что вероят- вероятность ошибки при расшифровке принятого сообщения бу- будет мала (меньше произвольного заданного заранее мало- малого числа). Так как за единицу времени мы можем передать L элементарных сигналов, то для достижения такой ско- скорости передачи требуется, чтобы кодовое обозначение «блока» из N букв «в среднем» содержало бы около — N (но несколько более этого числа) элементарных сигналов; при этом LT элементарных сигналов, переданных за
352 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV большое время Т, будут содержать примерно -^— = -^- кодовых обозначений, отвечающих сообщению из пример- примерно vT букв. Мы знаем (см. стр. 217—226), что на самом деле нам нет необходимости заботиться, чтобы длину, близкую к — N сигналам, имели кодовые обозначения всех nN — различных N-буквенных сообщений (где п — число букв алфавита). В самом деле, лишь 2НЛГ из этих сообщений являются «вероятными»; что же касается остальных 21о*гп-ЛГ — 2HN сообщений, то суммарная ве- вероятность их появления при большом N будет очень мала, —и поэтому если даже их кодовые обозначения будут зна- значительно длиннее, то это все равно не уменьшит заметно скорости передачи (остающейся близкой к L -^ букв./ед. времени). Заметим также, что для достижения высокой точ- точности передачи надо лишь позаботиться, чтобы вероятность ошибки при расшифровке принятого кодового обозначе- обозначения каждого иэ 2НЛГ «вероятных» iV-буквенных сообщений была мала, так как все остальные сообщения сами встре- встречаются крайне редко и их учет мало что изменит. Мы будем искать способ кодирования, при котором длина кодового обоначения iV-буквенного блока будет равна ~N = Nt элементарным сигналам х); здесь ct — заранее выбранное число, которое должно удов- удовлетворять единственному условию? (но сх может быть сколь угодно близко к с!). Число всех различных цепочек из — N элементарных сигналов равно mCi = 2 Ci ; так как сг <. с <^ Н ф) <! log m, то оно, наверное, больше, чем 2HN, и поэтому каждому из г) Как обычно, если число — N = N^ не целое, то его надо заменить блюкайщим к нему целым числом. Это же замечание относится н ко всем другим встречающимся ниже числам, которые по своему смыслу обязательно должны быть целыми.
4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 353 2HN «вероятных» .^-буквенных сообщений может быть сопо- сопоставлена в качестве кодового обозначения своя цепочка из N± = — N элементарных сигналов. Однако нам надо еще добиться, чтобы вероятность ошибки при расшифровке всех переданных кодовых обозначений была мала. Ясно, что для этого наши 2HN используемых кодовых обозначений должны сильно отличаться друг от друга — только при таком условии можно надеяться, что, несмотря на возмож- возможные искажения сигналов в процессе их передачи по линии связи, мы вее равно сможем достаточно надежно отличить друг от друга кодовые обозначения на приемном конце линии. Для того чтобы оценить возможное число таких силь- сильно отличающихся друг от друга Л^-член- ных кодовых обозначений, можно рассуждать таким образом. Каждая цепочка из Nx — — N передаваемых элементарных сигналов А{ (где i = 1, 2, ..., или т) на приемном конце линии будет восприниматься как цепочка из некоторых Nt элементарных сигналов Bj (где / =1,2,... ..., г; ср. выше, стр. 332). Разумеется, передавая много раз однзу и ту же цепочку AhAh ... At[ft, мы будем получать на приемном конце много разных цепочек Bj,Bj, ... BjN —в этом как раз и проявляется случай- случайный характер помех, воздействующих на передачу. Од- Однако, передавая одну цепочку АиА1г ... AlN , мы будем получать на приемном конце линии связи разные цепочки Bjfij, ... BjN с разной частотой: одни из таких цепочек будут появляться при этом сравнительно часто, другие же — крайне редко г). Следующие соображения позво- позволяют оценить примерное число цепочек В^В}г ... BJNt> которые с не слишком малой вероятностью могут возник- возникнуть при передаче данной цепочки AtiAu ... AlN^. i\ 1) Например, в случае двоичной симметричной линии связи, рас- рассмотренной на стр. 335—336, при передаче Nt сигналов на приемном конце липли, очевидно, с очень большой вероятностью появится одна из цепочек, отличающихся от переданной цепочки А ^А^ ... Л, не меньше, чем на Nt (р — б), и не больше, чем на Nt (p + 6), сигналов, где 6 — некоторое малое число (см. обсуждение яа- кона больших чисел в § 4 гл. I). 12 А. М. Яглом, И. М. Яглом
354 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Предположим, что мы последовательно передаем по на- нашей линии связи элементарные сигналы Аи каждый раз выбирая передаваемый сигнал случайно (и независимо от всех ранее переданных сигналов) с вероятностями р° (Лх), р° {А2), ..., р° {Ат). В таком случае, согласно сказанному на стр. 225, при большом Nt среди всех Л^-членных цепочек вида AitAi, ... AjNi только 2H<PIVl цепочек будут «вероятными» (причем они все будут иметь примерно одинаковую вероятность); суммарная же веро- вероятность того, что переданной окажется одна из остальных mN, _ 2H(P)Jv, = 2iogmiv, _ 2H(P)iv, цеПочек, будет крайне мала. Условимся выбирать все нужные нам А^-член- ные кодовые обозначения из числа 2H(P)Ni «вероят- «вероятных» Л^-членных цепочек, а остальные такие цепочки вовсе не будем рассматривать; это возможно, поскольку #(р)^ =.ИШHN> HN (ибо ct<. с <^ Н (Р)), и, следовательно, общее число «вероятных» цепочек также превосходит требуемое число 2HN кодовых обозначений. Рассмотрим теперь всевозможные цепочки вида AirAlt..., ... AiNtBj,Bj, .... BjN, состоящие из Nt переданных элементарных сигналов At и тех JVX сигналов В], в кото~ рые преобразовались эти сигналы At в процессе их пере- передачи по линии связи. Общее число таких 2JVt-4neHHHX цепочек, очевидно, равно mN,ri:, _ 2<h>g т + log г) nk К ним также можно применить приведенные на стр. 225 соображения, из которых вытекает, что если все пе- передаваемые сигналы Ai выбираются так, как это объясне- объяснено выше, то только 2H<aP>N» из общего числа 2<l0Bm+lc*r)iVt наших цепочек будут «вероятными» (и будут иметь при- примерно одинаковую вероятность); суммарная же вероят- вероятность всех остальных 2(loetn+I°er)w« — 2н<аР>^» цепочек будет крайне мала х). Следовательно, число «вероятных» 1) В самом деле, гл^-членная цепочка А^А^.-А» В^ Bja... В, может рассматриваться как цепочка (Л^2?л) (AitB^...(AiNiBjNi), состоящая из Nt последовательных всходов составного опыта ар (с тт возможными исходами), имеющего энтропию #(сф).
$ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 355 2^-членных цепочек AttAu... Aift BtlBh ... BJn превосходит число «вероятных» передаваемых iVj-членных цепочек AitAtl ... AiNt в 2H(ag)JV, . 2Н(Р)ДГ, _ 2СН(о»-Н(ЭI N, _ 2Н0(a)Wl раз. Отсюда можно заключить, что каждой «вероятной» передаваемой цепочке AitAt, ... AiN отвечает целая груп- группа из 2HP(a)iVl цепочек BhBlt ... BtNt принимаемых сиг- сигналов, в одну из которых цепочка AtlAt, ... AiN перей- перейдет с очень большой (т. е. очень близкой к единице) Рис. 25. вероятностью. Эту группу из 2Hp(a)Nl цепочек BhBh ... ... BJN , отвечающих цепочке Аь^Аи ... AiN, мы для крат- краткости далее будем называть о т в е ч>а ющсй АиАы... ... AtN группой ® (см. схематический рис. 25). Комбинируя каждую из 2H<p)Wi «вероятных» переда- передаваемых цепочек AtlAu ... AtNi с 2HC(a)N' цепочками отвечающей ей группы S3, мы как раз и получим все 2H(ap)N, «вероятных» цепочек AtlAit ... AtN BjtBjt ... BjN, Две JVx-чл енные цепочки передаваемых сигналов A itA it... ... AiNi и AixAu ... At'Ni следует считать «сильно отлича- отличающимися друг от друга», если соответствующие им две группы ЗЗне пересекаются между собой. В са- самом деле, сообщение AtlAtl ... AiN при передаче по нашей линии связи «почтинаверное» (т. е. с очень близкой к еди- единице вероятностью) перейдет в одну из цепочек BhBh ... ... В. , принадлежащих первой группе Ш, в то время как сообщение А > А • А ¦ «почти наверное» перейдет в одну из цепочек, принадлежащую второй группе ЗВ. 12*
356 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Поэтому если указанные две группы Ш не пересекаются между собой и известно, что передано было или сообщение AiAi ...А , или сообщение А • А • .... А • , то можно, на- ' *N, h *2 *Nt пример, во всех случаях, когда на приемном конце линии связи принимается одна из цепочек первой группы S3, считать, что передавалось сообщение AitAtt ... AtN, a когда принимается какая-то из прочих цепочек (включаю- (включающих также и все цепочки второй группы S3) — считать, что было передано А • А • ... А • . Ясно, что при этом вероятность ошибки при расшифровке принятого сообще- сообщения будет очень малой. Аналогично этому, если требуется подобрать 2HN различных кодовых обозначений из Nt сигналов At, то для того, чтобы вероятность ошибки при расшифровке принятых сообщений была очень мала, доста- достаточно иметь возможность выбрать эти кодовые обозначе-. ния так, чтобы все 2HN отвечающих им групп ЗВ не пере- секались между собой. Так как каждая группа Я) содержит 2не(а)ЛГ< = 2 <=• цепочек Bh Bj, ... ...BjNi, то в 2HN групп 53 будет входить цепочек. Поскольку при этом все такие цепочки ВиВ1г... ....BjN входят в «вероятные» 2Л'1-членные последователь- последовательности AitAtl... AtN B^Bj, ... Biti, то и сами они есте- естественно будут «вероятными», т. е. будут относиться к чис- числу тех, которые не слишком редко возникают при после- последовательной передаче сигналов Alt Az, ..., Ат с вероят- вероятностями р° (Аг), р° (А2), ..., р° (Ат) (независимо от того, какие сигналы передавались раньше). Число таких «ве- «вероятных» цепочек BJtBj2 ... В N (т. е. «вероятных» це- цепочек из Nt последовательных исходов опыта а), как из- вестно, равно 2H<-a')Ni = 2 с» __hn Составим теперь отношение общего числа 2 с" «вероятных» цепочек BhBjz ... BjNi к суммарному числу
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 357 таких цепочек, входящих в 2HN групп вВ: Мы видим, что если бы сх было больше, чем с, то это отношение было бы меньше единицы, т. е. полное число цепочек в наших 2HN группах 3d было бы больше, чем общее число всех «вероятных» цепочек B^Bj, ... BJn\ поэтому ясно, что при ct^> с кодовые обозначения никак нельзя подобрать так, чтобы отвечающие им группы ЗВ не пересекались. Разумеется, этого и следовало ожидать, так как мы уже знаем, что со скоростью L —I букв/ед. вре- времени, где Cj ^> с, по нашей линии связи нельзя переда- передавать сообщения так, чтобы вероятность ошибки при их расшифровке на приемном конце линии была бы сколь угодно мала. Но если ct меньше с, то выписанное нами отношение оказывается большим единицы (так как в этом случае — 1 > 0); более того, при очень большом N оно оказывается равным числу 2, возведенному в очень большую степень, т. е. очень большим. Таким образом, при большом N полное число цепочек в 2HN груп- группах ЗВ будет составлять ничтожную часть всего числа «вероятных» цепочек из Nx сигналов By, это обстоятельство делает очень правдоподобным предполо- предположение о том, что 2Ш кодовых обозначений длины —N можно выбрать так, чтобы отвечающие им группы ЗВ не пересекались между собой. А такой выбор кодовых обо- обозначений, как мы знаем, при достаточно большом N как' раз и обеспечивает возможность расшифровки полученных сообщений со сколь угодно малой вероятностью ошибки. Приведенные выше соображения делают теорему Шенно- па весьма правдоподобной, но, разумеется, их нельзя рас- рассматривать как ее строгое доказательство (это обстоятель- обстоятельство еще будет дополнительно разъяснено на стр.373—374).
358 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Тем не менее пока мы ограничимся сказанным и перейдем к разбору некоторых других связанных с теоремой Шен- Шеннона вопросов; в дальнейшем, однако, мы приведем на стр. 374—383 красивое (но не очень простое) рассуждение (идея которого также принадлежит Шеннону [1]), убедительно показывающее, что действительно должен существовать такой выбор 2HN кодовых обозначений, который обеспечивает если не полное отсутствие пересе- пересечений соответствующих 2HN групп S3, то, по крайней мере, достаточную малость этих пересечений, не препят- препятствующую тому, чтобы вероятность ошибки при расшиф- расшифровке могла быть сделана сколь угодно близкой к нулю. Еще более подробно мы разберем в самом конце настояще- настоящего параграфа (на стр. 384—390) другое строгое доказатель- доказательство основной теоремы о кодировании, относящееся, впро- впрочем, лишь к специальному случаю двоичной симметрич- симметричной линии связи. Мы предоставляем читателю самому решить, стоит ли ему тратить время на разбор всего этого материала (и когда — сейчас же или позже, следуя при- принятому в книге порядку изложения) или же он предпочи- предпочитает ограничиться лишь приведенными выше нестрогими соображениями; в этом последнем случае весь конец настоящего параграфа (начиная с начала стр. 373 и до стр. 390) читатель может просто опустить. Предупре- Предупредим только заранее, что оба излагаемых в конце парагра- параграфа доказательства теоремы Шеннона (так же как и все другие известные ее доказательства) являются неэф- неэффективными: из них следует, что при достаточно большом N обязательно существует такой способ выбора кодовых обозначений, который гарантирует, что вероят- вероятность ошибки при расшифровке каждой буквы получен- полученного сообщения не будет превосходить заданного (произ- (произвольно малого) числа е, но они ничего не говорят о том, как можно найти такой способ выбора кодовых обозна- обозначений (ср., впрочем, начало следующего параграфа книги4 где это обстоятельство будет разъяснено более точно). Вопросу о том, как на самом деле следует выбирать кодовые обозначения для того, чтобы сделать вероятность ошибки при расшифровке достаточно малой, будет посвящен по- последний параграф нашей книги.
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 359 Теорема Шеннона не только не позволяет указать, как именно надо выбирать кодовые обозначения для того, чтобы сообщения можно было передавать по используемой линии связи с заданной скоростью vt <C v = L-n букв/ед. времени, и притом так, чтобы вероятность ошибки при передаче не превосходила заданного малого числа е — она даже не позволяет сказать, как велико должно быть число N букв в блоке, которому сопоставляется одно кодовое обозначение, для того, чтобы такая передача оказалась возможной. Из этой теоремы следует лишь, что если раз- разрешить выбирать JV с кол ь угодно большим, то передача со скоростью vt и вероятностью ошибки, не большей е, будет возможна, какими бы ни были vt<Cvvi г > 0. Так как, однако, при возрастании N сущест- существенно возрастает сложность расшифровки кода и увеличи- увеличивается запаздывание при расшифровеке, то для практики небезынтересно уметь оценить также и наименьшее зна- значение вероятности ошибки е, которое может быть достиг- достигнуто при передаче с заданной скоростью »х с помощью кода, сопоставляющего отдельные кодовые обозначения не более чем N-буквенному блоку, где N — какое-то з а- данное число. Последнему вопросу посвящено боль- большое число работ К. Шеннона, А. Файнстейна, П. Элайеса, Дж. Вольфовица, Р. Г. Галлагера, Р. Л. Добрушина и других ученых; подробное изложение полученных ими результатов может быть найдено, например, в статьях [158] — [161] и книгах [5] — [7], [21] и [22], которые все заметно сложнее настоящей книги. Не вдаваясь в подроб- подробности, мы ограничимся тем, что укажем здесь основной факт, вытекающий из всех этих работ. Напомним, что передача .^-буквенных блоков со ско- скоростью vt = L ~ букв/ед. времени, где сг < с, достига- достигается в случае использования кодовых обозначений отдель- ных блоков, состоящих из N, — — N элементарных сиг- налов каждый. Таким образом, числа N и Nt пропорцио- пропорциональны друг другу; при вычислении вероятности ошибки,
3«0 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV соответствующей данным значением v1 — L~viN, удоб- удобно вместо vx и N использовать значения сх и Nlt более не- непосредственно описывающие процесс передачи информа- информации по линии связи. Оказывается, что при фиксированных ^ < с и Nt всегда существует такой метод передачи (т. е. метод кодирования — выбора 2CiW' Л^-членных ко- кодовых обозначений — и метод декодирования — прави- правила расшифровки принимаемых Л^-членных цепочек эле- элементарных сигналов), при котором вероятность ошибки при расшифровке каждого передаваемого кодового обозна- обозначения не превосходит величины е — ¦ а»' еде а — некоторое число, большее единицы *). Число о, разумеется, зависит от сх — чем меньше сх (т. е., факти- фактически, чем меньше скорость vt передачи информации по линии связи), тем оно больше. Вообще говоря, можно бы было думать, что при приближении ct (а, значит, и г^) к нулю число а будет неограниченно возрастать, (так как неограниченно уменьшая скорость передачи информации можно добиться сколь угодно малой вероятности ошибки при любом фиксированном N). На самом деле, однако, вывод приведенной выше формулы для 8 при очень малых скоростях передачи оказывается довольно грубым и выте- *) Приведенную вдесь формулу можно, конечно, записать 1 S. и так: е = —jy— , где а^ = aCl — новое число (так же большее единицы). При втом, однако, «j оказывается уже зависящим и от энтропии Н передаваемого сообщения, в то время как в опреде- определяется лишь значением ej и характеристиками используемой линии связи. Читателям, знакомым с натуральными логарифмами, по- полезно также иметь в виду, что в научной литературе формула для е обычно записывается в виде е = e~ENl, где е = 2,718...— основание натуральных логарифмов, а Е = In a — натуральный логарифм (при основании е) числа в. Поскольку функция у = е~Ех в высшей математике называется экспоненциальной, последняя формула для величины е, ограничивающей вероятность ошибки при передаче, часто называется экспоненциальной гра- границей вероятности ошибки или даже просто экспоненциальной границей ошибки.
§ 4} ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 361 кающие из него результаты обычно указывают на стремле- стремление а к конечному значению при сх -*¦ 0. При приближении же сг к с (т. е. скорости передачи v^ к v) число а стремится к единице, так что и е с ростом vx все более и более приб- приближается к единице. Значение а при заданном сг будет разным для разных линий связи; схематический вид зависимости о от сг для фиксированной такой ли- линии изображен на рис. 26. Ясно, что теорема Шен- Шеннона о кодировании при наличии помех непосред- непосредственно вытекает из при- приведенной формулы для е и того факта, что а ~^> 1 при любом сг < с. Более того, эта формула пред- представляет собой заметное усиление теоремы Шенно- Шеннона, утверждающей лишь что е можно сделать сколь угодно малым, если только N (или, что то же самое, Nt) будет выбрано достаточно боль- большим (но ничего не говорящей о том, как именно убывает в с ростом N). Последнее обстоятельство мы как раз и име- имели в виду на стр. 351, когда отмечали, что в работе [158] были получены результаты более сильные, чем основная теорема о кодировании. Рис. 26. Перейдем теперь к случаю передачи сообщений со скоростью vlt большей предельной скорости v = — L-fj букв/ед. времени. Этот случай, вообще говоря, ме- менее интересен, чем случай передачи со скоростью vx < < v, а относящиеся к нему результаты менее неожидан- неожиданны, чем основная теорема Шеннона; тем не менее он тоже заслуживает рассмотрения. На стр. 348 мы уже отмечали, что безошибочная передача информации не может происходить со скоростью vL ^> v букв/ед. времени; ана- аналогичное утверждение можно найти и на стр. 357, где ука- указывалось, что если с, ^> с, то 2HN групп ЗВ, отвечающих кодовым обозначениям всевозможных «вероятных»
362 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV iV-буквенных блоков, никак нельзя выбрать так, чтобы они не пересекались между собой. На самом деле, однако, при- приведенные на стр. 348 и 357 рассуждения сами по себе поз- позволяют сделать лишь довольно поверхностные выводы. Верно, конечно, что безошибочная передача сообщений не может быть осуществлена со скоростью, превышающей v — jt букв/ед. времени; однако ведь и в случае передачи со скоростью vt<C v мы не утверждали, что возможна безошибочная передача сообщений, а говорили лишь, что в этом случае вероятность ошибки при передаче каждой буквы может быть сделана сколь угодно малой (с помощью использования в качестве кодовых обозначений достаточ- достаточно длинных цепочек элементарных сигналов) *). Поэто- Поэтому точная формулировка теоремы, обратной основной теореме Шеннона, должна состоять вовсе не в утверждении, что при г?! ]> v невозможна безошибочная пере- передача информации, а в утверждении, что для любое о фик- фиксированного Vi ~^> v можно найти такое положительное число qo^> О (которое, видимо, должно зависеть от vt и при увеличении vt возрастать), что в случае передачи ин- информации по линии связи со скоростью vy вероятность ошибки q при расшифровке каждой переданной буквы сооб- сообщения .при любом методе кодирования и декодирования (независимо от значений N и NJ будет не меньше, чем go- Предположение о справедливости такой обратной теоремы о кодировании при нали- наличии помех было высказано еще в работе Шен- Шеннона [1], а затем было строго подтверждено Ф а н о [6]| к рассмотрению ее доказательства (основывающегося иа идеях Фано) мы сейчас и перейдем. *) Заметим в этой связи, что в работе [162] Шеннон ввел так- же понятие пропускной способности Со линии свяви при нулевой ошибке, определив ее как на- наибольшую скорость (в бит/ед. времени), с которой по данной линии можно вести точно безошибочную передачу информации. Рассужде- Рассуждение на стр. 348 показывает лишь, что ни для какой линии связи Со не может превосходить определенной на стр. 334 пропускной спо- способности С — обстоятельство, которое кажется почти очевид- ei.im. На самом деле пропускная способность при нулевой ошибке обычно заметно меньше, чем С, причем любопытно, что она оказы- оказывается более сложной величиной, чем обычная пропускная способ- способность — ее, вообще говоря, значительно труднее вычислить и она имеет куда менее наглядный смысл.
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 363 Прежде всего, однако, нам надо немного уточнить са- саму формулировку рассматриваемой теоремы. Легко видеть, что если при определении вероятности ошибкив расшифров- расшифровке переданной буквы мы будем считать точно известным, какая именно буква передавалась, то приведенная выше формулировка никак не сможет оказаться верной. Дей- Действительно, мы можем, например, условиться расшифро- расшифровывать все принимаемые буквы как первую букву алфави- алфавита — при этом вероятность ошибки будет равна нулю во всех случаях, когда на самом деле передавалась именно первая буква. С другой стороны ясно также, что расшиф- расшифровывать все принимаемые буквы как первую букву не- нецелесообразно — здесь мы, фактически, вообще никак не используем линию связи и будем ошибаться каждый раз, когда передавалась любая буква, отличная от первой; поэтому средняя вероятность ошибки в этом случае будет велика. В то же время наиболее естественным представля- представляется понимать вероятность q ошибки при расшифровке од- одной переданной буквы именно как среднюю ве- вероятность ошибки — ив дальнейшем именно так мы и будем поступать. Итак, предполжим, что передается текст, записанный с помощью «-буквенного алфавита аг, о2, ..., ап, причем вероятности появления на произвольном (но фиксирован- фиксированном) месте в этом тексте букв а±, а^, ..., ап равны, соот- соответственно, plf р2, ..., рп. Под q мы будем понимать сред- среднее значение вероятности ошибки, т. е. величину + Р202 + — + pnqn, (*) где qt — вероятность того, что буква а^ после передачи по линии связи будет ошибочно принята за отличную от % букву алфавита, и аналогичный смысл имеют величины <7г. -••» 9п- Существенно, что это же среднее значение q может быть вычислено и иначе. Пусть plt р2» •••> Рп — вероятности обнаружить буквы а1? а^, ..., ап на произволь- произвольном (но фиксированном) месте сообщения, полученного на приемном конце линии связи с помощью расшифровки пришедшей по этой линии последовательности элементар- элементарных сигналов. Обозначим далее через qt вероятность того, что полученная на приемном конце буква аг была расшиф- расшифрована неправильно (т. е. что на соответствующем месте
364 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV переданного сообщения стояла отличная от аг буква), а через q'i, ..., q'n — аналогичные же вероятности ошибок, относящиеся к случаям приема букв а2, ..., ап. Ясно, что вероятности рг, р^, ..., рп, вообще говоря, не будут совпадать с р17 р2, ..., рп (они зависят и от вероятностей Pi, Рг, •••» Рп, и от методов кодирования и декодирования, и от характеристик линии связи). Однако среднее значе- значение вероятности ошибки при передаче одной буквы можно выразить и через них х): ч = р& + р& + р'п%. (**) Именно формулой (**) мы, в основном, и будем пользо- «аться ниже. Переходя к доказательству обратной теоремы о кодиро- кодировании при наличии помех, начнем с простейшего случая, когда передаваемое сообщение записано с помощью двух- буквенного алфавита (буквы алфавита в этом "случае удоб- удобно обозначать через «а» и «б»). Пусть р — это опыт, состо- состоящий в определении передаваемой буквы сообщения (не передаваемого по линии связи элементарного сигнала, как это было на стр. 333, а именно буквы!), а а — опыт, состоящий в расшифровке буквы, полученной на прием- пом конце линии связи. Тогда оба эти опыта могут иметь два исхода («а» и «б»), причем вероятности двух возмож- возможных исходов опыта а равны рг и р'2 (так что рх -+- р2 = = 1), вероятности двух исходов р при условии, что опыт а имел исход «а», равны 1 — qx и q\, вероятности тех же двух исходов Р при условии, что опыт а имел исход «б», равны q2vL\ — q2. Следовательно, НаФ) = - Яг log q\ - A - q[) log A - q[)f #6(P) = — q'% log q% — A — q't) log A •- q*)t где /?„(Р) и Нбф) — условные энтропии опыта C при условии, что опыт а имел исход «о» и, соответственно, «б». *) Нетрудно попять, что и правая часть формулы (*), и правая часть формулы (**) определяет среднюю частоту оши- ошибок в последовательности расшифровок большого числа букв переданного сообщения.
§ 4J ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 365 Введя, как и на стр. 75, в рассмотрение функцию h (р) = — Р log р — A — р) log A — р), можно переписать последние равенства в виде На (Р) = h (д[), Н6 (р) = h (q2). Отсюда видно, что Я„ (р) = р[На(р) + Р;Нб(р) = р[h (q[) + p'2h (g'2). Воспользуемся теперь тем, что функция h (p) (график ко- которой изображен на рис. 8, стр. 75) является выпуклой функцией в смысле, разъясненном в Приложении I на стр. 441. Поэтому в силу теоремы 2 этого Приложения (стр. 444) при любых неотрицательных р\ и рг таких, что ру + + Рг = 1, PiHg'i) + Рг 4q2) < Hp'yq'i + р'2(/г) = h {(]), где q = Psqx + р-^д2- Таким образом, Яа(Р) < h (g) (А) / (а, р) = Я (р) - На (р) > Я (р) - h (g). Вспомним теперь, что / (а, Р) — это информация, со- содержащая в произвольной букве текста, принятого на приемном конце линии связи, относительно соответствую- соответствующей буквы переданного сообщения. За единицу времени по линии передается vx букв, т. е. передается количество информации, равное i>]/(a, P) (последовательные буквы сообщения мы считаем взаимно независимыми). Но ведь количество информации, переданное за единицу времени, не может превзойти пропускную способность С нашей линии связи *); поэтому, тем более, Р) - h (g)] < С. й) Напомним, что С равно максимальной информации о пере- передаваемых элементарных сигналах, которую можно извлечь из принимаемых за единицу времени на приемном конце элементарных сигналов. Если кодирование последовательности букв сообщения в последовательность элементарных сигналов неоднозначно (например, если используется описанное ниже на стр. 375 «случайное кодирование»), то переход от опыта а к опыту щ, состоящему в определении передаваемых элементарных сигналов,
366 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV *(i реписать в виде Так как -щя? — *>» то последнее неравенство удобно пе- пеA Н C) (Б) Рассмотрим график функции 1 — ТГЙТ = рис. 27, о, б, на которых эта функция изображена для #4) к 9(Ч)\ Рис. 27. случая, когда Н F) = 1, т. е. когда исходы «а» и «б» опы- опыта В равновероятны, и для одного из случаев, когда Н (В) <^ <[ 1). Он показывает, что если vx ^ v, т. е. если— ^ 1, то неравенство (Б) может быть удовлетворено при всех зна- значениях q, включая и значение q=Q. Если же #i]> », т. е. — < 1, то это неравенство может выполняться лишь тогда, когда значение q принадлежит некоторому интервалу зна- значений, расположенному левее точки <fo> где д0 ^> 0. Таким образом, при гт, >¦ v средняя вероятность ошиб- ошибки q не может быть меньше некоторого q0 ^> 0, т. е. мы доказали то утверждение, которое выше было названо обратной теоремой о кодировании при наличии помех. будет сопряжен с какой-то потерей информации; аналогичный эффект будет иметь и неоднозначность декодирования. Для нас здесь, однако, важно лишь то, что в любом случае информация i>! /(о, Р) о передававшихся буквах, содержащаяся в принятых буквах, не может быть больше, чем С (ср. стр. 123).
% 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 367 С ростом г^ (т. е. с уменьшением —) значение q0 увеличи- увеличивается; при i\ -*¦ оо (т. е. >- 0) оно, очевидно, стремит- стремится к вероятности р2 той из передаваемых букв («а» или «б»), которая передается реже, чем вторая буква. Впро- Впрочем, последний результат является совершенно естест- естественным: ведь при очень большой скорости передачи Рис. 28. мы не сможем передать по нашей липии почти никакой полезной информации, и поэтому наиболее разумным ме- методом расшифровки в этом случае будет метод, при кото- котором все принимаемые буквы расшифровываются как буква, имеющая бблыпую вероятность быть переданной. Но при такой расшифровке средняя вероятность ошибки д будет, очевидно, равна вероятности более редко упот- употребляемой буквы (заметим, что для указанной «расшиф- «расшифровки» линия связи вообще не нужна). Если же вероят- вероятности появления обоих букв текста одинаковы, то при очень большой скорости передачи, когда линия связи во- вообще оказывается бесполезной, у нас вовсе не будет ни- никаких оснований для выбора того или другого значения принятой буквы, так что здесь расшифровку вполне можно производить «наудачу». Средняя вероятность ошибки q в этом случае при vx —>¦ оо будет стремиться к -к-, так как эт о и есть вероятность ошибки при расшифровке «наудачу» (и одновременно вероятность «более редкой» буквы). Схе- Схематически график зависимости нижней границы q0 ве- вероятности ошибки от скорости передачи vt изображен на рис. 28. То обстоятельство, что при г^ < г?этот график сов- совпадает с осью абсцисс (т. е. д0 — 0), очевидно, соответст- соответствует основной теореме Шеннона о кодировании — тому,
368 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ ¦ [Гл. IV ¦ что при v1 < v вероятность ошибки можно сделать сколь угодно малой (но, разумеется, наш вывод, доказывающий лишь, что средняя вероятность ошибки не может быть меньше, чем q0, сам по себе еще не дает оснований утверждать, что при vx < v величина q дейст- действительно может быть сделана сколь угодно малой). Поло- Положительность же <70 при всех vt~^> v как раз и составляет содержание обратной теоремы о кодировании. Случай, когда передаваемое сообщение записано на языке, использующем алфавит из п букв alt a2, ... ,яп, ненамного сложнее разобранного выше частного случая двухбуквенного алфавита. Здесь, однако, вместо совсем элементарного неравенства (А) приходится использо- использовать более общее неравенство Фано, имеющее вид Я„(р) < h (q) + q log (n - 1), (A') где a и Р имеют тот же смысл, что выше, ад — это опять средняя вероятность ошибки. Неравенство Фано (А') имеет очень простой и нагляд- наглядный смысл. В самом деле, На($) — это средняя степень неопределенности исхода опыта Р при известном исходе опыта а. Но исход опыта В при известном исходе а мож- можно найти с помощью следующих двух вспомогательных опытов. Прежде всего мы выясняем, произошла ли или не произошла ошибка при передаче соответствующей буквы сообщения. Это значит, что мы производим опыт у, могущий иметь лишь два разных исхода (ответы «да, произошла» и «нет, не произошла»). Средняя вероятность положительного исхода опыта у (ответа «да») равна q; используя выпуклость функции h(p), отсюда легко вы- вывести, что средняя степень неопределенности результата нашего первого вспомогательного опыта не может прев- превзойти h (q) (см. на стр. 365 неравенство, предшествующее неравенству (А), а также аналогичный общий вывод на стр. 391). Далее, ясно, что если ошибки при передаче не было (т. е. если исход опыта у был отрицательным), то результаты опытов у и а уже однозначно определяют исход р. Если, однако, исход у окажется положительным (что происходит в среднем в доле q всех случаев), то зна- знание исхода опыта у еще не снимает неопределенноси! в исходе р — здесь нам придется произвести второй вспо-
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 369 могательный опыт уг, чтобы выяснить какой же именно из п — 1 отличных от принятой букв была в действитель- действительности переданная буква. Этот второй опыт fi может иметь п — 1 различных исходов; поэтому степень его неопределенности (энтропия опыта уг) не может превзой- превзойти log (п — 1). Понятно, что общая степень неопределен- неопределенности На($) должна равняться степени неопределен- неопределенности первого вспомогательного опыта у, сложенной со степенью неопределенности второго опыта уг, умножен- умноженной на среднюю частоту случаев, в которых этот второй опыт оказывается нужным. Отсюда сразу следует нера- неравенство Фано (А') (подробнее об этом см. текст, напечатан- напечатанный мелким шрифтом на стр. 390—392). Заметим теперь, что из неравенства Фано сразу сле- следует неравенство /(а, р) > Я(Р) - h (q) - q log(« - 1). Поэтому vt [H (P) - h (q) - qlog(n - 1)J < C, где С = v-H(P), т. e. a h(q) — q log (n — 1) v „, В частном случае, когда Нф) — log n, функция /\ л h(q) — olog(n — 1 gn (q) = 1 *2 * ,пл \ лишь постоянным множи- множителем отличается от функции С (р), изображенной (в пред- предположении, что п=4) на рис. 20 на стр. 340; для удобства мы воспроизводим аналогичный график и на следующей странице. Рядом на том же рис. 29 изображен схемати- схематический вид графика функции gn(q) при Нф) < log n (т. е. в случае, когда не все буквы алфавита равноверо- равновероятны). Мы видим, что если vx < v (т. е. —^> 1), то нера- неравенство (Б') оказывается справедливым при любом q ^ 0; если же vx >¦ v (т. е. —< 1), то оно будет выполняться лишь для значений q, больших некоторого положитель- положительного числа д0. Тем самым доказано, что обратная теоре- теорема о кодировании верна и в общем случае п -буквенного алфавита. Зависимость значения q0 от скорости пере- передачи v здесь основа имеет вид, схематически изображен-
370 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. 1Y ный на рис. 28; предельное значение ?о ПРИ vi ~*" °° (т. е. при »-0) в случае, когда Н (р) = log n, равно "~ , а при уменьшении Н(ф) оно уменьшается*). 9пЩ 1 * \ п Чо 6) Рис. 29. Заметим, что доказанные в настоящем параграфе основная теорема о кодировании при наличии помех и обратная теорема о коди- кодировании сильно различаются как по методу доказа- доказательства, так и по самому своему характеру. Правда в формулировке обеих теорем речь идет о вероятности ошибки в определении одной переданной буквы; од- однако на самом деле при рассмотрении основной теоремы о кодировании исходные буквенные сообщения лишь вкратце упоминались в начале обсуждения, а затем рас- рассматривались лишь непосредственно передаваемые по линии связи цепочки из ^элементарных сиг- сигналов. Существенным здесь было лишь то, что при использовании кодовых обозначений, представляющих со- собой цепочки («блоки») из Nt элементарных сигналов, передача со скоростью vx — Ljj букв/ед. времени тре- ') Если Vf очень велико, то линия связи становится бесполез- бесполезной, и поэтому здесь остается расшифровывать все принимаемые буквы, как самую вероятную из передаваемых букв; при этом средняя вероятность ошибки q будет равна 1— pj, где Pi — нанбольшая из вероятностей букв алфавита. Так как, однако, неравенство (Б') не является точным, то получаемая ив него оценка нижней границы д0 средней вероятности ошибки не должна, во- вообще говоря, обязательно совпасть с ваменыпим реально достижи- достижимым значением д.
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 371 бует, чтобы эти обозначения сопоставлялись JV-буквен- ным сообщениям, где N —jrNlt т.е. чтобы (в случае достаточно большого Nt) имелось не менее чем 2С»ЛГ> = = 2HN «вероятных» (и притом имеющих практически одинаковую вероятность) кодовых обозначений. Таким образом, нам надо было лишь доказать, что если ct<Zc (где с — max Да, |J)), то при достаточно большом Nt всегда можно выбрать 2CiJV« кодовых обозначений длины Nt таким образом, чтобы вероятность ошибки при рас- расшифровке принятой на приемном конце линии связи це- цепочки из Nt влементарных сигналов была меньше произ- произвольного (но заранее заданного) числа е, независимо от того, какое именно кодовое обозначение передавалось (число е здесь естественно выбирать очень малым — ска- скажем, равным 0,001, или 0,0001, или 0,000001). Именно это утверждение (относящееся лишь к липии связи и пе- передаваемым по ней длинным цепочкам элементар- элементарных сигналов, но никак не связанное с исходными буквенными сообщениями) и составляет суть основной теоремы о кодировании. Что же касается до обратной теоремы о кодировании, то она уже по су- существу относится к буквам исходного сообщения, но не к передаваемым по линии связи цепочкам элементарных сигналов. Существует, однако, и другая теорема, также обрат- обратная основной теореме о кодировании, которая уже ка- касается лишь линии связи и длинных цепочек передава- передаваемых по ней элементарных сигналов. Согласно зтой теореме, если cx^> с и Ыг достаточно велико, то как бы мы ни выбирали 2е» равновероятных кодовых обозначений (т. е. цепочек элементарных сигналов) длины Nx и как бы мы ни расшифровывали принимаемые цепочки из Nt сигналов, все равно средняя вероятность того, что мы оши- ошибемся в расшифровке принятой цепочки, будет больше произвольного (но заранее заданного) меньшего единицы числа р0 (число р0 здесь естественно выбирать достаточно близким к единице — скажем, равным 0,999, или 0,9999, или 0,999999). При этом, разумеется, чем ближе будет р0 к единице, тем большими будут требуемые значения Nt. Что же касается до средней вероятности ошибки, фигуриру- фигурирующей в условиях теоремы, то она, очевидно, совпадает
372 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV со средним арифметическим Рол + Ро.а -i Ь Pp^Nt гле Po,i — это вероятность ошибки в расшифровке в том случае, когда передавалось i-e из наших 2c%Nl кодовых обозначений. Справедливость сформулированной теоремы тесно свя- связана с тем, что, как было показано на стр. 357, при et ^> с и очень большом Nt общее число Л^-членных цепочек в 2ClJV» группах 33 (т. е. в группах принимаемых «вероят- «вероятных» цепочек, отвечающих имеющимся 2ClN* кодовым обозначениям длины Nt) будет в громадное число раз пре- превосходить общее число всех «вероятных» принимаемых цепочек. Поэтому принимаемые Л^-членные цепочки бу- будут, вообще говоря, одновременно принадлежать громад- громадному числу различных групп 53, так что вероятность их правильной расшифровки будет очень мала. Эти со- соображения делают нашу теорему крайне правдоподоб- правдоподобной, хотя они и не могут заменить ее строгого доказатель- доказательства. Такое доказательство может быть найдено, например, в книгах [7], [21] или [22]; оно не очень просто, и мы на нем здесь не задержимся. Сама рассматриваемая теорема была названа Вольфовицем (впервые ее строго доказав- доказавшим) усиленной обратной теоремой о кодировании при наличии помех — и это ее название часто используется в литературе по теории информации; однако оно не очень удачно, так как может создать неверное впечатление, что доказанная выше обычная обратная теорема о кодировании вытекает из этой новой теоремы (на самом же деле ни одна из приведен- приведенных здесь двух обратных теорем о кодировании не яв- является следствием другой из них). Поэтому, вероятно, более целесообразно, следуя Галлагеру [22], на- называть рассматриваемую теорему обратной те- теоремой о блочном кодировании при наличии помех (т. е. о кодировании, использую- использующем в качестве кодовых обозначений блоки элементар- элементарных сигналов фиксированной длины).
§ 4) ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 373 Вернемся теперь к более аккуратному раэбору дока- доказательства основной теоремы Шеннона о кодировании при наличии помех, о которой шла речь па стр. 349 и след. нашей книги. Начнем прежде всего с того, что, следуя работе С. Заремба [163], приведем пример, наглядно показывающий, что иэ крайней малости общего числа цепочек BjtBj2 ... B}N в 2HN группах S3 по сравнению с полным числом таких «вероятных» цепочек еще вовсе не следует, что эти группы можно выбрать так, чтобы они не пересекались между собой. Рассмотрим с этой целью совокупность всевозможных цепочек из 10 элементарных сигналов, каждый из которых может принимать два зна- значения. Ясно, что общее число таких цепочек равно 210 = = 1024. Сопоставим, далее, каждой цепочке группу всех 10-членных цепочек, отличающихся от данной не более чем тремя сигналами. Кроме данной цепочки эта группа, очевидно, будет содержать С\о — 10 цепочек, отличающихся от данной ровно одним сигналом, С?о = = 45 цепочек, отличающихся от данной двумя сигнала- сигналами, и Cf0 = 120 цепочек, отличающихся от данной тремя сигналами; итого группа будет состоять из 1 + 10 + + 45 + 120 = 176 цепочек. Так как 176 — это почти в шесть раз меньше, чем 1024, то можно было бы ду- думать, что три цепочки здесь без особого труда можно выбрать так, чтобы отвечающие им 3 группы иэ 176 це- цепочек не пересекались между собой. Однако это неверно: можно показать, что группы, отвечающие любым трем цепочкам, обязательно пересекаются. Действительно, обозначим два значения наших сиг- сигналов цифрами 0 и 1, и пусть, например, одна из групп — это группа, сопоставляемая «нулевой цепочке» из десяти нулей. Легко понять, что с этой группой не будут пересе- пересекаться лишь группы, сопоставляемые 10-членным цепоч- цепочкам, содержащим больше шести цифр 1. Но в любых двух 10-членных цепочках, содержащих по семь или больше цифр 1, не меньше четырех из этих цифр 1 распо- расположены в обеих цепочках на одних и тех же местах. Следовательно, наши две цепочки отличаются между собой не более чем на шесть сигналов, и, значит, отвеча- отвечающие им группы пересекаются между собой. Разумеется, ничего не изменится, если мы начнем с любой другой
374 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. 1Y цепочки (а не с «нулевой цепочки» 0000000000): две наши группы из 176 цепочек, не пересекающиеся с одной и той же третьей группой, обязательно пересекаются между собой. В точности так же показывается, что и при любом к среди групп C/с + 1)-членных цепочек, отличающихся от какой-то одной такой цепочки не более чем в к сигналах, нельзя найти более двух непересекающихся групп. Между тем можно показать, что отношение числа цепочек в та- такой группе (равного сумме 1 + Сз*+1 + Clit+i + ... ...+Сзй+i) к общему числу всех вообще (ЗА; + 1)-членных цепочек (равному 23/t+1) с возрастанием к все время убы- убывает; так, при к = 8, ЗА; + 1 = 25 это отношение будет уже близко к -go", а если выбрать к достаточно большим, то можно даже добиться, чтобы указанное отношение оказалось сколь угодно малым (меньшим лю- любого заранее заданного малого числа). Таким образом, общее число цепочек в трех группах может составлять пичтожную часть числа всех вообще цепочек — и тем не менее любые три группы обязательно будут пересекаться. Поэтому и в случае теоремы Шеннона нельзя просто мо- мотивировать возможность выбора 2HN непересекающихся групп тем, что общее число цепочек в них очень мало по сравнению с числом всех вообще «вероятных» цепочек; требуется еще строго доказать, что в данном случае дело обстоит не так, как в примере Заремба. На самом деле до сих пор никому не удалось строго доказать, что 2HN цепочек А^А^ ... AiN можно выбрать таким образом, чтобы никакие две из отвечающих им 2HN групп 33 не пересекались между собой. Однако можно показать, что наверное существует такой выбор зтих цепочек, при котором соответствующие группы ИЗпочти не будут пересекатьс я,— и поэтому их пересечением можно будет пренебречь. Этот факт может быть сделан очевидным с помощью следующего рас- рассуждения, принадлежащего, в основных чертах, Шенно- Шеннону [Ц. Начнем с того, что выберем нужные нам 2HN цепочек At^A^ ... AiN с помощью метода, который сна- сначала может показаться явно неразумным, а именно — наудачу. Такой выбор «наудачу» можно осуществить
S 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 378 так: перенумеруем все 2H<P)JVi «вероятных» цепочек AttAt, ... AiN в произвольном порядке, выпишем их номера на 2H^Nt бумажек, сложим эти бумажки в урну и перемешаем, а затем будем 2HN раз подряд вытаскивать из урны по одной бумажке, возвращая после каждого извлечения вытащенную бумажку обратно и снова пере- перемешивая содержание урны. Цепочки AivAu ... AtN с извлеченными номерами мы и примем за наши 2HN ко- кодовых обозначений (такой метод выбора кодовых обозна- обозначений носит название случайного кодирова- кодирования). Ясно, что при случайном кодировании один и тот же номер может оказаться вытянутым два или больше раз, так что некоторые из 2HN отобранных цепочек ока- окажутся просто совпадающими между собой и их, разумеется, никак нельзя будет различить на приемном конце линии связи; одно это обстоятельство создает впе- впечатление, что предложенный метод выбора кодовых обоз- обозначений безусловно является нерациональным. На са- самом деле, однако, при большом N вероятность такого совпадения будет ничтожно мала (так как число 2HWN ZiSBN = 2 с» различных «вероятных» цепочек при боль- большом N будет в очень много раз больше числа 2HN); как будет видно из дальнейшего, это позволит нам не считать- считаться с возможностью совпадений. Предположим теперь, что по нашей линии связи были последовательно переданы сигналы Ait, Atl,...,AiN, совокупность которых как раз и составляет одно из выб- выбранных нами кодовых обозначений. Из-за наличия помех эти сигналы, вообще говоря, будут как-то искажаться при передаче; в результате на приемном конце линии мы получим отличную от AtlAtl ... AiN последователь- последовательность сигналов Bjfij, ... BjN. Ясно, что цепочка BjJElj, ... BjN с очень близкой к единице вероятностью будет принадлежать отвечающей цепочке AtlAu ... AiN группе S3. Но эта же цепочка B}i B^ ... BjN будет одно- одновременно принадлежать также и группам 3&, отвечающим целому ряду других цепочек из N1 передаваемых сигна- сигналов; именно это обстоятельство и делает затруднительной расшифровку принятого сообщения.
376 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИВНЯМ СГЯЕВ [1л. Общее число различных «вероятных» цепочек AttAft... ... AtN таких, что отвечающие им группы 33 содержат заданную цепочку Bjfijs ... BjN , можно оценить без тРУда. В самом деле, общее число «вероятных» 2NX- членных цепочек AtlAit ... AiNBj1Bj, ... BjNi, как мы знаем, равно 2H<"P>JVl, причем входящие в них цепочки BjJBh ... B}Nt все принадлежат к числу 2H<a)/v, равно- равноправных «вероятных» принимаемых цепочек. Таким обра" эом, число «вероятных» 2ЛГг-членных цепочек превосхо- превосходит число «вероятных» Л^-членных цепочек BjtBj,...BjN Группа Л Рис. 30. в 2н<аР)^т 2H<a>N« = 2Ha<C)iV' раз. Отсюда можно заклю- заключить, что всевозможные «вероятные» 2ЛГ1-членные цепоч- цепочки получаются с помощью комбинирования каждой из 2Н(а)лг, «вероятных» цепочек ВиВ)г ... BJNi принимаемых сигналов с 2H"<P)JV' различными цепочками AitA ia...AiNt пе- передаваемых сигналов. Именно эти 2H"(p)iVl передаваемых цепочек и обладают тем свойством, что цепочка Bj,Bjz...BjN входит в отвечающие им группы 3d. Совокуп- Совокупность всех этих цепочек А{1А{г ... AiN мы назовем груп- группой Л, отвечающей цепочке Bjfij, ... BjN (см. схемати- схематический рис. 30, на котором ведущие от цепочек группы Л к цепочке B^BU ...BJn стрелки означают, что группы 93 этих передаваемых цепочек содержат BJtBiz ... BiNi и что, следовательно, существует реальная вероятность приема этих цепочек на приемном конце линии связи как цепочки ВиВи ... BJn). Рассмотрение группы ,А из 2Ha(p)iVt возможных це- цепочек передаваемых сигналов, отвечающей полученному на приемном конце линии связи сообщению Bjfij, ...BiNit играет основную роль в том методе расшифровки
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 377 этого сообщения, которым мы будем пользоваться. А имен- именно, если указанная группа Л содержит ровно одно из наших кодовых обозначений, то мы будем считать, что именно это обозначение и было передано. В случаях же, когда эта группа Л содержит больше одного кодового обозначения, или не содержит ни одного кодового обозначения, или, наконец, принятое сообще- сообщение вообще не входит в число 2H<a>iVi «вероятных» це- цепочек Bjx Bh... BjN , мы будем считать переданным какое- то одно произвольно выбранное иэ имеющихся кодовых обозначений (например, будем во всех зтих случаях счи- считать, что передавалось кодовое обозначение с номером 1; из дальнейшего будет видно, что на самом деле это сог- соглашение не играет никакой роли). После того, как мы выбрали метод кодирования (т. е. нахождения 2HN нужных нам кодовых обозначений) и метод декодирования (т. е. расшифровки принимаемых сообщений), можно перейти к определению вероят- вероятности ошибки при декодировании. Здесь, однако, нам сразу встретится одно затруднение. Пусть передано было кодовое обозначение AtlAtl ... AiNy а принято было сообщение В1гВ1г ... B]Nt; обозначим через Р вероятность того, что, используя описанный выше способ расшифровки поступивших сообщений, мы при- придем к неверному выводу, т. е. заключим, что было пере- передано какое-то отличное от AitAt,... AtN кодовое обоз- обозначение. Ясно, что величина Р в принципе может быть различной для различных кодовых обозначений AltAlt... Лг1У;так, например, используемый нами метод де- декодирования явно ставит кодовое обозначение с номером 1 в особое положение. Надо ли из-за этого отдельно вы- вычислять величину Р для различных кодовых обозначений (или хотя бы отдельно для первого и для всех остальных таких обозначений)? Мы увидим ниже, что не надо — оценки, которые будут использоваться, будут справед- справедливы для всех кодовых обозначений без исключения. Но, кроме того, наш метод расшифровки зависит и от выбора используемых кодовых обозначений, а этот выбор, как мы знаем, определяется исходом опыта, состоящего в 2HJV-KpaTHOM извлечении бумажки из урны, т. е. зависит от некоторого случайного события. Поэтому
378 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV и величина Р является случайной величиной в том смысле, который был разъяснен на стр. 23. Такая величина может иметь много разных значений; ниже мы вычислим лишь среднее значение этой случай- случайной величины Р. Мы знаем, что если число Nt = —N достаточно вели- велико, то сообщение AtlAt, ... AtNi перейдет в одну из це- цепочек Bjfih ... В1к из отвечающей этому сообщению группы ^ со сколь угодно близкой к единице вероятностью. Далее мы будем считать, что Nx настолько велико, что указанная вероятность не меньше, чем 1 т-, где е — заранее выбранное малое число. Пусть теперь Bit B?2... BjN — это «вероят- «вероятная» цепочка принимаемых сигналов, которая входит в группу 53, отвечающую некоторому кодовому обозна- обозначению Atl Ai2 ... AiN . Через Q мы обозначим вероятность того, что рассматриваемая цепочка входит одновременно также и в группу 53, отвечающую по крайней мере еще одному кодовому обозначению (т. е., иначе говоря, ве- вероятность того, что группа Л, отвечающая нашей цепочке В}, Bit ..-. B]n , содержит кроме AtlAi,...AiN по край- крайней мере еще одно кодовое обозначение). Ясно, что Q, так же как и Р, будет случайной величиной. Далее ясно, что принятое сообщение Bj, Bj, ... BJN наверное будет без- безошибочно расшифровано, если выполняются следующие два условия: А—зто сообщение входит в группу 53, отвечающую переданному кодовому обозначению; В—кроме этой группы оно не входит ни в одну из групп 53, отвечающих прочим используемым кодовым обоз- чениям. Поэтому неверная расшифровка может иметь место лишь тогда, когда или не выполняется условие Л, или же не выполняется условие В. Но мы знаем, что вероятность суммы Ж + В двух событий Л (это событие состоит в том, что А не имеет места) и В (событие В н е и м_е е _т места) не превосходит суммы вероятностей событий А и В (см. выше стр. 28). Следовательно, вероятность ошибки при расшифровке принятой Л^-членной цепочки должна
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ П РИ НАЛИЧИИ ПОМЕХ 379 удовлетворять неравенству здесь -г- больше или равно вероятности того, что пе вы- выполняется условие А (т. е. что имеет место событие А), a Q равно вероятности невыполнения В (т. е. вероятности события В). В последнем неравенстве -т— это фиксиро- фиксированное число, а Р и Q — случайные величины; отсюда видно, что для оценки среднего значения величины Р нам надо только оценить среднее значение величины Q. Помимо кодового обозначения А^ Aiz ... A%N имеется еще 2HN — 1 других кодовых обозначений. Перенуме- Перенумеруем заново эти 2HN — 1 обозначений в произвольном порядке и обозначим через at случайное событие, сос- состоящее в том, что группа .А, отвечающая цепочке BjtB},... BjN, содержит i-e кодовое обозначение. Условие В не будет выполняться в том и только том слу- случае, когда выполняется, по крайней мере, одно из событий а1? а2, ..., o2hjv_1; иначе говоря, событие В равно сумме событий at + аг + ... + a2HJv_r Но вероятность суммы событий не может превзойти сумму вероятностей этих событий (см. стр. 28); поэтому Q < ?i + 9г + — + 9^n_v wp,e qt — это вероятность события а(. Попытаемся теперь определить среднее значение ве- вероятности gt. Так как i-e кодовое обозначение выби- выбирается наудачу (так же как и все остальные кодовые обоз- обозначения), то оно с одинаковой вероятностью нтЫ1 может совпасть с каждой из 2B<®Ni имеющихся «вероят- «вероятных» цепочек из iVx передаваемых сигналов At. В тех 2H"(P)JVl случаях, когда оно оказывается совпадающим с одной из 2Ha<P)JVt цепочек, входящих в группу Л, от- отвечающую цепочке BjxBj, ... BlN, событие aj будет иметь место, т. е. его вероятность будет равна единице; в остальных 2H(P)JV> — 2Ha(P)JV* случаях это событие не будет иметь места, т. е. его вероятность будет равна нулю.
380 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Итпк, qt = 1 при 2 а( * равновероятных исходах опы- опыта, состоящего в извлечении бумажки из урны с 2"(P>n. бумажками, и qt = 0 при 2Н№>^» — 2я<х(Р)ЛГ' осталь- остальных исходах; поэтому ясно, что 2 2 _ 2 СР-ЗН- 9i = 2щШ% ¦ 1 + 2Hflt)Wt 0 == ' 9[На(Р)-НC)]ЛГ, Но средние значения всех величин д4 одинаковы (ибо все номера i равноправны), а Q не превосходит суммы 2нЛГ — 1 величин д{; поэтому ср.зн.() не больше, чем _ 1) 2[Ha(P)""H(P)llv>< -(-?--1) HN 2 Cl < 2HN • 2 c« = 2 Вспомним теперь, что сг < с; отсюда вытекает, что при большом N стоящее в правой части последнего не- неравенства выражение будет представлять из себя число 2, возведенное в очень большую по абсолютной величине отрицательную степень, т. е. будет очень мало. В частности, как бы ни было мало выбранное число е, число N можно будет взять столь большим, что это выра- выражение (а значит и ср.зн.ф) будет меньше, чем -г. Но мы знаем, что Р ^ -|- + Q; поэтому ср.зн.Р <; ср.зн.ф + -ц. А так как при достаточно большом N ср. зн. Q < ^ , то, выбрав N достаточно большим, всегда можно добить- добиться того, чтобы среднее значение вероятности Р ошибки при расшифровке любого из 2НЛГ кодовых обозначений (соответствующих 2HN «вероятным» ЛГ-буквенным сообще- сообщениям) было меньше, чем у, где е—любое наперед выбранное (сколь бы оно ни было мало!) положительное число.
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 381 Полученный результат позволяет без труда доказать основную теорему Шеннона о кодировании при наличии помех. Воспользуемся для этого тем, что среднее значение любой случайной величины не может быть меньше всех ее возможных значений (см. стр. 24). В примене- применении к нашему случаю это означает, что среди BH<-^NiJHN различных возможных выборов наших 2HN кодовых обоз- обозначений (т. е. среди всех различных исходов опыта, состоящего в 2HW-KpaTHOM вытаскивании бумажки из урны с 2Н<Р)ЛГ» бумажками) наверное будет хоть один, для ко- торого значение Р окажется меньшим, чем -к-. Последнее утверждение уже весьма близко к тому, которое мы хотим доказать, но для нашей цели оно все же еще недостаточно. Дело в том, что Р — это вероятность неправильной расшифровки на приемном конце линии некоторого фиксироваппого переданного кодового обозначения AixAit, ... AiN~, нам ше надо до- доказать, что существует такой выбор этих обозначений, для которого вероятность неправильной расшифровки при передаче по линии связи л ю б о г о из них будет меньше, чем е. Обозначим вероятность ошибки при расшифровке переданного i-го кодового обозначения через Р{; тогда Рг, Р2, ..., P2hn — это случайные величины, среднее зна- значение каждой из которых может быть оценено точно так же, как выше мы оценивали среднее значение какой-то одной из них — той, которую мы обозначили буквой iP. По- Поэтому средние значения всех величин Pi меньше, чем е/2; но отсюда еще не следует, что хоть для одного из вы- выборов наудачу 2HN кодовых обозначений значения всех величин Pt, P2, ..., P2hn будут одновременно е меньше, чем -^-. Последнюю трудность можно, однако, обойти с по- помощью следующего искусственного приема. Выберем на- наудачу не 2HN цепочек АиАи ... Aim, а в два раза большее их число, т. е. 2-2HW цепочек. Примем эти 2-2HN цепочек Ai,Att... AiNi за 2-2HiV кодовых обозначений и будем передавать все их по нашей линии связи, расшифровывая принятое сообщение B^Bj, ... BjN точно так же, как это было описано выше. Поскольку 2-2HW = 2НЛГ+1 =
382 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВ ЯЗИ [Гл. IV = 2ir'N, где Ht = Н + -ft- при достаточно большом N сколь угодно мало отличается от Н, то нетрудно видеть, что все предыдущие оценки останутся в силе и в атом случае. Иначе говоря, здесь также можно доказать, что среднее значение вероятности Р ошибки при расшифровке цепочки BjtBj, ... BjN , полученной на приемном конце линии свя8и, по которой передавалось какое-то одно из наших 2'2HN = 2HiN кодовых обозначений, при достаточ- достаточно большом N обязательно будет меньше, чем -к. Таким образом, если Plt Ps, ..., P2-2HN — вероятности ошибки при расшифровке переданного по линии связи первого, второго, ..., 2-2HN-ro кодового обозначения, то при до- достаточно большом N средние значения всех этих величин будут меньше, чем к-. Рассмотрим теперь новую случайную величину р 0 ~~ равную среднему арифметическому всех величин Pt. Ясно, что если средние значения всех Pt меньше, чем к-, то и среднее значение Ро также меньше, чем |- . Применим теперь утверждение о том, что среднее значение случайной величины не может быть меньше всех ее вначений, к величине Ро; тогда мы получим, что хоть для одного из возможных выборов наудачу 2-2HN кодовых обозначений значение Ро должно быть меньше, чем ~. Но все величины Рг,Рц ..., P2-aHN — это веро- вероятности, которые не могут быть отрицательными; поэтому ясно, что если бы 2HV или больше из зтих величин оказа- оказались бы не меньше е, то их среднее арифметическое Ро было бы не меньше, чем ^~. Отсюда вытекает, что 2HN или больше значений величин Рt, i= I, 2, ...» 2-2HN, долж- должны быть меньше, чем е. Отвечающие соответствующим номерам i цепочки А^Аи ••• AiN мы и примем за нуж- нужные нам 2HN кодовых обозначений — и будем далее пере-
I 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 383 давать по линии связи только их и расшифровывать при- принимаемые цепочки Bj1Bil...BjN так, как если бы никаких других кодовых обозначений не существовало. Заметим теперь, что во всех тех случаях, когда для принятой це- цепочки В},В],... BjN выписанные на стр. 378 условия А и В оказываются справедливыми в отношении к 2 -2HN кодовым обозначениям, они тем более будут справедливы и тогда, когда половина из ранее использовавшихся ко- кодовых обозначений отбрасывается. Поэтому все выведен- выведенные выше неравенства для вероятностей ошибок Pt не могут ухудшиться из-за того, что мы отбросили половину из первоначально выбранных 2-2HN кодовых обозначений. Тем самым мы доказали то, что нам было нужно, а именно, что при достаточно большом N всегда существуют та- такой выбор 2HN кодовых обозначений AitAi, ... AtN и вы- выбор метода расшифровки принимаемых цепочек Bjt Bj,...BjN , для которых вероятность ошибки при расшифровке бу- будет меньше, чем е, независимо от того, какое именно кодовое обозначение передавалось по линии связи. При определении пропускной способности на стр. 334 мы исходили из предположения о том, что если с — наибольшее коли- количество информации, которое можно получить при приеме одного переданного по линии связи элементарного сигнала, то при приеме L таких сигналов нельзя получить больше Lc единиц информации. Это предположение кажется совершенно естественным; однако стро- строгое его доказательство все же не является очевидным. Сейчас мы вкратце поясним как может быть проведено такое доказательство. Пусть р — опыт, состоящий в определении значения одного переданного элементарного сигнала, а а — в определении значения сигнала принятого. Тогда по условию / (а, Р) < с. Требуется доказать, что если р2р2 ... р^ — это сложный опыт, состоящий в последовательном осуществлении опытов р4, р2, . . ., pL (т. е. состоящий в последовательной передаче L элементарных сигналов), a OjOj ... aL — второй сложный опыт, заключающийся в приеме этих L переданных сигналов, то всегда aL, рхр2 ... Р^Х Lc. Для этого, разумеется, достаточно доказать, что /Ко,,. — ведь каждый член в правой части последнего неравенства равен информации об одном переданном сигнале, содержащейся л соот- соответствующем принятом сигнале, т. е. не может превосходить с.
384 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Будем для простоты считать, что L = 2 — это не является ограничением, так как всегда можно подставить в полученное неравенство вместо а, и fl, сложные опыты а2а3 ... aL и РгРз ¦ • • Р^,» * затем воспользоваться методом математической индукции по числу L. Что же касается доказательства нашего неравенства при L = 2, то его можно получить очень быстро, если применить формулу тройной информации (см. выше, стр. 127), согласно которой / (рТ, а) + / (р, v) = / («Т. Р) + / («, V). Полагая в этой формуле Р = alt у = а2 и а = Р1Р2, получим I (ал, р!р2) + / (а,, сц,) = / (р,р2а2, а,) + / (р,р2, а2). Воспользуемся теперь тем, что информация, содержащаяся и сложном опыте Py относительно некоторого опыта а, будет.равна / (Р, а), если только условная вероятность исхода а при заданном исходе сложного опыта ру на самом деле зависит лишь от исхода Р (см. выше, стр. 122).;В нашем случае условные вероятности исходов опыта ctj при заданном исходе опыта PiP2a2, очевидно, могут.зависеть лишь от исхода pt; точно также условные вероятности исходов а2 при заданном исходе ptp2 зависят лишь от исхода р2. Поэтому / (ptp2a2, aj = / (р„ ai), / (р^з, a2) = / (ра, a2),. а так как / (а2, с^) ^ 0 (информация всегда неотрицательна), то / (а^, р,р4) < / (pIf а2) + / (Р2. a2), что и требовалось доказать J). Перейдем теперь к изложению еще одного метода доказательства основной теоремы Шеннона о кодировании *) При выводе равенств / (PiP2a2, at) = / (Pi,a,) и / (Р,р2, a2) = = / (Р2, a2) мы фактически воспользовались тем, что условная ве- вероятность исхода BkBi опыта а^ при условии, что опыт р2ра имел исход AtAj (т. е. вероятность приема пары сигналов B^Bi, если была передана пара A(Aj), представима в виде РА А (В^В{) = = PA^(B^)-PA{Bi),rpfiPA (Вк) и Ра (Вj)— известные нам харак- характеристики помех в линии связи. Действительно, именно отсюда вытекает то, что исход о^ зависит лишь от исхода Pf, а исход щ —¦ лишь от исхода Р2. Если теперь мы подставим эти вероятности PA.A.{BkBi) в выражение для условной энтропии #?,3, (а^), то с помощью несложных преобразований можно будет непосред- непосредственно доказать, что #PiP|! (aja2) = H^Oj) + И^г(а^ и, следо- оателыю, / (a,a2, pxp2) = Я (axa2)— H^ (a,a2) < / (a*, P,) + + / (Ог, р2) (так как Я (axa2) <С Я(а1> + Я (а2); см. стр. 93). Однако такое доказательство оказывается все же несколько длин- длиннее приведенного выше более искусственного доказательства.
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 385 при наличии помех для простейшей двоичной симметрич- симметричной линии связи 1). По такой линии могут передаваться дна элемен- элементарных сигнала Ах и Л2, причем на приемном конце каждый из них с вероятностью 1—р расшифровывается правильно, а с вероят- вероятностью р принимается за другой сигнал. Как отмечалось па стр. 337, мы без ограничения общности можем считать, что р < 1/2. В ка- качестве кодовых обозначений будем использовать последователь- последовательности As А, . . . . AiN из N1 сигналов; здесь вес 1^ (где к = 12 1 = 1, 2, . . ., Nt) могут принимать значения 1 или 2, и поэтому всего существует 2Nl различных таких последовательностей. Пусть е — некоторое заранее заданное малое число; потребуем, чтобы вероятность ошибки при расшифровке любого переданного кодового обозначения не превосходила в. Нас будет интересовать, как много кодовых обозначений можно выбрать, не вступая в про- противоречие с выделенным курсивом условием. Ниже мы докажем, что при достаточно большом Nt число К таких кодовых обозначений может быть сделано сколь угодпо близким к 2 ', где с = 1 + A — р) log A — р) Ч- р log p — пропускная способность используемой линии свяяи, отпесспнал к одному передаваемому сигналу. Поскольку сообщение о выборе одного обозначения из К возможных может доставить log К бит информации, отсюда уже будет следовать, что по этой линии можно передавать информацию, со скоростью, сколь угодно близкой к С = Lc бит/ед. времени — и притом так, чтобы вероятность ошибки при расшифровке каждого переданного сигнала не превосходила е. Тем самым теорема Шеннона будет доказана. При доказательстве прежде всего требуется указать метод дешифровки получаемых совокупностей сигналов, обеспечивающий то, что вероятность ошибки при расшифровке каждого кодового обозначения не будет превосходить е. Для этой цели удобно восполь- воспользоваться неравенством Чебышева, доказанным в § 4 гл. I. Восполь- Воспользовавшись формулой(****) на стр. 58, легко показать, что если N,2 = ^2Nip A — р)/е, то вероятность р0 того, что число х ошибок при расшифровке N1 последовательно переданных элементарных сигналов А г не превзойдет М = Ntp + N2, будет удовлетворять неравенству Ро = р (* < NlP + N2) > 1 - в/2. (•) *) Как уже отмечалось выше, идея этого доказательства при- принадлежит Файнстейну, рассмотревшему сразу общий случай опреде- определенной на стр. 332 произвольной линии связи. Применение сооб- соображений Файнстейна к простейшему частному случаю двоичной симметричной линии рассматривалось Э. Гилбертом [164] иД. Слепяном [165]; еще один вариапт упрощенного доказа- доказательства теоремы Шеннона для этого случая может быть найден в статье J1. Барнарда [166]. 13 А. М. Яглом, И. М. Яглом
386 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Яшмртим еще, что ори. фиксированных риг отношение *¦ i/ШШЕЖ. — Ni= V г УЖ мижет быть сделано столь угодно малым, если только Nx будет выбрано достаточно большим. Поэтому М = Ntp + N2 = : JVi (p + Ns/Ni) может быть сделано сколь угодно близким к W,/}. В частности, при р < 1/2 и Nt достаточно большом М = Ntp -j- -|- jV2 будет меньше, чем NJ2; в дальнейшем Л^ будет считаться тнким большим, чтобы последнее условие было выполненным. Выберем теперь первое кодовое обозначение (которое, для краткости мы обозначим символом А{) произвольным образом среди 2Nl различных цепочек AiAii ... AiNi. Будем считать обозначение А1 пгредаппым, если на приемном конце линии будет принято сообщение, отличающееся от Л^-членпой цепочки А1 не более чем в М элементарных сигналах. Совокупность всевозможных Л?гчле1шых цепочек, отличающихся от цепочки Ал не более чем г М сигналах, мы обозначим символом Я (Ai). Таким образом, принятая Л^-членная цепочка будет расшифровываться как цепочка Ал, если она принадлежит совокупности R (А{); вероятность ошибки при расшифровке кодового обозначения At в силу (*) будет тогда заведомо не превосходить е/2. Далее перейдем к выбору второго кодового обозначения А2. Уговоримся прежде всего считать, что передавалось это обоз- обозначение А2, если на приемном конце линии будет принята Л^-член- иая цепочка, которая а) отличается от А2 не более чем в М элементарных сигналах; б) не принадлежит совокупности R(A1). Нас интересуют только такие кодовые обозначевия А2, вероят- вероятность ошибки при расшифровке которых на приемном конце линии связи не превосходит е. Ясно, что так наверное будет обстоять дело, если при передаче цепочки Аг вероятность получения какой- либо из цепочек совокупности R (А{) будет меньше, чем е/2. В тех случаях, когда вовсе не существует ЛГ^членных цепочек, удовлет- удовлетворяющих этому последнему условию, мы будем считать, что К = 1; если же Л^-членные цепочки, ему удовлетворяющие, существуют, мы примем за Аг произвольную из них. Аналогично мы поступим и при выборе третьего кодового обозначения Аа. А именно, если не существует таких Л^-членных цепочек передаваемых сигналов, что вероятность получения вместо них на приемном конце линии одной ш цепочек, принадлежащих или совокупности R (Aj), или же совокупности R (А2), меньше, чем е/2, то мы будем считать, что К — 2; в противном случае в качестве третьего кодового обозначения As мы выберем любую из цепочек, удовлетворяющих указанному условию. Аналогично это- этому, после того, как первые к кодовых обозначений Аи А2, . . ., А% будут уже выбраны, в качестве (к + 1)-го кодового обозначения мы выберем произвольную Л^-членную цепочку -4^+1 такую, что е случае ее передачи по линии связи вероятность получения на прием- приемном конце одной ш цепочек, принадлежащей или R{Af), или R (A^j,... ..., или R (А^, льеньше, чем -^ . Выбор всех кодовых обозначений
4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 387 мы будем считать законченным тогда, когда окажется, что ни одной новой цепочки, удовлетворяющей сформулированному здесь усло- условию, уже выбрать нельзя. При расшифровке принятых сообщений на приемном конце линии связи мы будем считать, что передавалось i-e обозначение At, если будет принята цепочка, которая а') отличается от At не больше чем в М сигналах; б') не принадлежит ни совокупности Ji (At), ни i? (А2), ... ..., ни R (А^). Если же будет принята цепочка, которая отличается от всех имеющихся кодовых обозначений Аг, А2, ¦ . ., Ак больше чем в М сигналах, то ее мы будем расшифровывать произвольно (например, условимся во всех таких случаях считать, что передавалось обоз- обозначение At). Ясно, что используемое правило расшифровки прини- принимаемых .^-членных цепочек сигналов гарантирует, что при передаче любого из обозначений Аи А2, . . ., Ак мы правильно расшифруем его на приемном конце с вероятностью, превосходящей 1 — е. Таким образом, нам остается только убедиться, что число К таких обозначений при достаточно большом Nt будет достаточно большим (а именно, может быть сделано сколь угодпо близким к 2cNl). Переходя к оценке числа К, начнем с того, что оцепим число Lo цепочек, входящих в совокупность jR (А) (где А — произвольная iVj-членная цепочка). Ясно, что совокупность R (А) включает: 0) одну цепочку А; 1) С^ = Ni различных цепочек, отличающихся от А одним сигналом; 2) Cjyt различных цепочек, отличающихся от А двумя сигна- сигналами; М) C^ различных цепочек, отличающихся от А какими-то М = Ntp + Nz сигналами. Поэтому Число слагаемых в правой части последнего равенства можно оценить числом М = Jftp + N2 < Nt/2 (ибо слагаемое 1 в начале Ее может повлиять на оценку весьма большого числа Lb); кроме того, известно, что в ряду биноминальных коэффициентов c°Nl = 1. «ft,, eft, с^,..., c«r\ c»i = 1 члены монотонно возрастают вплоть до середины этого ряда. Поэто- Поэтому, так как M<^Ni/2, наибольшим из коэффициентов Сд^, . . ., С^ будет последний коэффициент; следовательно, можно утвер- утверждать, что 13*
388 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Иоспольаовавпшсь еще неравенством (**) на стр. 221 и учтя, TV, — М = Nt A — р) — N2 = Ntq — N2, где д = 1— р, лучаем что , t ( р) 2 tq 2, д д р, по- получаем (Nig - J 1 (**) ж) I*—5vTj NiQ-N, Далее пам еще понадобиться оценка числа Lj всевозможных Л^-члсппмх последовательностей принимаемых сигналов, входящих хоть в одну из совокупностей R(AX), R(Az), . . . , R(Ak). Будем рассуждать следующим образом. Рассмотрим процесс переда- передачи 2Nt всевозможных Л^-членных последовательностей передавае- передаваемых сигналов Ait А2, . . ., A N>, при котором каждая из этих последовательностей передается с одинаковой вероятностью l/2-1Vl 1). В таком случае вероятность того, что передана будет последователь- последовательность, принадлежащая хоть одной из совокупностей R (Аг), R(AZ), . . ., R(Ar) очевидно будет равна LJ2Nl (ск. определение вероятности, выделенное курсивом на стр. 21), На прием- приемном конце нашей двоичной линии связи при передаче последователь- последовательностей Л,, Аг, . . ., A Nt из Nt сигналов Ах и А2 будут приниматься также ./Vj-члешше последовательности тех же сигналов; обозначим через р (AtAj) вероятность того, что при передаче последователь- последовательности At принята будет последовательность Aj. Условимся теперь так нумеровать Л^-членные цепочки, чтобы цепочкам, входя- входящим хоть в одну из совокупностей R(A{), R(A2), . . ., R(Ar), отвечали первые L^ номеров (т. е. будем считать входящими хоть в одну из этих совокупностей цепочки А^, Аг, . . ., А^, где, разумеется, Ь, много больше, чем К). В таком случае событие, состоящее в том, что передана одна из первых L\ цепочек А{, можно будет представить в виде суммы следующих несовместимых событий: передана одна из цепочек At, где i пробегает значения 1, 2, .. ., Lit а принята одна из цепочек Aj, где / пробегает все значе- значения 1, 2, . . ., 2Ni (т. е. Aj пробегает всевозможные J) Рассмотрение такого процесса передачи играет в данном доказательстве роль, родственную роли процедуры случайного кодирования в доказательстве Шеннона (см. выше, стр. 375). Напом- Напомним, что для двоичной симметричной линии связи пропускная способность реализуется для вероятностей р° (At) = р° (А2) = 1/2; поэтому последовательная передача сигналов At независимо от всех предыдущих сигналов и каждый раз с вероятностями р° как раз и отвечает передаче всех ./Vi-членных цепочек с одинаковой вероят- вероятностью l/2Wl.
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 389 JVj-членные цепочки). Таким образом. + р (A2Ai) + + Р (АцАд + Р (-Л^АЛ + . . . + р (ALiAsNi). Заметим теперь, что вероятность р (AtAj) определяется лигпг. тем, сколько из сигналов цепочки Ai совпадают с соответствующим и сигналами цепочки Aj, а сколько — не совпадают (т. с. числом ошибок при передаче, переводящей цепочку At в Aj). Поэтому ясно, что р (AtAj) = p {AjAt), и, следовательно, + р (Л.,Л2) -| h Р (^N,- + р (^1^,)+ РИ-^L.) Ч 1- Ясно также, что сумму слагаемых, входящих в ;-й столбец в пра- правой части последнего равенства (т. е. стоящих друг под другом па /-м месте в каждой строке), можно переписать в виде р (А}) [р (АцА$ + р (At/A;) +-.+ где р (Aj) —~1Ж вероятность передачи цепочки Aj, p (А{1А}) — условная вероятность приема цепочки At при условии, что пере- передавалось цепочка Aj, а р(Ах + А2 +. . . + AjJAj) — услов- условная вероятность приема одной из первых Lt цепочек при том же условии. Но легко понять, что вероятность приема одной из первы» Lx цепочек при передаче любой Л^-членной цепочки Aj не может быть меньше чем -^. В самом деле, если передаваемая цепочка — это одно из выбранных нами К кодовых обозначений Лъ Аг, . . ., Ак, то вероятность приема цепочки совокупности R(Aj) уже больше, е е ^ чем 1 —' -jj-, а значит и больше, чем малое число tj- . Если же для какой-либо из прочих ^-членных передаваемых цепочек вероят- вероятность приема цепочки, принадлежащей коть одной из совокупностей е R (AJ, R (А2), . . ., R (Ак), окажется меньше, чем -^ , то в таком случае эту цепочку можно будет выбрать в качестве еще одного кодового обозначения, т. е. мы придем в противоречив
390 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV г. предположением о том, что больше чем К кодовых обозначений пыбрпть нельзя. Таким образом, в правую часть многострочного равенства п середине предыдущей страницы входит 2Nl столбцов, сумма членов каждого из которых не меньше, чем -^.JL; поэтому окончательно Теперь уже совсем легко получить результат, который мы (хотим доказать. В самом деле, L, цепочек принадлежат К различным (вообще говоря, пересекающимся между собой) совокупностям В (А%), Л (Аг), . . ., R (Ак), каждая из которых содержит Lo цепочек. Следовательно, Воспользовавшись оценками (**) и (***) чисел Lo и Lj, найдем, что N2 При достаточно большом Nt отношение jy- будет сколь угодно малым; отсюда вытекает, что logWi loge + N1 N2 \ I N2 \ ». 1 log I q— —»;— I — • при достаточно большом Л^( будет больше числа, сколь угодно близкого кс= 1+р log p + q log д. Но ведь больше, чем 2cNl, число К не может быть (см. выше, стр. 348 и 362); отсюда видно, \овК что при достаточно большом Л^ число ~дГ" может быть сделано сколь угодно близким к с. Как уже отмечалось выше, отсюда сразу вытекает справедливость теоремы Шеннона для двоичной симмет- симметричной линии связн. В заключение приведем строгое доказательство выписанного на стр. 368 неравенства Фано (А'): ведь приведенное на стр. 368—369 рассуждение частично опирается на интуитивные пред- представления об информации и потому, строго говоря, не может счи- считаться доказательством. Такое доказательство легко получить, придав точный смысл всем использованным ранее соображениям. Основным для нас являлось то, что степень неопределенности опыта Реп исходами Af, Аг, , , ,, Ап, имеющими вероятности
4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 391 itj, щ, -. • ., я„, равна степени неопределенности опыта у, состоя- состоящего в проверке того, имел ли или не имелопыт Р исход Ап, сложенной с умноженной на itj + щ +. . . Ч~ яп_1 =1 — пп степенью не- неопределенности опыта fi с п —• 1 исходами, представляющего собой тот же опыт Р, но уже при дополнительном условии, что исход Ап не имел места. Но если мы обозначим, как обычно, через Н (ixj, я2, . . ,, яп) величину — щ log щ — л2 log я2 —...— пп Jog n n, равную степени неопределенности (энтропии) опыта с п исходами и вероятностями jtj, л2, . . ., зтп этих исходов, то ш.текамапмоо утверждение формально будет эквивалентно соотношению Я (щ, Яз. . . ., яп) = Н (яп, 1 — я„) + В справедливости последнего соотношения очень просто убецит?>ся с помощью непосредственной проверки. Заметим еще, что мы ужо использовали на стр. 132 даже несколько более общео соотпогае'пио для Н {щ, п2, . . ., пп) (записанное сверху на этой странице;, смысл которого мы тогда разъясняли точно так же, как сейчас. Предположим теперь, что нам известен исход at, или а2, ... ..., или ап опыта а, состоящего в расшифровке одпой буквы текста на приемном конце линии связи. Тогда выписанное соотношение можно будет применить к степени неопределенности Яа> (Р), или Наг (Р), ..., или ffOn (P) опыта р (состоящего в определении одной буквы передаваемого текста) при известном исходе а. При этом мы будем считать, что исход Ап с вероятностью яп —¦ это во всех случаях тот исход р, который совпадает с известным исхо- „ „/ Я1 Я2 ЯП-1 ^ дом а. Так как Я G3^ . Т=ъ7' —• T^T^j - это энтро. пия опыта сп — 1 исходами, которая при любых значениях щ, л2,... . . ., я„_1, яп не больше чем log (и — 1), то мы получим + q\ log [n-i), @+ Han Ф) < h (q'n) + Яп ^g (» - *Ь где h {q) = H{q, 1 — q) = — q log q —A — 9), log A — 9), a q'v q'2, . . ., q'n имеют тот же смысл, что и на стр. 364. Умножим теперь первое из этих неравенств на р'х, второе — на р'2, ..., послед- последнее —^ на р'п и сложим отдельно левые и правые части. Так как h (9)— выпуклая функция q при 0 < q ^ 1, то в силу теоремы 4 Приложения I (стр. 449) \ ] H + Pnh О ' '
392 ПЕРКДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Поэтому полученный ври сложении результат может быть нгргнисан в виде На ф) <h(q) + q log (n - 1) — а это и есть то неравенство Фано, которое мы стремились до- доказать. § 5. Коды, обнаруживающие и исправляющие ошибки Основным результатом предыдущего § 4 бесспорно является теорема Шеннона о кодирова- кодировании при наличии помех. Согласно этой теореме для любой заданной линии связи с пропускной способностью С = Lc и заданной скорости передачи vx = L-~j < L-rj- букв]ед. времени наверное существует способ выбора кодовых обозначений (представляющих собой «блоки», т. е. длинные цепочки элементарных сигналов), позволяющий осуществить пе- р 'дачу сообщений со скоростью vt так, чтобы вероятность сшибки при расшифровке каждой буквы передаваемого сообщения была бы меньше произвольного (но заранее задапного) числа е. На стр. 352—353 отмечалось также, что теорему Шеннона можно сформулировать и следующим образом: если сх < с, то 2ClN кодовых обозначений длины iV при достаточно большом N всегда можно выбрать так, чтобы вероятность ошибки при расшифровке полученной на приемном конце линии связи цепочки из N элемен- элементарных сигналов была бы меньше произвольного (заранее заданного) числа е независимо от того, какое именно ко- кодовое обозначение передавалось на самом деле 1). Послед- Последняя формулировка основной теоремы удобна тем, что она относится только к линии связи, но никак не свя- связана с природой и статистическими свойствами исходных буквенных сообщений; ею мы, в основном, и будем ниже пользоваться. а) В § 4 длину кодовых обозначений мы обычно обозначали через TVi, так как буква iV там использовалась для обозначения длины кодируемых «блоков» исходного буквенного сообщения. Однако в настоящем параграфе исходные сообщения вообще не бу- будут рассматриваться; поэтому здесь нам будет удобнее считать, что длина кодовых обозначений равна N.
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 393 Теорема Шеннона о кодировании, при всей ее простоте и неожиданности, обладает одним очепь существенным с практической точки зрения недостатком} она является типичной «теоремой существования» и не содержит ника- никаких указаний на то, как именно следует выбирать кодовые обозначения какой-то приемлемой длины N для того, что- чтобы обеспечить достаточно малую вероятность ошибки при заданной достаточно высокой (т. е. достаточно близкой к v = L jr) скорости передачи. Вопрос об отыскании прак- практически удобных методов выбора кодовых обозначений для различных линий связи с помехами составляет со- содержание теории кодирования, развившейся после появления основной работы Шеннона [1] в об- обширную (и крайне важную для приложений) самостоятель- самостоятельную науку, отличающуюся громадным разнообразием используемых в ней подходов и методов, зачастую заим- заимствованных из казавшихся самыми абстрактными и да- далекими от запросов практики разделов современной ма- математики *). Изложению этой науки только на русском языке посвящено не менее нескольких десятков ориги- оригинальных и переводных монографий и сборников статей, из которых мы здесь упомянем лишь широко известные и очень содержательные (но довольно сложные) книги [168] и [169]; ей же посвящены обширные разделы во мно- многих общих курсах теории информации (см., например, 16], [13], [21], [22]) и многочисленные обзорные статьи (например, [165], [167], [170], [171]). В нашей книге, ') С этим обстоятельством связано название интересной попу- популярной статьи [167] американского математика Н. Левинсона: «Теория кодирования: противоречащий пример к принадлежащей Г. X. Харди концепции прикладной математики». Дело в том, что известный английский математик Г. X. Харди в написанной им в 1940 г. (и затем многократно переиздававшейся) книге «В за- защиту математика» (G .H. Hardy «A mathematician's apology») разделил математику на «чистую» (или «истинную»), доставляющую громадное эстетическое наслаждение уму своей стройностью, ло- логической законченностью и изяществом, но бесполезную в практи- практической жизни, и «прикладную», нужную яля практики, но скучно- скучноватую и не содержащую элементов неожиданности. При этом не- некоторые из наиболее типичных с точки зрения Харди разделов «чистой математики» (например, теория чисел или теория полей Галуа) впоследствии оказались как раз теми, которые играют цен- центральную роль в (безусловно прикладной) теории кодирования!
394 ПИГПДЛЧЛ СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV разумеется, совершенно невозможно даже вкратце охватить хотя бы одни лишь основы современной теории кодиро- кодирования; однако некоторые относительно простые выводы, относящиеся к этой теории, все же могут быть здесь рас- рассмотрены. Начнем с небольшого разъяснения, полезного для по- понимания самой постановки задачи в теории кодирования. Принято утверждать, что все существующие доказатель- доказательства основной теоремы Шеннона совершенно неэффек- неэффективны, т. е. даже в принципе не могут быть исполь- использованы для нахождения метода, позволяющего выбрать кодовые обозначения (и метода соответствующей рас- расшифровки принимаемых цепочек элементарных сигналов), обеспечивающих малость вероятности ошибки при заданной скорости передачи. На самом деле, однако, такое утверждение все же нельзя считать вполне спра- справедливым. Действительно, вспомним, например, намеченный на стр. 374—383 метод доказательства теоремы Шеннона с использованием «случайного кодирования». В ходе этого доказательства предлагалось выбрать 2C>W кодовых обозначений длины N наудачу (из числа некоторых за- заранее отобранных 2H^N «вероятных» цепочек длины N) и затем доказывалось, что в таком случае существует ме- метод расшифровки, при котором среднее значение вероят- вероятности ошибки при расшифровке будет достаточно малым (меньшим, чем -^)- Далее мы воспользовались тем, что всегда хоть одно из значений случайной величины будет не превосходить ее среднего значения — для доказатель- доказательства теоремы этого нам было вполне достаточно. Но ведь можно пойти в том же направлении и немного далыпез ясно, что если среднее значение неотрицательной случайной величины очень мало, то сравнительно малыми должны быть не одно, а почти все ее значения. Последнее обстоятельство находит свое математическое выражение в доказанном на стр. 55 неравенстве Чебышева (**), согласно которому для любой неотрицательной случай- случайной величины а Р(а ^> с) < —, где а = ср.зн.а. С
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 39& Поэтому если а = ср.зн.а настолько мало, что и Ма остан- останется еще малым, где М — какое-то сравнительно боль- большое число, то значение а будет не превосходить малой величины Ма с весьма большой вероятностью (большей, чем 1—1/М). Исходя из подобных соображений можно доказать, что если мы воспользуемся случайным коди- кодированием (и описанным на стр. 377 методом расшифровки), то при достаточно большом N вероятность ошибки при расшифровке (а не только ее значение при каком-то од- одном неизвестном нам выборе 2ClN кодовых обозначений) будет с очень большой вероятностью (т. е. «почти навер- наверняка») очень малой. Тем самым мы сразу получаем как будто бы очень простой метод выбора кодовых обозна- обозначений, приводящий практически всегда к малой вероят- вероятности ошибки — надо лишь принять N достаточно боль- большим, а затем выбрать 2°iN кодовых обозначений длины N наудачу (с помощью описанного на стр. 375 опыта с извлечением бумажек с номерами из урныI). Но как можно реально воспользоваться этим «простым» методом? По-видимому, для получения хороших резуль- результатов здесь обычно придется требовать, чтобы N имело, по крайней мере, порядок многих десятков или даже со- сотен, а если принять, что N = 100, а сг = 0,5, то нам над» будет выбрать наудачу 260 za 1018 различных последова- последовательностей из 100 элементарных сигналов и все их надо будет запомнить. Однако это еще самая легкая часть за- задачи — несравненно большие трудности представляет рас- расшифровка получаемых на приемном конце линии цепочек элементарных сигналов. Согласно сказанному на стр. 355 и след. для такой расшифровки мы должны перебрать все 250 групп 53, отвечающих нашим кодовым обозначениям, что- чтобы выяснить, к каким из них принадлежит принятая це- цепочка сигналов, а к каким нет — эта задача представля- представляется совершенно нереальной для всех существующих *) Слова «практически всегда» здесь означают, что выбранный код может оказаться плохим лишь в крайне маловероятном случае, при «исключительном невезении». Но если N достаточно велико, то этой возможностью можно пренебречь; кроме того, даже и в слу- случае такой неудачи дело можно поправить: убедившись (на примере пробной передачи), что выбранный код плох, можно от него просто отказаться и выбрать кодовые обозначения заново при помощи того же метода.
396 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV (и даже для всех могущих появиться в близком будущем) и ычислительных машин. Мы видим таким образом, что основной сложностью в теории кодирования является совсем не то, что вообще невозможно указать метод кодирования (т. е. выбора 2BiN кодовых обозначений длины N) и декодирования (т. е. соответствующей расшифровки принимаемых це- цепочек из N сигналов), обеспечивающий высокую скорость передачи и, одновременно, малую вероятность ошибки. Наиболее существенно здесь требование, чтобы и коди- кодирование, и — что особенно трудно — декодирование можно было бы сравнительно просто осуществить на прак- практике. Удовлетворить последнему требованию очень не- нелегко — это как раз и породило громадное число иссле- исследований, посвященных разработке тех или иных практи- практически приемлемых методов кодирования и декодирования, хотя и не являющихся оптимальными (т. е. са- самыми лучшими из всех возможных), но все же достаточно хороших (т. е. позволяющих добиться относительно больших скоростей передачи при не слишком больших вероятностях ошибки). Ограничимся для простоты лишь двоичными линиями связи, т. е. будем считать, что по линии можно передавать только два элементарных сигнала (скажем, посылку тока и паузу) и что эти же два сигнала могут быть приняты на приемном конце линии. Будем обозна- обозначать используемые сигналы цифрами 0 и 1; в таком слу- случае все кодовые обозначения будут последовательностями этих цифр, т. е. числами, записанными в двоичной системе счисления. Кодовые обозначения длины N здесь можно выбирать из числа 2N различных iV-значных двоичных чисел — последовательностей аоах ... aN_lt где все at, i = 0,1, . . ., N — 1, принимают значения 0 или 1; набор всех используемых кодовых обозначений мы и будем • теперь называть кодом. Если все 2N различных JV-значных чисел мы примем за кодовые обозначения, то скорость передачи информации будет наибольшей (а именно, равной L бит/ед. времени или, что то же самое, -jT букв/ед. времени), — но зато при этом у нас не будет никакой возможности определить на приемном конце ли- линии связи, имелись ли ошибки при передаче, сколько
§ 5] коды, обнаруживающие и исправляющие'ошибки 397 их было и какие именно сигналы приняты неправильно. Если, однако, мы ограничимся меньшим числом кодовых обозначений, то возникающая при этом «избыточность кода» может быть использована для дополнительной пе- передачи некоторых сведений об искажениях, внесенных линией связи. Так, например, мы можем воспользовать- воспользоваться простейшим методом JV-кратного повторепия каждого элементарного сигнала (т. е. использовать в качестве кода лишь два простейших кодовых обозначения 00 ... О и 11 ... 1 длины N), а на приемном конце линии расшифро- расшифровывать принятую цепочку длины N как 00 ... 0, если она содержит больше нулей, чем единиц, и как 11 ... 1 в про- противном случае. Ясно, что такой метод передачи при до- достаточно большом N (и при естественном условии, что вероятность искажения передаваемого элементарного сиг- сигнала в процессе его передачи меньше, чем 1/2) обеспечи- обеспечивает очень малую вероятность ошибки при рлсшифропке переданного сообщения, по зато здесь и скорость пере- передачи также будет крайне мала (за время N/L, нужное для пе- передачи N элементарных сигналов, здесь будет передаваться лишь 1 бит информации, что соответствует скорости пе- передачи, равной -^- бит/ед. времени = -т^у- букв/ед. вре- временя). Естественно, что такая низкая скорость передачи во многих случаях нас не будет устраивать; поэтому наи- наибольший интерес представляют промежуточные между рассмотренными классы кодов, обеспечивающие прилич- приличную скорость передачи и одновременно позволяющие ис- исправить многие искажения в передаваемых сообщениях. Сравнительно общий прием использования избыточ- избыточности в кодовых обозначениях для передачи информации об искажениях может быть проиллюстрирован уже на простейшем случае, когда число кодовых обозначений длины N равно 2N-1 (т. е. равно половине числа различных цепочек из N двоичных сигналов). Условимся сопостав- сопоставлять 2W кодовых обозначений всевозможным цепочкам по^ ... ce/v_2 из N — 1 цифр 0 и 1, а iV-ю цифру aiV_i бу- будем каждый раз выбирать так, чтобы сумма а0 + аг ¦+-... .. . + uN-i была четной. В таком случае наличие оди- одиночной ошибки (т. е. ошибки в одном из принятых N элементарных сигналов) приведет к появлению на при- приемном конце линии связи такой цепочки
398 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. ГУ что гумма 00 + 0! + ... + a^-i является нечетной (так как единственно возможные искажения заключаются и том, что 0 принимается за 1, или 1 за 0). Это обстоятель- обстоятельство позволяет легко обнаружить наличие одиночной ошибки, хотя и не позволяет выяснить, какой именно сигнал был принят неверно (точнее говоря, нечетность суммы а0 + ai + •.. + un-i указывает, что заведомо име- имелось нечетное число ошибок, в то время как четное чис- число ошибок при этом не будет обнаружено). Тем не менее в тех случаях, когда вероятность появления более одной ошибки при передаче N сигналов очень мала, описанный здесь очень простой метод кодирования иногда представляет значительную ценность — ведь если мы наверное знаем, что прием сопровождался ошибкой, то можно просто игнорировать полученное сообщение или, если это до- допустимо, попросить повторить передачу. С другой сто- стороны, скорость передачи при таком методе кодирования все еще остается очень большой — с максимального зна- значения L бит/ед. времени она убывает всего лишь до —2v~ L бит/ед. времени = —^— -^- букв/ед. времени. Описанный выше прием «проверки на четность» мож- можно применить также несколько раз — и это уже позволяет во многих случаях не только обнаружить наличие ошибок, но и исправить их. Рассмотрим, напри- например, случай, когда N = 3, а число используемых кодовых обозначений равно двум. Мы знаем, что в таком случае в качестве кодовых обозначений разумно выбрать тройки 000 и 111; такой выбор с точки зрения использования «про- «проверок на четность» можно обосновать следующим обра- образом. Сопоставим два кодовых обозначения двум возмож- возможным значениям первого элементарного сигнала ае (т. е. будем считать, что только сигнал а0 реально содержит информацию), а далее условимся вслед за каждым «ин- «информационным сигналом» п0 передавать еще два «контроль- «контрольных сигнала» а2 и а2, подобранных так, чтобы суммы а0 + ах и а0 + а2 обе были четными (реально зто как раз и сведется к выбору в качестве кодовых обозначений це- цепочек 000 и 111). В таком случае легко видеть, что если только при приеме тройки сигналов не произошло сра- сразу двух или трех ошибок (т. е. если считать возможными лишь правильную передачу и передачу с одиночными
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 399 ошибками), то, проверив четность сумм «о -+- а[ и а^ -+- а'2 в принятой на приемном конце тройке а„ а[ а2, можно будет безошибочно установить, какая же именно тройка была на самом деле передана. В самом деле, если обе суммы aj + ах и по + а'г окажутся четными, то отсюда сразу будет следовать, что ошибок при передаче не было (напомним, что что возможность двойной ошибки мы иск- исключаем); если нечетной будет лишь одна из них, то ото будет значить, что ошибочно принят входящий в эту сум- сумму контрольный сигнал а± или а2, а если обе суммы а'о + a't и по + аг — нечетные, то это значит, что не- неверно принят информационный сигнал а0. Таким образом, ценой уменьшения скорости передачи втрое (по сравне- сравнению с максимальпой скоростью L бит/ед. времени) мы можем добиться того, чтобы все одиночные ошибки в тройках элемеитарпых сигналов были испраплевы. Приведенные выше результаты, разумеется, очевид- очевидны (ясно, что, приняв за кодовые обозначения тройки 000 и 111, мы можем добиться исправления всех одиноч- одиночных ошибок), но они могут быть обобщены и на случай многих больших значений N. Так, например, если N = 7, а число кодовых обозначений равно 16 = 24, то мы можем принять за «информационные сигналы» первые четыре сигнала а0, ах, а2 и а3 (так как число различных четверок пф^а^а^ как раз равно шестнадцати), а последние три «контрольных сигнала» а4, аъ и ае подобрать так, чтобы были четными суммы «1 = яо + <h + я2 + я*. S2 = ао + «I + а3 + а6 и s9 — а0 + а2 + as + a6. При этом «проверка на четность» трех сумм s±, s2 и s3 на приемном конце линии также позволяет однозначно установить, была ли допущена ошибка при приеме (при условии, что возможностью двух и более ошибок при приеме семи сигналов мы пренебрегаем) и если была, то в чем она заключалась. В самом деле, если один из 7 сиг- сигналов будет принят неправильно, то хоть одна из сумм наверное окажется нечетной, так что четность трех сумм определенно указывает на отсутствие одиночных ошибок при передаче; далее лишь одна сумма будет нечетной в том (и только том) случае, когда ошибочно принят вхо- входящий в эту сумму один из трех «контрольных сигналов»
400 ИКРИДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV (п,,, «г, или а6); наконец, нечетность двух из трех сумм slt х2 и s3 будет означать, что неверно принят тот из трех сигналов ау, а.2 и а3, который входит в обе эти суммы, а нечетность всех трех сумм — что неверно принят вхо- дящий во все суммы первый сигнал а0. Легко видеть, что 1<> кодовых обозначений длины 7 в данном случае имеют "ИД ooodooo, loooiii, oiooiio, 1100001, 0010101, 1010100, 0110011, 1110100, 0001011, 1001100, 0101101, 1101010, 0011110, 1011001, 0111000, 1111111; использование этих кодовых обозначений обеспечивает скорость передачи, равную -у- бит/ед. времени = -^тг букв/ед. времени и одновременно позволяет исправить все одиночные ошибки (но не ошибки большей кратности!) в «блоках» из семи элементарных сигналов. Соответствующий код, конечно, не является «самым лучшим», но так как и кодирование и декодирование здесь осуществляются без большого труда, то он вполне мо- может оказаться практически полезным. Рассмотрим, на- например, для конкретности, двоичную симметричную ли- линию связи, в которой вероятность ошибки при приеме каж- каждого из двух используемых элементарных сигналов равна 0,01 (так что неправильно принимается примерно одна сотая доля всех передаваемых элементарных сигна- сигналов). Пропускная способность такой линии связи равна С = 0,92L бит/ед. времени (см. стр. 338); значит, здесь существует код, позволяющий передавать в единицу времени 0,92L бит информации и такой, что вероятность ошибки при декодировании мень- меньше произвольного числа е (которое можно выбрать сколь угодно малым). Однако как построить такой код мы не знаем; к тому же, если взять е очень малым, то он, веро- вероятно, потребует использования крайне длинных кодовых обозначений и будет очень сложным. Воспользуемся теперь описанным выше очень простым кодом с N = 7, в котором к каждым четырем передаваемым сигналам до- добавляется еще три контрольных сигнала. При этом мы
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 401 будем передавать информацию со скоростью -tj-L-x. 0,57L бит/ед. времени, заметно меньшей предельной скорости белотпибочной пе- передачи; кроме того, вероятность ошибки при декодиро- декодировании здесь, разумеется, не будет «сколь угодно малой», а будет равна вероятности того, что из семи переданных элементарных сигналов приняты с ошибкой два или боль- больше. Исходя отсюда можно подсчитать, что при таком методе передачи в последовательности «информационных эле- элементарных сигналов», восстановленной на приемном кон- конце линии связи, ошибочные сигналы будут составлять несколько меньше одной тысячной части, так что вероят- вероятность ошибки при приеме одного элементарного сигнала здесь будет немного меньше чем 0,001. Мы видим, что ве- вероятность ошибки при приеме одного злемептарного сигнала в этом случае уменьшается более чем в 10 раз по сравне- сравнению с передачей без использования «контрольных сигна- сигналов»; так как и кодирование, и декодирование здесь весьма просты и могут быть очень легко автоматизированы, то с точки зрения практики использование рассматриваемо- рассматриваемого кода безусловно заслуживает внимания. Заметим еще, что описанные здесь примеры «кодов с исправлением одной ошибки» довольно. тесно связаны с содержанием разобранной на стр. 145 задачи, в которой предполагалось, что среди заданных п чисел загадано или одно число, или ни одного, и требовалось с помощью, наименьшего числа вопросов (на которые отвечается толь- только «да» или «нет») выяснить, было ли загадано число, и если да, то какое именно. Нам теперь будет удобнее вместо п чисел рассмотреть N номеров 0, 1, ..., N—1, входя- входящих в кодовое обозначение а^а^.. ajv-il такая замена, разумеется, ничего не меняет в рассуждениях. Согласно сказанному на стр. 145 для требуемого выяснения здесь надо затратить не меньше чем log (N + 1) и не больше чем log (N + 1) + 1 вопросов; но ведь наши «проверки на четность» фактически эквивалентны некоторым во- вопросам (поскольку каждая проверка может дать два ре- результата: «четкое» или «нечеткое», подобно тому, как от- ответом на вопрос могло быть «да» или «нет»). В гл. III ответы на вопросы давали нам определенную информацию
402 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV о магпдашюм числе, так как исходили от человека, кото- которому это число было известно; для того чтобы результат «проверки на четность» содержал информацию о возмож- возможных искажениях при передаче, надо, чтобы заранее было известно, четна или нечетна сумма передаваемых сигна- сигналов. Так как, вообще говоря, мы не можем знать, какие сигналы будут передаваться, то последнее условие может быть удовлетворено лишь в том случае, когда каждая передаваемая сумма содержит по крайней мере один «контрольный сигнал», относительно которого заранее договорено, что оп подбирается так, чтобы соответству- соответствующая сумма оказалась, например, четной. Отсюда ясно, что число требуемых добавочных «контрольных сигналов» совпадает с минимальным числом необходимых «проверок на четность», т. е. равно числу тех вопросов, о которых шла речь на стр. 145. Если, например, N = 3, то число вопросов не может быть меньше чем log C + 1) = log 4 = = 2; это как раз и соответствует тому, что в описанном на стр. 398—399 примере кода, исправляющего одиноч- одиночные ошибки, каждый передаваемый «информационный сигнал» а0 пришлось дополнять двумя добавочными «кон- «контрольными сигналами» ах и а2. Затетим еще, что поскольку сигналы аг и а2 подбирались так, чтобы суммы йо + й| и й0 + й2 были четными, проверка четности соответ- соответствующих сумм на приемном конце линии связи равно- равносильна ответам на вопросы: «Не содержат ли ошибок сигналы а0 и агЪ и «Не содержат ли ошибок сигналы а0 и а2Ъ; ясно, что такие ответы позволяют однозначно определить любую одиночную ошибку. Аналогично это- этому, если N = 7, то число требуемых вопросов (т. е. «проверок на четность» и «контрольных сигналов») не может быть меньше, чем log G -f- 1) = log 8 = 3; это мы и видели на стр. 399—400. Описанная там проверка чет- ностей сумм sx, s2 и ss равносильна ответам на вопросы: «Не содержат ли ошибок сигналы а0, аг, а2 и а4?», «Не содержат ли ошибок сигналы а0, ах, а3 и я6?» и «Не со- содержат ли ошибок сигналы й0, й2, й3 и яв?»; ясно, что ответы на эти вопросы также однозначно определяют иска- искаженный сигнал. В общем случае кодовых обозначений длины N чис- число К «контрольных сигналов» кода, исправляющего все одиночные ошибки, должно, согласно сказанному выше,
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 403 удовлетворять неравенству log (N + 1)< Я < log (N + 1) + 1, так что 2*-» — 1 < < ЛГ < 2* - 1; число же «информационных сигналов» здесь равно JV — К. Код, использующий кодовые обозначения длипы N, состо- состоящие из М = N — К «информационных сигналов» и К не несущих информации «контрольных сигналов», исполь- используемых для «проверок на четность», мы будем называть (N, М)-кодом; отвечающая ему скорость передачи инфор- информации, очевидно, равна L у, бит/ед. времени. В рассматри- рассматриваемом нами случае К <С log (N + 1) + 1, так что К при большом N будет гораздо меньше, чем N; поэтому скорость передачи при большом N здесь будет очень близка к макси- максимальной скорости L бит/ед. времепи. Отсюда ясно, что рассматриваемые коды при большом N будут обеспечивать очень высокую скорость передачи. Разумеется, очень боль- большое N выбирать все же невыгодно, так как при этом силь- сильно увеличивается вероятность наличия нескольких (больше одной) ошибок в блоке из N сигналов, т. е. по- понижается надежность кода; на практике приходится при- прибегать к компромиссу и выбирать какое-то промежуточное (не слишком большое, но и не слишком малое) значение N. Метод выбора «контрольных сигналов» для общего (N, М)-кода, где М = N — К, исправляющего все оди- одиночные ошибки, также может быть установлен, исходя из аналогии с задачей об отгадывании задуманного числа и намеченного на стр. 145 решения этой последней за- задачи; мы здесь на этом не будем останавливаться, так как ниже будет указан совсем другой метод построения тре- требуемого кода. Заметим еще, что рассмотренный на стр. 399—400 случай G, 4)-кода, исправляющего одиночные ошибки, был рассмотрен в качестве примера еще в статье Шеннона [11; общие (N, М)-коды, исправляющие одиночные ошибки, были рассмотрены в 1950 г. Р. X е м- м и н г о м (см. [1721) и с тех пор обычно называются кодами Хемминга1). J) Впрочем, довольно часто кодами X э м м и н г а на- навивают лишь такие исправляющие одиночные ошибки (./V, Af)- коды, в которых N—2K — 1 (т. е. является наибольшим возможным при данном числе К «контрольных сигналов»). Эти коды обладают
/j(Vl ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Аналогичным образом можно подойти и к проблеме построения кодов, позволяющих исправлять одну или две ошибки. Предположим, например, что N — 5, при- причем мы пренебрегаем возможностью одновременного иска- искажения больше чем двух сигналов из пяти, но требуем, чтобы код позволял исправить все искажения в случаях, когда их число не превосходит двух. Эта ситуация при- приводит нас к задаче об определении п <^ 2 загаданных чи- чисел среди каких-то пяти чисел. В силу сказанного на стр. 145 для определения этих чисел требуется задать не менее log (Cl + Cl + 1) = log A0 + 5 + 1) - log 16 = 4 вопросов; поэтому здесь нам потребуются, по крайней мерс, четыре проверки на четность и, значит, из каждых пяти сигналов а0, alt az, a3 и я4, по крайней мере четыре должны быть «контрольными». Нетрудно видеть, что в данном случае четырех контрольных сигналов действительно до- достаточно для решения задачи, причем эти сигналы alt fl2, a8 и a4 можно, например, подобрать из условия, что- чтобы были четными суммы si — «о + ai7 s2 = flo + «г> s8 = a0 + аа и s4 = a0 + a4. В таком случае четность всех рассматриваемых сумм на приемном конце линии будет означать отсутствие ошибок; нечетность одной суммы st — ошибку в соответствующем сигнале at', нечетность двух сумм Sj и Sj — ошибку в сиг- сигналах яг и af, нечетность трех сумм (скажем, всех кроме st) — ошибку в сигналах а0 и щ; нечетность всех четырех сумм — единственную ошибку в сигнале а0 1). замечательным свойством, о котором еще будет сказано в конце настоящего параграфа (см. стр. 436—438). Любопытно, что такие BК —Л,2К — К — 1)-коды еще в 1942 г. (т. е. до появления и работы Хэмминга, и даже работы Шеннона) в совсем другом контексте (формально не связанном с теорией кодирования, ио фактически ей эквивалентном) были рассмотрены известным английским статистиком Р. А. Фишером (см. Э. Верлекзмп [169], стр. 18 и 22). *) Легко понять, что описанные «проверки на четность» рав- равносильны ответам на вопросы: «будет ли четным число ошибок при приеме сигналов а0 и щ ?»; «герм приеме сигналов а0 и atf»; «герм при-
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 405 В общем случае кодов, исправляющих одну или две ошибки в «блоках» из произвольного числа N сигналов, приведенные на стр. 145 результаты точно так же показывают, что число К «контрольных сигналов» и отвечающих им «проверок на четность» не может быть меньшим, чем Однако на вопрос о том, как именно здесь надо подбирать «контрольные сигналы» (т. е. какие «проверки на чет- четность» наиболее быстро ведут к цели), в этом случае ответить совсем не легко и решение соответствующей задачи об отгадывании чисел еще не содержит общего метода эффективного построения соответствующего «код;», исправляющего ошибки». Апалогичтто этому и п еще более общем случае кодов, позволяющих обнаружить и исправить в цепочке сигналов длины ЛГ л ю б о е чис- число ошибок, не превосходящее задан- заданного и, приведенные на стр. 145 рассуждения позволя- позволяют утверждать, что нужное для этой цели число К «конт- «контрольных сигналов» (и отвечающих им «проверок на четность») не может быть меньшим, чем log (CJv + СлГ1 + ••• +!)• Этот простой результат был указан Р. Хэммингом [172], и поэтому соответствующее неравенство для числа К часто называется неравенством Хэмминга или нижней границей Хэмминга для числа «контрольных сигналов» кода, исправляющего п ошибок. Если п = 1, то неравенство Хэмминга приводит к уже известному нам результату: N ^ 2К— 1; равенство здесь достигается для кодов Хэмминга с N = 2К — 1. Но и в общем случае приведенные на стр. 145—146 рассуждения не указывают, как именно следует выбирать нужные нам «проверки на четность» (т. е. как можно построить код с нужными свойствами); более того, они не позволяют еме сигналов а0 и аз?», и, наконец, «при приеме сигналов а0 и 04?». При этом ответ на первый вопрос выделяет из 16 различных воз- ножных «исходов» передачи, при которых искажаются не более двух элементарных сигналов, группу из 8 допустимых исходов, т. е. содержит наибольшую возможную информацию; также и все последующие вопросы выделяют ровно половину из числа остававшихся до этого возможными «исходов».
Ш ПЕРЕДАЧА «©ОБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1ГД. IV даже утверждать, что для любого Кг удовлетворяющего неравенству Хэмминга, действительно существует «код с проверками на четность», содержащий К контрольных сигналов и позволяющий исправить любое меньшее чем п число ошибок в «блоке» из N сигналов (на самом деле для некоторых К, удовлетворяющих этому неравенству, нужного нам кода построить нельзя). Оценка числа К «контрольных сигналов», заведомо достаточного для возможности обнаружить и исправить любое меньшее п число ошибок в блоках из N сигналов, была из совсем других соображений получена Р. Р. Варшамовым [173], показавшим, что при К ^> log (Cpll + Cji^i2 + ••• + 1) ьсегда можно построить «код с проверками на четность», обладающий нужными нам свойствами. Этот результат Варшамова (уточняющий предшествующие более грубые результаты Э. Гилберта [164]) называется не- неравенством Варшамова — Гилберта или верхней границей Варшамова — Гил- Гилберта для числа К контрольных сигналов кода, исправ- исправляющего п ошибок; его простое доказательство будет приведено ниже (см. стр. 421). Если п > 1, то верхняя граница Варшамова — Гилберта, вообще говоря, оказы- оказывается превосходящей нижнюю границу Хэмминга; таким образом, здесь существуют значения числа «контрольных сигналов» К, для которых соответствующие неравенства не исключают возможности построения кода, исправляю- исправляющего п ошибок, но и не позволяют утверждать, что такой код обязательно существует. Кроме того, все доказатель- доказательства неравенства Варшамова — Гилберта хоть и опирают- опираются на определенный метод построения нужных кодов, но не претендуют на то, чтобы метод этот можно было удобно применить на практике; в результате используе- используемые при доказательстве построения оказываются совер- совершенно неприемлемыми для реального использования (все они опираются на непосредственный перебор колоссаль- колоссального числа возможностей). Даже для простейшего случая п = 2 реальный метод построения «кодов с проверками на четность», позволяю- позволяющих исправлять любые одиночные или двои- н ы е ошибки в блоках из произвольного числа N сигна- сигналов, был найден лишь примерно через 10 лет после появле- появления работы Хэмминга [172], в которой описывались общие
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 407 коды, исправляющие одиночные ошибки — в 1960 г. Р. Боуэом и Д. Чоудхури (см. [174]) и в 1959 г. А. Хоквингемом [175], причем используемые для этой цели средства оказались удивительным образом опирающимися на тонкий и довольно сложный матема- математический аппарат, относящийся к абстрактной алгебре. Дальнейшее обобщение того же метода, позволяющее строить коды, исправляющие любое число о ш и- бо к, меньшее заданного число п, окапа- окапалось уже сравнительно простым и было найдено прак- практически одновременно с нахождением кодов, исправляю- исправляющих не более двух ошибок. Для того чтобы дать представление о методе построения кодов, исправляющих пе только одиночные, но и двой- двойные (или вообще кратные по выше заданной кратности) ошибки по результатам проверок па четность, следует прежде всего строго определить само понятие «кодов с проверками на четность». С этой целью удобно начать с того, что рассмотреть все арифметические действия с числами 0 и 1 как действия, могущие иметь лишь два возможных результата: 0, символизирующий то, что в результате действия получилось четное число, и 1, означающий, что получилось число нечетное. В результате мы придем к следующей таблице, содержащей результаты всевозможных арифметических действий, производимых над числами 0 и 1: 0 + 0 = 0, 0+1 = 1, 1+0 = 1, 1 + 1=0; 0 0 = 0, 0-1 = 0, 1-0 = 0, 1-1 = 1. Легко видеть, что полученные таким образом опера- операции «сложения» и «умножения» (которые мы будем назы- называть сложением и умножением в 2-арифметике) х), удов-, летворяют всем обычным законам арифметики; это обсто- обстоятельство выражают, говоря, что совокупность двух чисел 0 и 1, для которых определены принятые в 2-ариф- 2-арифметике действия сложения и умножения, образует поле из двух элементов (точное определение поля, знание которого, впрочем, не является строго необходимым для *) Собственно говоря, существующее в 2-арифметике «умно- «умножение» можно было бы писать без всяких кавычек, так как оно не отличается от обычного; напротив, «сложение» в 2-арифметике отличается об обычного, ибо здесь 1 +1 = 0.
408 НКГКДЛЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV понимания всего дальнейшего, приведено в Приложении II на стр. 463—464I). Теперь мы можем легко описать общий (N, М)-код с проверками на четность. Он задается при помощи К — N — М равенств вида пМ =ЬМ.0а° + ЬМ.1а1-1 Ь ЪМ, М-1 »М-1» п Ы+1 = ЬМ+1. о"» + W. 1°1 + 1" ЬМ+1, М-1аМ-1> (*) Здесь все коэффициенты Ъм, о, Ьм, ц ¦ ¦ •, Ьм,м-г, • • • ..., fcjv-i. o> frjv-i, i, • • •, fyv-i, м-i — это элементы нашего по- поля из двух элементов (т. е. числа 0 или 1), а все входящие в эти равенства арифметические действия понимаются в смысле 2-арифметики (так что каждое равенство означа- означает лишь, что его левая и правая части, понимаемые в обыч- обычном смысле, имеют одинаковую четность). К проверок на четность, отвечающие нашему (N, М)-коду — это проверки четности суммы контрольного сигнала а* (где i принимает К = N — М значений М, М + 1, ... . .., М + К — 1 = N — 1)и тех из информационных сигна- сигналов а0, %,..., ядг-i, которым отвечают равные единице (а не нулю!) коэффициенты bit 0, btl u . . ., btt м-\ 2)- Для ') То обстоятельство, что совокупность различных элемен- элементарных сигналов можно считать совокупностью всевозможных элементов некоторого конечного поля, является очень важным для всей современной алгебраической теории кодирования. Од- иако в алгебре доказывается, что поле с заданным числом т равлич- ных елементов существует лишь тогда, когда т является степенью простого числа (т. е. равно рк, где р — простое; ср. ниже Приложение II, стр. 471). Поэтому алгебраическая теория кодиро- кодирования может быть непосредственно применена к недвоичным ли- виям связи (которые мы здесь, впрочем, вовсе не будем рассматри- рассматривать) лишь в случае, когда число т различных элементарных сиг- палов, которые можно передавать по линии, имеет вид р1'. Если ate это не так, то приходится дополнительно прибегать к каким- то искусственным приемам (например, вовсе не использовать не- некоторые из допустимых сигналов). в) Напомним, что в 2-арифметике 1 + 1 = 0, и эпачит, —1 = = 1. Поэтому при переносе слагаемого с одной стороны равенства в другую здесь не обязательно изменять его знак, а равенство х = у можно переписать и как х — у = 0, и как х + у = 0 (оба еы- писанные ' соотношения равносильны друг другу —• они означают лишь, что х и у имеют одинаковую четность).
% 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 409 задания кода достаточно указать все коэффициенты bitj, вхо- входящие в выписанные равенства. При этом удобно сперва перенести в этих равенствах все левые части ам, «м+i . . ., ajy-! направо (учитывая правило, указанное в сноске2) на стр. 408), а затем записать все коэффициенты в получив- получившихся равенствах в виде таблицы из К = N — М строк и N столбцов, на пересечении i-й строки и /-го столбца которой стоит коэффициент при aj в ?-м из наших равспств. Легко видеть, что такая таблица будет иметь вид Ьм+гЛ ••• bM+i,M-i ° * ••• ° |_ B) bN-i,i ••• V-i.M-i 0 0... Прямоугольная таблица из т строк и п столбцов в математике называется матрицей из т строк и п столбцов или, короче, (то X п)-м а т р и ц е й; таким образом, общий (iV,M)-KOfl с проверками на чет- четность задается (К X ^-матрицей из нулей и единиц специального вида B). Совокупность всевозможных кодо- кодовых обозначений такого общего (N, М)-кода с проверками на четность может быть легко описана следующим обра- образом: информационные сигналы а0, %, . . ., ам-! здесь могут быть любыми (т. е. каждый из них может независимо от других принимать и значение 0, и значение 1), а конт- контрольные сигналы ам, ям+i. • • •> o/v-i уже однозначно определяются по информационным сигналам с помощью равенств A), понимаемых в смысле 2-арифметики. Общее число различных кодовых обозначений в этом случае, очевидно, равно 2м = 2N~K. Заметим еще, что иногда код с проверками на четность определяют и несколько более широко как совокупность таких Л^-членных цепочек а0, «ц - • •, a^-i символов 0 и 1, что числа а0, аг, . . ., «jv-i удовлетворяют К соотношениям вида bu.o ao + bM.i «i-i bbM.jv-i aiv-i=0' ЬМ+1, 0a0 + bM+I. Ial^ + ЬМ+1, N-1UN-1 = 0' t1') V-x, о «o + bN_lt iai-] h bN_u N_t % _x = 0
410 1ЩРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV (где коэффициенты снова принимают лишь значения 0 и 1, и равенства понимают в смысле 2-арифметики). Отвечаю- Отвечающая наиболее общему коду A') матрица будет уже произ- произвольной (К X ^-матрицей, состоящей из нулей и единиц. Имея в виду это более широкое определение, более част- пме коды, задаваемые равенствами вида A) и матрицей вида B), называют систематическими кода- кодами с проверками на четность. Нетрудно показать, однако, что произвольный код с проверками на четность всегда может быть записан как системати- систематический код, с числом «контрольных сигналов», не пре- превосходящим числа К соотношений A') (см. Приложение II, стр. 482). Поэтому, как правило, в дальнейшем мы будем говорить только о систематических кодах. В литературе по теории кодирования коды с провер- проверками на четность часто называют также линейными кодами или групповыми кодами. Оба последних термина связаны с дополнительными свойства- свойствами рассматриваемых кодов, представляющими интерес сами по себе и весьма важными, если желать перенести теорию таких кодов на более общие недвоичные линии связи (для которых понятие проверки на четность, очевид- очевидно, не имеет прямого смысла). Для того чтобы объяснить, в чем состоят эти свойства, следует ввести в рассмотрение операции сложения и умножения на число z (принадле- (принадлежащее нашему нолю из двух элементов, т. е. равное или нулю, или единице) блоков а = (а0, alt . . ., ajv-i) из N нулей и единиц. Эти операции могут быть естественно определены следующим образом; аг, . . ., ялг—i) + («o> fli» ^.. •» ^лг—г) =» = (я0 + а0, аг + alt .. ., a^-i Заметим попутно, что так как здесь все арифметические действия понимаются в смысле 2-арифметики, то операция умножения блока на число не особенно интересна: для любого блока (а0, al7 . . ., aw-i) 0-(a©, %. • • *> a.N-i) = @, 0, . . ., 0) и 1 '(uq, аи . . ., ajv-i) = (а0, аг, . . ,., ajv-i).
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 411 Нетрудно проверить, что так определенные операции сложения и умножения на число удовлетворяют всем основным законам, которым удовлетворяют обычные арифметические действия; на языке современной алгебры последнее обстоятельство выражают, говоря, что сово- совокупность всевозможных последовательностей из N нулей и единиц а = (а0, а1? . . ., алг-j) образует векторное пространство (точное определение векторного простран- пространства, которое нам в дальнейшем не будет непосредственно нужно, можно найти в Приложении II). С другой стороны, то, что операция сложения последовательностей сама по себе (т. е. вне связи с умножением на числа) обладает большинством обычных свойств арифметических операций сложения и умножения, можно выразить, сказав, что совокупность последовательностей а =(п0, аг, . . ., rtjv-i) представляет собой группу относительно введенной выше операции сложения (определение группы приведено па стр. 458—459 Приложения II; для понимания всего дальней- дальнейшего и оно не необходимо). Код (т. е. определенная сово- совокупность кодовых обозначений, каждое из которых явля- является «блоком»— цепочкой из N цифр 0 и 1) называется линейным, если его кодовые обозначения представ- представляют собой линейное подпространство общего векторного пространства таких «блоков»— это означает, что сумма любых двух кодовых обозначений линейного кода, а также произведение кодового обозначения на число z должны быть кодовыми обозначениями 1). Код называется групповым, если его кодовые обозначения пред- представляют собой подгруппу общей группы последователь- последовательностей (а0, Оц . • ., ajv-i)— в рассматриваемом нами здесь двоичном случае это снова означает лишь то, что сумма любых двух кодовых обозначений и «нулевой блок» (О, 0, . . ., 0) должны быть кодовыми обозначениями (смысл сделанного здесь утверждения в применении к случаю наличия более чем двух различных сигналов будет объяснен на стр. 463). Мы видим, таким образом, *) Ясно, что в рассматриваемом нами случае наличия лишь двух сигналов условие, относящееся к умножению на число z, не очень содержательно: оно означает лишь, что последовательность @,0, ..., 0) из N нулей должна являться кодовым обозначением. Однако в случае большего чем 2 числа элементарных сигналов указанное условие оказывается уже достаточно важным.
412 ПИРИДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV что в случае двоичной линии (т. е. при использовании лишь двух элементарных сигналов) термины линейный код и групповой код означают точно одно и то же *). Рассмотрим теперь произвольный (не обязательно систематический) код с проверками на четность, кодовые обозначения которого совпадают с совокупностью цепочек а = (а0, аи . . ., алг-i) таких, что для них выполняются равенства A'). Прежде всего ясно, что если (а0, аг, ... . . ., un-i)— это блок @, 0, . . ., 0) из одних нулей, то ра- равенства A') обязательно выполняются — поэтому нулевой блок @, 0, . . ., 0) обязательно является кодовым обоз- обозначением нашего кода. Кроме того, если блоки а — = (а„, Оц . . ., ajv-i) и а' — («о, аи . . ., ajv-i) оба яв- являются кодовыми обозначениями (т. е. для них обоих выполняются все К соотношений A')), то, сложив друг с другом первые, вторые и т. д. вплоть до последних из этих соотношений для а и для а', мы убедимся, что а + а' = (а0 + ао, ах + /ц, . . ., ajv_i + a'jv-i) также удовлетворяет всем соотношениям A'), т. е. также является кодовым обозначением. Отсюда вытекает, что любой код с проверками на четность является одновре- одновременно также и линейным (или групповым) кодом. С другой стороны, в алгебре доказывается, что любое линейное под- подпространство векторного пространства цепочек a = = (a0, вц . . ., ajv_i) может быть задано некоторым набором соотношений вида A') (см. Приложение II, стр. 476). Следовательно, класс линейных (или групповых) кодов для двоичной линии связи точно совпадает с классом кодов с проверкой на четность — именно это обстоятель- обстоятельство и дает основание называть коды с проверками на четность также линейными кодами или групповыми ко- кодами. Продолжим рассмотрение общих кодов с проверками на четность; поскольку, как мы уже отмечали выше, *) В более общем случае линий связи с т элементарными сиг- сигналами эти два понятия совпадают друг с другом, если т= р есть простое число, но понятие линейного кода является лишь частным случаем понятия группового кода, если т— jfi, где р — простое, а к > 1 (ср. сноску1) на стр. 408). Наконец, если т не равно целой степени некоторого простого числа, то ни то, ни дру- другое понятия вообще не могут быть определены.
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 413 любой такой код может быть представлеп п виде система- систематического кода (удовлетворяющего равенствам вида A)), то в основном мы будем здесь говорить о кодах этого последнего вида. Такой код задается матрицей B), на- называемой проверочной матрицей кода '); нам будет удобно обозначить ее одной буквой В. Если а —(а0, аи . . ., ajv-i)— это одно из кодовых обозначений нашего кода, то справедливость для пего соотношений A) удобно символически изображать в виде равенства Ва = 0 C) (левая часть здесь служит записью N — М левых частей равенств вида A'), получаемых из A) при перенесении всех левых частей вправо; здесь Ва есть произведение матрицы В на вектор а, понимаемое в смысле теории мат- матриц, о котором сказано в Приложении II па стр. 480). Предположим, что по линии связи передавалось кодовое обозначение а —{а0, at, . . ., ajv_i); в результате искаже- искажений в процессе передачи на приемном конце, вообще говоря, будет принята цепочка а' =(а0, ах, . . ., a;v-i), отличная от той, которая передавалась. Подставим це- цепочку а' в левые части равенств A') (понимаемые, как обычно, в смысле 2-арифметики); получаемые в результате К = N — М чисел 0 и 1 (представляющие собой /Г-член- ную цепочку (sM, sM+u • ¦ •» Sn-i)) мы будем обозна- обозначать символом Ва'. Поскольку а', вообще говоря, уже не является кодовым обозначением, цепочка Ва' = 8 = = (sm, sM+1, . . ., sjv-i) уже не будет нулевой (т. е. на некоторых местах она будет содержать и единицы). На- Наличие этих единиц, очевидно, показывает, что при переда- передаче имели место искажения; на языке, которым мы поль- пользовались раньше, каждая единица означает, что соот- соответствующая «проверка на четность» привела к отрица- отрицательному результату. Пусть е = (еи е2, . . ., eN) — = (a'x —al7 a'2 — a2,..., a^-i — ajv-i) — это Af-членный«блок ошибок», содержащий единицы на местах, соответствую- соответствующих сигналам at, искаженным при передаче, и нули на всех 1) В случае общих (не 'систематических) кодов с проверками на четность проверочной матрицей, очевидно, будет произвольная (К X ЛГ)-матрица из нулей и единиц (некоторые примеры таких ¦ общих проверочных матриц нам еще встретятся в дальнейшем).
414 пиркдлча сообщений но линиям связи [п. iv ос г»л I.Hых местах, так что (напомним, что в 2-арифметике а — Ъ = а + Ъ). Ясно, что II силу C) Be = В (а' — а) = Ва'\ следовательно, Be = 8. D) К сожалению, вообще говоря, существует много цепочек е =(е0, elt . . ., ejv-i), удовлетворяющих N — М равенствам D); поэтому, исходя отсюда, нельзя еще однозначно восстановить «блок ошибок» е (а, значит, и переданную цепочку а = а' — е = а' + е). При деко- декодировании кодов с проверками на четность обычно пред- предполагается, что вероятность искажения при передаче каждого сигнала меньше вероятности правильной передачи и в соответствии с этим принимается следующее прави- правило декодирования: в качестве блока ошибок е принимается та из удовлетворяющих равенствам D) цепочек, которая содержит наименьшее число единиц, 1. е. отвечает наименьшему возможному числу искаже- искажений при передаче (если среди цепочек, удовлетворяющих D), имеется несколько, содержащих одно и то же наимень- наименьшее число единиц, то е выбирается наудачу среди них). Это правило позволяет расшифровать все принимаемые на приемном конце линии Л^-членные цепочки элементарных сигналов, т. е. сопоставить всем им определенные кодовые обозначения а = а' + е (очевидно удовлетворяющие не- необходимому для кодовых обозначений условию C)), ко- которые и считаются переданными по линии связи. Описанный метод декодирования кодов с проверками на четность заметно проще общего метода, описанного на стр. 377 (и опирающегося на рассмотрение групп ЗВ, отвечающих различным кодовым словам). Тем не менее и он не является практически пригодным: при больших значениях К = N — М нахождение той из удовлетворяю- удовлетворяющих D) цепочек, которая содержит наименьшее число единиц, оказывается настолько громоздким, что даже современные вычислительные машины не позволяют вы-
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 415 полнить его за приемлемое время. Поэтому очень важной представляется задача создания достаточно простых (т. е. реально осуществимых) методов нахождения нужного нам блока е; она пока что может считаться решенной лишь для некоторых частных случаев кодов с весьма специальной структурой проверочной матрицы 2? ]). Од- Однако даже и без этого существование указанного выше теоретически достаточно простого общего правила деко- декодирования может быть использовано для изучения свойств произвольных кодов с проверками на четность. Такое изучение было начато Д. Слепя ном [177], а П. Элайсом [159] было показано, что в случае двоич- двоичной симметричной линии связи (а также и в случае двоич- двоичной линии со стиранием, соответствующей изображенной на рис. 21 схеме со значением р = 0) коды с проверками на четность не уступают наилучшим из всех вообще возможных кодов в том смысле, что здесь с помощью кодов с проверками на четность всегда можно осущест- осуществить такую передачу информации с заданной скоростью Сх = Lc1 бит/ед.времени, меньшей пропускной способ- способности С = Lc линии связи, чтобы вероятность ошибки при декодировании была меньгие любого наперед заданного числа е ^> 0, При этом величина вероятности ошибки, доетижимая при фиксированной скорости передачи С1 = = Lcx бит/ед.времени, где сх<Сс, и кодовых обозначе- обозначениях фиксированной длины TV, будет не больше чем aiN» гДе <h — зависящее от сг число, большее единицы; таким образом, с ростом N вероятность ошибки здееь убывает ш> тому же закону, что и в случае наилучших произвольных кодов. Кроме того,. Элавес также доказал, что если выбирать код с проверками на четность «наудачу» (т. е. при выборе каждого элемента biti проверочной матрицы В подбрасывать монету и полагать, что bui = 0 в случае выпадения герба, но bt,f = 1 в случае выпадения цифры), то и тогда для рассматриваемых линий связи вероятность ошибки при декодировании при N -*¦ во %) Один из таких частных случаев, специально изученный Р.Галлагером [176], касается матриц В с большими зна- значениями N и К = N — М, состоящих, грубо говоря, почти из одних нулей (т. е. содержащих лишь очень небольшое число еди- единиц). Некоторые другие частные случаи, описываемые алгебраи- алгебраически, будут указаны ниже.
416 НИРИДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ СГл. IV (и /\ — A _ сг) N, так что 2N~K = 2C*N) будет стремиться к пулю (и притом не медленнее, чем N-я степень некоторого меньшего единицы числа) *). То обстоятельство, что для многих реально встречаю- встречающихся линий связи выбранный «наудачу» код с проверка- проверками на четность при большом N оказывается «почти навер- пос» достаточно хорошим, делает весьма соблазнительным использование таких «случайных кодов с проверками на четность». Для того чтобы задать такой код, надо случай- случайным образом выбрать (и запомнить) МК = N2ct A — с,) элементов Ъ1} (где i — М, М + 1, ..., N — 1, а / = О, 1, . . ., М — 1) соответствующей проверочной матрицы В. Так как число N2ct A — ct) с ростом N возрастает не слишком быстро (несравненно медленнее, чем, напри- например, число 2CiJV), то с подобной задачей современные вычислительные машины вполне могут справиться даже при N, имеющем порядок многих сотен. Однако процедура декодирования (т. е. нахождения по принятой цепочке а' соответствующего «блока ошибок» е), как мы уже отме- отмечали, представляет в случае произвольно выбранного кода с проверками на четность очень большие трудности, и это существенно затрудняет использование «случайных кодов». Тем не менее существуют определенные перспек- перспективные подходы к практическому построению «хороших» методов кодирования и декодирования, включающие в ка- качестве составного элемента выбор «наудачу» некоторых величин, задающих рассматриваемый код (в качестве примера можно указать на так называемое «последова- «последовательное декодирование», с которым можно познакомиться, в частности, по книге [22] или обзорной статье [170]). Поскольку подходы эти все же являются довольно слож- сложными, мы здесь на них не будем задерживаться, а сразу г) В дальнейшем P. JI. Добрушин [178] (рассматривав- (рассматривавший произвольные групповые коды) и Г. Дригас [1791 (рас- (рассматривавший несколько более частные линейные коды) обоб- обобщили результаты Элайеса, относящиеся к двоичной симметричной линии связи, на случай более общих линий сязи с то = р* элемен- элементарными сигналами и таких, что г = то (т. е. принимаются те же сигналы, которые передаются), а соответствующие вероятности РА.(А{) удовлетворяют определенным условиям симметрии. Од- Однако для произвольных линий связи все эти результаты оказыва- оказываются уже неверными (см. [180], [181]).
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 417 перейдем к применению «неслучайных» кодов с провер- проверками на четность для обнаружения и исправления ошибок при передаче. Нам будет удобно обозначить отдельный столбцы про- проверочной матрицы В (представляющие собой «блоки» из К = N — М цифр 0 и 1) через 60, ft,, . . ., ЬМ-и Ьм, ¦ ¦ ., &N-i (в случае систематического код»'последние К столбцов Ьм, • ¦ ч f>N-i будут, очевидно, исо содержать по одной единице и N — М — 1 нулей). Саму мат- матрицу В при этом можно записать в виде одной строки В = (Ьо, blf . . ., Ьм_1, Ьм, . . ., 6ЛГ_1). Обозначим, как и выше, через е =(е0. elt . . ., е^_,) «блок ошибок», содержащий единицы па местах тех элементарных спгпалоп передаваемого кодового обозна- обозначения, которые исказились при передаче. В таком случаи основное равенство D) можно будет ncpeniiciiTi. и пидо Фо + e1bl+ • • • + ем_fiM_t + eMbM +... + eN fiH_l=a, E) где сложение понимается, как почленное сложение (в смыс- смысле 2-арифметики) соответствующих «блоков» длины К. Таким образом, «блок» 8, который получается при под- подстановке в левую часть равенства A') вместо переданных сигналов а0, at,.. ., алг-i принятых сигналов а0, а1? . . ., un-i и на основании которого мы должны судить о имеющихся ошибках, равен сумме столбцов проверочной матрицы В, отвечающих сигналам, искаженным при передаче (т. е. отвечающих значениям ei = 1; остальным сигналам отве- отвечают значения е< = 0, и поэтому соответствующие слагае- слагаемые efit обращаются в 0). Отсюда, в частности, видно, что одиночным ошибкам (т.е. блокам е, содержащим одну единицу и N — 1 нулей) соответствуют блоки s, совпадающие со столбцами 6{ проверочной матрицы В; отсутствию же ошибок отвечает блок 8 = 0 из одних ну- нулей. Поэтому для того, чтобы код с проверками на чет- четность позволил различить и случай отсутствия ошибок, и все случаи одиночных ошибок при передаче, надо, чтобы все столбцы соответствующей проверочной матрицы В были различными и не один из них не был нулевым. 14 А. М. Яглом, И. М. Яглом
/J.S Ш'Ч'КДЛЧЛ СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV ОГмцп1 число возможных различных К-зпачаых блоков Ь A>м, Ьм+1, • . •, bN-t) (т. е. различных последова- ильиостей из К нулей и единиц) равно числу целых чисел, записываемых в двоичной системе счисления при помощи не более чем К цифр, т. е. равно 2К (подобно тому, как число различных не более чем /sT-значных чисел II десятичной системе счисления равно 10Jf). Так как гулевой блок @, 0, . . ., 0) при этом исключается из числа возможных столбцов матрицы jB, to число различпых столбцов оказывается равным 2К — 1. Таким образом мы снова приходим к выводу, что код с проверками на четность, исправляющий все одиночные ошибки и содержа- содержащий К «.контрольных сигналов»., должен состоять из кодовых обозначений, длина которых не превосходит 2К —1. Для задания такого кода надо лишь указать соответствую- соответствующую проверочную матрицу J3, все столбцы которой должны быть ненулевыми и различными. Получаемые коды, ечтественно, совпадают с кодами Хэмминга, о которых говорилось на стр. 403. В случае N — 2К — 1 удобно иыписать соответствующую проверочную матрицу JB, выб- выбрав в качестве ее столбцов двоичную запись (т. е. запись п дноичной системе счисления) всех целых чисел от 1 и до 2К — 1, перечисленных в возрастающем порядке; получаемый при этом код, разумеется, фактически будет систематическим (так как он будет содержать все возмож- возможные столбцы из К — 1 нулей и одной единицы), но только «контрольными сигналами» здесь будут не последние К сигналов, а какие-то сигналы с другими номерами. Так, например, в случае К = 4, N = 24 — 1 = 15 соответст- соответствующую D X 15)-матрицу В удобно записать в виде 00000001111111 000111100001111 ¦В= ' 011001100110011 10101010101010 1 (заметим, что, пожелав здесь выписать все кодовые обозна- обозначения подобно тому, как это было сделано на стр. 403 в при- применении к случаю К — 3, N = 7, мы были бы вынуждены написать 211 = 2048 пятнадцатизначных чисел!). При такой матрице JB роль «контрольных сигналов» будут играть первый, второй, четвертый и восьмой сигналы (так
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 419 как именно им отвечают столбцьГ из трех нулей и одной единицы); остальные же 11 сигналов будут информацион- информационными. Блок s будет нулевым в случае отсутствия ошибок при передаче, а в случае одной ошибки mr будет равен со- соответствующему столбцу -В. т. е. будот непосредственно задавать двоичную запись номера того сигнала, который исказился при передаче. Отсюда видно, что процедура декодирования (т. е. расшифровки принятого сигнала — исправления в нем ошибок) осуществляется в этом случае крайне просто. Коды, исправляющие одиночные ошибки в блоках ни N <Z 2К — 1 сигналов, легко получить, вычеркнув из соответствующей проверочной матрицы В некоторое чис- число «лишних» столбцов (которые можно выбрать произволь- произвольно из числа тех, которые содержат по меньше чем 2 едини- единицы). Заметим еще, что свойства кода Хэмминга можно еще улучшить, добавив к каждому гспдопому обозначению дополнительный (К + 1)-й «контрольный сигнал» «,\-, позволяющий уже обнаружит!, (но не ненрапить) также и все двойные ошибки. Для этого надо только выбрать этот добавочный сигнал aN так, чтобы он давал четное число в сумме со всеми остальными сигналами, т. е. удовлетворял соотношению Яо + сц +••• + ajv-i + ajv = 0 (нетрудно понять, что это соответствует добавлению к мат- матрице JB сперва добавочного последнего столбца из одних нулей, а затем еще и добавочной последней строки из N + 1 единиц; в результате и число строк, и число столб- столбцов JB возрастает на единицу). В таком случае отсутствию ошибок при передаче снова будет отвечать блок s из одних нулей; в случае одной ошибки первые К цифр блока s будут представлять собой двоичную запись некоторого целого числа, заключающегося в пределах от 0 до 2К —1, а последняя цифра sk+i будет равна единице (так как сумма всех принятых сигналов здесь обязательно будет нечетной); наконец, наличие хоть одной единицы среди первых К элементов блока s и обращение в нуль его последнего элемента будут свидетельствовать о наличии двойной ошибки. Усовершенствованный таким образом код Хэм- минга был также предложен в работе [172]; его иногда называют расширенным кодом Хэмминга. 14*
/,2\) ИК1Ч1ДЛЧЛ СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Перейдем теперь к*кодам, исправляющим не только нее одиночны е, но и все двойные ошибки в бло- icix из N сигналов. Ясно, что при отсутствии ошибок при передаче блоке == Ва' из К элементов будет состоять на одних нулей; при наличии одной ошибки он будет ранги соответствующему столбцу проверочной матрицы В; 1ШКШ1СЦ, в случае двух ошибок он будет равен сумме днух соответствующих столбцов В (ср. равенство E) па стр. 417). Для того чтобы все эти случаи можно было различить на приемном конце линии связи, все столбцы В должны быть ненулевыми, отличными друг от друга м такими, что сумма любых двух из них отличается и от ис.ох столбцов, и от всех прочих их попарных сумм. Мат- Матрицу, удовлетворяющую всем этим условиям, можно, следуя Г. С а к с у [182], попытаться построить с помощью простого перебора. С этой целью мы можем первый столбец Ьо матрицы В выбрать произвольным образом (но так, чтобы он не состоял из одних нулей); затем принять за ft, произвольный ненулевой блок из К цифр 0 и 1, отлич- отличный от &0; затем за &2 принять ненулевой блок, отличный от bn, &j и Ьо + Ь^\ затем за Ь3 принять какой-то ненулевой блок, отличный от Ьо, bt и &а, а также от парных сумм ''« + &п &о + Ь2 и &х + &2 и от тройной суммы &0 -+- &х+ &2 (ибо в 2-арифметике если 60 + &t + &2 = &3, то Ьо + bt = — Ь2 + Ь3, т. е. ошибки в первых двух сигналах кодового обозначения будут неотличимы от ошибок в третьем и четвертом сигналах) и т. д. Здесь после того, как мы выберем первые i столбцов &0, Ьг, . . ., &j_lt при выборе (i + 1)-го столбца bt необходимо потребовать, чтобы этот столбец а) не был нулевым столбцом; б) не равнялся ни одному из i = C\ уже выбранных столбцов &0, &17 . . ., &!_!; в) не равнялся ни одной из С\ попарных сумм уже выбранных столбцов; г) отличался от всех С\ сумм троек уже выбранных столбцов. Разумеется, перечисленные 1 + С} + С? + С? условий а)—г), запрещающих те или иные выборы столбца bt, не обязательно будут все различными между собой (так, например, при i ^> 5 вполне может оказаться, что Ьо +
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 421 + &! + &2 = &8 + &4 + Ьъ ИЛИ ЧТО 6, + &2 + &3 = #4 + &s)i однако так как число всех различных столбцов (т. е. блоков из К цифр 0 и 1) равно 2К, то если только 1 + С\ -f С| -f С? < 2К, то условиям а)—г) напорное можно удовлетворить даже в наименее благоприятном случае, когда все фигурирующие в этих условиях столбцы и их комбинации различны. Наиболее ограничительным выписанное соотношение будет в применении к последнему столбцу &N-1 (так как при возрастании номора I число исключенных комбинаций, с которыми не может совпасть новый столбец, также возрастает). Поэтому если только 2* > 1 + Ck* + CiU + C?r-i, т. е. К > log A + СЛ + CiU + Ck-i), mo наверное можно подобрать проверочную {К X Л0- матрицу В, задающую код с проверками на четность, исправляющий все одиночные и все двойные ошибки в блоках из N элементарных сигналов. Полученное здесь неравенство — это неравенст- неравенство Варшамов а—Г и л б е р т а, которое мы без доказательства уже приводили на стр. 406 (для случая кодов, исправляющих произвольное число п ошибок). Ясно, что в общем случае произвольного п неравенство это доказывается точно так же, как и в случае п = 2: здесь только надо требовать, чтобы новый столбец bi каждый раз не был нулевым, не равнялся ни одному из старых столбцов, а также ни одной из сумм двух, трех и т. д. вплоть до 2п — 1 старых столбцов. Отсюда и следует, что К > log A + CV-x + C1U + . • • + СК). Будем теперь снова считать, что п = 2. Ясно, что при малых значениях К и N можно надеяться непосред- непосредственно проверить все условия, налагаемые на столбцы мат- матрицы J5, — и таким образом подобрать код, исправляющий все одиночные и двойные ошибки. Именно так мы, соб- собственно говоря, и поступили на стр. 404, где с помощью подбора для случая К = 4 и N = 5 был построен код с проверками на четность, исправляющий все одиноч- одиночные и все двойные ошибки; отвечающая этому коду
422 НШ'КДЛЧЛ СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ №л. IV ji|>oiiejto'jiuui матрица очевидно имеет следующий вид' 1 1 00 (Г 10 10 0 10010 00 0 Пометим, что при N = 5 и п = 2 неравенство Хэмминга указывает, что обязательно К ^ 4; из неравенства же Варшамова — Гилберта здесь вытекает, что при К !> 4 наверное можно построить код, исправляющий все одиноч- одиночные и все двойные ошибки.] Немного более сложна, но лег еще вполпе доступна, проверка того, что при К = 7 и N = 10 все столбцы и попарные суммы столбцов G X10)- матрицы 1000000101 0100000001 0010000101 0001000011 0000100110 0000010010 ,0000001110 различны между собой, так что соответствующий код (кодовые обозначения которого все содержат по 3 инфор- информационных сигнала и по 7 контрольных сигналов) позво- позволяет исправить все одиночные и все двойные ошибки в блоках из 10 сигналов. [При N — 10 из неравенства Хэмминга вытекает, что обязательно К ^ 6, а из неравенства Варшамова — Гилберта следует, что при К ^ 8 наверное можно построить интересующий нас код.] Однако при дальнейшем возрастании значений К и N громоздкость описанной процедуры подбора матрицы В и проверки справедливости для столбцов этой матрицы нужных условий быстро возрастают; уже в случае (8 х 15)- матрицы В, выписанной ниже на стр. 430, задача выполне- выполнения такой проверки вряд ли кому-нибудь покажется особенно привлекательной.
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 423 Укажем теперь вкратце некоторые основные принципы алгебраической теории кодирования, сыгравшей основную роль в нахождении общих методов построения практически используемых кодов, позволяю- позволяющих обнаружить и исправить в блоке из N сигналол лю- любое число ошибок, не превосходящее заданного числа п. До сих пор мы рассматривали код как совокупность неко- некоторых кодовых обозначений — блоков а — (л,„ <71?.. ., a^-i) из N цифр 0 и 1 (т. е. из N элементов простейшего алге- алгебраического поля из двух элементов). Ясно, что с тем же правом мы можем сопоставить каждому кодовому обозна- обозначению многочлен степени не выше N — 1з а (х) = а0 + atx -f- а2х2 + ... + aN-1z?f-it относительно неизвестной х с коэффициентами из пашого поля и рассматривать код как некоторую совокупность «кодовых многочленов» а (х). Всевозможным кодам с про- проверками на четность в таком случае будут соответствовать всевозможные совокупности многочленов а (х) такие, что сумма любых двух многочленов, принадлежащих нашей совокупности, а также и «нулевой многочлен» 0 = 0 + 0 •# + ...+ 0-xN~x обязательно принадлежат к той же совокупности. Существует обширный класс очень простых совокупностей многочленов, очевидным образом удовлетворяющих указанным двум условиям — это сово- совокупности всех многочленов а(х) степени не выше некото- некоторого N — 1, делящихся без остатка на какой-либо фикси- фиксированный многочлен g (х) = g0 + gtx +... + gsflP сте- степени К <С N — 1, т. е. представимых в виде а(х) = с(х) g(x), F) где с(х)— произвольный многочлен, степень которого не превосходит N — К — 1. Каждой такой совокупности отвечает вполне определенный код с проверками на чет- четность, который мы будем называть кодом, порож- порожденным многочленом g(x); сам же многочлен g (x) в этом случае называется порождающим многочленом нашего кода. В случае кодов, порож- порожденных многочленами, задание порождающего многочлена g (x) представляет собой самый компактный способ задания соответствующего кода, однозначно определяющий все его характеристики (в частности, набор всех кодовых
/,1>/| ПК1Ч4ДЛЧЛ СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV пПо:н1пч<м111Й а и соответствующую проверочную мат- матрицу Л). Если мы запишем произвольный кодовый мно- i o'uicii а (х) в виде ./ (х) — по + ахх + • • • + ак_1хк~1 + акхк + ю ясно, что последние М — N — К коэффициентов чи, «к+1, • . -, fliv-i здесь можно будеть выбрать произ- произвольным образом, а первые К коэффициентов а0, at,... . . ., ак-i после этого уже будут однозначно определяться условием делимости а(х) на g(x) (а именно, поскольку и 2-арифметике г(х) — — г(х), то многочлен u0 + atx + ... ... -|- ciK-iX1*-1 должен равняться остатку от деления <>кхк + я.к+1#ка + ... + ajv-ix^ на g (x)). Отсюда вид- видно, что последние N — К сигналов ал, ак-ц, ¦ • ., Ядг-i в данном случае будут играть роль информационных сиг- палов, а первые К сигналов а0, аи . . ., ак-\ будут контрольными; общее число кодовых слов здесь равно 2N~K. Принятому на приемном конце линии связи блоку а' =(а'о, а[, . . ., a^-i) будет отвечать многочлен a' (a;) = a;+a^-f h a^^-^, отличающийся от «переданного от многочлена» а(х) на «многочлен ошибок» е(х) = е0 + etx + ... + en-ix"-1, где, как и раньше, et = (ц — щ (т. е. ei = 1, если г-й сигнал исказился в процессе передачи, и et = 0, если он принят правильно). Из-за наличия добавочного «мно- «многочлена ошибок» е(х) многочлен а'(х), вообще говоря, уже не будет делиться без остатка на g(x). Непулевой остаток г\х) от деления а'(х) на g(x) (равный, очевидно, остатку при делении е(х) на g(x)) как раз и свидетель- свидетельствует о наличии искажений при передаче; этот остаток содержит всю информацию об ошибках, доступную на приемном конце (в этом отношении он вполне аналогичен блоку в = Ва', с которым мы имели дело при использова- использовании матричной записи произвольных кодов с проверками на четность). В алгебраической теории кодирования основное внима- внимание уделяется не общим кодам с проверками на четность и даже не произвольным кодам, порожденным многочлена-
S 5} КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 425 ми, а специальным классам таких кодов, обладающим особенно простой алгебраической структурой, позволяю- позволяющей заметно облегчить общую процедуру кодирования и декодирования. Важнейшим из таких специальных классов является класс циклических кодов. Код с проверками на четность называется цикличес- циклическим, если для каждого его кодового обозначения а=(ао,аи аг, . . ., aN.t) блок (ajv_i, а0, a,, . . .„ aN-2), полу- получаемый из а с помощью «циклического сдвига», также является кодовым обозначением. Ясно, что в таком слу- случае блок (ajv_i, алм+i, . - ., ajv-i-i), полученный из а с помощью r-кратного применения «циклического сдвига», также будет кодовым обозначением при любом i = = 1, 2, . . ., N - 1. Важным свойством циклических кодов является то, что все они порождены многочленами, причем класс отве- отвечающих им порождающих многочленов g (х) можот быть очень просто охарактеризован. В самом деле, допустим сперва, что мы имеем дело с кодом, порожденным многоч- многочленом g (х) (т. е. с совокупностью кодовых многочленов а (х) вида F)). Пусть а, (ж) = ajv-i + пдх + а,ж2 + ... — многочлен, отвечающий блоку (ajv-i, «о» аи • • •» ojv-s)- Так как ei(x) = x(ao-\-aiz + --- + a^x1*-*)—a^(x" - 1) - = a:a(a;)-aJV_1(^-l), G) где, как обычно, а (х) = а0 + ацх + ... -f Лдг^ж^-1, то ясно, что в общем случае, когда ajv_i =/= 0, многочлен ai (х) будет одновременно с а (ж) кодовым многочленом (т. е. будет делиться без остатка на g (x)) тогда и только тогда, когда g (х) является делителем xN — 1 г)). Таким образом, код, порожденный многочленом g(x), будет цикли- циклическим в том (и только том) случае, когда g (x)— это делитель многочлена xN — 1. *) Такие многочлены g(x) в алгебре называются много- многочленами деления окружности; для случая, когда коэффициенты g (x) — это обычные вещественные числа, они изу- изучались еще знаменитым немецким математиком К. Ф. Гауссом в начале XIX столетия.
420 ПКРИДЛЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Рассмотрим теперь совершенно произвольный цикли- циклический код, и пусть о (х)— один из отвечающих ему кодовых многочленов. В таком случае из равенства G) сразу следует, что наряду с а(х) в число кодовых многочле- многочленов нашего кода обязательно входит и остаток от деления многочлена ха (ж) на х*1 — 1. Но тогда ясно, что в число кодовых многочленов будут входить и остатки от деления мл xN — 1 многочленов х-х а(х) = х2 а(х), х-х& а(х) = = з?а(х) и т. д., т. е. остатки от деления на xN — 1 всевозмож- всевозможных произведений хп а(х), где п — какое угодно неотри- неотрицательное целое число. Так как к тому же сумма любых кодовых многочленов также всегда является кодовым многочленом, то из сказанного вытекает, что наряду с а{.т) кодовыми многочленами обязательно будут и все остатки от деления HaxN — 1 многочленов вида Ъ (х)а(х), где Ъ (х) = b0 -f- Ъ^х -f- ... + Ъпхп — произвольный много- многочлен с коэффициентами из нашего поля с двумя элементами (т. е. равными либо нулю, либо единице). Совокупность всевозможных многочленов степени не выше N — 1 можно рассматривать как совокупность всевозможных остатков от деления многочленов любых степеней на xN — 1. В таком случае выведенное выше спойство совокупности кодовых многочленов а(х) произ- произвольного циклического кода на языке общей алгебры можно будет сформулировать следующим образом: такая совокупность кодовых многочленов предствавляет собой идеал в множестве всех остатков от деления на xN — 1 (см. ниже Приложение II, где на стр. 468 дано общее определение идеала, а также рассмотрен и нужный нам частный случай этого понятия). В дальнейшем общее определение идеала нами нигде не будет использоваться; единственное, что нам понадобится — это следующая простая алгебраическая теорема (которую читатель, если угодно, может принять на веру, но может и ознакомиться с ее доказательством по Приложению II): любой идеал в множестве остатков от деления произвольных многочле- многочленов на какой-то фиксированный многочлен f (x) степени N совпадает с совокупностью многочленов вида c(x)g(x), где g (х) — некоторый делитель многочлена f (x) и степень c(x)g(x) не превосходит N — 1. Эта алгебраическая теоре- теорема как раз и показывает, что любой циклический код порождается каким-то делителем g (х) многочлена xN —1.
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 427 Пусть теперь g (х) — делитель xN — 1, так что х" - 1 = g(x) Цх); в таком случае легко показать, что кодовые многочлены циклического кода с порождающим многочленом g(x)— это такие многочлены а(х) степени не выше N — 1, для ко- которых а(х) h(x) делится без остатка на xN — 1. 1J самом деле, если а(х) = с(х) g(x), то очевидно, что a(x)h(x) = c(x)g(x) h(x) = c(x)(xN — 1) Делится без остатка на xN — 1; обратно, если a(x)h(x) = = b(x)(xN — 1) делится без остатка на xN — 1, то ясно, что а(х) = b(x) g(x). Указанное свойство многочленов а (х) очень облегчает проверку наличия ошибок при передаче: если а'(х) = а(х) + е(х), где е(х) ф 0, то a'(x)h(x), вообще говоря, не будет делиться на xN— 1, причем, как легко видеть, вся информация об имслших место ошибках (т. е. о многочлене е\х)), имеющаяся на приемном конце линии связи, будет содержаться и остатке от деления a'(x)h(x) на xN — 1 (заметим, что деление произвольного многочлена d(x) на xN — 1 осуществить крайне легко; для этого надо только заменить в d(x) все степени хм, где М > N, степенями хт, где т — это остаток от деления М на N). Поэтому при декодировании циклических кодов очень большую роль играет многочлен h(x), который принято называть проверочным многочленом циклического кода —по- —полученный на приемном конце линии связи многочлен а'(х) следует прежде всего умножить на проверочный многочлен h (x), и тогда остаток от деления этого произве- произведения наж" — 1 будет однозначно определять расшифров- расшифровку принятого сообщения (т. е. выбор «наиболее вероятно- вероятного многочлена ошибок» е{х)). Циклические коды представляют собой специальный класс кодов с проверками на четность, общие свойства которого пока еще мало изучены. Так, например, если ограничиться использованием лишь циклических кодов, то неизвестно, можно ли или нет добиться передачи инфор- информации по простейшей двоичной симметричной линии связи с заданной скоростью, меньшей С = Lc бит/ед. вре- времени, и сколь угодно малой вероятностью ошибки; более того, здесь даже неизвестно, можно ли или нет осуществить
/,28 ПК1Ч5ДЛЧЛ СООБЩЕНИЕ ПО ЛИНИЯМ СВЯЗИ [Гл. IV по|н>д»чу хоть с какой-нибудь отличной от нуля скоростью и сколь угодно малой вероятностью ошибки х). Однако их Гни им преимуществом является то, что здесь могут быть риавиты сравнительно не очень сложные алгебраические мотоды декодирования, во многих случаях позволяющие 1'оа.иыю осуществить это декодирование за сравнительно небольшое время (см., например, [22], [168], 1169], а также довольно сложную книгу [183], специально посвященную :>тому вопросу). Особенно плодотворным оказалось применение цикли- циклических кодов для исправления в блоках длины N всех ошибок, число которых не превосходит з п д а и и о г о п. Заметим, что одной ошибке при передаче отвечает «многочлен ошибок» е (х), состоящий из одного слагаемого х1. Поэтому для того, чтобы с помощью кода, порожденного многочленом g (х), можно было исправить псе одиночные ошибки, надо только, чтобы все одночлены 1, х, х2, . . ., ху~* давали при делении на g (x) разные остатки, т. е. чтобы ни один двучлен ж» _ xi = xi (xj-i — 1), где i < N, j<N и / > i, не долился на g (x). В частном случае циклических кодов (т. о. многочлепов g(x), являющихся делителями xN — 1) многочлены g (x) с нужными свойствами всегда существу- существуют и хорошо изучены для всех N = 2К — 1; поэтому все коды Хэмминга с N = 2К — 1 очень легко могут быть осуществлены в виде циклических кодов. В частности, легко проверить, что в случае К = 3, N = 7 (рассмотрен- (рассмотренном на стр. 399—400) порождающий многочлен g (x) и проверочный многочлен h (x) могут быть выбраны в виде g(x) =а? + х + 1, h(x) = x* + a?-\-x-\-\ (непосредственное умножение показывает, что g(x)h(x) = —х7 — 1, как и должно быть); в случае же К = 4, N = 15 *) Напомним, что как отмечалось на стр. 348—349, до появления работы Шеннона [1] невозможность такой передачи казалась правдоподобной даже в случае использования произвольных кодо«. Сейчас мы знаем, что для произвольных кодов дело обстоит совсем иначе, но в применении к одним лишь циклическим кодам такая возможность пока не исключена.
§ 5} КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 429 (рассмотренном на стр. 418) можно положить g (х) = я4 + х +1, h (х) = я11 -f ж8 + х> + х6 + х3 + + Ж2 + X + 1 (при этом g(x)h(x) = ж15 — 1). Аналогично этому для кодов, позволяющих исправить одиночные и двойные ошибки, все одночлены хг и двучлены х1 -f- ж', где i <C N vt j <Z N, должны давать при делении на g (x) различные остатки; в случае кодов, исправляющих также и тройные ошибки, сюда приходится добавить также и все трехчлены х1 + х1 + хн и т. д. Ясно, что возникающие здесь задачи являются сугубо алгебраическими по своему характеру; однако их решение оказывается довольно сложным. Общий метод построения циклических кодов, позволя- позволяющих исправить любое, меньшее п, число ошибок в бло- блоках длины N = 2К — 1 и обладающих проверочными матрицами с пК строками и N столбцами (т. с. содержа- содержащих не более пК контрольных сигналов и блоке мм N = — 2К — 1 сигналов *)), был указан лишь п 1959—19<Ю гг. независимо А. Хоквингемом [175] и Р. Боузом и Д. Чоудхури [174] 2). В основе конструкции Хок- вингема — Боуза — Чоудхури лежит непосредственное описание порождающих коды многочленов g (x) с помощью задания всех их к о р н е й, т. е. всех решений уравнения g (х) = 0. Основное затруднение здесь состоит в том, что подобно тому, как корни обычного многочлена с вещест- вещественными коэффициентами не обязаны быть вещественными числами, а могут принадлежать более широкому (т. е. содержащему поле действительных чисел в качестве своей части) полю комплексных чисел, так и корни нашего многочлена g(x) с коэффициентами из поля с двумя г) Так как соответствующий код не является систематическим, то из того, что проверочная матрица содержит пК строк, можно лишь заключить, что истинное число контрольных сигналов здесь не превосходит пК (см. выше, стр. 410). 2) Вообще говоря, кроме простейших (так называемых прими- примитивных) кодов Боуза— Чоудхури — Хоквингема, исправляющих заданное число ошибок в блоках из N — 2К — 1 сигналов, су- существуют и «непримитивпые» коды того же типа, для которых дли- длина блока N является нечетным числом, не представимым в виде 2К — 1. Об этих последних кодах мы, однако, совсем не будем го- говорить (за исключением, впрочем, сноски на стр. 438).
НШ'КДАЧЛ СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV 0 и 1 могут сами принадлежать более широкому полю с 2т различными элементами (где ш — некоторое целое число). Если w — элемент этого поного поля, являющийся одним из корней g (х), то «ось набор корней, полностью задающий g (х), будет «¦отгадать с какой-то конечной цепочкой последова- последовательных степеней корня w. Более подробное разъяснение этого утверждения требует привлечения сложного алгеб- алгебраического аппарата, явно выходящего за границы нашей книги; поэтому мы ограничимся здесь лишь ссылками иа книги [22], [1681, [169], [184] и на более популярную, чем они (iro также более трудную, чем наше книга), обзорную питью 11E7]. Для того, однако, чтобы все же дать хоть некоторое представление о характере получающихся при этом результатов, мы приведем в заключение два конкрет- конкретных примера кодов Боуза — Чоудхури — Хоквингема, исправляющих кратные ошибки. Оба эти примера относятся к случаю, когда К = 4, N — 24— 1 = 15. Соответствующий этим значениям К и N код Хэмминга, исправляющий все одиночные ошибки, задается проверочной матрицей, выписанной выше на стр. 418. В случае кода, исправляющего оди- одиночные и парные ошибки, проверочная матрица будет уже (8 X 15)-матрицей следующего вида: \ 11110101100100 01 011110101100100 001111010110010 111010110010001 111101111011110 101001010010100 110001100011000 100111000110001 Эта матрица довольно громоздка; поэтому гораздо удобнее задать соответствующий код при помощи его порождающего многочлена g {х) = (я* + х + 1) (** + ж8 + ж2 + х + 1) = »а i_ «.? _l «в _ = Xй + Хч + Xе + Ж* + 1,
S Б] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 431 или его проверочного многочлена h (х) = (х+ l)(xz + х + 1)(х* + ж3 + 1) = = х1 + а* + х* + 1 (нетруднопроверить, что действительно g (x) h (х) —хлг'—1). Заметим, что рассматриваемый код состоит из кодовых обозначений длины 15, включающих 7 информационных и 8 контрольных сигналов. В силу неравенства Химмипга мы можем утверждать, что при N = 15 код, испрпнляю- щий все одиночные и все двойные ошибки, не может со- содержать меньше чем 7 контрольных сигналов; неравенство Варшамова — Гилберта здесь показывает, что такой код наверное можно построить, если К = 9. Если теперь пожелать построить код, исправляющий в блоках из 15 сигналов все одиночные, все д в о й- н ы е и все тройные ошибки, то проверочная матрица такого кода Боуза — Чоудхури — Хоивиигомп будет иметь 2>К = 12 строк (и, как и раньше, 15 столбцов). Порождающий многочлен интересующего нас кода имеет сравнительно простой вид: g(x) = (х* + х + 1)(а* + х + 1)(а* + х3 + х* + х + 1) = = х10 + Xs + а6 + х4 + х2 + а + 1, а его проверочный многочлен равен h (х) = (х (при этом опять g(x) h(x) = x15 — 1). Проверочной матри- матрицей нашего кода является следующая A2 X 15)-матрицаз [1 00010011010111 000100110101111 001001101011110 010011010111100 100011000110001 011110111101111 001010010100101 000110001100011 101101101101101 000000000000000 011011011011011 10 11011011011011,
НШ'ИДЛЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV , что хотя эта матрица имеет 12 строк, число «контрольных сигналов», отвечающих соответствующему |{ОДУ. равно 10 — это сразу видно из того, что порождаю- порождающий многочлен g (x) здесь является многочленом десятой «•¦топе пи *). Таким образом, при использовании рассматри- наемого кода каждая пятерка «информационных сигна- лии» дополняется десятью «контрольными сигналами»— только после этого в принятой на приемном конце линии цепочке из 15 сигналов можно обнаружить и исправить нее без исключения одиночные, двойные и тройные ошиб- ошибки. Нетрудно также видеть, что исправление всех таких ошибок в блоке из 15 сигналов никак не может быть достигнуто, если использовать меньше 10 «контрольных сигналов»— это обстоятельство сразу вытекает из нера- непства Хэмминга (неравенство же Варшамова — Гил- Гилберта здесь показывает, что нужный нам код наверное может быть построен, если использовать 12 или больше «контрольных сигналов»). Данные о числе «информационных» и «контрольных» сигналов для большого числа кодов Боуза — Чоудхури — Хоквингема могут быть найдены в гл. 9 книги [168] (см. также гл. 7 и 12 книги [169]). Согласно приведенным п |1(>8] результатам вес коды этого типа с ff^ 15, а также и коды с произвольным N и п = 2, являются о п т и- м ;i л ь и ы м и в том смысле, что не существует кодов с той же длиной N «блоков» и тем же общим числом кодо- кодовых обозначений S (т. е. той же скоростью передачи информации v = jj log S бит/ед. времени), приводя- приводящих к меньшей вероятности ошибки при их использова- использовании для передачи по двоичной симметричной линии связи (ср. ниже 440). При N = 1023 (=210—1) число «контрольных сигналов» при различных п оказывается довольно близким к соответствующей границе Варшамо- Варшамова — Гилберта. Однако при еще больших N это число должно стать более близким не к верхней границе Вар- 1) Тот же вывод в рассматриваемом случае можно сделать и исходя из самого вида проверочной матрицы •— так как ее тре- третья снизу строка состоит из одних нулей, а две последние строки одинаковы, то ясно, что код не изменится, если из последних трех строк мы сохраним лишь одну (последнуюю или предпоследнюю) строку.
§ Б] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 433 шамова — Гилберта, а к нижней границе Хэмминга. В самом деле, воспользовавшись оценкой сверху биноми- биномиальных коэффициентов Cjv, доставляемой неравенст- неравенством (**) на стр. 221, и аналогичной же оценкой этих коэффициентов снизу (или же просто заменив в точкой формуле Cw = —глп \Г факториалы ./V! и (ЛГ — и)! их приближенными значениями при большом N, имеющимися во многих курсах высшей математики), нетрудно поки- покивать, что при очень большом N общее неравенство Хэммин- Хэмминга принимает вид 2К > ANn, т. е. К > п log N + Alt где К — число контрольных сигналов, п — максимальное число исправляемых ошибок, а А и At = log A — какие- то числа (А — положительное, a At — возможно и от- отрицательное), зависящие от п, но не зависящие от ЛГ. Аналогичным образом неравенство Варшамовн — Гилберта в случае большого N позволяет заключить, что если 2К > BN2n, т. е. К > 2га log N + Ви где В и Bi = log В — другие зависящие от п (но не от N) числа, то наверное существует код, позволяющий испра- исправить при передаче любое, не превосходящее и, число оши- ошибок в блоке из N сигналов. В случае кодов Боуза — Чоудхури — Хоквингема с N = 2К» — 1 (так что Kt л; zzz log N) число К контрольных сигналов, как указывалось выше, не превосходит nKi ss n log N; поэтому при боль- больших значениях N число контрольных сигналов в этих кодах всегда близко к соответствующей нижней границе Хэмминга. В этом смысле указанные коды являются близкими к наилучшим возможным в отношении их исполь- использования для исправления заданного фиксированного чис- числа ошибок в очень длинных блоках. Разумеется, выбор очень длинных кодовых обозначе- обозначений (т. е. очень большого N) невыгоден, если коды исправ- исправляют лишь фиксированное число п ошибок, так как с рос- ростом N резко возрастает вероятность появления большего, чем п, числа ошибок в блоке длины N. Поэтому при увели- увеличении N естественно увеличивать и значение га; однако если п увеличивать пропорционально N, то с ростом N, как оказывается, будет все время убывать достигаемая
/,Д'| Ш'И'КДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV «пороги, передачи информации (см. 1168], гл. $). Наибо- лго существен, однако, не вопрос об оптимальном выборе :итчс1пш N и га, а вопрос о методах декодирования по- получающихся кодов при больших JV"; именно труд- трудность декодирования в первую очередь ограничивает воз- возможности подбора параметров кода, обеспечивающих II мллую вероятность ошибки, и большую скорость пере- передачи. В применении к кодам Боуза — Чоудхури — Хок- липгема разработан целый ряд специальных методов декодирования, позволяющих эффективно его 'осуществ- 'осуществлять вплоть до длин N кодовых обозначений, имеющих порядок многих сотен или даже нескольких тысяч. На :»тих методах мы здесь, однако, уже не можем задержи- iisiTbCH — по их поводу можно лишь отослать читателя к (довольно сложным) книгам B2], [168], A69], [183] и [184]. Будем, как и выше, рассматривать лишь случай'пвоичной линии гпязи (использующей два элементарных сигнала), а код будем понимать как некоторую совокупность кодовых обозначений — цепочек а = (а0, ai> ¦ • ч fljv-i) из N Цифр 0 и 1. При изучении кодов, позволяющих исправлять ошибки при передаче, важную роль играет расстояние Хэммиига \Ь — а \х между дпумя цепочками Ъ = (Ьо, Ь„ . . ., bN_^ и а — (а0, ait .. ., ак_г), которое но определению равно числу цифр а,- таких, что bt ф at (т. е. числу единиц среди разностей fcj — аг, понимаемых в смысле 2-;фифметики). Расстояние Хэмминга обладает многими свойствами обычного геометрического расстояния (см., например, ниже Прило- Приложение II, стр. 479); оно совпадает с числом искажений отдельных передаваемых сигналов, приводящим к тому, что переданная цепоч- цепочка а воспринимается на приемном конце лилии связи как цепочка Ь. Понятно, что чем больше будет расстояние Хэмминга между отдель- отдельными кодовыми обозначениями, тем меньшей будет вероятность перепутать эти обозначения на приемном конце, т. е. (при прочих равных условиях) тем лучше будет используемый код. Поэтому важной характеристикой кода является отвечающее ему кодовое расстояние D = min | а^ —• а^ |х — расстояние Хэмминга между «самыми близкими» различными кодовыми обозначениями данного кода. Ясно, что в случае кода, позволяющего исправить любое не превосходящее п число ошибок, он не должен содержать двух таких кодовых обозначений a<s) = (a<,J), a^, . . ., а^х) и а(з) = (а^, с&р , . . ., ej^), что, изменив какие-то и или менее цифр первого из них и какие -то п или менее цифр второго, мы полу- получим одну и ту же цепочку Ъ — иначе, приняв эту цепочку Ь, мы ле сможем выяснить, было ли передано обозначение <№ или а^'. Следовательно, все расстояния | «<*-* <— «^ |х (где i=f=f) должны
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 435 быть больше 2п, откуда вытекает, что D ^ 2п + 1, где D •— кодовое расстояние нашего кода. Обратно, если D~^.2n-\- 1, то, договорив, шись расшифровывать как кодовое обозначение а*1* псе принимае- принимаемые цепочки Ь, принадлежащие шару Хвммипга радиуса п с центром а^ (т. е. все такие 6, что | Ь — а^ |х <J n), мы гаран- гарантированно исправим любое не превосходящее п число ошибок п)>и передаче. Итак, код позволяет исправить любое не превосходящее п число ошибок при передаче тогда и только тогда, когда его кодовое расстояние D не меньше чем 2п + 1. Аналогичным образом легко показать, что если кодовое расстояние D не меньше чем 2п, то код позволяет исправить любое, не превосходящее п — 1, число ошибок и, кроме того, позволяет обнаружить наличие пе меньше чем п ошибок (но в последнем случае он уже может и не позволить однозначно исправить эти п ошибок) *). Ясно, что «объем» Vn шара Хэмминга радиуса п, т. е. число «точек» Ъ — (bB, blt . . ., bN_t), принадлежащих такому шару с центром в произвольной «точке» а = (ав, аг, . . ., «yv_i)i задастся равенством Поскольку общее число псех N-члсииих цепочек рпвно 2N, то отсюда немедленно следует, что число S различных кодонмх обозна- обозначений длины N, входящих в код, позволяющий исправить любое, не превосходящее п, число ошибок, должно удовлетворять условию Это простое условие, ограничивающее сверху возможное число S кодовых обозначений (а, значит, и максимальную возможную ско- скорость передачи информации v = j^- Iog5 бит/ед. времени), назы- называется верхней границей Хэмминга числа кодовых обозначений. В частном случае кодов с про- проверками на четность (т. е., иначе, линейных или групповых кодов) оно совпадает с рассмотренной на стр. 405 нижней границей Хеммин- га числа контрольных сигналов: в самом деле, для (N,M)-kor& с проверками на четность число кодовых слов S равно пМ _ ? * ~ 2К ' а) Надо, впрочем, иметь в виду, что кодовое расстояние D не определяет полностью способность кода исправлять ошибки при передаче. Так, например, если D = 2п, сто зачастую для многих (хотя и*не всех) передаваемых обозначений а№ код все равно позво- позволяет исправить заметно больше чем п ошибок при передаче.
/,ЗС ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV и поэтому условие (8) здесь точно совпадает с неравенством Хэм- Miiiii'ii. Наметим, однако, что условие (8), в отличие от неравенства Химмиига для числа К, применимо к любым кодам, а не только к кодам с проверками на четность. Коды, обладающие тем свойством, что для них левая и правая части (8) совпадают друг с другом, называются совершен- совершенными (или, реже, плотно упакованными). Совершен- лыо коды замечательны тем, что они практически во всех отношепиях иплнются оптимальными (т. е. самыми лучшими). Мы уже видели, что среди кодов заданной длины N, исправляющих заданное число я ошибок, совершенным кодам соответствует наибольшее число S кодовых слов, т. е. наибольшая скорость передачи информации; в случае совершенных кодов с проверками на четность, исправляю- исправляющих заданное число ошибок, число контрольных сигналов К является наименьшим возможным. Предположим теперь, что наш код исполь- «уотся для передачи информации по двоичной симметричной линии сплзи; при этом очень важной характеристикой качества передачи будет средняя вероятность ошибки при расшиф- расшифровке где S — общее число кодовых обозначений кода, a Qt — вероят- вероятность того, что] переданное г-е кодовое обозначение аA) будет неправильно расшифровано на приемном конце. Пусть теперь т$ —• это число цепочек 6, находящихся на расстоянии Хэмыинга ft от f-ro кодового обозначения a(l) и расшифровываемых как а® mi приемном конце линии. Так как в случае передачи цепочки аA) вероятность получения на приемном конце двоичной симмет- симметричной линии связи любой такой цепочки 6, очевидно, равна pk (I ~p)N~k, то вероятность правильной расшифровки передан- переданной цепочки а<4> равна сумме 4° A - P)N + mfp A - Р) W"X + • •' + 4V A - P)W-* + • сюда видно, что средняя вероятность ошибки на Q =1 —j [mo(l -pf +m,p(l - pf-1 + ... Отсюда видно, что средняя вероятность ошибки при расшифровке равна где тк = т$* + т^> + .« + т^ — суммарное число цепочек Ъ, находящихся на расстоянии Хэмминга к от какого-то кодового обозначения а® и расшифровываемых как это а® (так что т0 + + т^ +... -f-mj!-j-...=2JV). Но полное число цепочек длины N, находящихся на заданном расстоянии Хэмминга к от фиксирован- фиксированной цепочки о®, равно С^', поэтому для кода, состоящего из S
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 437 кодовых обозначений длины N, Пусть теперь п — это наибольшее целой число такое, что но S + так что тогда, если m0 = 5, m1 = SCXN, .... mn = SC$, то mn+1 < Г. Будем, как обычно, считать, что рК.-^; тогда вероятность Рк A — p)N~k будет тем меньше, чем больше к, и поэтому случай, когда т0 = 5, ntj = 5С]у, . . ., тп = SC]^, mntl = T, яплистся наиболее благоприятным, т. е. приводящим к наименьшей средней ошибке Q. Следовательно, ...+ С%Рп A - р)*-" + -j- ?"+! A - р)*-"-1] . (9) Оценка (9) наименьшей возможной средней вероятности ошибки для кода с фиксированными значениями N и S, используемого для передачи по двоичной симметричной линии связи с заданным значением вероятности р искажения сигнала, называется нижней границей Хэмминга средней вероятности ошибки. Для совершенных кодов при условии, что все принимае- принимаемые Л^-членные цепочки, удаленные от какого-то кодового обоз- обозначения а") на расстояние Хэммипга, не превосходящее п, рас- расшифровываются как аA), неравенство (9), очевидно, обращается в равенство (причем Т здесь равняется нулю); отсюда видно, что для таких кодов средняя вероятность ошибки меньше, чем для любых других кодов с теми же значениями N и S. Совершенные коды имеют очень простой геометрический смысл (в геометрии, определяемой расстоянием Хэмминга): они соответствуют случаям, когда совокупность всевозможных «точек» *= (Ьо, Ьх, ..., bN_j.) может быть разбита на конечное число «ша- «шаров Хэмминга» некоторого радиуса п, взаимно не пересекающихся, но заполняющих в своей совокупности все «пространство» (состоя- (состоящее из 2N точек), причем центры этих «шаров» и составляют код (отсюда и название «плотно упакованный код»). Их основным недостатком является то, что таких кодов имеется очень мало —•
/,38 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV они суш*1'|»угот лишь для некоторых исключительных значений N и S. Простейшие совершенные коды — это тривиальные коды, состоящие всего из двух кодовых обозначений @, 0, . . ., 0) и A, 1, . . ., 1), каждое ив которых составлено из нечетного числа Л' — Ъп+ 1 одинаковых цифр. Для такого кода, очевидно, D = 2п+1, и код позволяет исправить п или меньше опшбок; все прост- 1>и1к'Т110 из 2 = 22n+1 точек здесь распадается на два шара Хэм- Miiiirn радиуса п (содержащих по 22*1 = 2 ~г точек каждый). Кроме того имеется обширный (и весьма важный) класс совершенных кодов — это B*— 1, 2* —К — 1)-коды Хэмминга, в отношении которых на стр. 405 уже отмечалось, что для них неравенство Хэмминга для числа «контрольных сигналов» (эквивалентное не- неравенству (8)) обращается в равенство. В этом случае все простран- стпо h:i 2N = 22 "~х точек распадается на 22 ~к~* шаров Хэм- мипга радиуса 1, каждый из которых содержит 2К точек; здесь/? = 3 и, следовательно, все одиночные ошибки могут быть исправлены. Но если только допустить, что и > 1, a S > 2, то сразу возникает прежде всего та трудность, что для существования совершенного кода сумма 1 + С]^ -f- ... + С% в силу (8) должна равняться неко- некоторой целой степени числа 2, что на самом деле выполняется весьма редко. Занимаясь поисками совершенных кодов, американский учепый Голей (М. J. E. Golay) заметил, что 1 + СУ -|- С*3 -|- С|з = 2048 = 2" — и это подсказало ему, что в принципе может существовать 223 сопгршппшй код с N=23 и 5= ^гг = 212 = 4096, позволяющий исправить любую комбинацию из трех или менее ошибок. Такой код (называемый с тех пор двоичным совершенным кодом Голе я) ему действительно удалось разыскать; он оказался циклическим B3, 12)-кодом с проверками на четность, задаваемым порождающим многочленом g (ж) = а^1 + а;9 + ж7- + а* + я"> + ж + 1 или же проверочным многочленом h (X) = Г-r— : и имеющим кодовое расстояние D = 71). Дальнейшие поиски J) Код Голея оказался также совпадающим с (непримитивным) кодом Боуза — Чоудхури — Хоквингема, отвечающим значениям N = 23 и п = 2 (т. е. исправляющим все одиночные и двойные ошибки). Однако построение этого кода по методу Боуза и вр. позволяет лишь утверждать, что для него D ^ 5 (именно это и оз- означает, что код позволяет исправить одиночные и двойные ошибки), в то время как Голей установил, что на самом деле здесь D = 7.
§5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 439 новых совершенных кодов к удаче пе привели: кроме перечисленных выше никаких других таких кодов до настоящего времени не было найдено, и, по-видимому, их вообще больше не существует 1). [Это, разумеется, не означает, что больше не существует сумм 1 + ... + Сп, равных степени двойки. Так, например, не- нетрудно проверить, что 1 + С\о + С^о = 212,—но том пе менее мож. но доказать, что пе существует совершенного кода с N = 90 и п— 2.] Поскольку совершенных кодов оказалось так мало, большое внимание было уделено поискам так называемых квазисопор- ш е п п ы х кодов, несколько худших, чем совершенные, по вг.о же достаточно хороших. Квазисовершенные коды определяются как такие, что для них шары Хэмминга некоторого фиксированного радиуса п с центрами в точках, отвечающих всевозможным кодовым обозначениям, заполняют все пространство из 2 точек Ь, за исключением лить некоторого числа Т < SC1^1 точек (где S — число кодовых обозначений кода), находящихся на расстоянии Хэмминга п + 1 по крайней мере от одного (но может быть—и сразу от нескольких) кодовых обозначений. Если мы условимся и случае квазисовершевного кода растнфропынать как «(|) псе принимаемые цепочки Ь, находящиеся па по большем чем п расстоянии Хаммипга от кодового обозначения а^, а цепочки Ь, находящиеся на расстоя* нии и -|- 1 от самого близкого к ним кодового обозначения, рас- расшифровывать как одно (безразлично какое) из кодовых обозначений, удаленных от 6 на расстояние п -\- 1, то неравенство (9) также и адесь обратится в равенство; поэтому и для квазисовершенных кодов, используемых для передачи по двоичной симметричной линии связи, средняя вероятность ошибки при расшифровке будет меньше, чем для любых других кодов с теми же вначениями N и S. В то же время квазисовершенных кодов уже имеется значительно больше, чем кодов совершенных (хотя и их тоже все же пе очень много). Так, например, коды, исправляющие все одиночные ошибки *) Примечание при корректуре. Уже после окон- окончания работы над этой книгой факт отсутствия каких-либо со- совершенных двоичных кодов, отличных от тех, которые были указаны выше, был, наконец, строго доказан финскими учеными А. Т и е- тявяйненом и А. Перко [186] и, независимо от них, В. А. Зиновьевыми В. К. Леонтьевым [187] в СССР; в последней из этих работ аналогичный результат получен также и для многих недвоичных совершенных кодов, не рассматриваемых в нашсЁ книге. В самое последнее время Зиновьев и Леонтьев и, независимо от них, Тиетявяйнен и американский ученый ван Л инт получили полное решение нопроса о нахождении всех совер- совершенных кодов, использующих р* элементарных сигналов, где р —¦ произвольное * простое, a. k — любое целое положительное число; таких кодов также оказалось крайне мало.
/,/,0 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV н блокях из N ф 2 — 1 цифр и получающиеся с помощью отбра- ( uiuiiimi некоторого числа столбцов в проверочной матрице соот- иртствующего совершенного кода Хэмминга с N = 2К — 1, весьма чисто оказываются квазисовершенными (см., например, [168], стр. 105). Квазисовершенными являются и все обсуждавшиеся па стр. 429—431 (примитивные) коды Боуза — Чоудхури—Хоквингема с N = 2К —• 1, исправляющие одиночные и двойные ошибки (см. |185]); именно на этом основании на стр. 432 в утверждалось, что тпкие коды обязательно будут оптимальными. Ряд других примеров квависовершенных кодов описан в гл. 5 книги [168]; здесь мы, однако, не будем на этом останавливаться.
Приложение I СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИЙ л/ Функция у — / (х) называется выпуклой с вер- х у (или, короче, просто выпуклой) на отрезке от х = а до х = Ь, если в этом интервале любая дуга MN графика функции лежит над соответствующей хордой MN1) (рис. 31). Примерами могут служить логарифмическая функция у = log х во всей области свое- своего определения, т. е. от О до оо; степенная функция у — — хт в той же области (здесь предполагается, что т^>1); показательная функ- функция у = — а* в области от — оо до + оо; функция у==—аЖ^жвобластиотОдооо, или функция у = —х log х— —A — х) log A — х) в области от 0 до 1 (рис. 32, а — д). Теорема 1. Если у = f (х) — выпуклая на отрезке от а до Ь функция, х1 и х% — два значения аргумента этой функции, взятые внутри рассматриваемого отрезка (т. е. два произвольных числа таких, что а <^ хг < х^ <^ Ъ), то A) Доказ ательство (ср. выше, стр. 74). Пусть на рис. 31 ОА — хх, OB = x%, в таком случае AM = = / (хг), BN = / (ж2). Далее, если S есть середина отрезка АВ, то OS= 9 Х2 и, следовательно, SP = f \ ») В дифференциальном исчислении указывается признак выпуклости функции, применимый к достаточно ши- широкому классу таких функций (в частности, ко всем функциям, рассматриваемым в этом Приложении); он состоит в отрицатель- нос/пи второй производной у" функции у = f(x).
442 ПРИЛОЖЕНИЕ I С- другой стороны, так как средняя линия SQ трапеции AIJNM равна полусумме оснований AM и BN, то о г) SQ— согласно определению выпуклой функции, середина Q хорды МN расположена ниже точки
СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИЙ 443 Р дуги MN\ следовательно, / (ц) + / (Дг) ^ , I X! + хг \ 2 <-1 \ 2 ) — что и требовалось доказать1). Примеры2), а) у = log х. Имеем log JCl + log XT. 2 или, наконец, — среднее геометрическое двух неравных положительных чисел меньше их среднего арифметического. б) У = — хт, т> 1. Здесь получаем или, в другой! форме, г 1 «Г+^'У х1 + Х2 2 ) >—2~ • 1 i я, -f- с~ Ч~ * ¦ ¦ Н~ йк \ ™ Выражение [ г 1 — корень степени т из среднего арифметического т-х степеней чисел *) Мы ограничиваемся при доказательстве случаем, когда f{xt) в /(хо) имеют одинаковые знаки (впрочем, единственно этот случай и будет нам нужен в дальнейшем). Предоставляем читателю самостоятельно рассмотреть случай разных знаков /(а^) и /(а;2) (здесь вместо свойства средней линии трапеции придется применить следующую теорему: отревок средней линии трапеции, ваклю- ченный между ее диагоналями, равен полурааности оснований трапеции). 2) В содержании этой книги существенно используются лшшь неравенства, связанные с выпуклостью функций у = —х log x и и у =log х [а также у= — х log х — A— я>) log A— я>)]; пример б) здесь и ниже имеет лишь иллюстративное значение. [Учение а выпуклых функциях является богатейшим источником всевозмож- всевозможных неравенств, так что число подобных примеров можно было бы значительно увеличить.]
/к\\ ПРИЛОЖЕНИЕ 1 п,,П',, ...,а.к—называется степенным средним порядка 1 /'< + <+¦¦• + < т :>тих к чисел (в частности.выражение у -г , отвечающее случаю т — 2, называется средним квадратичным чисел alt a2> • ••> ан). Таким обра- лом, полученный результат можно сформулировать так: степенное среднее порядка т~^>1 двух неравных положи- положительных чисел всегда больше их среднего арифметического. в) у = — х log х. Из теоремы 1 следует: Xl log Xl + Х2 log Хг ^ X, + Х2 , 5 <- 5 10 или — результат, которым мы дважды пользовались в гл. II (см. стр. 74 и 94). Неравенство теоремы 1 может быть обобщено следу- следующим образом: Т о о |» и м а 2. Если функция у — f(x) — выпуклая в интервале от а до Ь,х1 и х2— два произвольных числа из этого интервала (а ^ хх < ж2 ^ Ь) и р и q — какие угодно положи- положительные числа, сумма которых равна единице, то ) • B) 1 При р — q = -s- теорема 2 Рис. 33. * Л переходит в теорему 1. Доказательство. Отметим прежде всего, что если М и N — две точки, имеющие координаты (xlt yt) и (х2, уг), a Q—точка отрезка MN, делящая этот отрезок в отношении MQ-.QN = q\ p (где p+q=i), то координаты точки Q равны рхг + qx2 и pyr + qyz. Действитёльнй, обозначим через Хи Х2 и X; Ylt Yz и Y проекции точек М, N и Q на оси координат (рис. 33); в таком случае точки
СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИЙ 445 X и У будут делить отрезки ХХХ2 и YXY2 в отношении q:p. Отсюда получаем1): ОХ = ОХХ + ХХХ = хх + д(х2 A и Y2Y=y2+p {yx - й) - = A — Р)У* + РУ1 = P!h Ь «??/2- I/ ОУ = OY2 Рассмотрим теперь снова график нашей пыпуклой функции у = / (х) (рис. 34), и пусть О А = хг, ОВ = х2, AM = /(a;^, БЛГ = f(x2). Со- Согласно доказанному выше коор- динаты точки О, делящей отре- отрезок MN в отношении МО i : ON =д г р, равны рхг + дх2 и Pf(xi) + Qfi^zYi таким обра- образом, на рис. 34 SO — pf (xt) + + gf (ж2) и SP = /(pa;, + gz2) (ибо OS = рж, + ga^j. Но в силу выпуклости функции у — / (а;) ^ ^ расположена н и ж э a/I S S Рис. 34. точки P; 4- №), — что нам и надо было доказать г). Примеры, а) у = log х. В этом случае неравенство B) дает р 1оцхг + д log аъ < log (pxt + Отсюда следует, что значит, б) у — — хт, т^>1. Имеем х) На рис. 33 изображен случай, когда все четыре числа хи жа» Ш и 2/г положительны (по существу только этот случай нам в будет нужен). Предоставим читателю самостоятельно рассмо- рассмотреть иные случаи. 2) Нетрудно видеть, что координаты каждой точки отрев- «а MN могут быть представлены в виде (pxt + Ящ> PVt + 9?/г)> где р > 0, д > 0, р -f q = 1. Таким образом, неравенство B) утверждает, что вся хорда Л/ЛГ расположена ниже кривой у = / (ж), а1, е, оно равносильно определению выпуклости функции.
V.O ПРИЛОЖЕНИЕ 1 И I И рх? + дх? > (рх! + дх2)т, р + д = в) У ~ — х loga;. Здесь получаем — рхх loga^ — qx2logx2 < — (рх! + gx2)\og{px1 + дх2), Теорему 1 можно обобщить еще и в другом направ- направлении. Теорема 3. Если у = / (х) — функция, выпуклая в интервале от а до Ъ и ху,хг, ..., х-Л — какие-то к значений аргумента функции в этом интервале, не все равные между собой, то о </(¦ к xi + Хг -\- к C) М1М2 этого ft-угольника (частный случай не- неравенства И енеена). При к = 2 теорема 3 пе- переходит в теорему 1. Доказательство. Начнем с определения од- одного понятия, часто фигури- фигурирующего в геометрических и аналитических задачах. Пусть МХМ2М3 ... Мк—про- Мк—произвольный ft-угольник (рис. 35, a); Qz—середина стороны г Q2M2 —-^ : у); Qb—точка, делящая отрезок M3Q2 в отношении 2:1 (M3Q3 i Q3Q2 = 2 1 = ~3 ! "з")* ^* — точка, делящая отрезок MtQ3 в отношении 3 1 3:1 (Af4<?4 : QtQs =T ¦ -~); ...; наконец, Qh —точка, де- делящая отрезок MkQh-1 в отношении (А;—1) s 1 (т. е. такая, что MkQK: <?ft<?fc_! = ^=±: -М .
СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИЙ 447 Точка Qk называется центроидом (или центром тяжести) А-угольника МХМ2 ...Mh. В случае тре- треугольника М-^МъМъ (рис. 35,6) центроид Qn совладает с точкой пересечения медиан: действи- действительно, в этом случае Q2 есть середина стороны МгМ2, отрезок MZQ2 является медианой и точка Q3, делящая этот отрезок в отношении M3Q3 : Q3Q2 — 2 1 1— это точка пересечения медиан треугольника. Докажем, что если координаты вершин М1Л М2, ..., Mh к-угольника суть (х1, yj, \х2, yz), ..., (xk, yh), то коорОина- Х\ -\- Х2 + • - • -|- X ты центроида. Qk будут равны ^ — и У\ + У*А \- 2/ft л\ „ „ -. ) . Действительно, в силу предложе- предложения, приведенного в начале доказательства теоремы 2, точки Q2, Q3, Qi7 .... и, наконец, Qk имеют следующие ко- координаты: L-b X2 У\ -\- ?/2 \ 2 ¦3 [Т или \ 3 3 3 Х\ -f- Хч -\- Xz \ 3 '-)• ИЛИ (к -1) я к + *+••• + /с —1 /с ¦**-1 1 4 ~ ^1 + У2 + ¦ ¦ к — • + Уц—1 1 *) Отсюда, в частности, следует, что центроид fc-угольника полностью определяется этим /с-угольником и не зависит от поряд- порядка перечисления его вершин (как можно было бы думать, исходя из определения центроида); в случае треугольника это обстоятель- обстоятельство вытекает также из совпадения центроида с точкой пересечения медиан.
ПРИЛОЖЕНИЕ I или \- хк_1 _г + Ук Вернемся теперь к нашей выпуклой функции у = / (х). Пусть Mi, M2l ..., Мь — это к последовательных точек графика этой функции, взятых в рассматриваемом интервале (рис. 36). В си- силу выпу-клости функции А-угольник М\M2...Mh бу- будет выпуклым и будет ле- лежать целиком под кривой y—f(x). Если абсциссы то- ^х чекМх, М2, ..., Mh равны хх,х2, ..., xh, то ординаты их, очевидно, будут равны Рис.36. f(Xl)t f(x2),...,f(xk). По- Поэтому координаты центро- центроида (? к-уголъникаМ^г... Mh будут равны Xl + Xi-] +xk „ /M + /N+ h/C /с и, следовательно, и SP = 1 /Ж (см. рис.36). Но центроид выпуклого ft-угольника лежит внутри ft-угольника (это вытекает из самого опреде- определения центроида); следовательно, точка Q расположена ниже точки Р и, значит, / (Х1) + f •Ч-; \ —что и требовалось доказать. Это рассуждение сохраняет свою силу и в том случае, когда некоторые (но не все!) из точек Ми М2, ...,Mk совпадают (некоторые из чисел хх, х2, ...,xh равны между собой) и ft-угольник МуМ2 ... Mh вырождается в много- многоугольник с меньшим числом вершин.
СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИЙ 449 Примеры. а) у = log х. Из теоремы 3 следует, что log si+ 1083*4 Moggft ^ , gt l-.ra- i+ 1083*4 _ ИЛИ . . . Xk — среднее геометрическое к положительных чисел, которые не все равны между собой, меньше их среднего арифмети- арифметического (теорема о среднем геометри- геометрическом и среднем арифметическом), б) у = — хт, т ^> 1. В таком случае получаем *<_(. _{_ ИЛИ (* + <+¦¦¦! *y >; к — степенное среднее порядка т ^> 1 произвольных к поло- положительных чисел, которые не все равны между собой, боль- больше их среднего арифметического. в) у = — х log х. В этом случае теорема 3 дает XI leg Ж1 + Xj log хг + ¦ • - + Xk log Xft .. /^+ Наконец, докажем еще следующую теорему, обоб- обобщающую как теорему 2, так и теорему 3: Теорема4. Пусть у = f (x) — функция, выпуклая в интервале от а до Ъ, а х1г х^, .--, xk — какие-то к значе- значений аргумента этой функции, не все равные между собой, взятые в рассматриваемом интервале, и рх, р2, ••-, Pk — к положительных чисел, сумма которых равна единице. В таком случае < /(РА + Р2Х2 + ••• + PkXh) E) (общее неравенство И е н с е н а). 15 Л. М. Яглом, И. М. Яглом
450 ПРИЛОЖЕНИЕ I 11|)и к = 2 теорема 4 переходит в теорему 2, а при рг = ¦ р2 = ... = Ръ = -, в теорему 3. До к а з ательство. Рассмотрим снова график иынуклой функции у —f (х) и вписанный в зтот график иынуклый Л-угольник MtMz ... Mh, вершины которого Рис. 37. имеют координаты (хи уг), (хг, уг), ..., (жь, yh) (рис. 37). Пусть теперь Q2 — такая точка стороны М^Мг зтого А-уголмшка, что MXQ% : Q^M^ = —^— : —^—; Q% — такая точка отрезка M3Qit что П/Г П . П П — Р* . Р1+ Р* . ^3V3-V8Va~Pl+P2 + P3'pi + P2 + P»' Qt — такая точка отрезка MtQa, что Р1 + Р2 + pt+ Pi P1+P2 + P8+P4 наконец, Q — такая точка отрезка М^к-г, что h — Ph- (Pi + Pz + •••+ Ph-i) (если Pi = Pz— ... = то Q — центроид Лг-угольника МгМг ...Mh). Воспользо- Воспользовавшись предложением, с которого мы начали доказатель- доказательство теоремы 2, найдем координаты точек Q2, (?3? С?4» ••• ..., Q: P1+P2 /Ч + Ра + f з *-\ И Pl + J% + P3 Pi/ (»l) + , Pi + Pi + Рз P1 + P2
СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИЙ 451 или \ P1+P2+PS ' Pi I Pi\ P» -)¦ , AM x Pi + Рг+Ра pi I Pi -\-pa \ pa ' 4l pi -f- Рз + Ps pi/(^i) -\- pvffaz) -\- r»i \-<>i i 1 i 1 i ; г Pl -j- P2 "Г РЗ "Г Р4 Pi Г Р2 -Г РЗ ИЛИ » )' V Pi + P2 -I- 1 pfc_j \-pk Pif(n) I-ра/Ы I /)| I /'г I- ••- Fff-! I 1>H или иначе, (PA + Рг*2 + ¦¦• + Ph*h, Pif (Ч) + Pzf Ы + + • •¦+ Phf (так как Pl + pz + ...+ ph = 1). Таким образом на рис. 37 SQ = OS = -SP = f(plXl А так как точка Q расположена ниже точки Р (ибо весь Л-угольник М-ьМъ ... Mh лежит под кривой у = / (х), а Q — внутренняя точка этого А-угольника), то Pif fo) + Pzf Ы + - + — что и требовалось доказать х). *) Нетрудно видеть, что координаты каждой внутренней точки fc-угольника M1M2...M)i можно представить в виде (РА + Ргх2 + — + Plc^ft. Pi/(%) + Рг/(жа) + ••• + РкНх*)))< гДе Pi > 0, р2 > 0, ..., pt > 0, и pt + Ра + ... + Pic = 1. Таким образом, неравенство E) выражает то обстоятельство, что вписан- вписанный в график выпуклой функции многоугольник весь лежит ниже этого графика. 15*
/,r,2 ПРИЛОЖЕНИЕ I II |> и м с р ы. а) у — log x. В таком случае получаем: />, log хг + р2 log хг + ... + ph log xh < < log (ргхг + ptxz + ... откуда следует, что где рг + р2 + ... + рк = 1 (обобщенная теорема о среднем ге- геометрическом и среднем арифмети- арифметическом). б) у=—хт, т~^>1. Имеем пли где Pi + ра + ... + Рн = •О .'/ ~ — ж log ж. Теорема 4 дает — р,^ log Ж! — /?2ж2 logz2 — ... — pkxk <—(РЛ + р2ж2 + —+ PhXh) log (рл где рг + рг+ •••+ Рь = 1. F) Вывод неравенств D) (стр. 449) и F) и составлял основ- основную цель настоящего Приложения. Из неравенства D) сра- сразу следует, что энтропия опыта а, имеющего к исходов, не превосходит энтропии log к опыта а0, имеющего И; рав- равновероятных исходов; при этом Н (а) = log к лишь в том случае, когда все исходы а равновероятны, т. е. когда опыт а не отличается от а0. Действительно, умно- умножим обе части зтого неравенства на А и затем положим в нем хх = р (Аг), Х2 = р (А2), ..., xh = p (Ah), где Ац Az, ..., Ah — исходы опыта а (так что р (Аг) + + Р (л2) + — + p(Ah) = 1; вероятности р (Аг), р {А2),„. ..., р {Ак) не все равны между собой). В таком случае
СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИЙ 453 будем иметь: —р (Aj) log p (At) — р (Л2) log (AJ р (Л,г) log p (Л/()< < - [Р (Ад + р (Л2) -|- • • - + р (Ак)\ х , р Mi) + V Ms) -I • • • + р (Л ъ) . , 1 , ? X log УК ч-ггу и \ -г г\ ю _ _ 1 . Jog-^- = log А; или Я (а) < Н (а0). Неравенство F) может быть использовано для доказа- доказательства того, что условная энтропия Наг$) опыта р при условии а не превосходит безусловной ;>нтропии Н (Р) того же опыта. В самом деле, полагая и неравенстве F) Pi = Р (Ai), Рг = Р U2), —, Pi, = Р (А,,), ж, - рл,№), аъ = -Рл,(В1), ... zh = рлк (Bj) (где Л,, Л2, ...,Л^В^В^,... ..., Bi — исходы опытов а и Р; р (At) -|- p (Л2) -\- ... ,.. + р (Л ft) = 1), мы получим -p{A2)p ... - р (Л ft) pAfc (БО log х) + р(А2)рА! (В,) + ...+р (Ah) PaJBJ] X X log \р {Ах) р а^В,) + рШраАВ^ + ... + р(А h)PAk (Вг)]. Так как в силу формулы полной вероятности (см. выше, стр. 44) ЖАДрлАВ,) + р (Л2) paABJ + ...+ р (Лh)PAH(В,) = p(Bj, то последнее неравенство можно переписать так: - Р (Л,) paABJ log PaABJ - p(i42Wfii)log рл2 (fix) - - P Hft)PAk(fii) log pAfc (BJ < - p (Bx) logp Заметим, что если рА, (Вг) — рлг (В^ = ...= рлк(В1) = = р (В2) (последнее равенство здесь следует из формулы полной вероятности), то наше неравенство обращается в
/,54 ПРИЛОЖЕНИЕ I |iiii«'iicTBo. Точно так же получаем --Р Wi) Рм (В2) logpAl (Ва) -р (А2)рА,(В2) logpAs(B2) — ... ... - р (Ah)pAk (В2) log pAfc (В2) < - р (В2) log p (B2)f - Р ШрлДВt)logpAl(Bi) - р(А2) pA,(#j)logPA,(tfj) --.. - - Р (Ah)pAlc (Bt) log рАн (Bt) <-p (В,) log p (Вг). Теперь, складывая все эти неравенства, имеем /»(Аг)НАМ + Р (А2) ЯА! (Р) + ...+ Р(^Ь)ЯА,(Р)<Я(Р) или Я«(Р)<Я(Р). Это неравенство имеет место, если опыты а и В не не- независимы, т. е. если существуют такие i и / A ^ i ^ kt i < X/), что /?,д. (Bj) =fc p (Bj). Если же опыты а и В независимы, то, очевидно, Яа(Р) = Я(Р). Заметим еще, что если подставить в неравенство Pl lOg Xl + f>i log «2 + • • • (ср. пример а) на стр. 452), xt = -^- s ж2 = -^-,..., *k = ^-, где ffi + ffs + + 9> ^ *t то мы получим JW 1<*-fj-+ Л* log-J-+ - - - + J>ft log у-< 0, откуда, учитывая, что log ¦— = log q\ — log pi, log •— = log ?a — — log jD2,.... log —— = log дк — log f,., имеем pk к к — Pi log pi — />2 log pa — ... — fft log fft < < — pi log gi — Jt>2 log qt — ... — pk log gft, т. е. неравенство (*), етр. 180. Наконец, упомянем еще об обобщающем неравенство На ф) < < Н ф) неравенстве
СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИИ 455 о котором шла речь в конце § 3 гл. II (это неравенство переходит в На (Р) ¦< Щр), если предположить, что опыт у имеет единст- единственный исход, реализующийся с вероятпостыо 1). Его легко вывести из неравенства #а(Р) < Щ$)- Действительно, обозначим исходы опыта -у через Cj, С2, . . ., Ст; пусть а*х) и р*1' — опыты, исходы А^\ А^К . . ., А(р и В<4 БB°, . . ., Вр, которых осуществля- осуществляются с вероятностями р (А^Ь = pCi{At), р (ИB!)) = рс% (Аъ), ... ..., р {А^) = pCi (Лк), соответственно р (/?<°) = />,,. (В,), р (В(а°) = = рс (Вг), . . •) р (В^) = рс (В;). П силу доказанного выше имеем а Но Я (р(«) = «) l Bjl)) В«>) l /4°—•- Р ... - pCt (Д,) log pCi (»,) = /fCi = р {А?>) НА^ 0») + р Dг)) Н где PAA>
il.Mi ПРИЛОЖЕНИЕ I Миндсм теперь условные вероятности р п)(В^), р а.) (В^\ и т. д. И силу правила умножения вероятностей (см. § 3 гл. I, i -I р. Л2) р"л{1) (Bffl равно отношению вероятностей событий А ^В^ и И*'\ Пор (А^) = pCi (Aj); что же касается вероятности события /l'|l'/f[l\ то она, очевидно, равна условной вероятности рс {АгВ-^ (/I'j1' -- осуществление события А1 при том условии, что произошло <<>Ги>1тис Сх, В^' — осуществление события В1 при том же самом у<-лонии; поэтому А^ В1^' это есть осуществление AtBt при том же услоипи). Но в силу правила умножения вероятностей р^ {А1В1)= (A)B^ следовательно, л Точно так же показывается, что ч> Р а) Отсюдл получаем ¦•¦-Рс,л, {Вt)logpcaW = tiCiAi ф) и аналогично A)(Р)ЯС АК К Таким образом, имеем (напоминаем, что р {А^) = pCi PCt (^2), .. ., p {AW) = pCx (Ak)) = J»C, Hi) ^ClA, Ф) + PC, ( Поэтому неравенство Яа^ (P^J)) ¦< // (PA^) можно записать в виде
СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИЙ 457 Умножая обе его части па р (Ci) и упитывая, что р (Ci) pCi (Ai) =* = р(СгАг), р (С,) pCi (Аг) = р (СИ2) р(Сг) рс> (Ак) = р'(СгАк), будем иметь р (CiAti HCiAi (P) + р (СуАг) HCiAs (p) + ... . - . + Р {CiAb) HCiAjc (р) ^ р (С) НСг (р). Точно так же доказываются неравенства Р (Cub) HCaAi ф) + р (СИг) НСгМ (Р) + . . . • • • + Р (СгАк) НСгАк (Р) < р (С,) ПСл (Р), i (Р) + • • • • • • + Р (СгпАК> НСтА}с (Р) < Р (CJ НСт Складывая почленно все эти неравенства, получим —что и требовалось доказать (событии уа и cry не различаются).
Приложение II НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ Основным предметом изучения в алгебре являются те или иные алгебраические системы, т. е. множества элементов, для которых определены некоторые алгебраические операции, подобные известным из арифме- арифметики операциям сложения и умножения чисел. При этом хинпктер элементов системы и конкретный смысл рассмат- рассматриваемых операций обычно никак не оговариваются, так что одна и та же алгебраическая схема может описывать весьма разнородные примеры. Напротив, свойства алге- алгебраических операций подробно описываются — и это опи- описание является определением соответствующей алгебраической системы. 1. Первым алгебраическим понятием, широко исполь- используемым в самых разных разделах математики, является понятие (коммутативной1) ) группы. Множество G элементов а, Ь, с и т. д. называется (коммутативной) группой, если в этом множестве определена операция °, сопоставляющая каждым двум элементам а и Ь нашего множества единственный третий элемент, обозначаемый символом а • Ь, причем 1° операция ° коммутативна: а о Ь = Ь о а для любых а и Ь из G; 2° операция ° ассоциативна! (а о Ь) о с = а ° (Ь о с) для любых а, Ь и с из G; 3° в множестве G существует такой элемент е, что а о е — а для всех а из G; х) В алгебре рассматриваются также и некоммутатив- п ы е группы, для которых сформулированное ниже условие I9 но имеет места; однако так как в этой книге встречаются лишь ком- коммутативные группы, то мы позволили себе, в отступление от тра- традиции, включить условие 1Р в определение группы.
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 459 4° для каждого элемента а из G существует такой эле- элемент а*, что Групповую операцию ° иногда обозначают знаком +; при этом элемент а + Ь называют суммой элементе з а и Ь; элемент е такой, что а -\- е — а для всех а, называют нулевым элементом или просто нулем группы и зачастую обозначают символом 0; эле- элемент а* такой, что а + а* = 0, называют противоположным к а и обозначают через —а. Можно также результат а ° Ъ применения к элементам а и Ь групповой операции ° обозначить через а-Ъ или через аЪ; в таком случае ае — а для всех а, и поэтому е называют единичным элементом или единицей группы и иногда обозначают символом 1; далее, аа* = 1, и поэтому а* называется обратным к а и обозначается через а. Мы в дальнейшем всегда будем обозначать групповую операцию знаком + ; при этом через а — Ь обозначается такой элемент х (разность элементов а и Ь), что х + Ъ = а (нетрудно видеть, что та- такой элемент х всегда существует: он равен а + (— Ь)). Примеры. А. Множество целых чисел (или рациональных чисел, или вещественных чисел) образует группу по сло- сложению; другими словами, соответствующее множество, где за групповую операцию принято (обыкновенное!) сложение, образует группу с нулем 0 и противоположным а элементом — а. Б. Примем за групповую операцию (которую мы те- теперь будем обозначать знаком « + », чтобы подчеркнуть, что это не есть обыкновенное сложение) умножение чисел. При этом множество целых чисел уже не будет об- образовывать группы, поскольку здесь, очевидно, не выпол- выполнено условие 4е: ведь целое число а* такое, что а «+» а* = = аа* = 1, существует, только если а = 1 или а— — 1.
ПРИЛОЖЕНИЕ II Тлкжс и множество всех рациональных чисел не об- l».i:iycT группы по умножению, поскольку здесь условие А" нарушается при а — 0. Однако множество всех отлич- отличных от 0 (или всех положительных) рациональных чисел (или вещественных чисел) уже образует группу по умножению. 13. Рассмотрим снова множество всех целых чисел и определенную в этом множестве операцию сложения чисел. Иы берем теперь какое-то целое положительное число q и условимся заменять каждое число А остатком а от деле- деления А па q'i так, например, если q = 10, то мы условимся оставлять у каждого целого положительного числа А только его последнюю цифру а (это и есть остаток от деле- деления А на 10). Множество всевозможных остатков от деле- деления целых чисел на qt состоящее из <? чисел ОД, 2} ..., q —1, мм назовем «q-арифметикойц суммой же элементов а и Ь «^-арифметики мы назовем остаток от деления обычной суммы а + Ь на q (равный а + Ь, если а + b < q). Вот как выглядят, например, «таблицы сложения» в 2-ариф- метике, 5-арифметике и 6-арифметикез + 0 1 2 3 4 0 0 1 2 3 4 1 1 2 3 4 0 2 2 3 4 0 1 3 3 4 0 1 2 4 4 0 1 2 3 + 0 1 2 3 4 5 0 0 1 2 3 4 5 1 1 2 3 4 5 0 2 2 3 4 5 0 1 3 3 4 5 0 1 2 4 4 5 0 1 2 3 5 5 0 1 2 3 4 Легко видеть, что q-арифметика по отношению к определенному в ней сложению представляет собой группу из q элементов (или, как говорят, группу порядка;); нулевым элементом этой группы является число 0, а про- противоположным числу a=f=O будет число q — а (ибо сумма а + (Я — а) ПРИ делении на q дает остаток 0). Для 2-ариф- метики, очевидно, противоположным для каждого числа а (т. е. и для а = 0 и для а = 1) будет оно само! здесь всегда — а = а. Г. Пусть G — к а к а я-у водно группа, например, группа целых чисел по сложению или группа сложения чисел в ^арифметике. Рассмотрим теперь произвольную
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 461 таблицу из т строк и п столбцов или (га X п)-матрицу п о12 ... а1п Я21 «22 ... <'2п А = \ составленную из элементов группы С, которые мы далее будем называть числами. Ясно, что, ycjioitiuiiuiici. склады- вать матрицы «поэлементно» (т. е. считая, что числю, стоя- стоящее на некотором месте матрицы-суммы, равно сумме чи- чисел, стоящих на тех же местах в матрицах- слагаемых), мы придем к группе (т X п)-матриц по сло- сложению; нулевым элементом этой группы служит нулгппя матрица О, составленная из одних пулой. A X п) - матрицы начинают также векторами (или векторами-строками); аналогично этому (т :< ^-матри- ^-матрицы называют векторами-столбцами. Разумеется, векторы с одним и тем же числом элементом строки (или столбца) также можно складывать между собой; если элементы век- векторов принадлежат какой-то группе («группе чисел»), то и векторы образуют группу по сложению. Векторы ча- чаще всего обозначают малыми латинскими буквами жир- жирного шрифта; «нулевой вектор» (т. е. строку или столбец из одних нулей) иногда обозначают жирной цифрой 0. Если группа G «чисел» является бесконечной, то бес- бесконечной будет и группа (т X п)-матриц (в частности, векторов), которые строятся из этих «чисел». Если же груп- группа G имеет конечный порядок q, то группа (т X <гс)-мат- риц будет иметь порядок qmn: ведь матрица имеет тп элементов, вместо каждого из которых можно подставить любой иэ q элементов группы G. Аналогично группа векто- векторов-строк из п элементов и группа векторов-столбцов из га элементов будет иметь конечный порядок qn, соот- соответственно, qm, если основная группа G имеет порядок q. Д. Рассмотрим произвольный многочлен / (х) = а0 + агх + azx2 + ...+ an_j а-", коэффициенты а0, аг, ..., ап_х которого являются элемен- элементами произвольно выбранной группы G. Если g (x) —
4A2 ПРИЛОЖЕНИЕ II другой многочлен g (х) = Ь0 + Ьгх + Ъ2х* + ...+ Ь (мы считаем, что / (х) и g (х) имеют одну и ту же степень, ибо в противном случае всегда можно дополнить тот из них, степень которого ниже, несколькими «старшими» чле- плми с коэффициентами 0 при них), то можно определить с. у м м у многочленов j(x) + g (х) = (оо + Ьо) + (а1 + &,)* + (а2 Легко видеть, что многочлены с определенной таким обра- аом операцией сложения образуют группу; эта группа ис.сгда будет бесконечной, ибо степень многочлена может быть сколь угодно большой. Роль нулевого элемента этой группы играет, очевидно, «нулевой» многочлен 0, все ко- коэффициенты которого равны нулю; противоположным / (х) будет многочлен —/ (х), все коэффициенты которого противоположны коэффициентам / (х). Если мы ограничимся многочленами степени ниже п, где п — какое-то фиксированное число, то мы также по- получим группу; она, как легко видеть, отличается от груп- группы векторов / = (ао»Оц«2, -">«n-i) лишь формой записи элементов группы. Эта группа уже будет конечной, если конечной является группа G; если порядок группы G равен q, то порядок группы многочле- многочленов степени < п равен qn. Так, например, имеется всего 22 = 4 многочлена степени < 2 с коэффициентами из 2-арифметики: 0,1, х и х + 1; «таблица сложения» этих многочленов такова + 0 1 X x + i 0 0 1 X x + l I i 0 x + i X X X x + i 0 1 x + i x + i X 1 0 Пусть теперь G — произвольная группа и Н — часть элементов этой группы. Если множество Н элементов груп- группы таково, что 1° если а принадлежит Hub принадлежит Нг то а + Ъ тоже принадлежит Н;
НЕКОТОРЫЕ АЛГЕБРАМ ЧВСКИЁ ПОНЯТИЯ 46Э 2° если а принадлежит И, то и —а принадлежит Н; 3е нулевой элемент О группы A принадлежит Н, то множество Н само образует группу относительно определенной в G операции сложении. В таком случпо говорят, что Н представляет собой и о д г р у и и у группы G. В частности, если G — группа целых чисел но сложе- сложению, то совокупность 11 всех чисел, icp.nm.ix фиксиро- фиксированному числу I, образует подгруппу группы A. Точи» так же, если G — группа сложения чисел и г/ арифме- арифметике и q = kl — составное число, то совокупность II нсех принадлежащих G чисел, делящихся на I (т. е. чисел /, 21, 31, ..., (к — 1H, образует подгруппу группы G (не- (несущественно отличающуюся, как легко попять, от груп- группы сложения чисел в /|>арифметике). Подгруппой группы (т X тг)-матриц по сложению яв- является, например, группа иссноаможпмх мнтриц, у кото- которых все строки, кроме нерпой, состоят из одних лини, ну- нулей (эта подгруппа, очеиидно, лишь намисыо отличается от группы по сложению векторов-строк), а также группа матриц, у которых равны 0 все элементы, кроме какого-то одного фиксированного, — например, элемента аи, стоя- стоящего в правом верхнем углу (эта подгруппа сводится к группе G, поскольку каждый ее элемент задается одним числом йп). Укажем еще, что если G есть группа (т х п)- матриц с элементами из «2-арифметики», то для того чтобы убедиться, что некоторая ее часть составляет подгруппу, достаточно проверить выполнение одного условия 1° (ибо в 2-арифметике каждое число обратно самому себе, а потому здесь А -\- А = О для каждой матрицы А и, значит, — А = А). Подгруппой группы всех многочленов является груп- группа многочленов степени < п; для этой же последней груп- группы подгруппой является группа многочленов степени <; к, где к < п, или группа многочленов, обращающихся в 0 при х = 0 (эти многочлены характеризуются равенством нулю «свободного члена» о0). 2. Следующими по 'важности алгебраическими систе- системами являются поля и кольца. Множество F элементов а, Ъ, с и т. д. называется п о- л е м, если в нем определены две операции, сопоставляющие двум элементам а и Ъ поля третий элемент; эти операции
404 ПРИЛОЖЕНИЕ II можно назвать «сложением» (и обозначать «сумму» элементов а и Ь поля ч.ерез а -\- Ъ) и «у м н о ж е н и е м» («произведение» элементов а и Ъ естественно обозначить через аЬ). При этом: Т) элементы поля должны образовывать группу по сло- сложению; II) отличные от пуля элементы поля должны образо- образовывать группу по умножению; III) сложение и умножение должны подчиняться дш~ трибутивному закону: (a -f- Ъ)с = ас -f- be для всех а, Ь и с. Легко понять, что для любых элементов а и Ъ поля F, где о отлично от нуля, существует их «частное»т—, т. е. та- такое число у, что by—а: это у можно определить формулой У = ai. Примеры. А. Ясно, что множество всех рациональных (или вещественных, или комплексных) чисел образует поле относительно обычных операций сложения и умно- умножения. Г>. «Произпсдепие чисел а и Ъ ^-арифметики» опреде- определим кнк остаток от деления на q обычного произведения ah; так, например, «произведение чисел а и Ъ 10-арифме- тики» — это просто последняя цифра числа ab. Вот, на- например, как выглядят «таблицы умножения чисел» в 2- арифметике, в 5-арифметике и в 6-арифметике: 01 - 01234 • 012345 0 0 0 1 - 0 1 2 3 4 0 0 0 0 0 0 1 0 1 2 3 4 2 0 2 4 1 3 3 0 3 1 4 2 4 0 4 3 2 1 0 0 0 0 0 0 0 12 3 4 5 0 2 4 0 2 4 0 3 0 303 0 4 2 0 4 2 0 5 4 3 2 1 Сравнение этих таблиц позволяет усмотреть сущест- вепную разницу между ними: в то время как для 2-ариф- метики и 5-арифметики каждая строка таблицы, кроме первой строки, состоящей из одних нулей, содержит еди- единицу, для 6-арифметики это будет уже не так (здесь не со- содержит единицы 3-я, 4-я и 5-я из шести строк таблицы). Таким образом, в 2-арифметике и в 5-арифметике любое
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 405 отличное от 0 число имеет обратное (в 2-арифметике име- имеем i~i = 1; для 5-арифметки верны равспстка I — 1, 2 = 3, З = 2 и 4 = 4); шшротип, и (i-арифмстике числа 2, 3 и4 не имеют обратных. Отсюда легко следует, что 2-арифметика и Ь-арифметика по отношению к опре- определенным в них сложению и умножению являются полями, а 6-арифметика полем п е ян л я о т с я. Нетрудно понять, что для любого с. о с т а и и о г о q = kl (где к ^> 1, I ^> 1) «^-арифметика и о м о ж о т явиться полем: это вытекает, например, из топ», что лдось kl = 0 (где умножение понимается в указанном выше смысле). Если же р — простое число, то в />-арифме- тике каждое число имеет обратное (см. ниже, стр. 467); поэтому р-арифметика с определенными в ней действиями сложения и умножения чисел представляет собой конеч- конечное поле Fp из р элементов (или поло п о р я д к ;i p). Обратимся теперь к случаю нрои:шол >й ^-"рф ки, где q, вообще говоря,— с о с т а в и о с число. \\ та- таком случае мы не получаем поля, поскольку но каждый элемент ^-арифметики будет иметь обратный; все же ос- остальные определяющие поле условия сохраняют силу и для этого случая. Множество К элементов а, Ь, с и т. д., в котором оп- определены операции сложения и умножения, причем I) элементы нашего множества образуют группу по сложению; II) умножение элементов множества таково,что ab=ba для всех a ub; (ab)c = a (be) для всех а, Ьис; существует такой элемент 1, что а • 1 = а для всех а; III) сложение и умножение подчиняются дистрибутив- дистрибутивному закону: (а + Ъ) с = ас + be для всех a, b и с, называется (коммутативным) кольцом1). *) Здесь мы также отклоняемся от традиций, согласно которым при определении кольца всегда требуют коммутативности сложения (выполнимости равепства а + Ь = 6 -(- а при всех аи Ь), но не на- настаивают на коммутативности умножения, т. е. на обязательности равенства аЬ = Ъа. (Отметим также, что иногда в определение кольца не включают и требование существования единичного элемента 1.)
/,|ili ПРИЛОЖЕНИЕ II Примеры. «) Ясно, что поле — это частный случай кольца (поле— :>то кольцо с делением); поэтому все примеры полей одно- одновременно являются и примерами колец. б) Совокупность всех целых чисел составляет кольцо (относительно обыкновенных операций сложения и умно- умножения чисел). в) Совокупность всех многочленов с коэффициентами из некоторого поля F составляет кольцо относительно по- почленного сложения многочленов и почленного их умно- умножения: если а (х) = «0 + &\х + агх* + •••+ an-ixU~x и Ь (х) =*>„ + Ъгх + Ь2х* + ... + Ьт_г хт'\ то « (х) /; (х)= ао6в+(аА + а^о) х + {aob2+a1b1 Нулевым элементом этого кольца является многочлен О, •I единичным — многочлен 1 (оба они — многочлены ну- нулевой степени). Примеры б) и в) имеют между собой много общего; это общее проявляется, например, в существовании в обоих j)ассматриваемых кольцах деления с остат- к о м числа а на Ъ или многочлена а(х) на Ъ (х) (где |а|^> Г> | b |, соответственно, ст. а (х) ^ ст. b (x); через ст. f(x) ми обозначаем степень многочлена / (х)): а = — ub + г, где |г| < |6|; а {х) = и (х) b (х) + г (х), где ст.г (х) < ст.Ь (х). Здесь число и (многочлен и (х)) называется частным от деления а на b (или и (ж) на b (х))), а число г (многочлен г (х)) — остатком (остаток от деления может оказаться равным 0). Процедуру деления с остатком можно использовать для нахождения наибольшего общего де- делителя (НОД) двух чисел или двух многочленов. Так, например, ограничиваясь случаем (целых) чисел а и b и обозначая НОД этих чисел через (о, Ь), последова- последовательно находим (числа мы считаем положительными): а = ub + г, где г <^ b и (а, Ь) = (Ь, г); Ь =щг + гх, где гг<г и (&, г) = (г, г^; г = щгг + г2, где r2<^rt и (г, г^ = (rlf гг); + гк, гдегл<гк_а и (rfc_2, гй_х) = (rfc_1; rk); rfc_x = ик+1гк, и, значит, (rfc_r, rk) = гк.
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 467 Таким образом, число rh — это и есть d = (a, ft). Важно заметить, что найденное описанным способом 1) число d = (а, Ь) можно выразить мороз исходные числа а и b в виде d = Ma -|- ЛМ, (*) где М и N — какие-то целые числа. И самом дол о, из выписанных выше формул последопатслыю находим г = 1-а + (— и) • b (= т • а + п ' b), /i = 1-6+ (—Mi)'r= m1'a-{-n1-b, г2 = 1т + (—Мг)-^ = пц rft = lTft-2+ (— Ий)-^-1 - M-n -|- ЛГ-А, где все числа т и и (т. е. 1 и — н), т, и и, (они рапнм — иг и 1 + MMi), Ш2 и и2, ..., Л/ и JV — целые. Из формулы (*), в частности, вытекает, что вр-арифме- тике (где р — простое) каждое число a =f= 0 имеет обратное. В самом деле, если 0 < а < р, то, очевидно» (а, р) = 1, и поэтому 1 = (а, р) = Ma + Np; таким образом, произведение Ма (= (— N)-p + 1) при делении на р дает остаток 1. Но это и значит, что отве- отвечающее М число rap-арифметики (остаток от деления М на р) в р-арифметике является обратным а: при перемно- перемножении чисел но правилам р-арифметики мы имеем та = I и, значит, т = а. Совершенно та же процедура позволяет найти НОД (о (ж), Ь (х) ) двух многочленов а (х) и b (x) Л) Описанная процедура нахождения наибольшего общего делителя а и Ь носит название алгоритма Евклида; кольца, в которых эта процедура применима (в частности — коль- кольцо целых чисел или кольцо многочленов) иногда называют евкли- евклидовыми кольцами.
.',1'iH ПРИЛОЖЕНИЕ II и док«;|.-1Т1>, что если (а(х), Ъ{х)) = d (х), то d (х) = М(х)-а (х) + Щх)- Ь(х), (**) i д<> М(х) и N(x) — какие-то многочлены. Аналогию между кольцом целых чисел и кольцом мно- многочленов (с коэффициентами из какого-либо поля F) мож- можно охарактеризовать еще и иначе. Подмножество / эле- элементов произвольного кольца К называется идеалом ;>того кольца, если (I) множество J представляет собой подгруппу по от- отношению к определенной в К операции слежения; II) для каждого а из J также и все произведения ah, где к — какой-угодно элемент К, принадлежат J. Типичным примером идеала кольца целых чисел явля- является множество всех чисел, кратных произвольно выбран- выбранному целому числу i (т. е. чисел вида ai, где а пробегает нее целые значения); аналогично этому примером идеа- .11 л в множестве многочленов является множество много- многочленов, кратных произвольному наперед заданному много- многочлену i(x) (т. е. множество многочленов вида a(x)i(x), где а(х) — произвольный многочлен). Идеалы описанного строения называются главными идеа- л а м и кольца целых чисел, соответственно коль- цп многочленом, порожденными числом i и много- многочленом i(x). Имеет место следующее утверждение, раскрывающее глубокие общие свойства колец целых чисел и много- многочленов: В кольце целых чисел и в кольце многочленов каждый идеал J является главным, т. е. состоит из всевозмож- всевозможных кратных фиксированного целого числа i, соответствен- соответственно — фиксированного многочлена i(x). Доказательство высказанного утверждения не пред- представляет никакого труда. В самом деле, конечно, возмож- возможно, что идеал кольца целых чисел состоит из одного лишь числа 0 (для этого множества из одного элемента очевид- очевидно выполняются все определяющие идеал условия),—но в таком случае это есть главный идеал, порожденный чис- числом 0. Если же это не так, то обозначим через i на- наименьшее по абсолютной величине отличное от нуля число, входящее в состав идеала / (для простоты можно условиться считать, например, что 0
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 469 Докажем теперь, что любое другоо принадлежащее / отличное от нуля число Ъ обязательно будет кратно i. Так как | b | > i, то b можно разделить ил i: b = ai -\- г, гдо 0 <; г < i. Но так как / — идеал, то наряду с. b и I ему принадлежат и числа ai,—aiu г = Ъ -\- (— ai). Потому г — 0 (ибо i — наименьшее по абсолютной нелмчипо и:> принад- принадлежащих 3 и отличных от нуля чисел) и, зпичит, h = ai. Относящееся к кольцу многочленов утперждоии» дока- доказывается точно так же; здесь только за i (x) надо принять отличный от 0 многочлен наинизшей степени, входящий в состав идеала J. Обратимся теперь к дальнейшим примерам колец. г) Мы уже видели, что q-арифмепшка с. определенными в ней сложением и умножением представляет собой кольцо из q элементов (кольцо коночного и о р и д к ;\ а); если при этом число q — п р о с т о с, то наш» кольцо япляот- ся полем. д) Выше отмечалось, что совокупность многочленов степени <^ п, где п — фиксированное число, представляет собой группу по сложению (конечную группу, если коэф- коэффициентами многочлена являются элементы конечного поля). Однако кольца такие многочлены не образуют, ибо степень произведения двух многочленов, вообще говоря, выше степени каждого из сомножителей. Для того, чтобы обратить совокупность многочленов степени <(вв кольцо, можно поступить так. Выберем фиксированный (какой угоднсИ) многочлен Q (ж) степени п и условимся заменять каждый многочлен остатком от его деления на Q (х); степень этого остатка будет уже < п. Так мы приходим к «Q (х)-ари фметике» многочленов, в которой невозможны никакие многочлены степени > п; в частности, «произведение» двух многочле- многочленов, понимаемое в смысле «() (ж)-арифметики», всегда име- имеет степень <Z п. Q (х)-арифметика всегда (т. е. при любом выборе многочлена Q (х)) является кольцом; оно будет конечным, если поле коэффициентов многочленов конечно. Если порядок поля F коэффициентов равен/? и ст. Q (х) — п, то порядок рассматриваемого кольца будет равен рп.
170 ПРИЛОЖЕНИЕ II Пот как выглядят «таблицы умножения» четырех мно- многочленов степени <2с коэффициентами из 2-арифметики II (л2 + ж)-арифметике и в (а? + ж + 1)-арифметике5 • 0 1 X х+1 0 0 0 0 0 1 0 1 X х+1 X 0 X X 0 x + i 0 x + i 0 x + i • 0 1 X x+i 0 0 0 0 0 1 0 1 X x + i X 0 X x + i 1 X + i 0 x+i 1 X Поучительно сравнить эти две таблицы. Две последние строки первой из них не содержат числа 1 — это означает, что в (а? 4- ж)-арифметике многочлены ж и ж + 1 не имеют обратных. Напротив, во второй таблице все строчки, кроме одной лишь первой, состоящей только из иулей, число 1 содержат; это значит, что в (жа + х + 1)- арифметике все многочлены, отличные от нулевого, име- имеют обратный: здесь I = 1, ж = х + 1 и (х + 1)~1 = х. Таким образом, в то время как (х2 + х)-арифметика многочленов с коэффициентами из 2-арифметики представ- представляет собой лишь кольцо, (ж2 + х + 1)-арифметика много- многочленов с коэффициентами из того же поля образует поле. Нетрудно понять, с чем связано такое различие. Многочлен Q (х) = х2 + х является он разлагается на множители степени ж" + х — х (х + 1). Отсюда уже следует, что (жа + а;)-арифметика полем яв- являться не может — это вытекает, хотя бы из того, что вдесь ж (ж + 1) = 0. Напротив, многочлен Р (ж) = ж8 + ж + 1 —простой (или, как чаще говорят в алгебре, н е- приводимый): его нельзя разложить на множи- множители степени > 1. А отсюда, в свою очередь, сразу выте- вытекает, что в Р (ж)-арифметике каждый многочлен а (х) =ф= 0 составным: 1:
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 471 имеет обратный; доказательство этого факта, опирающе- опирающееся на формулу (**), стр. 468, во всем аналогично доказа- доказательству того, что в /7-арифметике, где р — простое, каждое число а имеет обратпое ему. Такт! образом, мы приходим к еще одному примеру поля; В. Если Р (х) — неприводимый многочлен о коэффициентами из некоторого поля F, то Р (х)-арпфме- така с коэффициентами из F образует поле. Если F — это описанное выше конечное поле /',, порядкп р (где р — произвольное простое число) и ст. Р (.г) = п, то порядок полученного поля равен рп. Можно показать, что при любом простом р для каждого к ^> 1 существует неприводимый многочлен степени к с коэффициентами из поля Fp; отсюда следует, что при любом целом i>l и любом простом р существует конечное поле порядка /7* (полем порядка р1 = р является сама />-ариф- метика). При этом хотя неприводимых многочлепов Р(х) данной степени к с коэффициентами ия поля Fp может су- существовать много, все отвечающие им /*(з:)-арифметики устроены одинаково: для каждого простого р и каждого к ^ 1 существует лишь одно (с точностью до переиме- переименования элементов) поле порядка рк. Если же целое число т не имеет вида рк (т. е. если т содержит хотя бы дваразличных простых множителя), то поля поряд- порядка m п е существует вовсе *). В заключение заметим еще, что поскольку @(ж)-ариф- иетика получается из полного кольца многочленов (с коэф- коэффициентами из какого-то выбранного поля F) «склеивани- «склеиванием» всех многочленов, дающих один и тот же остаток при делении на Q (х), то и идеалы Q (ж)-арифметики полу- получаются из идеалов кольца всех многочленов таким жо отождествлением всех многочленов, дающих один остаток при делении на Q (ж). А отсюда, в свою очередь, следует, что идеалы Q (^-арифметики устроены аналогично идеа- идеалам кольца всех многочленов: здесь также каждый идеал *) Таким образом, поле конечного порядка т. существует, если т = рн, где р — некоторое простое число, и не существует для всех других чисел т, причем для каждого простого р и целого положительного к имеется лишь одно поле порядка />*. Все эти поля были найдены замечательным французским математиком Э. Галуа; поэтому они называются полями Галуа.
/, /;• ПРИЛОЖЕНИЕ II .'лииным (т. е. состоит из всех многочленов, крат- пи ч II смысле (?(ж)-арифметики некоторому фиксирован- фиксированному многочлену i(x)). При этом, однако, необходимо имен, и виду, что, как нетрудно усмотреть из формулы (*¦), стр. 468, понимаемое в смысле (?(ж)-арифметики множество всех многочленов, кратных данному многочле- многочлену ' (.г), совпадает с множеством всех многочленов, кратных многочлену d (ж), где d (х) = (Q (ж), i (ж)) есть МОД многочленов i (х) и Q (х). Отсюда следует, что при не приводимом (простом) многочлене Q (х) ''(.г)-арифметика не содержит никаких идеалов, отлич- отличных от 0 и от всего кольца (от всей Q (ж)-арифметики) — иодь здесь ПОД Q(x) и i(x) совпадает с 1 или с Q(x). Если жо многочлен Q(x) приводим, т. е. разлагается на мно- множители, степени которых меньше ст. Q (х), то множество псех многочленов, кратных каждому из этих множителей многочлена Q(x), образует идеал Q (ж)-арифметики— так, например, в случае (ж2 -f- ж)-арифметики над 2-арифмети- кой множество всех идеалов состоит из «нулевого идеала» {()}; всей (ж2 -f- ж)-арифметики; множества {ж, 0} многочле- многочленов, кратных ж, и множества {ж+1,0} многочленов, крат- кратных х -f- 1 (см. верхнюю таблицу на стр. 470). 3. Перейдем теперь к следующему из используемых в теории кодирования алгебраических понятий. Множество V элементов а, Ь, с и. т. д. (называемых и с к т о р а м и) образует векторное прост- пространство над полем F (элементы поля мы будем на- называть числами; нулевой и единичный элементы поля ниже обозначаются символами 0 и 1), если I) в множестве векторов определена операция сло- сложения, относительно которой векторы образуют группу (нулевой элемент этой группы обозначается сим- символом 0); II) определена операция умножения вектора на число; при этом произведение а а (где о — число, а а — вектор) есть вектор и 1° умножение вектора на число ассоциативно: a(ba) — (ab) а; для всех чисел о, Ъ и всех векторов а; 2° умножение вектора на число дистрибутивно от- относительно сложения чисел: (я + Ъ)а — аа + Ьа для всех чисел а, Ъ и всех векторов а;
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 473 3° умножение вектора па число дистрибутивно отно- относительно сложения векторов: а (а + Ь) = аи -f- ab для псих чисел о и всех векторов а, Ь; 4° 1а = а для всех векторов а. Из свойств (аксиом) умножения вектора на число лег- легко выводится также, что Оа = 0 для всех векторов «.; «О 0 для исех чисел а; (—1) а = — а, для всех векторов а. Примеры. А. «Блоки» {векторы) а = (а0, ях, ..., hjv-i)» где N — фиксированное натуральное число и я„, «х, ... ..., «jv-i — произвольные числа из поля F, образуют век- векторное пространство относительно следующим образом определенных операций сложения векторов и умножения вектора на число: если а = (й0, оц ..., я/v-i) и Ь A>0, Ь„ ..., 6W-i), то а + 6 = (я0 + &„, я, -|- fc,, ..., «jv-i I- hit); если а = (а„, йх, ...,aiv-i), то аа = (aa0, aflj, ..., aaN i). При этом поле F называется полем скаляров или основным полем, над которым строится векторное пространство V; числа a0, elt ..., un-i называют- называются координатами вектора а, а число N — раз- размерностью нашего векторного пространства. Если поле F — бесконечно, то число возможных век- векторов также является бесконечным; если же F — поле порядка т, то векторное пространство V размерпости ./V (Л^-мерное векторное пространство) содержит всего mN векторов. Этот пример является основным; другие примеры всег- всегда стараются свести к нему. Б. Векторы {направленные отрезки) плоскости или пространства образуют векторное пространство относи- относительно следующим образом определенных операций сло- сложения векторов и умножения вектора на (вещественное!) число: ОА -f- OB = ОС, если ОС — диагональ параллелограм- параллелограмма ОАСВ, построенного на отрезках ОА и ОВ;
ПРИЛОЖЕНИЕ II Ol> — а-ОЛ, если OD и О А принадлежат одной пря- прямой; ОТ) = |«| • ОА\ OD и О А направлены в одну сторо- сторону, если а ^> 0, и в противоположные стороны, если а < 0. Пример Б сводится к основному примеру А, если обыч- обычным образом ввести координаты (х, у) вектора О А плоско- плоскости (рис. 38, о) и координаты (ж, у, z) вектора О А простран- пространства (рис. 38, б). При этом оказывается, что в случае век- векторов плоскости если а = (х, у) и Ь — (ж1? yt), то а + Ь = (х + ъ, у + у,) и аа = (ах, ау); и случае векторов пространства если а — (х, у, z) и ь = (a*. 2/i. zi). то а + Ь = (х + хг, у + ylt z + zj и аа = (аж, о?/, az). Таким образом, векторы плоскости обраеуют двумер- двумерное векторное пространство^ а векторы пространства — О Рис. 38. трехмерное векторное пространство над полем веществен- вещественных чисел. В. Ясно, что произвольные (т X п)-матрицы с еле- ментами из тюля F образуют (т п)-мерное пространст- пространство над F, если сложение матриц определять как выше, а умножение матрицы на число а — как умножение всех элементов матрицы на это число: ведь различие этого при- примера с основным примером А заключается лишь в том, что тп координат вектора здесь записывается не в одну стро- строку, а в виде прямоугольной таблицы. Г. Многочлены степени < п о0 + ахх Н
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 475 с коэффициентами из поля F образуют п-мерное векторное пространство над F: ведь каждый многочлен можно харак- характеризовать его коэффициентами а0, alt ..., On-i (которые, если угодно, можно выписывать, заключая их в круглые скобки), а (обычное) сложении многочленов и умиожгние многочлена на число сводите л к сложению коэффициентов двух многочленов и к умножению коэффициентов много- многочлена на число. Д. Всевозможные многочлены ао акхн, степень которых заранее никак но ограничивается, тоже образуют векторное пространство относительно обычных операций сложения много- многочленов и умножения мно- многочлена на число. Этот пример, однако, не сводит- сводится к примеру А, поскольку число коэффициентов мно- многочлена может быть сколь угодно велико; поэтому," говорят, что пространство всех многочленов размер- размерности не имеет (иногда вместо этого говорят, что оно имеет бесконеч- бесконечную размерность). Пусть теперь W, — не- Рис Зд. которая часть векторов векторного пространства v. Если множество W таково что 1° если вектора принадлежит W и вектор Ь принадле- принадлежит W, то также и вектор а + Ь принадлежит W; 2° если вектор а принадлежит W, moW принадлежат также и все векторы аа, где а — всевозможные числа, го множество векторов W само представляет векторное про- пространство относительно определенных в V операций сложе- сложения векторов и умножения вектора на число. В этом случае говорят, что W представляет собой (линейное или векторное) подпространство векторного прост- пространства V. В частности, если V — множество векторов О А обыкно- обыкновенного пространства, a W — проходящая через точку О
471» ПРИЛОЖЕНИЕ II плоскость (рис. 39), то принадлежащие W векторы ОБ об- обжалуют подпространство всего векторного пространства. 1мл и V — множество всех /г-мерных векторов а = (в1? «2, ..., ап), то множество W векторов а, координаты которых удовлет- по|»пот фиксированному соотношению вида Ьупу + Ь2аг + ...+ Ьпоп = О, (А) где by, Ьг, ..., bn — произвольные «числа», т. е. элементы того поля, которому принадлежат координаты векторов, образует подпространство. В самом деле, легко видеть, что если числа ау, а2, •••. «и и а'у, й2 , ..., а'п удовлетворяют соотношению (А), то и числа пу + а[, й2 + йг> .•-> «п + «п удовлетворяют тому же соотношению; аналогично этому, если числа аг, й2, ..., ап удовлетворяют соотношению (А), то (А) удовлетворяют и числам аа1У аа2,..., аап, где а — произвольное число. Также просто устанавливается, что множество W векторов а, координаты которых удовлет- удовлетворяют системе соотношений Ьщап = О, (Б) Ьтупу -\- Ътфг + • • • Ч- bmnan == О, образует векторное пространство. Более того, во всех учеб- учебниках линейной алгебры доказывается, что каждое подпространство W я-мерного векторного пространства V может быть задано системой соотношений (Б) (быть может, единственным соотношением (А)), связывающих коорди- координаты принадлежащих этому подпространству векторов. В частности, принадлежащие фиксированной плоскости W векторы трехмерного пространства V выделяются тем, что их координаты х, у, z удовлетворяют соотношению где {by, Ъг, Ь3) — координаты произвольного вектора Ь, перпендикулярного плоскости W (рис. 39). Вот еще примеры векторных подпространств: Множество всех многочленов степени < п составляет линейное подпространство пространства всех вообще много-
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 477 членов; если к < п, то множество всех многочленов сте- степени < к составляет подпространство пространства много- многочленов степени < п; множество всех многочленов вида а (х) = g (х) Ъ (ж), где g (х) — фиксированный многочлен, а Ъ(х) — какой угодно, составляет подпространство множества всех многочленов (а если g (ж) имеет степень к, а Ь(х) — произвольный многочлен степени < п — к, то мно- множество рассматриваемых многочленов представляет собой подпространство множества всех многочленов степени < /г). Заметим еще, что в случае векторного пространства над нолем из чисел 0 и 1 (над 2-арифметикой) проверка того, что некоторое множество вскторок образуют подпро- подпространство исходного пространства, сводится к проверке свойства 1° (ибо здесь пет отличных от 0 и 1 чисел, а век- вектор 0- а всегда можно представить и нидо суммы а -|- о). Таким образом, здесь вес подпрмтранстиа аск торного пространства совпадают с подгруппами группы векторов по сложению. Нетрудно показать, что точно так же обстоит дело и в случае векторного пространства, построенного 1 над любой р-арифметикой, где р — простое число; од- однако в случае отличного от р-арифметики основного поля (например, когда в качестве основного поля фигурирует •Р(ж)-арифметика, где Р(х) — неприводимый многочлен) существуют и подгруппы векторного пространства, не являющиеся его подпространствами. От понятия векторного пространства легко перейти к (основ* ному для геометрии!) понятию евклидова пространст- пространства. А именно, N-мерное векторное пространство Е называется евклидовым, если в нем определена длина | « |е (или просто | а |) вектора а с координатами (о0, %, . . ., aN_J): (разумеется, основное поле здесь должно быть таково, чтобы в нем существовал корень квадратный из суммы квадратов любых двух элементов поля). Далее, если условиться называть векторы евкли- евклидова ^пространства «точками», сопоставив нулевой вектор О неко- некоторой точке О, а вектор а —- точке А с теми же координатами и условившись писать а = О А, то расстояние | АВ |е или просто
478 ПРИЛОЖЕНИЕ II | Ah | между точками А л В определится так: | А1Ц = \ОВ — 'ОА\ = = У (йь - ао)« + Fi -«!)* + ... + FN _! - aN _хI, (**) i-дс (nn, olf . . ., aw_x) _и_(Ь0, _bi. • • ч bjv_i) — координаты точек Л и В (т. е. векторов О А и СШ). После этого содержание евклидо- ной геометрии можно охарактеризовать как описание тех свойств фигур (т. е. множеств точек) евклидова пространства Е, которые будут одинаковыми для любых двух равных фигур (где равен- равенство фигур определяется условием равенства расстояний между парами соответствующих друг другу точек этих фигур). Евклидово пространство с вещественным и коорди- координатами точек и векторов является примером метрического век торного пространства. Множеством точек называется метриче- метрическим пространством, если для каждых двух точек А и В определено (вещественное) число рАВ, называемое расстоянием между А и В, причем 1° рАВ >¦ 0 при А ф В; рАА = О (положительность расстояния); 2° рАВ = рВА (симметричность расстояния); 3° Рав ~Ь Рве ^ Рас пРи любых А, В -я С (неравен- (неравенство треугольника). Если число рАВ = | АВ | е определяется по формуле (++), то условия 1° и 2°, очевидно, выполняются. Несколько сложнее установить выполнимость условия 3°, т. е. справедливость неравенства > /(со - «o)* + (ci _ eiJF + . . . + (PN _x - aw _!>». —но и она может быть доказана без особого труда *). Существуют и много других способов введения «метрики» в /V-морном векторном пространстве. Так, например, во многих отношениях более простой.чем евклидова метрика (+)—(++), является так называемая «метрика Минковского» *): il Г) 1) См., например, А. Н. К о л м о г о р о в, С. В. Ф о м и н, Элементы теории функций и функционального анализа, М., «Наука», 1972, стр. 45. 2) Немецкий математик Г. Минковский в своих исследованиях по теории чисел рассмотрел более общий метод введения метрики в JV-мерном векторном пространстве, охватывающий обе формулы (++) и (••).
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 479 где \а\ — абсолютная величина (веществепного) числа я; из форму- формулы (**) непосредственно следует, что и расстояпие рАВ = | АВ | м удовлетворяет условиям 1°—3°. Метрику (*)—(**) можно определить для векторного простран- пространства, построенного над любым основным полем />', для которого существует абсолютная величина элемента а ноля •— такое ве- вещественное число | а |, что 1) 1) | а | > 0 при а ф 0; | D | = 0; 2) |\аЪ |= |а| • |Ь|; В частности, если основное поле представляет собой 2-прифметику7 а абсолютная величина элементов поля определяется привычными равенствами | 0 | = 0, | 1 | = 1 (где справа стоят вещественные числа 0 и 1), то введенная выше метрика называется «метрикой Хаммипга»: | АВ Ij = | bo — ао | -|-1 bi — °i | "h • - • ~М б/у 1 — aN — 1 !• 1"^ Ясно, что если точки А (о„, я,, . . ., aN_t) и В (?>„, Ьи . . ., bN_J JV-мерного пространства с координатпми m:i 2-прифмгтикн отвечают двум последовательностям сигналов, то расстояние | АВ | х равно числу несовпадающих сигналов в последоватслыюстях А и В, чем в объясняется широкое использование метрики Хомминга в теории кодированияа). При этом из неравенства треугольника следует, , что два «шара Хэмминга» радиуса п с центрами Qt и Q2 (т. е. мно- ' жества точек А таких, что | QtA |'х ^ п, соответственно, | Q2A |х ^ п; 1) При этом в равенстве [ 0 | = 0 стоящие слева и справа сим- символы 0 имеют несколько разный смысл: нуль слева является влемеп- том рассматриваемого поля, в то время как справа стоит просто вещественное число. Аналогичное замечание можно сделать и но поводу некоторых других равенств ниже. 2) В том случае, когда основное поле F содержит более двух элементов, метрика Хэмминга определяется теми же формулами (*)—(**), что и выше, где, однако, теперь уже надо положить г 0, если а — О, 11, если афО. При этом расстояние Хэмминга | АВ \ х по-прежнему будет равно числу несовпадающих между собой сигналов в последовательно- последовательностях А и В. Заметим еще, что наряду с «расстоянием Хэмминга» в теории кодирования используются и некоторые другие метрики в простран- пространствах последовательностей сигналов (например, так иазыпаск.'ш «метрика Ли», совпадающая с «метрикой Хэмминга» в случае поля F из двух элементов, но в других случаях учитывающая уже не только сам факт несовпадения каких-то координат точек А и В между собой, но также и то, насколько сильно эти коордипаты отличаются нруг от друга; см. [169], раздел 8.2).
'„40 ПРИЛОЖЕНИЕ II i р. 1И.11ИГ, «-I p. 435) не могут пересечься, если QtQv > 2п (это обсто- iiiimii.ctiki ужо использовалось выше на стр. 435). :i,iMi-niM еще, что если последовательности Л (в0, аи . . ., aN_ ), |д|« iirr «; принимают значения 0 и 1, изображать точками обычного («шчцготноиного») JV-мерного пространства (эти точки будут являться iii-|iiiiiiii;imii «единичного куба» JV-мерпого евклидовапространства), in, оченидпо, Поэтому евклидово расстояние | АВ |е между точками А и В, определяемое по формуле (++), может служить вполне удовлетво- удовлетворительной характеристикой различия между последовательностями /1 (rtn, аг, . . ., aN_j) и B(b0, bt, . . ., bN_%) элементарных сигна- лоп. Пто обстоятельство позволяет использовать в теории связи piMyjii.TiiTbT, относящиеся к (./V-мерной) евклидовой геометрии (в in>|)iiyio очередь — результаты так называемой дискретной ¦' о ом с т р и и, специально занимающейся проблемами «плотней- тих укладок» непересекающихся равных шаров в многомерных прост- пространствах и задачами отыскания таких конфигураций из конечного числа точек, расположенных в данной области пространства, для которых наименьшее из попарных расстояний между этими точка- точками является наибольшим возможным). В частности, задача отыска- отыскании всех двоичных кодов, где кодовые обозначения представляют собой последовательности из Л^ элементарных сигналов, исправляю- щ их любое не превосходящее п число ошибок, сводится к задаче отыскания всех возможных заполнений «единичного куба» N-мерного евклидова пространства непересекающимися шарами радиуса Y^n г центрами в вершинах куба. В силу сказанного задача нахождения тнкого шшолпепии ТУ-мерпого куба шарами заданного радиуса, где число участвующих шаров — самое большое из воз- м о зк и ы х (или, по крайней мере, достаточно велико), представ- представляет значительный интерес для теории кодирования; однако сегодня, мы, к сожалению, не знаем никаких перспективных геометрических подходов к решению этой задачи. 4. В линейной алгебре важную роль играет операция умножения матриц, частным случаем которой является умножение (т X п)-матрицы на (п X \)-матрицу (на сектор-столбец): ... Ът
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 481 Разумеется, в последнем произведении можно также писать вектор а с координатами at, а2, ..., п„ и иидо нокто- ра-строки:а = (%, а2, ..., ап), хотя это и но сонтнотстпуст принятым в линейной алгебре соглашениям. It таком слу- случае соотношениям (Б) (см. стр. 476) окапывается поимож- ным придать вид Ва = О, где 0 — нулевой вектор-столбец из а пулой. Для некоторых разделов линейной алгебры окаимка- ется также существенным понятие элементарных преобра- преобразований матриц, под которыми мы здесь будем понимать следующие преобразования: 1° перестановку местами любых диух строк матрицы; 2° перестановку местами любых диух оо столбцон; 3° замену любой строки матрицы со суммой с любой другой строкой (где сумма строк понимается как сумма векторов-строк). Матрицы, получающиеся одна n:i другой с помощью конечной последовательности алиментарных преобразова- преобразований, называются э к в и в а л е н т н ы м и. Указанные элементарные преобразования г) являются особенно естественными в случае проверочных матриц ко- кодов с проверками на четность. В самом деле, в этом слу- случае перестановка столбцов матрицы сводится лишь к пере- перенумерации сигналов, а перестановка строк — к перену- перенумерации используемых проверок. Замена же некоторой строки ее суммой с другой строкой означает, что вместо двух проверок на четность мы проверяем четность одного из ранее использовавшихся выражений и суммы этого вы- выражения со вторым из них — ясно, что такие две провер- проверки полностью равносильны первоначальным. Далее легко установить, что с помощью последовательности элемен- элементарных преобразований каждая проверочная матрица мо- может быть приведена к виду B), указанному на стр. 409 (или, что ничего не меняет, к виду, отличающемуся от фор- формы B) лишь наличием у матрицы еще нескольких строк, составленных из одних нулей — этим строкам, очевидно, не отвечают никакие новые проверки и потому их можно *) В разных задачах линейной алгебры оказываются удобнь - ми разные наборы элементарных преобразований. 16 д. М. Яглом. И. М. Яглом
/|Н2 ПРИЛОЖЕНИЕ II просто отбросить). В самом деле, не представляющие интереса нулевые строки матрицы, если только такие стро- строки у иее имеются, мы с помощью операции 1° сделаем са- самими верхними — и так же будем поступать далее, если и процессе преобразования матрицы у нее будут появлять- появляться новые «нулевые» строки. Рассмотрим теперь самую нижнюю строку; ясно, что с помощью операции 2°, имею- имеющийся в ней элемент 1 можно переместить в крайний пра- Н1.1Й столбец. Прибавляя затем эту строку ко всем, у кото- которых в последнем столбце стоит 1, и учитывая, что в 2-ариф- мстике 1 + 1—0, мы можем превратить в нули все эле- элементы последнего столбца, кроме одной лишь единицы, стоящей в последней строке. Если после этого 2-я снизу строка окажется состоящей из одних нулей, мы ее пере- переместим вверх; если же она содержит хоть одну единицу, то с помощью операции 2° мы переместим эту единицу на предпоследнее место, а затем с помощью операции 3° об- обратим в нуль все прочие элементы предпоследнего столбца. Далее перейдем к третьей от конца строки — и с помощью тех же операций придадим требуемый вид третьему от конца столбцу — и т. д. В результате мы получим матри- матрицу вида B), быть может, только дополненную сверху не- несколькими строками из одних нулей. В применении к проверочным матрицам кодов с провер- проверками на четность этот результат доказывает, что любой код с проверками на четность может быть записан в виде си- систематического кода, число проверок на четность в кото- котором, однако, может оказаться меньшим, чем в исходном «несистематическом» коде (ср. стр. 410 и пример на стр. 431).
»— *-^»рчот>Рч^соаэсо-*дсо-1^сосо»аоо^сС|и-а'1 a».co . rf>- 4>» CO OJ CO Co CO CO [О Ю to W и» Q ф -IO» 4> IO О OP СЛ W О О СТ> Д Q OlOO»— IO to О Q О «^' d »ЯО1 d — НИНИ1ГЯЯ VlraiT9Vi ?8?
сл'слслслслслслсл слслслс h^h^tOCOCOMCOCOCOCOCOC - Со СЛ ¦*! СО СО О О О 0Э0Э^0000л»ОТ* ~сл~сл~сл сл'сл'сл'сл сл сл сл сл с И^ t^ ^0 to СО Ю СО СО СО СО СО С J ^D CO СЛ 3 00 O ^5 *T? C5 сл to CO сл CO t 00 СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ H4^tOCOfDtOIS3CO СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ С H^t^^I3COMN)COCOCOCOCoCOCOCOCOb3COi-^H»-i-^O СО сО С t toto слслслслслслслслслслслслслслслслслслслслслсл^^^^ ^^^tococototocococococotocotococo^'i^oOf-Ocooo^a О О "-J О О*10001<| СЛ СОСОСЛОЭ слслслслслслслслсд »^^>k'fcC0|s3C0fc0bDC0 III
8. ТАБЛИЦА ВЕЛИЧИН — р log, p 485 at— cor-ooQinQcMco-r-too lCDCTJCMinOOOCM^'CD ~ 00 M tf ^-t см c\i tlCDlO^fOCSl CO CO CO Ю CO CO CO >r?Q?>JCDin-^^t^»_n-H»OcD»O'^ini^CDC000-^C>l'--«I>»C9Ntin 5 Ю iq vf* ГО C4] CM *-* О СП 00 QO 1*^ CD lО CM 00 О О CO CM ^ ••t и ю I* CO f0 00 О W ^ O ВД l 1 IQ Ol Ol Ю (» CO CD 0 О О CO CM ^ ••t " CO ВД Ol 1^ *н IQ 5 O5 00 00 I I CD CO ВД Ol 1 *н IQ Ol Ol Ю (» 5 O5 00 00 I— I- CD Ю Ю «^ CO CO и ю I CO f0 00 О О 00 s^ Ol Ol Ю (» •-< CO CD "Ю Oj •-• Ю Ю ^ CO CO Ol О O5 C5 00 О CO CD " 01 —¦* эоосмсоОсог-Осмюг-с ЭСОГ-1Л r^ _. cd t^» об оО об CO t~~ CD 1П ^rf1 CO C4! со со со со со со со CD 0H 5 L— 00 О _ _ _ Э t^ CD 1П ** vf CO J CO CO CO CO CO CO . _< см со > CD CD CD t- IT» t— "
с.: 00 f» CD CO о p. 3123 3019 2914 2807 2698 2587 2474 2359 „ 2243 * 2125 g 2005 о 1884 й 1760 Ё 1635 g 1509 й 1381 В 1251 1120 ooooooooc С0ОЮ ОООЭ О0Ю -^ IT ooooooooo 3144 3040 2935 2828 2720 2609 2497 2382 2266 ooooooooo 3154 3051 2946 2839 2731 2620 2508 2394 2278 ooooooooo CD CD Ю lOsffO^OCT -H О ffl OD1^ CD 1Л ^ Cs со со м ем M cq cq см ем ooooooooo 3174 3071 2967 2861 2753 2642 2531 2417 2301 ooooooooo сосоелаеммсмеммсл] ooooooooo IliiSiiii ooooooooo 3204 3103 2999 2893 2785 2676 2564 2451 2336 ooooooooo ooooooooo SjtlflCDt*COOJQ^C3 ooooooooo JOOOOOOOOO 2137 2017 1896 1773 1648 1522 1394 1264 1133 ooooooooo< 2149 2029 1908 1785 1661 1534 1407 1277 1146 oooooooooc 2160 2041 1920 1797 1673 1547 1419 1290 1159 OOOOOOOOOt 2172 2053 1932 1810 1686 1560 1432 1303 1173 oooooooooc 2184 2065 1944 1822 1698 1572 1445 1316 1186 oooooooooc 2196 2077 1957 1834 1711 1585 1458 1329 1199 oooooooooc 2208 2089 1969 1847 1723 1598 1471 1342 1212 oooooooooc 2220 2101 1981 1859 1735 1610 1484 1355 1225 oooooooooc 2231 2113 1993 1871 1748 1623 1496 1368 1238 OOOOOOOOOC oooooooooc 0987 0853 1717 0579 ooooc 1UUU 0866 0730 0593 ЭОООС 1U14 0880 0744 0607 ЭОООС 0893 0758 0621 Л/. ОП DOOOC 0907 0771 0634 n/.aa DOOOC 0920 0785 0648 ЭОООС 0933 0798 0662 DOOOC 0947 0812 0676 ГКЧЯ ЭОООС 0960 0826 0689 ЭОООС 0974 0839 0703 3OOOC 3OOOC 0300 0158 0014 DOOO 0314 0172 0029 oaoo 0328 0186 0043 ЭООО 0342 0201 0058 oooo 0356 0214 0072 ЭООО 0370 0230 0086 3 OOO 0384 0243 0101 3OOO 0398 0257 0115 зооо 0412 0271 0129 зооо 0426 0286 0140 >ooo t-> 00 СП СП О Cft
ЛИТЕРАТУРА Общие сочинения по теории информации и по кибернетике 1. К. Шеннон, Математическая теория связи, в книге: «Ра- «Работы по теории информации и кибернетике», М., ИЛ, 19G.4, стр. 243—332. [В этой книге, рассчитанной, п порную очередь, на специалистов, собраны псе ociioiini.io рнботм К. Шенпоня по теории информации и теории кодирошишн.! 2. Л. Б р и л л ю э н, Наука и теории ниформиции, М., Фи-.шат- гиз, 1959. 3. Дж. Пирс, Символы, сигналы, шумм, М., «Мир», 19В7. За. К. Ч е р р и, Человек и информации, М., «('ли », 1072. 4. Ф. М. В у д в о р д, Теории вероятностей и теории информа- информации с применениями к рпдиолокицми, М., «Советское радио», 1955. 5. А. Ф а й не тейп, Основы теории информации, М., ИЛ, 1900. 6. Р. Ф а н о, Передача информации. Статистическая теория связи, М., «Мир», 1965. 7. Дж. Вольфовиц, Теоремы кодирования теории информа- информации, М., «Мир», 1967. 8. А. Н. Колмогоров, Теория передачи информации, в книге: «Сессия Академии наук СССР по научным проблемам автоматизации производства 15—20 октября !95в г.; пленар- пленарные васедания», М., Изд-во АН СССР, 1957. 9. Н. В и в е р, Кибернетика, М., «Советское радио», 19G8. 10. И. А. Полетаев, Сигнал, М., «Советское радио», 1958. 11. У. Р. Э ш б и, Введение в кибернетику, М., ИЛ, 1958. 12. А. Мол ь, Теория информации и эстетическое восприятие, М., «Мир», 1966. 13. Дж. Возенкрафт, И. Джекобе, Теоретические осно- основы техники связи, М., «Мир», 1966. 14. Теория информации в биологии (сборник переводов), М., ИЛ, 1960. 15. А. Н. Колмогоров, Три подхода к определению понятия „количество информации", Пробл. передачи информ. 1, № 1, 1965, стр. 3—11; К логическим основам теории информации и теории вероятностей, Пробл. передачи информ. 5, № 3, 1909, стр. 3—7. 16. А. К. 3 в о н к и н, Л. А. Левин, Сложность конечных объектов и обоснование понятия информации и случайности с помощью теории алгоритмов, Успехи матем. наук 25, выи. 6, 1970, стр. 85-127.
/,l It ЛИТЕРАТУРА Г/. II. M. 1'о л ь ф а н д, А. Н. Колмогоров, A.M. Яг- л им, К общему определению количества информации, Докл. Анид. Наук СССР Ш, № 4,1956, стр. 745—748; Количество информации л энтропия для непрерывных распределений, Труды 3-го Всесоюзного математического съезда, т. 3, М., Илд-во АН СССР, 1958, стр. 300—320. 1.ч. К). А. Ш р е й д е р, Об одной модели семантической теории информации, Проблемы кибернетики, вып. 13, М., 1965, стр. 2IW—240; О семантических аспектах теории информации, в «Шорнике: «Информация и кибернетика», М., «Советское радио», 1907, стр. 15—47. I'.i. И. Бар-Хиллел, Р. Карнап, Семантическая информа- информация (Y. Bar-Hillel, R. Carnap, Semantic information), Hrit. Journ. Phil, of Sci. 4, № 14, 1953, стр. 147—157 и в сбор- пике: «Теория связи» (Communication Theory; сост.— W. J и с k s о п), New York, Academic Press, 1953, стр. 503—512. 1!)ц. С.Гюрник «Информация и умозаключение» (Information [and Inference; ред. — J. Hintikka, P. Suppes), Dordrecht, Heidel, 1970. 20. II. Э б р а м с о н, Теория информации и кодирование (N. Abramson, Information theory and coding), New York, McGraw-Hill, 1963. 21. 1*. Э ш, Теория информации (R. В. Ash, Information theory), New York, Interscience, 1965. 22. P. Г. Г а л л а г е p, Теория информации и надежная связь (R.G. G allager, Information theory and reliable commu- communication), New York, Wiley, 1968. (Русский леревод этой книги готовится к печати издательством «Советское радио».) 2.4. 11. Ф о й, Теория информации (P. Fey, Informationstheorie), ISrrliu (DDK), Akademie-Verlag, 1968. V\. Ж. Кульман, М. Д е н и- П апеи, Задачи по теории ин- информации с решениями (G.Cullman, M.Denis-Papin, Exercices de calcul informationnel avec leurs solutions), Paris, Michel, 1966. Литература к гл. I 25. Б. В. Г в е д е в к о, А. Я. X и в ч и в, Элементарное введе- введение в теорию вероятностей, М., «Наука», 1970. 26. Ф. М о с т е л л е р, Р. Р у р к е, Дж. Томас, Вероятность, М., «Мир», 1969. 27. С. Д а й м е в д, Мир вероятностей, М., «Статистика», 1970. 28. Ю. Нейман, Вводный курс теории вероятностей и мате- математической статистики, М., «Наука», 1968. 29. Е. С. В е н ц е л ь, Теория вероятностей. М., «Наука», 1964. 30. Ю. А. Розанов, Теория вероятностей и ее приложения, в сборнике: «О некоторых вопросах современной математики и кибернетики», М., «Просвещение», 1965, стр. 78—141. 31. Дж. Т. Кальбертсон, Математика и логика цифровых устройств, М., «Просвещение», 1965, гл. III. 32. Дж. К е м е в и, Дж. С н е л л, Дж. Томпсон, Введение в конечную математику, М., «Мир», 1964, гл. IV.
ЛИТЕРАТУРА 489 33. А. Н. Колмогоров, Теория пероятпостей, п сборнике: «Математика, ее содержание, методы и значение», т. II, М., Изд-во АН СССР, 1956, стр. 252—284. 34. М. К а ц, Теория вероятностей, в сПорпико: «Математика в современном мире», М., «Мир», 1967, стр. 7К- [УЛ. 35. Ф. Мостеллер, Пятьдесят занимательны\ першпногтнмх задач, М., «Наука», 1971. 36. Л. Д. М е ш а л к и н, Сборник задач но теорн 'ронтпог.тей, М., Изд-во МГУ, 1963. 37. A.M. Я г л о м, И. М. Я г л о м, Иоадемептрнме ладами » элементарном изложении, М., Гостехнздат, 1!1М, п. (> раздела 1. Литература к гл. II 38. Р. X а й м а н, Информация, содержащаяся в раздражении, как величина, определяющая время ]>eai<ii,iiii (If. II у in а и, Stimulus information as a (lelerniiiiiuil of reue.l.ioii li к), .lourii. of Experomcnlal Psychology 45, № .'t, 1!1!».Ч, гтр. IH,S I!H>. 39. У. E. X н к, О скорости получении информации (W. К. II i с; k, On the rate of gain of iiilnniinlion), Qiuirl. Joiini. Kxpereinenlal Psychology 4, № 1, l!).rJ, tip. II 1!C. 40. В. И. Николас», Определение иременн, шпрачппаемого оператором на решение апдпч но унршипчнно еудшшн энерге- энергетической установкой, Ими. Акад. наук ('.СП' (ипергетикп и транспорт), № 4, 19(>5, стр. 1,'i() 1п5. 41. Б. Ф. Л омов, Чел о иск и техника (очерки инженерной пси- психологии), М., «Советское радио», 1966. 42. Дж. А. Леонард, Опыты но определению времени реак- реакции выбора и теория информации (J. A. Leonard, Choise reaction time experiments and information theory), в сборнике: «Теория информации» (InformationTheory; ред.— С. Cherry), London, Butterworths, 1961, стр. 137—146. 43. P. Д. Л ь ю с, Теория селективной информации и некоторые ее применения к изучению поведения (R. D.Luc e, Tlie theory of selective information and some of its behavioral applications), в сборнике: «Developments in Mathematical Psychology» ред.) —R. D. Luce), Glencoe (USA), The Free Press, 1960, стр.5—119. 44. A. H. Леонтьев, Е. П. К р и н ч и к, О применении тео- теории информации в конкретно-психологических исследованиях, Вопросы психологии, № 5, 1961, стр. 25—46. 45. Ф. А т т н и в, Применение теории информации к психологии: обзор основных понятий, методов и результатов (F. A 11 n e- а v e, Applications of information theory to psychology: a summary of basic concepts, methods and results), New York, Holt — Dryden, 1959. 46. Сборник «Теория информации в психологии» (Information the- theory in psychology; ред.—Н. Quastler), Glencoe (USA), The Free Press, 1955. 47. P. Л. Д о б р у ш и н, Передача информации по каналу с об- обратной связью, Теор. вероятн. иеепримен. 3, № 4, 1958, стр. 395—412. 48. Д. К. Ф а д д е е в, К понятию энтропии конечной вероятност- вероятностной схемы, Успехи матем. наук 11, №1, 1956, стр. 227—231.
/,1К1 ЛИТЕРАТУРА ¦'ilt. It. Д а р о ц и, Обобщенные информационные функции (Z. D а- I- о с •/. у, Generalized information functions), Information and Control 16, № 1, 1970, стр. 36—51, Литература к гл. III Г>0. Б. Л. Кордемский, Математическая смекалка, М., «На- «Наука», 1965. 51. Д. О. Ш к л я р ск и й, Н. Н. Ч е н ц о в, И. М. Я г л о м, Избранные задачи и теоремы элементарной математики (ариф- (арифметика и алгебра), М., «Наука», 1965. 52. П. Давиде, Одна задача о взвешиваниях (V. D e v i d ё, Ein Problem fiber Wagen), Elemente der Math. 10, № 1, 1959, стр. 11—15И 53. П. Дзк. К е л л о V, Д. Дзк. К е л л о г, Информационная энт- энтропия и задача о фальшивой монете (P. I. Kellogg, D.J. Kellogg, Entropy of information and the odd ball problem), Journ. of Appl. Phys. 25, № 11,1954. стр. 1438—1439. 5<5. С. С. К и с л и ц и и, Современное состояние теории поиска, Успехи матем. наук 17, № 1, 1962, стр. 243—244. 55. Р. В е л л м а н, Б. Глас, О разных вариантах задачи о фальшивой монете (R. Bellman, В. G 1 u s s, On various versions of the defective coin problem), Information and Control 4, № 2—3,1961, стр. 118—131; исправление — там же, № 4, стр. 391. БС. Г. Ill г е й п г а у в, Сто задач, М., Физматгиз, 1959. 67. С. С;. К и с л и ц и п, Уточнение оценки наименьшего средне- среднего числа сравнений, необходимых для полного упорядочива- упорядочивания конечной совокупности, Вестник ЛГУ, № 19, вып. 4, 1963, стр. 143—145. 58. Л. Р. Форд, СМ. Джонсон, Проблема соревнований (L. R. Ford, S. M. Johnson, A tournament problem), American Math. Montly 66, № 5, 1959, стр. 387—389. 59. К.-Ф. П и к а р, Теория вопросников (C.-F. P i с а г d, Theorie des questionnaires), Paris, Gauthier — Villars, 1965; Графы и вопросники, т. II, Вопросники (Graphes et question- questionnaires, tome II, Questionnaires), Paris, Gauthier—Villars, 1972. CO. П. П. П а р x о м о и к о. Теория вопросников (обзор), Авто- Автоматика и телемеханика, № 4, 1970, стр. 140—159. Литература к гл. IV §1 61. А. А. С а р д и н а с, Дж. У. Паттерсон, Необходимое и достаточное условие однозначного разложения закодирован- закодированных сообщений, Кибернетический сборник, вып. 3. М., ИЛ, 1961, стр. 93—102. 62. Э. Н. Гилберт, Э. Ф, My p, Двоичные кодовые системы переменной длины, таи же, стр. 103—141.
ЛИТЕРАТУРА 491 §2 63. Д. А. Хаффмен (или X а ф м а и), Метод построения ко- кодов с минимальной избыточностью. Кибернетический сборник, вып. 3, М., ИЛ, 1961, стр. 79—87. 64. Б. М а к м и л л а н, Основные теоремы теории информации (В. McMillan, The basic theorems of infoi'iiinlioii theory), Annals Math. Statist. 24, № 2, 1953, стр. IMS—21». 65. Б. Макмиллан, Два неравенства, oCiycjioiuiouiii.ix одно- однозначностью расшифровывания, Кибернетическим cfiopiiiiit, вып. 3, М., ИЛ, 1961, стр. 88—92. 66. Дзк. К а р у ш, Простое доказательство неранспстип Mukmhji- лана (J. К а г u s h, A simple proof of an inequality of McMil- McMillan), IRE Trans, on Inform. Theory 1T-7, № 2, 1901, стр. 118. § 3 67. P. Г. Пиотровский, Информационный И'лмгргшш imi.i- ка, Л., «Наука», l!Hi8. 68. И. М. Яглом, Р. Л. Добру hi и и, Л. М. Я г л о м, Тео- Теория информации и лиишистики, Попроси >i»uico:iiiuini)i, 1960, № 1, стр. 100—110. 69. А. А. X а р к е в и ч, Очерки общей теории гнили, М., Гос- техиздат, 1955. 70. Д. С. Лебедев, В. А. Г а р м а ш, О иозможмости уислн- чения скорости передачи телеграфных сообщений, Электро- Электросвязь, 1958, № 1, стр. 68—69. 71. Г. П. Б а ш а р и н. О статистической оценке энтропии по- последовательности независимых случайных величин, Теор. вероятн. и ее иримен. 4, № 3, 1959, стр. 361—364. 72. Р. Л. Добрушин, Математические методы в лингвистике, Математическое просвещение (новая серия), вып. С, М., Фнз- матгиз, 1961, стр. 37—60. 73. В. Б е л е в и ч, Теория информации и лингвистическая ста- статистика (V. Belevitch, Theorie de l'information et st.at.is- tique linguistique), Bulletin Acad. Royale Belgique (classo do sciences), 1956, стр. 419—436. 74. Г. А. Б а р н а р д, Статистическое определение энтропии слов для четырех западных языков (G. A. Barnard, Statistical calculation of world entropies for four western languages), IHE Trans, on Inform. Theory 1T-1, № 1, 1955, стр. 49—53. 75. К. Шеннон, Предсказание и энтропия английского печат- печатного текста, в книге: «Работы по теории информации и кибер- кибернетике» (см. [1]), стр. 669—686. 76. В. Ю. У р б а х, К учету корреляций между буквами алфа- алфавита при вычислении количества информации в сообщении, Проблемы кибернетики, -вып. 10, 1963, стр. 111—117. 77. Н. Г. Б е р т о н, Дзк. Л иклайдер, Длительные синаи в статистической структуре печатного английского текста (N. G. Burton, J. С. R. L i с k I i d e r, Longrango const- constraints in the statistical structure of printed English), Amur. Journ. of Psychology 68, № 4, 1955, стр. 650—653.
Wi ЛИТЕРАТУРА /н. Г. Г. и р о м о и и, Теоретико-информационная проверка зпа- комства с иностранным языком (G. Siromoney, An in- information-theoretical test for familiarity with a foreign langua- language), Journ. Psychol. Researches 8, 1964, стр. 1—6. 7!>. Д. Д ж е м и с о н, К. Д ж е м и с о н, Заметка об энтропии частично-знакомых языков (D. J amison, K.J amison, Л note on the entropy of partially-known languages), Informa- Information and Control 12, № 2, 1968, стр. 164—167. NO. П. Б. Н е в е л ь с к и й, М. Д. Р о з е н б а у м, Угадывание профессионального текста специалистами и неспециалистами, п сборнике: «Статистика речи и автоматический анализ тек- текста», Л., «Наука», 1971, стр. 134—148. 81. Л. П. Савчук, Об оцепках энтропии языка по Шеннону, Тео|). нероятц. и ее нримен. 9, № 1, 1964, стр. 154—157. 82. К. К ю п ф мю л л ер, Энтропия немецкого языка (К. Kupf- iii u 11 с г, Die Entropie der deutschen Sprache), Fermneldtechni- sche Zeitschrift (FTZ), № 6, 1954, стр. 265—272. 83. H. В. Петрова, Энтропия французского печатного текста, Изв. Акад. наук СССР (серия литературы и языка) 24, № 1, 1965, стр. 63—67; Н. Петрова, Р. Пиотровский, Р. Ж и р о, Энтропия французской письменной речи (N. Р е t- г о v a, R. P i о t г о v s k i, _R. Giraud, L'entropie du francais ecrit), Bull. Soc. de linguistique de Paris 58, № 1, 1964, стр. 130—152. 84. P. Манфрионо, Энтропия итальянского языка и ее вы- вычисление (R. Manfriono, L'entropia della lingua italiana imI il sun calcolo), Alta frequenza 29, № 1, 1960, стр. 4—29; X. X а и с о u, Энтропия шведского языка (H. II а п s s о п, Tlio entropy of the Swedish'language), Trans, of the Second Prague Conference on Information Theory, Statistical Decision Functions, Random Processes, Prague, 1960, стр. 215—217; Л. Доле ж ель, Предсказания энтропии и избыточности чешских текстов (L. D о 1 е к е 1, Predbezny odhad entropie e redundance psane cestiny), Slovo a Sbovesnost 24, № 3, 1963, стр. 165—175; Ф. Зитек, Несколько замечаний но поводу энтропии чешского языка (F. Z i t e k, Quelques remarques au sujet de l'entropie du tcheque), Trans, of the Third Prague Con- Conference on Inforamation Theory, Statistical Decision Functions, Random Processes, Prague, 1964, стр. 841—846; E. Нико- л а у, К. С а л а, А. Р о ч е р и к, Наблюдения над энтропией румынского языка (Е. N i с о 1 а и, С. S а 1 a, A. R о с е г i с, Observa^ii asupra entropiei limbii romane), Studisi cercetai lingvist 10, № 1, 1959, стр. 35—54. 85. P. А. К а з а р я н, Оценка энтропии армянского текста, Изв. Акад. наук Арп. ССР (физико-математические науки) 14,'№ 4i, 1961, стр. 161—173; Д. Н. Ленский, К оценке энтропии адыгейских печатных текстов, Учен, записки Кабардино-бал- Кабардино-балкарского университета (серия физико-математическая), вып. 16, Нальчик, 1962, стр. 165—166; Т. И. Ибрагимов, Оцен- Оценка взаимосвязи букв в татарском литературном языке, Учен, записки Казанского гос. ун-та, 124, кн. 2 (Вероятностные методы и кибернетика, вып. III), Казань, 1964, стр. 141—145.
ЛИТЕРАТУРА 493 86. Е. Б. Н ь ю м а н, Н. Во, Избыточность текстов па трех языках (Е. В. Newman, N. С. Wang h, The redundancy of texts in three languages), Information nnil ("oiiliol 3, № 2, 1960, стр. 141—153. 87. Е.Б. Ньюнан, Л, Дж. Г с р с т м а и, 11 oiti.i ii метод ана- анализа письменного английского текста (К. И. New m a ii, L. J. Gerstman, A new method for niiiilyzini; prinbrd English), Journ. of Experemental Psychology Ы, № 2, ЮГС, стр. 114—125. 88. Г. Блюме, Трехмерные кроссворды ни дреши- гирепгкпм язьже (Н. В 1 u h m e, Three-dimeusioiuil crossword puzzles in Hebrew), Information and Control 6, № 3, 1!>(>.Ч, стр. :<(Mi :«)!>. 89. Г. С и р ом о н и, Энтропия прозы на »:шке там пли ((!. S i- г о m о n e у, Entropy of Tamil prose), Information and CoiiItoI 6, № 3, 1963, стр. 297—300; К. P. P а д ж а г о п а л п и, :$а- метка об энтропии нроам нп мамке каниадп (К. И. It a j а я <>- р а 1 a n, A note on enlropy of Knniiiiihi prosi>), loloriiialion and Control 8, № (>, 1!ШГ), стр. 1И0 i'M; II. Г. а л а <¦ у fi р и м а- л ъ я м, Г. С и р о м о и и, Заметки of» iiiirpniinn upo:u.i па языке телугу (!'. И alas u l> r n U ш и и у a i», (!. Si r о- m о п е у, A note on entropy of Tolngu pro.se), IiilorittJilioK and Control 13, № 4, 1!)<!8, стр. 281 28.ri; Ii. II. I' n м и к p n in и a, К. К. Н а и p, П. И. Ч и и л у н к a p, I». II. Л т а л, И. I* a- мачандраи, J'. О у б р и м и и n a n, C.|ui nv ыо эф- эффективности индийских нзыкин (П. S. It a in a k г i s Ii u a, К. К. N a i г, V. N. С h i n I u л к а г, В. S. Л I. л I, V. И а- machandran, R. Subramanian, HeJalive efficien- efficiencies of Indian languages), Nature 189, № 4768, 1961, стр. 614-617. 90. Б. С. Рамакришна, Р. Субраманиап, Сравнитель- Сравнительная эффективность английского и немецкого языков для пере- передачи смыслового содержания (В. S. R a m a k r i s h и а, R. Subramanian, Relative efficiency of Knglisli and German languages for communication of semantic content), IRE Trans, on Inform. Theory IT-4, № 3, 1958, стр. 127—129. 91. H. P ы ч к о в а, Лингвистика и математика, Науки и жи:шь, № 9, 1961, стр. 76—77. 92. П. М. Алексеев, Частотные словари английского н:>ыка и их практические применения, в сборнике: «Статистика ргчи и автоматический анализ текста» (см. [80]), стр. 160—178. 93. Дж. Ц и п ф, Поведение человека и принцип наименьшего усилия (G. К. Z i p f, Human behavior and the principle of least effort), Cambridge (USA), Addison — Wesley, 1963. 94. Л. Апостель, Б. Мадельброт, А. Морф, Логика, речь и теория информации (L. Apostel, В. Mandelb- Mandelbrot, А. М о г f, Logique, langage et theorie de 1'information), Paris, Presses Universitaires de France, 1957. 95. Дж. А. Миллер, Речь и язык, в сборнике «Эксперимен- «Экспериментальная психология» (сост.— С. С. С т и в е п с), т. II, М., ИЛ, 1963, стр. 348—374. 96. Б. Мапдельброт, Информационная теория статистиче- статистической структуры языка (В. Mandelbrot, An informational
411'l ЛИТЕРАТУРА Пк-огу of the statistical structure of language), в сборнике: «Теория связи» (Communication Theory; см. [19]), стр. 486— '.'V. M. Г р и г н е т т и, Заметка об энтропии слов в письменном английском тексте (М. С. Grignetti, A note on the entropy of words in printed English), Information and Control 7, № 3, 1ИГИ, стр. 304—306. '.Ж. Л.Л. Пиотровская, Р. Г. Пиотровский, It. Л. Р а з ж и в и н, Энтропия русского языка, Вопросы «лмкозыапия, № 6, 1962, стр. 115—130. !>!!. О. Л. Смирнов, А. В. Е к и м о в, Энтропия русского те- лсграфиого текста, Труды Ленинтрадск. ин-та агиацион. при- приборостроения, вып. 54 (системы обработки и передачи инфор- информации), Л., 1967, стр. 76—84. 100. 0'. Ф р м к, У. Самб и, Язык паземного управления само- самолетом (F. С. F r i с k, W. H. S u m Ь у. Control tower langua- 1'ч), Journ. Acoust. Soc. Amer. 24, 1952, стр. 595—596. 101. И. Л. Ф р и ц, Дзк. У. Г р а й е р, Практическая связь: изу- изучение потока информации в управлении воздушным движе- движением (Е. L. Fritz, G. W. G г i e r, Pragmatic communica- communication: a study of information flow ia air traffic control), статья и сборнике [40], стр. 232—243. 102. Т. Т а р н о ц и, О факторах, влияющих на различия значе- значений энтропии языка (Т. Тагпбсгу, A jeloszlas es a hirtar- liilom nyelveket meghatarozo tulajdonsagairol), Nyelvtudoma- nyi Kozlemenyek 63, 1961, стр. 161—178. 103. A.M. Кондратов, Теория информации и поэтика (энт- jHiiiiifi ритма русской речи), Проблемы кибернетики, вып. 9, М., ПНУЛ, стр. 279—280. 104. СМ арку с, Эптропия и поэтическая энергия (S. М а г с u s, Entiopie et energie poetique), Cahiers de linguistique theoreti- quu et appliquee 4, 1967, стр. 171—180. 105. Сборник «Математика и поэзия» (Mathematik und Dichtung, сост.— H. Kreuzer, R. Gunzenhanser), Miinchen, Nympfenbiirger Verlaghandlung, 1965. 10G. У. Дж. П е й с л и, Влияние авторства, темы, структуры и времени написания на избыточность букв в английских тек- текстах (W. J. Paisley, The effects of authorship, topic, struc- structure and time of composition on letter redunancy in English texts), Journ. Verbal Learning and Verbal Behavior 5, № 1, 1966, стр. 28—34. 107. Дж. Б е р р и, Некоторые статистические аспекты разговорной речи (J. Berry, Some statistical aspects of conversational speech), в сборнике: «Теория связи» (Communication Theory; см. [19]), стр. 392—401. 108. Б. Мандельброт, Закон Берри и определение „ударе- „ударения", в сборнике: «Теория передачи сообщений», М., ИЛ, 1957, стр. 248—254. 109. В.А. Успенский, Одна модель для понятия фонемы, Вопросы языкознания, № 6, 1964, стр. 39—53. 110. Е. К. Ч в р р и, М. X а л л е, Р. Я к о б с о н, К логическому описанию языков с точки зрения фонем (Е. С. Cherry,
ЛИТЕРАТУРА 495 М. Halle, R. Jakobson, Toward the logical description <Vf languages in their phonemic aspect), Lbdkuhko 29, № 1, 1953, стр. 34—46. 111. A. M. Пешковский, Десять тысяч аоукои, Сборник статей. Л.—М., ГИЗ, 1925, стр. 167—191. 112. Л. Р. 3 и н д е р, О лингвистической вероятности, и сборнике: «Вопросы статистики речи», Л., Изд-во ЛГУ, 1958, стр. 58—01. 113. Дж. У. Б л э к, Информация звуков и фонетические дчрнммы в одно- и двусложных словах (J. W. Black, Tlu< iiilWiniilion of sounds and phonetic digrams of one- unil two syllable words), Journ. Speech. Hearing Disorders 19, 1054, стр. :М7 - Л11 ; П. Д ь е н е ш, О статистике устной английской речи (I*. Ю е- в е s. On the statistics of spoken English), Jouni. Acuusl. Soc. Amer. 35, № 6, 1963, стр. 892—904. 114. Ж. П. Г а т о н, М. Л а м о т т, Изучение статистики фонем и дифонем в устной французской речи (J. |\ II a t о и, М. L а- motto, Etude s(iiUs(i(|iie ties phonemes vl iliplioiirmes duns le frangais parle), Iteviio d'acoiisliquo fi, .№ Hi, 1U7I, 2.ri.S 262. 115. В. Э н д р е с, Сравнение избыточности устной п iinci.Meiiiioii речи (W. Endrcs, A comparison of (lie redundancy in llio written and spoken liuigiuiKi'), Иробл. унр^кл- " теория ияформ., Приложен., 1!O.Ч (Труди 2 ~\\ Мпкдународи, кон- фер. по теории информации; (Цшспдпор, Арм. CCI', 2—8 сентября 1971 г.). 116. А. Ф р а д и с, Л. М и -\ <« й л о с к у, И. II о и и о с i« у, Энтропия и информационная анергия устной румынской речи (A. Fradis, L. Mihailescu, I. Voinescu, L'ent- ropie et l'energie informationnelle de la langue roumaine parlee), Revue roumaine de linguistique 12, № 4, 1967, стр. 331—339. 117. Т. И. Ибрагимов, Исследование слоговой организации слов татарского языка, Ученые записки Казанского гос. ун-та 129, кн. 4 (Вероятностные методы и кибернетика, вып. VII), Казань, 1969, стр. 101—108. 118. И. Воинеску, А. Фрадис, Л. Михайлеску, Эпт- ропия первого порядка фонем в речи больных афазией (I. Voinescu, A. Fradis, L. Mihailescu, The first degree entropy of phonemes in aphasics), Revue roumaine de neurologie, 4, № 1, 1967, стр. 67—79; Энтропия второго исряд- ка фонем и соотношение между порядковым номером и часто- частотой пар фонем в речи больных афазией (Second order entropy of phonemes and rank-freguency relation of biphonematic groups in aphasics). Revue roumaine de neurologie, 5, № 2, 1908, стр. Ill—120; Энтропия первого порядка слов в речи больных афазией (First order entropy of words in aphasics), Cybernetica 12, № 1, 1969. стр. 39—49; см. также А. Крейндлер, А. Фрадис, Афазия, гл. IX «Теория информации, речь и афазия» (A. Kreindler, A. Fradis, Afazia, Cap. IX «Theoria informatiei, limbajul si afazia»), Bucuresti, Ed. Acad. Rep. Social. Romania, 1970. 119. P. Пинкертон, Теория информации и мелодии (П. С. Pinkerton, Information theory and melody), Scicnt. Amer. ¦ 194, № 2, 1956, стр. 77—86.
/('Hi ЛИТЕРАТУРА Г.'". И». II. Брукс, А. Л. X о пк и не, П. Г. Нейман, У. И. Райт, Опыт по сочинению музыки (F. P. Brooks, Л. 1-. Hopkins, P. G. Neumann, W. V. Wright, Ли experiment in musical composition), IRE Trans, on Elect- Electron. Comput. EC-6, № 3, 1957, стр. 175—182. И!I. ]'. О л с о н, Г. Б е л а р, Использование случайной вероятно- вероятностной системы для помощи в музыкальных композициях (II. Olson, H.Belar, Aid to music composition employing ii random probability system), Journ. Acoust. Soc. America :»3, № 9, 1961, стр. 1163—1170. i'Sl. Г. X. 3 a p и п о в, Кибернетика и музыка,М., «Наука», 1971. 12.4. Дис. Е. Ю н г б л а д, Стиль как информация (J. E. Y о u n g- blood, Stylo as information), Journ. Music Theory 2, № 1, 1!>58, стр. 24 и след. I2'i. Дис. Е. К о э ii, Теория информации и музыка (J. Е. С о h e п, Information theory and music), Behav. Sci., 7, № 2, 1962, стр. 137—163. 12!i. Г. Сиромопи, К. Р. Раджагопалан, Стиль как информация в карнатической музыке (G. S i г о m о n e у, К. R. Rajagopalan, Style as information in Karnatic music), Journ. Music Theory 8, № 2, 1964, стр. 267—272. \2(\. Л. X и л л ер, Дж. Б и ш е м, Исследования в области музы- музыки с использованием электронцки (L. Hiller, J. Beau- champ, Research in music with electronics),Science 150, № 3693, 1965, стр. 161—169. 127. M. Роланд, Уменьшение информации из-за зависимости между несколькими одновременными источниками информа- информации и uu-ua перехода к марковским цепям высокого порядка, исследованпое на примерах музыкальных произведений (М. Roland, Die Entropieabnahme bei Abhangigkeit zwi- schen mehreren simultanen Informationsquellen und bei Ubergang zu Markoff-Ketten hoherer Ordnung, untersucht an musikali- sclien Beispielen), Forschungsber. Landes Nordheim-Westfalen, 1967, № 1768, стр. 39, 41, 43—44, 79—80. 128. Д. С. Лебедев, И. И. Цуккерман, Телевидение и теория информации, М., «Энергия», 1965. 129. У. Ф. Ш р е й б е р, Измерение трехмерных распределений вероятностей для телевизионных изображений (W. F. S с h- r e i b e r, The measurement of third order probability distri- • butions of television signals), IRE Trans, on Inform. Theory . ;. IT-2, № 3, 1956, стр. 94—105. 130. Д. С. Лебедев, Е. И. П и й л ь, Экспериментальные ис- исследования статистики телевизионных сообщений, Техника кино и телевидения, № 3, 1959, стр. 37—39. 131. Дж. О. Лимб, Энтропия квантованных телевизионных сигна- сигналов, (J. О. Limb, Entropy of quantised television signals), Proc. Inst. Elec. Eng. (Proc. IEE) 115, № 1, 1968, стр. 16—20. 132. П.Нейдгардт, Введение в теорию информации (Р. N е i d- h a r d t, Einfuhrung in die Informationstheorie), Berlin, VEB Verlag Technik, 1957. 133. H. С. Ц а н н е с, Р. В. Спенсер, А. Дж. К а п л а н. Об оценке энтропии случайных полей (N. S. T s a n n e s,
ЛИТЕРАТУРА 497 R. V. S р е п с е г, A. J. К а р 1 a n. On estimating the entropy of random fields), Information and Control 16, № i, 1970, стр. 1—6. 134. С. Д е й ч, Заметка о некоторых статистических харпктеристи- ках машинописного или печитиого тшестп (S. J) nuts c It, A note on some statistics с.ои.чоп'ик (ypi'wnl.l.im or printed male- rial), IRE Trans, on Inform. Thooi-y IT-:», № 2, 1!>57, стр.136— 143. 135. Г. А. К а й з e p, К ном рог,у об энтропии тикстон, ннночнтан- пых на пишущей машишес ((!. Л. К » у н « г, Zur Kulropie schreibmaschincngGschribcncr lYxlvorliigen), l\iiclii'iclil.«iil.ecun. Zeitschr. (NTZ) 13, № 5, 1960, стр. 219—224. 136. У. С. М а й ч е л, Статистическое кодиропании для передачи текста и рисунков (W. S. Michel, Statistical encoding for text and picture communications), Commun. and Eloctr., № 35, 1958, стр. 33—36. 137. R. А. Г а р м a in, II. Б. К и р и л л о и, ^кепернментплыюе исследование статистики фототелогрнфших сообщений, Нпучи. доклады высш. школы (радиотехника и илоктронмка), № 1, 1959, стр. 37—42. 138. Р. Р. В а с и л ь е в, О статистических мотодпх передачи фо- фототелеграмм, Радиотехника и шшктроникн 2, .N» 2, 1957, стр. 136—143. 139. В. Г. Ф р о л у ш к и п. Липли» статистической структуры текстовых фототелеграмм, Электросвязь, № 5, 1959, стр. 63—70. 140. У. X. Ф о й, Энтропия простых линейных чертежей (W. H. F о у, Entropy of simple line drawings), IEEE Trans. on Inform. Theory IT-10, № 2, 1964, стр. 165—167. 141. Ф. Е. Т е м н и к о в, В. А. А ф о н и н,В. И. Д м и т р и е в. Теоретические основы информационной техники, М., «Энер- «Энергия», 1971. 142. Быстрая связь (Fast data communication), Sci. News Letters 83, № 1, 1963, стр. 5. 143. Г. Якобсон, Информационная пропускная способность человеческого глаза (II. Jacobson, The informational capacity of the human eye), Science 113, № 2933, 1951, стр. 292—293. 144. Г. Якобсон, Информация и ухо человека (H.Jacob- son, Information and the human ear), Journ. Acoust. Soc. Amer. 23, № 4, 1951, стр. 463—471. 145. Г. Ш о б е р. Основополагающие замечания о применимости теории информации к оптике (Н. S с h о Ь е г, Grundlegendc Bemerkungen dux Anwendbarkeit der Informationstheorie auf die Optik), Wiss. Zeitschr. Hochschule Elektrotechn. Ilmeriau 3, № 3—4, 1957, стр. 273—276. 146. Д. Г. К е л л и, Информационная пропускная способность единичного зрительного канала (D. H. Kelly, Information capacity of a single retinal channel), IRE Trans, on Inform. Theory IT-8, № 3, 1962, стр. 221—226. 147. К. Кюпфмюллер, Переработка информации человеком (К. Kiipfmiiller, Informationsverarbeitung durcli den
/|<|Ь ЛИТЕРАТУРА MmischcB), Nachricbtentechnische Zeitschr. (NTZ), № 2, 1959, ••тр. 68—74. 14H. к. Б. Н ь ю м а н, Люди и информация: точка зрения психо- психолога (Е. B.Newman, Men and information: a psychologist's view), Nuovo Cimento Suppl. 13, № 2, 1959, стр. 539—559. Vi'J. Г. С и к л а и, Изучение скорости зрительного восприятия (G. С. S z i к 1 a i, Some studies in the speed of visual percep- perception), IRE Trans, on Inform. Theory 1T-2, № 3, 1956, стр. 425— 128. 1Ь0. Г. Квастлер, Изучение пропускной способности челове- человеческого канала (Н. Quastler, Studies of human channel capacity), з сборнике: «Information Theory, Third London Symposium» (ред.— С. С h e г г у), London, Buttorworths, 1050, стр. 361—371. 151. Г. Г а м о в, Возможное отношение между дезоксирибонуклеи- нопой кислотой и белковыми структурами (G. G a m о w, Possible relation between deoxyribomicleic acid and protein structures), Nature 173, 1954, стр. 318. 152. Г. Г а м о в, М. И ч а с, Статистическая связь между соста- составом белка и рибонуклеиновой кислоты (G. G a m о w, M. Yeas, Statistical correlation of protein and ribonucleic acid composition), Proc. Nat. Acad. Sci. USA 41, 1955, стр. 1011— 1019. 153. Ф. К р и к, Дзк. Гриффит, Л. Оргел, Коды без запятых (F. Н. С. Crick, J. S. Griffith, L. Е. О г g e 1, Codes without commas), Pros. Nat. Acad. Sci. USA 43, 1957, стр. 416—421. 154. С.П. Г о л о м б, Л. Р. В о л ч, М. Дельбрюк, Строение и сиойства кодов без запятой, журнал переводов «Математика» 4, № 5, 1960, стр. 137—160. 155. Г. Г а м о в, А. Р и ч, М. И ч а с (или И к а с), Проблема пе- передачи информации от нуклеиновых кислот к белкам, в сбор- вике: «Вопросы биофизики», М., ИЛ, 1957, стр. 205—263; Г. Г а м о в, М. И ч а с, Криптографический подход к проб- проблеме синтеза белка, в сборнике [14}, стр. 66—71; М. И ч а с, Белковый текст, там же, стр. 72—103. 156. Ф. Крик, К расшифровке генетического кода, в сборнике: «Живая клетка», М., ИЛ, 1962, стр. 203—222; Ф. Крик, Генетический код (I), в сборнике: «Структура и функция клет- клетки», М., «Мир», 1964, стр. 9—23; М. Ниренбе рг, Гене- Генетический код (II), там же, стр. 24—41; Ф. К р и к, Генетичес- Генетический код (III) (F. Н. С. С г i с k, The genetic code: III), Scien- Scientific American 215, № 4, 1966, стр. 55—61; M. В. В о л ьк е н- штейн, Проблема генетического кода, «Природа», № 9, 1968, стр. 20—29. 157. Ы. И час, Биологический код, М., «Мир», 1971. §4 158. К. Шеннон, Некоторые результаты теории кодирования для канала с шумами, в книге: «Работы во теории информации и кибернетике», (см. [1]), стр. 433—460.
ЛИТЕРАТУРА 159. П. Э л а й е с, Кодирование для двух каналов с шумами, и сборнике: «Теория передачи сообщений» (см. 1MB]), стр. 114 - 138. 160. Р. Л. Г а л л а г е р, Простой вывод теоремы кодироишшн и некоторые применения, Кибернетический сборник (imii.ni серия), вып. 3., М., «Мир», 1966, стр. 50-00. 161. Р. Л. Д о б р у ш и н, Асимптотические оценки прршгпшгти ошибки при передаче сообщения по дискретному к mi ил у пиши без памяти с симметричной матрицей пороитностей переход», Теор. вероятн. и ее примен. 7, № 3, 19A2, стр. 2НЯ- .'$11. 162. К. Шеннон, Пропускная способность кнннлп г. шумом при нулевой ошибке, в книге: «Работы но теории нмфирмпции и ки- кибернетике» (см. [1]), стр. 464—487. 163. С. К. 3 а р е м б а, Замечание к основной теореме дли диск- дискретного канала с шумами, в сборнике: «Теория передачи со- сообщений» (см. A08]), стр. 28—31. 164. Э. Н. Г и л б е рт, Срапшчппо плфинитоп сигпплон (ГС. N. О i I- b е г t, A comparison of signalling nlplmbrtH), Moll Ky.sl.uin Techn. Journ. 31, № 3, 19Г»2, стр. 502-522. 165. Д. Слепни, Теории кодирошшин (П. К I c> p i и и, ('.oiling theory), Nuovo Cimento Kuppl., Kit. X, 1.1, № 2, HIM, стр. 373—388. 166. Г. А. Барнард, Простые докпяитол1лтвп нристых глушен теоремы кодирования, и сборнике: «Теории передачи сообще- сообщений» <«м. [108]), стр. 32—42. §5 167. Н.Ловинсон, Теория кодирования: противоречащий при- пример к принадлежащей Г. X. Харди концепции прикладной математики (N. Levinson, Coding theory: a counterexample to G. H. Hardy's conception of applied mathematics), Amcr. Math. Monthly. 77, № 3, 1970, стр. 249—258. 168. У. П и т е р с о н, Коды, исправляющие ошибки, М., «Мир», 1964. 169. Э. Берлекзмп, Алгебраическая теория кодирования, М., «Мир», 1971. 170. Р. Л. Д о б р у ш и н. Теория оптимального кодирования ин- информации, в сборнике: «Кибернетика на службу коммунизму* (ред.— А. И. Б е р г), т. 3, 1966, стр. 13—45. 171. П. Э л а й с (или Э л а й е с), Кодирование и декодирование, и сборнике: «Лекции по теории связи» (ред,— Е. Дж. Б а г- д а д и), М., «Мир», 1964, стр. 289—317. 172. Р. В. X а м м и и г, Коды с обнаружением и исправлением ошибок, в сборнике: «Коды с обнаружением и исправлением ошибок», М., ИЛ, 1956, стр. 7—23. 173. Р. Р. В а р ш а м о в, Оценка числа сигналов в кодах с кор- коррекцией ошибок, Докл. Акад. Наук СССР, 117, № 5, 1957, стр. 739—741. 174. Р. К. Б о у з, Д. К. Р о и - Ч о у д х у р и, Об одпом классе двоичных групповых кодов с исправлением ошибок, Киберне- Кибернетический сборник, вып. 2, 1961, стр. 83—94; Дальнейшие ре-
Mil) ЛИТЕРАТУРА нультатм относительно двоичных групповых кодов с исправ- исправлением ошибок, Кибернетический сборник, вып. 6, 1963, стр. 7-12. 175. Л. X о к в и н г е м, Коды, исправляющие ошибки (А. Н о с- quenghem, Codes correcteurs d'erreurs), Chiffres 2, 1959, стр. 147—156. 17(i. J\ Дж. Галлагер, Коды с малой плотностью проверок на четность, М., «Мир», 1966. 177. Д. С л е п я н, Класс двоичных сигнальных алфавитов, в сборнике: «Теория передачи сообщений» (см. [108]), стр. 82— 113. 178. Р. Л. Д о б р у ш и н, Асимптотическая оптимальность групповых и систематических кодов для некоторых каналов, Тоор. лероятп. и ее примеп. 8, № 1, 1963, стр. 52—66. 179. Г. Д р и г а с, Теория кодирования для симметричных кана- каналом (II. Ю г у g a s, Verscnliisselungstheorie fur symmetrische Kariale), Zcitschr. fur Wahrscheinlichkeitstheorie und verw. Gebiete 4, 1965, стр. 121—143. 180. О. М. Габидулин, Границы для вероятности ошибки де- декодирования при использовании линейных кодов без памяти. Нробл. передачи информ. 3, № 2, 1967, стр. 55—62. 181. Р. А л с в е д е, Групповые коды не позволяют достичь шен- иоиовской пропускной способности для общих дискретных каналов (R. Ahlswede, Group codes do not achieve Shannon's channel capacity for general discrete channels), Ann. Mathem. Stat. 42, № 1, 1971, стр. 224—240. 182. Г. Е. Сакс, Исправление кратных ошибок с помощью про- перок на четность (G.E. Sacks, Multiple error correction by menus of parity chocks), IRE Trans, on Inform. Theory IT-4, №• 4, 1958, 145—147. 183. В. Д. Колесник, Е. Т. Мирончиков, Декодирова- Декодирование циклических кодов, М., «Связь», 1968. 184. Д. Ф о р н и, Каскадные коды, М., «Мир», 1970. 185. Д. Горенстейн, У. Питерсон, Н. Цирлер, Ква- 8исовершенность кодов Боуза — Чоудхури с исправлением двух ошибок, Кибернетический сборник, вып. 6, 1963, стр. 20-24. 186. А. Тиетявяйнен, А. Перко, Не существует неиавест- • ных совершенных двоичных кодов (A. Tietavainen, А. Р е г к о, There are no unknown perfect binary codes), Ann. Univ. Turku, Ser. A, I, № 148, 1971, стр. 3—10. 187. В. А. Зиновьев, В. К. Леонтьев, О совершенных кодах, Пробл. передачи информ. 8, № 1, 1972, стр. 26—35.
ИМЕННОЙ УКАЗАТЕЛЬ1) Блэк (Black J. W.) 270, 495 Блюме (Blulmie II.) 255, 493 Болтянский В. Г. 5 Боуз (Rose П. С.) 407, 429, 438, 499 Б])Ш1лю;||| (Hrillouin L.) 9, 72, 114, 487 Броули (Bruwly I. W.) 284 Брукс (lirooks* I'. I'.) 283, 284, 287, 4% Куль (Hoolo G.) 05 Бурбаки (Uourbnki N.) 2G7 Варшамов P. 1'. 40G, 421, 431— 433, 499 Васильев P. P. 307—309, 497 Веберн (Webem A.) 285 Велч (Welch L. R.) 326, 498 Вентцель E. C. 21, 488 Винер (Wiener N.) 487 Bo (Waugh N. C.) 254, 271, 493 Возенкрафт (Wozencraft S. M.) 314, 316, 317, 393, 487 Воинеску (Woinescu I.) 266, 280, 495 Волькенштейн М. B. 328, 498 Вольфовиц (Wolfowitz J.) 229, 359, 372, 487 Вудворд (Woodward P. M.) 9, 314, 316, 487 Габидулин Э. M. 416, 500 Гайдн (Haydn J.) 285 Галлагер (Gallager R. G.) 229, 359, 372, 383, 415, 416, 428, 430, 434, 488, 499, 500 J) В настоящем указателе вслед за каждой фамилией перечисле- перечислены псе страницы, на которых либо упоминается данное лицо, либо имеются ссылки на его работы. Адельсон-Вельский Г. М. 163 Аксаков С. Т. 259, 267 Алексеев П. М. 263, 493 Алсведе (Ahlswede R.) 416, 500 Апостель (Apostel L.) 266, 493 Атал (Atal В. S.) 255, 256, 271, 493 Аттпив К. (Attneave С.) 283, 287 Аттнив Ф. (Attneave F.) 118, 283, 287, 489 Афошш В. А. 316, 497 Багдади (Baghdady E. J.) 499 Баласубраманьям (Balasubrah- manyam P.) 255, 271, 493 Бальмонт К. Д. 238 Барнард (Barnard G. А.) 248, 385, 491, 499 Бар-Хиллел (Bar-Hillel Y.) 16, 488 Башарин Г. П. 238, 255, 491 Белар (Belar H.) 284, 289, 496 Белевич (Belevitch V.) 491 Беллман (Bellman R.) 162, 490 Берг А. И. 499 Берлекэмп (Berlekamp Б. R.) 393, 404, 428, 430, 432, 434, 479, 499 Бернштейн И. Н. 163 Бернштейн С. Н. 66 Берри (Berry J.) 275, 494 Бертон (Burton N. G.) 250, 253, 491 Бишем (Beauchamp J.) 284, 285, 496
ИМЕННОЙ УКАЗАТЕЛЬ Силу» (Galois E.) 471 Iiimoii (Garaow G.) 325, 326, .128, 498 Гнрмаш В. А. 12, 238, 246, 307, 4ttl, 497 Гатои (Haton J. P.) 279, 495 Гаусс (Gauss K. F.) 425 Гельфанд И. М. 16, 488 Гсрпер М. Л. 163 Гсрстман (Gerstman L. J.) 254, 266, 271, 493 Гилберт (Gilbert E. N.) 183,385, 406, 431—433, 490, 499 Гипдикин С. Г. 12 Глас (Gluss В.) 162, 490 Гиоденко Б. В. 19, 23, 488 Голой (Golay M. J. E.) 438 Голомб (Golomb S. W.) 326, 498 Гончаров И. А. 260, 267, 269 Горенстейн (Gornstein D. С.) 440, 500 Грайер (Grier G. W.) 256, 268, 269, 494 Григнетти (Grignetti M. С.) 266, 494 Гриффит (Griffit J. S.) 326, 498 Гуиценхейзер (Gunzenhauser R.) 270, 494 Давиде (Devide V.) 162, 490 Дайменд (Diamond S.) 21, 488 Дароци (Daroczy Z.) 131, 490 Дейч (Deutsch S.) 302, 303, 497 Дельбрюк (Delbriick M.) 326, 498 Дени-Папен (Denis-Papin M.) 488 Джекобе (Jacobs I. M.) 314, 316, 317, 383, 487 Джемисон Г. (Jamison G.) 252, 492 Джемисон К. (Jamison К.) 252, 492 Джойс (Joyce J.) 266 Джонсон (Johnson S. M.) 163, 490 Дмитриев В. И. 316, 497 Добрушин Р. Л. 12,16,123, 236, 240, 359, 393, 416, 489, 491, 499, 500 Долежель (Dolezel L.) 254, 270, 271, 492 Дригас (Drygas H.) 416, 500 Дьенеш (Denes P.) 279, 495 Екимов А. В. 268, 494 Жиро (Giraud R.) 253, 268, 492 Зайдман Р. А. 273 Заремба (Zaremba S. К.) 373, 499 Зарипов Р. X. 284, 290, 496 Звонкий А. К. 16, 487 Зиндер Л. Р. 12, 278, 495 Зиновьев В. А. 439, 500 Зитек (Zitek F.) 254, 492 Ибрагимов Т. И. 254, 280, 492, 495 Иванов В. В. 16 Иенсен (Jensen J. L. W. V.) 446 Ичас (или Икас, Yeas M.) 326, 328, 329, 498 Казарян Р. А. 254, 492 Кайзер (Kayser G. А.) 279, 303—306, 497 Кальбертсон (Culbertson J. T.) 488 Каплан (Kaplan A. J.) 300, 301, 496 Карнап (Carnap R.) 16, 488 Каруш (Karush J.) 234, 491 Кац (Кае М.) 19, 21, 489 Квастлер (Quastler H.) 11, 87, 118, 238, 489, 498 Келли (Kelly D. Н.) 318, 497 Келлог Д. (Kellogg D. J.) 162, 490 Келлор П. (Kellog P. J.) 162, 490 Кемени (Kemeny J. G.) 488 Кириллов Н. Е 307, 497 Кислицин С. С. 162, 163, 490 Колесник В. Д. 428, 434, 500 Колмогоров А. Н. 8, 12, 16, 19, 21, 67, 252, 254, 257, 258, 267, 268; 270, 272, 273, 478, 487, 488, 489 Кондратов А. М. 270, 494 Кордемский Б. А. 137, 141, 146, 150, 490
ИМЕННОЙ УКАЗАТЕЛЬ 503 Котельников В. А. 314 Коэн (Cohen J. Е.) 284, 285, 496 Крафт (Kraft L. G.) 233 Крейндлер (Kreindler A.J80, 495 Крейцер (Kreuzer H.) 270, 494 Кринчик Е. П. 118, 489 Крик (Crick F. Н. С.) 326, 328, 498 Кульман (Cullman G.) 488 Куприн А. И. 271 Кюпфмюллер (Kupfmuller К.) 253, 276, 277, 306, 318, 319, 492, 497 Ламотт (Lamotte M.) 279, 495 Лебедев Д. С. 12, 238, 246, 296, 297, 298, 299, 300, 491, 496 Левенштейн В. И. 12 Левин Л. А. 16, 487 Левинсон (Levinson N.) 393, 430, 499 Ледер (Leder P.) 328 Ленский Д. Н. 254, 492 Леонард (Leonard J. A.) 118, 489 Леонтьев А. Н. 118, 489 Леонтьев В. К. 439, 500 Ликлайдер (Licklider J. С. R.) 250, 253, 491 Лимб (Limb J. О.) 296, 297, 298,-299, 300, 496 Линт ван (Lint van J. H.) 439 Ломов Б. Ф. 118, 319, 489 Льюис (Luce R. D.) 118 Людтке (Liidtke H.) 270 Майтел (Michel W. S.) 306, 312, 497 Макмиллан (McMillan В.) 229, 234, 491 Манфрионо (Manfriono R.) 254, 492 Маркус (Marcus S.) 272, 494 Маттеп (Matthaei J. H.) 328 Малон (Malone D.) 267 Мендельброт (Mandelbrot В.) 266, 275, 493, 494 Мендельсон (Mendelssohn F.) 285 Мешалкин Л. Д. 489 Миллер (Miller G. А.) 238, 266, 274, 493 Минковский Г. (Minkovsky G.) 478 Мирончикоп Е. Т. 428, 434, П00 Михайлоску (Mihnilnscii) 200, 280, 495 Молошная Т. II. 12 Моль (Moles А.) 487 Морф (Morf А.) 200,403 Мостеллор (Moslollor F.) 19, 224, 488, 489 Мур (Mooro E. F.) 18К, 490 Наир (Nair К. К.) 255, 256, 271, 493 Нопсльскнй П. Б. 252, 267, 492 Нейдгардт (Noidhanlt P.) 299, 301, .410, 490 Пойман П. (Neumann P. G.) 283, 284, 287, 490 Пойман 10. (Noyman J.) 21, 488 Николаев В. И. 118, 489 Николау (Nicolau E.) 254, 270, 271, 272, 492 Ниренберг (Nirenberg M. W.) 327, 328,498 Новиков П. С. 12 Ньюман (Newmen E. В.) 254, 266, 271, 319, 493, 498 Овсеевич И. А. 12, 16 Ожегов С. И. 273 Олсон (Olson H.) 284, 289, 496 Оргел (Orgel L. Е.) 320, 498 Очоа (Ochoa S.) 328 Пархоменко П. П. 165, 490 Паттерсон (Patterson G. W.) 188, 490 Пейсли (Paisley W. I.) 271, 495 Перко (Perko A.) 439, 500 Петрова Н. В. 16, 253, 267, 268, 492 Пешковский А. М. 278, 494 Пийль Е. И. 296 — 300, 496 Пикар (Picard С. F.) 165, 490 Пинкертон (Pinkerton R. С.) 282, 283, 286, 287, 495
M'i ИМЕННОЙ УКАЗАТЕЛЬ 11||1>'Г|1О|1СК|111 Л. Л. 268, 494 Нт.трошипй 1». Г. 236, 253, •S'l, 207, 268, 273, 491, 492, ¦м Мир.-. (I'iH'co Т. R.) 238, 266, 284, ¦|«7 1||цс|1с<111 (Peterson W. W.) 393, '.:»(. 430, 432, 434, 440, 499, Mill М.им-таен И. А. 72, 487 11|1ОХ<ф<)|! Л. В. 16 Пушкин Л. С. 270, 272 Рлджм! niiiuiiui (Rajagopalan К. Н.) 255, 271, 284, 285, 493, ¦'¦•к; I';i:i»ciidhu К. А. 268, 494 l';iiiT (Wright W. V.) 283, 284, 2S7, 496 Гамакринша (Ramakrischna I!. К.) 255, 256, 271, 493 I ';i мача и дран (R amachandran V.) 255, 256, 271, 493 Сим (Rich A.) 328, 498 Романов 10. A. 488 Гоаоибпум М. Д. 252, 267, 492 I'oii-Чоудхури (Ray-Chaudhuri I). K.) 407, 42<t, 4.48, 499 Голпид (Kolnrid M.) 284, 496 Гочорик (Roceric A.) 254, 270, 271, 272, 492 I'ypico (Rourke R. F. K.) 19, 224, 488 1'i.itob С. М. 12 1'ычкова Н. Г. 258, 493 Гапчук А. П. 253, 492 Сакс (Sacks G. E.) 420, 500 Спла (Sala C.) 254, 270, 271, 272, 492 Самби (Samby W. H.) 256, 268, 269, 494 Caiiuec (Suppes P.) 16, 488 Спрдинас (Sardinas A. A.) 188, 490 Сиклаи (Sziklai G. C.) 319, 498 Сиромони (Siromoney G.) 252, 255, 256, 271, 284, 285, 492, 493, 496 Слепян (Slepian D.) 385, 393, 415, 499, 500 Смирнов О. Л. 268, 494 Снелл (Snell J. L.) 488 Спенсер (Spencer R. V.) 300, 301, 496 Стамблер С. З. 16 Стивене (Stevens S. S.) 274, 493 Субраманиан (Subramanian R.) 255, 256, 271, 493 Тарноци (Tarnoczy T.) 270, 272, 494 Темников Ф. E. 316, 497 Тиетявяйнен (Tietavainen A.) 439, 500 Толстой Л. Н. 246 Томас (Thomas G. B.) 19, 224, 488 Томпсон (Thompson G. L.) 488 Торндайк (Thorndike E. L.) 87, 263 Урбах В. Ю. 248, 491 Успенский В. А. 12, 278, 494 Фаддеев Д. К. 131, 489 Файнстейи (Feinstein A.) 9, 229, 350, 351, 359, 385, 487 Фано (Fano R. М.) 201, 229, 233, 330, 359, 368, 393, 487 Фей (Fey P.) 488 Фишер (Fisher R. А.) 404 Фой (Foy W. Н.) 312, 497 Фолкнер (Faulkner W.) 269 Фомин С. В. 478 Форд (Ford L. R.) 163, 490 Форни (Forney G. D.) 430, 434, 500 Фостер (Foster S.) 284, 289 Фрадис (Fradis A.) 266, 280, 495 Фрик (Frick F. С.) 256, 268, 269, 494 Фриц (Fritz E. L.) 256, 268, 269, 494 Фролушкип В. Г. 307, 309, 497 Хайман (Hyman R.) 85, 103, 489 Халле (Halle M.) 278, 279, 494 Хансон (Hansson H.) 254, 492 Харди (Hardy G. И.) 393 Харкевич А. А. 12, 238, 260, 314, 316, 491
ИМЕННОЙ УКАЗАТЕЛЬ 505 Хартли (Hartley R. V. L.) 79-^ 83, 86, 168, 198 Хафман (или Хаффмен, Huff- Huffman D. А.) 206, 207, 229, 236, 330, 491 Хик (Hick W. Е.) 116, 489 Хиллер (Hiller L.) 284, 285, 496 Хинтикка (Hintikka J.) 16, 488 Хинчин А. Я. 19, 23, 488 Хлебников В. 269 Хоквингем (Hocquengham A.) 317, 407, 429, 438, 499 Хорана (Khorana E. G.) 328 Хопкинс (Hopkins A. L.) 283, 284, 287, 496 Хэмминг (Hamming R. W.) 403—406, 422, 433, 500 Цаннес (Tsannes N. S.) 300, 301, 496 Ципф (Zipf G. К.) 265, 266, 493 Цирлер (Zierler N.) 440, 500 Цуккерман И. И. 296, 297, 299, 300, 496 Цыбаков Б. С. 16 Чебышев А. И. 55—59, 385, 394 Ченцов Н. Н. 150, 157, 490 Черри (Cherry ColHn) 487, 489, 498 Черри (Cherry E. С.) 278, 279, 494 Чиплункар (Chiplunkar V. N.) 255, 256, 271, 493 Шенберг (Schonberg A.) 285 Шеинон (Shannon С. Е.) 5—7, 79—83, 131, 201, 212, 229, 245, 248, 249, 253, 255, 260, 266— 268, 300, 301, 316, 330, 344, 349—351, .458, 359, 362, 374, 388, 393, 40.1, 428, 487, 491, 498, 499 Шеннон Бетти (Shannon M. Е.) 267 Шестопал Г. Л. 12 Шклярский Д. О. 150, 157, 490 Шобер (Scholar П.) .!1Н, 497 Шоу (Shaw G. И.) 274 Шройбер (Scliroihor VV. V.) 295, 298, 299, 300, 4% Шрейдер Ю. А. 10, 4SH Штейнгауз (Stcin)inus II.) 1A2, 490 Шуберт (Schubert F.) 285 Шума» (Schiimon И.) 285 ЭЛрлмсом (Al)niiiisoii N.) 233, 488 ;)дсл1.11;н11 М. VI. 12 Олайес (или :>лийс, Klias P.) ЗГ>9, 'МУЛ, 415, 410, 4«М Эплрсс (Enders W.) 10, 279, 495 Эш (Ash R. В.) 359, 372, 383, 488 Эшби (Ashby W. R.) 9, 487 Юнгблад (Youngblood J. E.) 284, 496 Яглом А. М. 16, 34, 66, 236, 488, 489, 491 Яглом И. М. 34, 66, 150, 157, 236, 489-491 Якобсон (Jacobson И.) 318, 497 Якобсон (Jakobson R.) 278, 279, 494
АЛФАВИТНЫЙ УКАЗАТЕЛЬ Абсолютная величина числа 65 - — элемента 65 - — — поля 479 Лдонин 322 Либука Морзе 184 Алгебра Буля 64, 65 •— — нормированная 65 - множеств 61 - событий 59, 60 Алгебраическая теория кодиро- нашш 422 Алгоритм Евклида 467 Алгоритмический подход к по- понятию количества информа- информации 16 Алфавит 186, 196 Аминокислоты 323 исщсства 323 Ьит 70 Илоки /^-буквенные 216, 410 Ьуля алгебра 64, 65 — - —¦ нормированная 65 Ш'ктор 461, 472 Вектор-строка 461 Вектор-столбец 461 Векторное пространство 411, 472 Вероятностей таблица 22 — теория 18. 65, 66, 67 вероятность 7, 18, 21, 65 — условная 41 Верхняя граница Варшамова —« Гилберта 406 — — Хэмминга 435 Взаимная информация двух опытов 119 Взаимно независимые случайные величины 39 Взаимно независимые сообще- сообщения 30 Взаимоисключающие исходы 27 Вопросники 165 Вопросы 165 Вспомогательные опыты i 64 Второй дистрибутивный закон 61 Выгодность кода 190 Выпуклая функция 441 Генетическая информация 320, 321 Главный идеал 468 Группа 411, 458 — коммутативная 458 — некоммутативная 458 Гуанин 322 Двоичная дробь 70 — единица 70 — симметричная линия 336, 340 ¦— система счисления 191 Двоичный код 191 Дезоксирибонуклеиновая кис- кислота 322 Декодирование 187, 188, 320 — мгновенное 188 — однозначное 187 — последовательное 416 Делитель числа 64 Десятичная единица измерения информации 13, 71 Детальность 309 Дискретная геометрия .480 Дисперсия 48, 50—52 Дистрибутивный закон 60, 61 Дит 13, 71 Длина кодового обозначения 193 Доказательство возможности 172
алфавитный указатель 507 Доказательство невозможности 172 Дополнение множества 63 Достоверное событие 25 Евклидово кольцо 467 — пространство 477 Единица двоичная 70 — десятичная 71 — измерения степени неопре- неопределенности 70 Единичный элемент 459 Задача об урне 19, 65 — о фальшивых монетах 146—• 152 Задачи логические 137—140 —на геометрические вероятности 66 Закон больших чисел 14, 58, 59 — исключенного третьего 64 — противоречия 64 — Ципфа 265, 266 Запятая кодовая 187 Игральная кость 17 Идеал 426, 468 — главный 468 Избыточность литературных тек- текстов 269—272 — машинописного текста 304, 317 — мелодий 283 — телевизионных изображений 295—300 — Я8ыка 245, 250 — I— английского 249, 253, 255 — — иврита 255 > немецкого 253 — —- русского 245 — — Самоа 254 —> —¦ французского 253 Информации количество 104 — теория 6 Информация 7, 105, 106, 111 — полная 262, 263 —¦ семантическая 16 — смысловая 274—277, 290, 291 — средняя 105, 106 Информация средняя условная 125 — удельная 263 — условная 125 Испытание 17 Исходы 21, 22 —¦ взаимоисключающие 27 — маловероятные 80 —1 невозможные 81 —¦ нерашюпсроятлмо 170 — практически нсиоамоишыо 82 Канал связи 10 Квантование 292 Код 184, 189, 396 — без понятой 326 —. блоковый 194 — Бодо Ш —187 — Боуаа— Чоудхури — Хпкпни- гсма 42!) — Боузи — Чоудхури — Xokiuiii- гома iioupiiMiiTiiiiiiijii 429, ''t.48 —. —¦ — — примитивный 42У — вырожденный 328 — генетический 325—327 — Голея 438 —. групповой 410 — двоичный 184, 189 — — совершенный Голея 438 —¦ десятичный 232 —i квазисовершенный 439 —. комбинаторный 326 — линейный 410 —. мгновенный 188, 234 — Морзе 184—187 —¦ непрерывающийся комбина- комбинаторный 326 —¦ однозначно декодируемый 188, 234—236 — оптимальный 209, 210, 236 ¦—¦ штотноупакованный 436 — перекрывающийся 326 — порожденный многочленом 423 —¦ равномерный 188, 191 — с исправлением одной ошиб- ошибки 401 —< с проверкой на четность 407, 409 — совершенный 436 —¦ триплетный 327
АЛФАВИТНЫЙ УКАЗАТЕЛЬ Код троичный 184, 189 (Пано 201 — Хафмана 13, 206, 207, 229, 230, 330 — Хэмминга 403, 418, 428— /|30 — — расширенный 419 — циклический 425 — Шеннона — Фано 13, 201, 229, 330 — ти-ичный 197 — (N, М) 403 Кодирование 164, 184, 320 — случайное 375 — статистических сообщений 199 Кодовая запятая 187 Кодовое обозначение 187 — расстояние 434 Кодон 325 Коды групповые 411 — исправляющие двойные ошибки 420 — линейные 411 — обнаруживающие и исправ- исправляющие ошибки 392 —¦ равномерные 185 — систематические с проверкой па четность 410 Количество информации 104 Кольцо 465 — евклидово 467 — коммутативное 465 Координаты вектора 473 Корень многочлена 429 Корректирующий контрольный сигнал 398 Кость игральная 17 Крафта неравенство 234 Линейное пространство 411 Линия двоичная симметричная 336, 340 — — несимметричная 347 со стиранием 340 >—• m-ичная симметричная 339 —¦ связи 10, 11 с помехами 331 Логика математическая 64 Логические задачи 137—140 —• ударения 275 Математическая логика 64 Матрица 409, 461 —¦ проверочная 413 Метрическое пространство 478 Мера неопределенности опыта 69 — Хартли 80, 81—83 — Шеннона 80, 81 Метод отгадывания 200, 249, 256, 268, 300 Метрика Ли 479 —¦ Минковского 478 — Хэмминга 479 Многочлен 461 ¦— деления окружности 425 —¦ неприводимый 470 —¦ приводимый 472 Модуль перехода 70 Морфема 265 Наибольший общий делитель 64, 460, 467 Наименьшее общее кратное 64 Насыщенность 309 Невозможное событие 26 Независимые опыты 69, 87 — случайные величины 35, 51 — события 29, 30, 41, 46 Неопределенности степень 68, 69 Неприводимый многочлен 470 Неравенство Варшамова — Гилберта 406, 421 ¦— Иенсена 446, 449 ¦ общее 449 — Крафта 234 — Макмиллана 234 — Фано 368, 390, 392 — Хэмминга 405 — Чебышева 55, 57 Несовместимые события 26, 43 Нижняя граница Хэмминга 405, 437 Норма 65 Нормированная алгебра Буля 65 Нулевой элемент группы 459 Обратная теорема о блочном ко- кодировании 372 — — о кодировании 14, 362, 371 Обратный элемент 459
АЛФАВИТНЫЙ УКАЗАТЕЛЬ 5С9 Общее наименьшее кратное 64 Общий наибольший делитель 64, 466, 467 Объединение множеств 61, 124 Одиночные ошибки 397, 399, 400 Определение вероятности 21 Опыт 17, 164 — вспомогательный 164 — простой 122 — сложный 81, 122, 123У 167, 169 Опыты зависимые 89 — независимые 69, 87 Основная теорема о кодировании 13. 211, 230 — —. — •— при наличии помех 14, 349, 384, 385 Ошибки систематические 47, 54 Паува 183 Передача информации генети- генетической 320 последовательная 123 Пересечение множеств 61 Письменная речь 236 Подгруппа 411, 463 Подпространство 411, 475 Поле 463, 464 — Галуа 471 Полная информация 262 — система равновероятных ис- исходов опыта 67 Полное множесво элементарных событий 67 Помехи 329 Порождающий многочлен 423, 427 Порядок группы 460 — кольца 469 — поля 465 Посылка тока 183 Правило декодировлпия 414 — сложения вероитностей 27 энтропии 88, 92, 133 —¦ умножения пороитиостей 29, 42 Предельная энтропии 263 Проверка на четность 406—410 Проверочная матрица кода 413 Прогноз погоды 108 Проииподенио множеств 61 — случийнмх ппличин 34, 38, .4!) " — событий 2«, 20, ПО Пропустит способность 231 — — липни пищи г, помехами 340 — — при нулопои ntiinfiico Ж>2 Простил цошсцнн М Прострапг.тип 11<<ктп|>1|(>« 411 — евклидонн 477 ПрОТИВОПОЛОЖНОО Соб|.ГГ||<> ИГ» Противоположный ;>.iii'Mi4iT 4!>!) Психологически и (хчисцин М Психологические dicc.ikmiiimchii.i 114 Пустое множостно (И Равновероятность 20, 21, Ш> Размерность 47.4 Разность 459 Разрешающая способность 'ШЛ Расстояние 477 —. кодовое 434 — Ли 477 —¦ Хаммиигп 434 Растровые элементы 302 Расширенный код Хаммипгп 411) Реакция выбора 84 —¦ простая 84 — психологическая М — сложная 84 Рибонуклеиновая киг.лотн .Т.'.О — — информационна*! !1!М Рибосомы 323 Семантическая информации lit Сжатие алфавита 200 — двукратное 206 — однократное 207 Сигнал 183, 320 — контрольный 401, 405 — элементарный 1Н4, 'Л'Д\ Система счисления дноичшш МИ — — десятичная 191 — —¦ то-ичная 192 ¦ стоичная 195 — — троичная 197 Систематическая ошибки 47, М Скорость передачи гпоГшичшн 231, ззо, 347, :и;« :ii7
АЛФАВИТНЫЙ УКАЗАТЕЛЬ (пнищи. Торндайка 87, 263 ('.лоно 2(>3 (лиг 2E5 Сложение вероятностей 27 знтропий 88, 92 Сложная реакция 84 Сложный опыт 81, 122, 167 Случайная величина 23, 54 < лучайпое событие 22 Случайные величины взаимно независимые 39 — независимые 35, 51 Случайных величин произведе- произведение 34, 38, 39 сумма 34, 36, 38 Событие достоверное 25 — невозможное 26 — случайное 22, 65 — - практически достоверное 59 -- — невозможное 58 — - противоположное 26 Событий произведение 28, 29, 59 — суыыа 26, 27, 28, 32, 59 События 65 — взаимно независимые 30 — пеяаписимые 29, 30, 41, 46 — несовместимые 26, 43 — - сонместцмые 28 Совместимые события 28 Сообщение 183, 320 Сортировка 164 Спектрограмма фонем 279 Сравнение множеств 62 Среднее арифметическое 53 — — случайных величин 53, 57 — время реакции 84—86, 103, 115—118 — значение 24, 27 — — неопределенности 80 — — случайной величины 24, 47 — квадратичное уклонение 48 — количество информации 106 — — — в слове 263 — число взвешиваний 179, 182 — —¦ вопросов 174, 175, 180 — — элементарных сигналов 190, 197—199, 208 Средняя вероятность ошибки 363, 366 — длина кодового обозначения 209 фонемы 280, 281 — информация в одном исходе опыта 105, 106, 178 — условная информация 125 — — — двух опытов 125 — — энтропия опыта 91 — частота буквы 238 Статистическая устойчивость 115 Статистические закономерности 81 Степень неопределенности 68— 70, 83, 84 Сумма множеств 61 — случайных величин 34, 51— 53 — событий 26, 27, 28, 32, 59 Таблица вероятностей 22 Тезарус 16 Теорема о кодировании обрат- обратная 348 основная 198, 211, 228, 230 — — — при наличии помех 349, 362, 370, 384„ 385 ¦— — среднем арифметическом и среднем геометрическом 449 — Шеннона о кодировании 392 Теория вероятностей 7, 18, 65, 66, 67 — информации 6 — кодирования 14, 393 — — алгебраическая 422, 423 Тимин 322 Точная передача 348, 361, 362 Удельная информация 263 — энтропия 217, 228 Умножение матриц 481 Урацил 234 Усиленная обратная теорема о кодировании 372 Условная вероятность 41, 90 —' информация 125
АЛФАВИТНЫЙ yUAIIATICJII. Условная энтропия 91, 241, 243, 244, 248 Устная речь 273 Ферменты 323 Фонема 277 Формула для числа С1^ 30 —¦ полной вероятности 44 — тройной информации 127 Фототелеграф 301 Хроматизмы 282 Хроматическая гамма 283 Цена вопроса 165 Центроид 447 Центр тяжести 447 Цепочки вероятные 229 — элементарных сигналов 353 Цитозин 322 Цифры числа 191, 192 Частота появления результата 17 Частотный словарь 2E3 Чебышева неравенство 55, 57 Четность 398—402 Число 461 ¦— градаций сигнала 316 Шар 475 Эквивалентным мптиицы 'i'tl Экономиос/п. поди Illli, Mill, \'\:' Экспошчщнилыпш ||111111им1 »« роятпигл'н ишиЛмн ;ши — — ошиГисм .'Hill — функции .'1110 Элементарный гигиил IM4 Элементи]1ш>11> прпиОршн лишни 481 Энтропия 7, 72, 7.'1, /II, МП», 121, 128 — безусловна*! 101 — комбинаторики 272 — опыта 10, 72 — остаточная 1W7 — предельна*! 20.') —' распределении пиппптноги-Й 10 — сложного опыт НИ — средняя услотшм 1I — удельная 217, 22Н — условная 91, 241, 2АН арифметика 460 (х)-арифыетика 4U0 р-энтропия 114, 202
Акива Моисеевич Яглом, Исаак Моисеевич Яглом ВЕРОЯТНОСТЬ И ИНФОРМАЦИЯ М., 1973 г., 512 стр. с илл. Редакторы: С. 3. Стамблер, В. В. Абеарян Техн. редактор К. Ф. Брудно Корректоры: 3. В. Aismoueeea, Л. С. Сомова . Сдано в набор 18/XII 1972 г. Подписано к печати 28/V 1973 г. Бумага 84х108у„«. Физ.печ. л. 16. Усл. печ. л. 26.88. Уч.-изд. л. 28,73. Тираж 50 000 экз. Т-08147. Цена книги 1 р. 11 к. Заказ № 1869 Издательство «Наука» Главная редакция физико-математической литературы 117071, Москва В-71, Ленинский проспект, 15 Типография .N4 2 издательства «Наука» Москва Г-99, Шубинский пер., 10