Text
                    Ц.МАРР
Информа! щ( )нный подход
к изучению
представления и обработки
зрительных образов
—s »-V»


VISION A Computational Investigation into the Human Representation and Processing of Visual Information David Man* Late of the Massachusetts Institute of Technology W H Freeman and Company New York
Д.МАРР ЗРЕНИЕ Информационный подход к изучению представления и обработки зрительных образов Перевод с английского Н. Г. Гуревич под редакцией канд. физ.-мат. наук И. Б. Гуревича Москва «Радио и связь» 1987
УДК 007.001.362 Д. Марр. Зрение. Информационный подход к изучению представления и обработки зрительных образов: Пер. с англ. - М.: Радио и связь, 1987. - 400 с: ил. Книга посвящена информационной теории зрения Д. Марра, получившей в настоящее время широкую известность, но до сих пор на русском языке не излагавшейся. Суть теории Марра состоит в том, что в основе зрительного восприятия лежат процессы сбора, представления, обработки и распознавания информации, отражающей свойства наблю- наблюдаемого человеком реального мира. Приводятся методологические предпосылки, описа- описание используемого информационного подхода, структура, предлагаемая для представле- представления процесса зрительного восприятия в целом, и путь, который привел к ее формирова- формированию. Основное содержание книги составляет информационный анализ феномена зрения человека, а именно способы построения вывода (алгоритмов), позволяющего по струк- структуре изображения судить о структуре реального мира, а также обсуждение физических ограничений и допущений, обеспечивающих возможность построения такого вывода. Значительное внимание уделяется иерархии представлений зрительной информации, спо- способам формализации описаний изображения и элементам, из которых они могут и должны строиться,- признакам, стереозрению, использованию движения для восстанов- восстановления трехмерной структуры реальной сцены по последовательности изображений и ис- использованию результатов всех связанных со зрительным восприятием процессов для приведения изображений к виду, удобному для распознавания, и реализации последне- последнего. Информационная теория зрения развивается в книге при сопоставлении и соединении тезисов автора с известными данными по психофизике и нейрофизиологии зрительной системы человека и методами обработки информации, используемыми в автоматизи- автоматизированных системах обработки и распознавания изображений. Книга предназначена для научных работников, специализирующихся в области ин- информатики и вычислительной техники, разработчиков автоматизированных систем об- обработки и распознавания изображений, специалистов в области распознавания образов, искусственного интеллекта, психологии и физиологии восприятия, обработки инфор- информации на ЭВМ, автоматизации научных исследований, студентов и аспирантов соответст- соответствующих специальностей, а также для всех интересующихся проблемой зрения. Табл. 6. Ил. 149. Библиог. 274 назв. Редакция переводной литературы 1502000000-207 046 @1)-87 1982 by W. H. Freeman and Company Перевод на русский язык, предисловие к русскому изда- изданию, примечания редактора и переводчика. Издательство "Радио и связь", 1987
ПРЕДИСЛОВИЕ К РУССКОМУ ИЗДАНИЮ ЗРЕНИЕ КАК ИНФОРМАЦИОННЫЙ ПРОЦЕСС "Природа, в широком смысле этого слова, может и должна служить не только источни- источником задач, решаемых в моих исследованиях, но и подсказывать аппарат, пригодный для их решения." Н. Винер "Я - математик" Зрение остается пока важнейшим источником, из которого человек извле- извлекает информацию о себе и о внешнем мире. Оно оказалось, быть может, важ- важнейшим инструментом бытия человека, поскольку позволяет ему опериро- оперировать изображениями, т. е. теми системами упорядоченных иероглифов, сим- символов и знаков, в которых закодированы реальности его биологического и социального существования. Человек пытается обнаружить себя, осознать свою сущность и индивидуальность, вглядываясь в собственные отражения в сентябрьской воде лесного озера, в "хрустальном дворце" вечности, в экране телевизора, в глазах друга и недруга, в отблеске витрины ... Интересно, од- однако, что при этом очень немногие задумываются о том, каким образом эти отражения возникают и каким образом человек их воспринимает и понимает. Среди тех немногих представителей рода человеческого, которые осознают существование этих проблем и, более того, считают их достойными внима- внимания, имеется совсем небольшая группа людей, у которых разрешение данных проблем (сформулированных в действительности, возможно, совершенно по-другому) входит в профессиональные обязанности. Опыт выполнения этих обязанностей и полученные ими результаты свидетельствуют о том, что основной проблемой при этом оказывается то, на какие вопросы следует стремиться искать ответы и какие задачи следует ставить и решать в процессе исследования зрения. Именно это и составляет суть концепции, выдвинутой покойным Дейви- дом Марром (он работал в Лаборатории искусственного интеллекта Масса- Массачусетсского технологического института, США) и названной им информаци- информационной теорией зрения. В ее основе лежат следующие положения. 1. Зрение - это процесс определения по изображениям, что именно при- присутствует в окружающем мире и где именно оно находится, т. е. зрение сво- 5
дится к решению задач обработки информации. Для того чтобы человек был способен узнавать, что и где находится в окружающем мире, мозг человека должен обладать возможностями представлять каким-то образом соответст- соответствующую информацию во всем разнообразии цвета, формы, движения и от- отдельных подробностей. Изучение зрения, следовательно, не должно сводиться к изучению лишь того, каким образом извлекать из изображений различные аспекты реального мира, представляющие интерес для человека — оно долж- должно также предусматривать и изучение природы внутренних представлений, посредством которых человек сохраняет эту информацию, обеспечивая воз- возможность использовать ее в качестве основы для принятия решений. Этот дуализм — представление и обработка информации — составляет самую серд- сердцевину большинства задач обработки информации и самым существенным образом определяет изучение в рамках теории Марра конкретных задач, возникающих в связи с проблемой зрения. 2. Для того чтобы добиться полного понимания системы столь сложной, как нервная система, следует использовать различные типы научного объяс- объяснения, относящиеся к различным уровням описания работы системы, кото- которые, по крайней мере в принципе, представляют собой некоторое единое целое, хотя прослеживание связей между отдельными уровнями во всех под- подробностях практически бессмысленно. Полное понимание феномена-зрения в целом означает понимание того, каким образом можно надежно и эффектив- эффективно извлекать описания реального мира из его изображений. Это предполагает получение ответов на следующие вопросы. Какого рода информация пред- представляется в зрительной системе человека? Какого рода обработку информа- информации эта система осуществляет и зачем? Каким образом информация пред- представляется в зрительной системе человека? Каким образом осуществляется в ней обработка информации и с помощью каких алгоритмов? Только после получения ответов на эти вопросы можно ставить вопрос о том, каким об- образом эти специфические представления и алгоритмы реализуются на нейро- нейрофизиологическом уровне. 3. В рамках информационной теории основным становится следующий вопрос: какие задачи обработки информации решаются и какая информация требуется для их решения? При изучении систем обработки информации оп- определяющую роль играют три тесно связанные проблемы: представление, описание и процесс обработки. Под представлением понимается некоторая формальная система, предназначенная для получения в явном виде опреде- определенных объектов или видов информации и снабженная инструкцией, указы- указывающей, каким образом система это делает. Результат использования некото- некоторого представления для получения описания заданного объекта является описанием этого объекта в данном представлении. Определение процессов в рамках информационной теории отличается тем, что цели обработки инфор- информации и способы, с помощью которых достижение этих целей обеспечивается, задаются отдельно, а реализация процесса однозначно задается ограничения- ограничениями, которым она должна удовлетворять. Поскольку главной задачей зритель- зрительных процессов является надежное определение свойств материального мира
по его изображениям, то центральную роль приобретает проблема выделения ограничений, обладающих одновременно мощностью, обеспечивающей воз- возможность определения соответствующего процесса, и истинностью для всего мира, в котором действует человек. Для того чтобы процесс начал фактически осуществляться, необходимо построить его реализацию и выбрать представление для объектов, которыми процесс должен оперировать, т. е. анализ любого процесса предполагает вы- выбор представления для входной и выходной информации и выбор алгоритма, при помощи которого искомое преобразование можно реализовать. При этом выбор допустимых представлений довольно широк, а выбор алгоритма часто решающим образом зависит от того, какое представление используется. Кроме того, часто при исполнении одного и того же представления для реализа- реализации процесса оказываются пригодными несколько различных алгоритмов. Выбор конкретного алгоритма может зависеть от типа тех технических или биологических средств, с помощью которых он реализуется. 4. Зрение представляет собой процесс порождения по изображениям внеш- внешнего мира описания, полезного для наблюдателя и не перегруженного несу- несущественной для него информацией. Этот процесс можно рассматривать как некоторое отображение одного представления в другое, причем исходное представление образуется массивами значений яркости изображения, заре- зарегистрированных фоторецепторами сетчатки. В процессе предварительной обработки изображений в зрительной системе человека синтезируются стандартизованные описания форм и поверхностей, образующих изображение. Значения яркостей элементов изображения опре- определяются геометрическими свойствами и отражательной способностью види- видимых поверхностей, освещением сцены и позицией наблюдателя. Поскольку на изображении влияние всех этих факторов перекрывается, в процессе предварительной обработки проводится сортировка изменений яркости в со- соответствии с породившими их причинами, целью которой является получение представлений, в которых эти факторы учитывались бы по отдельности. Этот процесс осуществляется в два этапа. Вначале строится первоначальный эскиз — представление, отражающее изменения яркости, их распределение и геомет- геометрические характеристики, относящиеся к двухмерному изображению. В ка- качестве непроизводных элементов при построении первоначального эскиза ис- используются пересечения нулевого уровня, пятна, обрывы и нарушения непре- непрерывности, отрезки яркостных переходов, допустимые линии, криволинейные структуры, границы. Затем на основе этого представления строится 2,5-мер- 2,5-мерный эскиз, отражающий геометрические свойства видимых поверхностей (их ориентацию и глубину, а также контуры нарушений непрерывности этих параметров). В качестве непроизводных элементов используются локальная ориентация поверхности, расстояния от наблюдателя, нарушения непрерыв- непрерывности по глубине и ориентации поверхности. Оба эти представления строятся в системе координат наблюдателя. При анализе пространственной организации изображения ставятся две основные задачи: построение характерных объектов, выделяемых наизобра-
жении и отражающих крупномасштабную структуру функции отражательной способности, и обнаружение различных типов изменений измеряемых пара- параметров, связанных с такими характерными объектами изображения и полез- полезных с точки зрения выявления изменений ориентации видимых поверхностей относительно наблюдателя и изменений расстояний, их разделяющих. В ре- результате строятся обобщенные (укрупненные) характерные объекты изобра- изображения и проводятся границы между множествами характерных объектов, об- обладающих какими-либо различиями. Для построения непроизводных элемен- элементов описания изображения используется рекурсия. Исходные данные, являю- являющиеся отправной точкой для всей обработки и анализа, представляют собой описание, составленное из непроизводных элементов, выделенных на изобра- изображении (необработанный первоначальный эскиз). Из него выбираются элемен- элементы, обладающие некоторым подобием; они подвергаются процедурам груп- группировки и кластеризации, в результате чего из них строятся прямые, кривые, пятна больших, чем исходные элементы, размеров, группы и небольшие участки, причем возможности формирования новых объектов определяются внутренней структурой изображения. Многократное повторение этой про- процедуры приводит к получению на каждом масштабном уровне рассмотрения изображения характерных объектов и непроизводных элементов изображе- изображения, отражающих пространственную структуру изображения, присущую соот- соответствующему масштабному уровню. Следовательно, представление должно включать характерные объекты, которые надежно и однозначно могут выделяться на изображении и которым могут ставиться в соответствие значения таких признаков, как ориента- ориентация, яркость, размеры и местоположение. Эти характерные объекты должны соответствовать реальным физическим особенностям наблюдаемой поверх- поверхности. Поэтому при построении представлений и определении процессов, обеспечивающих получение информации о поверхности (стереопсис, восста- восстановление структуры по движению и т. д.), центральную роль играют ограни- ограничения и допущения, отражающие структуру и свойства реального мира. 5. Зрительная система обеспечивает построение полностью инвариантного описания формы по изображению, используя последовательность представле- представлений, начальными элементами которой служат описания, получаемые непо- непосредственно по изображению и устроенные таким образом, что открывают возможность впоследствии выявлять объективные физические характерис- характеристики формы объекта. Наилучшим средством при этом оказываются описания геометрии наблюдаемых поверхностей, так как информация, закодирован- закодированная в изображении при помощи стереопсиса, штриховки, текстуры, конту- контуров, видимого движения и т. д., определяется локальными свойствами по- поверхностей, образующих форму объекта. Подобное описание, однако, нельзя использовать при решении задач распознавания, главным образом в силу его привязки к положению наблюдателя. Поэтому описание поверхности, ориен- ориентированное на наблюдателя, на заключительном этапе процесса обработки изображений в зрительной системе преобразуется" в представление, описыва- описывающее форму трехмерного объекта и его пространственную организацию и 8
не зависящее от направления наблюдения объекта, т. е. финальное описание привязано к объекту. 6. Информационная теория зрения предусматривает разбиение процесса получения информации о форме по изображению на три этапа, соответствую- соответствующие используемым видам представления: 1) представление характеристик двухмерного изображения (типа изменений значений яркости и локальных геометрических свойств); 2) представление характеристик видимых поверх- поверхностей в системе координат наблюдателя (типа ориентации поверхности, рас- расстояния от наблюдателя, скачкообразных изменений значений этих парамет- параметров, коэффициентов отражения поверхности, освещения); 3) представление в системе координат объекта трехмерной структуры и организации формы наблюдаемого объекта в сочетании с каким-либо описанием свойств его по- поверхности. Таким образом, объяснение феномена зрения в рамках информационной теории Д. Марра основывается на постановке следующей проблемы: какие задачи решает мозг человека в то время, когда человек "видит"? Утвержда- Утверждается, что "видение" — это построение эффективных символьных описаний внешнего мира по его изображениям. Поэтому существенной особенностью зрения оказывается выбор представлений для различных видов информации, содержащихся в наблюдаемой сцене. Постулируется универсальная структу- структура процесса извлечения информации о форме объектов из изображений, в соответствии с которой процесс анализа проходит через смену трех представ- представлений: 1) первоначального эскиза, представляющего в явном виде измене- изменения яркости и локальные двухмерные геометрические свойства изображения; 2) 2,5-мерного эскиза, представляющего в системе координат наблюдателя глубину, ориентацию и нарушения непрерывностей наблюдаемых поверхнос- поверхностей; 3.) трехмерной модели, представляющей в координатах объекта описа- описание трехмерной структуры и организации его наблюдаемой формы. Решаю- Решающим элементом информационного подхода к определению процессов, обеспе- обеспечивающих построение таких представлений, является выделение действенных ограничений, отражающих свойства реального мира и предоставляющих до- дополнительную информацию, позволяющую получать искомые характеристи- характеристики наблюдаемых сцен. После того как сформулирована информационная теория процесса, можно сконструировать алгоритмы, реализующие его, и сопоставить их характеристики с характеристиками зрительной системы че- человека. Основными отличительными свойствами концепции Д. Марра являются: использование нескольких уровней объяснения феномена зрения; определе- определение общей структуры информационных процессов, составляющих основу зрения; использование реальных физических ограничений в качестве основы для получения информации об истинных свойствах сцены по ее изображению; осознание дуализма процессов обработки информации и ее представлений, присущего зрению. Информационная теория зрения создана Д. Марром в классических тради- традициях кибернетики, традициях,составляющих концептуальную основу совре-
менных работ в области искусственного интеллекта и информатики в целом, в стиле и духе работ Н. Винера, А. Ляпунова и У. Маккаллока (последний, кстати, был основателем и руководителем лаборатории, известной ныне как Лаборатория искусственного интеллекта Массачусетсского технологического института, в которой родилась и реализовалась концепция Марра). Киберне- Кибернетика в момент своего рождения (в конце 40-х — начале 50-х годов нашего века) привлекла всеобщее внимание главным образом потому, что указала на подобие процессов управления и связи в машинах, живых организмах и обществах и на то, что эти процессы имеют информационный характр, т. е. представляют собой по существу процессы сбора, передачи, хранения и обра- обработки информации. Это придало новые стимулы изучению человека, его мышления, процессов принятия решений, распознавания, т. е. всего того, что, как утверждает кибернетика, происходит на основе информационных про- процессов. Кибернетики, обращаясь к наукам, традиционно занимавшимся изу- изучением человека, главным образом к биологии и психологии, рассчитывали получить у них ответы, касающиеся специфических человеческих способов реализации информационных процессов, и намеревались использовать полу- полученные сведения при разработке программ для того, что теперь называют системами искусственного интеллекта (в особенности — экспертными систе- системами) , и создании соответствующих технических устройств. В этой же связи возникла и проблема "вычислительные машины и мышление", которая в чис- чистом виде выглядит следующим образом: создать на основе вычислительных машин системы, способные выполнять отдельные функции, традиционно считавшиеся интеллектуальной прерогативой человека. Ход работ в области сложных методов обработки информации (таким образом в 50—60-е годы определялись работы в области искусственного ин- интеллекта), а также все развитие кибернетики в целом привели к некоторой переориентации целей искусственного интеллекта. В силу ряда обстоятельств создание "мыслящей машины" постепенно теряло значение. Во-первых, ни науки о человеке, ни техническая ветвь кибернетики не были еще готовы к тому, чтобы совместно решать эту задачу. Во-вторых, расширение сфер при- приложений кибернетики выдвигало собственные задачи и усугубляло разрыв кибернетики с проблемой человека. В-третьих, интенсивное развитие вы- вычислительной техники требовало разработки вычислительных систем, совер- совершенствования методов работы с машинами, создания систем программного обеспечения, языков, инструментальных средств, а также развития теорети- теоретического аппарата информатики. Более подробные сведения об этих процес- процессах, а также их критический анализ можно найти в работах [Ш—П5]1. Тем не менее, эти работы не прошли бесследно — они способствовали раз- развитию формального аппарата, накоплению фактов о действии информацион- информационных механизмов мозга человека, повышению общей культуры исследований в этой области и, наконец^что, возможно, самое главное, привели к концен- концентрации усилий на исследовании отдельных интеллектуальных функций чело- См. список литературы к предисловию. 10
века. Это относится в полной мере к проблеме зрения и соответственно к распознаванию образов в целом как к задаче, решение которой является ко- конечной целью зрительного процесса. Первые работы, в которых возникла задача распознавания изображений, были связаны с созданием так называемых читающих автоматов, т. е. уст- устройств для автоматического распознавания символов. Интересно отметить, что эти работы оказались одними из первых работ по распознаванию, однако затем теория распознавания сосредоточила свое внимание на таких видах ис- исходной информации, как результаты наблюдений, измерений, осмотра, экс- экспертные оценки и тому подобное, т. е. на задачах, в которых отсутствуют отношения порядка, превращающие неупорядоченное множество признаков объекта в целостный объект. Основная часть задач анализа изображений решалась в рамках так называе- называемой проблемы машинного зрения, которая в целом формулировалась как понимание сцены, "описываемой" изображением. На протяжении 50—70-х го- годов в рамках этой общей проблемы выделились, хотя и не очень четко раз- разделились, такие направления, как обработка изображений, распознавание об- образов, анализ сцен, интерпретация изображений, оптическая обработка ин- информации, обработка видеоинформации и понимание изображений. Системы обработки сигналов обеспечивают преобразование исходного изображения в некоторое другое изображение, обладающее заданными ха- характеристиками (например, обеспечивается увеличение отношения сигнал- шум или подчеркиваются отдельные детали изображения с тем, чтобы облег- облегчить человеку его анализ). Содержание изображения часто при этом значения не имеет. Эта группа задач обычно отождествляется с обработкой изображе- изображений. Задачи классификации сводились к отнесению изображений к одному из заранее заданных классов. Типичным примером таких задач служит распоз- распознавание символов. При их решении определяются значения некоторого фик- фиксированного набора признаков изображения, и решение о близости конкрет- конкретного изображения соответствующему классу принимается методами статис- статистической теории решений в многомерном пространстве признаков. При этом значительные усилия затрачиваются на построение оптимальных правил при- принятия решения. Именно такие работы и выполнялись в рамках так называе- называемого распознавания или классификации изображений. В рамках же проблемы понимания изображений разрабатывались про- программы, обеспечивающие построение описания заданного изображения, а так- также описания сцены, воспроизводимой с помощью этого изображения. На на- начальном этапе исследований проблемы распознавания изображений понятие "анализ сцен" часто использовалось, для того чтобы подчеркнуть различия между обработкой двухмерных изображений (например, их классификацией) и трехмерных сцен. Решение такой задачи требует использования знаний о соответствующей проблемной области, а также сложных методов анализа изображений. На начальном этапе работы над проблемой распознавания изображений бы- было затрачено много усилий на попытки построить процесс распознавания, ис- 11
пользуя понятие "образ". Они сводились в основном к следующим двум на- направлениям: 1) изучению образа как такового с целью выяснить, что представляют со- собой образы разных типов, каковы эти типы, как образы строятся, формиру- формируются, возникают, какова их структура, какие подобразы можно выделять в целостном образе, насколько они могут или должны быть элементарны, ка- какие отношения существуют на подобразах и непроизводных образах; про- процесс распознавания при этом организовывался с учетом механизма формиро- формирования образа; 2) построению системы распознавания на основе имитации способностей человека к распознаванию, т. е. путем выявления эвристических бесперебор- беспереборных приемов обработки и анализа информации, свойственных зрительной системе человека, и использования этих эвристик, их вариантов и обобщений в качестве алгоритмов распознавания. Последнее направление существенно зависело от успехов в области психо- психофизиологии и психофизики восприятия, а именно от выяснения того, как объекты внешнего мира представляются в человеческом мозге, какими при- приемами и принципами пользуется человек при восприятии и различении зри- зрительных образов: воспринимает ли он образ "в целом" либо ориентируется на какие-то специфические признаки и, если верно последнее, то каким спо- способом он их выбирает, выделяет, преобразует и использует. Начиная со второй половины 50-х и в течение 60-х годов это направление стало областью интенсивных исследований. В наиболее целостном виде ме- методология эвристического программирования была реализована в так назы- называемом перцептронном подходе к распознаванию. Перцептрон, предложен- предложенный американским ученым Ф. Розенблаттом в 1957 году в качестве относи- относительно простой модели, воспроизводящей некоторые принципы работы моз- мозга человека, послужил основой для создания целого класса обучающихся и самообучающихся распознающих систем, став своего рода мостом* между эвристическим подходом и математическим исследованием процедур обуче- обучения в системах распознавания [П6]. Перцептрон явился первой серьезной альтернативой чисто эмпирическому подходу к синтезу алгоритмов распозна- распознавания, однако тщательное теоретическое изучение этой модели показало, что круг интересных практических задач, поддающихся решению в ее рамках, довольно узок. Отметим, что существенный вклад в изучение перцептронов внесли чл.-корр. АН УССР А. Г. Ивахненко [П7] и американские ученые М. Минский и С. Пейперт [П8]. Сложности, возникшие в процессе решения проблемы распознавания изо- изображений на основе аксиоматизации понятия "образ", ограниченность сведе- сведений о сущности процесса распознавания у человека, предоставляемых психо- психологией и физиологией, а также необходимость решать прикладные задачи — все это вкупе отодвинуло на второй план применение в распознавании изо- изображений методов эвристического программирования, не говоря уже о по- попытках создать подлинную теорию образов. Дальнейшее развитие характери- характеризовалось определенным отсутствием в области разработки теории распозна- распознавания изображений. Решение задач распознавания изображений основывалось 12
главным образом на попытках переносить в эту область методы обработки одномерных сигналов и спонтанных усилиях, связанных с введением в про- процесс распознавания структурной информации. Господствующим же стало направление обработки изображений, поскольку чисто исторически сложи- сложилось так, что работой с изображениями до недавнего времени занимались в основном специалисты по обработке сигналов, телевизионным и оптическим системам, которые принесли в эту область привычный им приоритет разрабо- разработок измерительной аппаратуры. Довольно часто "обработка" сводится к измерению и воспроизведению сигнала, а основными математическими средст- средствами анализа продолжают служить спектральный анализ и различные разно- разновидности статистических фильтров. В результате решение внутренних, техни- технических задач полностью доминировало и выдавалось за продвижение к ко- конечной цели — разработке систем машинного зрения (иначе — автоматизиро- автоматизированных систем обработки изображений (АСОИЗ)). До начала 80-х годов этот подход в равной мере был свойствен как амери- американским, так и советским работам в этой области. Однако в силу значитель- значительно лучшей технической оснащенности (устройства ввода, формирования и дискретизации изображений, вычислительная техника, в том числе специали- специализированные вычислительные системы для обработки изображений, графичес- графические дисплеи и т. д.) в США было решено значительно больше конкретных прикладных задач анализа изображений и, кроме того, было предложено не- несколько интересных эвристических методов, а также созданы и исследованы программы анализа и понимания изображений, что в целом сыграло сущест- существенную роль в осмыслении требований к теории распознавания изображений и путей ее развития и приложений. В этой связи следует упомянуть разработ- разработку анализа методом сверху вниз, идею сегментации, использование эвристик, использование знаний, метод релаксации Розенфельда, введение древовид- древовидных структур данных, обеспечивающих возможность пирамидального пред- представления изображений, и ряд языков, обеспечивающих возможность описа- описания изображений с помощью графов специальных видов. В ряду этих работ несомненно выдающееся место занимает информацион- информационная теория зрения Д. Марра — исключительно яркий и абсолютно оригиналь- оригинальный вклад в изучение проблемы зрения, в целом, и задач анализа изображе- изображений, в частности. Безвременная смерть, к величайшему сожалению, не позво- позволила Д. Марру придать своим результатам совершенно законченный вид (это, естественно, отразилось на характере книги, завершенной друзьями и колле- коллегами Д. Марра, и мы призываем читателя отнестись с пониманием к этому обстоятельству). Современное состояние теории распознавания полностью определяется результатами советской школы распознавания, созданной чл.-корр. АН СССР Ю. И. Журавлевым и развиваемой им и его учениками (см., например, рабо- работы [П9-П11]). В концептуальном плане центральная задача распознавания — построение на основе систематических теоретических и экспериментальных исследова- исследований простых вычислительных средств для отнесения формализованных описа- описаний ситуаций и объектов к соответствующим классам. В основе такого отне- 13
сения (распознавания, классификации, прогноза) лежит получение некото- некоторой агрегированной оценки ситуации по ее описанию. При условии установ- установления соответствия между классами эквивалентности, заданными на мно- множестве решений и множестве объектов распознавания (ситуаций), автомати- автоматизация процедур распознавания становится элементом автоматизации процес- процессов принятия решений. Задачи распознавания представляют собой, по существу, дискретные ана- аналоги задач поиска оптимальных решений. К ним относится широкий класс за- задач, в которых по некоторой, обычно весьма разнородной, быть может не- неполной, нечеткой, искаженной и косвенной информации требуется устано- установить, обладают ли изучаемые (весьма сложные, в некотором смысле "комп- "комплексные") ситуации (объекты, явления) фиксированным конечным набо- набором свойств, позволяющих отнести их к определенному классу (задачи рас- распознавания и классификации), или по аналогичного рода информации о ко- конечном множестве достаточно однотипных процессов следует выяснить, в какой области из конечного числа областей будут находиться эти процессы через определенный период времени (задачи прогнозирования). К задачам этого вида сводятся задачи технической (неразрушающий контроль) и меди- медицинской диагностики, геологического прогнозирования (в частности, восста- восстановление геофизических полей), прогнозирования свойств химических со- соединений, сплавов и новых материалов, распознавания и характеризации свойств динамических и статических объектов в сложной фоновой обстанов- обстановке и при наличии активных и пассивных помех по изображениям, получае- получаемым с помощью разнообразных технических средств, прогнозирования хода строительства крупных объектов, обработки данных дистанционного иссле- исследования природных ресурсов, прогнозирования урожая, обнаружения лесных пожаров, управления производственными процессами (прогнозирования воз- возможностей входа значений параметров быстротекущих процессов в критичес- критические области) и другие задачи. Все перечисленные задачи могут решаться при задании исходных данных в одном из следующих видов либо с помощью их сочетания: а) изображения, полученные в различных диапазонах спектра излучений (оптические, инфра- инфракрасные, ультразвуковые и т. д.) различными способами (телевизионные, фотографические, лазерные, радиолокационные, радиационные и т. д.) и пре- преобразованные в цифровую форму; б) сигналы (длинные числовые последова- последовательности); в) экспертные данные, числовые и другие виды информации общего вида; г) серии изображений ("фильмы") любого из перечисленных в п. а) вида. В основе современной математической теории распознавания лежит так называемый апгебраический подход, предложенный Ю. И. Журавлевым [П9]. Алгебраический подход к распознаванию позволяет получать алгоритмы, обеспечивающие выделение из представленных данных всей полезной инфор- информации и получение решения, точно соответствующего "информативности" этой информации. Такое решение характеризуется минимальной вычисли- вычислительной сложностью, устойчивостью по отношению к шуму и искажениям исходной информации и статистической надежностью. В процессе решения 14
существенно используются принцип прецедентности, формализация понятия обобщенной близости, автоматизация настройки алгоритма на задачу, в том числе автоматизация выбора класса алгоритмов, оптимального для рассмат- рассматриваемого класса задач, и принцип коррекции окончательного решения по- посредством расширения базового множества моделей алгоритмов, используе- используемого для его получения. Процесс получения решения имеет многоуровневый характер. На первом этапе строится эвристическая модель алгоритма, отражающая специфику за- зачи. На втором этапе работа ведется с моделями семейства алгоритмов, по- порождаемых стандартным образом на основе принципа, выбираемого эвристи- эвристически. На этом этапе оптимизация алгоритма распознавания осуществляется в рамках отдельных моделей. На третьем этапе искомый алгоритм синтези- синтезируется из алгоритмов, принадлежащих разным моделям. Таким образом, алгебраический подход к обработке информации в зада- задачах распознавания и прогнозирования обеспечивает реализацию идеологии, позволяющей синтезировать алгоритм, который при выполнении определен- определенных нежестких и просто проверяемых условий точно решает конкретную задачу. Это своего рода методология автоматизации разработки алгоритмов распознавания и прогнозирования, обеспечивающая возможность проанали- проанализировать предъявленную задачу, учесть ее особенности, после чего выбрать метод решения и на его основе предложить соответствующий алгоритм. В рамках алгебраического подхода к обработке информации в задачах распознавания и прогнозирования для работы с изображениями сформулиро- сформулирован так называемый дескриптивный подход [П12, П13]. Он предусматривает решение задач, связанных с получением формальных описаний изображений как объектов распознавания и с формированием и выбором процедур рас- распознавания с.помощью изучения внутреннего строения, структуры и содер- содержания изображения как результата тех операций, которые позволяют постро- построить изображение из подизображений или объектов более простой природы, т. е. непроизводных элементов и объектов, выделяемых на изображении на различных этапах работы с ним (в зависимости от того, применительно к какому морфологическому или масштабному уровню формируется модель изображения). Поскольку этот способ характеризации изображения является операциональным, весь процесс анализа и распознавания изображений, вклю- включая построение формального описания — модели изображения, рассматрива- рассматривается как реализация на изображении некоторой системы преобразований, которая определена на классах эквивалентности, представляющих ансамбли допустимых изображений. Следовательно, в процессе распознавания исполь- используется иерархия формальных описаний изображений, т. е. используются мо- модели изображений, относящиеся к разным морфологическим и масштабным уровням представления — многоуровневые модели, позволяющие в процессе распознавания выбирать и изменять необходимую степень подробности описа- описания объекта распознавания. Дескриптивный подход к распознаванию изображений характеризуется следующими основными особенностями: а) построение формального описа- описания (модели изображения как объекта распознавания) становится самосто- 15
ятелыюй задачей, которая ставится и разрешается в процессе распознавания; б) модель изображения должна включать структурную (в частности, реляци- реляционную) информацию, т. е. представлять собой некоторую формальную конст- конструкцию, при получении которой все время учитываются иерархичность струк- структуры объекта распознавания и отношения, существующие между отдельными элементами этой иерархии как в пределах одних и тех же морфологических и масштабных уровней, так и между ними; в) изменяются понятия начальной и финальной информации; процесс распознавания изображений имеет много- многоуровневый характер: исходная модель изображения в результате применения к ней процедуры распознавания преобразуется в модель изображения, отно- относящуюся к другому морфологическому (масштабному) уровню; к получен- полученной модели снова применяется процедура распознавания и т. д., причем пра- правило остановки определяется видом и типом результатов, требующихся при решении поставленной задачи; г) тесная связь процессов описания и распоз- распознавания изображений и необходимость включения в итерационный процесс распознавания моделей изображений, относящихся к различным морфоло- морфологическим (масштабным) уровням, означают, что модель алгоритма распозна- распознавания изображений включает, помимо распознающего оператора и решающе- решающего правила, оператор, осуществляющий приведение изображения к виду, удобному для распознавания; д) построение распознающего алгоритма из элементарных распознающих операторов выполняется в соответствии со структурой, обеспечивающей реализацию механизма реверсивного алгебраи- алгебраического замыкания [ПИ]; в качестве элементарных распознающих операто- операторов используются алгебраические преобразования двух видов — формирова- формирования и анализа; механизм реверсивного алгебраического замыкания создает общую структуру алгоритма, фиксирующую отдельные этапы процесса рас- распознавания изображения и их последовательность, а также структуру про- процедур, составляющих отдельные этапы процесса; сам же распознающий алго- алгоритм в целом и процедуры отдельных этапов могут варьироваться; е) ввиду итерационности процесса распознавания изображений на каждом шаге итера- итерации реализуются все три этапа, предусмотренные методологией алгебраичес- алгебраического подхода (как для распознающего оператора, так и для оператора приве- приведения изображения к виду, удобному для распознавания). Применение методологии алгебраического подхода позволяет разрабаты- разрабатывать автоматизированные системы распознавания и анализа изображений с учетом особенностей исходной информации и возможностей доступных вы- вычислительных и измерительных средств или требований к ним. Каково со- отношение~Ховременных математических методов распознавания изображе- изображений с данными, отражающими современные представления об устройстве зрительных систем живых существ и особенно человека, пока неясно. До сих пор междисциплинарный обмен в области исследования проблемы зрения и разработки систем машинного зрения остается в основном односторонним. Теория Марра выглядит как путь к разрушению этой односторонности. Сколь быстро и с каким практическим эффектом он будет пройден — остается от- открытым вопросом. Ответ во многом зависит-от усилий читателя, получающе- 16
го теперь возможность познакомиться с монографией, завоевавшей абсолют- абсолютное первенство по цитированию в литературе по анализу и распознаванию изображений. И. Б. Гуревич СПИСОК ЛИТЕРАТУРЫ К ПРЕДИСЛОВИЮ Ш. Вычислительные машины и мышление/Под ред. Э. Фейгенбаума и Дж. Фельдмана; Пер. с англ. под ред. Э. М. Бравермана, А. В. Напалкова и Ю. В. Орфеева. - М.: Мир, 1967. - 552 с. П2. Фейгенбаум Э. А. Искусственный интеллект; темы исследований во втором десяти- десятилетии развития//Кибернетический сборник: Сб. переводов. Новая серия/Под ред. А. А. Ляпунова и О. Б. Лупанова. - М., 1973. - Вып. 10. - С. 171-203. ПЗ. Дрейфус X. Чего не могут вычислительные машины. Критика искусственного разу- разума: Пер. с англ./Общ. ред., послесловие и примечания Б. В. Бирюкова. - М.: Про- Прогресс, 1978. - 336 с. П4. Вейценбаум Дж. Возможности вычислительных машин и человеческий разум. От суждений к вычислениям: Пер. с англ./Под ред. А. Л. Горелика. - М.: Радио и связь, 1982. - 368 с. П5. The Study of Information. Interdisciplinary Messages/Ed by F. Machlup and U. Mansfield. John Wiley and Sons, 1983. - 744 p. П6. Розенблатт Ф. Принципы нейродинамики. Перцептроны и теория механизмов моз- мозга: Пер. с англ./Под ред. С. М. Осовца. - М.: Мир. 1965. - 480 с. П7. Перцептрон — система распознавания образов/Под общ. ред. А. Г. Ивахненко. — Киев: Наукова дУмка, 1975. - 432 с. П8. Минский М., Пейперт С. Персептроны: Пер. с англ./Под ред. В. А. Ковалевского. - М.: Мир, 1971.- 264 с. П9. Журавлев Ю. И. Об алгебраическом подходе к решению задач распознавания и клас- сификации//Проблемы кибернетики: Сб. статей. - М.: Наука, 1978. - Вып. 33. — С. 5 - 68. П10. Гуревич И. Б. Методы распознавания в анализе изображений//Автоматизированные системы обработки изображений (АСОИз-86): Тез. докл. II Всесоюз. конф. (Львов, сентябрь 1986 г.). - М.: Наука, 1986. - С. 124-126. ПИ. Рудаков К. В. О применении алгебраической теории распознавания при обработке изображений//Автоматизированные системы обработки изображений (АСОИз-86) : Тез. докл. II Всесоюз. конф. (Львов, сентябрь 1986 г.). - М.: Наука, 1986. - С. 168 - 169. П12. Горелик А. Л., Гуревич И. Б., Скрипкин В. А. Современное состояние проблемы распознавания. Некоторые аспекты. — М.: Радио и связь, 1985. — 162 с. - (Кибер- (Кибернетика) . П13. Гуревич И. Б. Анализ изображений методом реверсивного алгебраического замыка- ния//Проблемы искусственного интеллекта и распознавания образов: Научная кон- конференция с участием ученых из социалистических стран (Киев, 13—18 мая 1984 г.) .— Тез. докл. и сообщений. Секция И. Распознавание образов. - Киев: Институт кибер- кибернетики им. В. М. Глушкова АН УССР, 1984. - С. 41-43.
Моим родителям и Лусии ПРЕДИСЛОВИЕ Эта книга должна понравиться читателю. Она посвящена волнующим со- событиям, которые я пережил с тех пор, как в 1973 году М. Минский и С. Пей- перт пригласили меня в Лабораторию искусственного интеллекта Массачусетс- Массачусетсского технологического института. Благодаря умелому руководству П. Уин- стона, щедрости Управления перспективных исследовательских программ Министерства обороны США и Национального научного фонда США, свободе действий, предоставленной мне У. Ричардсом, и доброму отношению Р. Хелда условия для работы в лаборатории были идеальными. Мне посчастливилось встретиться и работать с целым рядом замечательных людей, среди которых особенно хотелось бы выделить Т. Поджо. В числе их было много бывших студентов, ставших нашими коллегами. Я многому научился у К. Нисихары, С. Уллмана, К.Форбаса,К. Стивенса, Э. Гримсона и Э. Хилдрет, М. Райли и Д. Батейли. Б. Хорн помог нам ближе познакомиться с физической оптикой, а У. Ричарде — с возможностями человека (и их границами). В декабре 1977 года произошли события, вынудившие меня написать эту книгу на несколько лет раньше, чем я собирался это сделать. Хотя в ней име- имеются пробелы, которые, как я надеюсь, будут скоро заполнены, новые тео- теоретические основы для изучения зрения уже вполне очевидны и подтвержде- подтверждены столь убедительными результатами, что вполне заслуживают изложения в целостном виде. Многие помогли мне преодолеть этот довольно трудный период моей жиз- жизни. Мои родители, сестра, жена Лусиа, а также Дженнифер, Томазо, Симон, Уитман и Инге, в частности, делали для меня больше, чем я порой заслужи- заслуживал. Благодарю их за все, хотя и понимаю, что просто слов благодарности здесь явно недостаточно. У. Принс направил меня к проф. Ф. Г. Хейхи и д-ру Д. Рису из Адденбрукской больницы в Кембридже, которым я благодарен за то, что они дали мне возможность написать эту книгу. Лето 1979 г. Дейвид Марр От издательства Мы хотели бы выразить нашу признательность всем тем, кто помог довес- довести до конца издание книги Д. Марра "Зрение". Мы благодарим Г. Стента, дружеское участие которого обеспечило сотруд- сотрудничество Д. Марра с издательством W. H. Freeman and Company, а квалифици- квалифицированное руководство помогло нам подготовить книгу к изданию. Мы благодарим коллегу Д. Марра К. Нисихару за знания и огромные уси- усилия, вложенные им в это предприятие; без него завершение этой работы ока- оказалось бы невозможным. Мы благодарим помощницу Д. Марра К. Папино за внимательное отноше- отношение к проблемам, связанным как с рукописью, так и с делами издательства. Мы благодарим группу сотрудников Лаборатории искусственного интел- интеллекта Массачусетсского технологического института, занимающихся зрени- зрением, особенно Э. Хилдрет и Э. Гримсона, которые и в большом, и в малом по- помогли выходу этой книги в свет.
ЧАСТЬ I ВВЕДЕНИЕ И МЕТОДОЛОГИЧЕСКИЕ ПРЕДПОСЫЛКИ ОБЩЕЕ ВВЕДЕНИЕ Что это значит — видеть? Обычно, отвечая на такой вопрос, человек сказал бы, что видеть — это узнавать при осмотре, что и где находится (Аристотель считал так же). Другими словами, зрение — это процесс определения по изо- изображениям, что именно присутствует в окружающем мире и где находится. Итак, с помощью зрения прежде всего осуществляется обработка инфор- информации, но его нельзя рассматривать просто как некоторый процесс. Если мы действительно способны узнавать, что и где находится в окружающем мире, наш мозг должен обладать возможностями представлять каким-то образом эту информацию — во всем разнообразии цвета, формы, красоты, движения и отдельных подробностей. Изучение зрения, таким образом, не должно сво- сводиться к изучению лишь того, как извлекать из изображений различные ас- аспекты реального мира, представляющие для нас интерес; оно должно также предусматривать и исследование природы внутренних представлений, по- посредством которых мы сохраняем эту информацию, обеспечивая возмож- возможность ее использования в качестве основы для принятия решений относитель- относительно наших мыслей и действий. Этот дуализм — представление и обработка ин- информации — составляет самую сердцевину большинства задач обработки ин- информации и самым существенным образом будет определять наше изучение конкретных задач, возникающих в связи с проблемой зрения. Необходимость понимания информационных задач и машин возникла сов- совсем недавно. До тех пор пока люди не начали мечтать о таких машинах, а затем и создавать их, насущной необходимости в их глубоком осмыслении не было. Однако вскоре выяснилось, что информационный подход может при- принести пользу при изучении многих аспектов окружающего нас мира. Многие явления, центральные для нас как человеческих существ, — тайны жизни, эволюции, восприятия, ощущений и мышления — представляют собой в пер- первую очередь феномены обработки информации, и если мы намерены когда- нибудь постичь их полностью, то в нашем подходе к их изучению должна учитываться и информационная точка зрения. Далее следует подчеркнуть — утверждение о том, что некоторая работа представляет собой "всего лишь" задачу обработки информации или что не- некоторый организм представляет собой "всего лишь" машину, осуществляю- 19
щую обработку информации, ни в коей мере не является ни дискриминаци- дискриминационным, ни уничижительным. (Это замечание может показаться несколько преждевременным тому, кто все еще сталкивается со случаями, когда вычис- вычислительная машина, контролирующая оплату коммунальных услуг, выдает ито- итоговый счет на сумму 0.00 дол.). Еще существеннее то обстоятельство, что я никоим образом не пытаюсь с помощью этого утверждения ограничить при- природу необходимых объяснений. Фактически дело обстоит как раз наоборот. Одна из замечательных особенностей информационных машин состоит в том, что для их полного понимания требуется принятие множества объясне- объяснений на различных уровнях. Обратимся в качестве примера к ряду подходов, которые необходимо учитывать, утверждая, что понимание зрительного восприятия с общечелове- общечеловеческой и научной точек зрения достигнуто. Во-первых, и, как я полагаю, прежде всего, это подход самого обыкновенного человека. Он знает, что такое видеть, и до тех пор, пока суть ваших доказательств и теорий не будет при- приблизительно соответствовать тому, что является для него очевидным с перво- первого взгляда, вы, по всей вероятности, не правы (этот тезис убедительно и эле- элегантно изложен Остином в его монографии [7]). Во-вторых, существует под- подход ученых, специализирующихся в области изучения мозга, физиологов и анатомов, которым известно многое об устройстве нервной системы и ее деятельности. Проблемы, занимающие их (как соединены между собой клет- клетки, почему они "отвечают" именно так, как они "отвечают", постулаты ней- нейронной теории Барлоу [9]), должны быть рассмотрены и разрешены при- любой попытке дать полное истолкование феномену восприятия. То же самое справедливо и в отношении подхода специалистов по экспериментальной психологии. С другой стороны, человек, имеющий домашнюю вычислительную машину и развлекающийся машинными играми, может выдвинуть совершенно иные требования. "Если, — мог бы сказать он, — зрение действительно сводится к решению задач обработки информации, то у меня должна быть возможность решать их на моей вычислительной машине при условии, что она обладает не- необходимыми вычислительной мощностью и памятью и каким-либо образом соединяется с бытовой телевизионной камерой". Таким образом, ему требу- требуется довольно формальное объяснение, указывающее, что должно быть запро- запрограммировано, и по возможности содержащее советы относительно алгорит- алгоритмов, наиболее подходящих для достижения необходимых целей. Он не хочет знать ничего о родопсине, наружном коленчатом теле и тормозящих проме- промежуточных нейронах. Он хочет узнать, как запрограммировать зрение. Основополагающее положение состоит в том, что для достижения понима- понимания работы некоторого устройства, решающего некоторую задачу обработки информации, требуется множество объяснений совершенно различного ха- характера. Часть I нашей книги посвящена обсуждению этого положения и вы- выполняет важную роль, поскольку одним из ключевых элементов книги яв- является осознание, что нам следует значительно более внимательно относиться 20
к тому, что представляет собой объяснение, чем это было необходимо в свя- связи с другими недавними научными достижениями, например полученными в области молекулярной биологии. Для зрения не существует какого-либо единственного уравнения или подхода, которые могли бы объяснить все. Каждую проблему следует рассматривать с нескольких точек зрения: как некоторую задачу представления информации, как некоторый вычислитель- вычислительный процесс, обеспечивающий получение искомого представления, и, нако- наконец, как некоторую задачу синтеза архитектуры вычислительной системы, с помощью которой можно быстро и правильно решать первые две задачи. Если постоянно иметь в виду этот более универсальный характер природы научного объяснения, можно избежать целого ряда ошибок и заблуждений. Одним из результатов выделения роли обработки информации могло бы ока- оказаться, например, обращение к аналогии между мозгом человека и вычисли- вычислительной машиной. Мозг, в определенном смысле, несомненно, представляет собой вычислительную машину, однако безоговорочное принятие этого поло- положения приведет лишь к заблуждениям, поскольку мозг — это не просто неко- некоторая вычислительная машина, а вычислительная машина, предназначенная для выполнения, как. правило, ряда довольно специфических вычислений. Под вычислительной машиной принято понимать некоторое устройство, снаб- снабженное набором достаточно стандартных команд и обычно работающее по- последовательно (в последнее время иногда параллельно) под управлением программ, хранящихся в его памяти. Для того чтобы понять, что представля- представляет собой такая вычислительная машина, необходимо установить, из каких частей она состоит, каким образом они скомпонованы, каким набором команд она снабжена, памятью какого объема она обладает, как к ней мож^- но обращаться и что нужно сделать для обеспечения ее работы. Эти сведения, однако, составляют лишь малую долю необходимых сведений в случае вы- вычислительной машины, предназначенной для решения задач обработки инфор- информации. Этот момент заслуживает внимания, так как именно он главным образом лежит в основе объяснений того, почему подавляющая часть аналогий между мозгом и вычислительными машинами оказывается чрезвычайно поверхност- поверхностной, а потому — бесполезной. Возьмем, например, международную сеть вы- вычислительных машин для бронирования авиационных билетов, обслуживаю- обслуживающую миллионы пассажиров по всему миру. Для понимания этой системы не- недостаточно знать, как работает современная вычислительная машина. Необ- Необходимо также немного разбираться в том, что представляет собой современ- современный самолет и для чего он предназначен, иметь представление о географии, часовых поясах, тарифах, валютных курсах и международных связях, знать кое-что о международных отношениях, питании и множестве других аспек- аспектов жизни людей, которые следует учитывать при решении этой конкретной задачи. Итак, принципиальный момент заключается в том, что понимание устройст- устройства вычислительных машин не эквивалентно пониманию сущности вычисли- вычислительных процессов. Для того чтобы понять, как работает некоторая вычисли- 21
тельная машина, необходимо изучить эту вычислительную машину. Для того чтобы понять некоторую задачу обработки информации, необходимо изучить эту задачу обработки информации. Для того чтобы добиться исчерпывающе- исчерпывающего понимания решения некоторой конкретной задачи обработки информации на некоторой конкретной вычислительной машине, необходимо изучить и ту и другую. Изучения лишь одной из них, причем любой, будет недоста- недостаточно. С точки зрения философии подход, который я описываю, представляет собой развитие, как их иногда называют, репрезентационных теорий работы мозга. Он отвергает в целом более поздние экскурсы в область философии восприятия вместе с их аргументацией, базирующейся на ощущениях, моле- молекулах восприятия и достоверности информации, получаемой от наших орга- органов чувств. Этот подход, в свою очередь, обращается к более ранним пред- представлениям, согласно которым чувства главным образом предназначены для того, чтобы сообщать нам о том, что где находится. Современные репрезен- тационные теории рассматривают мышление как обращение к системам внут- внутреннего представления; состояния психики характеризуются с помощью те- текущих описаний, определяемых внутренними представлениями, а психичес- психические процессы — с помощью указания того, каким образом соответствующие внутренние представления формируются и каким образом они между собой взаимодействуют. Этот подход является удобной методической основой для исследования зрительного восприятия, и я намерен использовать его в качестве исходного. Как мы убедимся, это заставит нас отказаться от традиционных путей и раз- развернет перед нами практически новую интеллектуальную перспективу. Неко- Некоторые из наших открытий будут вызывать удивление, и субъективно будет нелегко примирить некоторые из тех идей и теорий, которые прочно нами усвоены, с тем, что в действительности в нас происходит, когда мы открыва- открываем глаза и смотрим вокруг. Нам придется даже развить и несколько расши- расширить само фундаментальное понятие научного объяснения для того~чтобы гарантировать, что ничего не пропущено и все важные аспекты проблемы раз- разрешены или могут быгь разрешены. Наша книга состоит из трех частей. В ч. I изложены методологические пред- предпосылки, описывается используемый подход, структура, предлагаемая для представления процесса зрительного восприятия в целом, и путь, который привел к ее формированию. Стиль изложения имеет сугубо субъективный, личный характер. Поэтому можно надеяться, что читатель, понимая, почему каждый шаг делался в соответствующем направлении, лучше воспримет обоснование нашего подхода в целом. Часть II книги (гл. 2—6) посвящена собственно анализу феномена зрения. В ней неформально, но довольно подробно описано, каким образом реально применяются принятые подход и методическая основа, а также конечные результаты. 22
Часть III книги несколько необычна — в ней дан ряд вопросов и ответов, предназначенных для того, чтобы помочь читателю понять ход рассуждений, лежащий в основе нашего подхода, помочь ему, если хотите, приобрести правильные научные убеждения и связать их со своим личным опытом "виде- "видения". Мне часто "приходилось обнаруживать, что одно-два замечания из поме- помещенных в ч. III помогают понять смысл какого-то раздела теории или преодо- преодолеть какую-то субъективную трудность, возникшую в связи с ней; я надеюсь, что и в данном случае они могут сыграть аналогичную роль. Читатель, воз- возможно, обнаружит больше смысла в этой части после того, как прочтет пер- первые две, однако, если просмотреть ее вначале, это может дать стимул при- приняться за книгу всерьез. Итак, детальному изложению посвящена ч. II. Естественно, Вы не найдете здесь полного решения проблемы зрительного восприятия, но моим колле- коллегам и мне посчастливилось быть на протяжении шести последних лет свидете- свидетелями формирования как теоретической основы проблемы зрительного вос- восприятия в целом, так и решения ряда ее основных задач. Мы считаем, что вкупе это составляет достаточно веское свидетельство продуктивности ре- презентационного подхода, т. е. подхода, основанного на концепции представ- представления. Задача нашей книги — обнародовать это свидетельство. Естественно, лишь будущее покажет, в какой мере этот подход может быть развит.
ГЛАВА 1 МЕТОДОЛОГИЯ И КОНЦЕПЦИЯ ИССЛЕДОВАНИЯ 1.1. ПРЕДПОСЫЛКИ И ПРЕДЫСТОРИЯ Проблема зрительного восприятия уже в течение многих веков будоражит любознательность ученых. Одним из первых существенный вклад в ее реше- решение внес Ньютон A704 г. [177]), заложивший основу для современных ра- работ по цветовому зрению, а также Гельмгольц [81], трактат которого, по- посвященный физиологии зрения, вызывает интерес даже сегодня. В начале на- нашего столетия Вертхеймер [248, 249] обратил внимание на то, что при после- последовательном предъявлении изображений (как при показе фильма) наблюда- наблюдается видимое движение не отдельных точек, а целостных структур, или "тю- лей". Во многом подобным же образом мы воспринимаем стаю гусей, совер- совершающих перелет: стая воспринимается как некое единое целое, в котором отдельные птицы не выделяются. Эксперимент Вертхеймера положил начало школе гештальтпеихологии, занимавшейся описанием свойств целостных структур в терминах типа целостность и своеобразие и пытавшейся сформу- сформулировать "законы", определяющие возникновение таких целостных струк- структур. По целому ряду причин эта попытка потерпела неудачу, и гештальтист- ская школа погрузилась во мглу субъективизма- Распад этой школы привел, к сожалению, к тому, что многие из ее оригинальных и неоспоримых откры- открытий оказались вне поля зрения основного направления экспериментальной психологии. С тех пор исследователи, занимавшиеся психологией восприятия, не пред- предпринимали серьезных попыток выяснить, что представляет собой восприятие как таковое, а анализировали его свойства и операциональные характеристи- характеристики. Была твердо установлена трехцветность зрения (см. монографию Бринд- ли [28]), и продолжалось увлечение изучением восприятия движения — в этой области наиболее интересные достижения, вероятно, связаны с экспери- экспериментами Майлса [167] и Уоллака и ОТСоннелла [240], показавшими, что при подходящих условиях форма незнакомого трехмерного объекта может быть правильно определена с помощью всего лишь изменяющейся монокулярной проекции1. Развитие электронно-вычислительной техники позволило получить анало- аналогичные результаты для бинокулярного зрения. Б. Джулес в 1960 году полу- получил с помощью вычислительной машины стереоскопические изображения Монокулярная проекция - плоское изображение, воспринимаемое при монокуляр- монокулярном зрении (одним глазом). 24
Рис. 1.1. Стереоскопическое изображение случайных конфигураций точек типа тех, кото- которые широко использовал в своих экспериментах Б. Джулес. Левое и правое изображе- изображения идентичны, за исключением того, что на одном из изображений центральная квадрат- квадратная зона несколько смещена. При стереоскопическом совмещении создается впечатле- впечатление, что центральный квадрат "плавает" по фону изображения случайных точек, представлявшие собой пары изображений, которые воспро- воспроизводили конфигурации точек и воспринимались как множества случайных точек при рассматривании одним глазом, но сливались при рассматривании одного из изображений пары одним глазом, а другого — другим, что обеспе- обеспечивало восприятие форм и поверхностей явно трехмерного характера. При- Пример подобного стереоскопического изображения приведен на рис. 1.11. Здесь изображение, предназначенное для осмотра левым глазом, представляет со- собой матрицу, заполненную порожденными случайным образом черными и бе- белыми квадратиками; для получения матрицы использовалась вычислитель- 1 Внимание! Для того чтобы обеспечить трехмерное восприятие стереоизображений, иллюстрирующих эту книгу, читателю могут понадобиться устройства стереовидения. Их производят следующие компании: Hubbard Scientific Company, P. O. Box 104, North- brook, Illinois 60062 и Edmund Scientific Company, 1776 Edscorp Building, Barrington, New Jersey 08007. Читатель может добиваться стереоскопического эффекта и не прибегая к помощи оптического прибора: поместите стереоизображение на расстоянии примерно 25 см от глаз и расслабьте их таким образом, как будто бы Вы смотрите вдаль. В конце концов "левое" изображение стереопары, воспринимаемое правым глазом, и "правое" изобра- изображение стереопары, воспринимаемое левым глазом, совместятся и возникает трехмерное изображение. Полезно поместить кончик пальца между стереопарой и глазами (примерно посере- посередине) . Палец должен быть расположен так, чтобы, смотря только левым глазом, Вы ви- видели палец перед правым краем "правого" изображения стереопары. В то же время, смотря только правым глазом, постарайтесь добиться того, чтобы палец был виден перед правым краем "левого" изображения стереопары. Поместив палец в искомое положе- положение, посмотрите на него обоими глазами. Теперь Вы видите оба элемента стереопары, они будут не в фокусе. Затем расслабьте глаза и попытайтесь сфокусировать стереопару, не теряя из вида палец. Этот прием, по-видимому, будет удаваться вам лучше по мере того, как Вы будете становиться старше. 25
ная машина. Изображение, предназначенное для осмотра правым глазом, формируется следующим образом: воспроизводится копия "левого" изобра- изображения, квадратная область, расположенная в его центре, сдвигается несколько влево, после чего порождается новая случайная конфигурация, заполняющая пустоту на изображении, возникшую в результате сдвига. Если каждый глаз видит лишь одну из матриц, как будто бы эти матрицы физически располо- расположены в одном и том же месте, то в результате создается ощущение, что квад- квадрат "плавает" по фону изображения. Очевидно, что эти эффекты восприятия вызваны исключительно стереоскопической диспаратностью, возникающей для соответственных элементов изображений, осматриваемых глазами по отдельности. Подобные эксперименты показывают, что анализ стереоскопи- стереоскопической информации, подобно анализу движения, может осуществляться не- независимо от наличия иной информации. Эти результаты исключительно важ- важны, поскольку дают возможность проводить исследование восприятия в более узких направлениях, которые могут изучаться независимо друг от друга. Ниже будем называть эти направления независимыми модулями восприятия. Психофизика внесла в самое последнее время в изучение зрительного восприятия вклад, характеризующийся значительным числом разнообразных, но в равной мере су- существенных результатов. Этот вклад возник после объединения данных, полученных при изучении адаптивного и порогового обнаружения, причем его исходной точкой сле- следует считать демонстрацию Кампбеллом и Робсоном [30] существования пространствен- пространственно-частотно-настраиваемых независимых каналов, т. е. каналов, чувствительных к изме- изменениям яркости изображения, возникающих в определенных диапазонах уровней яркос- яркости или пространственных частот; такие каналы относятся к механизмам восприятия, действующим на начальных этапах обработки изображения. Эта работа породила под- подлинный взрыв публикаций, посвященных различным аспектам изучения подобных кана- каналов; кульминация наступила десять лет спустя, в 1979 году, когда Уилсон и Берген опубликовали вполне удовлетворительное количественное описание характеристик начальных этапов процесса зрительного восприятия [255 ]. Эта тема будет подробно изу- изучена ниже. Не так давно существенный интерес вызвал несколько иной подход. В 1971 году Р. Н. Шепард и Д. Мецлер обратились к изучению штриховых рисунков простых объек- объектов, отличающихся друг от друга либо поворотом в трехмерном пространстве, либо поворотом в сочетании с отражением (рис. 1.2). Их интересовало, сколько времени не- необходимо для того, чтобы установить, отличаются ли два изображенных объекта друг от друга вследствие поворота, дополненного отражением, либо вследствие только поворо- поворота. Они обнаружили, что это время зависит от угла пространственного вращения, необ- необходимого для приведения двух сравниваемых объектов в соответственное положение. Оказалось, что оно линейно зависит от угла пространственного вращения. В результате становится понятно, что мысленное вращение, которое имеет место в действительности (т. е. последовательная коррекция ориентации мысленного описания очертаний первого объекта пары, выполняемая вплоть до получения его соответствия со вторым), занима- занимает тем больше времени, чем больше существующие углы. Значение описанного подхода состоит не столько в полученных в его рам- рамках результатах, поскольку им дается противоречивая интерпретация, сколь- сколько в характере возникающих в связи с ним вопросов. Дело в том, что до его появления специалисты в области психологии зрения не относили проблему 26
a) б) *** rp e) Рис. 1.2. Рисунки, аналогичные использовавшимся Шепардоми Меидеромв их экспери- экспериментальном исследовании процесса мысленного вращения: а — идентичные объекты (в этом легко убедиться, повернув страницу книги на 80° по часовой стрелке); б — также идентичные объекты (соответствующий угол поворота также составляет 80°, однако в данном случае совмещение первого объекта со вторым обеспечивается с помощью поворота по глубине в третьем измерении) ; в — не идентич- идентичные объекты (никакое вращение не дает возможности добиться их конгруэнтности) представления к разряду серьезных. Указанные эксперименты продемонстри- продемонстрировали, что этим необходимо заняться. И хотя первые идеи специалистов по психологии зрения казались наивными по сравнению с концепциями, господ- господствовавшими в области машинного зрения, которая столкнулась с пробле- проблемой представления с самого начала, психологам потребовалось не так уж много времени, чтобы их взгляды на эту проблему стали более глубокими (см. статью Шепарда [213])'. Как, однако, обстоят дела с научным объяснением? В течение многих лет казалось, что наибольшие надежды в этом отношении связаны с другим на- направлением исследований, а именно с электрофизиологией. Появление уси- усилителей позволило Эйдрияну [1] и его коллегам регистрировать незначитель- незначительные изменения напряжения, соответствующие прохождению сигналов по нер- нервам. Результаты их исследований показывают, что характер возникающих при этом ощущений зависит не от того, каким образом раздражалось нерв- нервное волокно, как можно было предполагать исходя из данных анатомичес- анатомических исследований, а от того, по какому именно нервному волокну переда- передавался соответствующий сигнал. В этой связи возникла точка зрения, соглас- согласно которой периферические нервные волокна могут рассматриваться как 27
некое средство непосредственного отображения, обеспечивающее сенсориум копией физических событий, зарегистрированных на поверхности тела [2]. В остальном, как считалось, получение научного объяснения феномена вос- восприятия можно было перепоручить психологам. Дальнейшее развитие связано с техническими достижениями в области сигналов, ко- которые сделали возможной регистрацию поведения отдельных нейронов [68, 77, 53]. Это привело к введению понятия клеточного "рецептивного поля" [78] и знаменитой серии исследований поведения нейронов, относящихся к последовательно углубляющимся уровням зрительного пути; эти исследования были выполнены в Гарварде {125, 95, 96]. Самым выдающимся событием явилось, вероятно, возникновение новой концепции, состоявшей в том, что проблемы, занимающие психологов, можно изучать и даже полу- получать искомые объяснения с помощью нейрофизиологические экспериментов. Одним из первых в наиболее чистом виде это продемонстрировал Барлоу при изучении ганглиоз- ных клеток ретины лягушки, и мое изложение вряд ли будет лучше, чем у самого авто- автора [8, с. 373]: "Если Вы изучаете реактивность отдельных ганглиозных клеток ретины лягушки, причем мишень (предъявляемый зрительный раздражитель) находится у Вас в руке, то оказывается, что ганглиозная клетка одного типа наиболее эффективно стимулируется раздражителем типа черного круга, располагаемого примерно в пределах соответствующего рецептивного поля либо быстро в нем перемещаемо- перемещаемого вперед-назад. В результате возникает энергичный разряд, который может под- поддерживаться без существенного затухания до тех пор, пока продолжается пере- перемещение мишени. Далее, если раздражитель, являющийся оптимальным для этого класса клеток, предъявляется интактным лягушкам, то наблюдается чрезвычайно бурная поведенческая реакция: они бросаются к мишени и многократно демонст- демонстрируют пищевую реакцию, заключающуюся в прыжках и хватательных движени- движениях. Избирательность, присущая нейронам ретины, и реакция лягушки, наблюдае- наблюдаемая при их избирательном раздражении, дают основания считать их "устройства- "устройствами обнаружения мелких насекомых" [8], реализующими примитивную, но жиз- жизненно важную разновидность распознавания. Этот результат приводит Вас к неожиданному выводу: значительная часть сен- сенсорного аппарата, связанного с пищевыми реакциями лягушки, может в действи- действительности располагаться в ретине, а не в неких мифических "центрах", которые было бы очень трудно изучать физиологическими методами. Каждый нейрон, от- относящийся к определенному классу, обладает защитным механизмом, допускаю- допускающим разряд нервной клетки только при подаче ключа-раздражителя определенно- определенного типа. Леттвин с соавторами [133] высказали предположение о наличии у ля- лягушки пяти классов нервных клеток различных типов, а Барлоу, Хилл и Левин [13] обнаружили у кролика еще большее число классов клеток. Они называли эти ключевые паттерны "пусковыми признаками". Матурана с соавторами [161] обратили внимание на другой важный аспект поведения этих ганглиозных клеток: клетка продолжает реагировать на один и тот же пусковой признак, несмотря на изменения яркости света в десятки раз. Свойства ретины таковы, что, образно го- говоря, ганглиозная клетка может "высовываться" и определять, не происходит ли перед глазом нечто специфическое. Свет - это средство, с помощью которого она это делает, но информацию передает вполне определенный световой образ, причем общий уровень яркости, имеющий в этот момент место, практически полностью "игнорируется". 28
Далее Барлоу продолжает резюмировать эти результаты следующим образом [9, с. 380]: "Кумулятивное действие всех тех новых данных, которые я пытался изложить выше, состоит в том, что необходимо осознать следующее: каждый нейрон в от- отдельности способен выполнять много более сложные и тонкие функции, чем это предполагалось раньше (курсив Барлоу). Функции нейронов вовсе не сводятся к непосредственному и Недостоверному переносу интенсивностей свечения воспри- воспринимаемого изображения в наш сенсориум - они выявляют элементы образа, опре- определяют глубину объектов, не реагируют на несущественные причины изменений и поддерживают между собой чрезвычайно сложные иерархические отношения. Более того, имеются данные, показывающие, что с точки зрения информативнос- информативности нейроны выделяют существенное, отличаются высокой надежностью реагиро- реагирования и допускают постоянную корректировку характеристики их избиратель- избирательности исходя из накапливаемого опыта зрительного восприятия. Все это равно- равносильно подлинной революции в наших взглядах. Теперь уже совершенно неумест- неуместно рассматривать функционирование нейрона как некое искаженное шумом отра- отражение более существенных и надежных процессов, связанных с мыслительной деятельностью. Наоборот, отдельные нейроны следует рассматривать в качестве первичных двигателей механизмов мышления. Мышление есть результат функци- функционирования нейронов, и мы не должны больше допускать высказываний типа "функционирование нейрона отражает, раскрывает или контролирует процессы мышления", поскольку деятельность нейронов - это, в сущности, и есть процесс мышления". Источником этой революции являются физиологические исследования, и она заставляет нас осознать, что функционирование каждого нейрона в отдельности может играть существенную роль в восприятии". Эта позиция позволила Барлоу сформулировать первый и наиболее важный из пяти его постулатов: "Описание подобной деятельности отдельной нервной клетки, результа- результаты которой поступают в другие нервные клетки и влияют на них, а также ответа нерв- нервной клетки на воздействия, оказываемые на нее другими нервными клетками, обладает достаточной полнотой для функционального понимания нервной системы. Не сущест- существует больше ничего, что "следило бы" за этой деятельностью или управляло ею. Она, следовательно, и должна составлять основу понимания того, каким образом мозг управ- управляет поведением" [9, с. 380]. Ниже мы еще вернемся к более тщательному рассмотрению справедливости этого ут- утверждения, пока же позволим себе просто восхищаться им, поскольку кардинальность и конструктивность идей, лежащих в его основе, говорят сами за себя. В то время казалось вполне правдоподобным, что в конечном счете редукционистский подход восторжеству- восторжествует. Начало было положено результатами исследований Хыобела и Уисела [95, 96]; изуче- изучение связи деятельности отдельных нейронов со стереопсисом [12] и с цветовым зрением [42, 67], очевидно, подтверждает существование тесных связей между восприятием и регистрограммами активности одиночных нервных клеток, а удивительные результаты Гросса, Рочи-Миранды и Бендера [74], обнаруживших в нижневисочной коре "детекто- "детекторы положения", по-видимому, показывают, что применимость редукционистского под- подхода не ограничена исключительно начальными частями зрительного пути. Вполне понятно, что физиологам повезло: если Вы попробуете зондиро- зондировать обычную электронную вычислительную машину и будете регистрировать характеристики функционирования ее отдельных элементов, то навряд ли Вы сможете установить, какие функции выполняет соответствующий эле- 29
мент. Мозг, однако, согласно первому постулату Барлоу, очевидно, устроен "удобнее" — человек может установить функции отдельных элементов моз- мозга. Казалось бы, нет причин, препятствующих всеобъемлющему применению редукционистского подхода. Я сам был воодушевлен этим. Истина, как я также был убежден, принци- принципиально связана с нервным уровнем, и основной целью исследований являет- является проведение досконального анализа функций структуры центральной нерв- нервной системы. Мой энтузиазм материализовался в теорию коры мозжечка [141]. Согласно последней простую и регулярную корковую структуру сле- следует рассматривать в качестве простого, но емкого запоминающего устройст- устройства, предназначенного для формирования двигательных навыков посредством научения. В соответствии с простым комбинаторным правилом каждая из 15 миллионов клеток Пуркинье, имеющихся в мозжечке, способна обучиться узнаванию 200 различных образов, а также отличать их от образов, не входя- входящих в число изученных. Постепенно появляются данные, подтверждающие, что мозжечок действительно участвует в научении двигательным навыкам [103], так что некое подобие моей теории может и в самом деле оказаться справедливым. Путь исследования представлялся совершенно очевидным. С одной сторо- стороны, мы располагали новыми экспериментальными методами, мощь которых была продемонстрирована, с другой же стороны, имелись и теоретические основы, позволившие подкрепить экспериментальные данные тонким анали- анализом корковой структуры. На то, что именно требует научного объяснения, могла указать психофизика, а недавние успехи в области анатомии (метод Финка — Хаймера, разработанный в лаборатории Науты1, а также последние достижения Сентаготаи и других исследователей в области электронной микроскопии) могла позволить получить необходимую информацию о струк- структуре коры головного мозга. Несмотря на внешнее благополучие, чувствовалось, однако, что дела об- обстоят совсем неблестяще. За первыми открытиями 1950-х и 1960-х годов не последовали столь же крупные открытия в 1970-х годах. Ни одному нейро- нейрофизиологу не удалось зарегистрировать ни одного нового или явно относя- относящегося к внешнему уровню коррелята восприятия. Лидеры исследований 1960-х годов перестали заниматься этой тематикой — Хьюбел и Уисел обра- обратились к анатомии, Барлоу — к психофизике. Основные усилия нейрофизио- нейрофизиологии сосредоточились на изучении развития и пластичности (значение этого понятия применительно к деятельности нервной системы пока не установле- установлено), а также на более тщательном анализе деятельности уже известных нерв- нервных клеток (например, [18, 211, 212]) и нервных клеток, встречающихся у отдельных видов живых существ, в частности у сов (например, [182]). Ни одно из предпринятых исследований не преуспело в объяснении функции зрительной коры. Массачусетсский технологический институт. — Прим. перев. 30
Трудно определенно сказать, почему так случилось, поскольку мотивация никогда не обнародовалась и имела, вероятно, главным образом подсозна- подсознательный характер. Ряд факторов, однако, можно выделить. Что касается меня, то изучение мозжечка привело к двоякому результату. С одной сторо- стороны, оно дало мне основания считать, что можно рассчитывать в конечном сче- счете на понимание корковой структуры в терминах функции, и это воодушев- воодушевляло. В то же время это исследование разочаровало меня, так как если моя теория даже и была правильной, она тем не менее мало что давала для пони- понимания двигательной системы — например не указывала, каким образом сле- следует программировать механическую руку. Из теории следовало, что при программировании механической руки, обладающей достаточной универсаль- универсальностью, на определенном этапе неизбежным окажется использование чрезвы- чрезвычайно большой и довольно просто устроенной памяти. Теория, однако, не ука- указывает, ни почему это так, ни что именно должно в этой памяти содержаться. Открытия нейрофизиологов, занимавшихся зрением, ставят Вас в анало- аналогичное положение. Допустим, например, что на самом деле кому-то удалось обнаружить мифическую "нервную клетку для бабушки. Даст ли нам такое открытие что-нибудь действительно существенное? Мы будем знать, что та- такая клетка существует (гроссовские детекторы руки значат для нас практи- практически именно это), но не будем знать, зачем или хотя бы каким образом по- подобный феномен может быть синтезирован из выходных сигналов уже из- известных нервных клеток. Много ли говорят нам регистрограммы активности отдельных нервных клеток (простых и сложных) о том, как обнаруживают- обнаруживаются яркостные переходы или почему их нужно обнаруживать, за исключением довольно общих рассуждений, проводимых на основании доводов, которые связаны с экономичностью? Если бы нам действительно стали известны отве- ответы на эти вопросы, можно, скажем, было бы воплотить их в программу вы- вычислительной машины. Обнаружение детектора руки, однако, явно не дает возможности написать программу, реализующую такой детектор. Попытка осмыслить эти проблемы, возникшие в начале 1970-х годов, при- приводит постепенно к выводу, что упущено нечто важное, причем ни нейрофи- нейрофизиология, ни психофизика не в состоянии восполнить этот пробел. Ключевым здесь служит то обстоятельство, что предметом нейрофизиологии и психофи- психофизики является описание поведения нервных клеток и людей соответственно, но вовсе не объяснение этого поведения. Каковы на самом деле функции зрительных зон коры головного мозга? Какие проблемы, возникающие в связи с этими функциями, требуют решения и на каких уровнях описания следует искать соответствующие научные объяснения? Наилучший способ преодолеть трудности при достижении какой-либо це- цели — это постараться достичь ее. Поэтому, осознав ситуацию, я перешел в Лабораторию искусственного интеллекта Массачусетсского технологическо- технологического института, где М. Минский собрал группу исследователей и предоставил в Нервная клетка, разряжающаяся лишь при появлении в Вашем поле зрения Вашей бабушки. 31
их распоряжение мощную вычислительную машину; это предприятие пресле- преследовало вполне определенную цель - разобраться в возникших проблемах. Первое крупное открытие состояло в том, что поставленные задачи слож- сложны. Естественно, сегодня зто общеизвестный факт. В 1960-х годах,однако, почти никто не осознавал трудности задач машинного зрения. Этой области суждено было повторить опыт, приобретенный направлением машинного перевода в результате провалов, которые оно претерпело в 1950-х годах, прежде чем, наконец, стало очевидно, что в машинном зрении возникает ряд проблем, требующих серьезного изучения. Это объясняется тем, что человек располагает прекрасной зрительной системой. Понятие детектора признаков было прекрасно сформулировано Барлоу и Хьюбелом и Уиселом, и мысль о том, что выделение на изображении яркостных переходов и линий может вообще вызывать хоть какие-либо трудности, просто не посещала тех, кто не пробовал это делать. Оказалось, что это сложная задача. Яркостные пере- переходы имеющие решающее значение в трехмерном случае, часто просто не мо- могут быть обнаружены на основе изучения изменений яркости в пределах изо- изображения. Любое текстурное изображение содержит множество отрезков яркостных переходов, искаженных шумом; изменения коэффициента отра- отражения и освещения вызывают бесконечные проблемы; даже если в какой-то точке яркостный переход надежно обнаружен, то очень скоро с равной веро- вероятностью может как начаться, так и не начаться его затухание и проявляться он будет на отдельных участках изображения. У первых исследователей, ра- работавших в области машинного зрения, например Б. К. П. Хорна и Т. О. Бин- форда возникло общее и чуть ли не безнадежное ощущение, что с изображе- изображением может происходить практически все, что угодно, и более того, практи- практически все, что угодно, и происходит. Серьезные попытки справиться с этими трудностями были сделаны с по- помощью трех известных подходов. Первый из них, отличающийся чисто эмпи- эмпирическим характером, связан главным образом с именем Розенфелда. Он со- состоял в том, что выбирался какой-либо новый прием обнаружения яркостно- го перехода, разделения текстур или что-нибудь в том же роде, затем этот прием опробовался на изображениях, а полученный результат изучался. Хотя этот подход дал ряд интересных идей, в том числе одновременное использо- использование операторов разного размера1 в качестве средства увеличения чувстви- чувствительности и уменьшения шума [207], эти идеи оказались не столь продуктив- продуктивными, какими могли бы быть, поскольку в их рамках никогда не предпри- предпринимались серьезные попытки оценить качество работы различных алгорит- алгоритмов. Мало было сделано и попыток сравнить достоинства различных опера- операторов (например, [49]), причем для исследования оптимальности применя- применяемых операторов не использовались даже математические методы. В действи- действительности таких попыток и не могло быть, поскольку никто еще точно не сформулировал, что зти операторы должны делать. Большая изобретатель- Термин оператор обозначает локальную вычислительную процедуру, применяемую к каждому элементу изображения и использующую информацию о яркостях этого и на- находящихся в его непосредственной окрестности элементов. 32
ность тем не менее была продемонстрирована. Наиболее разумным, вероят- вероятно, был оператор Хьюкела [98], который обеспечил остроумное решение за- задачи ориентации яркостного перехода, наилучшим образом соответствующе- соответствующего некоторому известному изменению яркости в некоторой малой окрест- окрестности обрабатываемого изображения. Второй подход предусматривал проведение более глубокого анализа за счет введения ограничений на характер рассматриваемых изображений — до- допустимыми объектами анализа считались лишь сцены, относящиеся к так на- называемому "миру" отдельных освещенных матовых белых игрушечных ку- кубиков, расположенных на черном фоне. Кубики в таком мире могут иметь произвольную форму при условии, что все грани у них плоские и все ребра прямые. Эти ограничения дают возможность пользоваться более специализи- специализированными методами, но сама задача тем не менее не упрощается. Для обна- обнаружения яркостных переходов использовалась система выделения линий Бинфорда — Хорна [89], а в специальных случаях/например когда все яр- костные переходы являлись прямыми линиями', применялась как эта систе- система, так и ее усовершенствованный вариант (описан в [217]). Эти методы, однако, позволяли получать вполне удовлетворительные ре- результаты и давали возможность проводить предварительный анализ задач, возникающих на последующих этапах обработки. В самом общем виде они сводятся к следующей проблеме: что необходимо делать после того, как за- закончено построение штрихового рисунка, полностью представляющего об- обрабатываемую сцену? Изучение этой проблемы было начато в свое время Робертсом [202] и Гасманом [75] и достигло кульминации в работах Уолца [241] и Макуэрта [139], в которых была практически решена задача интерпретации штриховых рисунков, построенных по изображениям призма- призматических тел. Особенно заметное влияние на дальнейшее развитие оказала работа Уолца, поскольку в ней впервые в явном виде было показано, что полный перебор всех допустимых физических локальных вариантов взаим- взаимного расположения поверхностей, ребер и затененных областей может привес- привести к синтезу беспереборного и вычислительно эффективного алгоритма интерпретации реального изображения. Рис. 13и подпись под ним воспроиз- воспроизводят основные идеи теории Уолца. Естественно, эта работа давала надежду на то, что после разрешения про- проблемы для мира игрушечных белых кубиков полученные результаты удастся обобщить, что и составит основу для анализа более сложных задач, возникаю- возникающих в среде, более богатой в зрительном отношении. К сожалению, оказалось, что это не так. Для уяснения подхода, который в конечном счете был успеш- успешным, следует обратиться к третьему направлению исследований, производив- производившихся в те годы. В этом отношении интересны две группы работ. Ни одна из них, возмож- возможно, не внесла существенного вклада в изучение зрительного восприятия чело- человека, поскольку полученные реальные результаты, вероятно, не отражают специфики процессов зрительного восприятия человека; важны же эти две группы работ из-за их формулировки. Началом послужила работа Ланда и Макканна [129], посвященная ретинексной теории цветового зрения, развитой 33
+ Граница выпуклого объекта б) в) - Граница вогнутого объекта живающего объекта Граница загора- Рис. 1.3. Некоторые конфигурации границ: физически реализуемые трехгранные стыки, образованные тремя выпуклыми яркостными переходами (а), тремя вогнутыми яркост- ными переходами (б) и нереализуемая конфигурация (в). Уолц составил каталог всех допустимых стыков (с учетом теневых яркостных переходов), вплоть до четырех сов- совпадающих яркостных переходов. Он обнаружил, что при использовании этого каталога для задания отношений непротиворечивости (предусматривающих, например, что яркост- ный переход должен иметь один и тот же тип по всей своей длине, подобно яркостному переходу Е (г) результат разметки рисунка, учитывающего тени, часто оказывается однозначно определенным ими, а затем Хорном [90]. Отправная точка теории была вполне традицион- традиционной: цвет рассматривался как перцептивная аппроксимация отражательной способности. Она позволяла сформулировать вопрос чисто алгоритмического характера, а именно: каким образом можно отличить последствия изменений отражательной способности от колебаний освещения? Ланд и Макканн пред- предложили воспользоваться тем обстоятельством, что освещение обычно изме- изменяется плавно, в то время как отражательная способность поверхности или границы объекта часто изменяется довольно резко.Следовательно, с помощью фильтрации медленных изменений можно выделять изменения, порожденные исключительно отражательной способностью. Хорн предложил остроумный параллельный алгоритм для реализации этой процедуры, а я высказал пред- предположение о том, каким образом эта продукция могла бы выполняться ней- нейронами сетчатки глаза [143]. Сейчас я не считаю, что этот анализ цветового зрения и работы сетчатки вообще хоть сколько^шбудь достоверен, однако он дает пример возможного стиля корректного анализа. Канули в лету программы, предназначенные для решения частных конкретных задач машинного зрения; канула в лету работа в ограниченных зрительных средах - мини-мирах; канули в лету все объяс- объяснения, сформулированные на языке нейронных понятий, за исключением указывающих способ реализации метода. Настоящее связано с получением отчетливого представления о том, что именно должно осуществляться в про- процессе обработки информации, каким образом, каковы физические предпо- предпосылки, лежащие в основе метода, а также представления о некоторых свойст- свойствах алгоритмов, обеспечивающих искомую обработку информации. 34
Другое направление работ связано с выполненным Хорном [91] анализом возможностей определения формы о&ьекта по данным затенения (заштри- (заштриховки) поверхностей; эта работа положила начало известной серии статей, посвященных формированию изображений. Тщательно проанализировав, каким образом яркость, измеряемая на изображении, порождается в резуль- результате взаимодействия таких факторов, как освещение, геометрические свойст- свойства поверхности, коэффициент отражения поверхности и позиция наблюдате- наблюдателя, Хорн предложил дифференциальное уравнение, связывающее яркость изображения с геометрическими характеристиками поверхности. Если значе- значения коэффициента отражения поверхности и освещения известны, то это уравнение позволяет определять геометрические свойства поверхности (см. также [92]). Таким образом, данные о затенении поверхностей позволя- позволяют установить форму объекта. Значение этих работ очевидно. Должен был существовать еще один уровень объяснения, на котором характер задач обработки информации, возникаю- возникающих в процессе восприятия, можно было бы анализировать и представлять независимо от конкретных механизмов и структур, обеспечивающих реали- реализацию процессов зрительного восприятия у человека. Именно в этом и со- состоял пробел — отсутствовал анализ проблемы как задачи обработки инфор- информации. Подобный анализ не посягает на объяснения, относящиеся к другим уровням — нейронному или уровню программы для вычислительных ма- машин, — но он является необходимым дополнением, поскольку без него не- невозможно прийти к истинному пониманию функции всех этих нейронов. К этому выводу независимо друг от друга пришли, а затем совместно его сформулировали Т. Поджо и я [154, 147]. Это не было совершенно новым - приблизительно в то же время Л. Д. Хармон говорил нечто подобное, да и другие исследователи лицемерно призывали к такому разграничению. Важ- Важным, однако, является то обстоятельство, что при серьезном отношении к кон- концепции многоуровнего понимания процессов зрительного восприятия исследо- исследование информационной основы зрительного восприятия может стать стро- строгим. Появляется возможность, разграничивая научные объяснения, относя- относящиеся к разным уровням, совершенно определенно указывать, какая именно обработка информации производится и зачем, и формулировать теоретичес- теоретические положения, подтверждающие оптимальность (в некотором смысле) вы- выполняемой обработки либо гарантирующие правильность ее проведения. Уст- Устраняется привязка к частным задачам, а эвристические машинные програм- программы уступают место надежному теоретическому фундаменту, на котором может быть выстроена настоящая теоретическая дисциплина. Осознать все это — значит определить, что именно было упущено, ясно представив, каким образом следует заполнить образовавшийся пробел, а значит дать основу для нового комплексного подхода, изложение которого и составляет цель нашей книги. 35
1.2. О ПОНИМАНИИ СЛОЖНЫХ СИСТЕМ ОБРАБОТКИ ИНФОРМАЦИИ Любую сложную систему почти никогда невозможно понять, опираясь ис- исключительно на экстраполяцию свойств ее элементарных компонентов. Описание термодинамических явлений (характеристик температуры, давле- давления, плотности и соотношений между ними) нельзя получить с помощью не- некоторой большой системы уравнений, каждое из которых относилось бы лишь к какой-нибудь одной из частей, образующих систему. Описания подоб- подобных явлений даются на соответствующем уровне, т. е. на уровне, представля- представляющем огромную совокупность элементов в целом; при этом необходимо по- показать, что описания, относящиеся к микроуровню и макроуровню соответст- соответственно, совместны. Если Вы хотите добиться полного понимания системы, столь сложной, как нервная система, развивающийся эмбрион, совокупность путей метаболизма, бутыль, наполненная газом, или даже большая програм- программа вычислительной машины, то Вам следует быть готовым к рассмотрению различных научных объяснений на различных уровнях описания, связанных по крайней мере в единое целое, причем невзирая на практическую бессмыс- бессмысленность прослеживания связей между уровнями во всех подробностях. В случае систем, решающих задачи обработки информации, кроме того, возни- возникают две тесно переплетающиеся проблемы (процесс и представление), и обе они требуют определенного обсуждения. Представление и описание Представлением называется некоторая формальная система, предназначен- предназначенная для получения в явном виде определенных объектов или видов информа- информации и снабженная инструкцией, указывающей, каким образом система это делает. Мы будем называть результат использования некоторого представле- представления для получения описания некоторого заданного объекта описанием объек- объекта в данном представлении [151]. Так, например, арабская, римская и двоичная системы счисления являются формаль- формальными системами, предназначенными для представления чисел. Представление арабского числа задается некоторой цепочкой символов, выбираемых из множества @, 1, 2, 3, 4, 5, 6, 7, 8, 9), а правило построения описания некоторого конкретного целого числа п за- заключается в том, что это число разбивается на сумму чисел, кратных степеням числа 10, и значения кратностей записываются в виде цепочки, в которой слева располагается зна- значение кратности наибольшей степени 10, а справа - наименьшей. Так, число тридцать семь равно ЗхЮ1 + 7X10°, что выражается записью 7", представляющей описание этого числа в арабской системе счисления. Это описание характеризует разбиение числг на степени числа 10. Число тридцать семь в двоичной системе счисления имеет вид 100101 Такое описание характеризует разбиение представляемого числа на степени числа 2. Е римской системе счисления число тридцать семь имеет вид XXXVII. Это определение представления является весьма общим. Некоторое пред ставление формы, скажем, будет задаваться некоторой формальной схемо! описания отдельных характеристик формы в сочетании с правилами, опреде ляющими порядок применения этой схемы к объекту конкретной формы Так, партитура обеспечивает возможность представления симфонии, алфави 36
дает возможность конструировать письменные представления слов и т. д. Выражение "формальная схема" является решающим в нашем определении, однако это не должно пугать читателя. Дело всего лишь в том, что предметом нашего рассмотрения служат машины для обработки информации, а принцип действия этих машин заключается в использовании символов для обозначе- обозначения объектов (на нашем языке — представления объектов). Назвать нечто формальной схемой — значит сказать лишь, что это — некоторый набор сим- символов и правил их комбинирования, не больше и не меньше. Представление поэтому не является некоторой абсолютно незнакомой концепцией — все мы постоянно пользуемся представлениями. Тем не менее сама мысль о том, что можно выделить какой-либо аспект реального мира, построив его описание с помощью символа, и что это может оказаться полез- полезным, кажется мне привлекательной и очень конструктивной. В то же время, од- однако, даже простые примеры, рассмотренные нами, порождают важные проб- проблемы довольно общего характера, которые возникают, как только Вы обра- обращаетесь к какому-нибудь конкретному представлению. Так, например, при выборе представления в арабской системе счисления нетрудно установить, является ли некоторое число некоторой степенью числа 10, но трудно устано- установить, является ли оно некоторой степенью числа 2. При выборе представле- представления в двоичной системе возникает обратная ситуация. Таким образом, имеет- имеется возможность выбора: любое конкретное представление "обнажает" неко- некоторую часть информации за счет другой части информации, отодвигаемой на задний план, причем доступ к последней может стать весьма затруднитель- затруднительным. х Это важный момент, поскольку способ представления информации может существенно повлиять на уровень сложности различных процедур ее обработ- обработки, что очевидно даже из рассмотренного выше примера с представлением чи- чисел. При использовании арабских чисел и чисел, представленных в двоичной системе счисления, легко выполняются операции сложения, вычитания и да- даже умножения, но совсем непросто выполнять их (особенно операцию умно- умножения) при использовании римской системы счисления. Это главная причина того, почему римская культура не смогла развить математику так, как это сделали ранние арабские культуры. С аналогичной проблемой в наши дни сталкиваются разработчики вычислительной техники. Электронная техника значительно лучше приспособлена для реализации дво- двоичной системы счисления, чем для привычной системы счисления с основанием 10, хотя люди задают исходные данные, представленные по основанию 10, и предпочитают полу- получать результаты в таком же виде. Дилемма, возникающая перед разработчиком, сводит- сводится, таким образом, к следующему: стоит ли идти на затраты, связанные с преобразова- преобразованием чисел в двоичную систему, выполнять арифметические операции над числами в двоичном представлении и затем осуществлять преобразование снова в десятичную систе- систему, либо следует пожертвовать эффективностью схемных решений для того, чтобы вы- выполнять арифметические операции непосредственно с десятичными числами? В целом в вычислительных машинах, предназначенных для решения коммерческих задач, и в кар- карманных калькуляторах используется второй подход, а в универсальных вычислитель- вычислительных машинах — первый. Хотя, вообще говоря, не обязательно использовать для некото- 37
рого заданного вида информации только одну систему представления, выбор послед- последней - важное решение, которое не терпит легкомыслия. Она определяет, какая именно часть информации будет представляться в явном виде и что, следовательно, окажется отодвинутым на задний план. Кроме того, это решение оказывает глубокое воздействие на то, сколь легко или трудно будет впоследствии обработать эту информацию. Процесс Термин процесс имеет очень широкий смысл. Так, например, процессом является и сложение, и процедура преобразования Фурье. Но то же самое можно сказать и о приготовлении чашки чая, и о походе по магазинам. Исхо- Исходя из целей данной книги я хотел ограничиться значениями, имеющими отно- отношение к машинам, выполняющим обработку информации. Давайте поэтому подробно рассмотрим понятия, относящиеся к одному простому устройству такого типа — кассовому аппарату, установленному в универсаме. Существует несколько уровней, которым должно соответствовать понимание сути подобного устройства, причем три из них, вероятно, наиболее существенны. Наиболее абстрактным является уровень, указывающий, что делает устройство и зачем оно это делает. Поскольку то, что оно делает, представляет собой арифметические операции, наша первая задача состоит в овладении теоретическими основами суммирования. Итак, суммирование представляет собой некоторое отображение (оно обозначается обычно знаком "+"), обеспечивающее отображение пары чисел в одно число; так, например, отображение "+" переводит пару чисел C, 4) в число 7, и мы будем записывать эту опе- операцию в виде C +4) ->7. Сложение обладает, однако, целым рядом абстрактных свойств. Оно коммутативно: как C + 4), так и D + 3) равны 7. Оно также ассоциативно: сумма 3 + D + 5) равна сумме C + 4) +5. Кроме того, существует один особый элемент - нуль, сложение с которым не приводит ни к каким изменениям: D + 0) ->4. Далее, для каждого числа существует единственный "обратный" элемент — для числа 4 он записы- записывается как (—4) : прибавление к любому числу его обратного элемента дает в результа- результате нуль: J4 + (-4) ] -+ 0. Отметим, что эти свойства относятся к функциональной теории суммирования. Они остаются истинными независимо от того, каким образом числа записаны - в двоичном, арабском или римском представлении, и независимо от того, каким образом выполняет- выполняется сложение. Таким образом, этот первый уровень частично отражает то, что можно счи- считать характером выполняемых вычислительных операций (что именно делается в про- процессе вычислений). Другая часть этого уровня объяснения связана с вопросом о том, почему кассовый аппарат выполняет сложение, а не, скажем, умножение, объединяя стоимости купленных товаров при подготовке счета к оплате. Причина этого заключается в том, что правила объединения цен отдельных товаров, которые интуитивно кажутся нам подходящими, в сущности, и определяют математическую операцию сложения. Они могут быть сформу- сформулированы в виде следующих ограничений: 1. Если Вы ничего не купили, то Вы не должны ничего платить; покупка же "ничего" и "чего-нибудь" должна стоить столько же, сколько покупка лишь одного этого "чего- нибудь". (Правила, характеризующие обращение с нулем.) 2. Порядок предъявления товаров кассиру не должен влиять на величину итогового счета. (Коммутативность.) 3. Разделение купленных товаров на две группы и оплата стоимости каждой группы в отдельности не должны влиять на величину итогового счета. (Ассоциативность. Это основная операция объединения цен отдельных товаров.) 38
4. Если Вы купили какой-то товар, а затем вернули его, то в итоге Ваши затраты должны быть равны нулю. (Обращения.) В математике известна теорема, утверждающая, что эти условия определяют опера- операцию сложения. Следовательно, именно ее и надо использовать в вычислительном про- процессе. Эти правила, вместе взятые, и составляют то, что я называю информационной теорией кассового аппарата. Вот ее существенные особенности: описания процесса вычислений и цели этих вычислений разделены; операция, используемая для получения результата, определена однозначно ограничениями, которым она должна удовлетворять. Основопо- Основополагающей задачей теории зрительных процессов является надежное определение свойств материального мира по его изображениям; центральную тему нашего исследования со- составляет проблема выделения ограничений, обладающих одновременно силой, которая обеспечивает возможность определения соответствующего процесса, и истинностью для всего нашего материального мира. Для того чтобы любой процесс начал фактически осуществляться, естественно, его необходимо каким-то образом реализовать и, следовательно, выбрать некоторое пред- представление для тех объектов, которыми соответствующий процесс оперирует. Таким об- образом, второй уровень анализа любого процесса предусматривает две процедуры: а) вы- выбор некоторого представления для входной и выходной информации процесса; 2) вы- выбор некоторого алгоритма, с помощью которого искомое преобразование может быть реализовано. Конечно, для процедуры сложения представления входных и выходных данных могут быть одинаковыми, поскольку и то и другое используют числа. В общем случае, однако, это не так. Например, при выполнении преобразования Фурье исходные данные могут представляться во временной области, а выходные данные—в частотной. Если первый из наших уровней характеризует содержание и цель вычислений, го второй уровень - способ их выполнения. В случае сложения для представлений можно восполь- воспользоваться арабскими числами, а в случае алгоритма можно обратиться к обычным прави- правилам суммирования в первую очередь значений самого младшего разряда и "переноса", если соответствующая сумма оказывается больше девяти. В кассовых аппаратах незави- независимо от того, механические они или электронные, обычно используются этот тип пред- представления и этот алгоритм. В сказанном выше содержатся три важных момента. Во-первых, выбор до- допустимых представлений обычно довольно обширен. Во-вторых, выбор алго- алгоритма часто решающим образом зависит от того, какое представление исполь- используется. И, в-третьих, даже если некоторое определенное представление уже выбрано, часто для реализации одного и того же процесса оказываются при- пригодными несколько различных алгоритмов. Выбор алгоритма обычно осно- основывается на какой-либо одной особо необходимой или неприемлемой харак- характеристике алгоритма; так, один алгоритм может быть существенно эффек- эффективнее другого, а третий несколько менее эффективным, но более устойчи- устойчивым (т. е. менее чувствительным к небольшим неточностям в данных, кото- которые он должен обрабатывать) либо, скажем, один алгоритм — параллельный, а другой —последовательный.Выбор алгоритма, следовательно, может зави- зависеть от типа тех технических средств, которые будут использоваться для реа- реализации этого алгоритма. Это замечание подводит нас к третьему уровню — уровню устройств, с по- помощью которых процесс осуществляется физически. Важным здесь является то обстоятельство, что снова один и тот же алгоритм можно реализовать с 39
помощью самых различных технических средств. Ребенок, последовательно складывающий справа налево два числа, возможно, пользуется тем же самым алгоритмом, который реализован с помощью проводов и транзисторов в кас- кассовом аппарате, установленном в ближайшем универсаме, однако физичес- физическая реализация алгоритма в этих двух случаях не имеет ничего общего. Дру- Другой пример: многие занимались разработкой машинных программ для игры в крестики-нолики, причем известен более или менее стандартный алгоритм, гарантирующий от проигрыша У. Д. Хиллис и Б. Силверман реализовали этот алгоритм на совершенно особой технике —вычислительной машине,по- машине,построенной из набора деревянных деталей конструктора "Мастер на все руки. Сейчас этот чудовищно неуклюжий механизм, который тем не менее дейст- действительно работает, находится в музее Университета штата Миссури в Сент- Луисе. В зависимости от характера алгоритма некоторые способы его физической реализации могут оказаться более естественными, чем другие. Так, число со- соединений, имеющихся в обычной цифровой вычислительной машине, сопоста- сопоставимо с числом ее логических элементов, в то время как в мозге число связей много больше (в 104 раз) числа нервных клеток. Основная причина этого заключается в сравнительной "дешевизне" связей, использующихся в биоло- биологической архитектуре, поскольку они могут выращиваться индивидуально и к тому же в трехмерном пространстве. Нынешняя технология предусматри- предусматривает в основном плоскую укладку соединительных проводов, что весьма существенно ограничивает диапазон использования параллельных методов и алгоритмов. Соответствующие процедуры часто лучше реализуются последо- последовательно. Три уровня рассмотрения информационных машин Для того чтобы подвести итоги нашего обсуждения, воспользуемся табл. 1.1, иллюстрирующей уровни понимания устройства, предназначенного для обра- Таблица 1.1. Три уровня, необходимые для понимания любой машины, предназна- предназначенной для решения задач обработки информации Информационная теория Представление и алгоритм Техническая реализация Что является целью вычис- вычислительного процесса, по- почему именно этот процесс должен использоваться и в чем заключается логика стратегии, обеспечиваю- обеспечивающей его реализацию? Каким образом можно реали- реализовать существующую инфор- информационную теорию? В частнос- частности, как следует представлять входную и выходную инфор- информацию и что представляет со- собой алгоритм преобразования? Каким образом можно фи- физически реализовать выбран- выбранные представление и алго- алгоритм? ботки информации, необходимые для полного понимания сути такого уст- устройства. Один крайний уровень (верхний) образует абстрактная информаци- Tinkertoys.- Прим. перев. 40
онная теория устройства. На этом уровне работа устройства описывается как некоторое отображение информации одного вида в информацию другого ви- вида, формальные свойства которого определяются точно: при этом демонст- демонстрируются как пригодность использования отображения для решения соот- соответствующих задач, так и целесообразность. Центральный уровень связан с выбором представления для входной и выходной информации и выбором алгоритма, который должен быть использован для преобразования одной в другую. Другой же крайний уровень характеризует подробности физической реализации выбранных алгоритмов и представлений — детальную архитекту- архитектуру вычислительной машины. Эти три уровня связаны между собой, но связи эти довольно свободны. Выбор некоторого алгоритма, например, проводится с учетом того, что он должен делать и с помощью каких технических средств может быть реализован. На каждом уровне, однако, имеются большие воз- возможности выбора, и получение интерпретаций для каждого уровня связано с разрешением проблем, которые в достаточной степени независимы от проб- проблем двух других уровней. В конечном счете каждый из этих трех уровней описания займет должное место в понимании процессов обработки информации, обеспечивающих вос- восприятие. Естественно, все они связаны и логически, и каузально. Отметим, однако, одно существенное обстоятельство: поскольку эти три уровня свя- связаны между собой достаточно свободно, для объяснения некоторых явлений можно ограничиться лишь одним или двумя уровнями. Это значит, в частнос- частности, что корректно интерпретировать некоторые результаты психофизических наблюдений можно лишь на соответствующем уровне. Слишком часто при попытках связать психофизические проблемы с физиологическими представ- представлениями возникают недоразумения, порожденные неправильным выбором уровня рассмотрения проблем. Некоторые проблемы, например, относятся главным образом к физическим механизмам зрения - скажем, те, которые возникают в связи с остаточными изображениями (типа тех, которые Вы ви- видите после пристального взгляда на зажженную электрическую лампочку) или получением любого цвета при соответствующем смешивании трех основ- основных цветов (непосредственное следствие того, что в сетчатке глаза человека имеются колбочки трех типов). С другой стороны, неоднозначность куба Некера (рис. 1.4), вероятно, требует другого объяснения. Несомненно, объ- объяснение обратимости восприятия куба Некера в определенной степени долж- должно быть связано с наличием в недрах мозга некоторой^бистабильной нервной сети (с двумя различными устойчивыми состояниями), но мало кто удовлет- удовлетворится объяснением, в котором не обращается внимания на существование двух различных и абсолютно правдоподобных трехмерных интерпретаций этого плоского изображения. Совершенно очевидно, какое объяснение требу- требуется для некоторых явлений. Анатомия нервной системы, например, явно связана главным образом с третьим уровнем, т. е. с физической реализацией обработки информации. То же самое относится и к синаптическим механиз- механизмам, потенциалам действия, тормозным воздействиям и подобным явлени- явлениям. Нейрофизиология также связана в основном с этим уровнем, но она мо- может способствовать и пониманию характера использованных представлений, 41
a) б) в) Рис. 1.4. Так называемая иллюзия Некера, названная в честь швейцарского естествоис- естествоиспытателя Л. А. Некера, предложившего ее в 1832 году. Двухмерное представление куба (а) уничтожает его глубину, и соответствующие свойства зрения человека должны обес- обеспечивать ее восстановление. Действительно, глубина куба поддается восприятию, однако возможны две интерпретации (б и в). Восприятие человека специфически переключает- переключается с одной интерпретации на другую особенно при условии, что Вы в определенной степени разделяете приводив- приводившиеся выше взгляды Барлоу. Следует, однако, проявлять чрезвычайную осмотрительность, делая на основе нейрофизиологических данных выводы относительно использованных алгоритмов и представлений, особенно до тех пор, пока не будет совершенно четкого понимания того, какая информация должна представляться и какой процесс должен быть реализован. Психофизика же, с другой стороны, более тесно связана с уровнем алго- алгоритмов и представлений. Различные алгоритмы обычно допускают совершен- совершенно разные ошибки при работе в предельных режимах или отсутствии сущест- существенной информации. Как можно будет убедиться ниже, преимущественно психофизические данные убедили Поджо и меня в том, что наш первый алго- алгоритм установления соответствия между изображениями стереопары [153]от- личался от алгоритма, применяемого мозгом. Наилучшим же подтверждением того, чго наш второй алгоритм [155] примерно соответствует применяемому мозгом алгоритму, явились также психофизические данные. Конечно, собст- собственно информационная теория в обоих случаях оставалась одной и той же, различались лишь алгоритмы, построенные на ее основе. Психофизика может быть, кроме того, полезной при определении приро- природы представления. В работах Р. Шепарда [213], Э. Роек [205] и Э. Уорринг- Уоррингтон [242] содержатся полезные сведения по этому поводу. Более конкрет- конкретные результаты получены Стивенсом [221]. На основании данных психофизи- психофизических экспериментов он утверждает, что угол и направление наклона по- поверхности являются более подходящими координатами для представления ориентации поверхности, чем, например, более традиционные (р, g) -коорди- -координаты пространства градиентов (см. гл. 3). Кроме того, исходя из однород- однородности величины ошибки, допускаемой испытуемыми при определении ориен- ориентации поверхности в обширном диапазоне ориентации, он сделал вывод о том, что угол и направление наклона поверхности представляются собствен- собственно значениями углов, а не, скажем, их косинусов, синусов и тангенсов. 42
В более общем смысле полное и отчетливое осознание концепции необ- необходимости использования различных уровней для объяснения различных явлений часто помогает оценить справедливость различных контрдоводов, появляющихся время от времени. Допустим, некто утверждает, что мозг не имеет ничего общего с вычислительной машиной, поскольку первый работает параллельно, а вторая — последовательно. Ответ на этот довод, естественно, заключается в том, что различие между последовательным и параллельным устройствами на алгоритмическом уровне вовсе не является фундаменталь- фундаментальным, поскольку любую процедуру, запрограммированную для параллельно- параллельного выполнения, можно переписать в виде последовательно работающей про- программы (хотя обратное не обязательно верно). Следовательно, это не дает оснований утверждать, что работа мозга столь радикально отличается от ра- работы вычислительной машины, которую невозможно запрограммировать для выполнения тех же функций, которые имеет мозг. Значение информационной теории Хотя эмпирически алгоритмы и механизмы (аппаратура) более доступны, именно высший уровень, т. е. уровень информационной теории, имеет решаю- решающее значение с точки зрения обработки информации. Причина заключается-в том, что характер вычислений (процедур обработки информации, лежащих в основе восприятия) в большей степени зависит от задач обработки информа- информации, подлежащих решению, а не от той конкретной аппаратуры, с помощью которой соответствующие решения находятся. Другими словами, алгоритм, вероятно, легче понять, исследуя характер решаемой задачи, чем изучая уст- устройство (и его аппаратную часть), в котором он реализуется. Аналогичным образом попытка понять восприятие исключительно на ос- основе изучения нейронов подобна попытке понять природу полета птиц, изу- изучая лишь их оперение. Это просто невозможно. Для того чтобы осознать при- природу полета птиц, необходимо владеть аэродинамикой. Только в этом случае структура оперения и различия ф°Рм крыльев птиц приобретут для нас смысл. Добавим к тому же, что, как мы убедимся, невозможно установить, почему ганглиозные клетки сетчатки и нейроны наружного коленчатого тела имеют именно такие рецептивные поля, какие у них в действительности на- наблюдаются, ограничившись изучением исключительно анатомии и физиоло- физиологии этих нервных клеток. Исследуя соединения и взаимодействия этих кле- клеток и нейронов, можно понять, почему они работают так, как работают, но для того, чтобы понять, почему соответствующие рецептивные поля именно таковы (т. е. обладают круговой симметрией и их возбуждающие и тормоз- тормозные зоны отличаются специфическими формами и распределениями), необ- необходимо обладать определенными познаниями в области теории дифференци- дифференциальных операторов, каналов с ограниченной полосой частот и математичес- математическими основами принципа неопределенности (см. гл. 2). Вероятно, нет ничего удивительного в том, что столь специализированная и эмпирическая дисциплина, как нейрология, оказалась не в состоянии в полной мере оценить отсутствие информационной теории. Странно, однако, 43
что этот уровень не играл более действенную роль на ранних стадиях разви- развития искусственного интеллекта. Слишком долго считалось, что эвристичес- эвристическая программа, предназначенная для решения некоторой задачи, является в каком-то смысле теорией этой задачи, а различие между тем, что делает программа и как она это делает, по-настоящему не учитывалось. В результате: 1) сформировался метод научного объяснения, предусматривающий исполь- использование специальных приемов для решения частных задач; 2) отдельные струк- структуры данных, например списки пар значений признаков, известные в языке программирования ЛИСП как списки свойств, приобрели статус теорий представления знаний; 3) часто оказывалось, что единственный способ оценить пригодность программы для решения конкретной задачи — это применение программы для ее решения. Неспособность осознать это принципиальное различие между что и каким образом существенно затруднило установление связей между искусственным интеллектом и лингвистикой. Теория трансформационных грамматик Хомс- кого [33] представляет собой истинно информационную теорию в определен- определенном выше смысле. В ней рассматривается исключительно природа синтакси- синтаксической структуры английского предложения и не затрагивается вопрос о том, каким образом следует обрабатывать предложение для того, чтобы по- получить соответствующую синтаксическую структуру. Сам Хомский совер- совершенно четко понимал это — им разделено владение языком и исполнение при реальном употреблении языка, хотя его представление о последнем на самом деле включает и другие факторы (скажем, прерывание высказывания). Од- Однако многих, очевидно, ввело в заблуждение то обстоятельство, что его тео- теория определяется преобразованиями, которые выглядят как вычислительные процедуры. Уиноград, в частности, счел возможным критиковать теорию Хомского за ее необратимость и вследствие этого невозможность воспроиз- воспроизведения на вычислительной машине [257]. Отзвуки тех же аргументов я слы- слышал и от лингвистов в связи с проблемой реального построения грамматичес- грамматической структуры для конкретной английской фразы. Объяснение здесь достаточно простое: разработка алгоритмов, позволяю- позволяющих реализовывать теоретические построения Хомского, и разработка собст- собственно теории — совершенно разные предприятия. На нашем языке это соот- соответствует исследованиям разных уровней, причем решать следует обе задачи. Указанное обстоятельство было по достоинству оценено Маркусом [140], который посвятил свою работу изучению именно того, каким образом тео- теория Хомского может быть реализована и какого рода ограничения, налагае- налагаемые на мощность грамматического процессора, имеющегося у человека, мог- могли бы послужить источником структурных ограничений в синтаксисе, обна- обнаруженных Хомским. Создается даже впечатление, что предложенная Хомс- ким и Ласником [34] "следовая" теория грамматик может открыть путь к синтезу обоих подходов, продемонстрировав, например, что некоторые из специфических ограничений, составляющих часть информационной теории, могут являться следствием недостатка вычислительной мощности, отводи- отводимой на осуществление синтаксической расшифровки. 44
Подход Дж. Дж. Гибсона В том, что касается восприятия, Гибсон, вероятно, в наибольшей степени приблизил- приблизился к уровню информационной теории [56]. Хотя некоторые аспекты его подхода были вполне правомерны, он, однако, не понял по-настоящему, что представляет собой обра- обработка информации. В результате это привело к серьезной недооценке сложности задач обработки информации, связанных со зрением, и соответственно искусности, необходи- необходимой для их надлежащей трактовки. Важность вклада Гибсона определяется тем, что он увел полемику от проблем фило- философского анализа данных, поступающих от органов чувств, и эффективных свойств вос- восприятия, указав на важность роли чувств как каналов восприятия окружающего мира, а, в частности, в случае зрения - видимых поверхностей. Таким образом, он задал прин- принципиально важный вопрос: каким образом в обычной жизни на основе непрерывно из- изменяющихся ощущений обеспечивается постоянство восприятия? Это совершенно за- законный вопрос, показывающий, что Гибсон правильно трактовал проблему восприятия, рассматривая ее как восстановление "истинных" свойств окружающего мира по инфор- информации, поступающей от органов чувств. Его трудности были связаны с чрезмерно упро- упрощенными представлениями о том, каким образом это восстановление должно осущест- осуществляться. Подход Гибсона привел к рассмотрению переменных высших порядков — энер- энергии, отношений, удельных весов раздражителей и т. п. в качестве "инвариантов" относи- относительно перемещения наблюдателя и интенсивности раздражителей. "Эти инварианты, - писал он, — соответствуют неизменным свойствам окружающей среды. Они, таким образом, составляют информацию о постоянной части среды". Эта по- позиция сформировала у Гибсона точку зрения, согласно которой роль мозга заключается в "обнаружении инвариантов" независимо от изменения "ощущений", вызываемых све- светом, давлением или силой звука. Итак, утверждает он, "роль мозга, образующего вмес- вместе с органами восприятия замкнутый контур, не состоит ни в расшифровке сигналов, ни в интерпретации сообщений, ни в приеме изображений, ни в организации данных, посту- поступающих от органов чувств, т. е., говоря на современном языке, не состоит в обработке информации. Задача мозга — поиск и выделение информации об окружающей среде из вечно беспокойного океана энергии" Он считал, что нервная система в некотором роде "резонирует" на эти инварианты. Затем Гибсон провел обширное исследование живот- животных в соответствующих средах, пытаясь обнаружить те инварианты, на которые они могли бы резонировать» Именно эта идея легла в основу экологической оптики [56, 57]. Хотя в анализе Гибсона можно найти целый ряд недостатков, основная и, с моей точки зрения, роковая причина его неудачи немного глубже и связана с отказом от сле- следующих двух обстоятельств. Во-первых, от того, что обнаружение физических инвариан- инвариантов представляет собой совершенно определенно и без каких бы то ни было оговорок задачу обработки информации (на современном языке). И, во-вторых, от признания подлинной сложности такого обнаружения. Обсуждая проблему восстановления трех- трехмерной информации по движению наблюдателя, он замечает, что "при движении можно пользоваться лишь информацией о перспективе" [56, с 202]. Ключом же к пониманию работ Гибсона служит, вероятно, такой абзац: "Обнаружение неизменяющихся элементов при движении некоторого объекта в определенной среде не столь сложно, как это могло бы показаться. Оно Начинает казаться трудной задачей лишь после того, как мы начинаем полагать, что воспри- восприятие постоянных размеров объекта должно основываться на коррекции воспри- восприятия непостоянных форм и размеров. Информация, характеризующая постоянные размеры объекта, обычно задается инвариантными отношениями на совокупности оптических данных. Жесткость определена". 45
Да, несомненно, но как? Обнаружение физических инвариантов действительно именно такая трудная задача, на какую указывал Гибсон, но мы тем не менее с ней справляем- справляемся. И единственный способ понять как - это рассматривать ее в качестве задачи обработ- обработки информации. Принципиальным является то обстоятельство, что обработка зрительной информации очень сложна на самом деле. Гибсон же не единственный мыслитель, введенный.в за- заблуждение кажущейся простотой акта "видения". Судя по всему, в целом традиция фи- философского исследования природы восприятия не обнаруживает достаточно серьезного отношения к сложности соответствующих процессов обработки информации. Остин в своей монографии [7] остроумно опровергает довод, к которому явно благосклонны предшествующие философы: поскольку порой иллюзии могут вводить нас в заблуж- заблуждение (так, прямая палка кажется нам изогнутой, если она частично погружена в воду), мы видим не реальные предметы, а сенсорные данные. Ответ же заключается просто в том, что обычно в процессе восприятия обработка данных ведется правильно (она обес- обеспечивает получение правильных описаний типа что где находится) и, хотя эволюция обеспечила возможность вести обработку при различных типах изменчивости (например, при переменном освещении), возмущения, порожденные преломлением света в воде, к их числу не относятся. Кстати, несмотря на то, что пример с изгибом палки обсуждается со времен Аристотеля, мне не удалось обнаружить философского исследования приро- природы восприятия, скажем, цапли — птицы, добывающей себе в пищу с помощью клюва ры- рыбу, которую она обнаруживает, находясь над водой. Вполне возможно, что эти птицы пользуются зрительной коррекцией. Как бы то ни было, наша основная проблема в данном случае состоит в другом. Остин [7] посвятил много времени идее, состоящей в том, что восприятие позволяет получать представление об истинных свойствах окружающего мира. Он, в частности, рассматривает понятие "истинная форма", возникшее в процессе обсуждения феномена монеты, которая при некоторых ракурсах "выглядит овальной". Несмотря ни на что, однако, "монета обладает истинной формой, остающейся неизменной. В сущности же, мо- монеты представляют, скорее, частные случаи. Во-первых, их очертания точно опре- определены и очень устойчивы, во-вторых, форма монет известна и поддается описа- описанию. Но имеется множество объектов, для которых это не справедливо. Какова истинная форма облака... или кошки? Меняется ли их истинная форма, как только они начинают двигаться? Если нет, то какое положение занимает эта истин- истинная форма на изображении соответствующего объекта? Далее, является ли соот- соответствующая истинная форма такой, что допускает представление с достаточно гладкими очертаниями, либо она испещрена множеством зазубрин, что позволяет ей учитывать каждый волосок? Совершенно очевидно, что ответов на эти вопросы не существует - нет ни правил, в соответствии с которыми, ни процедуры, с по- помощью которой эти ответы могли бы быть получены". Но ответы на эти вопросы существуют. Существуют способы описания формы кош- кошки с произвольной степенью точности (см. гл. 5), и существуют правила и процедуры получения таких описаний. Именно для этого служит зрение, и именно это определяет сложность его механизма. 1.3. СТРУКТУРА ПРЕДСТАВЛЕНИЯ ДЛЯ ЗРЕНИЯ Зрение — это процесс, порождающий по изображениям внешнего мира не- некоторое описание, полезное для наблюдателя и не перегруженное несущест- несущественной информацией [145, 151]. Мы уже убедились в том, что всякий про- 46
цесс можно рассматривать как некоторое отображение одного представления в другое. В случае же зрения человека характер исходного представления ни- никаких сомнений не вызывает — оно образуется массивами значений яркостей изображения, зарегистрированных фоторецепторами сетчатки. Вполне правомерно рассматривать изображение как некоторое представ- представление: явными характеристиками изображения служат значения яркости в каждой точке массива, который в точке с координатами (х, у) обычно обоз- обозначаются как 1(х, у). Для упрощения нашего обсуждения не будем временно принимать во внимание факт существования нескольких различных типов рецепторов и будем считать, что имеется лишь один тип рецептора и, следова- следовательно, изображение является черно-белым. Таким образом, каждое значение величины 1(х, у) определяет некоторый конкретный уровень серого тона. Каждый детектор будет рассматриваться нами как некоторый элемент изо- изображения, или пиксел, а весь массив / — как некоторое изображение. Как, однако, обстоят дела с информацией на выходе зрительного процес- процесса? Мы уже договорились о том, что она должна представлять собой некото- некоторое полезное описание внешнего мира, но это условие имеет довольно рас- расплывчатый характер. Нельзя ли предложить нечто лучшее? Совершенно вер- верно, конечно, что в отличие от входной информации чрезвычайно трудно описать конечный результат зрительного процесса, не говоря уже о его точ- точном определении. Существенная особенность этого нового подхода к проб- проблеме зрения кроется в его вполне конкретных указаниях относительно того, что этот результат собой представляет. Прежде чем приступить к обсужде- обсуждению, мы вернемся назад и кратко остановимся на формулировке более об- общих задач, возникающих в связи с данными вопросами. Предназначение зрения Полезность некоторого представления зависит от того, насколько хорошо оно соответствует цели, для достижения которой его используют. Голубю зрение нужно для того, чтобы ориентироваться в полете, летать и находить пищу, различным разновидностям аттидов — чтобы отличить потенциальную пищу от потенциального партнера по половому процессу. У одного вида таких пауков, в частности, имеется специфическая сетчатка, состоящая из двух диагональных полос, образующих букву "F". Обнаружение красной метки "К"на спине некоторого объекта, находящегося перед аттидом,озна- аттидом,означает, что обнаружен партнер, в противном случае соответствующий объект может оказаться пищей. Лягушка, как мы уже отмечали, для обнаружения мелких насекомых пользуется сетчаткой; сетчатка же кролика заполнена специальными "усчройствами", одно из которых о предел eifflo является де- детектором мелких хищных птиц, поскольку оно адекватно реагирует на тип поведения хищника, парящего наверху и высматривающего добычу. С дру- другой стороны, зрение человека, очевидно, является в сильной степени универ- универсальным, хотя, несомненно, его зрительная система включает множество спе- специальных механизмов, предназначенных, например, для фиксации глаза в направлении неожиданного движения в поле зрения или заставляющих челове- 47
ка моргать или как-то иначе реагировать на нечто, слишком быстро прибли- приближающееся к его голове. Короче говоря, использование зрения связано с таким ошеломляющим разнообразием способов, что у различных живых существ зрительные систе- системы должны разниться чрезвычайно сильно. Можно ли доказать адекват- адекватность постановки, которую я предлагаю, т. е. постановки в терминах пред- представлений и процессов, всем разновидностям зрительных систем? Я полагаю, что можно. Принципиальным здесь является тот тезис, что, поскольку раз- различным живым существам зрение необходимо для достижения чрезвычайно разнообразных целей, совершенно невероятным кажется использование все- всеми обладающими зрением живыми существами одних и тех же представле- представлений. Можно быть уверенным в том, что каждое из них пользуется одним или несколькими представлениями, которые точно соответствуют их задачам. Рассмотрим кратко в качестве примера одну примитивную, но весьма эффективную зрительную систему, обладающую еще и тем достоинством, что она хорошо изучена. Группа В. Райкхардта в Тюбингене лотратила последние пятнадцать лет на тщательное изучение зрительной системы управления полетом комнатной мухи, и славное содру- содружество Райкхардта и Т. Поджо добилось существенных результатов в решении этой за- задачи [193, 194, 184]. Грубо говоря, зрительная система мухи управляет ее полетом с помощью пяти независимых, жестко запрограммированных и обладающих исключитель-' но высоким быстродействием подсистем (время, разделяющее появление зрительного раздражителя и изменение вращающего момента, составляет всего лишь 21 мс). Так, на- например, одна из этих подсистем обеспечивает посадку: если зрительное поле резко "рас- "расширяется взрывом" (из-за того, что приближающаяся поверхность стремительно расши- расширяется) , муха автоматически устремляется на посадку в ее центр. Если этот центр распо- расположен над мухой, она автоматически переворачивается, для того чтобы приземлиться вверх ногами. Когда ее лапки касаются поверхности, подача энергии на крылья прекра- прекращается. И наоборот, для того чтобы взлететь, муха подпрыгивает. После потери контак- контакта лапок мухи с поверхностью энергия снова начинает подаваться на крылышки — муха снова находится в полете. В полете управление осуществляется независимыми подсисте- подсистемами, регулирующими вертикальную скорость мухи (с помощью регулирования подъ- подъемной силы, развиваемой крылышками) и направление полета по горизонтали (оно определяется вращающим моментом, который порождается асимметрией горизонталь- горизонтальной тяги левого и правого крылышек). Зрительная информация, поступающая на вход системы управления по горизонтали, полностью описывается, в частности, двумя следую- следующими составляющими: (форма переменных г и D представлена на рис. 1.5). Эта информация показывает, ка- каким образом муха осуществляет слежение за некоторым объектом, появляющимся в ее зрительном поле под углом Ф и перемещающимся с угловой скоростью ф. Эта система предназначена для отслеживания в поле зрения объектов, имеющих определенные угло- угловые размеры, причем стратегия движения такова, что если замеченный объект — это другая муха, находящаяся на расстоянии нескольких сантиметров от первой, то пере- перехват будет успешно совершен. Если же целью оказывается слон, находящийся на рас- расстоянии в сотню метров, то перехват успехом не увенчается, так как встроенные пара- параметры систем управления полетом мухи настроены на другую муху, находящуюся пс* близости, но не на слона, разгуливающего где-то вдали. Итак, зрительная система мухи обеспечивает получение некоторого представления, 48
— я + ТГ Рис. 1.5. Горизонтальная составляющая визуального входного сигнала, поступающего в систему управления полетом комнатной мухи, описывается выражением R = И(ф) — — г (Ф) Ф, где ф - направление раздражителей; ф - угловая скорость их перемещения в зрительном поле мухи; DD) - нечетная функция, использование которой обеспечивает центрирование цели в зрительном поле мухи, (а); г (ф) - практически постоянная функция (б) определяющего по меньшей мере следующие три события: 1) не начинает ли поле зре- зрения столь стремительно сужаться, что муха должна приземлиться; 2) не наблюдается ли небольшое пятно (иногда черная крацинка, иногда некоторый текстурный образ на текстурном фоне), перемещающееся тем или иным способом относительно фона; 3) если такое пятно действительно обнаружено, определяются его значения фи Ф, которые пере- передаются в двигательную систему. Эта деятельность занимает, вероятно, около 60 % ра- работы зрительной системы мухи. Исключительно маловероятно, в частности, что муха располагает хоть каким-либо заданным в явном виде представлением изображения окружающего ее мира: у нее нет, скажем, правильного представления о том, что такое поверхность - она располагает лишь несколькими пусковыми механизмами и несколь- несколькими специфическими (ориентированными на потребности мухи) параметрами типа фиф. Совершенно очевидно, что зрительная система человека намного сложнее рассмотренной, хотя в ее состав вполне могут входить подсистемы, не столь уж сильно отличающиеся от зрительных подсистем мухи и предназначенные для решения специфических и главным образом относящихся к нижнему уровню задач типа управления движением глаз при слежении. Тем не менее, как показали Поджо и Райкхардт, работу даже столь простых подсистем можно изучать тем же способом, т. е. рассматривая их как системы, предназ- предназначенные для решения задач обработки информации. Кроме того, их работа обладает еще одной совершенно замечательной особенностью: им удалось не только сформулировать дифференциальные уравнения, точно описывающие зрительную систему управления мухи, но также и представить эти уравнения с помощью разложения в ряд Вольтерра в таком виде, который непосредст- непосредственно указывает минимально допустимую сложность связей в соответствую- соответствующих нейронных сетях. 49
Развитое зрение Зрительные системы, подобные той, которой располагает муха, вполне удовлетворительно, с необходимыми быстродействием и точностью обслужи- обслуживают своих владельцев. Эти системы, однако, не очень сложны, так как сих помощью собирается очень мало объективной информации о внешнем мире. Соответствующая информация в целом чрезвычайно субъективна: требуются угловые размеры раздражителя "с точки зрения" мухи, а не действительные размеры находящегося перед ней объекта, угол объекта относительно зри- зрительного поля мухи, а не его положение относительно самой мухи либо некоторой другой внешней точки отсчета, угловая скорость объекта, причем снова относительно зрительного поля мухи, а не некоторая оценка его истин- истинной скорости относительно мухи или какой-либо реперной точки. Одной из причин подобной простоты этой системы должно служить то об- обстоятельство, что именно эти данные обеспечивают муху необходимой для выживания информацией. Естественно, эта информация не оптимальна и время от времени мухе приходится напрасно растрачивать свою энергию, гоняясь за листьями, падающими на некотором "среднем" расстоянии от нее, или за слонами, находящимися где-то очень далеко, что представляет собой непосредственное следствие неадекватностей ее системы восприятия. Очевид- Очевидно, однако, все это не слишком существенно — муха располагает резервом энергии, достаточным для покрытия этих "накладных расходов". Другой причиной, несомненно, является значительно больший объем вычислений, необходимый для преобразования этих достаточно субъективных показате- показателей в более объективные характеристики. Каким же образом тогда следует рассматривать более совершенные зрительные системы, например зрение человека. Какие здесь возникают проблемы7 Какого рода информацию зре- зрение на самом деле поставляет человеку и какие способы представления при этом используются? Мой подход к этим проблемам в значительной степени сложился под влия- влиянием поразительных достижений клинической неврологии, в частности работ Критчли и Уоррингтон и Тейлора [243]. Значительную роль сыграла также лекция, прочтенная Э. Уоррингтон в Массачусетсском технологическом ин- институте в октябре 1973 года; в этой лекции рассказывалось о том, что до- доступно и что недоступно пациентам с повреждениями левой и правой темен- теменной области мозга. Самым важным, с моей точки зрения, являлось проведен- проведенное Уоррингтон разграничение двух групп больных [244]. Те, у кого повреж- повреждения находились справа, были в состоянии распознавать обычные объекты при условии, что предъявлялись они больному в некотором смысле "просто". Она использовала слова обычный и необычный, ведро или кларнет, рассмат- рассматриваемые сбоку, представляли "обычные" картины, а при взгляде сверху (по оси симметрии) — "необычные". Если этим больным удавалось опознать объект, то они были в состоянии назвать его и указать семантику, т. е. способ употребления и назначение, величину, размер, из чего он сделан и т. д Если же объект рассматривался в необычном ракурсе, например ведро сверху, больные не только не могли опознать его, но и яростно отрицали, что ведро 50
вообще может выглядеть таким образом. Больные же с повреждениями ле- левой теменной области вели себя совершенно иначе. Часто эти больные уже утратили владение языком и поэтому были не в состоянии назвать рассмат- рассматриваемый объект или указать его назначение и семантику. Они, однако, мог- могли довести до сведения экспериментатора, что геометрия объекта, т. е. фор- форма, воспринимается ими правильно даже при необычном ракурсе. Из выступления Уоррингтон следовало два вывода. Во-первых, представ- представление формы объекта хранится в памяти отдельно от представления спосо- способов его использования и назначения, и, следовательно, это совершенно раз- разные характеристики объекта. Во-вторых, только зрение может породить не- некоторое внутреннее описание формы рассматриваемого объекта, причем да- даже в том случае, когда объект не распознан в обычном смысле, т. е. не уста- установлены ни способ его использования, ни назначение. Это оказалось важным для меня по следующим двум причинам. Среди специалистов по машинному зрению было принято считать, что распознава- распознавание — задача столь трудная, что для ее решения необходима информация всех разновидностей. Результаты такой установки проявились в полной мере спус- спустя несколько лет в программах типа разработанных Фройдером [50], а также Тененбаумом и Барроу [226]. В последней программе знания об учреждени- учреждениях (в частности, что на столах стоят телефоны и что телефоны — черные) бы- были использованы для "выделения" черного пятна, расположенного в верхней половине изображения и "распознавания" этого пятна как телефона. В про- программе Фройдера аналогичный подход использовался для "выделения" и "распознавания" на некоторой сцене молотка. Совершенно очевидно, что в на- нашей обыденной жизни мы должны пользоваться подобными знаниями: однаж- однажды у себя в саду я заметил какое-то коричневое пятно, проворно снующее по грядкам салата, и правильно идентифицировал его как кролика, несмотря на то, что одной зрительной информации для этого было недостаточно. И все же... У нас делала доклад молодая женщина, которая спокойно рассказывала о том, что ее пациенты не только были в состоянии "сообщать" ей, что они узнают форму тех предметов, которые она им показывала, хотя и не могут назвать их или указать способы их использования, но им удавалось успешно продолжать делать это даже после того, как она чрезвычайно усложняла зада- задачу в зрительном отношении, показывая им объекты в каких-то специфичес- специфических ракурсах или освещенные весьма необычным образом. Становилось оче- очевидным, что интуитивные представления специалистов по машинному зре- зрению оказываются абсолютно неверными и что даже в сложной обстановке формы объектов могут определяться с помощью одного лишь зрения. Вторым, как я считаю, важным моментом оказалось обращение Э.Уорринг- Э.Уоррингтон к тому, что, в определенном смысле, является квинтэссенцией зрения человека — форме, пространству и пространственной организации. Именно здесь пролегает путь к определению предназначения зрения — построение не- некоторого описания форм и местоположений объектов по изображениям. Этим, конечно, ни в коей мере не исчерпываются все возможности зрения: оно дает нам сведения об освещенности и об отражательных способностях поверхностей, образующих очертания объектов, — об их яркостях, цветах и 51
видимых текстурах — и об их движении. Все это, однако, представляется вто- вторичным и может не учитываться в теории, согласно которой основной зада- задачей зрения является получение некоторого представления формы. К искомому — через возможное И наконец, необходимо трезво относиться к словам. Почти наверняка не- невозможно достичь искомого за один шаг, если требуется, чтобы зрение по некоторому изображению выдавало некоторое полностью инвариантное описание формы (независимо от того, каковы конкретные детали этого про- процесса) . Мы в состоянии добиваться лишь возможного и на этой основе про- продвигаться далее к искомому. Итак, мы пришли к идее некоторой последова- последовательности представлений, начальными элементами которой служат описания, получаемые непосредственно по изображению, но сконструированные столь тщательно, чтобы позволить затем последовательно устанавливать более объективные, т. е. физические, характеристики формы объекта. Наилучшим средством для достижения этой цели служит описание геометрии видимых поверхностей, так как информация, закодированная в изображении (в част- частности, с помощью стереопсиса, штриховки, текстуры, контуров или наблюда- наблюдаемого движения), определяется локальными свойствами поверхностей, обра- образующих очертания (форму) объекта. Целью множества процедур обработки информации на нижнем уровне зрительной системы является получение именно этой информации. Оказывается, однако, что подобное описание видимых поверхностей нель- нельзя использовать при решении задач распознавания. Это является следствием ряда причин, но важнейшая, вероятно, состоит в том, что, подобно всем зри- зрительным процессам нижнего уровня, данный решающим образом зависит от точки привязки описания. Последний шаг, таким образом, предусматривает преобразование описания поверхностей, ориентированного на наблюдателя, в представление, описывающее форму трехмерного объекта и его расположе- расположение в пространстве и не зависящее от направления наблюдения объекта. Это финальное описание привязано не к наблюдателю, а к объекту. Итак, описанная нами в целом структура предусматривает разбиение про- процесса получения информации о форме по изображениям на три стадии, соот- соответствующие используемым видам представления (табл. 1.2): 1) представ- представление характеристик двухмерного изображения типа изменений значений яр- яркости и локальных геометрических свойств; 2) представление характерис- характеристик видимых поверхностей в системе координат, начало которой совпадает с позицией наблюдателя (характеристики типа ориентации поверхности, рас- расстояния от наблюдателя, скачкообразных изменений значений этих парамет- параметров, коэффициента отражения поверхности, а также приближенного описа- описания основного освещения); 3) представление в системе координат объекта трехмерной структуры и организации (наблюдаемой формы) в сочетании с каким-либо описанием свойств поверхности объекта. Краткое описание этой структуры представления данов табл. 1.2 (ее более детальному описанию посвящены гл. 2 — 5). 52
Таблица 1.2. Структура представления для извлечения из изображений информации о форме объекта Тип представления Цель использования Непроизводные элементы Изображение (я) Первоначальный эскиз 2,5-мерный эскиз Представление трех- трехмерной модели Представление яркостей Получение в явном виде существен- существенной информации о двухмерном изо- изображении, главным образом об из- изменениях яркости и геометрических свойствах их распределения и орга- организации Получение в явном виде информа- информации об ориентации и приближенных значениях глубины видимых поверх- поверхностей, контурах разрывов значений этих величин в координатной системе наблюдателя Описание формы (объектов) и прост- пространственная организация в системе координат объекта; при этом ис- используется модульное иерархичес- иерархическое представление, построенное из объемных (т. е. непроизводных эле- элементов, представляющих объем пространства, занимаемого объек- объектом) и поверхностных непроизвод- непроизводных элементов Значение яркости в каждой точке изображения Точки пересечения нулевого уровня Пятнышки Концы и разрывы Отрезки яркостных перехо- переходов Допустимые прямые Группы Криволинейные структуры Границы Локальная ориентация по- поверхности ("игольчатые" не- непроизводные элементы) Расстояние до наблюдателя Разрывы по глубине Разрывы значений ориента- ориентации поверхности Трехмерные модели иерар- иерархически упорядочиваются; основу каждой модели обра- образует некоторая пространст- пространственная конфигурация, со- составленная из нескольких стержней или осей; к ней прикрепляются объемные или поверхностные непроиз- непроизводные элементы, характе- характеризующие форму объекта
ЧАСТЬ II ЗРЕНИЕ ГЛАВА 2 ПОЛУЧЕНИЕ ПРЕДСТАВЛЕНИЯ ИЗОБРАЖЕНИЯ 2.1. ФИЗИЧЕСКИЕ ОСНОВЫ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ИЗОБРАЖЕНИЯ В ЗРИТЕЛЬНОЙ СИСТЕМЕ Мы не можем развивать строгую теорию предварительной обработки изо- изображений в зрительной системе — теорию первых этапов зрительного процес- процесса — до тех пор, пока не будет определено назначение этой теории. Как уже отмечалось, цель в самом общем виде состоит в синтезе полезных стандарти- стандартизированных описаний форм и поверхностей, образующих Изображение. При- Пришло время сформулировать наши цели более определенно [145,148]. Значения яркостей изображения определяются следующими четырьмя факторами: 1) геометрическими свойствами; 2) коэффициентами отраже- отражения видимых поверхностей; 3) освещением сцены; 4) позицией наблюдате- наблюдателя. На изображении все эти факторы проявляются совместно, причем некото- некоторые изменения яркости порождаются одними, некоторые - другими, а неко- некоторые представляют результат их комплексного воздействия. Задача предва- предварительной обработки зрительной информации заключается в сортировке из- изменений яркости в соответствии с вызвавшими их причинами с тем, чтобы затем получить представления, в которых четыре приведенных фактора учи- учитывались бы независимо друг от друга. Можно, вообще говоря, считать, что эта цель достигается в два этапа. Во- первых, соответствующие представления строятся на основе изменений яр- яркостей и структур, обнаруженных на изображении. Эти построения включают такие процедуры, как обнаружение изменений яркости, представление и ана- анализ локальных геометрических структур и обнаружение эффектов, связан- связанных с освещением, — источников подсветки, бликов и прозрачности. В ре- результате выполнения этого первого этапа обработки появляется представле- представление, называемое первоначальным эскизом. Во-вторых, к первоначальному эс- эскизу применяется ряд процедур, что обеспечивает получение некоторого представления (все еще привязанного к сетчатке) геометрии видимых по- поверхностей. Это второе представление — представление видимых поверхнос- поверхностей — называют 2,5-мерным эскизом. Как первоначальный эскиз, так и 2,5- мерный эскиз строятся в системе координат наблюдателя, и использование термина эскиз отражает именно эту особенность их структур. 54
Необходимость представления пространственных отношений, получение которого неизбежно сопровождается осложнениями, связанными с опреде- определением того, что должно быть представлено в явном виде, а что можно остав- оставлять в неявном, порождает задачи, типичные и даже специфичные для зрения. Так, например, читателя не должно вводить в заблуждение (особенно если он не имеет математической подготовки) понятие "система координат", по- поскольку это понятие значительно более общее, чем может ему представлять- представляться. Из утверждения о привязанности к сетчатке представлений, используе- используемых на этапе предварительной обработки зрительной информации, вовсе не следует автоматически, что некоторая декартова система координат, градуи- градуированная в минутах (единицах измерения угла), наложена тем или иным спо- способом на зрительную кору и, как только зрительная система обнаруживает линию или яркостный переход, им некоторым образом ставятся в соответст- соответствие значения координат х и у, которые затем соответствующим образом пе- передаются по нервной системе. Несомненно, такой процесс можно считать одним из способов получения представлений. Никто, однако, не может серьезно относиться к предположению о том, что он используется в зритель- зрительной системе человека. Существует множество других возможностей реализа- реализации этой схемы в зрительной системе человека. Например, правдоподобным кажется использование некоторого (неявного) анатомического отображе- отображения, приблизительно воспроизводящего пространственную организацию сет- сетчатки в сочетании с некоторым представлением, в явном виде определяющим локальные отношения (точка А отстоит на угол 5'от точки В по направлению 35°). Существенной особенностью привязки к координатам сетчатки является то обстоятельство, что пространственные отношения при таком представле- представлении соотносятся с двухмерными отношениями, определенными на сетчатке наблюдателя, а не с трехмерными, действующими в среде наблюдателя, и не с двухмерными, определенными на сетчатке какого-то другого наблюдателя, и не с трехмерными, заданными относительно некоторой внешней опорной точ- точки, например горной вершины. Утверждение типа "точка А изображения рас- расположена ниже точки В изображения" является утверждением, относящимся к системе координат сетчатки. Утверждение типа "кисть руки расположена ниже и левее груди" является утверждением, относящимся к Вашей индиви- индивидуальной трехмерной системе координат — системе координат наблюдателя. Утверждение типа "у этого кота кончик хвоста находится выше и слева от его туловища" является утверждением, относящимся к системе координат данного кота. Все эти примеры иллюстрируют вполне добротные способы приближенного задания пространственных отношений, хотя ни один из этих способов не предусматривает использования наборов чисел. Каждый из коор- координатных систем можно поставить в соответствие количественные характе- характеристики (как если бы, скажем, использовались координаты х, у, z), что, однако, никак не означает обязательности именно такой реализации. Необхо- Необходимо иметь это в виду. Хотя значительно удобнее сформулировать цель предварительной обработ- обработки информации в зрительной системе, разделив четыре отмеченных выше 55
фактора (геометрические свойства, коэффициенты отражения, освещение и позиция наблюдателя), важно ясно представлять, к каким это приводит упрощениям. Наиболее существенным, вероятно, оказывается упрощение, связанное с достаточно жестким разграничением между коэффициентом отражения поверхности и ее геометрическими свойствами. В действительнос- действительности эти два понятия взаимосвязаны, и их разделение может оказаться доста- достаточно произвольным, что требует проявления определенной осторожности при использовании. Хорошей иллюстрацией некоторых из возникающих труд- трудностей такого рода может послужить поле созревающей пшеницы. При рас- рассмотрении с близкого расстояния отдельные колосья пшеницы образуют отражение поверхности и ситуация является достаточно очевидной. При рас- рассмотрении же издали четкость изображения недостаточна для различения ко- колосьев; видимую поверхность образует поле в целом, и функция, характери- характеризующая ее отражательную способность, может оказаться в данном случае очень сложной, поскольку отображает существенные вариации, которые наиболее естественно считать пространственными (см., например, [21,230]). С точки зрения теории восприятия, вероятно, не столь уж нереалистичная ап- аппроксимация — рассматривать в качестве некоторой поверхности пшеничное поле, находящееся на определенном расстоянии от наблюдателя, или кошачью шубку. Тайлер, в частности, обнаружил, что мы не в состоянии увидеть на стереоскопическом изображении гофрирование поверхности, если пространст- пространственная частота рифления превышает пороговое значение, составляющее око- около четырех периодов на угловой градус [231]. В дополнение к указанным трудностям отметим, что редко освещенность сцены поддается описанию в простых категориях. Дело в том, что рассеянное освещение, отражения, наличие нескольких источников освещения (лишь некоторые из которых видны) и взаимное освещение поверхностей отражен- отраженным светом часто вкупе создают очень сложные условия освещения, возмож- возможно, вообще не поддающиеся аналитическому описанию. Наше грубое давле- давление на четыре фактора тем не менее находит применение. При условии, что для наблюдателя вариации по глубине поверхности, отражающей свет, малы по сравнению с дальностью визирования, мы будем считать наблюдаемый объект некоторой отражающей поверхностью и, следовательно, полагать воз- возможным описывать соотношение между падающим на нее и отражаемым ею светом с помощью некоторой функции отражательной способности р, кото- которая при определенных освещении и позиции наблюдателя может обладать до- довольно сложной пространственной структурой. И наконец, приведем одно общее соображение относительно принятого нами стиля изложения. Представления, о которых идет речь, необходимы нам в качестве практически полезных описаний различных аспектов реально- реального мира. Поэтому структура последнего играет существенную роль как в определении характера используемых представлений, так и в определении характера процессов, привлекаемых для их получения и оперирования ими. Важную часть теоретического анализа составляет выявление физических 56
ограничений и допущений, используемых при определении 'федставлении и соответствующих процессов, и мы будем проявлять особую тщательность в этом отношении. Получение представления изображения С точки зрения информационного подхода наша основная цель теперь за- заключается в определении некоторого представления картины изменений коэффициента отражения на некоторой поверхности, пригодного для выяв- выявления изменений геометрической организации изображения, отражающих из- изменения коэффициента отражения собственно поверхности, изменения ори- ориентации поверхности и изменения расстояния от поверхности до наблюдате- наблюдателя. Если речь идет о некоторой гладкой поверхности, то изменения ориента- ориентации, а также, возможно, и расстояния вполне могут явиться источником из- изменений яркости изображения. Если поверхность текстурирована, то, напри- например, ориентации и размеры мельчайших элементов, образующих текстуру по- поверхности (ими могут служить просто длина и ширина элементов), и харак- характеристики, подсчитанные по небольшому участку поверхности, который представляют плотность и размещение этих малых текстурных элементов, являются существенной информацией об изображении. Таким образом, мы может указать, что наше представление вообще долж- должно содержать. Оно должно включать своего рода "характерные объекты", ко- которые надежно и однозначно могут выделяться на изображении и которым могут ставиться в соответствие значения таких признаков, как ориентация, яркость, размеры (длина и ширина) и местоположение (для характеристик плотности и размещения). Чрезвычайно важно, чтобы эти выделяемые "ха- "характерные объекты" соответствовали реальным физическим особенностям наблюдаемой поверхности; используемые нами пятна, линии, границы, группы и тому подобные объекты не должны оказываться артефактами про- процессов получения изображения, поскольку в противном случае все выводы относительно структуры поверхности, сделанные на основе структуры этих объектов, будут совершенно бессодержательными. Поэтому нам следует обратиться к общим свойствам функций отражательной способности поверх- поверхностей, так как из них мы сможем почерпнуть существенные сведения о том, каким образом необходимо структурировать представления изображе- изображений на этапе предварительной обработки зрительной информации. Основные физические допущения Поверхности как реальные объекты Наше первое допущение заключается в том, что вполне целесообразно во- вообще оперировать исключительно поверхностями (вспомним приводившиеся выше примеры с пшеничными полями и кошачьей шубкой). Сформулировать это допущение можно следующим образом, весь видимый мир можно рас- рассматривать как некоторую композицию гладких поверхностей, функции от- отражательной способности которых могут отличаться сложной пространствен- пространственной структурой. 3 /
Иерархическая организация Наше второе допущение связано с организацией указанной пространствен- пространственной структуры. Для объяснения его смысла целесообразно воспользоваться несколькими примерами Как мы уже отмечали, точнее всего считать, что кошачья шубка состоит из отдельных волосков, каждый из которых харак- характеризуется собственной функцией отражательной способности. На следую- следующем уровне рассмотрения предполагается, что эти волоски расположены плотно и параллельно, образуя тем самым некоторую поверхность. И, кроме того, на "построенную" таким образом шубку наложена структура еще более высокого уровня — организация окраски и разметки поверхности. Аналогич- Аналогичной организацией обладает речная поверхность. Основной уровень организа- организации соответствует в этом случае гладкой воде, спокойствие которой наруша- нарушают случайные возмущения, вызванные различными выступающими неровнос- неровностями типа камней или иных препятствий. На эту поверхность налагается рябь, ориентация которой определяется порывами ветра, и по ней направляе- направляемые течением реки плывут куски водорослей и других растений. Аналогич- Аналогичные структурные уровни можно обнаружить у многих поверхностей — жи- живых изгородей, тканей, плетенных из тростника изделий, коры дерева, дре- древесины, камней и т д. (обратите внимание на изображения поверхностей, приведенные на рис 2.1). Эти примеры показывают,что признаки, несущие ценную информацию, могут относиться к любому уровню организации реального мира, а следова- Рис 2 1 Примеры изображений поверхностей Обратите внимание на то, что различные типы пространственной организации возникают на различных масштабных уровнях прак- практически независимо Способность отличать эти типы организаций является важной осо- особенностью предварительного этапа обработки зрительной информации [29] 58
Рис 2 2 Наблюдаемую часть пространственной организации рисунка "в елочку" (типа приведенного здесь) составляют вертикальные полосы Их нельзя восстановить с по- помощью методов, основанных на фурье-преобразовании, однако эта задача легко решает- решается методами классификации {291 тельно, в еще большей степени они сказываются на изображениях из-за нали чия дополнительных преобразований, используемых в процессе получения изображения Таким образом, о каких бы характерных объектах, выделяе- выделяемых на изображении, ни шла речь, необходимо, чтобы они давали возмож- возможность определять в явном виде признаки изображения в широком диапазоне размеров Более того, важно отдавать себе отчет в том, что нельзя установить простого соответствия между этими уровнями организации и результатами полосовой фильтрации пространственных частот изображения с помощью фильтров, настроенных на различные частоты1. Хотя некоторые типы органи- организации можно выделить таким образом, многие из них указанному обнаруже- обнаружению не поддаются (как, например, вертикальные полосы на изображении, приведенном на рис. 2.2). Итак, мы в состоянии сформулировать наше второе физическое допуще- допущение пространственная организация функции отражательной способности не- некоторой поверхности часто порождается совместным воздействием целого ряда различных процессов, каждый из которых относится к отдельному уровню Таким образом, любое представление, в котором используются не- неоднородности, имеющиеся на изображении подобных поверхностей, для определения изменений глубины и ориентации поверхностей должно обеспе- обеспечивать учет изменений значений признаков, поставленных в соответствие характерным объектам изображения, размеры которых могут изменяться в широком диапазоне Другими словами, непроизводные элементы нашего представл.ения должны обеспечивать работу на ряде различных уровней 1 Фильтры этого типа позволяют очищать изображение от всех пространственных час- частотных составляющих, лежащих за пределами некоторого заданного диапазона частот 59
Подобие Наше третье допущение имеет несколько иной характер. Предположим, что мы уже располагаем некоторым представлением, включающим непроиз- непроизводные элементы разного размера. Интуитивно кажется очевидным, что та- такие непроизводные элементы должны храниться как-то отдельно, т. е. срав- сравнение крупномасштабного дескриптора с другими крупномасштабными дес- дескрипторами должно происходить проще, чем с мелкомасштабными. И, кро- кроме того, может показаться очевидным и то, что характерные изображения или дескрипторы, обладающие иными полярными различиями, скажем очень сильно отличающейся или даже противоположного знака контрастностью, должны храниться отдельно. Действительно, можно найти некоторое физическое обоснование того, по- почему следует поступать именно таким образом; это, в частности, явно следу- следует из приведенных нами выше примеров. Обратим внимание, что на разных уровнях организации, выделяемых в меховом покрове животного, на речной поверхности, на древесной коре, в структуре ткани и т. п., процессы, порож- порождающие функцию отражательной способности, относительно независимы на своих масштабных уровнях, однако объекты, являющиеся результатом осу- осуществления каждого из этих процессов, визуально похожи друг на друга зна- значительно больше, чем на какие-либо иные объекты, находящиеся на той же самой поверхности. Так, например, любой отдельный волосок кошачьей шуб- шубки обладает существенно большим сходством с соседними волосками, чем с полосами, образованными совокупностями тысяч волосков. Подобие в дан- данном случае можно оценивать различными способами, однако вполне доста- достаточно простого критерия, основанного на учете локального контраста, разме- размеров (длина и ширина), ориентации и цвета (обсуждение общих свойств кри- критериев различия можно найти в монографии Джардина и Сибсона [105]). Это обстоятельство может служить для нас средством отбора объектов изображения в процессе назначения непроизводных элементов для построе- построения его представления. Существенно (и это можно сформулировать в качест- качестве нашего третьего физического допущения), что объекты, появляющиеся на некоторой поверхности в результате некоторого процесса порождения отра- отражательной способности, действующего на некотором определенном масштаб- масштабном уровне, обычно обладают большим сходством по размерам, локальному контрасту, цвету и пространственной организации между собой, чем с други- другими объектами этой же поверхности. Рисунок 2.3 иллюстрирует это подобие. Как указывал Гласе [62], для по- порождения таких конфигураций необходимо на некоторое множество точек наложить то же самое множество точек, но немного повернутое или слегка "раздвинутое" (рис. 2.3, а). Этот эффект сохраняется, если в качестве харак- характерных объектов используются квадратики (рис. 2.3, б), а также для пар, объединяющих характерные объекты, устроенные совершенно по-разному (рис 2.3, в). Если же характерные объекты разнятся достаточно сильно (рис. 2.3, г), то никакой определенной конфигурации не видно. Гласе и Суиткес [64] показали, что эффект исчезает, если точки обладают полярной контраст- контрастностью или окрашены в противоположные цвета. Стивене [220, рис. 51, а] 60
а) 8 О oo o D о °= a% a a о а о о о с о ° В оо а 0 о о о о° а О D в) П П a _a at Ф п„ n T a !aa _a n n n na CUE DaaDo an a a a d D D P a □ D a с с a П D a n D a D a □ с с a n DC a a a D о 3 a a u a a D □ D a a □ Q D a с no п г □ a ^ a aD □ a □ a 0 D 1 и □ a ac □ a г) Рис. 2.3. Эти изображения получены с помощью положения некоторой случайной конфи- конфигурации характерных объектов на ту же конфигурацию, но слегка повернутую или "раз- "раздвинутую". В качестве характерных объектов могут использоваться точки, маленькие квадратики (а) или квадратики большего размера (б). Конфигурация вовсе не обяза- обязательно должна включать только одинаковые характерные объекты. На рис. 2.3, в одно из множеств образовано квадратиками, а другое - фигурами, обозначенными четырьмя точками; единственное требование - все характерные объекты должны обладать подо- подобием. На рис 2.3, г одно из множеств состоит из довольно крупных квадратиков, а дру- другое - из мелких точек. Эти характерные объекты слишком сильно отличаются друг от друга, чтобы на этом изображении можно было увидеть "раздвинутую" структуру показал, что не удается обнаружить никакой организации при наложении трех множеств точек — исходного, повернутого и "раздвинутого". Если, до- допустим, повернутое множество оказывается существенно ярче двух осталь- остальных, то наблюдается организация, порожденная парами более тусклых точек. Все это доказывает, что в основе данного явления лежит сопоставление фор- 61
мализованных описаний свойств локальных характерных объектов изобра- изображения, а не, скажем, измерения, осуществляемые непосредственно на изобра- изображении с помощью, например, простой клетки Хьюбела и Уисела. Пространственная непрерывность Характерные объекты, возникающие на некоторой поверхности в резуль- результате действия какого-то одного процесса, помимо того, что они обладают "внутренним" подобием, часто образуют определенную пространственную организацию, принимающую вид кривых, прямых и, возможно, более слож- сложных конфигураций. Принципиальной особенностью здесь является то обсто- обстоятельство, что подобная "разметка" часто порождает на поверхности гладкие контуры, и, следовательно, характерные объекты соответствующего изобра- изображения должны обладать таким же свойством. Пространственная непрерыв- непрерывность очень хорошо воспринимается человеком. Мы сразу видим коллинеар- коллинеарность объектов, изображенных на рис. 2.4 [145, рис. 10], несмотря на то, что все объекты, расположенные вдоль прямой, различны: в качестве одного объекта использовано пятно, другого — небольшая группа точек, третьего — конец стержня и т. д. Все объекты, однако, имеют приблизительно одинако- одинаковую величину. Еще один прекрасный пример приведен на рис. 2.5 [159, рис. 7]. Изображенная на нем конфигурация содержит очень много непрерывных структур, каждая из которых как бы пытается выделиться и подавить другие. Непрерывность нарушений непрерывности Одним из следствий когезионной способности материи является факт су- существования объектов материального мира в определенных границах. Эти границы порождают нарушения непрерывностей по глубине и ориентации по- поверхностей, обнаружение которых входит в нашу задачу, причем важной осо- особенностью таких границ является то, что они часто на изображениях оказыва- оказываются гладкими. Можно, в сущности, считать, что геометрическое место раз- 0 о Рис. 2.4. Дополнительная иллюстрация к понятию "локально-характерный объект - двухмерный признак изображения". Хотя все подгруппы, образующие данную конфигу- конфигурацию, определены по-разному, совершенно очевидно, что все они коллинеарны. Отсюда следует, что каждая группа порождает локально-характерный объект - двухмерный знак, причем их коллинеарность определяется практически независимо от способа зада- задания локально-характерных объектов при том условии, что они представляют достаточно подобные объекты (сравнение с рис. 2.3, г) [145] 62
«••4 * P *»•***•*«« Д * V ****** 4 " fc ^ ••••••% a r«< Рис. 2.5. Пример действия процессов активной группировки. Эта конфигурация преис- преисполнена бурной активности - создает впечатление, что конкурирующие пространствен- пространственные организации яростно борются друг с другом Ц59] рывов по глубине или ориентации поверхности почти везде гладко. Возмож- Возможно, именно это физическое ограничение определяет полезность механизма гладких субъективных контуров (см. рис. 2.6 и разд. 4.8). Непрерывность движения И наконец, не следует забывать об исключительной важности для зрения движения, ибо оно присутствует повсеместно. Движение наблюдателя или не- некоторого материального объекта может порождать движение на изображени- изображениях этого объекта. Если последний обладает жесткостью, то перемещения изо- изображения соседних точек поверхности объекта аналогичны. Таким образом, перемещения частей объекта, расположенных на его изображении на неболь- небольших расстояниях друг от друга, обычно аналогичны. В частности, поле ско- скоростей движения на изображении почти везде изменяется непрерывным обра- 63
e • a) 6) Рис. 2.6. Субъективные контуры. Изменения глубины, по-видимому, столь важны для зрительной системы, что она стремится сделать их явными везде, в том числе и там, где отсутствуют непосредственные зрительные данные, подтверждающие наличие таких из- изменений зом, и если оказьюается, что оно имеет нарушения непрерывности не в какой- то изолированной точке, то это означает наличие во внешнем мире некоторо- некоторого реального нарушения целостности (жесткости) формы объекта (типа гра- границы объекта). Так, при наличии любого нарушения непрерывности движе- движения более чем в одной точке, например вдоль некоторой прямой, следует счи- считать, что имеет место граница объекта. Об общих свойствах представления Смысл и важность указанных физических ограничений заключаются в том, что, несмотря на определяющую роль в тех изображениях, с которыми мы работаем, изменений яркости, реальности материального мира налагают на эти исходные изменения яркости широкий спектр пространственных органи- организаций, действующих на разных масштабных уровнях и практически независи- независимо друг от друга. Соответствующая организация проявляется в структуре изображения, и, поскольку она содержит важные сведения относительно структуры видимых поверхностей, представления изображения, используе- используемые на предварительном этапе обработки, должны учитывать ее. Я, в частнос- частности, предлагаю делать это с помощью набора локально-характерных объек- объектов — двухмерных признаков изображения, которые в определенной мере со- соответствуют отрезкам яркостного перехода или границы, характеризующим- характеризующимся определенным направлением, или точкам нарушения непрерывности по таким направлениям, полосам (приблизительно параллельным парам яркост- ных переходов) или их концам, пятнам (полосам, грубо обрезанным с обоих концов): Эти непроизводные элементы можно определять как вполне кон- конкретным образом (исходя просто из нарушений непрерывности по яркости), так и достаточно формально. Так, пятно можно задать, опираясь на некото- некоторое множество точек, а границу — исходя из определенных (но отнюдь не любых) изменений текстуры или объединив в некоторую линию ряд локаль- 64
Изображение • s 4 % '•":'■ Исходный первоначальный эскиз Уровень 1 Характерные объекты изображения Уровень 2 Граница Рис. 2.7 Схематическое представление описаний изображения, относящихся к различным масштабным уровням и в целом составляющих первоначальный эскиз. На нижнем уров- уровне исходный первоначальный эскиз точно воспроизводит изменения яркости изображе- изображения и, кроме того, представляет концы, обозначенные на рисунке зачерненными круж- кружками. На следующем уровне для групп объектов изображения формируются характер- характерные объекты, отличающиеся определенной ориентацией. На очередном уровне различие направлений ориентации групп объектов, расположенных в левой и правой частях изо- изображения, позволяет провести границу между этими частями изображения. Сложность первоначального эскиза определяется степенью пространственной организации изобра- изображения на различных масштабных уровнях 65
но-характерных объектов — двухмерных признаков изображения, определяе- определяемых, в свою очередь, достаточно сложным образом (см. пример, приведен- приведенный на рис. 2.4). На рис. 2.7. проиллюстрирована общая концепция, лежащая в основе схе- схемы представления, называемой первоначальным эскизом [145]. Основные положения этой концепции состоят в следующем: 1. Первоначальный эскиз на разных масштабных уровнях строится из не- непроизводных элементов одного и того же типа — некоторое пятно характери- характеризуется практически одними и теми же местоположением, длиной, шириной и ориентацией независимо от того, на каком уровне оно определено; непроиз- непроизводные же элементы, однако, могут задаваться на изображении разнообраз- разнообразнейшими способами — от самых конкретных (метка черными чернилами) до весьма формальных (множество точек). 2. Эти непроизводные элементы последовательно формируются конструк- конструктивным образом: сначала анализируются и представляются изменения яркос- яркости и непосредственно по ним формируются характерные объекты изображе- изображения; далее добавляется представление локальной геометрической структу- структуры, характеризующей их расположение; затем эти объекты подвергаются воздействию процессов активного выбора и группировки с тем, чтобы полу- получить характерные объекты более высокого уровня, отражающие крупномасш- крупномасштабные структуры изображения, и т. д. 3. В целом формируемые непроизводные элементы, параметры, которые ставятся им в соответствие, и точность их измерения определяются таким образом, чтобы структура изображения, учитываемая и отображаемая с их помощью, обеспечивала получение информации относительно реальной гео- геометрической структуры видимых поверхностей. В результате возникает довольно сложная проблема достижения компромисса между возможной точ- точностью различения и ценностью получаемой в результате информации. Так, при изменении ориентации поверхности проекции их направлений на изображении действительно изменяются, но, вообще говоря, в очень незначительной степе- степени, и обычно, вероятно, эти изменения оказьюаются меньше типичного разбро- разброса направлений ориентации, характерного для реального распределения раз- разметки поверхностной структуры. Это означает, что, за исключением специаль- специальных случаев, не имеет смысла использовать очень мощные средства для обнаружения едва различимых изменений направления ориентации. С другой стороны, поскольку даже очень малое относительное смещение служит не- неопровержимым свидетельством разделенности двух поверхностей, следует с очень большим вниманием относиться к относительным смещениям. Процессы получения первоначального эскиза делятся на три основных эта- этапа: 1) определение точек пересечения сигналом нулевого уровня [155, 157, 150]; 2) формирование исходного первоначального эскиза [145, 150, 84]; 3) получение полного первоначального эскиза [145]. 66
2.2. ОПРЕДЕЛЕНИЕ ТОЧЕК ПЕРЕСЕЧЕНИЯ СИГНАЛОМ НУЛЕВОГО УРОВНЯ И ИСХОДНЫЙ ПЕРВОНАЧАЛЬНЫЙ ЭСКИЗ Определение точек пересечения сигналом нулевого уровня Первый из описанных выше трех этапов посвящен обнаружению измене- изменений яркости. Основу этого процесса составляют два следующих положения: 1) поскольку изменения яркости изображения могут относиться к различ- различным масштабным уровням, для того, чтобы оптимизировать процесс их обна- обнаружения, необходимо применять операторы, обрабатывающие фрагменты изо- изображения различных размеров; 2) резкое изменение яркости приводит к воз- возникновению пика или впадины первой производной, что эквивалентно пересе- пересечению нулевого уровня второй производной, как это показано на рис. 2.8 (пересечением сигналом нулевого уровня называется та точка, в которой со- соответствующая функция меняет свое значение с положительного на отрица- отрицательное) . Из этого следует, что для эффективного обнаружения изменения яркости необходимо пользоваться фильтром, обладающим двумя существенными свойствами. Прежде всего он должен реализовывать некоторый дифференци- дифференциальный оператор, вычисляющий первую или вторую пространственную произ- производную изображения. Кроме этого он должен допускать настройку на рабо- работу на необходимом масштабном уровне с тем, чтобы фильтры, предназначен- предназначенные для обработки больших фрагментов изображения, можно было исполь- использовать для обнаружения границ на размытых затемненных участках изобра- изображения, а фильтры, предназначенные для обработки малых фрагментов изо- изображения, — для обнаружения малых элементов изображения на его хорошо сфокусированных участках. Марр и Хилдрет [150] показали, что в наибольшей степени этим требова- требованиям соответствует V2 G-фильтр, где V2-оператор Лапласа (сР/Э*2 +<г/ду2), а символ G обозначает распределение Гаусса G (х, у)= со средним квадратическим отклонением а. График оператора V2 характери- характеризуется круговой симметрией и имеет форму сомбреро; двухмерное распре- а) 5) в) Рис. 2 8. Иллюстрация понятия "пересечение нулевого уровня". Изменение яркости (а) порождает пик в первой производной (б) и (резкое) пересечение нулевого уровня во второй производной (в) 67
деление значений этого оператора можно задать через расстояние г от начала координат с помощью следующего выражения: тта A-2^)e — Г' То* На рис. 2.9 представлены одномерный и двухмерный варианты этого операто- оператора, а также их фурье-преобразования. Выбор фильтра типа V2 G определяется в основном двумя моментами. Во-первых, за счет гауссовской части G изображение размыто, на нем эффек- эффективно уничтожены все структуры, относящиеся к масштабному уровню, су- существенно меньшему значения пространственной постоянной а гауссовского распределения. В качестве соответствующего примера на рис. 2.10 представ- а) б) а) г) Рис. 2.9. Представление V2 С-фильтра в виде одномерной (а) и двухмерной (б) функ- функций (значения этих функций соответствуют яркости в каждой точке) и фурье-преобра- фурье-преобразования одномерного (в) и двухмерного (г) вариантов соответственно [150] 68
.a* ч.* >? %>*:# V S) Рис. 2.10. Размывание изображений составляет первый этап обнаружения на них измене- изменений яркости. Поскольку на исходном изображении (я) изменения яркости могут отме- отмечаться на значительном числе масштабных уровней, ни один оператор в отдельности не обеспечит выделения всех этих изменений с высокой эффективностью. Эта задача су- существенно упрощается, если изображение размыто с помощью гауссовского фильтра, поскольку при этом, в сущности, сверху ограничивается допустимый темп изменений яркости. Первый этап процесса обнаружения границы можно рассматривать как разбие- разбиение исходного изображения на ряд копий, к каждой из которых применяется гауссовс- кий фильтр, предназначенный для обработки фрагментов определенного (своего для каждого фильтра) размера; соответственно изменения яркости определяются для каж- каждой копии изображения отдельно. Изображение (б) обработано гауссовским фильтром, имеющим а, равную 8 пикселам. Изображение (в) обработано гауссовским фильтром, имеющим а, равную 4 пикселам. Размер изображения 32ОХЭ2О пикселов [ISO] лено изображение, подвергнутое свертке с помощью двух гауссовских фильт- фильтров, предназначенных для работы на разных масштабных уровнях. У одного из них пространственная постоянная а равна 8 пикселам (рис. 2.10, б), у дру- другого — 4 пикселам (рис. 2.10, в). Причина выбора в данном случае для раз- размывания изображения гауссовского фильтра, а не, скажем, оператора, гра- график которого имеет вид цилиндрической женской шляпы без полей и с плос- плоским донышком, заключается в том, что гауссовское распределение обладает необходимыми свойствами — оно гладко и локализовано как в пространст- пространственной, так и в частотной области и, строго говоря, представляет собой единст- единственное распределение, характеризующееся одновременно оптимальной лока- локализацией в обеих областях. Такие свойства функции размывания, в свою очередь, желательны потому, что при максимально возможной равномернос- равномерности размывания как в пространственной, так и в частотной области вероят- вероятность внесения каких-либо изменений, отсутствующих на исходном изображе- изображении, оказывается минимальной. Второй момент касается дифференцирующей части фильтра V2 • Важней- Важнейшее преимущество, которое обеспечивается благодаря ее использованию, — экономичность вычислительной процедуры. Можно взять производные по направлению первого порядка типа д/дх или д/ду, что влечет за собой необхо- необходимость отыскивать их локальные максимумы или минимумы по каждой из направлений (как это показано на рис. 2.8,6), либо производные по направ- направлению второго порядка типа Э2/Эх2 или Ь2/Ьу2 — в этом случае изменения яркости изображения будут соответствовать тем точкам, в которых они при- принимают нулевые значения (см. рис. 2.8, в). Все эти операторы, однако, обла- 69
-1 + 1 a) -2 + 1 + 1 -1 6) i + 1 + 1 1 + 1 -2 + 1 e) г) д) e) Рис. 2.11. Пространственная организация дифференциальных операторов низших поряд- порядков. Операторы типа Э/Э* допускают приближенную реализацию с помощью фильтров, рецептивные поля которых имеют вид, представленный на рисунке: а, б — операция Ъ/Ьх, рассматриваемая как измерение разности значений яркости в двух соседних по оси х точках; в — операция д2/ЪХ2, рассматриваемая как процедура опреде- определения разности двух соседних значений Э/Эдс, т. е. рецептивного поля; г, д — рецептив- рецептивные поля двух других операторов второго порядка Э2/Ьу2 и д2 /дхЪу соответственно; е — рецептивное поле изотропного оператора самого низшего порядка (оператора Лап- Лапласа (Ъ2/Ъх2 + Ь21Ъу2) , для которого используется обозначение V2 ), характеризуется круговой симметрией дают тем недостатком, что они являются направленными —применение любо- любого из них связано с учетом ориентации нескольких дифференциальных опера- операторов первого и второго порядков (см. рис. 2.11, иллюстрирующий прост- пространственную организацию, т. е. "рецептивное поле" на нейрофизиологичес- нейрофизиологическом языке). Использование первых производных требует, в частности, опре- определения значений Ы/Ъх и Ы/ду и отыскания локальных максимумов и мини- минимумов амплитуды их суммарных значений, т. е. определения также и знака, и значения величины Применение операторов, реализующих вычисление производных второго порядка по направлению, порождает проблемы еще более неприятные, чем те, которые возникают в связи с производными первого порядка. Единствен- Единственный способ избежать подобных дополнительных вычислительных затрат — это попытаться применить оператор, не зависящий от направления. Изотроп- Изотропным дифференциальным оператором самого низшего порядка является лап- лапласиан V2, и, как оказалось, этот оператор можно использовать для обнару- обнаружения изменений яркости изображения, если размытое изображение удовлет- удовлетворяет нескольким чрезвычайно слабым ограничениям [150] *. Изображе- Раэмывание функции яркости изображения / (х, у) с помощью функции гауссов- ского распределения G в математической нотации записывается как G * 1 (читается: "функция G свертывается с функцией /"). Соответствующий оператор Лапласа записы- записывается как V2 (G */), причем применение этого оператора к свертываемой функции, а не к результату свертки приводит к получению тождественного результата: v2 (G * Г) - = (V2G) *L 70
ния, как правило, локально удовлетворяют таким ограничениям, и поэтому при решении реальных задач допустимо пользоваться оператором Лапласа. Итак, практически наиболее удовлетворительный способ отыскания на изо- изображении изменений яркости, относящихся к некоторому определенному масштабному уровню, заключается в предварительной фильтрации изобра- изображения с помощью оператора V2 G, пространственная постоянная части G ко- которого выбирается таким образом, чтобы был обеспечен учет того масштаб- масштабного уровня, к которому относятся искомые изменения яркости, после чего на изображении, полученном в результате фильтрации, отыскиваются точки пересечения нулевого уровня. а) б) Рис. 2.12, 2.13, 2.14. Примеры, иллюстрирующие обнаружение точек пересечения нулево- нулевого уровня с помощью оператора V2 G: а — изображение размера 320X320 пикселов; б — результат свертки этого изображения с помощью оператора 42G при W2—D ~ 8 (нулевые значения представлены серым цве- цветом) ; в — положительные (белый цвет) и отрицательные (черный цвет) значения; г — только пересечения нулевого уровня 71
а) в) г) Рис 2 13 На рис. 2.12 — 2.14 показано, как выглядит изображение, подвергнутое такой обработке. Цифровые значения элементов изображения, полученного в результате фильтрации с помощью оператора V2G, могут быть как положи- положительными, так и отрицательными, но суммарное среднее значение равно нулю. Положительным значениям на этих рисунках соответствует белый цвет, отри- отрицательным — черный, а нулевым — некоторый промежуточный уровень серо- серого тона. Как уже отмечалось, существенным свойством оператора V2G явля- является то, что точки, в которых график его значений пересекает нулевой уро- уровень, служат индикаторами изменений яркости на изображении, размытом с помощью гауссовской функции распределения с некоторой пространствен- пространственной постоянной. На приведенных рисунках это прекрасно видно. Так, на рис. 2.12, в представлено изображение, которое после фильтрации было подверг- подвергнуто "бинаризации", т. е. всем его элементам с положительными значениями были присвоены значения "+Г\ а элементам с отрицательными значениями — 72
a) б) в) Рис 2 14 значения "—1" На рис. 2 12, г изображены лишь точки пересечения нулевого уровня. Преимущество бинаризованного представления заключается также в том, что оно указывает знак пересечения нулевого уровня, т. е. позволяет судить о том, какая сторона изображения темнее. Кроме того, угол, под которым происходит пересечение нулевого уровня, зависит, хотя и не непосредственно, от степени изменения яркости. Это об- обстоятельство иллюстрируется рис 2.15, на котором представлено исходное изображение с нанесенными на нем точками пересечения нулевого уровня, последние соединены кривыми различной яркости. Кривая тем контрастнее, чем больше угол, под которым происходит пересечение нулевого уровня (измеряется относительно перпендикуляра к направлению сигнала в соот- соответствующей точке) Для формализации представления точек пересечения нулевого уровня ти- типа воспроизводимых на рис. 2 12 — 2.15 можно воспользоваться нескольки- 73
Рис. 2.15. Иллюстрация представления пересечений нулевого уровня. Яркость линий из- изменяется в соответствии со значением угла пересечения нулевого уровня, что позволяет легче понять, какие линии представляют наиболее контрастные участки изображения ми различными способами. Для их представления мы будем пользоваться на- набором направленных непроизводных элементов, назыв аемых отрезки/им иере- сечений нулевого уровня. Каждый из таких непроизводных элементов служит описанием некоторой части контура, у которой крутизна яркости (скорость из- изменения значения свертки на отрезке) и локальное направление остаются при- приблизительно одниковыми. В связи с тем, что это в конечном счете оказывается существенным с физической точки зрения, необходимо выделить те точки, в которых направление пересечений нулевого уровня меняется "разрывно". Кавычки в данном случае необходимы, поскольку на самом деле можно до- доказать, что изменение направления пересечений нулевого уровня графиком свертки V2C */ни при каких обстоятельствах не имеет разрывов,однако, тем не менее, удается сформулировать определение разрывности, пригодное для использования. Кроме того, небольшие замкнутые контуры представляются пятнышками, каждое из которых также характеризуется ориентацией, сред- средней крутизной яркости и размерами, определяемыми их прогяженностями вдоль большой и малой осей. И наконец, в соответствии с глобальной целью, для того чтобы обеспечить обнаружение изменений яркости в полном диапа- диапазоне всех тех масштабных уровней, на которых они возникают на изображе- изображении, необходимо использовать операторы, предназначенные для обработки фрагментов изображения нескольких различных размеров. Биологические следствия Эта вычислительная схема, характеризующая самые первые этапы обработки зритель- зрительной информации, позволяет интерпретировать большое число результатов, полученных в процессе психофизических и нейрофизиологических исследований нижнего уровня зрения, а также может быть источником гипотез относительно общих принципов органи- организации начальной части зрительного пути. 74
Психофизика нижнего уровня зрения В 1968 году Кампбелл и Робсон поставили несколько экспериментов по зрительной адаптации [30]. Они обнаружили, что контрастная чувствительность испытуемых вре- временно понижается после предъявления им высококонтрастных решеток, причем это понижение зависит от ориентации и пространственной частоты решетки. В результате экспериментаторы пришли к выводу, что зрительный путь содержит некоторый набор "каналов", обладающих избирательностью по ориентации и пространственной частоте. Это открытие породило подлинный взрыв в области исследования отдельных под- подробностей структуры этих каналов, кульминацией которых явилась предложенная не так уж давно элегантная количественная модель структуры таких каналов, имеющейся у человека. В основу этой модели были положены данные порогового обнаружения, полученные Уилсоном и Гисом [256] и Уилсоном и Бергеном [155]. Понять эту модель очень легко. Идея, положенная в ее основу, состоит в том, что в каждой точке поля зре- зрения размещаются четыре настраиваемых на пространственный размер фильтра (маски), предназначенные для анализа изображения. Пространственные поля каждого из этих фильтров имеют форму, приблизительно соответствующую разности двух гауссовских распределений (РГР), однако два фильтра, реализующие маски меньших размеров, про- проявляют в основном тонические временные свойства, а два фильтра, реализующие маски больших размеров, - в основном фазные. Размер маски, соответствующей каналу, рас- растет линейно в соответствии с увеличением эксцентриситета (углового расстояния от центральной ямки сетчатки глаза); каналы обозначаются символами N, S, Т и U в по- порядке увеличения размера маски. Канал S обладает наибольшей чувствительностью как по отношению к тонической, так и фазной стимуляции; канал же U отличается наимень- наименьшей чувствительностью, составляющей всего лишь от одной четвертой до одной один- одиннадцатой чувствительности канала 5. Сам Уилсон не выдвигал никаких утверждений от- относительно направленности фильтров, но он определил их размеры, используя светлые и темные линии. При использовании таких одномерных раздражителей ширина централь- центральной части рецептивного поля (мы будем обозначать ее символом vv1—^) имеет следую- следующие значения: ЗД' (канал TV); 6,2'(канал S); 11,7 (канал Т); 21 (канал U). Размеры рецептивного поля растут линейно с увеличением эксцентриситета (приблизительно вдвое при эксцентриситете, равном 4° ). Фактически все психофизические данные, от- относящиеся к обнаружению пространственных образов, которые .характеризуются поро- порогом различимости менее 16 периодов на градус, допускают интерпретацию в рамках этой модели в сочетании с гипотезой, предполагающей, что в основе процесса обнаруже- обнаружения лежит некая разновидность пространственной вероятностной суммации, осущест- осуществляемой в указанных каналах. Как я считаю, именно V2 С-фильтры составляют основу каналов, существование ко- которых подтверждается психофизическими данными. Оператор V2 G аппроксимирует не- некоторый полосовой фильтр с полосой пропускания в 1,25 октавы, соответствующей по- половине энергии спектра. Такой фильтр можно приближенно представить с помощью РГР, причем наилучшее - с технической точки зрения - приближение достигается в тех случа- случаях, когда пространственные постоянные двух гауссовских распределений, образующих РГР, характеризуются отношением 1:1.6. Рисунок 2.16 характеризует качество подоб- подобной аппроксимации. Оценка Уилсона этого отношения для тонических каналов состав- составляет 1:1,75. Для того чтобы использовать найденные Уилсоном и Бергеном числовые значения ве- величины Wj _£) при определении диаметра центральных частей рецептивных полей соот- соответствующих операторов V2 G, необходимо умножить значения первых на у/Т, посколь- поскольку измерения Уилсона соответствуют линейной проекции рецептивных полей с круго- круговой симметрией. Таким образом, канал N Уилсона соответствует некоторому У2С-фильт- 75
Рис. 2.16. Наилучшая с технический точки зрения реализация У2С-фильтра (сплошная линия) с помощью разности двух гауссовских распределений (РГР), достигаемая при соотношении тормозной и возбуждающей пространственных постоянных, равном при- приблизительно 1:1,6. РГР представлена на этом рисунке штриховой линией. Обе кривые имеют очень похожие профили [150] ру, диаметр центральной части рецептивного поля которого ъ'2—D = ^ ^ = 4,38, что примерно соответствует девяти колбочкам центральной ямки сетчатки глаза. Это зна- значение кажется слишком большим для наименьшего из каналов, и доводы, основанные на теоретическом анализе остроты и разрешающей способности зрения, указывают на существование еще меньшего канала. Диаметр и>2—£> центральной части рецептивного поля такого канала должен составлять около Г 20", и из-за дифракции в глазу речь мо- может идти о карликовых ганглиозных клетках, центральные части рецептивных полей ко- которых состоят лишь из одной колбочки [156]. Итак, если считать числовые оценки Уилсона правильными, то они позволяют судить о том, какими размерами исходные операторы типа "центр-периферическое кольцо" должны обладать, для того чтобы обеспечивать возникновение наблюдаемой психофизи- психофизической адаптации и других феноменов. Вообще говоря, эти цифры можно было бы со- соотнести с результатами физиологических измерений, и в следующем разделе мы укажем соответствующий способ. И наконец, в этой связи следует отметить, что Кампбелл об- обнаружил также зависимость адаптации от ориентации (она, кроме того, может зависеть и от направления движения). Эту особенность мы связываем с этапом обнаружения пересечений нулевого уровня, который лучше всего рассматривать на нейрофизиологи- нейрофизиологическом уровне. Физиологическая реализация V G-фильтров С момента появления работы Каффлера [125] известно, что пространственная орга- организация рецептивных полей ганглиозных клеток сетчатки характеризуется круговой симметрией, причем их центральная часть выполняет возбуждающие функции, а перифе- периферическая - тормозящие. Некоторые клетки (их называют клетками, реагирующими на 76
появление светлого раздражителя в центре рецептивного поля (КСЦР) *) возбуждаются при появлении в центре их рецептивного поля небольшого светлого пятна, а остальные при этом затормаживаются. Родик и Стон высказали предположение [204], согласно ко- которому такая организация является результатом наложения небольшой центральной области возбуждения на значительно больший тормозящий "купол", простирающийся над всем рецептивным полем. Инрот - Кугелл и Робсон [44] представили два таких ку- купола гауссовскими распределениями, получив в результате описание рецептивного поля как некоторой разности двух гауссовских распределений. Кроме того, Инрот — Кугегш и Робсон исходя из временных характеристик их реакции на стимуляцию разделили большие ганглиозные клетки сетчатки на два класса — X и Y. Первые демонстрируют явно выраженную тоническую реакцию, а вторые — в основном фазическую, причем это различие сохраняется и на уровне клеток наружного коленчатого тела. Вероятно, тоничес- тонические каналы Уилсона соответствуют на физиологическом уровне Л'-клеткам, а фазные каналы - У-клеткам [228]. Таким образом, не столь уж беспочвенным является предположение о том, что Jf-клет- ки сетчатки и наружного коленчатого тела воспроизводят именно значения функции V2 G, причем положительные значения воспроизводятся клетками КСЦР, а отрицатель- отрицательные — клетками, реагирующими на появление темного раздражителя в центре рецептив- рецептивного поля (КТЦР)а. Для иллюстрации физиологических аспектов этого механизма на рис. 2.17 сопоставляются ответы Л'-клеток, предсказанные с помощью функции Ч1 G, и опубликованные в научной литературе значения ответов клеток сетчатки и наружного коленчатого тела, идентифицированных нами в качестве Х-клеток, для раздражителей трех видов — яркостного перехода, узкой и широкой полос. Очевидно, что имеет место очень точное качественное совпадение соответствующих результатов. Функции У-клеток будут рассмотрены нами в разд. 3.4. Физиологический механизм обнаружения пересечений нулевого уровня С физиологической точки зрения отрезки пересечений нулевого уровня легко выде- выделяются независимо от обнаружения точек пересечения нулевого уровня, ибо выделение таких отрезков на основе обнаружения точек пересечения нулевого уровня - неправдо- неправдоподобная в физиологическом смысле идея. Причина этого заключается в том, что по од- одну сторону непосредственно от точки пересечения нулевого уровня располагается поло- положительный локальный максимум изображения, полученного в результате фильтрации ( V 2 G * I), а непосредственно по другую - отрицательный. Расстояние между этими локальными максимуми составляет примерно w2 _dI\[^, где w2_p- ширина централь- центральной части рецептивного поля соответствующего V2 G-фильтра. Следовательно, непосред- непосредственно по одну сторону от точки пересечения нулевого уровня наблюдается интенсив- интенсивный разряд клетки КСЦР и непосредственно по другую - интенсивный разряд клетки КСЦР. Сумма значений ответов этих клеток соответствует углу, под которым происхо- происходит пересечение нулевого уровня - высококонтрастные изменения яркости порождают более интенсивный разряд, чем низкоконтрастные. Таким образом, пересечение нулево- нулевого уровня может быть обнаружено с помощью какого-либо механизма, обеспечивающе- 1 В отечественной литературе по психофизиологии зрения используется термин "оп- клетки". - Прим. перев. 3 В отечественной литературе по психофизиологии зрения используется термин "off- . клетки". - Прим. перев. 77
Яркостный переход Узкай полоса Широкая полоса L ■ijJL 11 L- Рис. 2.17. Сопоставление предсказанных ответов Л'-клеток КСЦР и КТЦР с результата- результатами электрофизиологических исследований. В первом ряду представлены значения V2 G *1 для изолированного яркостного перехода тонкой полосы (ширина полосы со- составляет 0,5 wl_pf где w1_jp - значение ширины центральной возбуждающей части ре- рецептивного поля, спроецированной на некоторую прямую) и толстой полосы (ширина полосы составляет 2,5vv1_q). Теоретический прогноз был получен с помощью наложе- наложения положительных (второй ряд) или отрицательных (четвертый ряд) частей графика V* G */ иа График фоновой активности клетки, значения которой невелики (ответ клет- rai в невозбужденном состоянии). Соответствующие физиологические данные (третий и пятый ряды) заимствованы из [43] (ответы на предъявление края) и [204] (ответы на предъявление полос шириной 1 и 5°) [158] 78
a) Рис. 2.18. Механизм обнаружения ориентированных отрезков пересечения нулевого уров- уровня. На рис. 2.18, а Р- рецептивное поле ЯГ-клетки КСЦР наружного коленчатого тела, Q - рецептивное поле А'-клетки КТЦР наружного коленчатого тела. При возбуждении обеих клеток между ними должно происходить пересечение нулевого уровня. Следовательно, если эти клетки, как показано на рисунке, соединены с логическим элементом И, по- последнее обеспечит обнаружение наличия пересечения нулевого уровня. Если имеется на- набор пар таких клеток (б), причем каждая пара также соединена со своим логическим элементом И, то полученное в результате устройство будет обеспечивать обнаружение ориентированного отрезка пересечений нулевого уровня, расположенного в пределах границ, указанных приближенно штриховой линией. Идеальным случаем было бы исполь- использование логических элементов, воспроизводящих результат суммирования лишь при возбуждении всех его Р-я (?-входов [ 150] го соединение клетки КСЦР и клетки КТЦР с логическим элементом И1, как это пока- показано на рис. 2.18, д. Эту идею несложно использовать и для обнаружения направленности отрезка пере- пересечения нулевого уровня: необходимо просто расположить Х-клетки КСЦР и КТЦР в два столбца, как это показано на рис. 2.18, б. Если связать все тги элементы с логичес- логическими элементами И или другими устройствами, обеспечивающими достаточно хорошее приближение их функции, то в результате возникнет устройство, обеспечивающее обна- обнаружение отрезка пересечений нулевого уровня, ориентация которого ограничена двумя штриховыми линиями, изображенными на рис. 2.18, 6. Эта идея составляет основу для синтеза модели простых клеток зрительной коры, которая будет приведена в разд. 3.4. Сейчас же достаточно заметить, что подобные устройства способны реагировать на ори- ориентацию и настраиваться на пространственную частоту (с учетом модификаций, вводи- вводимых в разд. 3.4, они,кроме того, избирательны по направлению). Как я полагаю, адап- адаптивность именно этих элементов обнаружили Кампбелл и Робсон в своих эксперимен- экспериментах в 1968 году. 1 Простейшее логическое устройство, воспроизводящее положительное выходное значение только при условии положительности всех сигналов, поступающих на его вход. 79
Первое полностью формализованное представление изображения Использование точек пересечения нулевого уровня является естественным спосо» бом перехода от аналогового (непрерывного) представления, например задаваемого значениями яркостей / (х, у) двухмерного изображения, к некоторому дискретному, т. е. символьному представлению. Замечательным свойством такого преобразования яв- является то, что оно, судя по всему, не сопровождается потерями информации. Это утверж- утверждение еще не доказано [157] и основывается на теореме Б. Ф. Логана [134]. Теорема утверждает, что при выполнении определенных условий сигнал, ширина полосы частот которого составляет одну октаву, может быть полностью восстановлен (с точностью до мультипликативной постоянной) по точкам пересечения нулевого уровня, что иллюст- иллюстрирует рис. 2.19. Хотя доказательство теоремы трудное, оно, в сущности, показывает, что сигнал, ширина полосы частот которого меньше одной октавы, должен пересекать ось х по меньшей мере так же часто, как это должно происходить в соответствии с тре- требованиями теоремы отсчетов1. Применительно к нашим задачам утверждение теоремы Логана, к сожалению, не об- обладает достаточной силой, чтобы на ее основании можно было выступать с какими бы то ни было непосредственными заявлениями о зрении. Эта проблема имеет двойственный характер. Во-первых, применительно к зрению пересечение нулевого уровня происходит в двух измерениях и часто нелегко распространить аргументацию теоремы отсчетов с одномерного случая на двухмерный. Во-вторых, оператор v2 G не представляет, строго а) п п 12 24 о Рис 2.19. Сущность теоремы Логана. Если сигнал после фильтрации не имеет общих ну- нулей с его преобразованием Гильберта, то согласно теореме Логана этот сигнал с точностью до некоторой мультипликативной постоянной определяется исключительно точками пере- пересечения им нулевого уровня. Результат Логана имеет существенное значение для нижне- нижнего уровня обработки зрительной информации в том отношении, что (при соответствую- соответствующих условиях) собственно точки пересечения сигналом нулевого уровня содержат очень важную информацию [157]. a - вероятностный гауссовский сигнал/(х) с ограниченной полосой частот; б — полоса пропускания (в частотной области) идеального однооктавного полосового фильтра; в — результат фильтрации сигнала /(х) 1 В отечественной литературе эта теорема известна как теорема Котельникова или теорема Котельникова — Шеннона. - Прим перев 80
a) б) в) г) Рис. 2.20. Изображение, представленное на рис 2 20, а, свертывается с ч2 G-фильтрами, размеры рецептивных полей которых (^2_д = 2\[Та) равны соответственно 6,12 и 24 пикселам Эти фильтры приблизительно перекрывают диапазон, в котором действуют фильтры, реализуемые в центральной ямке сетчатки глаза человека. Изображения, по- полученные в результате пересечений нулевого уровня, представлены на рис. 2.20, б, в и г соответственно. Обратите внимание на то, сколь тонкие детали выделяет фильтр с наи- наименьшим рецептивным полем. В связи с получением такого набора изображений, по всей очевидности, возникнет следующая проблема каким образом всю эту информа- информацию следует использовать для того, чтобы получить некоторое единое описание9 [150] говоря, однооктавный полосовой фильтр: ширина его полосы пропускания, соответст- соответствующая половине энергии спектра, составляет 1,25 октавы, а чувствительности по уровню 0,5-1,8 октавы. С другой стороны, мы располагаем дополнительной информацией, а именно значениями углов, под которыми кривые, соответствующие сигналу, пересека- пересекают нулевой уровень - они примерно отвечают контрастности конкретного яркостного перехода на изображении. Очевидно, очень трудно аналитически решить эту задачу, од- однако Нисихаре A79] удалось экспериментально получить обнадеживающие подтверж- подтверждения той точки зрения, согласно которой изображение, обработанное с помощью неко- некоторого двухмерного фильтра, поддается восстановлению по его точкам пересечения ну- нулевого уровня и значениям углов этих пересечений Рисунок 2.20 иллюстрирует тот этап, до которого мы дошли в нашем изложении На нем приведены исходное изображение одной из скульптур Хенри Мура1 и вид, который 1 Хенри Мур - выдающийся современный английский скульптор - Прим. перев. 81
оно принимает на выходе трех каналов, осуществляющих фильтрацию на различных масштабных уровнях. Таким образом, на рисунке представлены пересечения нулевого уровня на исходном изображении после того, как оно было обработано с помощью V2 G-фильтров, в случае когда гауссовские части G характеризуются разными пространст- пространственными постоянными Возникает следующий вопрос, что же следует делать со всей этой информацией? Необработанный первоначальный эскиз До сих пор я тщательно избегал употребления терминаяркостный переход, рассматривая обнаружение изменений яркости и их представления с по- помощью ориентированных отрезков пересечений нулевого уровня. Дело в том, что термин яркостный переход отчасти несет определенный физический смысл, например он наводит на мысль о реально существующей границе. До сих пор же речь шла исключительно о нулевых значениях сигнала, появ- появляющихся ьа выходе некоторого набора полосовых фильтров, аппроксими- аппроксимирующих процедуру взятия второй производной. Мы не имеем права говорить о них как о яркостных переходах. Если же основания для этого имеются, следует указать, какие именно. Это различие имеет жизненно важное значе- значение для теории зрения, а возможно, и для теорий других систем восприятия, поскольку краеугольным камнем зрительного восприятия является вывод, позволяющий по структуре изображения судить о структуре реального внеш- внешнего мира. Это как раз и служит предметом теории зрения, и основные ее проблемы связаны с физическими ограничениями и допущениями, обеспечи- обеспечивающими возможность получения указанного вывода. Впервые с такими проблемами мы сталкиваемся в задаче, возникающей в связи с рис. 2.20. а именно: каким образом следует объединять информацию, поступающую по разным каналам? Реально используемые в зрительной систе- системе рабочие полосы частот V С-фильтров отстоят друг от друга на октаву или большую полосу частот, и потому у нас нет априорных оснований считать, что пересечения нулевого уровня, полученные с помощью фильтров с рецептив- рецептивными полями разных размеров, связаны между собой. Существует, однако, физическая причина, благодаря которой они часто действительно связаны. Она является следствием первого из введенных нами в предыдущей главе физических допущений — условия пространственной локализованное™, [150]. Реальный мир располагает следующими источниками, способными породить изменения яркости на изображении: 1) изменения освещения, в том числе теней, источников видимого света и углов освещения; 2) изменения рассто- расстояния от видимых поверхностей до наблюдателя или их ориентации относи- относительно наблюдателя; 3) изменения коэффициентов отражения поверхности. Решающим в данном сдучае является то обстоятельство, что все эти разно- разновидности изменчивости можно считать (каждую по-своему) пространственно локализованными. Если не учитывать специфические дифракционные карти- картины, то нельзя считать, что внешний мир, воспринимаемый зрительно, постро- построен из зыбких, волнообразных пульсаций — непроизводных элементов, прости- простирающихся над некоторой областью, образуя над ней некоторую суммарную картину (сравните с работой [142, с. 169]). В целом наблюдаемый миробразо- 82
ван контурами, складками, царапинами, метками, тенями и оттенками, причем все они пространственно локализованы. Таким образом, отсюда следует, что если различимые пересечения нулевого уровня имеются на изображении, обработанном с помощью V2 (/-фильтра с рецептивным полем некоторого размера, то эти/пересечения должны быть обнаружены в том же месте изобра- изображения после обработки исходного изображениями фильтрами с рецептивны- рецептивными полями любых размеров, больших, чем у первого. Если такое положение не сохраняется при фильтрации с рецептивным полем большего размера, то это может происходить по одной из следующих двух причин: либо два или несколько локальных изменения яркости "объединяются" (их значения усредняются) в канале, соответствующем большему рецептивному полю, либо изменения яркости вызываются двумя независимыми физическими яв- явлениями, возникающими в одной и той же области изображения, но на раз- разных масштабных уровнях. Примером первой ситуации служит узкая полоса, края которой точно локализуются каналами, с малыми рецептивными поля- полями; при использовании же больших рецептивных полей этого не происходит. Подобные ситуации можно распознавать по наличию двух близко располо- расположенных пересечений нулевого уровня при использовании каналов с малыми рецептивными полями. Примером второй ситуации служит наложение тени на участок с резким изменением отражательной способности некоторой по- поверхности, что распознается по смещению пересечений нулевого уровня, полу- получаемых в каналах с большими рецептивными полями, относительно пересече- пересечений нулевого уровня, получаемых в каналах с малыми рецептивными полями. Если тень имеет точно такие же положение и ориентацию, что и соответствую- соответствующий участок поверхности, то позиции точек пересечения нулевого уровня мо- могут оказаться недостаточной информацией для разделения этих двух физи- физических явлений, однако при решении реальных задач такой случай встречается редко. Итак, реальный физический мир налагает ограничения на геометрическую организацию пересечений нулевого уровня, получаемых с помощью каналов с рецептивными полями разных размеров. Мы можем воспользоваться этим обстоятельством, сформулировав допущение о совпадении в пространстве: Если некоторый отрезок пересечений нулевого уровня воспроизводится на выходе ряда независимых каналов V2 G-фильтрации, выполняемой с ре- рецептивными полями близких размеров, причем данный отрезок во всех ка- каналах имеет одни и те же позицию и ориентацию, то наличие набора таких отрезков пересечений нулевого уровня свидетельствует о том, что на изобра- изображении имеется изменение яркости, вызванное каким-то одним физическим явлением (изменением коэффициента отражения поверхности, освещения, глубины или ориентации поверхности). Другими словами, если пересечения нулевого уровня, получаемые от не- независимых каналов с рецептивными полями смежных размеров, совпадают, то их можно относить к одному источнику. Если же пересечения нулевого уровня не совпадают, то они, по всей вероятности, порождаются различными поверхностями или различными физическими явлениями. Это означает, что: 1) минимальное число каналов У2С-фильтрации, необходимое для учета реа- 83
лий физического мира, равно двум; 2) если имеется некоторый диапазон размеров рецептивных полей каналов фильтрации, который достаточно раци- рационально разнесен в частотной области и перекрывает необходимый диапазон частотного спектра, то можно сформулировать правила объединения соот- соответствующих пересечений нулевою уровня в некоторое описание, непроиз- непроизводные элементы которого имеют физический смысл [150]. Хотя такие правила весьма сложны, поскольку они должны учитывать множество частных случаев, общий принцип их построения вполне очевиден. При условии, что пересечения нулевого уровня, соответствующие каналам с большими рецептивными полями, "представляются" тем, что удается обнару- обнаруживать с помощью каналов с меньшими рецептивными полями (либо благо- благодаря наличию взаимно однозначного соответствия этих пересечений с пере- пересечениями нулевого уровня в каналах с меньшими рецептивными полями, либо благодаря тому, что первые являются размытыми усредненными ко- копиями вторых), все эти данные характеризуют физические реальности, кото- которые и составляют приблизительно наблюдаемое по каналам с меньшими ре- рецептивными полями и, быть может, несколько сглаженное в результате сни- снижающего шум и усредняющего воздействия каналов с большими рецептив- рецептивными полями. Для того чтобы определить, имеет ли такое "представление" место в действительности, необходимо выявить те конфигурации, в которых- пересечения нулевого уровня, полученные с помощью каналов с малыми рецептивными полями, расположены близко друг от друга. Дело в том, что при этом каналы с большими рецептивными полями могут "обмануться". Отсюда и вытекает необходимость обнаружения и выделения пространствен- пространственных конфигурации типа узких полос и пятен. Рис 2 21 Необработанный первоначальный набросок, полученный с помощью двух ка- надов —»- а, б — пересечения нулевого уровня для изображения, приведенного на рис. 2.12, е по- помощью фильтров, у которых W2—D Равно 9 и 18 пикселам соответственно; поскольку канал с большим рецептивным полем не дает ни одного пересечения нулевого уровня, которое не соответствовало бы пересечению нулевого уровня, полученному с помощью канала с малым рецептивным полем, расположение яркостных переходов в едином опи- описании также соответствует представленному на рис. 2.21, а; в, г и д — символьное пред- представление признаков, приписанных к местоположениям яркостных переходов, представ- представленным на рис. 2.21, а (в — пятна; г — локальные ориентации отрезков яркостных пере- переходов, д — полосы). Эти диаграммы представляют лишь пространственную информа- информацию, содержащуюся в признаках. Типичными являются следующие полные описания не- непроизводных элементов ПЯТНО ЯРКОСТНЫЙ ПЕРЕХОД ПОЛОСА (ПОЗИЦИЯ 146 21) (ПОЗИЦИЯ 184 23) (ПОЗИЦИЯ 118 134) (ОРИЕНТАЦИЯ 105) (ОРИЕНТАЦИЯ 128) (ОРИЕНТАЦИЯ 128) (КОНТРАСТНОСТЬ 76) (КОНТРАСТНОСТЬ - 25) (КОНТРАСТНОСТЬ - 25) (ДЛИНА 16) (ДЛИНА 25) (ДЛИНА 25) (ШИРИНА 6) (ШИРИНА 4) (ШИРИНА 4) Непроизводные элементы, которые характеризуются этими описаниями, отмечены стрел- стрелками Размещающая способность анализа изображения, приведенного на рис. 2.12, при- примерно соответствует тому, что увидел бы человек, рассматривая его с расстояния около двух метров [150] 84
r> ч V д)
Если же пересечения нулевого уровня, соответствующие каналам с боль- большими рецептивными полями, не представляются теми пересечениями нуле- нулевого уровня, которые выявляются каналами с меньшими рецептивными по- полями, то необходимо ввести новые элементы описания, поскольку каналы с большими рецептивными полями регистрируют воздействия каких-то иных физических явлений. Такие ситуации могут возникать по ряду причин, ска- скажем когда неясная тень или сфокусированная сетка накладываются на рас- расфокусированное изображение ландшафта или когда мы видим, как водяной жук скачет по ряби на поверхности пруда, а водоросли, растущие на его дне, создают расфокусированный фон. Описание изображения, к построению которого ведет такой подход, назы- называют необработанным первоначальным эскизом [150, 84]. В нем используют- используются такие непроизводные элементы, как яркостные переходы, полосы, пятна и концы, причем каждому из них ставятся в соответствие признаки, характери- характеризующие его ориентацию, контрастность, длину, ширину и местоположение на изображении. Соответствующий пример приведен на рис. 2.21. Его можно рассматривать как некоторое бинарное отображение (рис. 2.21, а), опреде- определяющее точное местоположение на изображении отрезков яркостных перехо- переходов и указывающее для каждой точки этих отрезков локальную ориентацию, а также характер и степень изменения яркости (рис. 2.21, г). Непроизводные элементы — пятно (рис. 2.21, в), полоса (рис. 2.21, д) и разрыв (непрерыв- (непрерывности) , или конец, - можно выделять на изображении в явном виде точно таким же образом. Представление некоторой длиной прямой задается, на- например, с помощью конца, нескольких отрезков одинакового направления, за которыми следует другой конец, как это показано на рис. 2.22, а. Ширина, контрастность и направление, вообще говоря, определены для всех точек прямой, хотя с практической точки зрения было бы вполне достаточно зада- задавать эту информацию для соответствующим образом определенного интерва- интервала выборки. Если ширина прямой оказывается больше диаметра w наимень- наименьшего из используемых рецептивных полей, то для каждой из ее сторон строятся независимые описания яркостных переходов. Если линия изгибает- изгибается, ориентация будет постепенно изменяться по ее длине (рис. 2.22,б).Если в некоторой точке линии имеется разрыв непрерывности по ориентации, то его положение определяется некоторым указанием на наличие кониа или раз- разрыва непрерывности (рис. 2.22, в). Необработанный первоначальный эскиз представляет собой очень богатое описание изображения, поскольку содержит, в сущности, все информацию, имеющуюся в пересечениях нулевого уровня, полученных с помощью не- нескольких каналов (двух — в примере, приведенном на рис. 2.21). Важность этого представления заключается в том, что оно является представлением изображения, непроизводные элементы которого с высокой степенью вероят- вероятности непосредственно отражают физическую реальность. Субъективно Вы воспринимаете существование необработанного первона- первоначального эскиза (и полного первоначального эскиза, описанного в разд. 2.5), но не воспринимаете пересечения нулевого уровня, из которых этот перво- первоначальный эскиз построен. Для того чтобы увидеть, что каналы с больши- 86
a) ч\ 6) в) Рис. 2.22. Необработанный первоначальный эскиз, задающий представление прямой в виде конца, нескольких направленных отрезков и второго конца (а). При замене пря- прямой на гладкую кривую направление соответствующих внутренних отрезков будет по- постепенно изменяться (б). Если направление прямой резко изменяется, то ее представле- представление должно включать явное указание о том, что имеется разрыв непрерывности. Следо- Следовательно, при использовании такого представления сохранение гладкости и непрерыв- непрерывности предполагается до тех пор, пока обратное не утверждается в явном виде. • t ,--L-_ri ■i I» "-i-Г1-, i -• •> б) el г} Рис. 2.23. Пример, показывающий, что человек в состоянии воспринимать не собственно пересечения нулевого уровня, а лишь те описания, которые им порождаются в необрабо- необработанном первоначальном эскизе- а — портрет Авраама Линкольна, подвергнутый Л. Д. Хармоном дискретизации и кванто- квантованию (никакие сознательные усилия не позволяют нам увидеть изображение Линколь- Линкольна, если мы только не расфокусируем изображение или как-то не скосим глаза, несмот- несмотря на то, что каналы с большими рецептивными полями обеспечивают получение пересе- пересечений нулевого уровня, дающих приближенное представление изображения лица Лин- Линкольна) ; б, в, г — пересечения нулевого уровня, полученные с помощью оператора y2G с рецептивными полями трех размеров, использованных при обработке изображения на рис. 2.20. ми рецептивными полями сообщают Вашему мозгу, Вам приходится прищу- прищуриваться или каким-либо иным способом расфокусировать изображение. Только так, например, Вы сможете увидеть изображение Авраама Линкольна на его портрете, подвергнутом Л. Д. Хармоном дискретизации и квантова- 87
■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ в ■ ■ ■ ■■■«■■■■■■ ■ ■ ■ ■ ■ ■ ■ ■ I ■ ■ ■ ■ ■ ■ ■ :■ ■ ■ ■ :-:■:■ ■ ■ ■ ■ ■ ■ ■ ■ ■ I ■ ■ ■ ■ ■■■'■ ■ ■ ■ ■ ■ ■ ■- в ■ S: a) 6) в) г) д) \ V N > ч 4. > ч 4^ ~\ 4 4 e) ж) нию (рис. 2.23), и прямые, пересекающие по диагонали шахматную доску (рис. 2.24). Хотя каналы с большими рецептивными полями "видят" эти объекты, как показано на рис. 2.23, то, что они видят, адекватно представля- представляется пересечениями нулевого уровня, получаемыми с помощью каналов с меньшими рецептивными полями. Ситуация, однако, изменяется при удале- 88
Рис 2 24 Вся энергия фурье-спектра изображения шахматной доски (бесконечного раз- размера) приходится на диагонали, а по горизонтали и вертикали она равна нулю Тем не менее можно убедиться в том, что на рис 2 24, а вертикальная, горизонтальная и диаго- диагональная организации в равной степени поддаются наблюдения, в то время как на рис 2 24, 6 диагональные конфигурации выглядят несколько отчетливее остальных. На рис 2 24, в, г и д приведены результаты анализа, основанного на использовании пересечений нуле- нулевого уровня, которые получены с помощью операторов V2 G с рецептивными полями, размер которых ^2—D P1®™ 12, 24 и 48 пикселам соответственно, исходное изображе- изображение состоит из квадратов со стороной, равной 24 пикселам, так что диапазон изменения размера рецептивного поля простирается от половинного до двойного значения длины стороны квадрата В первом столбце приведены результаты использования процедуры свертки Во втором столбце представлены пересечения нулевого уровня, причем значе- значения углов, под которыми эти пересечения происходят, передаются как яркости (поло- (положительный и отрицательный контрасты- яркостями светлого и темного тонов) В треть- третьем столбце все пересечения нулевого уровня имеют одинаковые яркости, и наконец, чет- четвертый столбец содержит поперечные сечения результатов процедуры свертки в окрест- окрестности контуров пересечений нулевого уровня Рис 2 12, ди е иллюстрирует описания, полученные с помощью каналов с рецептивными полями, соответственно много мень- меньших и много больших размера квадрата изображения шахматной доски; эти описания следует сопоставить с тем изображением шахматных досок (рис 2 24, а и б), которые Вы воспринимаете Обратчте, в частности, внимание на то, что пространственная органи- -^ зация изображения на рис 2 24, б воспринимается как диагональная нии частот средней части спектра в результате обработки портрета Линколь- Линкольна. После этой операции процессы, обеспечивающие объединение пересечений нулевого уровня, которые соответствуют каналам разного размера, не обна- обнаруживают связей между тем, что "видят" каналы с меньшими рецептивными полями, и тем, что "видят" каналы с большими рецептивными полями. В ре- результате и те и другие порождают непроизводные элементы необработанного первоначального эскиза Именно поэтому, как установили Хармон и Джулес [76], Вы видите изображение Авраама Линкольна за ясно различимыми квадратами, на которые разделено изображение Первоначальный эскиз пред- предполагает, что информация двух различных типов порождается двумя различ- различными физическими явлениями, и в результате мы видим и то и другое Методологическое отступление Интересно, что зрительная система придает такое значение этому про- пространственному, основанному на использовании физических ограничений подходу Она явно не допускает восприятия необработанных пересечений ну- нулевого уровня как таковых Очевидно, требуются еще и дополнительные дан- данные типа совпадения с пересечениями нулевого уровня, соответствующими другому каналу Считается, кроме того, что пересечения нулевого уровня служат исходной информацией для процесса установления соответствия меж- между изображениями стереопары (см. гл. 3). В этом случае также объединяется исходная информация, поступающая по двум кайалам, но относящимся к разным глазам. Аналогичные положения справедливы и для анализа, осно- основанного на избирательности по направлению движения, которое, очевидно, определяется на уровне пересечений нулевого уровня (см. разд. 3.4). Однако 89
и в этом случае, вероятно, возможность их использования зависит от наличия дополнительной информации — на этот раз, когерентности локальных пере- перемещений в поле зрения. Вывод состоит в том, что собственно пересечения ну- нулевого уровня не являются достаточной информацией. Этот вывод имеет решающее значение для данного подхода в целом, а именно: зрительная систе- система старается иметь дело лишь с физически реальными объектами и для по- построения новых описаний, которые снова допускают физическую интерпре- интерпретацию, используют правила, в основе которых лежат ограничения, определя- определяемые физической структурой реального мира. Это означает, что при формулировании теоретических положений необхо- необходимо проявлять исключительную тщательность, поскольку, судя по всему, природа была чрезвычайно внимательна и точна в процессе развития зритель- зрительной системы человека. В этом отношении очень полезно располагать в качест- качестве основы тремя в явном виде определенными уровнями представления. Сформулировав информационную теорию некоторого процесса, Вы наводи- наводите существенный и конструктивный порядок в соответствующей области. После этого исчезает возможность говорить о некотором механизме, как будто бы имеющем нечто общее с исследуемой задачей, утверждая, что этот механизм действует как соответствующий процесс. Теперь требуется точно установить, что именно действует, и быть готовым привести необходимые до- доказательства. Установление соответствия между изображениями стереопары, например, похоже на множество других процедур, но не идентично ни одной из них. Эта процедура похожа на корреляцию, но не является ею. И если она трактуется как корреляция, то выбранные методы ненадежны. Задача синте- синтеза стереоскопического изображения сводится к установлению соответствия между объектами, имеющими определенные физические прототипы, посколь- поскольку законы физики гарантируют возможность нахождения соответствия лишь между такими объектами, которые являются отображениями некоторых ре- реальных физических объектов, занимающих вполне определенное положение в реальном пространстве материального мира. Для пикселов тонового изо- изображения это условие не выполняется, следовательно, использование корре- корреляции по уровням яркости не дает искомого результата. Аналогичным образом поиск структуры изображения с привлечением представлений, относящихся к нескольким масштабным уровням, проил- проиллюстрированный на рис. 2.7 и рассматриваемый в следующем разделе, имеет сходство с методами фильтрации изображения с помощью различных полосо- полосовых фильтров. Кампбелл, например [31],для определения мелких деталей изображения танка, скажем, его регистрационного номера, предложил ис- использовать фильтр верхних часют, а для получения его общих очертаний, свидетельствующих о том, что на изображении действительно имеется танк,— изображение, пропущенное через фильтр нижних частот. В данном случае дело снова обстоит таким образом, что, как и в случаях корреляции по уров- уровням яркости и стерео пейса, эта концепция, основанная на территории фурье- преобразований, выглядит похожей на искомую, но не является ею. Струк- Структура реального физического мира не дает нам оснований для заключения, скажем, о том, что изображение, пропущенное через фильтр нижних частот, 90
содержит важную информацию о физической и пространственной организа- организации реального мира на этом масштабном уровне. Шахматная доска, изобра- изображенная на рис. 2.24, поможет нам разобраться в том, почему это так. Одна из важных особенностей организации этого изображения заключается в том, что черные и белые квадраты образуют не только строки и столбцы, но и диа- диагонали. Несомненно, использование фильтров, полоса пропускания которых выбрана в низкочастотной области спектра, может дать нам информацию от- относительно диагональной организации изображения, но отнюдь не о горизон- горизонтальной и вертикальной, а механизмы, предназначенные для выделения гори- горизонтальных и вертикальных конфигураций (с помощью введения обобщен- обобщенных признаков-квадратов и установления характера их группировки), обес- обеспечат также и выделение диагональных конфигураций. Таким образом, под- подход, основанный на использовании фильтрации, не является ни необходи- необходимым, ни достаточным. Другой пример связан с рисунком "в елочку", который приведен на рис. 2.2. Вертикальная структура, образованная этими полосами, наглядно де- демонстрирует разновидность пространственной Организации, причем послед- последнюю нельзя выделить методами, основанными на фурье-преобразованиях, поскольку энергия спектра в вертикальном направлении равна нулю. Такая пространственная организация, однако, легко выявляется с помощью мето- методов, реализующих пространственный физический подход; отправной точкой в этом случае служит некоторое представление изменений яркости на исход- исходном изображении, после чего используются процедуры группировки, в кото- которых в качестве основных критериев применяются подобие, пространственная близость и тип конфигураций, которые, требуется получить [145]. Мейхью и Фрисби [164] одними из первых оценили важность этого обстоятельства в экспериментах, по изучению способности человека решать задачи, связанные с различением текстур, и получили дополнительные данные в подтверждение его справедливости. Позже мы еще вернемся к их работе. И наконец, рассмотрим некоторые данные, свидетельствующие о выявле- выявлении на этом этапе концов, и их значение. Я считаю, что сейчас уместно занять- заняться этими данными, поскольку, хотя яркостные переходы, полосы и пятна — это достаточно очевидные объекты, концы имеют существенно более предста- представительный и абстрактный характер. Читателю, таким образом, могут потре- потребоваться дальнейшие доказательства того, что эти объекты действительно по- порождаются на достаточно низком уровне. На рис. 2.25 приведено несколько соответствующих примеров. Мы опреде- определили конец как некоторое нарушение непрерывности ориентации пересече- пересечений нулевого уровня или как точку, в которой заканчивается полоса. На рис. 2.25, а-в представлены примеры случаев, когда концы объединяются и ког- когда трудно предложить метод, позволяющий это установить без определения явно истинных позиций нарушений непрерывности. Еще интереснее рис. 2.25, г [113, рис. 3.6—3], поскольку объекты, соответствие которых устанав- устанавливается в этой стереопаре, представляют собой, очевидно, малые разрывы непрерывности в горизонтальных прямых, причем стереоскопичность для этих изображений сохраняется даже в случае мельчайших нарушений непре- 91
a) б) Рис, 2.25. Примеры выделения концов: а, б — субъективные контуры, построенные при объединении тех точек, в которых линии обрываются; в — точки нарушения непрерывности по направлению, образующие пря- прямую; г — концы или нарушения непрерывности небольших Горизонтальных прямых на изображениях, образующих стереопару (сопоставляются, очевидно, в процессе поиска соответствий, что приводит к получению изображения квадрата, обладающего некото- некоторой глубиной) рывности — менее 20* Таким образом, подобные концы используются не только для стереопсиса (точно так же, как мы субъективно воспринимаем их существование), но, судя по всему, является стандартной практикой даже в тех случаях, когда нарушения непрерывности относятся к диапазону повы- повышенной остроты зрения (меньше размера рецептора сетчатки). Поразитель- Поразительным механизмом является зрительная система человека! 2.3. ПРОСТРАНСТВЕННАЯ ОРГАНИЗАЦИЯ ИЗОБРАЖЕНИЯ Сейчас мы перейдем к проблеме представления пространственных отноше- отношений. До сих пор нас вполне устраивало допущение о том, что каждый объект — каждое пересечение нулевого уровня и каждый элемент описания, входящий в необработанный первоначальный набросок, - характеризуется координата- координатами, определяющими его положение на изображении. При переходе к обработ- обработке на вычислительной машине согласно этому допущению для представления позиционной информации использовалось двоичное отображение изображе- изображения. Это означает, что (как показано на рис. 2.21, а) при появлении любого 92
элемента описания в двухмерном массиве, размеры которого соответствуют размерам отображаемого изображения, определенному элементу приписыва- приписывается значение ". Кроме того, такому элементу массива ставится в соот- соответствие некоторый указатель, связывающий его с реальным описанием не- непроизводного элемента, имеющим вид, аналогичный приведенному в подпи- подписи к рис. 2.21. Как и многие, я обнаружил, что это довольно "механическое" представление изображения, напоминающее топографически структурирован- структурированные проекции, которые используются на начальных участках зрительного пу- пути, является наиболее подходящим для изучения геометрических отношений, действующих на изображении. Дело в том, что набор пространственных отношений, которые необходимо выделить для получения полезной информации из изображения, весьма об- обширен. Кроме того, напомним о нашей общей установке, состоящей в том, что все эти пространствеиные отношения (плотность, коллинеарность, ло- локальная параллельность и т. д.) неявным образом задаются позицией каждо- каждого объекта, точно так же, как двоичное представление числа 37 неявным об- образом содержится в его представлении в виде римского числа XXVII. Если, однако, становятся необходимы коэффициенты представления числа в двоич- двоичной форме, то, следовательно, их придется определять в явном виде, посколь- поскольку это даст возможность воспользоваться представлением числа 37 в виде 100101. В качестве исходного представления изображения удобно использовать двоичное отображение, поскольку оно дает возможность сравнительно прос- просто ограничить объем перебора, скажем, при построении необработанного первоначального эскиза, рассматривая только те элементы, которые пред- представляют для нас интерес. Так, если нас интересует плотность распределения определенных элементов с некоторой ограниченной окружностью окрест- окрестности, то мы просто просматриваем эту окрестность на двоичном отображении изображения. Отыскивая коллинеарные конфигурации, мы выбираем неко- некоторую пару и приступаем к поиску в двоичном отображении изображения по двум направлениям, примерно соответствующим искомой ориентации. Су- Существенной особенностью двоичного отображения является то, что оно из- избавляет нас от необходимости просматривать весь список дискрипторов пер- первоначального эскиза, проверяя значение каждой координаты, с тем чтобы установить, не попадает ли оно в заданную окрестность. Основным преиму- преимуществом эффективности использования буквалистского двоичного отобра- отображения изображения является то, что большая часть пространственных отно- отношений, которые должны оцениваться на предварительном этапе обработки зрительной информации, имеют в основном локальный характер. В случае, когда мы сталкиваемся с произвольно разбросанными точечными конфигу- конфигурациями, двоичное отображение, вероятно, оказывается не более эффектив- эффективным, чем список. Следствия, вытекающие из использования двоичного представления изо-, бражения, нетрудно оценить и применительно к уровню нервных клеток. Ес- Если некоторый нейрон должен измерять плотность распределения характерно- характерного объекта определенного типа в некоторой окрестности заданного размера, 93
то при условии существования какой-то топографической структурирован- структурированности нейронов, представляющих характерные объекты, функции нейрона, определяющего плотность распределения, полностью исчерпываются подсче- подсчетом числа нейронов, представляющих характерные объекты заданного типа и находящихся в возбужденном состоянии. Аналогичным образом, если неко- некоторый нейрон должен измерять степень локального возбуждения, соответст- соответствующего определенному направлению, то при условии существования какой- то топографической структурированности нейронного представления функ- функции "нейрона, определяющего степень возбуждения по некоторому направле- направлению", полностью исчерпываются подсчетом числа нейронов, настроенных примерно на заданное направление, находящихся в возбужденном состоянии и принадлежащих определенной (реальной) окрестности коры. Естественно, если эта реальная окрестность ограничена окружностью, то соответствующая окрестность, выделенная на изображении, будет представлять собой не круг в точности, но его хорошее приближение, чего обычно оказывается вполне достаточно. Причина внимания к этому моменту состоит в том, что многие испытыва- испытывают затруднения, пытаясь привязать понятие такой системы координат (х, у), которую можно использовать при составлении программы для вычислитель- вычислительной машины, к стилю рассуждения того типа, которым следует пользоваться, когда речь идет о нейронах. Я указывал ранее, что установление подобной свя- связи не должно составлять проблемы, и, как я надеюсь, теперь понятно, что при- применительно по меньшей мере к некоторым аспектам локальных геометричес- геометрических свойств изображения концепции, основанные на приближенном топогра- топографическом представлении и локальносвязанньгх рецептивных полях, могут обеспечить механизм, обладающий необходимой мощностью. Теперь перей- перейдем к достаточно точному представлению конкретных локальных геометри- геометрических отношений. Существенным является следующий вопрос: какие пространственные от- отношения важно выявить сейчас и почему? Ответ, естественно, зависит от це- цели, для достижения которой предполагается использовать соответствующее представление. Нашей целью является определение геометрических свойств изображенных поверхностей, причем можно пользоваться физическими допущениями, сформулированными в разд. 2.1, в сочетании с естественными для изображения последствиями изменения глубины и ориентации поверх- поверхностей. Это приводит к следующему перечню признаков изображения, опре- определение которых должно способствовать решению задачи расшифровки гео- геометрических свойств поверхности: 1. Средняя локачьная яркость - р соответствии с первым физическим до- допущением (изменения средней яркости изображения могут вызываться из- изменениями освещения, возможно связанными с изменениями глубины, а также изменениями ориентации поверхности и ее коэффициентов отражения). 2. Средние размеры объектов, расположенных на некоторой поверхности и обладающих подобием в смысле второго и третьего физических допущений (термин "размеры" относится как к длине, так и к ширине). 94
3. Локальная плотность распределения объектов, определенных в связи со вторым признаком изображения. 4. Локальная ориентация (если она существует) объектов, определенных в связи со вторым признаком изображения. 5. Локальные расстояния, поставленные в соответствие пространственно- пространственному размещению подобных объектов (третьей четвертое физические допуще- допущения) , т. е. расстояния между соседними парами подобных объектов. 6. Локальная ориентация, поставленная в соответствие пространственному размещению подобных объектов (третье, четвертое и пятое физические допу- допущения) , т. е. направление прямой, соединяющей соседние пары подобных объектов. С точки зрения представления изображения нам сейчас требуются следую- следующие три общих понятия: 1) обобщенные признаки (характерные объекты изображения) представляют объекты (мы уже убедились в том, что первые являются одной из основ первоначального эскиза); 2) подобие характерных объектов изображения (с ним мы также уже встречались, см., например, рис. 2.3); 3) пространственная организация. Последнее понятие включает два ас- аспекта. Первый, с которым мы уже сталкивались, связан с разнообразными характеристиками плотности распределения, для определения которых мож- можно воспользоваться подсчетом числа объектов в соответствующих окрест- окрестностях. Отсюда вытекают отмеченные выше признаки 3 и 4. Признаки изо- изображения 5 и 6 требуют, однако, привлечения некоторого нового понятия, некоторого нового непроизводного элемента представления, способного по- послужить основой для анализа локальных конфигураций характерных объек- объектов изображения. В этом случае необходимо выделить информацию о рас- расстоянии между двумя подобными характерными объектами изображения и их относительной ориентации. Для этого мы введем новый непроизводный элемент, названный допустимой прямой; она проводится между двумя со- соседними характерными объектами изображения и описывается двумя при- признаками — ориентацией и длиной. Этот непроизводный элемент также неко- некоторым образом описывает способ установления подобия двух характерных элементов изображения, соединенных допустимой прямой; поэтому две до- допустимые прямые, соединяющие попарно характерные объекты изображе- изображения, считаются различными (в смысле нашего третьего физического допуще- допущения), если характерные объекты изображения, входящие в разные пары, не обладают подобием. С точки зрения восприятия допустимые прямые не должны обязательно соответство- соответствовать субъективным контурам, хотя могут являться их предвестниками. В нашей теории это конструкции, которые появляются позже, чем допустимые прямые. Субъективные контуры появляются в 2,5-мерном эскизе, роль которого, в частности, заключается в выявлении нарушений непрерывности в расстояниях, разделяющих наблюдателя и види- видимые поверхности Допустимые же прямые, в свою очередь, связаны с представлением организации изображений, а не поверхностей. Именно они обеспечивают нам возмож- возможность видеть движение на конфигурациях Гласса (см. рис. 2.3) и множество конкуриру- конкурирующих пространственных организаций на рис. 2.5. 95
a) AB AC AE I 1 I I I ll I I I I AD I ill I I I / \ Ч \ „-V-. .1 I I • Г j ' . ' ' '/ / .' \\\ \\\ 'ч /11 •'» ! i •; \ v л n ff) — --w *>v» \ » s N X\V U » * \ ч"~~»_< - --—^ ';' ',', __ ^ --'V'/ Понятие допустимой прямой очень привлекательно с точки зрения информационно- информационного подхода, и Сгивенс [220] обратился к конфигурациям Гласса, с тем чтобы попытать- попытаться в процессе их изучения найти какие-нибудь психофизические доказательства сущест- существования таких прямых, а также разобраться в концепции характерных объектов изобра- изображения - гипотетических объектов, соединяемых, как предполагается, допустимыми прямыми. 96
Рис. 2.26. Алгоритм Стивенса [220], предназначенный для определения структуры локаль- локальных ориентации в конфигурации Гласса, включает три основных шага. Входной инфор- информацией для алгоритма служат введенные на изображении локально-характерные объек- объекты, каждый из которых обрабатывается алгоритмом Стивенса параллельно. Поскольку в случае точечных конфигураций Гласса каждая точка порождает локально-характерный объект изображения, первый шаг алгоритма посвящается построению допустимых пря- прямых, связывающих некоторую заданную точку со всеми соседними точками (лежащими в пределах некоторой окрестности с центром в заданной точке). Всякая допустимая прямая представляет местоположение и ориентацию некоторой пары соседних точек, а также расстояние между ними. Для того чтобы подчеркнуть приоритет более близких соседних точек, с помощью какой-либо простой весовой функции более коротким до- допустимым прямым приписываются большие веса. Второй шаг алгоритма предусматри- предусматривает построение гистограммы оприентаций допустимых прямых, проведенных из всех соседних точек. Так, в частности, соседняя точка D вносит в гистограмму ориентацию допустимых прямых AD, DF, DG и Ш. На последнем шаге (он осуществляется после сглаживания гистограммы) определяется ориентация, которой соответствует пик гисто- гистограммы, и выбирается допустимая прямая, ориентация которой оказывается наиболее близкой к "ориентации" пика гистограммы (АВ); этот выбор и является результатом работы алгоритма (а). На рисунках, помещенных справа, приведены результаты приме- -ч— нения алгоритма к конфигурациям, помещенным слева (б) Исследование, выполненное Стивенсом, оказалось исключительно интересным, по- поскольку в рамках одной небольшой экспериментальной работы ему удалось получить семь замечательных результатов. Среди них несколько совершенно неожиданных: 1. Организацию локальных ориентации в конфигурации Гласса можно выявить с по- помощью сугубо локального алгоритма, проиллюстрированного рис. 2.26. Его основная идея заключается в том, что соседние точки соединяются допустимыми прямыми, после чего с целью выявления преобладающей организации на последних начинается локаль- локальный поиск. Разделив конфигурации на несколько частей, каждая из которых подверга- подвергалась отличному от других преобразованию (рис. 2.27), Стивене показал, что восприятие целостного гештальта, в отличие от предположения Гласса [62], не является необходи- необходимым условием определения локальной ориентации. 2. Если анализ, выполняемый нами в процессе восприятия, зависит, подобно алгорит- алгоритму Стивенса, от оценки распределения ориентации допустимых прямых, соединяющих между собой точки соответствующей конфигурации, то допустимые прямые строятся лишь между соседними точками. Происходит это по двум причинам. Первая из них, и более очевидная, заключается в том, что преобладающая локальная ориентация изменя- изменяется при глобальном просмотре изображения. Вторая, и не столь очевидная, причина состоит в том, что чем больше допустимых прямых проводится из каждой точки, тем более случайным становится локальное распределение ориентации и, следовательно, тем точнее необходимо определять участки гистограммы распределения локальных ориента- ориентации, которые используются для выделения преобладающей локальной ориентации. Если последняя определяется с точностью до 10—15°, то из каждой точки в среднем можно проводить не более четырех допустимых прямых. Стивене установил, кроме того, что требуется проводить более одной допустимой прямой, а в частном сообщении указал, что достаточно проводить лишь по две допустимые прямые из каждой точки. 3. Эта закономерность сохраняет линейность в диапазоне значений плотностей, соот- соответствующих их изменению на два порядка. 4. Примеры типа приведенного на рис. 2.28 свидетельствуют в пользу концепции, согласно которой допустимые прямые связывают абстрактные характерные объекты 97
* . * • • "■'!*• ** "*. v • *•»•*." . ■ *• ••■ •• •"« •; ; '. '• .'..:•'.'. ■ •':'*•:":/;••;:; ■•'• '• •. -.-.' ■••• • * • ' • • • * " • • ■ • * J • * * • • • * • • * • • • ■ • I • ч ••• ' с -• '■ Рис. 2.27. Согласно данной конфигурации алгоритм, используемый зрительной систе- системой человека для выявления структуры локальных ориентации, также имеет ло- локальный характер. Отдельные части этой конфигурации обладают различными структурами локальных ориентации, что отчетливо видно на изображении B2OJ Рис. 2.28. Как следует из рис. 2.3, для того, чтобы простанственная организация про- проявлялась при наложении двух конфигура- конфигураций, совершенно не обязательна тождест- тождественность характерных объектов, образую- образующих конфигурации. Тем не менее эти объ- объекты должны обладать определенным по- подобием [2201 изображения, вводимые различными способами. На этом рисунке одно из точечных мно- множеств заменено малыми прямыми, ориентация которых задана случайным образом. 5. Однако, для того чтобы анализ увенчался успехом, характерные объекты изобра- изображения действительно должны в разумной степени обладать сходством — на нашем языке таким, чтобы можно было проводить допустимые прямые (см. рис. 2.3, 164J). В собст- собственном примере Стивенса, иллюстрирующем это и описанном в разд. 2.1, рассматривает- рассматривается наложение трех точечных конфигураций - двух, образованных тусклыми точками, и одной — яркими. На изображении мы видим лишь организацию, представляемую туск- тусклыми точками. Это свидетельствует как в пользу принципа использования характерных объектов изображения, так и в пользу концепции подобия и служит доказательством того, что даже на столь ранней стадии (для того чтобы "увидеть" конфигурацию Гласса, требуется менее 80 мс, даже при предъявлении случайных точечных конфигураций не- непосредственно до и после опознания конфигурации) анализ изображения осуществляет- осуществляется на достаточно формализованном уровне. 6. Интересно отметить, что при замене коротких отрезков со случайной ориентацией, представленных на рис 2.28, короткими отрезками с некоторой одинаковой ориентаци- ориентацией (как это имеет место на рис. 2.29) возникает конкуренция между ориентациями, определяемыми в целом короткими отрезками и структурой конфигурации Гласса, - на нашем языке между ориентациями реально существующих и допустимых прямых. Это обстоятельство отражает степень использования и уровень организации глобального анализа изображения. 7. И наконец, Стивене показал, что в нашем восприятии таких конфигураций гисте- гистерезис проявляется лишь в небольшой степени либо вообще не проявляется. Момент, когда пространственная организация перестает восприниматься из-за разделения конфи- конфигураций, очень близок к моменту, когда восприятие пространственной организации вос- восстанавливается благодаря совмещению конфигураций. Этот результат показался нам странным, а причиной этого послужил тот факт, что Фендер и Джулес продемонстриро- 98
. ч ч -V Рис. 2.29. В данном случае наложенная конфигу- ч. ч. ч. • рация образована короткими отрезками, имею- ч- ч~ "' »• v>- j ч ч \ " щими одну и ту же ориентацию. Интересно от- ' ч'»- х* ' ч. ^! Хч ^ метить, что видна своего рода конкуренция этой ч'*'. у ч ч. ч v ^ ориентации и ориентации, порожденной прост- N'o " д°. v^. ч> ч" чч N ч ч ': ранственной организацией конфигурации [220] \.*\- •* ч-.!• ." ч. ч • » вали наличие сильного гистерезиса в стереопсисе \ ч- ч- ; [47]. Последнее привело Поджо и меня к идее *\ « ч. применения кооперативного алгоритма для ре- • ; шения задачи установления соответствия между ; - изображениями стереопары. Тогда и возникла идея использовать кооперативные процессы в . *. качестве способа записи алгоритма непосредст- непосредственно по ограничениям (см. также отчет Цакера [2б1]). Она казалась очень привлека- привлекательной. Задача, связанная с конфигурациями Гласса, казалась бы, прекрасно подходила для применения кооперативного подхода, в основу которого положены условия единст- единственности и непрерывности локальной ориентации. Ив результатов же Стивенса следова- следовало, однако, что в системе зрительного восприятия человека для решения этой задачи ко- кооперативный подход, очевидно, не используется. Очень быстро мы тоже поняли, что наш алгоритм синтеза стереопары не является тем алгоритмом, который используется в зрительной системе человека, а установление соответствия между изображениями стерео- стереопары, вероятно, обеспечивается с помощью некоторого алгоритма, использующего ко- кооперацию в очень незначительной степени. Таким образом, постепенно сформировалась точка зрения, согласно которой в зрительной системе человека кооперативные или стро- строго итеративные алгоритмы не применяются, если этого можно избежать. Ниже мы рас- рассмотрим несколько возможных причин. Работа Стивенса позволила нам почувствовать себя несколько увереннее как в связи с теми вопросами, которые у нас возникли, так и в связи с неко- некоторыми деталями, относящимися к первоначальному эскизу. Примерно в это же время Шац [210] выступил с утверждением, что для объяснения процесса различения текстур вполне достаточно необработанного первоначального эс- эскиза и допустимых прямых. Это утверждение, однако, оказалось неверным, и для того чтобы понять, почему необходимо обратиться к уровням, на кото- которых представление изображения имеет более сложный характер; мы называ- называем его полным первоначальным эскизом. 2.4. ИСТОЧНИКИ СВЕТА И ПРОЗРАЧНОСТЬ Хотя главная нить нашего изложения связана с пространственной органи- организацией изображения и видимых поверхностей, важно не упускать из вида, что человек воспринимает также и другие существенные физические свойст- свойства видимого мира. Одно из них имеет отношение к обнаружению источников света— флуоресценции. Важным вкладом в изучение обнаружения зрительной системой источников света явилась чрезвычайно элегантная работа Уллмана [234]. Он рассмотрел шесть методов, которые могли бы использоваться в зрительной системе при обнаружении источников 99
Рис. 2.30. Мондрианов раздражитель типа предложенного Ландом и Макканном и исполь- использованного Уллманом при изучении флуоресценции света, и исследовал их экспериментально с помощью ахроматических мондриановых раздражителей типа предложенного Ландом и Макканном [129] для изучения освещен- освещенности. Это раздражители, название которых связано с именем художника Пита Мондриа- на1, представляют собой некоторую совокупность черных, серых и белых прямоуголь- прямоугольников (типа приведенной на рис. 2.30). В экспериментах Уллмана один из этих прямо- прямоугольников иногда служил источником света. Уллман рассмотрел методы обнаружения источника света на основе максимальной яр- яркости в некотором поле, высоких абсолютных значений яркости, высоких значений яр- яркости по сравнению со средней яркостью поля, высокой контрастности и некоторых 1 Мондриан Пит A872-1944), нидерландский живописец, один из основателей груп- группы "Стиль", создатель неопластицизма - абстрактных композиций из прямоугольных фигур, окрашенных в основные цвета спектра. - Прим. перев. 100
/ м Рис. 2.31. Иллюстрация принципа, лежащего в основе обнаружения источников света зрительной системой. Коэффициенты отражения участков поверхности А и В равны г , и г , соответственно; им соответствуют определенные значения яркости/. Яркость /и ее градиент V/изменяются одинаково при переходе с участка А на участок В, так что в результате отношение 7///остается постоянным. На участке С, однако, появляется ис- источник света 5. Это вызывает изменение яркости / и не вызывает изменения VI, как по- показано на графике. Таким образом, значение отношения VI/I изменяется на границе ис- источника. Это обстоятельство может использоваться для обнаружения источников света на мондриановых изображениях других параметров. Он обнаружил, что ни один из этих факторов не является необходи- необходимым условием для восприятия некоторого источника света, хотя коэффициент конт- контрастности, составляющий около 30:1, действительно является достаточным. Высокая контрастность, однако, не является необходимой — так, в частности, источник света воспринимается в мондриановом раздражителе, у которого ни в одной точке отношение значений яркости не превышает 3:1. После этого Уллман предложил метод, основанный на идее, проиллюстрированной рис. 2.31. На этом рисунке ось х соответствует длине некоторой поверхности, освещае- освещаемой справа и состоящей из трех участков: А, В и С. На участке А коэффициент отраже- отражения поверхности равен г t, а на участках В и С гг < г 1; на участке С, кроме того, под поверхностью находится источник света. На поверхность направлена камера, регистри- регистрирующая яркость/ в различных точках изображения (см. рис. 2.31). В основе метода Уллмана лежит следующая идея. На границе участков А и В яркость /изменяется, и, помимо этого, изменяется градиент яркости V/. Однако, поскольку из- изменения этих величин одинаковы, отношение V /// остается постоянным. Другая ситуа- ситуация наблюдается на границе участков В и С: здесь к яркости /добавляется яркость S постоянного источника света. В результате / изменяется, а градиент яркости не изменя- изменяется. Отсюда изменяется и отношение 7///. Итак, отношение V/// изменяется при пере- пересечении границы источника света, но не изменяется при пересечении границы, на кото- которой коэффициент отражения поверхности варьируется. 101
Другие эффекты, связанные с источниками света Форбас [48] предложил применять оператор V///H в других ситуациях, связанных с освещением (в том числе для обнаружения теней и различных эффектов, порождаемых влажностью, блеском и глянцевитостью поверхности) и столь сильно озадачивших Бека {15] и Эванса [45]. Так, в отношении оператора V/// границы тени оказываются анало- аналогичными границам источника света. К тому же они часто, хотя и не всегда, являются менее четкими, чем границы поверхности или границы, на которых происходит измене- изменение коэффициента отражения поверхности, поскольку на тенях яркость редко изменяет- изменяется резко. Это можно установить, сравнив углы, под которыми происходят соответст- соответствующие пересечения нулевого уровня, определенные с помощью У2С-фильтров с рецеп- рецептивными полями разных размеров, и характеристика пространственной протяженно». iH изменения яркости фактически будет входить в необработанный первоначальный эскиз как параметр ширины, связанный с яркостным переходом. Глянцевитость порождается составляющей функции отражательной способности, об- обусловленной зеркально отраженным светом, поэтому обнаружение глянца можно рас- рассматривать, в сущности, как обнаружение источников света, возникающих при отраже- отражении от некоторой поверхности {15 ], а такое обнаружение в конечном счете определяется способностью обнаруживать источники света. Форбас выделил три случая: 1) отражатель-1 ная способность слишком мала, что исключает возможность измерения градиентов; 2) возможны измерения как яркости, так и ее градиента, однако отражательная способ- способность имеет локальный характер (как и для криволинейных поверхностей и точечных источников) ; 3) поверхность - плоская, а источник света — протяженный. Для каждого из этих случаев Форбас предложил критерии принятия решения. Такая проблема, как обнаружение теней и собственно источников света, заслуживает дальнейшего изучения. Дело в том, что изменения только ориентации поверхности мо- могут тоже вызвать изменение отношения V ///,хотя для того, чтобы оно стало заметным, ориентация, как правило, должна изменяться существенно. Это означает, что отношение V ///нельзя использовать в качестве единственного критерия принятия решения относи- относительно эффектов, порождаемых освещением, совершенно не учитывая изменений ориен- ориентации поверхностей. Предварительные исследования позволили нам установить, что, хо- хотя в естественных изображениях и удается обнаруживать и измерять изменения отноше- отношения V///, вызванные исключительно изменениями ориентации поверхности, в основном подобные изменения малы. Если же синтезируется искусственное изображение, на кото- котором отношение V/// немного меняется при пересечении некоторой границы, это измене- изменение не воспринимается как результат изменения ориентации. В сущности, человек не за- замечает ничего до тех пор, пока изменение не становится достаточно значительным, а после этого он начинает воспринимать одну из областей как некоторый источник света. Прозрачность Еще одним интересным явлением оказалась прозрачность, к которой многие прояв- проявляют заметное внимание. Примером, в частности, служит статья Мителли в журнале Scientific American1 [166], в которой он показал, что человек может воспринимать про- прозрачность при выполнении некоторого набора неравенств, связывающих значения яр- яркостей изображения. Как и следовало ожидать, неравенства Мителли можно записать исходя из физичес- физических соображений. Пусть коэффициент отражения некоторой поверхности изменяется от 1 Этот журнал в переводе на русский язык выходит с 1983 года под названием "В мире науки". - Прим. перев. 102
Рис. 2.32.а-граница, на которой происходит изменение значения коэффициента отраже- отражения поверхности, и /3-граница, на которой происходит изменение прозрачности; /^ - зна- значения коэффициентов отражения; Lj - значения освещенности; Ц; - измеренные значе- значения яркости (для /, / = 1,2) г, до г 2 при переходе через некоторую границу (на всем ее протяжении) и на поверх- поверхность наложена полоса, как это показано на рис. 2.32. Освещенность при отсутствии по- полосы равна i, и соответственно L l — при ее наложении (после двукратного ослабле- ослабления) . Очевидно, что если яркость в каждом квадрате составляет, как это показано на рисунке, iu, il2, i21 и i22 соответственно, то можно записать следующие соотношения: '21 '12 '22 '21 '22 Эти соотношения, связывающие значения яркости, справедливы как для границ прозрач- прозрачности, так и для границ тени, они не выполняются при произвольном изменении коэф- коэффициента отражения в четырех направлениях. Однако в отличие от границ тени границы, на которых изменяется прозрачность, почти всегда являются четкими (их "ширина" равна нулю) и они не порождают изменений отношения V /// Выводы Результаты упоминавшихся выше исследований хотя и неполны, но позво- позволяют прийти к заключению о том, что даже столь сложные для достижения свойства реального мира, как флуоресценция и прозрачность, поддаются вос- 103
приятию благодаря соответствующим процессам, действующим независимо на нижнем уровне зрения человека. Применительно к представлению изобра- изображений это означает, что можно рассчитывать на использование этих оптичес- оптических эффектов при предварительной обработке изображений в зрительной системе, например, так, как это делалось в случае границ, включаемых в первоначальный эскиз. Для их представления требуются дополнительные не- непроизводные элементы, однако в этой связи существенных затруднений не возникает. Было бы интересно выяснить, какие еще свойства видимого мира поддаются обнаружению на таких предварительных этапах обработки изобра- изображений. 2.5. ПРОЦЕССЫ КЛАССИФИКАЦИИ И ПОЛНЫЙ ПЕРВОНАЧАЛЬНЫЙ ЭСКИЗ Подведем итоги проведенного выше анализа пространственной организа- организации изображений. Выделим две основные цели этого анализа: 1) построение характерных объектов изображения, отражающих крупномасштабную струк- структуру функции отражательной способности поверхности; 2) обнаружение различных типов изменений значений измеряемых параметров, связанных с указанными выше характерными объектами изображения и полезных с точ- точки зрения выявления изменений ориентации видимых поверхностей относи- относительно наблюдателя и изменений расстояний, их разделяющих. Грубо говоря, цели анализа заключаются в построении характерных объектов изображения и установлении границ. Решение обеих задач требует обращения к процессам отбора, обеспечивающим реализацию запрета на объединение характерных объектов изображения, очень сильно различающихся между собой, а также к процессам классификации и различения, обеспечивающим объединение при- приблизительно одинаковых характерных объектов изображения в укрупненные характерные объекты изображения и установление границ между множества- множествами характерных объектов изображения, имеющих какие-либо различия. Следовательно, этот подход, вообще говоря, сводится к практически ре- рекурсивному построению непроизводных элементов описания изображения. Исходные данные, которые являются отправной точкой для всей дальнейшей обработки и анализа, представляют собой описание, составленное из непроиз- непроизводных элементов, выделенных на изображении. Это описание мы называем необработанным первоначальным эскизом. Вначале из него выбираются эле- элементы, обладающие некоторым подобием. Далее они подвергаются группи- группировке и классификации, в результате чего из них строятся прямые, кривые, пятна больших, чем исходные элементы, размеров, группы и небольшие участки, причем возможности формирования новых объектов определяются внутренней структурой изображения. Многократное повторение этой процеду- процедуры приводит к получению на каждом масштабном уровне характерных объ- объектов и непроизводных элементов изображения, отражающих пространствен- пространственную структуру изображения, присущую соответствующему масштабному уровню. Так, если изображение представляет собой крупный план кота, то необработанный первоначальный эскиз может служить источником описаний, относящихся в основном к масштабному уровню, соответствующему отдель- отдельным волоскам кошачьей шубки. На следующем уровне могут появиться от- 104
метаны, имеющиеся на этой шубке (они также поддаются непосредственно- непосредственному обнаружению при анализе изменений яркости), а на очередном (по на- направлению "вверх") уровне проявляется структура этих отметин на шубке, образованная параллельными полосками. В таком случае в целом организа- организация описания будет примерно соответствовать представлению, приведенному на рис. 2.7. Непроизводные элементы, используемые на каждом шаге, — это символьные объекты, обладающие качественным подобием (яркостные пере- переходы, полосы, пятна, обрывы и нарушения непрерывности), однако на каж- каждом очередном шаге они отражают все большую степень формализации при- признаков изображения. Несколько примеров подобных непроизводных элементов приведено на рис. 2.7. Другими примерами служат напоминающие пятна группы, располо- расположенные в середине изображений (рис. 2.33, а и 6), небольшие кластеры (рис. 2.33, виг), набор довольно однородных объектов, образующих на изо- изображении группы (рис. 2.33, д), стороны квадратов (рис. 2.33, е и ж) и пря- прямая, проходящая по середине изображения (рис. 2.33, з). Разнообразные ло- локальные кластеры, пятна, группы, а также возможность рассматривать каж- каждый из них как некий единый объект — вот плоды, приносимые обращением к процессам указанного класса, обеспечивающим формирование характер- характерных объектов изображения. Представления углов, образуемых двумя пря- прямыми в трехмерном пространстве, как и квадрата или треугольника, не вхо- входят в арсенал первоначального эскиза, поскольку они отражают свойства реального мира, порождающего изображение, но не свойства собственно изо- изображения. После того как эти непроизводные элементы построены, их можно исполь- использовать для получения информации о геометрических свойствах видимых по- поверхностей либо с помощью обнаружения изменений отражательной способ- способности поверхностей, либо с помощью обнаружения изменений, причиной ко- которых могли бы явиться нарушения непрерывности ориентации поверхнос- поверхностей или глубины. Нам практически нечего сказать относительно обнаружения изменения первого типа — можно лишь заметить, что при возникновении какого-либо изменения на поверхности ее функция отражения обычно изме- изменяется очень существенно, и измерение чуть ли не любой характеристики по- позволит обнаружить изменение. Поэтому сосредоточим внимание на обнаруже- обнаружении изменений второго типа. Известны два совершенно различных способа, позволяющие выделить такие границы. Первый предусматривает определе- определение наборов характерных элементов изображения, отражающих возникнове- возникновение физических нарушений непрерывности, в связи с чем геометрическая ор- организация характерных объектов соответствует физическим особенностям этих нарушений непрерывности. Примером возникновения подобной геомет- геометрической организации может служить пространственное упорядочение кон- концов (нарушений непрерывности), проиллюстрированное рис. 2.25,а и б. Ме- Механизм, обеспечивающий выделение таких геометрических структур, как я полагаю, позволяет нам также видеть и окружности на рис. 2.33, а—г и пря- прямую на рис. 2.33, д. Второй способ выделения нарушений непрерывности поверхности предус- 105
• w • I 6) в) \'i \\ о S г) d) \JIIIIIIIIIIIL/ 7! 1Г\ Г ~] L J e) ж) 3) Рис. 2.33. Сущность обобщенных непроизводных элементов первоначального эскиза за- заключается в том, что они обеспечивают возможность представлять весьма разнообраз- разнообразные объекты изображения в качестве некоторой группы или характерного объекта изо- изображения, а также в том, что их можно объединять в группы и из них можно формиро- формировать границы. На рисунке приведены примеры, иллюстрирующие различные способы задания локально-характерных объектов и объединения их в группы. В каждом из при- приводимых примеров короткая прямая, некоторая группа прямых, а также некоторая группа точек после о&ьединения в группу рассматриваются как некоторый единый объект матривает анализ нарушений непрерывности значений различных параметров, описывающих пространственную структуру изображения. В предпоследнем разделе мы выделили шесть признаков изображения, которые могут оказать- оказаться полезными. Три из них — средняя яркость, размеры (в качестве них могут использоваться длина и ширина) и ориентация — связаны со свойствами ха- характерного объекта изображения, другие три — их локальная плотность, рас- расстояние между ними и структура ориентации (если таковая имеется), прису- присущая их пространственному расположению, — с пространственным расположе- расположением характерных объектов изображения. Изменение значения любого из указанных признаков может быть нами использовано для определения гео- 106
a) \::;?ffi:m^\iS;i-i г) Рис. 2.34. Еще одной важной особенностью первоначального эскиза являются границы между областями, проводимые на основе данных, которые могут отражать возникнове- возникновение нарушений непрерывности ориентации поверхностей, или на основе расстояния, от- отделяющего их от наблюдателя. Все примеры, приведенные на данном рисунке, предло- предложены М. Райли. Здесь представлены источники психофизического порождения границ в указанном в тексте смысле. Границы, представленные на рис. 2.34, а-в, могут возни- возникать из-за действия геометрических факторов, однако дело обстоит иначе в случае гра- границы, приведенной на рис. 2.34, г. Между границами, показанными на рис. 2.34, дне, можно установить соответствие с точностью до переноса метрических свойств видимых поверхностей, и в соответствии с нашим вторым физическим допущением следует стараться измерять подобные изме- изменения на различных масштабных уровнях. Примеры таких критериев приведены на рис. 2.34. На рис. 2.34, а изобра- изображена граница, возникшая из-за изменения плотности расположения точек. На рис. 2.34, б граница порождена изменением среднего размера квадратов. На рис. 2.34, в граница появилась вследствие изменения ориентации на 45°. Результаты одновременного изменения нескольких факторов представлены на рис. 2.34, г. Таким образом, суть второго способа состоит в измерении локальных значений (на различных масштабных уровнях) шести определенных выше величин и выделении с помощью некоторого набора непроизводных элемен- элементов границы или непроизводных элементов яркостного перехода нарушений непрерывности значений измерявшихся признаков. Смысл ввода таких гра- границ в представление изображения заключается в том, что они могут послу- послужить источником существенных данных относительно расположения наруше- 107
в) г) Рис 2 35 На этих рисунках, предложенных М Райли, представлены текстурные разли- различия, которые не могут быть порождены исключительно геометрическими факторами Они не могут являться источником психофизического порождения границ в указанном в тексте смысле, несмотря на то, что иногда мы в состоянии указать на то, что одна область некоторым образом отличается от другой В примере, приведенном на рис 2 35, г, внутренняя область содержит прямые, ориентированные только в двух направлениях, в то время как внешняя область заполнена прямыми с различными ориентациями Инте- Интересно сопоставить эти примеры с примерами, приведенными на рис 2 34 ний непрерывности поверхности. Это замечание имеет одно важное следст- следствие, а именно параметр, значение которого изменяется таким образом, что ве- вероятность возникновения этих изменений в результате нарушений непрерыв- непрерывности поверхности кажется высокой, очевидно, отражает изменения, порожда- порождающие наблюдаемую границу, с другой стороны, те изменения, которые можно лишь с весьма малой вероятностью связать с геометрическими факторами, вряд ли соответствуют тем источникам, которые могли бы породить вос- воспринимаемые границы. Я называю это положение гипотезой геометрическо- геометрического происхождения воспринимаемых границ на текстурных изображениях Принципиальным ограничением ее конструктивности служит то, что функции отражения редко имеют четкую геометрическую структуру Так, если ориен- ориентация некоторого элемента соответствует структуре поверхности, то обычно это соответствие не является особенно точным Следовательно, небольшие изменения ориентации на изображении, которые могут появиться в резуль- результате небольших изменений ориентации поверхности, обычно не порождают 108
четкого сигнала. То же самое относится и к изменениям размеров объектов на изображении, хотя плотность расположения обеспечивает более тонкое различение Итак, лишь в тех случаях, когда структура изображения отлича- отличается чрезвычайно высокой степенью регулярности, можно рассчитывать на высокую остроту восприятия этих различий. Вообще говоря, мы должны вос- воспринимать их достаточно плохо, что на самом деле и происходит (рис 2.35). Прежде чем подвести итоги, я бы хотел сделать еще одно заключительное замечание Хотя и удобно разделить процессы группировки на два класса — формирование характерных объектов изображения и формирование границ соответственно, - эти процессы на самом деле не столь уж независимы и классы могут пересекаться Так, на рис 2 7, например, часть границ сгуще- сгущений точек является границами характерных объектов изображения. Послед- Последние могут быть сформированы с помощью таких границ либо на основе кластера, содержащего соответствующую группу точек, либо обоими спосо- способами. Треугольник, изображенный на рис. 2 34, а, можно формировать, вы- выстраивая в линию соседние точки и ориентируясь при этом по локальному росту плотности расположения точек или даже по локальному уменьшению средней яркости Отдельная граница часто определяется многими способа- способами — свойство живых организмов способствует ее обнаружению зрительной системой, но порождает трудности для специалистов в области эксперимен- экспериментальной психофизики. Основные тезисы доказательства Идея состоит в том, что строится необработанный первоначальный эскиз, который рассматривается как исходное представление изображения Затем после применения к нему процессов выбора, группировки и классификации формируются характерные объекты изображения, допустимые прямые и границы, причем все это делается на различных масштабных уровнях Изло- Изложенный нами подход служит основанием для использования такой процеду- процедуры. Он позволяет установить, какие типы характерных объектов изображе- изображения следует ввести, какие разновидности процедур выбора и группировки следует использовать, какие условия должны приводить к порождению вос- воспринимаемых границ и какие не должны и даже, возможно, каким образом следует сопоставлять различия в остроте восприятия, соответствующие раз- разным разделяющим признакам Так, в тех случаях, когда размер характерно- характерного объекта изображения рассматривается как разделительный признак, отра- отражающий изменения ориентации поверхности, разрешение по размеру харак- характерного объекта изображения должно быть сопоставимо с разрешением по ориентации характерного объекта изображения Эти соображения составляют физическую основу допущения, согласно которому некоторые процедуры распознавания зрительной системой текстур базируются на процессах распо- распознавания, разделяющих статистические характеристики первого порядка и реа- реализуемых на первоначальном эскизе [145] Перейдем к более подробному обсуждению этой проблемы 109
Информационный подход и психофизические аспекты распознавания текстур Строго с точки зрения психофизики трудно точно определить, что именно означает словосочетание распознавание текстур. В своей широко известной серии статей, посвященной этой проблеме, Б. Джулес (см., например, [114]) ввел разделение на текстуры, допускающие мгновенное разделение (так на- называемое мгновенное восприятие), и текстуры, не поддающиеся разделению без тщательного и часто продолжительного изучения (так называемое вос- восприятие-изучение) . Он ограничился изучением распознавания текстур перво- первого типа, т. е. таких, которые удается разделить за время, не превышающее 200 мс (грубо говоря, речь идет о текстурах, распознаваемых без движения глаз). Вероятно, следует отметить, что подход, предлагаемый мною, ограничен в еще большей степени, так как включает требование формирования воспри- воспринимаемых границ там, где проходят границы, разделяющие текстуры. Этому условию удовлетворяют не все текстуры, предложенные Джулесом. В част- частности, ему не удовлетворяет ни один из приведенных на рис. 2.35 примеров; в то же время все примеры рис. 2.34 соответствуют этому требованию. Сле- Следовательно, в психофизическом смысле наш подход предусматривает быст- быстроту распознавания (скажем, менее чем за 160 мс) и получение явной зри- зрительно различимой границы. Известны различные критерии, реализующие второе требование. Один из них помимо возможности устанавливать наличие двух текстур в использовавшихся Джулесом текстурных изображениях (ти- (типа приведенных на рис. 2.34) предусматривает возможность получения ин- информации о форме выделенной области. Шац, например, включил это усло- условие в один из своих экспериментальных критериев [210]. Другая возможность, о которой сообщил мне С. Уллман, состоит в том, чтобы попытаться получить видимое движение границ текстур, определенных различными способами и представленных на двух отдельных кадрах. Первым кздром может служить, скажем, рис. 2.34, д, а вторым, предъявляемым после некоторого промежутка времени, например 100 мс, — рис. 2.34, е. Если у испытуемого возникает отчетливое впечатление, что границы перемещают- перемещаются, это служит свидетельством, подтверждающим установление границ. Если же границы подчиняются тем же правилам локального соответствия, кото- которым удовлетворяют яркостные границы [238], то это является очень важ- важным доказательством того, что границы действительно выделены. Примеры, приведенные на рис. 2.34, удовлетворяют критерию получения информации о форме и критерию видимого движения. Третий критерий зрительной различимости границы можно, вероятно, вы- вывести из результатов, полученных Киддом, Фриоби иМейхью [120]. Исполь- Используя соответствующие стереоскопические изображения, они установили, что некоторые типы границ текстур могут вызывать дизъюнктивные движения глаз, при которых две прямые, находящиеся в поле зрения, начинают сходить- сходиться или расходиться. Если все эти критерии одновременно дают положительные или отрицатель- отрицательно
ные результаты для различных типов границ, то это означает, что мы распола- располагаем мощным инструментом, позволяющим устанавливать факт построения зрительно различимой границы, порожденной некоторым изменением на рас- рассматриваемой текстуре. Кроме того, аналогичные комбинированные методы могут оказаться полезными для того, чтобы определить, действительно ли исходя из типов характерных объектов изображения, выделенных с помощью мгновенного восприятия из изображения, получено нечто вроде полного первоначального эскиза. И наконец, как мне кажется, психофизические исследования сравнитель- сравнительной разделяющей мощности различных процессов распознавания наиболь- наибольшую убедительность могут приобрести при использовании в них критериев типа абсолютных оценок эффективности, предложенных Барлоу [10]. Это исследование Барлоу посвятил изучению чувствительности, доступной чело- человеку при обнаружении целей, представляющих собой множества плотно рас- расположенных точек, включенных в фон, образованный случайно и менее плот- плотно расположенными точками. Он установил, что на предъявляющихся им изображениях испытуемые в его экспериментах оказались в состоянии ис- использовать около двух третей истинного отношения сигнал-шум, а это соот- соответствовало приблизительно половине имевшейся статистической информа- информации. Для объяснения полученных результатов он предложил также интерес- интересную и экономичную модель, которая содержала элементы "для оценивания количества точек"; эти элементы имеют приблизительно круглую форму и различные размеры. Количество точек позволяет заполнить ими центральную часть зрительного поля с окрестностями диаметром 1 — 4°, причем в среднем незаполненные промежутки и перекрытия составляют около 50 %. Они вре- временно объединяются на период около 0,1 с. Я рассчитываю, что аналогичные исследования можно провести и для других задач распознавания. На этом наше обсуждение способов представления изображений заканчи- заканчивается. Теперь мы займемся использованием этих представлений для полу- получения информации о поверхностях. ГЛАВА 3 ОТ ИЗОБРАЖЕНИЙ К ПОВЕРХНОСТЯМ 3 1 МОДУЛЬНАЯ ОРГАНИЗАЦИЯ СИСТЕМЫ ОБРАБОТКИ ЗРИТЕЛЬНОЙ ИНФОРМАЦИИ У ЧЕЛОВЕКА Наша конечная цель — понять феномен зрения в целом, т. е. то, каким образом можно эффективно и надежно извлекать описания реального мира из его изображений. Зрительная система человека представляет собой пример работающего механизма, который может вырабатывать такие описания. Как мы уже убедились, одной из наших целей является достижение полного пони- понимания этого механизма на всех уровнях: какого рода информация представ- представляется в зрительной системе человека? Какого рода обработку информации 111
эта система осуществляет и зачем? Каким образом информация представля- представляется в зрительной системе человека? Каким образом осуществляется в ней обработка инфомации и с помощью каких алгоритмов? Получив ответы на эти вопросы, можно задать последний вопрос: как эти специфические пред- представления и алгоритмы реализуются на нейрофизиологическом уровне? Изучение действующих зрительных систем может помочь нам в этом пред- предприятии, и нигде не проявляется более явно, чем при исследовании зритель- зрительных процессов. В рамках информационной теории первый вопрос исследова- исследователя звучит следующим образом: какие задачи обработки информации реша- решаются и какая информация требуется для их решения? Как обычно, для изложения тезиса лучше всего воспользоваться приме- примером. Наш мозг благодаря специфическому расположению наших глаз и спо- способу управления их действием обычно получает аналогичные изображения некоторой сцены, "сделанные" с двух соседних точек, находящихся на одном и том же горизонтальном уровне. Если глубина двух объектов относительно положения наблюдателя различна, то взаимное расположение этих объектов в каждом из глаз будет различным. В справедливости этого замечания можно убедиться, поместив большой палец руки на различных расстояниях от глаз, и таким образом, чтобы за ним находился какой-либо фон. Закрывая сначала один, а затем другой глаз, Вы обнаруживаете, что положения, занимаемые объектами реального мира на изображениях, возникающих на каждой из сет- сетчаток Ваших глаз, отличаются друг от друга. Это относительное различие по- позиций объекта на изображениях называется диспаратностью, которую обыч- обычно измеряют в минутах дуги. По мере приближения пальца к лицу диспарат- ность между его изображениями (относительно фона) в обоих глазах увели- увеличивается. Одна минута диспаратности приблизительно соответствует разли- различию по глубине в 2,54 см для объекта, находящегося на расстоянии 152,4 см. Мозг обладает возможностью измерять диспаратность и использовать ее для создания ощущения глубины. Воспользуемся в качестве иллюстрации игрушечным стереоскопом. Когда с помощью стереоскопа изображения предъявляются левому и правому глазам по отдельности, они воспринимают- воспринимаются как плоские. Если же, однако, Вы смотрите обоими глазами и у Вас хоро- хорошее стереозрение, ситуация кардинально изменяется. Изображение перестает казаться плоским: ландшафт мгновенно превращается в рельеф и восприя- восприятие определенно приобретает полностью трехмерный характер. Как же работает стереозрение? К сожалению, опираясь лишь на описанные выше наблюдения, мы не в состоянии даже поставить правильные вопросы. Дело в том, что повседневный опыт, как и маленький эксперимент со стерео- стереоскопом, не вносит никакой ясности в то, каким образом можно отделить стереоскопическую обработку от обычного монокулярного анализа каждого изображения в отдельности. Если бы стереоскопическая обработка была бы сосредоточена в каком-либо отдельном модуле, то ее можно было бы анали- анализировать как таковую. Стереоскопическая обработка, однако, может и не вестись изолированно: стереозрение, например, может практиковать сложное и постепенно растущее взаимодействие процессов обработки, используемых каждым из двух глаз в отдельности, и сопоставление результатов такой обра- 112
Рис. 3.1. Интерпретация некоторых изображений гребует учета более сложных факто- факторов, а также привлечения более простых зрительных навыков. Здесь дано одно из таких изображений, предложенное Р. Джеймсом. Подобные изображения в книге не рассматри- рассматриваются ботки, получаемых в каждом из глаз. Это предположение не столь уж абсурд- абсурдно, как может показаться. Для того чтобы представить себе, как могла бы действовать организованная подобным образом система, не нужно чрезмерно напрягать воображение. Для начала можно было бы обратиться, скажем, к изображениям дуба, получаемым левым и правым глазами независимо. За- Затем можно было бы отыскать на каждом изображении ствол и, допустим, самую нижнюю правую ветвь. Очень скоро были бы установлены соответст- соответствия между мелкими деталями изображений левого и правого глаз, диспарат- ность которых поддается точному измерению. И поскольку соответствия устанавливаются дедуктивным (от общего к частному) способом, при опре- определении того, что ему должно соответствовать, проблем, в сущносги,не воз- возникает. Этот метод, между прочим, типичен для так называемого "подхода сверху вниз", преобладавшего в области машинного зрения в 1960-х и начале 1970-х годов. Наш подход в значительной мере является реакцией на него. Вообще, я считаю, что, хотя иногда информация, получаемая в процессе анализа, вы- выполняемого сверху вниз, оказывается и полезной, и необходимой (см. рис. 3.1 и [145, рис. 14]), ее роль в предварительной обработке информации в 113
зрительной системе всего лишь второстепенна. Доказательства справедливос- справедливости такой точки зрения представляет психофизика, причем в силу целого ряда причин они игнорировались специалистами, работавшими в области машин- машинного зрения. Тезис, следующий из соответствующих психофизических дан- данных, весьма прост. Если в эксперименте в системе обработки зрительной информации у человека мы можем выделить некоторый процесс и продемон- продемонстрировать его удовлетворительную работу, то такой процесс не должен нуж- нуждаться в сложных взаимодействиях с другими частями зрительной системы и, следовательно, можно добиться достаточно хорошего понимания его функци- функционирования как некоторого отдельно взятого процесса. Одним из способов выделения некоторого зрительного процесса является использование изображений, из которых, насколько это возможно, устране- устранены все разновидности информации, за исключением какой-то одной, после чего можно попытаться применить именно эту информацию. Б. Джулес вос- воспользовался этим способом для исследования стереопсиса, предложив приме- применять вычислительную машину для порождения стереограмм, состоящих из случайных точек; с такими стереограммами мы уже встречались (см. рис. 1.1). Оба представленные на этом рисунке изображения (и правое, и левое) — это совокупности черных и белых квадратиков, которые порождены с по- помощью вычислительной машины и идентичны, если не считать, что располо- расположенная в центре квадратная область на одном изображении смещена по гори- горизонтали относительно другого. Это означает, что соответствующие диспарат- ности различны. Помимо диспаратности данная стереопара не содержит ни- никакой информации о видимых поверхностях. При стереоскопическом рассмотрении этой стереопары после слияния изо- изображений человек отчетливо и безошибочно воспринимает некоторый квад- квадрат, "плавающий" в пространстве над плоским фоном. Этот эксперимент слу- служит доказательством следующих двух утверждений: 1) диспаратность как таковая может вызывать ощущение глубины; 2) если в обработке действи- действительно используется какая-либо процедура анализа сверху вниз (на самом деле я считаю, что вероятность этого весьма мала), то это должно иметь чрез- чрезвычайно ограниченный характер, поскольку ни одно из изображений не со- содержит различимой крупномасштабной монокулярной организации. Эти результаты — скорее качественные, а не количественные — совсем не являются чисто техническими и (подобно большинству экспериментов Джу- леса полностью и чрезвычайно убедительно демонстрирует то, что следует увидеть) имеют для нашего подхода фундаментальное значение, поскольку позволяют приступить к разделению зрительных процессов на части, поддаю- поддающиеся независимому изучению. Специалисты по вычислительной технике на- называют отдельные части некоторого процесса модулями. Идея, что некото- некоторый крупный вычислительный процесс можно делить на части и реализовы- вать его в виде некоторой совокупности независимых подпроцессов в той степени, в какой это допускает решаемая задача в целом, показалась мне столь важной, что побудила сформулировать ее в виде отдельного принципа — принципа модульной конструкции. Его значение столь велико потому, что при иной организации процесса небольшое изменение, возникающее в одном 114
из его элементов, отражается на многих других элементах процесса. В резуль- результате процесс в целом чрезвычайно трудно поддается отладке и усовершенст- усовершенствованию как человеком, так и в ходе естественной эволюции, поскольку не- небольшая модификация, вносимая в один из его элементов, должна одновре- одновременно сопровождаться множеством других изменений, компенсирующих влияние первого на остальные элементы процесса. Принцип модульной конст- конструкции не исключает наличия слабых взаимодействий между различными мо- моделями, участвующими в решении некоторой задачи, однако требует, чтобы общая организация имела в первом приближении модульный характер. Наблюдения, подобные сделанным Б. Джулесом, обладают исключитель- исключительной ценностью в теоретическом отношении, поскольку они дают нам возмож- возможность четко формулировать вопросы информационного характера, на кото- которые, как нам известно, должны существовать ответы, так как зрительная система человека соответствующую задачу решить может. Именно результа- результаты Джулеса позволили нам разработать теорию стереопсиса у человека [155]. Аналогичные результаты Майлса [167] и Уоллака и О'Коннелла [240] позво- позволили Уллману создать его теорию определения структуры по данным о дви- движении [238]. Некоторые эксперименты Джулеса [113, гл. 4], а также выде- выделение Браддиком [23] в видимом движении мелкомасштабных краткосроч- краткосрочных процессов сыграли определенную роль в построении нашей теории изби- избирательности по направлению. Наличие модульной организации в системе обработки зрительной инфор- информации у человека служит подтверждением того, что различные типы инфор- информации можно анализировать независимо. Как отмечал X. К. Нисихара [178], информация о геометрических свойствах и отражательной способности види- видимых поверхностей кодируется в изображении различными способами и мо- может извлекаться из него с помощью почти независимых процессов. После того как это обстоятельство было по достоинству оценено, началось бурное развитие теорий, посвященных возможным процессам декодирования инфор- информации. В данной главе описываются информационные теории таких процес- процессов декодирования, которые сейчас уже достаточно хорошо изучены. Речь идет о процессах, обеспечивающих: 1) стерео пейс, 2) избирательность по направлению, 3) определение структуры по видимому движению, 4) опреде- определение глубины по оптическому переносу, 5) определение ориентации поверх- поверхности по ее контурам, 6) определение ориентации поверхности по ее тексту- текстуре, 7) определение формы объекта по данным о затенении поверхности, 8) по- получение стереоскопических изображений с помощью фотометрии (определе- (определение ориентации и коэффициентов отражения поверхности по данным о свети- светимости сцены, которая регистрируется некоторым датчиком при различных условиях освещения); 9) определение освещенности и цвета как некоторой аппроксимации отражательной способности. Конечно, существуют и другие источники получения дополнительной информации — такие, например, как загораживание одних объектов другими. Однако до тех пор, пока я не в со- состоянии буду дать некоторому процессу достаточно целостную трактовку, я его обсуждать не буду. Не все из описанных здесь процессов интересны с биологической точки зрения (несомненно, фотометрический способ получе- 115
ния стереоскопических изображений), но все они существенны в качестве способов получения информации о геометрических свойствах и отражатель- отражательной способности видимых поверхностей по их изображениям. 3 2 ПРОЦЕССЫ, ОГРАНИЧЕНИЯ И ВОЗМОЖНОСТИ ПРЕДСТАВЛЕНИЯ ИЗОБРАЖЕНИЙ Прежде чем приступить к подробному описанию различных теорий, следу- следует сделать несколько замечаний, касающихся их общего характера, а также того, на что читатель должен обращать внимание и что он может ожидать от них. Во-первых, читателю следует вспомнить, что процессы мы собираемся анализировать на трех уровнях (см. рис. 1.4) — информационной теории, алгоритмов и реализации. Поскольку проблема зрения еще не разрешена полностью, мы, конечно, не можем каждый процесс, функционирующий в зрительной системе человека, анализировать на всех трех уровнях. Однако для некоторых процессов это возможно, а для многих из них необходим один или два уровня — вероятно, это относится даже к большинству процес- процессов, обеспечивающих получение информации о поверхностях по их изображе- изображениям. Во всяком случае начинать всегда мы будем с первого уровня - уровня информационной теории, поскольку наша книга посвящена информационно- информационному подходу к проблеме зрения. При этом читателя должны интересовать те физические ограничения, которые обеспечивают соответствующему процессу возможность "делать" то, что он "делает". Эта ситуация полностью аналогич- аналогична той, которая имела место в гл. 2. Там речь шла о способах представления изображений, и, для того чтобы указать, что полезно, а что — нет, мы посто- постоянно обращались к взаимосвязи между процессами формирования изображе- изображений и теми свойствами материального мира, которые являются основой порождения структуры изображений. В этой главе мы имеем дело не с пред- представлениями, а с процессами, но ситуация совершенно аналогична предыду- предыдущей, однако возникает она иначе. Мы уже сталкивались с проявлением этой новой ситуации, создавая теоретические основы объединения пересечений нулевого уровня, полученных с помощью фильтров с рецептивными полями разного размера, с целью формирования непроизводных элементов необра- необработанного первоначального эскиза, допускающих физическую интерпрета- интерпретацию. Вообще проблема состояла в том, что оснований для установления свя- связи между пересечениями нулевого уровня, получаемыми по двум различным каналам, которые не имеют перекрытия в частотной области, нет. На нижнем уровне зрения связь между такими пересечениями нулевого уровня устанав- устанавливается в силу того, что изменения яркости вызываются неоднородностями — специфической "разметкой" поверхности, яркосгными переходами объек- объектов и т. д. Именно они играют решающую роль в процессе пространственной локализации. Подобная связь процесса формирования изображения с существенными особенностями материального мира обычно возникает при изучении зритель- 116
ных процессов, и в данной главе мы встретимся с несколькими примерами этой связи. Часто возникают, казалось бы, неразрешимые задачи, например определение того, между какими именно точками на левом и правом изобра- изображениях рис. 1.1 должно иметь место соответствие. Ответ на этот вопрос нель- нельзя дать на основании только изображения. В построении информационной теории стереопсиса решающее значение имеет определение дополнительных естественных условий, налагающих на искомый результат ограничения, кото- которые позволяют получать однозначное решение. Отыскание таких ограничений является настоящим открытием: эти значения имеют непреходящую цен- ценность, они могут накапливаться и составлять основу для дальнейших изыска- изысканий, в сущности, именно они делают данную область исследований научной [147]. Определив источник дополнительной информации, т. е. установив, если угодно, каким образом материальный мир налагает на такую информацию ограничения, мы можем использовать ее при задании некоторого процесса. Например, при объединении пересечений нулевого уровня мы воспользова- воспользовались допущением о совпадении в пространстве, утверждающем, что совпаде- совпадение пересечений нулевого уровня служит достаточным доказательством ре- реального яркостного перехода. Итак, использование ограничений сводится к преобразованию их в некоторое допущение, которое может поддаваться, а может и не поддаваться внутренней проверке. Таков, следовательно, один аспект информационной теории высшего уровня, описывающей некоторый зрительный процесс, но существует и дру- другой почти столь же важный аспект. В гл. 1 мы убедились в том, что некото- некоторый процесс можно рассматривать как некоторое преобразование, обеспечи- обеспечивающее переход от одного представления к другому. Сложение, например, представляет собой отображение некоторой пары чисел в некоторое число. На вход всех процессов, которые будут нами рассматриваться, поступают признаки изображений, а на выходе этих процессов воспроизводятся призна- признаки поверхностей, дающие нам некоторые сведения либо о геометрических свойствах поверхностей, л ибо об их отражательных способностях. В следующей главе мы рассмотрим способы представления выходной ин- информации- этих процессов, сейчас же займемся входной информацией. Что же должно подаваться на вход таких процессов? Мы уже располагаем четырьмя возможностями: собственное изображение, пересечения нулевого уровня, необработанный первоначальный эскиз и полный первоначальный эскиз. Часть информационной теории должна быть посвящена выбору одной из этих четырех возможностей (подходящей, вероятно, окажется какая-то совершенно от них отличная) и его обоснованию, и, следовательно, часть ис- исследования каждого процесса будет связана с этой проблемой. В конечном счете психофизика сообщает нам, какое представление вход- входной информации используется, если соответствующий процесс действительно функционирует в зрительной системе человека. Следует, однако, иметь в виду один важный момент [144]: в сущности, поскольку ограничения обес- обеспечивают работоспособность процессов и поскольку они порождаются реаль- реальным миром, непроизводные элементы, которыми оперируют процессы, в 117
целом должны соответствовать реальным объектам, обладающим поддающи- поддающимися идентификации физическими свойствами и занимающими некоторое определенное положение на некоторой поверхности в реальном мире. Таким образом, не следует пытаться при построении стереоскопического изображе- изображения устанавливать соответствие между тоновыми матрицами яркостей имен- именно потому, что некоторый пиксел соответствует некоторой точке видимой поверхности неявным образом. Это - важное обстоятельство. Так, неспособность Уоллака и ОТСоннелла [240] осознать его, по их собственному признанию, задержала работу на го- годы. Они не могли понять, почему тень изогнутой проволочки должна отли- отличаться от тени, отбрасываемой гладким твердым телом. Если проволочка вращается, то ее тень движется и человек мгновенно воспринимает ее трех- трехмерную форму; если же вращается твердое тело, его тень движется, однако его форма человеком не воспринимается. Дело в том, что тень проволочки порождает очертания, находящиеся во взаимно однозначном соответствии с фиксированными точками проволочки. Все эти точки имеют определенные местоположения, которые, естественно, изменяются от кадра к кадру, но тем не менее всегда соответствуют одному и тому же месту проволочки. При вра- вращении твердого тела ситуация меняется. В различные моменты времени точ- точки силуэта соответствуют совершенно различным точкам, расположенным на поверхности тела. Эффективная связь непроизводных элементов изобра- изображения с неизменным физическим объектом теряется. Следовательно, процесс восстановления формы не работает. С другой стороны, чем сложнее процесс получения некоторого представле- представления изображения, тем продолжительнее он обычно оказывается. При реше- решении практических задач фактор времени часто является чрезвычайно сущест- существенным. Так, при анализе движения ответ требуется получить как можно скорее — прежде чем изображение перестанет соответствовать истинному по- положению дел или прежде чем движущийся "сожрет" наблюдателя. Поэтому эволюция обычно благоприятствовала тому, чтобы все совершилось так быстро, как только возможно. Итак, хотя, вообще говоря, процессы, оперирующие информацией, содер- содержащейся в изображении, могут использовать любое из обширного набора представлений исходной информации, реально они работают с теми представ- представлениями, которые могут получить быстрее всего. В сферу нашего обсужде- обсуждения входят такие представления, как тоновое изображение, пересечения ну-/ левого уровня, необработанный первоначальный эскиз и полный первоначаль- первоначальный эскиз. Самые "быстрые" представления еще не являются физическими и потому в какой-то степени ненадежны, следовательно, их использование чрева- чревато ошибками. В некоторых случаях, однако, такая потенциальная ошибка окупается выигрышем во времени, например при управлении движением глаз в ответ на возникновение на изображении неожиданного изменения или при обнаружении неясно вырисовывающихся объектов (эта проблема рас- рассматривается в теории избирательности по направлению в разд. 3.4). Более того, именно потому, что граница является физической, ее использование не всегда оканчивается благополучно. Края цилиндрического фонарного столб» 118
порождают очень четкие яркостные переходы на изображениях, наблюдае- наблюдаемых левым и правым глазами, но эти яркостные переходы соответствуют на реальной поверхности разным прямым. Это обстоятельство вызывает ослож- осложнения в процессе стереопсиса, когда при сопоставлении изображений пред- предпринимается попытка определить расстояние до фонарного столба. Таким образом, наш постулат о том, что информация, поступающая на вход некоторого процесса, должна состоять из элементов, достаточно точно соответствующих определенным физическим объектам, имеет лишь принци- принципиальный характер. Он явно не соответствует специфике ряда процессов, скажем, таких, как получение фотометрического стереоскопического изо- изображения или определение формы объекта по данным о затенении поверхнос- поверхностей, но, вероятно, достаточно существен для таких процессов, как установле- установление соответствий для видимого движения [236] или анализ формы объекта по данным о контурах или текстуре поверхности. Следование этому постула- постулату таит определенные опасности, а для некоторых процессов он справедлив лишь в предельном смысле: я, в частности, полагаю, что пересечения нулевого уровня как в процессе стереопсиса, так и при выборе по направлению могут использоваться непосредственно. Важно, однако, иметь в виду, что это — до- достаточно сильный и явно справедливый постулат, и, следовательно, любые от- отступления от него нельзя оставлять без внимания — они должны обосновы- обосновываться. Итак, с уровнем информационной теории на этом можно покончить. Вто- Вторым из трех уровней, способствующих пониманию некоторого процесса, яв- является уровень алгоритма. На этом уровне формулируется некоторая кон- конкретная процедура, реализующая некоторую информационную теорию. Из- Известны два принципа, определяющие "конструкцию" алгоритма, и, очевидно, им должен отвечать любой "кандидат", серьезно претендующий на роль про- процесса, участвующего в предварительной обработке информации в зритель- зрительной системе человека. Один из этих принципов утверждает, грубо говоря, что алгоритм должен обладать устойчивостью, другой — что его характеристики должны быть гладкими. Формулируются же эти принципы следующим обра- образом [145]. 1. Принцип пристойного ухудшения. При ухудшении качества исходных данных этот принцип должен по возможности обеспечивать получение по крайней мере варианта ответа. Он эквивалентен условию непрерывности свя- связи отдельных этапов обработки. Так, требуется, чтобы некоторое двухмер- двухмерное приближенное описание рисунка, которое зрительная система может для этого рисунка построить, позволяло этой системе строить приближенное трехмерное описание изображения на рисунке. 2. Принцип наименьшего вреда. Этот принцип состоит в том, что не следу- следует делать ничего, потенциально подверженного порче. Я считаю, что он при- применим во всех тех случаях, когда рабочие характеристики изменяются. Указанный принцип утверждает, что следует избегать использования алго- алгоритмов, построенных в соответствии с методом проб и ошибок, поскольку, вероятно, существует лучший метод. Мой опыт" вообще подсказывает мне, 119
что нарушение принципа наименьшего вреда служит признаком того, что де- делается что-то не то либо чрезвычайно трудное. Было бы прекрасно, если бы мы могли сформулировать некие общие пра- правила для процессов, относящихся к третьему уровню анализа — нейронному уровню реализации. К сожалению, лишь несколько теорий разработано в той степени, которая позволила бы говорить о конкретных реализациях соответст- соответствующих процессов на нейронном уровне, причем ни для одной из таких реа- реализаций не имеется достаточно детальных экспериментальных подтвержде- подтверждений. Таким образом, мы не в состоянии сформулировать подобные правила. Однако одно гипотетическое правило можно ввести, опираясь на наш опыт, касающийся роли кооперативных алгоритмов в процессе стереопсиса и установлении локально-параллельной организации [153, 220]". Но это всего лишь гипотетическое правило, и к нему следует относиться с осторожностью. Оно предполагает, что нервная система по возможности избегает использова- использования итеративных методов, точнее, чисто итеративных процедур, при кото- которых новая информация не вводится в процесс ни на одном шаге. Наоборот, создается впечатление, что нервная система предпочитает использовать про- процедуры, обеспечивающие получение решения после их однократного приме- применения — типа неитерационного алгоритма Стивенса [220], предназначенного для определения локальных ориентации в конфигурациях Гласса. Кроме то- того, нервная система, очевидно, "отдает предпочтение" процедурам, продви- продвигающимся от приближенных решений к более точным, делая на каждом шаге одно и то же, но без чистой итерации благодаря введению новой информации в каждом цикле. Как мы убедимся в следующем разделе, именно таким об- образом организованы наши алгоритмы установления соответствия между изо- изображениями стереопары. И этот принцип также можег составлять вполне разумную основу для построения алгоритмов, поскольку он легко включает принцип пристойного ухудшения и наименьшего вреда. И все же использование кооперативных методов (некоторой разновиднос- разновидности нелинейного итерационного алгоритма) с некоторых точек зрения пред- представляется очень правдоподобным. Они, в частности, очень устойчивы, а их структура часто допускает перенос в систему тормозящих и возбуждающих связей гипотетически правдоподобной нервной сети. Почему же в таком случае они не используются? Одним из возможных объяснений может служить то обстоятельство, что кооператив- кооперативные методы требуют слишком много времени для получения результата и для любой их непосредственной реализации необходимо слишком много нейронного материала. Труд- Трудности, связанные с итерационными процессами, заключаются в том, что при этом необ- необходима организация циркуляции чисел по некоторому контуру, для чего может быть использована некоторая система, построенная на возвратных коллатералей, или замкну- замкнутые контуры, образованные нервными связями. Если, однако, эти числа в процессе циркуляции не представляются достаточно точно, наблюдается характерная тенденция быстрого нарастания ошибок. Использование нейрона для представления некоторой величины даже со столь низкой точностью, как 1-10, требует достаточно продолжитель- продолжительного интервала времени с тем, чтобы он мог свободно включать от одного до десяти пиков. Это означает, что для одной нервной клетки среднего размера на одну итерацию требуется затратить по меньшей мере 50 мс, что соответствует 200 мс на четыре итера- 120
ции, - минимальное время, за которое наш кооперативный алгоритм в состоянии обра- обработать стереограмму, и оно слишком велико. Этот довод против использования чисто итерационных алгоритмов не яв- является неоспоримым. Он, однако, настолько убедителен, что заставляет меня скептически относиться к чисто итерационным алгоритмам как кандидатам на роль процессов, используемых в системе обработки зрительной информа- информации у человека. Он предполагает также, что для определения способов реали- реализации процессов, основанных на использовании алгоритмов с более открытой и гибкой структурой, требуются чрезвычайно интенсивные усилия. Можно, вероятно, сделать еще один вывод относительно реализации на нейронном уровне, на этот раз из работы Торри и Поджо B29], показавших, каким образом нели- нелинейную логическую операцию И-НЕ можно релизоватьна уровне синаптических взаимо- взаимодействий дендрита. С помощью кабельной теории проведения, согласно которой завися- зависящие от времени электрические свойства дендрита определяются его геометрией, они установили, чю конфигурация синапсов, представленная на рис. 3.2, соответствует электрической схеме на рис. 3.3 и имеет характеристики, приведенные на рис. 3.4. Эта конфигурация осуществляет приближенное вычисление величины,^- aglg2, представ- представляющей собой логическую функцию И-НЕ. Торри и Поджо предположили, что именно таким образом в сетчатках мухи и кролика могут быть реализованы механизмы изби- избирательности по направлению, предложенные Хассенштайном и Райкхардтом [79 ], Барлоу и Левиком [14] (см. разд. 3.4). Поджо и Торри развили эту идею, показав, что обшир- обширный набор простых нелинейных операций можно реализовать с помощью локальных си- синаптических механизмов. Один из выводов этой работы заключается в том, что нейроны способны делать боль- больше, чем мы предполагаем. В моделях, относящихся к тем временам, когда эти исследо- исследования только начинались, как, например, в моделях Маккаллока и Питтса [138], про- проявилась тенденция рассматривать нейроны в качестве принципиально линейных устройств, способных реализовывать нелинейные функции с помощью некоторого порогового механизма, который допускает изменение значения порога, если для введения этого ме- механизма используется какой-либо тормозящий вставочный нейрон. Этот подход привел Барлоу и Левика к разработке модели избирательности по направлению, которой поль- пользовался и я при изучении коры мозжечка [141]. Мы, однако, уже имели возможность убедиться в том, что локальные нелинейности могут играть существенную роль. Так, на- например, механизм, предназначенный для обнаружения пересечений нулевого уровня (см. рис. 2.18), основан на использовании набора логических элементов. Важность работы Поджо и Торри заключается в том, что для реализации таких устройств, как логические элементы И, использование нервных клеток целиком может оказаться излишним - эти устройства, очевидно, могут реализовываться гораздо компактнее за счет локальных синаптических взаимо- взаимодействий на небольших участках дендрита. Рис. 3.2. Синаптическая конструкция, рассмотренная Торри и Поджо [229]. Она может выполнять функции логической схемы И-НЕ f 121
Несущественное направление Приоритетное направление Пороговое устройство для пиков сигнала Рис. 3.3. Электрическая схема, эквивалентная синаптической конструкции, представлен- представленной на рис. 3.2 и использованной в конфигурации, которая была предложена Торри и Поджо [229] для реализации механизма избирательности по направлению. Эта схема воспроизводит функцию вида^] - agt g2, которая аппроксимирует схему И—НЕ С по- помощью аналогичной схемы можно реализовать и логическую схему И Итак, достаточно общих рассуждений, займемся собственно процессами. Начнем со стереопсиса, поскольку он оказался первым психологическим процессом, который я пытался постичь, и поскольку в результате мне уда- удалось узнать многое о предварительной обработке зрительной информации у человека в целом, которая включена в данную книгу. При описании различ- различных процессов я пытался не увлекаться техническими деталями, так как мне хотелось дать читателю общее представление о том, как они все функцио- функционируют, и привести несколько примеров. Подробности читатель может найти в соответствующих статьях. И наконец, последнее замечание, касающееся организации изложенного. Многие из тех процессов, о которых идет речь, допускают естественное разде- разделение на две группы — связанную с так сказать постановкой задачи и измере- измерением и связанную с использованием результатов измерений для восстановле- восстановления трехмерной структуры. В стерео пейсе, например, на первом этапе дейст- действует процесс установления соответствий между изображениями, предъявляе- 122
О s Ч О m a с о/ч 30 20 Несущественное All I | / M 1 1 1 1 Г" 1 Si 10 0 1 ГЧЧ1 1 направление 1 1 — — 1 1 1 Приоритетное направление 8 16 24 а) -35 г -41 со -47 ... I I I I I 8 16 24 в) Рис. 3.4. Расчетные характеристики схемы, представленной на рис. 3.3. На рис. 3.4, а по- показаны графики изменения во времени входных сигналов gj и g2, соответствующие движению, зафиксированному по несущественному направлению, а на рис. 3.4, в — вы- выходной сигнал (сплошная линия). Точечная и штриховая кривые соответствуют ответам на входные сигналы gx и g2. При возникновении движения в противоположном направ- направлении входные сигналы принимают форму, изображенную на рис. 3.4, б, а выходной сиг- сигнал — на рис. 3.4, г. Обратите внимание, насколько сигнал на рис 3.4, в ослаблен по срав- сравнению с сигналом на рис. 3.4, г. Этот способ, таким образом, обеспечивает возможность добиться избирательности выходного сигнала схемы по направлению. Изменение време- времени <горизонтальная ось) оценивается в единицах постоянной времени мембраны мыми каждому из глаз по отдельности, с тем чтобы стало возможным изме- измерение диспаратностей. На втором этапе с помощью тригонометрических соот- соотношений определяются расстояние до поверхностей и их ориентация. Первый этап в данном случае труден, второй — нет. На первом этапе по действию механизма избирательности по направлению определяется локальное направ- направление движения, на втором же с помощью этой рассредоточенной локальной информации из фона выделяются объекты. Ни на одном из этих этапов су- существенных затруднений не возникает. В случае видимого движения задачей первого этапа является установление некоторого соответствия между иосле- 123
довательными "кадрами", обеспечивающего возможность измерения меж- межкадровых смещений. На втором этапе результаты этих измерений использу- используются для восстановления трехмерной структуры. В этом процессе оба этапа — трудные. По этой причине некоторые разделы разбиты на две части. Конечно, иногда неизвестно, действительно ли реализован соответствующий процесс в системе обработки зрительной информации у человека, а если это даже установлено, то вопрос о том, разделяется ли этот процесс в соответствии с описываемым мной способом, все еще остается открытым в рамках психофизики. В подоб- подобных случаях я пытаюсь уяснить, о чем свидетельствуют имеющиеся экспери- экспериментальные данные и что именно следует предпринять для того, чтобы отве- ответить на возникшие вопросы. 3.3. СТЕРЕОПСИС Мы отмечали выше, что изображения внешнего мира, формируемые каж- каждым из глаз по отдельности, несколько отличаются друг от друга. Относитель- Относительное различие положений объектов на таких изображениях называется дис- паратностью, которая вызывается различиями в расстоянии до наблюдателя. Мозг человека в состоянии измерять эту диспаратность и использовать ее для оценивания относительных расстояний, отделяющих объекты от наблюдате- наблюдателя. Мы будем использовать термин диспаратность для обозначения угловой невязки положений изображения некоторого объекта в двух глазах, термин расстояние — для обозначения реального физического расстояния между на- наблюдателем и объектом, которое измеряется обычно по одному из двух глаз, термин глубина — для обозначения субъективного расстояния до объекта, определяемого восприятием наблюдателя. Наше изложение разделено на две части. Первая посвящается измерению диспаратности, вторая — использованию результатов этих измерений. В обеих частях прослеживаются три уровня, представленные на рис. 1.4. В основу дан- данного раздела положены материалы статей [144 и 153] по информационной теории, статьи [155], посвященной алгоритму, который, как предполагается, используется в зрительной системе человека, и статей [73 и 72], в которых описывается реализация этого алгоритма на ЭВМ. Кроме того, работы,в кото- которых рассмотрены пересечения нулевого уровня (выполненные между 1977 и 1979 годами [157,150]), позволили ввести ряд упрощений в реализацию этого алгоритма. Наиболее существенным является то, что мы чисто математичес- математически показали возможность использования рецептивных полей, обладающих круговой симметрией, вместо ориентированных рецептивных полей для вы- выполнения исходных операций свертки. Этот же результат был независимо от нас получен с помощью методов психофизики [163]. Измерение стереоскопической диспаратности Информационная теория Процесс измерения стереоскопической диспаратности включает три шага: 1) на одном из изображений необходимо выбрать некоторую конкретную 124
Рис. 3.5 Неоднозначность соответствий, устанавливаемых между двумя проекциями изображения на сетчатку. На этом рисунке каждая из четырех точек изображения, сфор- сформированного в каждом из глаз, может соответствовать любой из четырех точек проек- проекции, сформированной в другом глазу Из этих шестнадцати допустимых соответствий лишь четыре являются истинными (они представлены зачерненными кружками); осталь- остальные двенадцать - ложные цели (незачерненные кружки) Такие неоднозначности не под- поддаются снятию без привлечения дополнительных ограничений, основанных на анализе глобальной информации. Предполагается, что цели (зачерненные квадратики) соответст- соответствуют элементам описания, полученным из изображений в левом и правом глазах [153] позицию на поверхности, являющейся элементом изображаемой сцену; 2) на втором изображении необходимо отыскать ту же самую позицию; 3) измерить диспаратность двух соответственных точек изображения. Если эти позиции определяются на обоих изображениях совершенно одно- однозначно, например при выделении на исходной сцене с помощью светового лу- луча, то необходимость в выполнении двух первых шагов отпадает и задача упрощается. В реальных условиях мы не имеем возможности аккуратно по- помечать поверхность сцены световым пятном, определяя затем местоположе- местоположение его изображения в обоих глазах, следовательно, необходимо предусмот- предусмотреть способ его установления, основанный на использовании более пассив- пассивных средств восприятия внешней среды. Трудность отыскания соответственных позиций на двух изображениях связана с так называемой проблемой ложной цели. Она возникает в связи с феноменом, который можно было бы определить как предельный случай предложенных Джулесом стереограмм, образованных случайными конфи- конфигурациями точек (см. рис. 1.1). Суть этой проблемы иллюстрирует рис. 3.5. Вопрос состоит в том, какая точка какой соответствует. В данном примере левый глаз видит четыре точки и правый глаз видит четыре точки, однако какие из этих точек соответствуют друг другу? Вообще все шестнадцать воз- возможных соответствий пар являются вероятными, но,рассматривая подобную 125
стереопару, мы устанавливаем соответствия, указанные зачерненными круж- кружками, и ни при каких обстоятельствах не устанавливаем соответствия, ука- указанные незачерненными кружками; последние и называют ложными целями. Хотя это в определенной степени объяснимо, тем не менее вызывает удив- удивление. Каким образом нам удается установить, что определенные соответст- соответствия правильны, а другие следует игнорировать? Более того, существует и другое решение этой конкретной задачи установления соответствий, которое представляется столь же справедливым. Взгляните на рисунок и постарайтесь увидеть, что же на нем изображено. Альтернативным ответом служат соот- соответствия, указанные четырьмя вертикальными точками, т. е. квадратик R\ объединяется в пару с квадратиком £4,Л2 — cL3tR3 ~cL2 иЛ4 cLt. Тем не менее зрительно мы никогда не воспринимаем установленное таким спо- способом соответствие — мы никогда не видим это изображение как некоторый набор квадратиков, расположенных вдоль уходящей вдаль прямой. Почему же мы этого не видим? Почему мы видим лишь другой вариант, когда квад- квадратики выстраиваются в линию, располагаясь на приблизительно одинаковом расстоянии от нас? Опираясь на материал гл. 2, читатель мог бы сразу предложить воспользо- воспользоваться описаниями изображения, относящимися к высшему уровню, скажем сначала устанавливать соответствие между такими объектами, как два ряда точек в целом, затем переходить к установлению соответствий между отдель- отдельными квадратиками и, наконец, между яркостными переходами каждого квадратика. И, как я полагаю, нечто подобное имеет место, но в первую оче- очередь необходимо ясно отдавать себе отчет в том, что такое допущение. Это, по существу, лишь некоторый механизм. На самом деле, вопрос, который следует задать, звучит следующим образом: Почему нечто подобное могло действовать? Сам по себе факт, что мы только смотрим на пару изображе- изображений, представленную на рис. 3.5, не дает никаких оснований для исключения соответствий между квадратиками L i и R3, L2 к Rt и даже между L3 иRl. Нам необходимо воспользоваться какой-либо дополнительной информа- информацией, которая помогла бы нам установить исходя из налагаемых ею некоторых ограничений, какие соответствия истинны, и для того чтобы сде- сделать это при установлении соответствия между двумя изображениями, нам придется обращаться к изображаемому прототипу реального мира. Необходимы следующие ограничения (на первый взгляд чрезвычайно про- простые) : 1) любая заданная точка реальной поверхности в любой момент вре- времени занимает в пространстве некоторое единственное положение; 2) реаль- реальный мир целостен, он разделен на объекты, поверхности которых в общем случае гладки в том смысле, что вариации, вызванные неровностями или иными резкими переходами, которые можно трактовать как изменения рас- расстояния между поверхностью и наблюдателем, малы по сравнению с этим расстоянием. Эти условия отражают свойства реальных физических поверхностей, и они налагают ограничения на характер поведения некоторой точки, выбранной на поверхности. Итак, если мы намерены воспользоваться этими условиями для облегчения установления соответствия между двумя изображениями некото- 126
рой поверхности, необходимо убедиться в том, что рассматриваемые объек- объекты находятся во взаимно однозначном соответствии с точно определенными позициями на некоторой физической поверхности. Для этого следует задать на изображении предикаты, соответствующие "особым приметам" поверх- поверхности, теням, нарушениям непрерывности по ориентации поверхности и т. п. Именно исходя из подобных физических соображений мы, как это следует из материала гл. 2, и ввели первоначальный эскиз, именно они обеспечивают возможность использования первоначального эскиза, поскольку входящие в него элементы описания (отрезки прямых и яркостных переходов, пятна, края и нарушения непрерывности, а также характерные объекты изображе- изображения, формируемые из перечисленных элементов описания с помощью группи- группировки и классификации) обычно соответствуют объектам, для которых на реальной поверхности существует реальный прототип. И здесь следует, веро- вероятно, подчеркнуть, что, хотя процессы группировки и классификации долж- должны обладать достаточной инвариантностью относительно того, что они долж- должны группировать и классифицировать, наиболее укрупненные и обобщенные характерные объекты изображения оказываются, вообще, значительно менее надежными, чем самые предварительные и простые средства описания, вхо- входящие в необработанный первоначальный эскиз. Это обстоятельство сущест- существенно для стереопсиса, в частности, потому, что крупномасштабные харак- характерные объекты изображения довольно велики, вплоть до нескольких угло- угловых градусов, в то время как существенные диспаратности в общем случае достаточно невелики — порядка угловых минут. Следовательно, чем точнее должны быть измерения, тем более мелкие и простые элементы описания оказываются предпочтительными. С другой стороны, явные изменения ста- статистических характеристик, по всей вероятности, служат вполне надежным свидетельством изменений, происходящих в реальном мире, даже на доста- достаточно высоких уровнях и, следовательно, границы, проводимые на высших уровнях и названные мной границами разделения текстур, очевидно, для про- процесса стереопсиса оказываются полезнее, чем агломерации, относящиеся к тому же самому уровню. Ниже мы столкнемся с тем, что, как я считаю, яв- является следствием этого обстоятельства. Эти физические ограничения можно сформулировать в виде условий, опре- определяющих установление соответствий и ограничивающих допустимые спосо- способы сопоставления двух формализованных описаний, которые построены из непроизводных элементов и относятся к одному из глаз соответственно. Для того чтобы условия соответствия выполнялись, элементы сопоставляемых описаний должны соответствовать точно определенным позициям на реаль- реальной поверхности изображаемого объекта. Можно считать, что такие элементы описания несут лишь позиционную информацию подобно черным точкам стереограмм, образованных случайными конфигурациями точек, хотя для полного изображения можно задать правила, определяющие, какие соот- соответствия между элементами описания допустимы, а какие — нет. Эти правила выводятся и из физических соображений: если два элемента описания могут порождаться одной и той же особой приметой поверхности, между ними можно устанавливать соответствие. Если же они не могут быть порождены 127
одной и той же особой приметой поверхности, то устанавливать соответст- соответствие между ними нельзя. Это — первое наше условие установления соответст- соответствия, которое я буду называть условием совместимости. Второе и третье условия установления соответствия отражают два физи- физических ограничения. Условие единственности требует, чтобы каждый элемент описания, за редкими исключениями, мог соответствовать Ттишь одному эле- элементу второго изображения. Указанные исключения могут возникать как следствие процесса формирования изображения, когда две особые приметы объекта расположены на линии визирования одного глаза, другим же глазом они наблюдаются отдельно. Третье условие, непрерывность, означает, что диспаратность изменяется гладко почти везде. Это условие имеет смысл, по- поскольку второе физическое ограничение предполагает, что расстояние от на- наблюдателя до видимой поверхности изменяется без нарушений непрерыв- непрерывности, за исключением границ объекта, которые занимают лишь малую часть площади изображения. Итак, эти три условия служат для нас ограничениями. Теперь перейдем к их практическому использованию, высказав гипотезу, которую я буду называть основным допущением стереопсиса: если некоторое соответствие устанавлива- устанавливается между непроизводными элементами, допускающими физическую интер- интерпретацию и относящимися к изображению в левом и правом глазах сцены, ко- которая содержит достаточное число подробностей, и если это соответствие удов- удовлетворяет трем введенным выше условиям установления соответствия, то оно правильно отражает реальное состояние наблюдаемого объект. Из этого допу- допущения непосредственно следует, что соответствие должно быть единственным. Все это очень хорошо, скажет скептически настроенный читатель. Условия установления соответствия выглядят вполне обоснованными и даже весьма жесткими. Но превращать их в некое основное допущение о том, что они яв- являются не только необходимыми следствиями физических свойств реального мира, а также на самом деле и достаточными для однозначного определения истинного соответствия, — это уже совсем другое дело. Замечание было бы абсолютно справедливым. Оно явно и недвусмыслен- недвусмысленно указывает на одно из тех методологических положений, которые состав- составляют основу нашего подхода. Дело в том, что введение этого основного до- допущения и установление его истинности — это именно то, что я подразуме- подразумеваю, когда говорю об информационной теории некоторого процесса. В дан- данном случае установить достаточность этого допущения труднее, чем устано- установить достаточность допущения о совпадении в пространстве, с которым мы имели дело в гл. 2, поскольку последнее (весьма простое) практически не- непосредственно следует из структуры реального физического мира. Тем не менее мы в состоянии подтвердить справедливость этого допуще- допущения для разнообразных ситуаций. Я попытаюсь сейчас продемонстрировать в общем виде, каким образом строится такое доказательство, так как исход- исходное методологическое положение, к которому приводится эта проблема, ис- исключительно важно. Мы убедимся, что оно лежит в основе теории любого процесса. 128
В приведенную выше формулировку основного допущения стереопсиса входят такие понятия, как "сцена, содержащая достаточное число подроб- подробностей" и "непроизводные элементы, допускающие физическую интерпрета- интерпретацию", которые по математическим канонам определены чрезвычайно нестро- нестрого. Поэтому для того, чтобы избежать использования понятия "непроизвод- "непроизводные элементы, допускающие физическую интерпретацию", я введу специаль- специальный тип реальной поверхности — белую поверхность, помеченную черными точками, а для того чтобы избежать использования понятия "сцена, содержа- содержащая достаточное число подробностей", я введу условие, предусматривающее довольно высокую плотность размещения точек (обозначим ее через v). В частности, для иллюстрации нашего доказательства нам потребуется, чтобы плотность v составляла по меньшей мере 2 % или что-то около того. С по- помощью таких несколько экзотических средств, использование которых ана- аналогично тому, что весь видимый мир покрывается пятнышками черной крас- краски, я преобразовываю реальную сцену в изображения, обладающие неоспори- неоспоримым сходством с одной из стереограмм Джулеса, образованных случайными точечными конфигурациями. В результате условия установления соответст- соответствия задаются для двух бинарных изображений, при этом они принимают фор- форму следующих трех правил: Правило 1. Совместимость. Черные точки могут ставиться в соответствие только черным точкам. Правило 2. Единственность. Почти всегда некоторой черной точке одного изображения можно поставить в соответствие не более одной черной точки другого изображения. Правило 3. Непрерывность. Изменение диспаратности установленных соот- соответствий на изображении гладко почти везде. Теперь наша задача доказать, что эти три правила обеспечивают установле- установление взаимно однозначного соответствия двух изображений, а сделать это мы можем следующим образом. Во-первых, заметим, что, поскольку глаза распо- расположены горизонтально, нам следует учитывать только те допустимые соот- соответствия, которые расположены вдоль горизонтальных прямых; следова- следовательно, задача может быть сведена к простому одномерному случаю, проил- проиллюстрированному рис. 3.6, а. На этом рисунке через Lx обозначены все до- допустимые координаты точек на сетчатке левого глаза, а через Rx — все до- допустимые координаты точек на сетчатке правого глаза. Непрерывные верти- вертикальные и горизонтальные отрезки прямых представляют линии визирования левого и правого глаз соответственно; штриховые диагональные прямые обозначают перемещения с постоянной скоростью по изображениям левого и правого глаз, т. е. плоскости постоянной диспаратности. Выполнить доказательство теперь не составит труда, по крайней мере в концептуальном отношении. Правило 1 указывает, что рассматривать следует только черные точки. Правило 3 говорит о том, что истинные соответствия в целом сосредоточиваются на этих диагоналях или вблизи от них, а правило 2 — что в каждой отдельной точке следует выбирать лишь те соответствия, которые располагаются на этих плоскостях постоянной диспаратности. Плот- Плотность расположения точек на каждом изображении равна v, так что плотность 129
6) в) Рис. 3.6. Lx и Rx ~ координаты, характеризующие положение элементов описания на левом и правом изображениях (а). Сплошные вертикальные и горизонтальные отрезки прямых представляют линии визирования левого и правого глаз. Их пересечения соот- соответствуют допустимым значениям диспаратности. Штриховые диагональные прямые обозначают линии постоянной диспаратности. Кооперативный алгоритм, описываемый в тексте, предусматривает размещение ячей- ячейки в каждом узле сети; в этом смысле сплошные прямые представляют тормозящие связи, а штриховые — возбуждающие. Локальная структура произвольного узла сети на рис. 3.6, а приведена на рис. 3.6, б. Этот алгоритм допускает обобщение на двухмерный случай - при этом локальная структура произвольного узла соответствующей сети бу- будет иметь вид, показанный на рис. 3.6, в. Изображенный на нем овал представляет плос- плоский диск, поднимающийся из плоскости страницы [153] 130
допустимых соответствий на истинной плоскости постоянной диспаратности также равна v. в то время как на остальных ("неистинных") плоскостях по- постоянной диспаратности она составляет лишь v2. Следовательно, эти три пра- правила обеспечат получение единственного решения при условии, что диспарат- ность изменяется достаточно медленно, чтобы площадь А, приходящаяся на каждую плоскость постоянной диспаратности, была достаточно великан зна- значение A v существенно отличалось от значений A v2. Итак, поскольку решение единственно (определяется А и—соответствиями), оно правильно отражает физическую реальность, поскольку в этом случае может быть получено толь- только одно решение. Именно это является главным моментом доказательства. Конечно, такая формулировка несколько примитивна и целый ряд деталей требует специального рассмотрения. Доводы, приведенные нами, подтверждают следующие два положения. Во-первых, основное допущение стереопсиса справедливо, и справедливо по- потому, что входящие в него условия сформулированы на основе доводов, от- отражающих структуру реального физического мира. И, во-вторых, основное допущение стереопсиса обеспечивает надежный фундамент для определения процесса установления соответствия, так как всякое соответствие, удовлет- удовлетворяющее этому допущению, с гарантией является истинным. Более того, в обычных реальных ситуациях такое соответствие всегда можно установить. На этом изложение информационной теории стереопсиса заканчивается. Алгоритмы для установления соответствий между изображениями стереопары Кооперативный алгоритм. В подтверждение того положения, что для реализации не- некоторого процесса можно предложить не один, а несколько различных алгоритмов, мы приведем два алгоритма, обеспечивающих установление соответствий между изображе- изображениями стереопары. Первый [153] естественно следует из анализа, проведенного в преды- предыдущем разделе: иллюстрации, представленные на рис. 3.6, облегчат понимание принципа действия этого алгоритма. Как было показано выше, правила 2 и 3 определяют решение задачи установления со- соответствий. Правило 2, в сущности, сводится к тому, что вдоль каждого из горизонталь- горизонтальных и вертикальных отрезков на рис. 3.6, а допускается установление лишь одного соот- соответствия. Правило 3 указывает, что истинные соответствия проявляют тенденцию к рас- расположению по штриховым диагоналям. Сейчас мы займемся построением параллельной сети взаимосвязанных процессоров, обеспечивающей непосредственную реализацию этих двух правил. В каждое пересечение - узел (см. рис. 3.6, а) — помещается маленький процессор. Идея состоит в том, что узлу, представляющему истинное соответствие пары черных точек, должно быть приписано в конечном счете значение ". Если же вершина не представляет истинного соединения — ложная цель, как мы назвали ее выше, — то процессор должен выдавать значение "О". Для реализации наших правил используются связи, устанавливаемые между процессо- процессорами. Как нам известно, правило 2 утверждает, что вдоль каждой горизонтальной или вер- вертикальной прямой можно устанавливать лишь одно соответствие. Поэтому все процессо- процессоры, расположенные в узлах каждой вертикальной или горизонтальной прямой, должны блокировать друг друга. В результате конкуренции, возникающей на каждой из пря- прямых, лишь один процессор сможет воспроизводить единицу, а все остальные — только нули, и, следовательно, правило 2 будет выполняться. Правило 3 утверждает, что истин- 131
ные соответствия обычно располагаются вдоль пунктирных прямых, поэтому по таким направлениям мы вводим между процессорами возбуждающие связи. В результате структура каждого локального процессора принимает вид, приведенный на рис. 3.6, б. От каждого локального процессора тормозящие (блокирующие) связи направляются к процессорам, расположенным вдоль горизонтальной и вертикальной прямых, приведен- приведенных на этом рисунке и соответствующих линиям визирования обоих глаз, а возбуждаю- возбуждающие связи направляются вдоль диагонали, представляющей собой линию постоянной диспаратности. Этот алгоритм можно даже обобщить на двухмерный случай - при этом тормозящие связи остаются без изменений, а возбуждающие покрывают некоторую небольшую двухмерную окрестность, в которой диспаратность постоянна. Этот вариант показан на рис. 3.6, в. Настраивается эта сеть следующим образом: рассматриваются два изображения, и значение " присваивается всем допустимым парам черных точек, для которых вообще могло бы быть установлено соответствие - ложным целям и всем до единой допусти- допустимым парам; остальным же узлам сети присваивается значение "О". После этого сеть на- начинает работать. Для каждого процессора суммируются единицы, которыми помечены его возбуждающие связи, и отдельно суммируются единицы, которыми помечены его тормозящие связи; далее полученные значения вычитаются одно из другого (после то- того, как одна из сумм умножается на соответствующий весовой коэффициент). Если результат вычитания превышает некоторую пороговую величину, процессору присваива- присваивается значение ", в противном случае ''0" Формально этот алгоритм можно записать с помощью следующего итерационного соотношения: rt + i = J 2 ct е 2 ct , ro I Cx, у; d ° jxfjtf d'<ES (x, y; d) cx,'y; d ~ xlyld'<E О(x,y; d) cx;y; d + Lx,y; dj' t где С т обозначает состояние ячейки сети, представленной на рис. 3.6. а (состояние ячейки, местоположение которой определяется координатами (х, у), в момент времени t; d - соответствующее значение диспаратности); S (х, у, d) — локальная возбуждаю- возбуждающая окрестность и О(х, у, d) - тормозящая окрестность; £ — некоторая постоянная торможения, а О — некоторая пороговая функция. Начальное состояние С0 включает все допустимые соответствия, в том числе ложные цели, в пределах заданного диапазона значений диспаратности В данном случае оно учитывается на каждом шаге итерации (это не необходимо, но алгоритм при этом сходится быстрее). Обратите внимание на то, каким образом геометрическая организация тормозящих и возбуждающих окрест- окрестностей О и S обеспечивает реализацию правил 2 и 3. Этот алгоритм позволяет успешно обрабатывать стереопрограммы, образованные случайными конфигурациями точек. На рис. 3.7 показано, как такая сеть с помощью последовательной самоорганизации обеспечивает воспроизведение правильного реше- решения. На рисунке приведены левая и правая стереограммы, начальное состояние сети обо- обозначено через "О", а состояние сети после выполнения п итераций — соответствующим числом Для того чтобы понять, каким образом эти рисунки отображают состояние сети, следует предположить, что наша сеть рассматривается сверху, т. е. точка наблюдения расположена в верхней части рис. 3.6. Слои сети, соответствующие разным значениям диспаратности, располагаются в параллельных плоскостях, так что наблюдатель смотрит сквозь них вниз. Часть узлов, расположенных в каждой из этих параллельных плоскос- плоскостей, возбуждена, а часть - заторможена. Каждому из семи слоев сети приписывается от- отдельный уровень серого тона, и поэтому некоторый возбужденный узел, принадлежа- принадлежащий верхнему слою (соответствующему диспаратности, составляющей +3 пиксела), вводит в изображение черную точку, а некоторый возбужденный узел, принадлежащий самому нижнему слою (соответствующему диспаратности, составляющей -3 пиксела), 132
3 ь 8 U Рис. 3.7. Расшифровка стереоскопической пары изображения, образованных случайны- случайными конфигурациями точек, с помощью кооперативного алгоритма. Стереоскопическая пара изображений (стереограммы) помещена в верхней части рисунка; исходное состо- состояние сети, включающее все допустимые соответствия в пределах заданного диапазона значений диспаратности, обозначено меткой "О". Алгоритм выполняет ряд итераций (ре- (результаты некоторых из них представлены на рисунке), постепенно выявляя искомую структуру. Различные уровни зачерненности изображения соответствуют различным зна- значениям диспаратности 133
Рис. 3.8. Алгоритм, применение которого проиллюстрировано рис. 3.7, можно также ис- использовать для расшифровки и заполнения чрезвычайно слабоэаполненныхстереограмм. На данном рисунке плотность заполнения составляет 5 % вводит в изображение белую точку. В начальном состоянии (нулевая итерация) сеть не- неорганизованна, конечное же ее состояние соответствует устойчивой упорядоченности A4-я итерация); в результате обнажается структура, напоминающая перевернутый свадебный торт. Плотность заполнения стереограммы точками в данном случае состав- составляет 50 %. 134
Алгоритм, заданный приведенным выше итерационным соотношением, можно при- применять для расшифровки стереограмм, образованных случайными конфигурациями точек с плотностью заполнения от 50 до менее 10 %, взяв в качестве значений парамет- параметров те же, что использовались в примере на рис. 3.7. При таких и меньших плотностях заполнения сходимость алгоритма уменьшается. Если допустить возможность использо- использования какого-либо простого геометрического механизма для управления зависимостью пороговой функции а от усредненной активности сети (числа возбужденных ячеек) на каждой итерации, то данный алгоритм оказался бы пригоден для расшифровки стерео- грамм с очень низкой плотностью заполнения точками. В нашем втором примере, кото- который приведен на рис. 3.8, плотность заполнения стерео граммы точками составляет 5 % и значение диспаратности центрального квадрата относительно фона составляет -2 пик- пиксела. Алгоритм обеспечивает заполнение областей, в которых не имеется ни одной точ- точки, но при этом для получения решений, подобных тем, что мы имеем при плотности за- заполнения 50 %, требуется выполнить на несколько итераций больше. Рассматривая сла- бозаполненные стереограммы, мы воспринимаем контуры четче, чем это делает алго- алгоритм. Это, вероятно, объясняется тем, что между точками, расположенными на границах объектов, возникают субъективные контуры. Эти параметры способствуют интуитивному пониманию работы алгоритма. Судя по всему, он "не испытывает никаких затруднений" при обработке стереограмм, но одного этого обстоятельства недостаточно, для того чтобы считать его надежным. Нам, однако, удалось придать ему интеллектуальную респектабельность: проанализировав математи- математические свойства этого алгоритма [152], мы показали, что состояния, удовлетворяющие условиям правил 2 и 3, являются устойчивыми состояниями алгоритма, и продемонст- продемонстрировали сходимость алгоритма в широком диапазоне значений его параметров. Мы рассмотрели пример кооперативного алгоритма, названного так из-за использо- использованного в нем способа достижения глобального результата с помощью хорошо отрегули- отрегулированной "кооперации" локальных операций. Кооперативные явления хорошо известны в физике, скажем предложенная Изингом-модель ферромагнетизма, сверхпроводимость и фазовые переходы. Кооперативные алгоритмы обладают многими общими с этими явлениями свойствами. Кооперативные алгоритмы и задача установления соответствия между изображения- изображениями стереопары. Вплоть до 1977 года почти все стереоалгоритмы, представляемые как модели, ориентированные на процесс стереопсиса у человека, основывались на гипотезе Джулеса о том, что процесс установления соответствия между изображениями стерео- стереопары - это некоторое кооперативное явление [113, с. 203; 115; 174; 39; 85; 222; 153]. Два исключения составляют программа AUTOMAP Джулеса Ц12], в основу которой по- положен метод, предусматривающий выделение кластеров, и модель Сперлинга [218], основанная на корреляции уровней серого тона, но вносящая интересный вклад в изу- изучение связи стереопсиса с вергентными движениями глаз. Анализ всех этих работ приводит к одному весьма примечательному выводу: не счи- считая нашего алгоритма, в основу которого положен информационный подход, ни одно описание указанных алгоритмов не сопровождается анализом соответствующих инфор- информационных аспектов задачи установления соответствия между изображениями стерео- стереопары. Непосредственным следствием этого обстоятельства является то, что ни один из алгоритмов не дает верного результата, так как, по меньшей мере одно из условий ос- основного допущения стереопсиса либо не учитывается, либо неправильно реализовывает- ся. Модель Сперлинга основана на корреляции уровней серого тона, что, как мы убеди- убедились, неверно и из-за чего эта модель не реализована. Сперлингу не удалось определить размеры и расположение окрестностей, на которых должна осуществляться корреляция. Именно в связи с этим и возникают проблемы. 135
R. а) б) в) Рис. 3.9. В некоторых из известных кооперативных стереоалгоритмов предусматривает- предусматривается использование только одного набора тормозящих связей между детекторами, соот-* ветствующими различным значениям диспаратности и относящимися к одной и той же позиции сетчатки. Если представить эти связи в том же, что и на рис. 3.6, виде, становит- становится очевидно, что они воспроизводят иные ограничения: вместо запрещения установле- установления двух соответствий на каждой линии визирования, как это было в случае, представ- представленном на рис. 3.6, эти связи запрещают установление двух соответствий по любому радиусу, исходящему из позиции, занимаемой наблюдателем. Такой способ организации процесса установления соответствий между изображениями стереопары неверен Алгоритм Дев заслуживает внимания как одна из первых попыток точного претворе- претворения в жизнь идей Джулеса [39, уравнения 1 и 2). В этом алгоритме реализованы правила 2 и 3, однако первое из них - в неправильной модификации. Вместо двух тормозящих связей, по одной на каждую линию визирования, Дев использовала в своем алгоритме одну тормозящую связь, разделяющую пополам угол между линиями левого и правого глаз. Этот алгоритм, который иллюстрирует рис. 3.9, следует сопоставить с геометричес- геометрической организацией, представленной на рис. 3.6. Физически соединения, показанные на рис. 3.9, соответствуют некоторому варианту правила, утверждающего, что наблюдатель, куда бы он ни направлял взгляд, увидит только одну поверхность. Вообще говоря, это неверно: когда Вы смотрите, например, на неглубокое озеро, Вы видите две поверхнос- 136
ти - поверхность озера и его дно. В правильном варианте (см. рис. 3.6) такое правило гласит, что любые заметные характерные особенности находятся либо на поверхности озера, либо на его дне (либо, возможно, на теле какой-то рыбы, плавающей на озере), но обязательно лишь на одной из этих поверхностей. В алгоритме Сугиэ и Сувы [222] частично реализовано правило 3 и использована все та же неверная модификация правила 2. Нелсон [174] не предложил никакого варианта алгоритма и не воплотил своих идей, однако он, очевидно, также имел в виду некото- некоторый алгоритм, использующий неправильную модификацию правила 2. Хираи и Фукуси- ма [85] правильно использовали правило 2 (с. 48, функция A)), но отказались от ис- использования правила 3, предпочтя ему сеть, "благосклонную" к решениям, соответст- соответствующим меньшим значениям параллакса. Джулесу в своей программе AUTOMAP [П2] не удалось реализовать правило 2, но правило 3 в ней неявно используется для выделения кластеров. Больший интерес вызы- вызывает дипольная модель Джулеса. Она представляет собой физическую аналоговую мо- модель, в которой для представления левого и правого изображений стереопары использу- используются две сетки (по одной на каждое изображение), образованные магнитными стрелка- стрелками (магнитными диполями); для каждой характерной особенности каждого изображе- изображения, подлежащей установлению соответствия, в сетке предусмотрена отдельная магнит- магнитная стрелка. Ориентация стрелок такова, «то при наложении двух таких сеток они могут располагаться острием в направлении соседних позиций сетки, представляющей второе изображение. В каждой из сеток концы соседних стрелок соединены пружинками, и по- полярность каждой магнитной стрелки (северная или южная) выбирается в соответствии с яркостью изображения (черное или белое) в этой позиции. Идея, положенная в основу гакой модели, состоит в том, что при приближенном установлении соответствий с по- помощью наложения сеток, представляющих левое и правое изображения, магнитное при- притяжение, которое возникает между аналогично расположенными группами стрелок, при- приведет к стабилизации каждой сетки; в результате стрелки каждой сетки будут указы- указывать на правильно соответствующие им стрелки второй сетки. Хотя соотношение поляр- полярностей магнитиков и значений яркостей сетчатки неизвестны, за исключением "случая стереограмм, образованных случайными конфигурациями точек, в дипольной модели в неявном виде реализована единственность, т. е правило 2, поскольку в любой момент времени некоторый определенный диполь может иметь лишь одну ориентацию. Соедине- Соединение кончиков соседних диполей пружинкой обеспечивает реализацию условия непрерыв- непрерывности правила 3. Данная модель, следовательно, в наибольшей степени удовлетворяет нашим требованиям, однако в отличие от других кооперативных моделей не представ- представляет в явном виде всех допустимых узлов структуры, приведенной на рис. 3.6, а. В сущ- сущности, в данном случае на каждый вертикальный и горизонтальный отрезки этой струк- структуры приходится лишь по одному процессору, а отдельным узлам, расположенным на них, соответствуют различные углы, под которыми располагается этот единственный ди- диполь. Было бы интересно узнать, может ли такая модель работать. Затронул же я эту тему лишь для того, чтобы подкрепить свой общий тезис, состоя- состоящий в том, что интеллектуальная строгость используемого метода имеет решающее зна- значение при изучении возможностей обработки информации зрительной системой. Если информационная основа некоторого процесса сформулирована неверно, то соответст- соответствующий алгоритм почти наверняка окажется неверным. И наконец, ни для одного из упоминавшихся алгоритмов не была продемонстриро- продемонстрирована возможность работы с естественными изображениями. Механизм корреляции уров- уровней серого тона обладает определенной работоспособностью, однако при его использо- использовании возникают ошибки, исправлять которые должен человек-оператор. Что касается других методов, то для них не определен вид входного представления, хотя следует от- 137
■* .4 Рис. ЗЛО. Высокочастотные компоненты спектра этой стереограммы находятся в состо- состоянии "соревнования" в отличие от низкочастотных, которые могут достигать слияния. В этом случае следует предположить, что в процессе стереопсиса участвуют независимые каналы, настраиваемые на различные значения пространственных частот [116] метить, что Марр и Поджо [153] указывали на пригодность использования в качестве та- такого представления первоначального эскиза. Биологические данные. Все обсуждавшиеся в предыдущем разделе алгоритмы пред- предназначены для выбора правильных соответствий в тех случаях, когда ложных целей очень много. Поэтому, за исключением, быть может, первых вариантов дипольной мо- модели Джулеса, ни в одном из них движения глаз не учитываются, гак как вообще они дают возможность интерпретировать стереограммы, образованные случайными конфи- конфигурациями точек без учета этих движений. Движения глаз человека, однако, представля- представляются существенными для стереоскопического зрения человека. На самом деле, без та- таких движений человек может воспринимать лишь очень небольшую глубину - область, в которой достижимо слияние1 двух изображений (ее называют фузионной зоной Па- нума2 порядка 6 - 18'[47, 115]), что почти полностью исключает возможность воспри- восприятия любых структур [199], за исключением случаев малых значений диспаратности [165]. Для сложных стереограмм типа спирали Джулеса [113, рис. 4.5-4] движения глаз, возможно, оказываются существенными [51, 209] и чрезвычайно удивительно, что, не- несмотря на известные старые результаты Фейдера и Джулеса, психофизики до недавнего времени уделяли так мало внимания движениям глаз. Известно еще несколько психофизических явлений, которые было бы трудно объяс- объяснить с помощью рассмотренных нами алгоритмов. Некоторые люди, например, в состоя- состоянии справляться с ситуациями, когда одно из изображений увеличивается в размерах на 1 В отечественной литературе, посвященной психологии зрительного восприятия, процесс построения единого зрительного бинокулярного пространства посредством сли- слияния монокулярных пространств иногда называют фузией, рассматривая ее как одну из разновидностей сенсорной реакции на диспаратность. - Прим. перев. 2 В отечественной литературе, посвященной психологии зрительного восприятия, эту область обычно называют просто зоной Панума. - Прим перев. 138
15 % [113, рис 3.10-3) Это, однако, всего лишь наиболее яркая демонстрация явления, которое может проявляться и по-другому На самом деле, человек может одновременно воспринимать бинокулярное "соревнование" и слияние отдельных составляющих спект- спектра стереограммы, в чем читатель может убедиться, обратившись к рис 3 10 [117; 113, разд 3 9 и 3 10; 116; 162] Подобные наблюдения приводят к очень интересной гипоте- гипотезе на определенном этапе обработки зрительной информации передача информации, характеризующей диспаратность, производится по специальным каналам стереопсиса, настраиваемым на различные частоты и перекрывающим приблизительно полторы окта- октавы (эти каналы, в сущности, очень сильно напоминают операторы V2G с рецептивными полями различных размеров, с которыми мы имели дело в гл 2) Среди других представляющих интерес результатов следует отметить физиологичес- физиологические, клинические и психофизические данные, относящиеся к гипотезе Ричардса о двух группах [196, 197, 200, 183, 35] Основной результат Ричардса состоит в том, что стерео- слепота проявляется как "слепота" относительно любых конвергентных диспаратнос- тей, любых дивергентных диспаратностей или относительно и тех и других Кстати, раз- различные стереоаномалии распространены чрезвычайно широко, охватывая до 30 % людей Другими словами, стереодетекторы организованы, очевидно, в две группы, одна из ко- которых должна обеспечивать восприятие конвергентных, а другая - дивергентных диспа- диспаратностей, причем, возможно, существует и третья группа, предназначенная для воспри- восприятия нулевой диспаратности Данные нейрофизиологов свидетельствуют приблизительно то же самое — существуют, грубо говоря, три класса нейронов, настраиваемых на опре- определенную диспаратность класс, настраиваемый на конвергентную диспаратность (так называемые нейроны малой удаленности), класс, настраиваемый на дивергентную дис- диспаратность (так называемые нейроны большой удаленности), и третий класс, настраи- настраиваемый на близкие к нулю значения диспаратности Диапазоны значений диспаратности, на которые настраиваются нейроны первых двух классов, достаточно велики, в то вре- время как нейроны третьего класса характеризуются острой настройкой Эти данные проти- противоречат представлению реализации рассмотренных выше алгоритмов на нейронном уровне, поскольку, не считая дипольной модели, все они предусматривают использова- использование большого числа "нейронов-детекторов диспаратности", максимальная чувствитель- чувствительность которых перекрывает значительно больший диапазон значений диспаратности, чем обеспечивают кривые настройки отдельных нейронов И наконец, еще одно замечание, касающееся причин, побудивших нас обратиться к подходу, который предусматривает использование кооперативных алгоритмов Как мы уже отмечали, все реализованные в нем идеи возникли под влиянием одного результата Фейдера и Джулеса [47] - демонстрации наличия явления гистерезиса в процессе стерео- стереопсиса В своих экспериментах они стабилизировали изображение относительно движений глаз и показали, что при условии возникновения слияния двух изображений их можно "раздвигать" без нарушения слияния вплоть до значения диспаратности порядка 2° Если же, однако, слияние нарушается, то для его восстановления необходимо снова начать совмещение изображений, вернув их в область 6 — 14' Гистерезис является одной из особенностей кооперативных алгоритмов, и поэтому заполнение промежутков также, очевидно, проявляется в процессе стереопсиса (как читатель уже имел возможность убе- убедиться, стереограммы с малой плотностью заполнения, подобные приведенной на рис 3 8, воспринимаются как некоторая гладкая твердая поверхность, а не как несколько от- отдельных точек, подвешенных в пространстве) Исходя из этого все, в том числе Джулес и мы, обратились к кооперативному алгоритму Для подобного шага тем не менее не было особых оснований В конечном счете, важ- важнейшим результатом данного эксперимента Фендера и Джулеса было подтверждение на- наличия гистерезиса при значениях диспаратности порядка двух градусов, в то время как 139
соответствие устанавливается при 20! Следовательно, представляется маловероятным возникновение гистерезиса как результата процесса установления соответствий и значи- значительно более вероятным, что его можно приписать работе корковой памяти, запоминаю- запоминающей результаты, получаемые при установлении соответствия, но действующей независи- независимо от последнего процесса. Фендер и Джулес даже выступили с такой гипотезой. Конеч- Конечно, это не исключает возможности использования механизма кооперативное™ в процес- процессе установления соответствия, и так называемый эффект распространения, описанный позже Джулесом и Чаном [115], служит, очевидно, подтверждением его наличия. Вывод же, однако, состоит в том, что не следует, возможно, придавать такое значение нашим представлениям, связанным с кооперативными процессами, и целесообразно обратиться к совсем иному подходу к проблеме стереопсиса. Второй алгоритм. Основная проблема, которую приходится решать при достижении бинокулярного слияния, — это устранение ложных целей или раз- разработка способа, обеспечивающего возможность их не рассматривать. Слож- Сложность этой проблемы определяется двумя факторами: изобилием на изобра- изображении признаков, подходящих для использования в процессе установления соответствия, и диапазоном значений диспаратности, в пределах которого по- последний процесс разворачивается. Если какой-либо признак встречается на изображении достаточно редко, то в процессе установления соответствия может оказаться просмотренным достаточно большой диапазон значений диспаратности, прежде чем поиск приведет к встрече с ложной целью, если же, однако, признак является стандартным либо критерий, используемый при установлении соответствия, определен не очень точно, то ложные цели могут встречаться уже при просмотре совсем небольшого диапазона значений диспа- диспаратности. В таком случае для упрощения задачи установления соответствий следует уменьшить "область определения" признаков, подходящих для использова- использования в процессе установления соответствий, т. е. необходимо сделать призна- признаки редкими событиями. Добиться этого можно двумя способами. Первый — сделать их очень сложными или придать им чрезвычайно специфический вид, с тем чтобы даже при высокой плотности их распределения на изображении число их разновидностей оказалось бы столь велико, что сопоставимая пара возникала бы редко. Второй способ состоит в значительном уменьшении плотности распределения на изображении всех признаков, скажем, с помощью понижения степени пространственного разрешения при изучении изображе- изображения. Из работы Джулеса, посвященной стереограммам, образованным случайными кон- конфигурациями точек, известно, что перспективы первого подхода весьма проблематичны. Мы знаем, что установление соответствия — локальная процедура, если все яркостные переходы строго вертикальны или горизонтальны и имеют один и тот же контраст, и, следовательно, использование даже очень специфических критериев не очень поможет нам. Более того, это привело бы к существенному ухудшению результатов при работе с реальными изображениями, у которых ориентации и контрасты двух соответствующих друг другу яркостных переходов могут поразительным образом отличаться. Читатель, обратившись к рис. 3.11, сам может убедиться в том, что стереограммы с различными контрастностями поддаются слиянию. Контрасты, однако, должны иметь один и тот же знак. Критерии ориентации также весьма нестроги. 140
ш "X "V Рис. 3.11. Несмотря на то, что контрастности левого и правого изображений различны, их слияние все же оказывается возможным Более перспективным, однако, представляется другой способ. Действительно, тот факт, что при бинокулярном слиянии используются независимые каналы, настраивае- настраиваемые на различные пространственные частоты, снова привлекает к себе внимание, пред- представая в совершенно новом свете, поскольку это означает, что при слиянии используют- используются несколько вариантов одного и того же изображения, получаемых с помощью последо- последовательного уточнения фильтрации. В результате обеспечивается увеличение разрешения по диспаратности и в конечном счете — достижение очень высокой степени такого раз- разрешения за счет уменьшения диапазона значений диспаратности. Примечательным свойством любой системы, реализующей указанные механизмы, является использование движений глаз при построении подробной и точной карты дис- паратностей для двух точек наблюдения. Дело в том, что наиболее точные значения дис- диспаратности дают каналы высокого разрешения и, следовательно, становятся существен- существенны движения глаз, так как каждая часть сцены должна в конечном счете попасть в тот малый диапазон значений диспаратности, в котором действуют эти каналы высокого разрешения. Важность вергентных движений глаз связана также и с тем, что этими движениями можно управлять с высокой точностью [201, 190]. Такие данные позволяют предложить следующую схему для решения задачи слия- слияния: 1) каждое изображение анализируется с помощью каналов, характеризующихся различной точностью, и соответствия устанавливаются между результатами, полученны- полученными в каналах одинаковой точности по каждому из обоих глаз для значений диспаратнос- диспаратности, соответствующих порядку разрешения канала; 2) каналы с малым разрешением управляют вергентными движениями глаз, обеспечивая синхронизацию работы точных каналов. В этой схеме отсутствует гистерезис и, следовательно, не учитываются результаты Фейдера и Джулеса [47]. С другой стороны, согласно развиваемой нами теории проме- промежуточного уровня обработки информации в зрительной системе основной целью нижне- нижнего уровня обработки зрительной информации является построение своего рода карты ориентаций-глубин для всех поверхностей, которые доступны взору наблюдателя (см. гл. 4). Она объединяет данные, полученные с помощью ряда различных и, очевидно, не- независимых процессов, которые позволяют интерпретировать информацию, заключен- заключенную в диспаратности, движении, тенях, текстуре и контурах. На рис. 3.12 приведено 14 Г
с - а - а - • О О 1 ? • а) б) Рис. 3.12. Иллюстрация понятия 2,5-мерного эскиза. На рис. 3.12, а изображены в перс- перспективе маленькие квадратики, характеризующиеся различными ориентация ми относи- относительно наблюдателя. Точки со стрелками условно представляют ориентации этих по- поверхностей. На рис. 3.12, б это же условное представление использовано для указания ориентации двух цилиндрических поверхностей, расположенных на перпендикулярном к наблюдателю фоне. Полный 2,5-мерный эскиз должен включать приближенные значе- значения расстояний до поверхностей, а также их ориентации, контуры, на которых ориента- ориентации поверхности претерпевают резкие изменения (эти контуры изображены точками), и контуры, на которых происходит нарушение непрерывности по глубине (субъектив- (субъективные контуры, они изображены сплошными линиями). Подробные данные приведены в гл. 4 [151] представление, реализующее идею такой карты и названное Марром и Нисихарой 2,5-мер- 2,5-мерным эскизом [151]. Предположим теперь, что гистерезис, обнаруженный Фейдером и Джулесом, возника- возникает ie в результате некоторого кооперативного процесса, действующего при установле- установлении соответствий изображений стереопары, а является следствием использования неко- некоторого буферного запоминающего устройства типа 2,5-мерного эскиза для хранения карты глубин изображения после того, как она построена. В таком случае процесс уста- установления соответствий не должен обязательно носить кооперативный характер (даже если он еще мог бы быть таковым) — необязательно даже, чтобы при этом процесс установления соответствий реализовывался на всем изображении одновременно, если карта глубин видимой поверхности построена и введена в указанное промежуточное запоминающее устройство Мы можем теперь завершить построение своей схемы, добавив к ней сле- следующие два этапа: 3) после того как некоторое соответствие установлено, оно фиксируется и включается в 2,5-мерный эскиз; 4) существует некоторая разновидность обратной связи между запоминающим устройством и канала- каналами, проявляющейся в управлении движениями глаз, которое дает наблюдате- наблюдателю возможность легко подвергать слиянию любой участок поверхности при условии, что карта ее глубин введена в запоминающее устройство. Идея начать процесс с установления соответствий для затрубленных и силь- 142
но разнесенных признаков, а затем, используя полученную таким образом информацию, повторять этот процесс при более высоких уровнях разреше- разрешения выглядит многообещающе, однако какие признаки следует сопостав- сопоставлять при этих различных уровнях разрешения? Нам известно достаточно мно- много о предварительном этапе обработки зрительной информации, для того что- чтобы иметь возможность предлагать различные варианты. Следует ли обратить- обратиться к пересечениям нулевого уровня, необработанному первоначальному эс- эскизу, полному первоначальному эскизу, или целесообразно использовать какую-нибудь комбинацию этих представлений? Поджо и я предложили, что исходное представление для процесса установления соответствий между изо- изображениями стереопары должно включать необработанные пересечения нуле- нулевого уровня, снабженные указаниями о знаке изменения контраста и их при- приближенной ориентации на изображении, и концы (локальные нарушения не- непрерывности), также снабженные указаниями о контрасте и, возможно, об очень приближенных значениях ориентации. Процесс установления соответствий между изображениями стереопары. Выбор исходного представления приводит .к алгоритму установления со- соответствий между изображениями стереопары, работа которого проиллюст- проиллюстрирована рис. 3.13 и 3.14. На них приведены результаты обработки на ЭВМ (работа выполнена Э. Гримсоном) пары стереограмм, образованных случай- случайными конфигурациями точек — такие стереограммы являются одним из наи- наиболее трудных для данного алгоритма видов представления исходных дан- данных. Левое и правое изображения, составляющие стереограмму, образованную случайными конфигурациями точек и имеющую плотность заполнения 50%, приведены в верхней части рис. 3.13. Первый шаг данного алгоритма состоит в применении V2 G-фильтра с большим рецептивным полем к каждому из этих изображений и определении пересечений нулевого уровня точно так, как это делалось в гл. 2. Хотя теоретически элементы изображений, между кото- которыми должно устанавливаться соответствие, включают как пересечения нуле- нулевого уровня, так и концы, лишь первые порождают трудности, связанные с ложными целями. Так, на рис. 3.14 представлены лишь пересечения нулевого уровня, причем горизонтальные отрезки фактически игнорируются, посколь- поскольку простыми средствами процесс установления соответствия для них реали- реализовать не удается. Для пересечений нулевого уровня помимо их местоположений задаются также знак и приблизительная ориентация. Этот знак характеризует знак из- изменения контраста при переходе через пересечение нулевого уровня слева направо и определяется уровнем серого тона, который на изображении соот- соответствует пересечению нулевого уровня. Между двумя пересечениями нуле- нулевого уровня можно устанавливать соответствие, если у них одинаковые зна- знаки и их локальные ориентации отличаются не более чем на 30°. Собственно процесс установления соответствия осуществляется вдоль пересечений нулевого уровня поточечно. На рис. 3.14 приведены результаты свертки и пересечения нулевого уровня (со знаками), полученные при использовании V2 G-фильтров с рецептивными 143
Левое изображение Правое изображение Рис 3 13 Решение для случайной конфигурации точек с 50 %-ным заполнением В верх- верхней части рисунка представлены левое и правое изображения. Ниже в прямоугольной проекции представлены три карты диспаратности, построенные при установлении соот- соответствий между описаниями пересечений нулевого уровня, приведенных на рис 3 14. Точка изображения с координатами (х, у) и приписанным ей значением диспаратности d представляется в згой трехмерной системе как точка с координатами (х, у, d) Таким образом, высота светлой точки над плоскостью указывает ее значение диспаратности полями трех различных размеров Читатель имеет возможность убедиться в том, что канал с наименьшим рецептивным полем дает значительно больше пересечений нулевого уровня, чем канал с наибольшим рецептивным полем. Это значит, что при использовании каналов с большими рецептивными поля- полями диапазон рассматриваемых значений диспаратности можно увеличить, не рискуя одновременно увеличить частоту встреч с ложными целями. 144
Рис 3 14 Результаты процедур свертки и определения пересечений нулевого уровня для стереограммы, представленной на рис 3 13 В двух левых столбцах сверху вниз приве- приведены результаты свертки левого и правого изображений с фильтром с рецептивными по- полями размером v>2-D = 35, 17 и 9 соответственно В двух правых столбцах представле- представлены пересечения нулевого уровня, полученные на основе результатов процедуры свертки, приведенных в двух левых столбцах Обратите внимание на то, насколько больше под- подробностей выявляют рецептивные поля меньших размеров Следовательно, рис. 3.13 и 3 14 дают возможность составить представле- представление об общей структуре алгоритма. Вначале процесс установления соответст- соответствий реализуется на изображениях, обработанных фильтром с большим рецеп- рецептивным полем; результаты этого шага алгоритма приведены на рис. 3.13, я, представляющем собой итоговую карту диспаратности, изображенную в прямоугольной проекции Эти первые приближенные результаты служат ис- исходными данными для того же самого процесса установления соответствия, но уже для канала с рецептивным полем среднего размера. Уменьшение до- допустимого диапазона значений диспаратности приблизительно компенсирует- компенсируется объемом информации, полученной благодаря использованию канала с большим рецептивным полем. Затем строится карта диспаратности, приве- приведенная на рис. 3.13, б. Далее применяется канал с малым рецептивным полем, небольшой диапазон значений диспаратности которого позволяет получать точные значения диспаратностей; соответствующие результаты приведены на рис 3.13, в. В данном примере диспаратность центрального квадрата состав- 145
a) б) Рис. 3.15. Пересечения нулевого уровня при переходе отрицательной полуволны чисто синусоидального сигнала в положительную полуволну (или при переходе положитель- положительной полуволны в отрицательную) обязательно разделены промежутком \, где \ - длина волны ляет 12 пикселов, а размер каждого черного квадрата — соответственно 4X4 пикселов. В итоговой карте диспаратности соответствие установлено неверно менее чем у 0,1 % точек, причем все они расположены на границах квадрата. Еще о свойствах пересечений нулевого уровня. Данный алгоритм пробле- проблему ложных целей решает обходным путем, однако представляет интерес, как именно это делается, что очень важно с точки зрения психофизики. Мы не будем приводить здесь доказательства, но общую линию можно изложить и не вдаваясь в особые технические детали. Основную идею иллюстрирует рис. 3.15. Допустим, что яркость изображе- изображения изменяется строго синусоидально, образуя вертикально ориентирован- ориентированную синусоидальную дифракционную решетку. Фурье-преобразование такого сигнала приведено на рис. 3.15, а. Этот сигнал не изменяется, пройдя через V2 G-фильтр (его одномерное поперечное сечение приведено на рис. 3.15, б). Поскольку теперь задача сводится к установлению соответствий между пере- пересечениями нулевого уровня для двух подвергнутых фильтрации изображе- изображений, допустим, что мы остановились на некотором конкретном пересечении нулевого уровня, принадлежащем левому изображению и соответствующем переходу от отрицательной к положительной полуволне синусоиды. Правиль- Правильное соответствие для этого нулевого уровня обозначено на рис. 3.15, б через М. В таком случае Fj и F2 обозначают ложные цели. Так как, однако, они также должны представлять переход от отрицательной к положительной полуволне синусоиды, их следует разделить по меньшей мере расстоянием X, где X — длина синусоидальной волны. Итак, при условии ограничения поиска допустимых соответствий диапазоном значений диспаратности, не превышаю- превышающим значения X, имеется гарантия, что мы встретим лишь одно допустимое ■соответствие, и если какие-то иные средства позволяют нам приблизительно определять область, в которой следует вести поиск, то можно быть уверен- уверенным в том, что то единственное соответствие, которое будет нами обнаруже- обнаружено, является правильным. 146
з) б) Рис 3.16. В некотором диапазоне сигнал изменяется случайным образом (в). После про- прохождения через V2 G-фильтр он принимает другой вид (б), причем пересечения нулевого уровня имеют более или менее регулярный характер Аналогичный пример для идеаль- идеального однооктавного полосового фильтра приведен на рис. 2.19. При прохождении сигна- сигналов с ограниченным спектром через v2 G-фильтр или идеальный однооктавный фильтр получаемые пересечения нулевого уровня, в среднем, не могут располагаться ни слиш- слишком близко, ни слишком далеко друг от друга. Интервалы, разделяющие пересечения нулевого уровня, подчиняются статистическим закономерностям, которые иллюстри- иллюстрируются рис. 3.17 Такова основная идея, но разнообразие реального мира не сводится к синусоидальной дифракционной решетке. Синусоидальная волна - это прос- просто предельный случай функции с ограниченным спектром, в котором ширина полосы частот равна нулю. Приведенные выше качественные рассуждения со- сохраняют силу и при более широкой полосе частот, в чем в первом приближе- приближении можно убедиться, обратившись к рис. 2.19 и 3.16. Рассмотрим, в частнос- частности, идеальный однооктавный полосовой фильтр, результат применения пре- преобразования Фурье к которому приведен на рис. 2.19, б. Пример типичного сигнала на выходе такого фильтра показан на рис. 2.19, в. Среднее значение такого сигнала равно нулю, и, следовательно, сигнал пересекает нулевой уро- уровень достаточно часто, подобно тому как это происходит в случае синусои- синусоидальной волны. Поскольку, однако, спектр этого сигнала ограничен, его пересечения нулевого уровня не могут отстоять достаточно далеко друг от друга. Их частота, в среднем, соответствует среднему значению полосы час- частот фильтра. Для нас же важно то обстоятельство, что пересечения нулевого уровня, в среднем, не могут располагаться слишком близко друг к другу, причем это справедливо для любого полосового фильтра. Однако V2 G-фильтр также яв- является лишь некоторой аппроксимацией полосового фильтра — читатель может убедиться в этом, если не сочтет за труд вновь обратиться к одномер- одномерному преобразованию Фурье этого фильтра, приведенному на рис. 2.9, в. На рис. 3.16, б представлены результаты применения V2 G-фильтрак случай- случайному одномерному сигналу (рис. 3.16, а); очевидно, что этот сигнал после фильтрации обладает теми же качественными характеристиками, что и сйг- 147
нал, приведенный на рис. 3.15, его среднее значение равно нулю, а пересече- пересечения нулевого уровня располагаются не слишком далеко и не слишком близко. Общая идея доказательства теперь совершенно ясна — она в точности соот- соответствует идее доказательства, относящегося к случаю синусоидальной вол- волны. Поскольку V2 G-фильтр представляет собой некоторую аппроксимацию полосового фильтра, пересечения нулевого уровня сигнала на его выходе обычно разделены некоторым минимальным расстоянием. При условии, что нам приблизительно известно, где именно следует искать соответствие, и при условии, что поиск не должен охватывать чрезмерно большой диапазон, мы сможем обнаружить единственного кандидата на соответствие, и это соот- соответствие будет правильным. Таким образом, открьюается путь для перспективного подхода к реше- решению задачи установления соответствия, и, помимо этого, возникает еще одна, и весьма привлекательная, возможность. С точки зрения психофизики V2 G фильтр является монокулярным устройством, а процесс установления соот- соответствия бинокулярен. Это означает, что значения параметров V2 G-фильтров (например, ширина их рецептивных полей vv^^) определяются с помощью чисто монокулярных измерений. Диапазон значений диспаратности, в кото- котором развертывается процесс установления соответствий (обычно его называ- называют фузионной зоной Панума; мы будем обозначать его через V), является понятием сугубо бинокулярным. Если наша теория верна, она должна давать возможность в явном виде прогнозировать новые соотношения между этими априорно не связанными величинами, которые измеряются совершенно раз- различными способами. Следовательно, появляется прекрасный способ прове- проверить нашу теорию. Итак, требуется вывести точные количественные соотношения, связываю- связывающие, как мы полагаем, ширину рецептивного поля w^_D и размеры фузион- фузионной зоны Панума V. Для того чтобы иметь возможность сделать это, нужны некоторая количественная модель каналов, используемых на предваритель- предварительном этапе обработки зрительной информации, и какой-либо способ оценки возможных интервалов между пересечениями нулевого уровня. Вероятно, следует отметить, что собственно идея почерпнута из нашей предыдущей ра- работы, посвященной первоначальному эскизу [145]. В этой работе большинст- большинство клеток, действующих на начальном этапе зрительного пути, рассматрива- рассматриваются не как устройство для обнаружения признаков, а как дифференциаль- дифференциальные операторы. Определение Хьюбелом и Уиселом [95] простой кортикаль- кортикальной клетки в качестве линейного устройства привело нас, в частности, к представлению о полосообразном рецептивном поле как о некотором опера- операторе, реализующем вычисление второй призводной по определенному на- направлению, что и составляет основу для последующего нахождения пересече- пересечений нулевого уровня. Лишь позже мы осознали, что сами простые клетки, вероятно, и являются устройствами для определения пересечений нулевого уровня, как это показано на рис. 2.18 (см. также разд. 3.4). С математичес- математической точки зрения эта небольшая путаница не имеет значения, поскольку при очень слабых допущениях обе точки зрения оказываются эквивалентными 148
(см. работу Марра и Хилдрет [150, Приложение А]). С точки же зрения реа- реализации и, следовательно, психофизики это достаточно разные вещи. Позже мы еще вернемся к этой теме. Итак, проведение нашего анализа требует для фильтров, которые исполь- используются в зрительной системе человека, наличия некоторой количественной оценки расстояний, разделяющих пересечения нулевого уровня. В то время когда была сформулирована данная теория стереозрения, основанная на уста- установлении соответствий для различных уровней разрешения, мы еще не знали, что V2 G-фильтр является оптимальным выбором, но нам уже было известно нечто столь же перспективное, поскольку X. Уилсон только что предложил свою четырехканальную модель структуры каналов. Для их описания он вос- воспользовался РГР - разностью двух гауссовых распределений, которая, как можно убедиться с помощью рис. 2.16, практически не отличается от V2 G- фильтра. Нам также очень повезло в том, что касается математических аспектов зада- задачи, так как получение оценок для возможных расстояний между пересечени- пересечениями нулевого уровня сигналов с ограниченными спектрами является делом очень трудным. Ряд математиков, начиная с Раиса [195], а позднее Лонге— Хиггинс [136] и Лидбеттер [130], уже занимались этими вопросами. Задача интересна как таковая, поскольку она возникает в связи с рядом физичес- физических явлений, часть которых относится к числу очень важных. Это эффекты броуновского шума, обусловленные случайными перемещениями электро- электронов в электрических цепях (например, некоторые усилители включаются при переходе напряжения через нулевой уровень), а также распределение высоты морских волн, вызывающее сегодня особый интерес из-за того, что человек пытается приступить к использованию этого источника энергии. Кроме того, этот же математический аппарат применяется при изучении бликов на поверхности моря,т.е. тех его участков,от которых солнце отражается как бы прямо в глаза наблюдателю — в результате поверхность моря блестит и сверкает и создается впечатление, что она мерцает. Итак, существует возможность анализировать пространственные распреде- распределения пересечений нулевого уровня, по крайней мере для одномерных сигна- сигналов с ограниченным спектром. Результаты такого анализа представлены на рис. 3.17 для идеального однооктавного полосового фильтра (левый стол- столбец) — этот пример был проиллюстрирован на рис. 2.19 и для У2С-фильтра, обеспечивающего хорошую аппроксимацию тех фильтров, которые, по мне- мнению Уилсона, действуют на этапах предварительной обработки изображений в зрительной системе человека (правый столбец) — этот случай проиллюстри- проиллюстрирован на рис. 3.16. Необходимые подробности приведены в подписи к рис. 3.17, однако отме- отметим, что особый интерес вызывают два графика, приведенные на рис. 3.17, в. Они указывают вероятность (для случая пересечения нулевого уровня в на- начале координат) наличия другого пересечения нулевого уровня того же знака на расстоянии \ от начала координат. Масштаб по оси £ для случая, представ- представляющего интерес с биологической точки зрения (справа), соответствует зна- значению ширины рецептивного поля Wi_D, равному 2,8. Следует обратить вни- 149
Идеальный однооктавный полосовой фильтр Рецептивное поле, рассматривавшееся в [256] -2 2 to 2 со а) 0,5 0 2 4 6 8? 0 2 4 6 8? б) 0,5 0,5 /Л о 8 8 в) мание на два значения этой вероятности: на расстоянии, равном значению Wi_D, она составляет около 5 %, а на расстоянии, равном значению 2w±_D, она составляет около 50 % и ее значение резко возрастает. Умеренные изме- изменения геометрии фильтра не вызывают существенных изменений значений этой вероятности. Алгоритм установления соответствий между изображениями стереопары. Опираясь на эти сведения, теперь можно предложить алгоритм установления 150
Рис. 3.17. Распределения интервалов разделяющих пересечения нулевого уровня. Фильт- Фильтрация гауссовского случайного процесса осуществляется с помощью фильтра с опреде- определенной амплитудно-частотной характеристикой (а). Приближенные распределения ин- интервалов для первого (Ро) и второго (Рх) пересечений нулевого уровня для гауссовс- ких процессов с нулевыми средними значениями на выходе фильтров (б). Когда пере- пересечение нулевого уровня в начале координат соответствует переходу от отрицательной полуволны сигнала к положительной, вероятность наличия еще одного пересечения ну- нулевого уровня того же знака на .расстоянии £ от начала координат приближенно опреде- определяется значением интеграла от функции распределения Ру (в). В левом столбце приве- приведен график для идеального однооктавного фильтра с центральной частотой oj = 27t/\, в правом столбце аналогичный график приведен для рецептивного поля, рассматривавше- рассматривавшегося в [256]. Соотношение пространственных постоянных возбуждения и торможения составляет 1:1,5. Ширина центральной возбуждающей зоны рецептивного поля w равна 2,8 единиц, в которых градуирована ось £. Для случая, представленного в левом столб- столбце, вероятность $РХ - 0,001 соответствует интервалу % - 2,3, а вероятность 0,5 - интер- интервалу % =6,1. Эти значения для случая, представленного в правом столбце, составляют % = 1,5 и £ = 5,4. Если соотношение пространственных постоянных составляет 1:1,75, соответствующие значения вероятности fPx изменяются не более чем на 5 % [155] соответствий между изображениями стереопары и доказать его корректность. Начнем с одного простого случая, когда ложные цели фактически не рассмат- рассматриваются. Рисунок 3.18, а прекрасно иллюстрирует этот случай. Проверяется соответствие некоторого пересечения нулевого уровня левого изображения, обозначенное через L, пересечению нулевого уровня того же знака правого изображения, смещенного относительно первого на значение диспаратности d. Правильное соответствие обозначено через R, возможная ложная цель F, "притаившаяся" поблизости, изображена штриховой линией. Однако при условии, что рассматривается лишь диапазон значений диспаратности, равный w/2, мы свободны от риска встречи с ложной целью, так как даже если пере- пересечение нулевого уровня R располагается точно на границе диапазона диспа- диспаратности (например, d =w/2), проведенный выше статистический анализ га- гарантирует, что с вероятностью 95 % в диапазоне значений диспаратности, по- покрывающем ширину w центральной возбуждающей части рецептивного поля, может встретиться лишь одно пересечение нулевого уровня того же знака. Даже если не принимать во внимание все те случаи, когда появляются два кандидата на соответствие, более чем в 95 % случаев нам будет сопутствовать успех. При этом, конечно, предполагается, что R — правильное соответствие, т. е. оно действительно принадлежит диапазону w/2, изучаемому алгоритмом. Можно, однако, указать, когда правильное соответствие не принадлежит этому диапазону, поскольку, если диспаратность наблюдаемой поверхности входит в этот диапазон, почти для всех пересечений нулевого уровня левого изображе- изображения на правом изображении найдутся соответствия и для всех пересечений ну- нулевого уровня левого изображения на правом найдется по меньшей мере один кандидат на соответствие. Если же значение диспаратности такой поверх- поверхности выходит за пределы данного диапазона, то вероятность отыскания для некоторого пересечения нулевого уровня левого изображения кандидата на 151
Изображение, видимое левым глазом Изображение, видимое левым глазом Изображение, видимое правым глазом -w/2 d-i-w/2 а) Изображение, видимое правым глазом R б) Изображение, видимое левым глазом Изображение, видимое правым глазом + W в) Рис 3.18. Процесс установления соответствия, ориентированный на левое изображение. Устанавливается соответствие между некоторым пересечением нулевого уровня левого изображения L и пересечением нулевого уровня правого изображения R, смещенным от- относительно первого на значение диспаратности а. Вероятность появления какой-либо ложной цели относительно пересечения нулевого уровня w в диапазоне значений диспа- диспаратности протяженностью R мала, и, следовательно, прис? < w/2 (а) ложные цели будут почти всегда отсутствовать в диапазоне значений диспаратности про1яженностыо w/2 Отсюда следует первый из возможных алгоритмов установления соответствий. В про- противном случае можно рассмааривать все соответствия в диапазоне протяженностью w (б) При этом ложные цели, обозначенные на рисунке через F, могут возникать прибли- приблизительно в 50 % случаев, однако правильное решение также существует. Если правиль- правильное соответствие конвергентно, то ложная цель с высокой вероятностью дивергентна. Итак, при использовании второго алгоритма при однозначности соответствий (для обо- обоих изображений) они принимаются как правильные, а остальные трактуются как неодно- неоднозначные и подчиняющиеся эффекту распространения (в). В данном случае можно уста- установить соответствие между Ll и Л, или/?2 имежду!2 и R2. Поскольку оба соответст- соответствия имеют одинаковые значения диснаратности, соответствие устанавливается между Z,, Hi?, [155] соответствие на правом изображении в пределах указанного диапазона фак- фактически эквивалентна вероятности случайного попадания некоторого пересе- пересечения нулевого уровня соответствующего знака правого изображения в опре- определенный пространственный диапазон w/2. Значение этой вероятности состав- составляет около 40 %. Следовательно, если диспаратность поверхности выходит за 152
пределы указанного диапазона, будет устанавливаться лишь около 40 % со- соответствий, против почти 100%-ного их установления в случае, когда поверх- поверхность попадает в соответствующий диапазон диспаратностей. Следовательно, нетрудно указать, когда процесс установления соответствии успешно завер- завершится. Заметим, кстати, что мы опираемся на третье условие нашего основ- основного допущения — непрерывность, поскольку предполагается, что имеется возможность просматривать некоторую окрестность изображения, размеры которой достаточны для эмпирической оценки различия, существующего между случаями 40 %-ной и, скажем, 95 %-ной вероятности установления со- соответствий. Такая окрестность не должна быть очень большой, но она должна существовать, и именно поэтому нам требуется допущение о непрерывности. Теперь, после того как с помощью этого простого алгоритма проиллюст- проиллюстрирована основная идея, можно приступить к его усовершенствованию, с тем чтобы расширить диапазон допустимых значений диспаратности от w/2 до w. На рис. 3.18, £ изображено уже упоминавшееся пересечение нулевого уровня левого изображения L, однако в данном случае его правильное соот- соответствие на правом изображении R может иметь значение диспаратности d, достигающее значения w. Во-первых, следует отметить, что если диспарат- ность d принимает положительные значения, то на основании тех же, что и вы- выше, доводов можно по меньшей мере с 95 %-ной вероятностью считать пересе- пересечение нулевого уровня R единственным кандидатом на соответствие в диапа- диапазоне значений диспаратности от 0 до w. Во-вторых, как показывает проведен- проведенный нами статистический анализ, вероятность появления ложной цели в диа- диапазоне значений диспаратности, равном 2 w и включающем значения диспарат- диспаратности от d = - w до d = w, составляет самое большее 50 %, даже в том случае, когда правильное соответствие находится на одном из концов этого диапазо- диапазона. Рассматривая эти два обстоятельства в совокупности, мы приходим к вы- выводу, что по меньшей мере в 50 % случаев установление соответствия приво- приводит к получению однозначного и правильного результата, а остальные случаи оказываются неоднозначными и требуют рассмотрения главным образом двух альтернатив — одной конвергентной (в диапазоне @, w)) и одной ди- дивергентной (в диапазоне (—w, 0)), причем одна из них дает правильное соот- соответствие. Выбор правильной альтернативы в случае неоднозначности может основываться просто на учете знаков соседних соответствий (обратите вни- внимание на использование условия непрерывности). Отметим, кстати, что при проверке соответствия в малой окрестности нулевого значения диспаратнос- диспаратности вероятно (р > 0,9) наличие лишь единственного кандидата, что снова сле- следует из статистического анализа. Следовательно, представление о трех диапа- диапазонах значений диспаратности — конвергентном, дивергентном и расположен- расположенном в окрестности нулевого значения - естественно вытекает из данного ме- метода установления соответствий между изображениями стереопары. Итак, если диспаратность поверхности принадлежит указанному диапазо- диапазону, почти для 100 % пересечений нулевого уровня будут найдены соответст- соответствия; в противном случае эта доля составляет 70 % (вместо 40%, о которых речь шла выше), но она все еще достаточно сильно отличается от 100 %, что 153
позволяет нам указывать, когда процесс установления соответствий успешно завершается. Добиться существенного расширения допустимого диапазона значений диспаратности w, не прибегая к более мощным методам удаления ложных целей, не удается, поскольку вероятность появления ложных целей довольно резко увеличивается при выходе за пределы диапазона 2и>. Например, при со- сокращении последнего до 1,5 w доля неоднозначных соответствий падает уже до 20%. Единственность, кооперативность и эффект распространения. Э. Гримсон [71] отметил существенную особенность процесса установления соответст- соответствия: он может реализовываться при использовании только одного из изобра- изображений стереопары либо для обоих изображений одновременно. Так, напри- например, если в случае, представленном на рис. 3.18, в, ориентировать процесс установления соответствий на левое изображение, соответствие для пересече- пересечения нулевого уровня L х неоднозначно, а для пересечения нулевого уровня L 2 — единственно. При ориентации процесса установления соответствий на- правое изображение единственно соответствие для пересечения нулевого уровня Rif но неоднозначно - для R2. Два однозначных соответствия, взя- взятые вместе, составляют правильное решение. Истинность единственных соответствий, а не неоднозначных следует из условия, единственности, включенного в основное допущение стерео пейса. .Поэтому алгоритм установления соответствий можно организовать таким образом, чтобы он находил и "принимал" однозначные соответствия, ориен- ориентируясь на каждое из изображений стереопары. Такая конструкция алгорит- алгоритма, однако, имеет в действительности ряд примечательных следствий, по- поскольку означает, что условие единственности больше не является проверяе- проверяемым по определению в алгоритме, в то время как условие непрерывности таковым остается. Это обстоятельство устанавливается следующим образом. Как мы уже убедились, данный алгоритм предусматривает определение части локальных кандидатов на соответствия, для которых оно фиксируется с тем, чтобы вы- выяснить, принадлежит ли диспаратность наблюдаемой поверхности рассматри- рассматриваемому диапазону значений диспаратности. Если эта часть близка к 100 % — то все в порядке. Если же нет (в этом случае она, по всей вероятности, со- составляет 70 %). — полученное решение отвергается. "Обмануть" этот тест очень трудно, и, поскольку его обоснование базируется на условии непрерыв- непрерывности, он эквивалентен проверке по определению в алгоритме локального выполнения условия непрерывности на видимых поверхностях. Иначе обстоят дела с единственностью. Если алгоритм выбирает решения, ориентируясь на их единственность относительно одного из изображений, то это позволяет с его помощью добиваться слияния конфигураций типа гранич- граничного случая Панума (рис. 3.19) не только для изображений с малым числом "событий" (типа представленного на рис. 3.19, а), но и для изображений с высокой плотностью заполнения. Для изучения этой проблемы О. Браддик предложил использовать стереограммы, подобные приведенным на рис. 3.19, б: в таких стереограммах каждой точке правого изображения соответствуют 154
в) Рис. 3.19. Граничная конфигурация, предложенная Панумом. При слиянии возникает впечатление двух прямых, разнесенных по глубине (а). Каждой точке правого изобра- изображения ставятся в соответствие две точки левого изображения. При слиянии наблюдатель воспринимает две плоскости. Парные точки не обязательно должны присутствовать лишь на одном из изображений (б). Результаты применения стереоалгоритма к стерео- граммам на рис. 3.19, б; значения диспаратности представлены таким же образом, как это было сделано на рис. 3.13. На рисунке можно обнаружить две плоскости (в) две точки левого. Соответствие, ориентированное на левое изображение, однозначно, поэтому оно принимается, в результате чего возникает перцеп- перцептивный образ, состоящий из двух плоскостей, которые располагаются одна позади другой. Зрительная система не обладаег специфичностью относитель- относительно использования правого или левого глаза, и поэтому может случиться, что 155
часгь парных объектов окажется на правом изображении, а часть — на левом. Для зрительной системы это безразлично. По существу, такая ситуация, конечно, невозможна в случае двух реаль- реальных поверхностей, и именно поэтому, возможно, мы не предусмотрели в алгоритме внутренней проверки условия единственности. Тем не менее в этой связи возникает одно интересное положение общего характера: некото- некоторые допущения пригодны для внутренней проверки в алгоритме, и такая проверка проводится, некоторые допущения могли бы проверяться таким образом, но не проверяются, например условие единственности; некоторые же допущения вообще невозможно проверить. Ниже мы встретим несколько соответствующих примеров, но сейчас стоит, возможно, отметить, чю одним из них может служить иллюзия искаженной комнаты, предложенная Эймсом. В этом случае допущение о том, что углы — прямые, не поддается внутрен- внутренней проверке без привлечения стереопсиса или какой-либо информации о движении. И наконец, существуют ситуации, когда соответствие неоднозначно для обоих глаз. При этом неоднозначность можно устранить с помощью инфор- информации о знаках соседних соответствий — выбираются соответствия с одина- одинаковыми знаками. Имеется, однако, существенное различие между двумя наи- наиболее очевидными способами осуществления такого выбора. Можно ориенти- ориентироваться на знаки тех соседних соответствий, которые являлись однозначны- однозначными с самого начала, но можно и пользоваться знаками тех соседних соответст- соответствий, которые к этому моменту установлены. Вторая схема вносит в процеду- процедуру механизм кооперации, первая же — нет. Для того чтобы удостовериться в этом, представим себе стереограмму, синтезированную столь искусно, что все соответствия неоднозначны, за ис- исключением одной области однозначности, расположенной, скажем, на грани- границе. С помощью первой схемы невозможно устранить неоднозначность ни для одного соответствия, относящегося к внугренней части стереограммы, по- поскольку отсутствует хотя бы одно однозначное соответствие, с которого можно было бы начать. В случае же применения второй схемы процесс сня- снятия неоднозначности будет постепенно распространяться от границ стерео- граммы, на которых соответствия уже установлены, во внутреннюю часть, в которой в конечном счете будут установлены те соответствия, знаки кото- которых совпадают ее знаками соответствий на границах. Джулес и Чан [115] поставили такой эксперимент. На рис 3.20 приведен пример типа стереограммы, использовавшегося ими. Оказалось, что инфор- информация, заключенная в граничной области, может тем или иным способом на- направлять процесс установления соответствий, обеспечивая его продолжение во внутренние области стереограммы. Из этого следует, что в зрительной системе человека используется вторая из двух указанных выше возможнос- возможностей Фузионная зона Панума. Использование второй из описанных выше схем позволяет установить правильные соответствия при диспаратностях, укладывающихся в диапазон, равный w Точноогь определения значений диспаратности в этом случае должна быть весьма высокой и составляет некоторую приблизительно постоянную долю значения w 156
a) б) Рис 3 20 Существует много способов установления соответствий в центральной части данной стереограммы, однако обычно воспринимаются лишь те соответствия, диспарат- ности которых минимальны Тем не менее некоторое определенное установленное со- соответствие можно сместить, введя в стереограмму допускающие однозначное установ- установление соответствия точки, обладающие некоторой фиксированной диспаратностью (а) Шесть процентов точек, расположенных в верхней половине квадрата, имеют однознач- однозначные соответствия, характеризующиеся перекрестной диспаратностью в две точки (сме- (смещение в направлении носа), в нижней же половине квадрата смещение определяется не- неперекрестной диспаратностью в две точки Даже при введении смещения на границе обеспечивается возникновение одного из допустимых вариантов слияния в центре (б) Это свидетельствует о том, что алгоритм установления соответствия между изображе- изображениями стереопары, действующий в зрительной системе человека, в определенной мере использует кооперативный механизм [115] (результаты, относящиеся к остроте стереозрения, позволяют оценить ее приблизитель- приблизительно как н>/20) Применительно к каналам центральной ямки сетчатки, постулированным в модели Уилсона, это соответствует диспаратности, равной 3, и разрешению, равному 10' для канала с минимальным рецептивным полем и, быгь может, диспаратности, дохо- 157
дящей до 20', и разрешению, равному l', для канала с наибольшим рецептивным полем. При эксцентриситете 4° этот диапазон составляет от 5,3'до приблизительно 34'. При этих допущениях прогнозируемые значения хорошо согласуются с известными результатами измерений порогов слияния, происходящего без использования движений глаз. Митчелл [169], использовав кратковременную экспозицию раздражителей - ко- коротких отрезков прямых, обнаружил, в полном соответствии с результатами предыду- предыдущих исследований, что максимальные значения конвергентной и дивергентной диспарат- ностей при отсутствии диплопии составляют 10-14'в центральной ямке сетчатки и око- около 30 - при эксцентриситете в 5°. Таким образом, протяженность так называемой фузи- онной зоны Панума оказывается вдвое больше этих максимальных значений диспарат- ности. Применив в эксперименте стабилизацию сетчаточного изображения, Фендер и Джулес [47] установили, что слияние двух раздражителей-прямых (ширина линии 13', высота 1°) происходит при максимальной диспаратности в 40'. Это значение, вероятно, характе- характеризует полную протяженность фузионной зоны Панума. Воспользовавшись все той же стереограммой, образованной случайными конфигурациями точек, Фендер и Джулес получили значение 14'(б'- смещение и 8'- диспаратность в пределах стереограммы). Поскольку размер точки составлял всего лишь 2?, можно предполагать, что на высоко- высокочастотные каналы приходится больше энергии, чем на низкочастотные, и, следовательно, нужно ожидать соответственного сужения зоны слияния. Джулес и Чан [115], используя точки размером б'при угле наблюдения 5°, без каких-либо затруднений довели значение диспаратности, при которой происходит слияние, до 18'. Принимая во внимание все фак- факторы, можно считать, что эти данные, по-видимому, соответствуют нашим ожиданиям. Важнейший прогноз, который получен с помощью этой теории, состоит в том, что максимальная диспаратность, при которой слияние еще возможно, должна быть (в опре- определенном смысле) соизмерима с пространственной частотой раздражителя, поскольку нижние пространственные частоты выделяются только с помощью каналов с большими рецептивными полями. Сейчас мы уже располагаем некоторыми свидетельствами о том, что это, возможно, действительно так [46]. Восприятие глубины при больших значениях диспаратности. Мы предполагаем, что зона Панума соответствует процессу слияния изображений стереопары в чистом виде. За пределами диапазона значений диспаратности некоторая возможность восприятия глуби- глубины все еще сохраняется, хотя это восприятие не соответствует точно истинному значе- значению диспаратности. В этой связи целесообразно рассмотреть два следующих интересных случая. Первым из них является диплопия, при которой человек видит двойное изображе- изображение, но в то же время все еще воспринимает глубину. Алгоритмы установления соответст- соответствий между изображениями стереопары, описанные нами выше, предназначены для рабо- работы со сложными изображениями. Если изображения отличаются очень малой плотностью заполнения, при установлении соответствий между ними не возникает каких-либо проб- проблем, так как в этом случае нет ложных целей, от которых приходится избавляться. Если, например, в заданном диапазоне значений диспаратности н> вообще не находится допус- допустимых соответствий, можно обратиться за соответствующей информацией к детекторам, действующим вне этого диапазона и, возможно, обеспечивающим обнаружение соот- соответствий в более широком диапазоне. Идея здесь состоит в том, что при наличии опреде- определенных сведений о знаке диспаратности их может оказаться достаточно для "включе- "включения" вергентных движений глаз в необходимом направлении, с тем чтобы изображения были введены в пределы того диапазона значений диспаратности, в котором возможно достижение слияния. 158
Л Чувствительность \ ,*; ч 0 Диспаратность Рис. 3.21. Кроме трех групп детекторов, действующих в малых диапазонах значений дис- паратности (их характеристики представлены сплошными линиями), могут существо- существовать группы детекторов диспаратности, действующие за пределами основного диапазона (их характеристики представлены штриховыми линиями). Задача последних состоит в установлении того, дивергентно или конвергентно расположена плоскость слиятия, что- чтобы в соответствующем направлении начались вергентные движения глаз Существует и другой способ использования таких детекторов. Как мы убедились, в разделе, посвященном информационной теории стереопсиса, если плотность заполнения изображения объектами, пригодными для установления соответствия, составляет и, то плотность соответствий при правильном значении диспаратности равна и, а при непра- неправильных значениях диспаратности - всего лишь и2. Если имеется некоторый набор детекторов диспаратности и нас интересует исключительно знак диспаратности, при ко- которой соответствия устанавливаются правильно, можно воспользоваться вычислитель- вычислительной схемой, предусматривающей суммирование общего числа конвергентных соответст- соответствий (ложных целей и т. д.) и сопоставление результатов суммирования с соответствую- соответствующим числом дивергентных соответствий. Можно рассмотреть различные способы реали- реализации такой процедуры. Так, скажем, в самом простом варианте суммирование могло бы осуществляться одновременно по всему диапазону конвергентных и по всему диапа- диапазону дивергентных диспаратностей, однако вполне возвожно и постепенное расширение области суммирования, до тех пор пока не будет получена существенная разность. Во всяком случае, при любой биологически достоверной реализации типа той, что проил- проиллюстрирована рис. 3.21, следует ожидать уменьшения числа детекторов при увеличении значений диспаратности. Статистический анализ указывает, что в этом случае будет обес- обеспечена психофизическая зависимость между диспаратностью стереограммы при отсутст- отсутствии слияния и областью, необходимой для определения знака диспаратности. Интересно, что Таялер и Джулес [232] установили наличие подобной связи для слу- случая динамических стереограмм, образованных случайными конфигурациями точек. В стереограммах такого типа конфигурации (но необязательно их диспаратности) изме- изменяются со скоростью порядка 30 кадров в секунду. Знак диспаратности поддается определению (но не очертания диспаратного образа, например) при значениях диспарат- диспаратности, доходящих до нескольких угловых градусов. Полученный ими результат - про- пропорциональность возможности определения знака диспаратности значению квадратного корня из размера области (\J~~A) — можно объяснить с помощью схемы типа той, кото- которая была предложена нами: в ней плотность детекторов диспаратности уменьшалась об- обратно пропорционально росту значений диспаратности, т. е. имела место зависимость lid. В результате возникает \/~/Г-зависимость [155 J. Конечно, этим результатам можно придать и иное толкование исходя из таких факторов, как движение либо возможное нелинейное покадровое суммирование во времени, осуществляемое на рецепторном уровне. И наконец, вернемся к проблеме, которая все еще кажется мне загадкой стереопси- стереопсиса, а именно: почему в качестве исходного представления для процесса установления со- соответствий между изображениями стереопары следует использовать пересечения нулево- 159
Рис 3 22 Текстурные различия, ясно различимые монокулярно, исчезают го уровня9 Почему не подождать и не воспользоваться необработанным и полным перво- первоначальными эскизами, применив схему с теми же общими характеристиками, но пред- предусматривающую замену пересечений нулевого уровня, относящихся к низким прост- пространственным частотам, приближенными крупномасштабными непроизводными элемен- элементами первоначального эскиза и пересечений нулевого уровня, относящихся к высоким частотам, необработанным первоначальным эскизом Набпюдения Джулеса и Миллера [116], например, связанные с независимостью слияния по различным пространственным частотам, служат как будто бы наилучшим свидетельством в пользу варианта с одними пересечениями нулевого уровня, но, возможно, они поддаются объяснению и с помощью нашей альтернативной схемы Дело в том, ч$р, поскольку в стереограммах, использован- использованных Джулесом и Миллером (см рис 3 10), информация, которая относится к различ- различным частям спектра пространственных частот, поступает не из одного источника, допу- допущение о совпадении в пространстве нарушается и, следовательно, в первоначальном эс кизе каждой пространственной частоте будут соответствовать независимые описания 160
при возникновении стереоскопического слияния двух изображений [52] Кроме того, мы располагаем данными Кидда, Фрисби и Мейхью [120] (они излага- излагались в гл 2), которые указывают на то, что некоторые виды границ на текстурах могут вызывать при стереопсисе вергентные движения глаз Это служит явным свидетельст- свидетельством использования в стереозрении некоторых описаний, входящих в первоначальные эскизы на более поздних этапах обработки зрительной информации. С другой стороны, однако, эта же группа исследователей обнаружила, что стереоско- стереоскопическое слияние может, в некотором смысле, преобладать в зрительном распознавании текстур и тем самым, возможно, служит его предпосылкой (Фрисби и Мейхью [52 рис 1, Ь, с и d]) Несколько соответствующих примеров приведено на рис 3 22 При моно- монокулярном рассматривании этих изображений на них ясно различаются области, тексту- рированные по разному, однако при бинокулярном рассматривании они сливаются. Этот факт является определенным, но отнюдь не бесспорным свидетельством в пользу подхода, предусматривающего использование пересечений нулевого уровня Моя точка зрения состоит в том, что на самом деле применяется некоторая комбина- 161
ция обоих методов, хотя в основе лежит метод, связанный с пересечениями нулевого уровня. Важнейшими преимуществами использования последних, очевидно, являются быстродействие (поскольку они определяются в первую очередь) и точность (посколь- (поскольку их местоположение может определяться очень точно). Теоретические оговорки отно- относительно пересечений нулевого уровня, сводящиеся к тому, что они лишь приближенно и ненадежно связаны с изменениями в реальном мире, не очень серьезны, поскольку пересечения нулевого уровня вполне физические (даже более, например, чем уровни серого тона). И это действительно так, поскольку реализация на ЭВМ теоретических по- положений, относящихся к пересечениям нулевого уровня, дала прекрасные результаты при работе с естественными изображениями [73, 71]. Решили ли мы именно ту задачу, которую следовало решить? Основной проблемой, с которой сталкивается разработчик алгоритмов установления соответствий между изо- изображениями стереопары, является определение того, какие задачи трудные и какие - нет. Нейрофизиолог мог бы с определенным основанием возразить, что проблема слия- слияния изображений стереопары, в сущности, вовсе не так уж сложна, а действительно за- замечательным свойством стереозрения человека является его точность, которая может достигать столь высоких значений, как 2'при 75 %-ной норме успешного результата; это значение точности соответствует приблизительно 1/12 диаметра колбочки центральной ямки сетчатки A6). Он же мог бы отметить, что проблема ложных целей не является трудной, если соответствие устанавливается по признакам специального вида, которые встречаются на изображении весьма редко. Я с этими аргументами не согласен в силу следующих причин. При установлении со- соответствий между изображениями стереопары решающее значение, несомненно, приоб- приобретает вопрос о том, насколько редко это редкое и каким образом редкость признака связана с рассматриваемым диапазоном значений диспаратности. Психофизические дан- данные свидетельствуют о том, что те признаки, которые могут использоваться для уста- установления соответствий, относятся к нижнему уровню и не отличаются какими-либо спе- специфическими особенностями, связанными с контрастом или ориентацией. Так, стерео- граммы, образованные случайными конфигурациями точек, должны содержать ложные цели, тем не менее нам удается добиваться их слияния. Теоретический анализ, положен- положенный в основу нашего второго алгоритма, в сущности, посвящен главным образом имен- именно вопросу о том, насколько редко редкое, который самым тесным образом связан с допущением, что исходным представлением для процесса стереоскопического слияния изображений стереопары служат приближенно-ориентированные пересечения нулевого уровня, характеризующиеся определенным знаком. Острота стереозрения, с другой стороны, хотя и представляет собой феномен весьма примечательный, но порождает проблемы технические, а не теоретические. Они относят- относятся к третьему из введенных нами уровней, а именно к уровню механизмов реализации, поскольку в связи с остротой стереозрения возникает лишь один вопрос: сколь точно устанавливается местоположение пересечений нулевого уровня? То обстоятельство, что они могут быть локализованы с точностью до 2°, производит сильное впечатление, одна- однако это без труда можно воспроизвести, например, в программе вычислительной машины. Необходимо просто достаточно точно определить те точки, в которых график свертки V2 G пересекает нулевой уровень. Никаких принципиальных проблем при этом не воз- возникает. Поразительно, что такие вычисления могут осуществляться на нейронном уров- уровне, и, вероятно, это означает, что на каком-то этапе очень большое число маленьких клеток используется для обнаружения и локализации этих местоположений, однако процедуры не порождают теоретических проблем в юм смысле, в котором их порожда- порождает стереоскопическое слияние изображений стереопары Мы еще вернемся к проблеме остроты стереозрения в разделе, посвященном реализации на нейронном уровне. 162
Вергентные движения глаз и 2,5-мерный эскиз. Согласно методам, положенным в основу второго алгоритма установления соответствий между изображениями стерео- стереопары, после того, как с помощью изучения локальных окрестностей (некоторой за- заданной мощности) изображений, обработанных v2 G-фильтрами, определены на них со- соответствия, последние помещаются во временное буферное запоминающее устройство. Эти соответствия используются также для управления движениями обоих глаз, что на ос- основе информации, полученной на больших локальных окрестностях, дает возможность перемещать малые локальные окрестности в их области соответствия. Управление вер- гентными движениями глаз может осуществляться непосредственно собственно нейро- нейронами, функцией которых является установление соответствия либо косвенно с по- помощью буферного запоминающего устройства, либо (что наиболее вероятно) обоими способами. Причины, позволяющие постулировать наличие памяти, можно разделить на две кате- категории: те, которые вытекают из общего анализа предварительной обработки информа- информации в зрительной системе, и те, которые специфически связаны с проблемой стереопси- са. Наличие какой-либо памяти, в которой может храниться нечто типа 2,5-мерного эс- эскиза (см. рис. 3.12), целесообразно согласно общим положениям информационной тео- теории зрения, поскольку она дает представление, объединяющее информацию, полученную при реализации ряда процессов предварительной обработки информации в зрительной системе (см. гл. 4). Причиной, непосредственно связанной со стереопсисом, является простота информационных процессов, обеспечивающих установление соответствий; в этом случае для хранения результатов процесса установления соответствий при измене- изменении плоскости фиксации вследствие дизъюнктивных движений глаз и перемещении объ- объектов в поле зрения требуется буферное запоминающее устройство. Таким образом, 2,5- мерный эскиз — это то, где в действительности происходит глобальный стереопсис: объ- объединяются соответствия, полученные независимо по различным каналам, формируется итоговая карта значений диспаратности, которая доступна для использования другими зрительными процессами, и создается представление, составляющее основу нашего ин- индивидуального восприятия стереограмм, воспроизводящих геометрию видимых поверх- поверхностей. Подробное обсуждение 2,5-мерного эскиза будет приведено в следующей главе. Сей- Сейчас же мы сделаем несколько кратких замечаний относительно управления движениями глаз в стереозрении. Дизъюнктивные движения глаз, изменяющие плоскость фиксации обоих глаз, не зави- зависят от конъюнктивных движений глаз (Рашбасс и Уэстхаймер [191 ]) и являются, скорее, плавными, чем саккадическими. Их постоянная времени равна приблизительно 160 мс, а используемая для управления ими стратегия достаточно проста. Скорость (асимп- (асимптотическая) вергентных движений глаз линейно зависит от амплитуды диспаратности, причем коэффициент пропорциональности составляет около 8 град/с на градус диспарат- диспаратности Ц90]. Точность вергентных движений глаз доходит до 2'[201], и при произволь- произвольных бинокулярных саккадах значения конвергенционного угла почти не изменяются [253]. Более того, Уэстхаймер и Митчелл [251] обнаружили, что тахистоскопическое предъявление диспаратных изображений вызывает соответствующие вергентные движе- движения глаз, но не обеспечивает их завершения. Эти данные служат сильным аргументом в пользу того, что вергентные движения глаз осуществляются, скорее, в режиме непре- непрерывного управления, чем баллистически. Гипотеза заключается в том, что для управления вергентными движениями глаз ис- используется информация о соответствиях, определяемых при использовании нескольких различных каналов с помощью описанных выше механизмов, обеспечивающих возмож- возможность приближенного восприятия глубины, и с помощью каких-то представлений гра- 163
a) б) Рис. 3.23. Две стереограммы, имеющие одинаковые диапазоны изменения диспаратности: а — значения диспаратности изменяются непрерывно; б — присутствуют две диспаратные плоскости. Восприятие второй стереограммы требует большего времени, в первую оче- очередь, вероятно, потому, что система управления вергентными движениями глаз распола- располагает в этом случае меньшей информацией о том, каким образом следует просматривать диапазон изменения диспаратности ниц, относящихся к более высоким уровням и участвующих в процессе непосредствен- непосредственно или опосредованно через 2,5-мерный эскиз. Эта гипотеза не противоречит экспери- экспериментальным данным, относящимся к стратегии и точности управления вергентными движениями глаз, и учитывает, кроме того, данные о том, что время восприятия в опре- определенной степени зависит от распределения диспаратности на сцене [51, 209]. Восприя- Восприятие стереограммы винтовой лестницы, поднимающейся к наблюдателю, не занимает мно- много времени, как это происходит в случае стереограммы, представляющей две плоскости и характеризующейся тем же диапазоном изменения диспаратности, что и первая стерео- грамма. Исходя из нашей теории именно этого и следовало ожидать, поскольку при вос- 164
приятии сцен типа винтовой лестницы, в которых значения диспаратности претерпевают гладкие изменения, имеется возможность с помощью вергентных движений глаз про- просматривать большие диапазоны изменения диспаратности в режиме непрерывного управ- управления на основе выходных значений, получаемых на локальных окрестностях даже ми- минимальной мощности. С другой стороны, стереограммы, образованные двумя плоскос- плоскостями с тем же диапазоном значений диспаратности, требуют большого вергентного сме- смещения, но не позволяют получать точную информацию, необходимую для осуществления непрерывного управления вергентными движениями глаз. Следовательно, большое время, затрачиваемое на восприятие таких стереограмм, можно объяснить исходя из стратегии случайного поиска, используемой в системе управ- управления вергентными движениями глаз. Другими словами, управление вергентными дви- движениями глаз представляет собой некоторый простой непрерывный процесс с обратной связью, доступ к которому с верхних уровней обработки информации в зрительной системе обычно невозможен. Стереограммы, приведенные на рис. 3.23, дают возмож- возможность читателю убедиться в том, что это, по крайней мере субъективно, действительно так. Интересно отметить, что имеются данные, свидетельствующие о возможности научить наблюдателя совершать эффективные последовательности вергентных движений глаз [51]. Однако этот эффект обучения связан с такой же информацией, которая использу- используется в замкнутой системе управления вергентными движениями глаз. Априорная, вер- вербальная и относящаяся-к высшим уровням информация о стереограммах оказывается неэффективной, как, кстати очевидно, она оказывается неэффективной на всех уровнях обработки, вплоть до 2,5-мерного эскиза включительно. Реализация процесса слияния изображений стереопары на нейронном уровне Реализация только что описанного второго алгоритма установления соответствий между изображениями стереопары на нейронном уровне еще не определена полностью. Одна из причин такого положения заключается в том, что затраты труда, необходимые для получения полного искомого описания, нельзя считать оправданными до тех пор, по- пока данные нейрофизиологических и психофизических исследований не дадут достаточно надежных подтверждений того, что данный алгоритм работает и вообще является пра- правильным. Первые шаги в направлении анализа возможных нейронных механизмов, обес- обеспечивающих реализацию У2С-фильтра и определение пересечений нулевого уровня, тем не менее были сделаны [150, 158]. Проблема бинокулярного объединения все еще остается открытой и является первой из тех, которые мы сможем сформулировать. Однако позволим себе сделать в этой свя- связи несколько предварительных замечаний Во-первых, чувствительность к диспаратности не должна возникать прежде, чем будут обнаружены пересечения нулевого уровня. По- Поэтому если простые клетки поля 17 (зрительной коры), являющиеся первичными кор- кортикальными клетками зрительного пути, чувствительны к диспаратности, как, по-види- по-видимому, имеет место у кошек fl 2], то они должны также обнаруживать пересечения нуле- нулевого уровня. Достигаться это может различными способами, и на рис. 3.24 приведены два приме- примера. В первом предполагается, что пересечения нулевого уровня определяются двумя ден- дритами независимо, в основном в соответствии со схемой, представленной на рис. 2.18, и на основе локальных синаптических механизмов типа рассмотренного Поджо и Торри [185]. У этого механизма есть недостатки. Во-первых, он обладает не очень высокой чувст- чувствительностью к диспаратности, поскольку в каждом из глаз пересечения нулевого уров- 165
а) Изображение, Изображение, видимое видимое левым глазом правым глазом б) Линейный процесс Изображение, Изображение, видимое видимое левым глазом правым глазом в) Изображение, видимое левым глазом г) Изображение, видимое правым глазом ня определяются с точностью, в небольшой степени превышающей ширину центральной части рецептивного поля w>ljD. Во-вторых, диапазон изменения диспаратности, на ко- который в данном механизме обеспечивается реакция, зависит от точного положения пере- пересечения нулевого уровня в левом глазе, так как диапазон их положений в правом глазе также фиксирован конкретной геометрией схемы его связей. 166
Рис. 3.24. Два возможных варианта реализации детекторов диспаратности на нейронном уровне. В первом варианте (а) нервная клетка отыскивает пересечения нулевого уровня определенного знака, используя два дендрита, каждый из которых получает информа- информацию от своего глаза и действует независимо от другого. Результаты от каждого из денд- ритов поступают на вход логического элемента И. Таким образом, нервная клетка раз- разряжается каждый раз, когда пересечения нулевого уровня с соответствующими знаками одновременно появляются в рецептивных полях клетки, связанных с левым и правым глазами соответственно (б). Подобная схема, однако, в состоянии обеспечить лишь до- довольно грубое определение значений диспаратности; к ее недостаткам, скажем, относит- относится то, что диапазон изменения диспаратности, в котором эта схема работоспособна, варь- варьируется в зависимости от положения пересечения нулевого уровня в рецептивном поле левого глаза. На рисунке окружности представляют возбуждающие входы, квадрати- квадратики — тормозные. Незачерненные окружности и квадратики — синапсы — представляют входы, на которые поступает информация о появлении светлого раздражителя в центре рецептивного поля, зачерненные окружности и квадратики - входы, на которые посту- поступает информация о появлении темного раздражителя в центре рецептивного поля. Сим- Символы L и R обозначают входы, на которые поступает информация от левого и правого глаз соответственно. Вторая схема свободна от указанного недостатка, поскольку она сообщает точные данные о знаке диспаратности, но работает эта схема лишь в небольшом диапазоне изме- изменения диспаратности. Пересечение нулевого уровня отыскивается на левом изображении с помощью дендрита И нервной клетки (в), а знак диспаратности определяется по знаку разности в точке пересечения нулевого уровня (вычисляемого с по мощью некоторого ли- линейного процесса) значений V 2 G-свертки для левого и правого глаз. Таким образом, эта схема представляет собой детектор знака диспаратности, не зависящий от положения пересечения нулевого уровня на изображении левого глаза, по меньшей мере в некото- некотором небольшом диапазоне (г). При положительной указанной разности в точке пересе- пересечения нулевого уровня диспаратность имеет знак одной полярности (д), а при отрица- ■^ тельной - противоположной (е) Второй пример, приведенный на рис. 3.24, представляет другой механизм. Посколь- Поскольку нервная клетка управляется пересечениями нулевого уровня, поступающими от ле- левого глаза, она является лево до минируемой. Однако разряд ее определяется разностью значений свертки для левого и правого глаз в точке пересечения нулевого уровня. Если эта разность отрицательна, диспаратность обычно будет иметь один знак, если же она по- положительна, диспаратность обычно будет иметь противоположный знак, как это иллюст- иллюстрируется рис. 3.24. Для некоторого яркостного перехода, представляющего при движе- движении в зрительном поле слева направо переход от светлого к темному, наличие отрица- отрицательной разности соответствует дивергентным (малая удаленность) диспаратностям. Этот второй механизм в некоторой степени устраняет неточность, свойственную первому, по- поскольку предусматривает непосредственное определение того, располагается ли пересе- пересечение нулевого уровня в правом глазу (его знак фиксирован), слева или справа от пере- пересечения нулевого уровня в левом глазу. Этот механизм также имеет недостатки, однако он может оказаться ненадежным из-за слишком тесного расположения пересечений ну- нулевого уровня или очень сильного различия контрастов в левом и правом глазах. К сожалению, технические проблемы, связанные с нейрофизиологическими аспекта- аспектами стереопсиса, существенны и объем количественных данных, которым мы располага- располагаем сегодня, явно слишком незначителен, для того чтобы мы могли позволить себе от- отвергнуть любой из приведенных на рис. 3.24 механизмов либо оба. Со времени появле- появления исходной работы Барлоу, Блейкмора и Петтигру [12], посвященной этой проблеме, было опубликовано сравнительно немного кривых, характеризующих чувствительность к диспаратности. Сравнительно недавно, однако, Поджо и Фискер [183] и фон дер Хейдт 167
с соавторами B39] опубликовали такие должным образом проверенные кривые для обезьяны и кошки соответственно. Эти работы в целом подтверждают представление о том, что нервные клетки-детекторы диспаратности объединены в три группы, ориенти- ориентированные на конвергентную, близкую к нулю и дивергентную диспаратности, причем не- недавно Кларк, Доналдсон и Уиттеридж [35] обнаружили, что у овцы эти детекторы орга- организованы в колонки, подобные тем, которые согласно гипотезе Хьюбела и Уисела долж- должны существовать в поле 18 коры головного мозга макаки. Значения диспаратностей, правда, поразительно велики: 7° у овцы и до одного или даже нескольких угловых гра- градусов у обезьяны. До сих пор еше не ясна конкретная роль этих детекторов в стерео- псисе. Довольно любопытно, что даже сова, пути биологической эволюции которой разо- разошлись с путями обезьяны, возможно, раньше, чем возник стереопсис, как будто бы ис- использует алгоритм, аналогичный алгоритму обезьяны. Петтигру и Кониси [182] устано- установили, что, несмотря на абсолютное отсутствие сходства анатомической организации анало- аналога зрительной коры, имеющейся у совы1, и зрительного пути обезьяны, физиологические характеристики их нервных клеток очень сходны. Однако сова не в состоянии очень много двигать глазами, и поэтому может сначала возникнуть впечатление, что она лишена воз- возможности совершать вергентные движения глаз, столь существенные для излагаемого подхода к стереопсису. Природа тем не менее нашла выход: гороптер совы имеет на- наклон - он проходит через ее ноги в нижней части поля зрения и простирается вперед в бесконечность. Сова, таким образом, с помощью легких и неторопливых наклонов голо- головы может добиться того же эффекта, который дают вергентные движения глаз, создав одновременно впечатление глубокой и сдержанной мудрости. И наконец, существует проблема остроты стереозрения. Последняя, подобно всем остальным способностям человека к повышенной остроте восприятия, обеспечивается специальным механизмом, который позволяет выделять на изображении малые изоли- изолированные признаки с разрешением в среднем порядка 5"[250]. Крик, Марр и Поджо [38] рассмотрели нейрофизиологические аспекты этой проблемы и высказали предполо- предположение о том, что один из возможных вариантов реализации соответствуюшего механиз- механизма может основываться на восстановлении с высоким разрешением изображения, под- подвергнутого V2 G-фильтрации, после того как оно оказывается в зрительной коре в ре- результате воздействия излучения в оптическом диапазоне. Барлоу высказал это предполо- предположение первым [11], а мы немного усовершенствовали его, указав, что восстановление не обязательно должно быть абсолютно точным. Вполне достаточно обеспечить при вос- восстановлении участков сигнала, расположенных в окрестностях пересечений нулевого уровня, должную точность. Естественным кандидатом на роль "восстановителя" изображения является популя- популяция нервных клеток-зерен слоя IYC/3 поля 17. Верхняя оценка указывает, что для каж- каждого типа клетки (КСЦР и КТЦР) и для каждого глаза требуется не более одной нерв- нервной клетки-зерна на каждые 5''канала с наименьшим рецептивным полем. Кроме того, Д. Хьюбел отмечает, что все эти клетки обладают пространственной организацией типа "возбуждающий центр - тормозящая периферия", что делает их неотделимыми от воло- волокон коленчатого тела; взаимное расположение этих клеток к тому же отличается очень точным ретинотопическим характером - соседние нервные клетки соответствуют сосед- соседним точкам сетчатки. Очевидно, что клетки, участвующие в процессе восстановления, должны обладать всеми этими свойствами Было бы, следовательно, чрезвычайно инте- интересно выяснить, отличаются ли их ответы в физиологическом отношении, скажем, по пространственным или особенно временным характеристикам. 1 В оригинале используется термин wulst — Прим. перев. 168
Определение расстояния до поверхности и ее ориентации по данным о диспаратности Информационная теория Расстояние от наблюдателя до поверхности. Пусть некоторая точка Р рас- расположена на расстоянии / от левого глаза L наблюдателя и под углом со к линии прямой видимости, как это показано на рис. 3.25. Пусть расстояние между глазами наблюдателя равно Ьт. В таком случае, поскольку линия ви- визирования точки Р не направлена строго вперед, эффективное расстояние между двумя глазами составляет лишь а = 5 j cos со. Из рисунка следует, что угол v?, образованный линиями визирования правого и левого глаз, определя- определяется как а 5 где C = 8Т sin со. Для малых значений угла v? можно записать следующее вы- выражение: 5 "f 1+0 Рассмотрим теперь две точки Р и Р', расположенные на одной и той же ли- линии визирования левого глаза, причем точка Р находится от него на расстоя- расстоянии /, а точка Р'— на расстоянии Г, как это показано на рис. 3.25, а и б. Отсюда следует, что диспаратность A v> точек Р и Рравна разности </>'— </>. Если, таким образом, обозначить то 1 а 5 q 1+0 I Последнее выражение можно переписать как 1 Другими словами, относительное изменение расстояния при некотором опре- определенном значении диспаратности зависит от расстояния до наблюдателя. Это обстоятельство может оказаться существенным для экспериментов, связан- связанных с восприятием глубины, и как мы вскоре убедимся, для восприятия ориентации поверхности, поскольку оно свидетельствует о том, что при пра- правильной работе зрительной системы человека относительное изменение вос- воспринимаемой глубины, соответствующее некоторому определенному значе- значению диспаратности, должно зависеть от значения расстояния /, т. е. от того, каково, по мнению наблюдателя, текущее значение истинной глубины. 169
Вид сверху Рис. 3.25. Тригонометрические соотношения, характеризующие восстановление глубины по диспаратности. Геометрические построения в плане для случая, когда взоры обоих глаз направлены на некоторую точку Р, находящуюся на расстоянии / от левого глаза, как это показано на рис. 3.25, б (а). Линия визирования не обязательно перпендикуляр- перпендикулярна прямой, соединяющей левый (L) и правый (R) глаза; отклонение, как показано, характеризуется углом со. Истинное расстояние между глазами равно df, а эффективное расстояние при данной линии визирования 6 j cos ы. Угол, образованный линиями визи- визирования обоих глаз, обозначен через у, диспаратностью обычно называют разности значе- значений углов \р, соответствующих различным точкам Р'. Отрезки а = 8 т cos ы и 0 = 5 j sin со удобно использовать в геометрических построениях, связанных с восстановлением глу- глубины по значениям диспаратности. Геометрические построения при боковой проекции для случая, представленного на рис. 3.25, г (б). Точка Р расположена на плоскости, наклоненной относительно горизон- горизонтальной плоскости; угол этого наклона в точке Р равен в . На чертеже изображен только левый глаз L, и расстояние / снова указывает расстояние до точки от левого глаза. Для того чтобы определить ориентацию поверхности, необходимо восстановить значение угла в Определение ориентации поверхности по данным об изменении значений диспаратности. Тригонометрические аспекты определения ориентации по- поверхности довольно скучны. Так как, однако, полученные в результате фор- формулы представляют интерес, мы остановимся на них. Следует рассмотреть два случая: первый, когда наша поверхность повернута в горизонтальной плоскости (см. рис. 3.25, а и б), и второй, когда наша поверхность повернута в вертикальной плоскости (см. рис. 3.25, виг). Это разные случаи, потому что наши глаза расположены горизонтально, а не вертикально. В обоих случа- случаях мы хотели бы располагать формулами, связывающими ориентацию по- поверхности, которую мы будем характеризовать углом в, со скоростью из- 170
Рис. 3.26. Обратите внимание на изменение воспринимаемой ориентации поверхности при изменении расстояния, с которого рассматривается стереограмма. Именно это явле- явление должно наблюдаться при правильном решении зрительной системой соответствую- соответствующих тригонометрических уравнений [113, с. 156, рис. 5.4-2] менения значения диспаратности \р при изменении значения угла наблюдения ф, которую мы будем характеризовать как д\р/дф. Искомые формулы име- имеют следующий вид: а) изменяющаяся по вертикали глубина поверхности - a I ctg В дф б) изменяющаяся по горизонтали глубина поверхности Э<р а2 +0@ + /) -а/ ctg0 Относительно этих формул следует сделать два замечания. Во-первых, подобно оценкам относительной глубины, они воспроизводят зависимость от расстояния (приблизительно 1//), с которого ведется наблю- наблюдение. Следовательно, если мозг справляется со своими задачами, то некото- некоторая определенная скорость изменения диспаратности должна восприниматься как рост крутизны наклона поверхности по мере ее удаления от наблюдате- наблюдателя. Читатель может убедиться в этом, рассмотрев с различных расстояний стереограмму, приведенную на рис. 3.26. Диспаратность и угол наблюдения изменяются одновременно, поэтому производная д<р/дф постоянна при всех расстояниях, с которых ведется наблюдение. Таким образом, поверхность должна казаться все более крутой при удалении стереограммы. Так в дейст- действительности и происходит. Это свидетельствует, между прочим, и о том, что мозг достаточно хорошо информирован, где именно находится стереограм- стереограмма, и пользуется этой информацией. 171
Во-вторых, при скорости изменения диспаратности по горизонтали dip/d\}/r = = 1 линия визирования второго глаза должна опускаться непосредственно вдоль реальной физической поверхности или перед ней. Вторым глазом на- наблюдатель видит некоторое нарушение непрерывности по глубине. В этом можно убедиться, положив в формуле для изменения диспаратности по гори- горизонтали в = — <р, при этом dip/д фг = 1. Итак, в такой ситуации полное измене- изменение угла наблюдения первого глаза равно изменению диспаратности, так что значение производной д<р/д фг остается равным единице до тех пор, пока вто- второй глаз не начнет снова осматривать поверхность. Это обстоятельство мож- можно использовать для обнаружения нарушений непрерывности, рассматривая поверхности с некоторого расстояния при стереопсисе. Алгоритм и его реализация Ничего не известно относительно того, как реализуются эти формулы, хо- хотя из примера, приведенного на рис. 3.26, следует, что приближенные вариан- варианты их воспроизведения существуют, причем точность аппроксимации может оказаться достаточно высокой. Возможно, стоит подчеркнуть, что эффекты, о которых шла речь, а именно зависимость воспринимаемой глубины и ори- ориентации поверхности от расстояния и направления наблюдения, ни в коей мере нельзя считать неожиданными - они не относятся к разряду удивительных психофизических явлений, требующих сложных объяснений. 3.4. ИЗБИРАТЕЛЬНОСТЬ ПО НАПРАВЛЕНИЮ Введение в проблему наблюдаемого движения Видимый мир преисполнен движения, и это обстоятельство оказало су- существенное воздействие на процесс эволюции. Изучение наблюдаемого дви- движения — это изучение того, каким образом информацию только об организа- организации движения на изображении можно использовать для получения результа- результатов, которые отражают структуру реального мира и перемещения, происхо- происходящие в нем. И снова проблема включает две основные части: каким обра- образом осуществляются исходные измерения изменений, порожденных движе- движением, и используется ли такая информация? Ни одна из задач не является легкой. И, быть может, именно потому, что первля столь трудна, вторая в определенной степени сводится к исследованию проблемы минимальной ин- информации, имеющей место при решении первой задачи и необходимой для того, чтобы в процессе дальнейшей обработки можно было бы получить ка- какие бы то ни было разумные результаты. Психофизическое изучение наблюдаемого движения — это не новая проблема. Боль- Большинство его пионеров, вербятно, являются участники гештальтистского движения. Верт- хеймер [249] и Коффка [122], которые, как и их последователи Гибсон и Джулес [59; 113, гл. 4], изучали влияние движения на разделение фигур и фона и на движения глаз. Майлс [167] и Уоллак и О'Коннелл 1240] поставили задачу определения трехмерной структуры по информации о движении — эта задача подробно рассматривается в вышед- вышедшей сравнительно недавно замечательной книге С. Уллмана [238]. Гибсон занимался 172
проблемой оптического потока [56], которая лишь недавно удостоилась заслуженного внимания математиков [135]. В первую очередь, однако, я хотел бы обратить внимание на один важный психофизи- психофизический результат, полученный сравнительно недавно - он связан с проблемой количест- количества модулей или процессов движения, их "содержания" и обилия имеющейся в них ин- информации. Вслед за Джулесом [113, гл. 4] Брадцик [22, 23] использовал случайные конфигурации из точек и линий при изучении видимого (кажущегося) движения Так, в частности, он обнаружил ряд странных различий между тем, что происходит при не- небольших перемещениях за небольшие промежутки времени, и тем, чго происходит при больших перемещениях за большие промежутки времени. Он пришел к выводу о су- существовании двух различных процессов, характеризующихся разными критериями вос- восприятия; свойства процессов перечислены в табл. 3.1 [24]. Таблица 31. Существенные характеристики видимого движения, выделенные при использовании двух различных критериев восприятия Критерий разделения на изображении, образованном случайными точечными конфигурациями Критерий плавности видимого движения изолированного элемента Пространственное смещение не должно превышать 15 дуги [23] Продолжительность междукадрового интервала (МКИ) не должна превышать 80 - 100 мс (при продолжительности показа кадра 100 мс) [22] Разделения не происходит при предъяв- предъявлении во время МКИ яркого равномерно освещенного поля [22] Последовательные кадры должны предъяв- предъявляться одному и тому же глазу или обоим глазам одновременно [23], точно так же, как для эффективного маскирования долж- должно предъявляться яркое поле [22] Конфигурации, определяемые лишь цве- цветовым, но не яркостным контрастом, не годятся [188] Пространственное смещение может дости- достигать многих угловых градусов (см., напри- например, [175,260]) Продолжительность МКИ может состав- составлять по крайней мере 300 мс (см., напри- например, [175]) Движение воспринимается независимо от того, дается или не дается освещение во время МКИ Последовательные кадры могут предъяв- предъявляться одному и тому же глазу или раз- разным глазам [216] Конфигурации могут определяться одним лишь цветовым контрастом [188] Свойства эти были определены в следующих экспериментах. Испытуемым предъяв- предъявлялись две случайные конфигурации, образованные точками или линиями. Как показа- показано на рис. 3.27, за пределами центрального прямоугольника корреляция между конфи- конфигурациями отсутствовала. Внутри центрального прямоугольника точки одной конфигу- конфигурации смещены относительно другой так, как это показано на рис. 3 28. Эти конфигура- конфигурации предъявляются попеременно с определенной частотой и междукадровым интерва- интервалом, во время которого иногда предъявляются другие маскирующие поля. Проблема заключается в следующем: при каких частотах и смещениях испытуемый в состоянии воспринимать прямоугольник так хорошо, чтобы иметь возможность определить, гори- горизонтальный он или вертикальный? 173
«I 2 2 i с 58 5 1 Некоррелированная часть изображения Смещенный прямоугольник Некоррелированная часть изображения Вертикальный прямоугольник Горизонтальный прямоугольник Рис. 3.27. Задача различения в экспериментах Браддика с малыми диапазонами измене- изменений. На произвольном фоне^ребуется выделить прямоугольник, расположенный гори- горизонтально или вертикально Смещение на п элементов Некоррелированная часть изображения Некоррелированная часть изображения Рис. 3.28. Прямоугольники (см. рис. 3.27) формируются при последовательном предъ- предъявлении двух случайных точечных конфигураций с помощью смещения некоторой пря- прямоугольной области на несколько элементов. Остальные части изображений двух кад- кадров между собой не коррелированы Рис. 3.29. Изображения второго типа, которые широко ис- использовались Уллманом, также состоят из двух кадров, однако они существенно проще изображений на рис. 3.27 и 3.28. Первый кадр может включать линию /, а второй - две линии тип. Наблюдатель должен ответить на вопрос, движется ли линия / к линии т, к линии п или к обеим Второй вид эксперимента аналогичен тому, который широко практиковался Уллма- Уллманом: в первом кадре предъявляется одна или несколько линий, а далее (после между- междукадрового интервала) - снова несколько линий, как это показано на рис. 3.29. В дан- данном случае проблема такова: воспринимает ли испытуемый отображение одной линии 174
в другую или другие как естественное, и если это так, то каким образом происходит такое отображение? Эксперименты Уллмана [236] заставляют нас относиться к естест- естественности (гладкости) с осторожностью, но собственно реальное отображение — это инте- интересный и надежно установленный процесс. Браддик же обнаружил, что, варьируя оба типа предъявляемых изображений - при изменении смещения, или междукадрового интервала, или при предъявлении на его про- протяжении яркого равномерно освещенного поля - можно очень сильно изменять харак- характер восприятия этих изображений. Так, условия, легко приводящие к срыву выполне- выполнения первой экспериментальной задачи, не влияют на вторую задачу. Скажем, для того чтобы можно было увидеть прямоугольник, угловое смещение должно быть небольшим (менее 15), междукадровый интервал должен быть коротким (менее 80 мс) , а влияние любых маскирующих полей должно быть исключено. Иначе обстоят дела со второй за- задачей: угловое смещение может достигать многих угловых градусов, между кадровый интервал может составлять 300 мс или даже больше, а маскирующее поле может быть как темным, так и ярким. Эти, а также и другие характеристики сведены в табл. 3.1. Что же могут означать эти различия? Возможно, ключ к этой проблеме состоит в том, что в анализе движения, быть может, в большей степени, чем в любом ином аспекте зрения, существенную роль играет время. Это связано не только с потенциальной опасностью движущихся объектов, но также и с тем, что старые описания состояния движущегося тела, подобно прогнозу погоды, быстро становятся бесполезными. Подробность, с ко- которой можно вести анализ, с другой стороны, зависит от объема той информации, на которой он основывается. Объем информации, в свою очередь, должен зависеть от вре- времени, необходимого для сбора. При мгновенном взгляде, например, все кажется статис- статистическим и поэтому никакой информации о движении получить не удается. Информация об изменениях, замеченных после паузы продолжительностью 60 мс, может дать значи- значительно больше для анализа, а третий взгляд, брошенный на сцену спустя еще 60 мс, ве- вероятно, позволит полностью восстановить картину движения при условии, что обработ- обработка информации проводится достаточно интенсивно. Одной из простейших разновидностей анализа движения, вероятно, является анализ, связанный с фиксацией каких-то изменений в поле зрения и, возможно, отчасти связан- связанный с определением направления соответствующего движения, хотя последнее, несо- несомненно, составляет более сложную проблему. С анализом такого типа мы уже встреча- встречались выше при обнаружении зрительной системы комнатной мухи. Другим примером действия подобных механизмов служат обладающие избирательностью по направлению клетки сетчаток кролика [14], лягушки [8, 161], голубя [160], а также, вероятно, и И^-клетки сетчатки млекопитающих. Все эти механизмы обладают рядом общих свойств. Они, очевидно, действуют на самом раннем из существующих этапов обработки - т. е. оперируют непосредственно значениями- яркости тонового изображения, - и их основная функция представляет собой некий эквивалент комбинации временной задержки (или временного фильтра нижних частот) и логического элемента И-НЕ1. Идея, положенная в основу этой моде- модели, иллюстрируется рис. 3 30, а. Два рецептора соединены с логическим элементом И—НЕ (один — непосредственно, а другой — через элемент задержки). Если какое-либо яркое пятно проходит через правый рецептор R2, а затем через второй рецептор/?,, то сигналы, поступающие от них на вход логического элемента, попадают туда приблизи- приблизительно одновременно и, следовательно, он остается в состоянии покоя. Направление 1 Логический элемент И—НЕ срабатывает только в тех случаях, когда возбуждающий сигнал подан только на первый его вход. 175
Несущественное направление Приоритетное направление At НЕ И н НЕ И н Рис 3 30 Модель избирательности по направлению Барлоу и Левина [141, в которой два рецептора соединены с логическим элементом И-НЕ, причем один из них - через уст- устройство задержки, в результате эта схема не реагирует на раздражители, перемещающие- перемещающиеся со скоростью, близкой к допустимой в несущественном направлении (а). Модель Хассенштайна и Райкхардта [79], реализующая этот же принцип, за исключением замены задержки временным фильтром нижних частот (L); через Н обозначен фильтр верхних частот (б) движения, соответствующее такому режиму, называют несущественным. Движение яркого пятна в ином направлении приведет к срабатыванию логического элемента При замене детекторов яркости операторами с центральной возбуждающей и пери- периферийной тормозной зонами эта трудность отпадает мы получаем устройство с избира- избирательностью по направлению для обнаружения мелких насекомых или яркостных пере- переходов Специфические проблемы, однако, возникают и в этом случае Во-первых, при очень медленном движении раздражителя в несущественном направлении или его оста- остановке на полпути между двумя рецепторами и при последующем возобновлении дви- движения логический элемент сработает Во-вторых, и снова из-за наличия задержки, диапа- диапазон пространственных частот, в котором такое устройство может работать, определенно зависит от того, как быстро перемещается раздражитель Относительно такого уст- устройства толстая синусоидальная решетка, перемещающаяся быстро, выглядит как тон- тонкая синусоидальная решетка, перемещающаяся медленно Аналогичные свойства демон- демонстрирует и зрительная система человека (см , например, [118]) Для надежной работы механизма необходимо, чтобы он реагировал лишь на "нужную" часть пространственно- временнбго диапазона 176
Ненадежность устройств обнаружения типа приведенных на рис. 3.30 порождается до- достаточно серьезными причинами Из-за своей конструкции в некоторый момент времени они воспринимают сигнал, поступающий от одного из рецепторов, и немного позже — сигнал от другого рецептора, расположенного недалеко от первого. Если некоторый сиг- сигнал поступает от одного из рецепторов и после соответствующего промежутка времени — от другого, то устройство обнаружения неявно "предполагает", что оба изменения вы- вызваны одним и тем же реальным событием Это, в сущности, наше первое столкновение с реальностями задачи установления соответствия для случая видимого движения. Не- Ненадежность таких систем обнаружения объяснятся теми же основными причинами, по которым в фильме-вестерне колесо фургона переселенца на "дикий запад", быстро вра- вращающееся по часовой стрелке, кажется медленно вращающимся против часовой стрел- стрелки Подсознательное впечатление о том, что ближайшей спицей на очередном кадре оста- остается та же, которая была на предыдущем, неверно, поскольку скорость вращения коле- колеса слишком велика по сравнению со скоростью смены кадров Подобные схемы, как мы уже отмечали, все же полезны для определения участка поля зрения, в котором возникает относительное движение, и получения определенной информации о его направлении, если наблюдатель окажется внимательным Однако если же, кроме того, желательно проанализировать и форму движущегося пятна, то более целесообразной кажется попытка объединить анализ движения и анализ контуров Д58] Эта точка зрения, кстати, полностью противоречит существующим в настоящее время в физиологии и психофизике представлениям, согласно которым тонические и фазные каналы нижнего уровня зрительной системы человека разделены на две парал- параллельные системы - для анализа формы зрительных образов и для анализа движения [227, 126, 100, 101, 171] Конечно, для управления движениями глаз нет необходимости в их объединении, но делать это представляется целесообразным, для того чтобы иметь возможность рассмотреть форму движущегося пятна Итак, мы рассмотрели два вида информации, которую можно получить при анализе движения. 1) обнаружение движущегося объекта и определение его положения в поле зрения, 2) определение двухмерной формы движуще- движущегося объекта. Как можно предполагать, ни то ни другое не требует выполне- выполнения чрезмерно сложных измерений, и, вообще говоря, при наличии достаточ- достаточно точных результатов измерений обе задачи могут быть решены очень быст- быстро. А как в таком случае обстоит дело с определением трехмерной структу- структуры9 Очевидно, последняя информация представляет большую ценность, однако интуитивно понятно, что для ее получения необходимо извлекать больше информации из изображений. Действительно, для этого требуется больше информации. И главное усо- усовершенствование, которое здесь необходимо, — это по-настоящему хорошее решение задачи установления соответствия, а не малопродуктивных прибли- приближенных указаний, достаточных при решении более простых задач. Для вос- восстановления трехмерной структуры необходимо иметь возможность указать, что некоторая точка А изображения в момент времени t x соответствует в момент времени 12 некоторой точке В этого же изображения для эквивален- эквивалента трех кадров при проведении анализа по Уллману [237]. С другой стороны, что практически то же самое, при решении более простой задачи анализа оп- оптического потока, порождаемого перемещениями наблюдателя в жесткой среде, нам требуются точные мгновенные значения положений и скоростей на 177
изображении. Задача психофизики — определить, используется ли в зритель- зрительной системе человека какой-либо из этих теоретически возможных механиз- механизмов или оба. Как мы убедимся, имеются веские данные, свидетельствующие в пользу схемы Уллмана. Схема типа анализа оптического потока по Гибсону располагает несколько более слабыми подтверждениями, однако собственно теория тем не менее вызывает интерес. Этот и следующий разделы данной главы посвящены отдельным элемен- элементам задачи анализа движения. В этом разделе мы рассматриваем избиратель- избирательность по направлению, главным образом с точки зрения использования ее для выделения фигур из фона и восстановления двухмерной формы выде- выделенной фигуры. В разд. 3.5 мы остановимся на предложенной Уллманом теории определения трехмерной формы по видимому движению, а также кратко обсудим проблему оптического потока. Информационная теория Теория избирательности по направлению изучает возможности использова- использования неполной информации о движении (в частности, о его направлении с точ- точностью до 180°) для визуального определения двухмерной формы областей, попадающих в поле зрения, исходя из относительного движения. Основой для этой задачи с точки зрения информационного подхода явля- является решение следующего вопроса: сколько такой информации можно извле- извлекать из движения, не решая полностью задачу установления соответствия, т. е. не имея для изображения в целом исчерпывающих сведений о поле текущих положений движущегося объекта и его мгновенных скоростей? Причина из- изучения информативности собственно направления движения связана с так называемой проблемой апертуры, иллюстрацией к которой служит рис. 3.31. Если некоторый прямолинейный отрезок яркостного перехода перемещает- перемещается по изображению в направлении Ь, как это показано стрелкой на рис. 3.31, то одних локальных измерений для обнаружения этого события недостаточно. Как следует из рисунка, с помощью некоторой малой апертуры, наложенной на яркостный переход, можно обнаружить лишь один вид движения — движе- движение в направлении, перпендикулярном этому яркостному переходу. Для Рис. 3.31. Проблема апертуры. Если движение некоторого ориентированного элемента обна- обнаруживается с помощью устройства, размер ко- которого мал по сравнению с размером движуще- движущегося элемента, то единственная информация, которую при этом удается получить, - это со- составляющая движения, перпендикулярная ло- локальной ориентации элемента. Так, например, рассматривая перемещающийся яркостный пе- переход Е через некоторую малую апертуру А, невозможно определять, происходит ли реаль- реальное движение в направлении Ъ или с
a) Рис. 3.32. Два эксперимента, показывающие, что система Браддика с малым диапазоном действия [24] использует при разбиении изображения лишь ограниченный объем инфор- информации: а — скорости точек, входящих в центральный прямоугольник, одинаковы и отличаются от скоростей точек, не входящих в него, которые также одинаковы; направления же движения всех точек случайны; б — направления движения точек, входящих в централь- центральный прямоугольник, одинаковы, но скорости различны. Разбиение изображения при этом достигается без затруднений определения того, куда направлено это движение — вперед или назад, необхо- необходим всего лишь один бит информации. Конечно, если речь идет лишь о неко- некоторых точке, пятнышке или конце такого Типа, который поддается распозна- распознаванию, то может быть получена большая информация. Если же как-то уда- удалось определить угол В, образованный яркостным переходом и направлением движения Ь, то можно установить скорость s, измерив составляющую s sin в, перпендикулярную яркостному переходу. Простейший же случай, когда из- известен лишь знак, представляет, по крайней мере, теоретический интерес. Ряд экспериментов показывает, что этот простейший случай представляет интерес и с точки зрения понимания одного из способов анализа движения, используемых в зри- зрительной системе. Экспериментальная ситуация аналогична использовавшейся Брадди- ком [22, 23], а раздражители представлены на рис. 3.32. Эти эксперименты относятся к первому из двух его классов экспериментов, посвященных изучению быстропротекаю- щих явлений с малым диапазоном действия. На рис. 3.32, а все точки, входящие в центральный квадрат, имеют постоянные ско- скорости, вдвое большие скоростей точек, не входящих в центральный квадрат. Направле- Направления же движения всех точек — случайны. Оказывается, что в этих условиях центральный квадрат не выделяется. И, следовательно, нам не удается разделить участки изображе- изображения, опираясь на данные лишь о скорости движения. Джулес [ИЗ, гл. 4] описал анало- аналогичный эффект. На рис. 3.32, б периферийные точки движутся случайным образом, в то время как все центральные точки - в одном и том же направлении, но с различными скоростями (отличающимися в 4 раза). Центральный квадрат вырисовывается вполне определенно, причем в тех случаях, когда скорости соседних точек отличаются очень сильно, создается также впечатление о движении точек. 179
Из замечаний относительно проблемы ^апертуры следует, что именно мы хотим измерять и зачем. Перечисленные психофизические эксперименты по- показывают, что зрительная система при разделении поля зрения на отдельные части использует только информацию о направлении движения. Таким обра- образом, нами рассмотрены алгоритмы, обеспечивающие быстрое определение знака направления движения на уровне локальных отрезков яркостных пере- переходов или тех элементов, на основе которых они построены. Самый ранний этап, на котором эта процедура может осуществляться, соответствует уров- уровню отрезков пересечений нулевого уровня, и, как мы убедимся ниже, физио- физиологические данные свидетельствуют в пользу такой возможности. Алгоритм Для того чтобы построить устройство обнаружения пересечений нулевого уровня, обладающее избирательностью по направлению, необходимо каким- либо образом определить направление перемещения ориентированного от- отрезка пересечения нулевого уровня того типа, который был введен в гл. 2. Там было показано, что отрезок пересечений нулевого уровня представляет собой некоторый отрезок нулевых значений свертки V2G*I. Поперечное се- сечение графика этой операции свертки приведено на рис. 3.33 для изображе- изображения, профиль распределения значений яркости которого приведен там же. Существует несколько способов по- построения на этой основе устройств, об- обладающих избирательностью по направ- направлению; одним из таких способов яв- является использование в качестве источ- источников входных сигналов для устройст- б) в) Рис. 3.33. Графики ДГ = V2 G * /и У = d/dt X X (V2G*7) в окрестности изолированного яркостного перехода. График сигнала X в функции расстояния (а). Пересечение нулево- нулевого уровня Z на графике сигнала соответству- соответствует расположению яркостного перехода. Прост- Пространственное распределение значений сигнала Y при перемещении яркостного перехода вправо (б) и при его перемещении влево (в). Свидетельством движения яркостного пере- перехода вправо служит одновременное принятие значений X+Y+X~ в диаграмме, приведенной на рис. 3.33, б. Свидетельством движения яр- яркостного перехода влево служит одновремен- одновременное принятие значений X+Y~X~ в диаграмме, приведенной на рис. 3.33, в 180
ва типа предложенного Барлоу и Левиком [14] двух устройств обнаружения пересечений нулевого уровня. Как нам известно, однако, недостатком таких устройств является ложное срабатывание при прерывистом движении раздра- раздражителя по несущественному направлению; известно и то, что простые корко- корковые клетки, обладающие избирательностью по направлению, не страдают этим недостатком [65]. Итак, Марр и Уллман [158] предложили следующий алгоритм. Шаг 1. Измерение значений производной во времени Э/df [ V2 (G */) ]. Шаг 2. Если ее значение положительно в точке пересечения нулевого уров- уровня Z, то пересечение нулевого уровня движется вправо; если оно отрицатель- отрицательно, то пересечение нулевого уровня движется влево. Если контраст яркост- ного перехода противоположен, направления движения меняются местами. Правильность этих утверждений можно установить с помощью рис. 333, б и в, на которых приведены графики производной по времени d/dt ( V2 G */) зависимости, представленной на рис. 333, а, для движения вправо и влево со- соответственно. Знак производной по времени постоянен по всей ширине Wi_£> (т. е. между максимальными значениями подвергаемой дифференцированию свертки V2 G */), следовательно, данный алгоритм является устойчивым. Этот алгоритм обладает несколькими достоинствами: 1) предусматривает выполнение лишь локальных измерений; 2) не предусматривает использо- использования временных задержек, за исключением необходимой для вычисления производной; 3) может обеспечивать очень высокую чувствительность. Ниж- Нижняя граница поддающегося обнаружению смещения определяется чувстви- чувствительностью детектора, а верхняя граница, зависящая от характеристик вре- временного фильтра, достигает больших значений, если постоянные времени малы. Следовательно, можно обеспечить чувствительность одного детектора к широкому диапазону скоростей, и, поскольку на самом деле при измере- измерении значения Э/Э? ( V2 G * 7) важен лишь знак производной, это обстоятельст- обстоятельство можно использовать, придав, измерительному элементу очень высокую чувствительность. Быстрое насыщение при этом значения не имеет; 4) в пре- пределах соответствующего диапазона при обработке в достаточной мере изоли- изолированного яркостного перехода устройство работает абсолютно надежно. Решающее отличие данного алгоритма от предложенного Барлоу и Леви- Левиком заключается в том, что в первом нет необходимости дожидаться перехо- перехода нулевого уровня от первого детектора ко второму. Он, таким образом, мо- может мгновенно реагировать на движение и обладает чувствительностью к очень малым смещениям. Кроме того, в отличие от алгоритмов, в которых исполь- используется пара детекторов, данному не приходится "гадать", является ли неко- некоторое пересечение нулевого уровня, послужившее в данный момент времени причиной перехода в возбужденное состояние левого детектора, тем же, которое послужило причиной перехода в возбужденное состояние правого детектора несколько мгновений назад. Таким образом, за счет оперирования меньшим объемом информации устраняются трудности, неизбежно возника- возникающие в задаче полного установления соответствия. 181
Реализация на нейронном уровне Мы, конечно, не стали бы предлагать этот алгоритм, если бы у нас не было определен- определенных соображений по его реализации. Как мы уже убедились, обнаружение отрезков пересечений нулевого уровня (см. рис. 2.18) основывается на том представлении, что X- клетки наружного коленчатого тела передают положительные и отрицательные выход- выходные значения V2 G-фильтра с помощью специализированных клеток КСЦР и КТЦР соот- соответственно. Для обнаружения пересечения нулевого уровня достаточно просто соеди- соединить КСЦР- и КТЦР- ЛГ-клетки через логический элемент И. Но как измерить значение производной по времени? Это очень интересный и примеча- примечательный момент. Психофизическое изучение фазных каналов и нейрофизиологическая регистрация активности У-клеток, которым, как считается, соответствуют фазные кана- каналы, определенно свидетельствуют о том, что эти каналы осуществляют измерение значе- значений нашей производной по времени d/dt ( V2 G *7) ! Интересно отметить, что работа этих каналов, насколько нам известно, еще никогда не представлялась как вычисление неко- некоторой производной по времени, и объясняется это, вероятно, тем, что никто не задумы- задумывался о потенциальной полезности реализации такой функции на столь раннем этапе об- обработки информации в зрительной системе. Рассмотрим этот факт несколько подробнее. В идеальном случае для получения не- некоторого значения производной по времени из текущего значения соответствующего сигнала вычитается значение, которое он имел бесконечно малое время назад. Практи- Практически эти измерения должны выполняться на конечных промежутках времени. Следова- Следовательно, импульсная характеристика соответствующего устройства во временной об- области должна иметь положительную фазу, после которой следует отрицательная, причем форма характеристик в обеих фазах аналогична, а их знаки - противоположны. Что касается частотной области, то в диапазоне рабочих частот устройства энергетический спектр должен приблизительно линейно зависеть от частоты. На существование временного фильтра, включающего положительную фазу продол- продолжительностью 60 мс и следующую за ней отрицательную, в явном виде указали Уотсон и Накмиаз [245]; позже их данные были подтверждены результатами Толхерста [228], Бритмайера и Ганза [27] и Легга [132]. Отрицательная фаза может длиться дольше по- положительной, или за ней могут следовать затухающие колебания малой амплитуды (см. [27, рис. 3]), что не отражается существенным образом на результатах. В частотной области модуляционная передаточная функция (МПФ), измеренная Уил- соном [254] для фазного (/-канала, в диапазоне до w = 10 Гц точно описывается выраже- выражением F (w) = 16 и> — и?. Это согласуется с представлением о некотором операторе, ап- Рис. 3.34. Ответы фазного (/-канала на предъявление яркостного перехода, а также уз- узкой и широкой полос, перемещающихся со скоростью 3 град/с. Сигнал на выходе прост- пространственного фильтра ( V2 С * Г) для (/-канала с параметрами, соответствующими дан- данным Уилсона и Бергена [255]; по оси у откладывается нормированное значение ответа, по оси х — расстояние (полный диапазон составляет 3° ) (а). Расчетные выходные значе- значения временного фильтра в предположении, что фазный канал реализует операцию Э/Э/ X X (V 2 G * /) (б). Выходные значения временного фильтра при использовании кривой контраст-чувствительности Уилсона и антисимметричного фильтра (в). Сопоставление графиков, приведенных на рис. 3.34, би в(г). Ширина узкой полосы составляет 2', широ- широкой 40'. Во всех представленных случаях имеется удовлетворительное совпадение кри- кривых, полученных дифференцированием по времени, и экспериментальных кривых. Сле- Следовательно, для изолированных полос и яркостных переходов психофизические данные не противоречат представлению о том, что фазные каналы приближенно реализуют опе- операцию Э/Э? (V 2 G * Г). На рис. 3.34, б-г по оси х откладывается время. Полный времен- временной диапазон равен 1 с »~ 182
Яркостями переход Узкая полоса Широкая полоса а) б) в) 183
Яркостный переход Узкая полоса Широкая полоса А ■'■-"**■ ^bblitatofa* ц У^ У-канал проксимирующем вычисление первой производной входного сигнала при условии, что мощность последнего на частотах выше 8 Гц незначительна. Поскольку (/-канал ослаб- ослабляет пространственные частоты, превышающие значение 3 периода/град, то на его выхо- выходе будут воспроизводиться производные для яркостных переходов и полос, перемеща- перемещающихся по сетчатке со скоростями приблизительно до 3 град/с. Рисунок 3.34 показыва- показывает, сколь точно характеристики фазных каналов, измеренные в эксперименте, соответст- 184
Рис. 3.35. Сопоставление расчетных ответов КСЦР- и КТЦР- У-клеток сданными электро- электрофизиологических экспериментов. В верхнем ряду представлены ответы типа Э/Э? (V2 G */) для изолированного яркостного перехода, узкой полосы (ширинаполосы равна 0,Swl_jy) где w i _d - значение ширины, спроектированной на одну из координатных осей централь- центральной возбуждающей зоны рецептивного поля) и широкой полосы (ширина полосы равна 2,5w 1_/)). Расчетные графики получены с помощью наложения положительной (второй ряд) или отрицательной (четвертый ряд) составляющих производной Э/ЭГ (Ч2С * Г) на небольшие значения разряда в невозбужденном состоянии (фонового). Эти положитель- положительная и отрицательная составляющие соответствуют либо одному и тому же раздражите- раздражителю, перемещающемуся в противоположных направлениях, либо раздражителям с про- противоположными контрастами (скажем, темный яркостный переход и светлый яркост- ный переход, перемещающиеся в одном и том же направлении). Экспериментальные графики (третий и пятый ряды) хорошо согласуются с расчетными даже в тех случаях, когда имеют сложную форму (как, например, при предъявлении широкой полосы) вуют расчетным значениям производной по времени Э/Э? ( V2 G *Г) в случаях изолиро- изолированного яркостного перехода, узкой и широкой полос. Возвратившись к нейрофизиологическим данным, отмегим, что Родик и Стон 1204, с. 842] описали ганглиозные нервные клетки сетчатки, ответ которых на предъявление некоторого движущегося пятна был "непосредственно связан с градиентом рецептивно- рецептивного поля, как в случае ярких мигающих огней". Ни одно реальное устройство, естествен- естественно, не может обеспечить абсолютно точное вычисление производной по времени во всем частотно-в ременном диапазоне. Тем не менее опубликованные кривые отклика У-кле- У-клеток сетчатки и коленчатого тела на предъявления полос и яркостных переходов, переме- перемещающихся с умеренными скоростями, хорошо согласуются с расчетными значениями, полученными при взятии производной ijdt (v2 G */)• Рисунок 3.35 позволяет сопоста- сопоставить расчетные значения ответов КСЦР- и КТЦР- У-клеток с их ответами на предъявле- предъявление различных раздражителей, зарегистрированными в эксперименте. Все раздражители представляют собой яркие объекты (т. е. яркостные переходы и полосы света), причем ширина узких полос составляет около 0,5°, а широких полос 5°. Графики заимствова- заимствованы из статьи Дрихера и Сандерсона [43]. Графики построены по точным значениям про- производной Э/э? ( V2 G *Г), и, как на рис. 2.17, толщина узкой и широкой полос составля- составляет 0,5 w и 2,5 w соответственно. Ответы, полученные в эксперименте, хорошо согласуют- согласуются с расчетными, причем даже в тех случаях, когда и те и другие имеют сложный харак- характер (как, например, для широкой полосы). Идея о том, что Л"-клетки воспроизводят значение преобразования v2 G, а У-клетки — соответствующую производную по времени, позволяет создать устройства для обнару- обнаружения ориентированных отрезков пересечений нулевого уровня, обладающего избира- избирательностью по направлению. Кроме того, она дает точное объяснение некоторых функ- функций сетчатки и ставит перед специалистами-анатомами и нейрофизиологами, занимающи- занимающимися изучением сетчатки, волнующий вопрос, а именно: каким же образом происходит измерение этих сигналов? Легко представить себе возможность реализации свертки с преобразованием V2 G, но измерение значений Э/Э? (V2 G *Г) или хотя бы просто опре- определение их знаков является достаточно сложной задачей, выполнение которой требует сравнений как в пространственной, так и в частотной области: значения в центральной части должны сравниваться с периферийными, а текущее значение — со значением, за- зафиксированным несколькими мгновениями раньше. Все это означаем что должна быть предусмотрена память на 60 мс. Некоторые из этих значений могут подвергаться в сет- сетчатке искажениям, особенно из-за запаздывания при сравнении значений, соответствую- соответствующих двум различным моментам времени. Результаты Хокштайна и Шапли [86] показы- 185
б) в) Рис. 3.36. Обнаружение перемещающихся пересечений нулевого уровня. Части элемен- элементов Х~ и Х+ соединяются через логический элемент И (а). Получаемое в результате устройство должно фиксировать появление некоторого пересечения нулевого уровня определенного знака между этими частями. Ряд аналогичных элементов, соединенных через логический элемент И, обеспечивает обнаружение ориентированных пересечений нулевого уровня в границах, показанных штриховыми линиями (б). На рис. 3.36, в приведено устройство обнаружения, показанное на рис. 3.36, б, в которое введен У-эле- мент. Если последний имеет вид у+, он будет срабатывать при перемещении отрезка пересечений нулевого уровня от А" к Х~. Если же этот элемент имеет вид Y~, он будет срабатывать при перемещении отрезка пересечений нулевого уровня в противополож- противоположном направлении вают, в частности, что периферийная зона У-клетки с запаздыванием получает сигналы от соседних элементов, расположенных на расстоянии, соответствующем размерам цент- центральных частей локальных рецептивных полей ЛГ-клетки, и что именно такой запаздыва- запаздывающий входной сигнал может служить главной причиной наблюдаемой нелинейности. Нелинейные эффекты вызываются в основном дифракционными решетками 144,86, 87]. В случае изолированных яркостных переходов и отдельных полос У-клетки вполне удовлетворительно аппроксимируют операцию d/dt(V2G *Г), как это следует из рис. 3.35. При условии, что У-каналы воспроизводят значения производной d/dt(y 2 G * Г), а положительные и отрицательные значения воспроизводятся с помощью разных кана- каналов, придание избирательности по направлению устройству обнаружения отрезков пере- пересечений нулевого уровня, приведенному на рис. 2.18 и госпроизведеиному на рис. 3.36, обеспечивается введением в него, снова через посредство логического элемента И, одной У-клетки. Основной блок устройства обнаружения приведен на рис. 3.36, в и представляет со- 186
бой простейшую ЛГУХ-модель Марра и Уллмана [158] простой клетки зрительной коры. Ее рецептивное поле состоит из трех элементов: тонических КСЦР-ЛТ-входов, тоничес- тонических КТЦР-АГ-входов и одного У-входа. Все АГ-элементы должны иметь одинаковые раз- размеры и располагаться в других параллельных колонках, отстоящих друг от друга на расстоянии, не большем w2_£)/V 2 (здесь w2_d — диаметр центральных возбуждающих областей Х-клеточных рецептивных полей). Для организации У-входа вообще достаточ- достаточно одного входного элемента, рецептивное поле которого расположено в центре или не- немного смещено в сторону одной из колонок (по направлению к положительной колон- колонке в случае КСЦР- У-элементов и к отрицательной — в случае КТЦР- У-элементов). Идеальная реализация обнаружения требует точного выполнения логической опера- операции И для выходных значений подэлементов. Практически это можно осуществить, обеспечив сильное мультипликативное взаимодействие между колонками и У-входом и более слабую нелинейность вдоль колонок. Подобное устройство должно обеспечивать оптимальное обнаружение перемещающегося отрезка пересечений нулевого уровня, располагающегося по всей длине колонок, но оно должно реагировать и на более корот- короткие раздражители и даже на движущиеся световые пятна. Из таких устройств могут быть построены более сложные рецептивные поля (например, движущиеся полосы или щели). Подобное устройство будет обладать тем важнейшим практическим свойством, что при устранении У-входа клетка либо вообще не будет возбуждаться, либо, если разряд будет происходить, утратит избирательность по направлению. До сих пор еще неизвестно, справедливо ли то же самое для нервных клеток, обладающих избирательностью по на- направлению. В остальном свойства данной модели, в общем, согласуются с имеющимися экспериментальными данными [95, 96, 211, 212] (в этих работах ее называют St-клет- St-клеткой). В статье Марра и Уллмана [158] полнее описываются свойства этой модели, а также теоретические результаты, полученные на ее основе. Использование избирательности по направлению для разделения поверхностей, перемещающихся независимо друг от друга Информационная теория Перемещения объекта относительно фона можно использовать для опреде- определения границ объекта, и эта возможность используется в зрительной системе человека чрезвычайно эффективно. Если поле скоростей (т. е. скорость и направление в каждой точке изображения) определено полностью, то грани- границы объекта указываются нарушениями непрерывности этого поля, так как движение твердого тела характеризуется локальной непрерывностью в прост- пространстве и времени. Непрерывность обеспечивается процессом получения изо- изображения и порождает то, что в свое время было определено нами как прин- принцип непрерывности потока; согласно ему поле скоростей движения твердого объекта на изображении изменяется непрерывным образом всюду, за исклю- исключением границ объекта, загораживающих самих себя. Поскольку движения объектов, не связанных между собой, вообще говоря, не зависят друг от дру- друга, на границах объектов поле скоростей довольно часто будет претерпевать нарушения непрерывности. С другой стороны, линии, по которым происхо- происходят нарушения непрерывности, служат надежными индикаторами границ объ- объекта. К сожалению, измерения, проводимые на малых ориентированных элемен- элементах изображения, не дают возможности полностью определить поле скорос- 187
Допустимая зона а) Запретная зона б) V в) г) Рис. 3.37. Объединение локальных ограничений, порождаемых одиночными нервными клетками, которые обладают избирательностью по направлению, для установления направления движения- Ограничение, вносимое подобной одиночной нервной клеткой, состоит в том, что направление движения должно принадлежать зоне 180°, расположен- расположенной с допустимой стороны (а). Запретные зоны (б) для двух ориентированных элемен- элементов (V — вертикальный, Н - горизонтальный), движущихся в направлениях, указанных стрелками (в). Запретная зона для совместного движения представляется объединени- объединением их индивидуальных запретных зон (г). В этом случае направление движения должно принадлежать пересечению их допустимых зон, т. е. располагаться в первом квадранте тей. Существование проблемы апертуры приводит к тому, что локально уда- удается установить лишь знак направления движения. Это означает необходи- необходимость включения еще одного, дополнительного, этапа обнаружения наруше- нарушений непрерывности поля скоростей. В данном разделе нас будет интересовать, каким образом и в какой степени такая ограниченная исходная информация (информация только о знаке направления движения) может быть использова- использована для обнаружения этих нарушений непрерывности. Знак локального направления движения сам по себе не определяет ни ско- скорости движения, ни его истинного направления, однако его можно использо- использовать для введения ограничений на возможные истинные направления движе- движения (рис. 3.37). Эти ограничения сводятся к тому, что истинное направление движения должно располагаться в пределах зоны 180°, лежащей с разрешен- разрешенной стороны от локально ориентированного элемента (рис. 3.37, а), или, нао- наоборот, оно не должно попадать в зону, расположенную по другую сторону от этого элемента (рис. 3.37, б). Они, таким образом, связаны с ориентацией 188
локального элемента. Следовательно, если видимая поверхность текстуриро- вана и порождает множество локальных ориентации, то истинное направление движения может оказаться достаточно сильно ограниченным. Ограничения могут комбинироваться, как это показано на рис. 3.37, виг для простого случая двух локальных элементов. Здесь истинное направление движения указывает диагональ. Вертикально ориентированная одиночная нервная клетка V, обладающая избирательностью по направлению, восприни- воспринимает движение, происходящее справа от нее, а горизонтально ориентирован- ориентированная одиночная нервная клетка Н воспринимает движение, происходящее над ней. Если они воспринимают одно и то же движение, то ограничения, налагае- налагаемые ими на его направление, можно объединить, взяв объединение соответст- соответствующих запретных зон (рис. 3.37, г)? В результате оказывается, что направ- направление движения должно принадлежать первому квадрату, как это показано на рисунке. Введение дополнительных одиночных нервных клеток позволяет еще больше ограничивать вариации истинного направления движения расши- расширением запретной зоны. Наш рисунок показывает также, каким образом движение двух групп элементов может оказаться несовместным. Если допустимая зона одной группы элементов полностью покрывается запретной зоной другой группы, то очевидно, что их движения не могут являться совместными. Отметим в этой связи, что в данном случае используется лишь направление движения, но не его скорость. Система, разделяющая некоторую сцену таким образом, будет в определенной мере нечувствительна к изменениям скорости. Последнее из замечаний, являющихся предпосылкой для использования этой схемы, состоит в том, что наблюдаемые объекты локализованы в прост- пространстве. Если эти объекты к тому же непрозрачны, то их изображения долж- должны содержать некоторую внутреннюю область, в пределах которой запретные зоны диаграмм типа приведенных на рис. 3.37,г оказываются совместными при условии, что элементы этих запретных зон выбираются из малых окрест- окрестностей. Исключения могут иметь место, как, скажем, в случае вращающегося диска, но лишь изредка. Следовательно, метод является надежным, но не об- обладает универсальностью: если две поверхности неподвижны друг относи- относительно друга, разделить их не удастся. Алгоритм и его реализация Диаграммы, приведенные на рис. 3.37, фактически содержат всю информа- информацию, которая должна быть известна в данном случае, поскольку искомый алгоритм должен сводиться к поиску окрестностей с локально совместными направлениями движения. На рис. 3.38 — 3.40 представлены некоторые ре- результаты, полученные при реализации на ЭВМ алгоритма, предложенного Д. Батейли. Рисунок 3.38 иллюстрирует обнаружение некоторой перемещаю- перемещающейся конфигурации, имеющейся в паре изображений, образованных случай- случайными конфигурациями точек. Центральный квадрат (рис. 3.38,а) смещен на рис. 3.38, б вправо, в то время как фон перемещается в противоположном направлении. На рис. 338, в представлены контуры пересечений нулевого 189
в) Рис. 3.38. Выделение движущейся фигуры из фона с помощью объединения одиночных нервных клеток, обладающих избирательностью по направлению. Центральный квадрат (а) на рис. 3.38, 5смещен вправо. Фон на обоих изображениях перемещается в противопо- противоположном направлении. Контуры пересечений нулевого уровня изображения на рис. 3.38, а, обработанного с помощью V2 G-фильтра (в) Результат свертки разности изображений, при- приведенных на рис. 3.38, а и б, с V2 G-фильтром (г). Если изображения, приведенные на рис. 3.38, а и б, при предъявлении быстро следуют друг за другом, то функция на рис. 3.38, г является приближением производной d/dt (V2 G * Г). Размер изображений составляет 400x400 пикселов, размер внутреннего квадрата 200x200 пикселов, размер каждой точки 4x4 пискела, а смещения 1 пиксел уровня, полученные в результате применения к изображению на рис. 3.38, а V2 G-фильтрации. На рис. 3.38, г представлены значения, воспроизводимые в фазном канале при условии, что кадры, которые приведены на рис. 3.38, а и б, быстро сменяют друг друга в процессе предъявления испытуемому. На рис. 3.40, а представлены результаты применения .ДГУХ-операцииобнаружения движения к пересечениям нулевого уровня, изображенным на рис. 3.38, в. Кодирование направлений движения указывается звездочкой, показанной на рисунке: движение вправо обозначено черным, влево — белым. Положение центрального квадрата четко определяется нарушениями непрерывности по направлению движения. 190
Рис. 3.39. Два последовательных кадра из 16-мм фильма о баскетбольном матче. Эти изображения проанализированы точно таким же образом, как и случайные конфигура- конфигурации точек, приведенные на рис. 3.38 Точно таким же образом проанализированы изображения реальных сцен, приведенные на рис. 3.39 (два последовательных кадра 16-мм фильма о бас- баскетбольном матче). Результаты этого анализа приведены на рис. 3.40, б. Так, в частности, левая рука игрока под номером 7 перемещается вниз и влево, а крайний справа игрок перемещается вправо. Небольшие ошибки, более или менее неизбежные из-за способа выполнения дискретизации этих изображе- изображений, иногда порождают ложное движение фона С психофизической точки зрения ХУХ-схема обнаружения движения хоро- хорошо согласуется с первым типом процессов по Браддику. Это явление, в част- частности, должно сказываться лишь в малых зонах (порядка w/y/Tvuin 15'при эксцентриситете 5°) и при малых межкадровых интервалах (не превышаю- превышающих продолжительности временной компоненты фазного канала, т. е. при- приблизительно 120 мс), что следует из данных, полученных для такого канала Уилсоном. Если единственным доступным различительным признаком яв- является не направление, а скорость, то разделение оказывается невозможным, что подтверждается данными психофизического эксперимента (рис. 3.32). Отметим к тому же, что объем информации, который избирательность по направлению может обеспечить, зависит от направления движения и ориента- ориентации движущихся элементов. Таким образом, одно и то же поле скоростей может восприниматься и когерентным, и некогерентным, в зависимости от ориентации движущихся элементов. Дело в том, что два соседних вектора скорости для элемента, ориентированного приблизительно перпендикуляр- перпендикулярно относительно них, определят направления движения с одним и тем же знаком, однако для элемента, ориентация которого совпадает с биссектрисой угла между ними, эти знаки будут противоположны. Мы убедились также и в том, что это верно с психофизической точки зрения. Более того, если образо- образование когерентных групп происходит приблизительно так, как это представ- представлено на рис. 3.37, то можно предполагать, что кластеры локально-когерент- локально-когерентных движений будут восприниматься даже при предъявлении абсолютно случайных последовательностей кадров — так в действительности и происхо- 191
^ a) дат. Этот же механизм порождает и обращенный фи-феномен Анстиса [4J, состоящий в том, что при одновременном реверсировании движения и конт- контраста может возникнуть иллюзия движения в противоположном истинному направлению [158]. И наконец, использование цветовых, а не световых границ или предъявле- предъявление белого поля во время межкадровых интервалов может нарушить дейст- действие этого механизма, как утверждает Браддик, из-за вмешательства в работу механизмов сетчатки, обеспечивающих измерение значений "производных по времени, которые воспроизводятся с помощью У'-каналов. 192
* f * * ' 4 I4 >\ •"' i^ ' * ** » • -' it >.. Illllllii ' A j ■, •;• 6) Рис. 3.40. Движения, соответствующие пересечениям нулевого уровня изображений, приведенных на рис. 3.38 и 3.39. Направление движения определено в соответствии с приведенными в тексте правилами, а для воспроизведения полученного результата ис- использованы тоновые градации Под рисунками приведено кодирование направлений движения градациями серого тона. Центральный квадрат явно перемещается вправо, в то время как остальная часть изображения перемещается влево (а) Пересечения нуле- нулевого уровня эпизода баскетбольного матча (б) указывают, что левая рука игрока под номером 7 перемещается влево и вниз, а игрок, находящийся справа от него, движется вправо Луминг Выходные сигналы одиночных нервных клеток, обладающих избирательностью по на- направлению, могут оказаться интересными еще в одном отношении, поскольку объедине- объединение таких клеток, относящихся к обоим глазам, позволяет получить информацию иного типа [158]. Допустим, что идентифицировано некоторое пересечение нулевого уровня и на двух изображениях ему поставлены в соответствие несовместные движения. В таком случае это пересечение нулевого уровня перемещается по глубине либо к наблюдателю, если на сетчатках обоих глаз оно удаляется от носа, либо от наблюдателя, если движение происходит в сторону носа. Если не обеих сетчатках перемещение происходит вправо, объект благополучно передвинется влево от наблюдателя, и наоборот [192]. Для того чтобы провести такой анализ, нет необходимости объединять ограничения таким образом, как показано на рис. 3.37, — можно использовать необработанные значе- значения выходных сигналов одиночных нервных клеток, обладающих избирательностью по направлению. В данном случае, и в этом состоит сложность, необходимо обеспечить, что- чтобы как левые, так и правые детекторы "смотрели" на одно и то же пересечение нулево- 193
го уровня. Это достигается с помощью решения задачи установления соответствия меж- между изображениями стереопары. Если, однако, время от времени допустимо возникнове- возникновение неточностей, то может быть сформирован быстрый детектор луминга, который не должен дожидаться результатов процесса установления соответствия между изображе- изображениями стереопары В частности, основой для простой системы обнаружения луминга может служить сравнение знаков направлений движения в соответственных точках сет- сетчатки. Такие точки часто, но отнюдь не всегда соответствуют соседним точкам одного и того же перемещающегося объекта. Подобная система в определенной мере может базироваться на нервной клетке, рас- располагающей бинокулярными рецептивными полями, находящимися в поле зрения ря- рядом, но не являющейся чувствительной к диспаратности в полном смысле слова, причем приоритетные направления для обоих глаз противоположны. Имеются данные, подтверж- подтверждающие существование таких нервных клеток Ц92]. 3.5. ВИДИМОЕ ДВИЖЕНИЕ В последнем разделе мы рассмотрели, каким образом очень ограниченную информацию о движении в поле зрения можно использовать на достаточно ранней стадии обработки для получения некоторой довольно приближенной информации о разбиении сцены на отдельные поверхности. Мы убедились также в том, что эту задачу можно решить достаточно быстро. Однако, затра- затратив больше времени и усилий, можно превратить наблюдаемое движение в значительно более богатый источник информации. Хотя эксперименты Майл- Майлса [167] и Уоллака и О'Коннелла [240] проведены раньше, демонстрацион- демонстрационный эксперимент с цилиндрами, поворачивающимися в противоположных направлениях, который был предложен Уллманом [238] (см. рис. 3.52),яв- 3.52),является пока наиболее ярким и показывает, что зрительная система человека может почерпнуть из наблюдаемого движения. В эксперименте используется последовательность кадров, каждый из ко- которых представляет собой некоторую проекцию множества точек на два кон- концентрических цилиндра, поворачивающихся в противоположных направлени- направлениях. В каждом кадре присутствуют только точки, причем их положения ме- меняются при смене кадров. Как и в случае стереограмм, образованных конфи- конфигурациями случайных точек, ни на одном взятом в отдельности кадре не на- наблюдается никакой структуры. Тем не менее при показе этих кадров в виде фильма отчетливо воспринимаются два цилиндра, вращающиеся в противо- противоположных направлениях. То, что зрительная система человека обладает замечательным свойством восстанавливать форму неизвестных структур непосредственно по измене- изменению их вида на изображении, ясно из эксперимента. В своей книге, посвящен- посвященной этой проблеме [238], С. Уллман существенно продвинулся в построении полной теории, объясняющей, каким образом это может осуществляться. В ее подтверждение им приводятся соответствующие психофизические данные. Данный раздел содержит резюме работы Уллмана, а также несколько общих проблем, которые я хотел бы обсудить в контексте зрения в целом. 194
Зачем нужно изучать видимое движете? Движение является непрерывным по природе процессом и обычно вызы- вызывает гладкие изменения изображений. Действительно, можно предполагать, что это принципиальное свойство движения имеет достаточно существенное значение для его восприятия, поскольку именно непрерывность движения должна способствовать решению задачи отслеживания различных частей объ- объекта на изображении при определении того, каким образом этот объект дви- движется. Почему же в таком случае основной темой данного раздела служит из- изучение видимого движения, принципиальной особенностью которого являет- является дискретное, а не непрерывное предъявление последовательности быстро следующих друг за другом кадров? Несомненно, при переходе от непрерыв- непрерывности к дискретности что-то теряется. На самом деле, теории, которые будут излагаться, относятся к движению обоих типов — непрерывному и разделен- разделенному на отдельные кадры (видимому движению). Это, однако, не совсем удовлетворительный ответ, и для того чтобы убедиться в пригодности анали- анализа, проводимого в контексте покадрового предъявления раздражителя, в си- ситуации, интересующей нас в данном случае, требуется более подробное об- обсуждение. Первая особенность состоит и в том, что в отличие от ситуации, рассматри- рассматривавшейся в предыдущем разделе, мы теперь не имеем дела с явлениями, про- протекающими практически мгновенно. В данном случае мы оказываемся вне сферы задач обнаружения. Вместо того чтобы обнаруживать нечто простое, но, возможно, важное в течение 50 мс, можно затратить достаточно много времени (скажем, от 1/4 до 1/2 с, что много по нормам восприятия), позво- позволив изображению измениться существенным образом. Дело в том, что мы хотим не только обнаружить изменения, но также измерить степень этих из- изменений и использовать эту информацию. Таким образом, суть подхода в том, чтобы, сопоставляя положения объектов на изображении в некоторый момент времени с положениями этих же объектов на изображении через до- достаточно длительный промежуток времени, иметь возможность надежно из- измерять различия соответственных положений — эти различия будут затем использоваться в процедурах определения форм и характера движения соот- соответствующих объектов. Следовательно, мы заинтересованы во введении некоторого запаздывания, однако оно не должно быть чрезмерным, поскольку изображение может вый- выйти за пределы распознавания: видимые части поверхности могут оказаться заслоненными или в процессе поворота могут выйти за пределы видимого. Однако, по меньшей мере в данном случае, намнужны именно изменения, происходящие в течение определенного периода времени, причем их необхо- необходимо определять весьма точно. Пусть так, могут возразить нам, но на самом деле факты таковы, что, если нас интересует лишь то, куда объекты переместились за 100 мсили около то- того, несомненно, проще всего узнать это при непрерывном слежении за их перемещениями. Разве не усложняем мы сами себе задачу, "разрезая" непре- непрерывную последовательность на отдельные кадры? Действительно, в опреде- 195
ленной степени это справедливое замечание. С другой стороны, если частота смены кадров достаточно велика по сравнению со значениями постоянных времени, скажем колбочек сетчатки глаза (которые составляют около 20 мс или около этого), две ситуации будут неразличимы. Также известно, что мы прекрасно воспринимаем кинофильм и движение при этом кажется нам вполне нормальным. Хотя частота кадров в фильме составляет всего лишь 24 кадра в секунду, Вы не в состоянии установить факт такого разделения, ориентируясь исключительно на данные восприятия. Кроме того, предъявле- предъявление в психофизическом эксперименте всего лишь двух кадров, разделенных столь продолжительным промежутком времени, как 300 мс, позволяет со- создавать субъективное впечатление плавного движения. Итак, хотя непрерывная задача может оказаться несколько проще задачи восстановления структуры по видимому движению, она, вероятно, не намно- намного проще, и мы, конечно, можем справиться с более трудной задачей, связан- связанной с видимым движением. Кроме того, последнюю задачу значительно про- проще формулировать и исследовать экспериментально, а результаты ее решения можно применять к непрерывному случаю. Следовательно, представляется разумным сначала решить эту задачу, а затем оценить результат. Две стороны задачи Наша цель, таким образом, состоит не столько в обнаружении изменений, вносимых движением, сколько в использовании последних для восстановле- восстановления трехмерных структур движения. Из этого вытекают задачи двух типов, которые, по крайней мере внешне, выглядят достаточно разными и в некото- некотором отношении аналогичными тем, с которыми мы встречались при обсужде- обсуждении стереопсиса. Первая задача заключается в слежении за объектами в про- процессе их перемещения по изображению и определении их положения в раз- различные моменты времени. Это — задача установления соответствий, цель ко- которой определить, какой объект изображения в момент t x какому объекту этого же изображения в момент /2 соответствует. Вторая задача заключается в восстановлении трехмерной структуры по данным, полученным в результа- результате решения первой задачи, и ее называют задачей восстановления структуры по движению. Очевидно, что эти две задачи в зрительной системе человека решаются не- независимо, и нам очень повезло в том, что они разделены. Решающим экспери- экспериментальным подтверждением этого факта служит отсутствие среди объектов измерений, выполняемых в процессе установления соответствия, углов и расстояний в трехмерном пространстве — все измерения производятся на плоскости, т. е. на изображении [236]. Следовательно, отсутствует особая необходимость в организации обратной связи от второй задачи к первой. Две эти задачи, таким образом, могут решаться независимо. Мы в первую очередь рассмотрим задачу установления соответствий, а затем — альтерна- альтернативные подходы к решению второй задачи. У читателя, вероятно, уже возник важнейший исходный вопрос: что представляют собой непроизводные эле- элементы, используемые в процессе установления соответствий, или, на введен- 196
ном нами выше языке, что представляет собой исходное представление, тре- требующееся для данного процесса? И, поскольку измерения изменений положе- положения должны выполняться для участка поверхности, поддающегося идентифи- идентификации, соответствующие непроизводные элементы должны иметь максималь- максимально возможный физический характер. Игак, читатель не должен быть удивлен, узнав, что, по-видимому, должны использоваться непроизводные элементы первоначального эскиза, хотя в связи с некоторыми деталями возникают раз- различные интересные смежные проблемы. В таком случае нам придется определить связь между положениями непро- непроизводных элементов на соседних кадрах, которые должны выполняться (на- (напомним, что мы будем иметь дело с видимым движением). Вообще говоря, нетрудно убедиться в том, что чем ближе расположены два объекта на сосед- соседних кадрах и чем большим сходством эти объекты обладают, тем вероятнее их взаимное соответствие. Это отражает лишь некоторую статистическую закономерность устройства нашего мира, и она будет выполняться при усло- условии, что продолжительность межкадрового интервала не слишком велика, учитывая скорости и расстояния, характеризующие анализируемые видимые движения. Создается впечатление, что в зрительной системе человека посто- постоянно поддерживается либо в нее "вмонтирована" некоторая таблица подо- подобий, с помощью которой может оцениваться сходство или различие отдель- отдельных параметров. Так, например, на основании экспериментов, в которых проверялось подобие двух линий одинаковой контрастности, предъявляв- предъявлявшихся на двух последовательных кадрах, было установлено, что изменение длины в 1,5 раза порождает аналогичное изменение подобия, выражающееся в изменении ориентации на 45°. Этот тип сходства Уллман назвал критерием аффинного подобия, который основан на измерениях, выполняемых на плоскости1. Сам по себе этот кри- критерий, однако, не определяет процесс установления соответствий. Для этого требуется учесть еще ряд дополнительных факторов. Допустим, например, что в первом из предъявляемых кадров содержатся две прямых Л и В и во втором — две прямых а и Ь. Существуют четыре возможных сочетания пар: 1) А -+а и В^-Ь, 4)A-*bnB-+b. В этом списке отсутствуют сочетания пар типа А -*■ а и В -*■ ничто. Вопрос за- заключается в следующем: каким образом человек определяет, какое именно из допустимых сочетаний пар действительно имеет место? Очевидный ответ предполагает выбор того решения, которое максимизирует общее сходство кадров. Для оценки такого типа сходства можно воспользоваться одной из стандартных функций стоимости, ставящей некоторое значение подобия 1 В переводе монографии С Уллмана [238] термин affinity measure передается как "сродство", что, к сожалению, не отражает специфики этого критерия как подобия с точностью до аффинных преобразований соответствующих фигур. — Прим. ред. 197
a) б) Рис. 3.41. Одна из конфигураций, являвшихся предметом затруднений для гештальт- психологов. На рис. 3.41, а и б приведены кадры 1 и 2 соответственно. При восприятии этих кадров фигура А переходит в Л\ а фигура В - в В'. В результате создается впечатле- впечатление движения фигуры В в соответствие каждому сочетанию пар, входящему в рассматриваемое ре- решение; в этом случае значение общего сходства двух кадров оценивается суммой значений подобий, установленных для каждого из сочетаний пар. Функция стоимости позволяет нам приближенно судить о том, сколько сле- следует принять достаточно плохих сочетаний пар, для того чтобы избежать бес- бессмысленных сочетаний или достичь отличного в целом соответствия. Такой подход, предусматривающий отыскание некоторого решения, кото- которое обеспечивает достижение глобального минимума, в некоторой степени аналогичен составлявшему предмет интересов гештальтпеихологии на про- протяжении первой трети нашего века, хотя, вероятно, в экспериментах, кото- которые гештальтисты действительно проводили, проявлялось несколько различ- различных явлений. Они придерживались концепции о наличии элементов, связы- связывающего их в- целостные фигуры и определяющего взаимодействие между последовательно поступающими кадрами, однако они не смогли установить, в какой степени данный подход позволил бы объяснить то затруднение, с ко- которым они столкнулись при изучении процесса установления соответствия. Оно заключалось в следующем. Работая с изображениями, подобными приве-^ денному на рис. 3.41, они видели, что А -+А' и В -*В'. Если же, однако, А и В удалялись, то В -> А'. Следовательно, рассуждали они, решающее значение имеют перемещения целостных фигур и поэтому данное явление нельзя, ве- вероятно, исчерпывающим образом объяснить только локальным образом. Такая аргументация в значительной степени послужила причиной гибели школы гештальтпеихологии, поскольку гештальтисты рассматривали пробле- проблему формирования целостных образов как неразрешимую. Здесь имеют место две фундаментальные ошибки, и мы остановимся на них, с тем чтобы вывести отсюда соответствующую мораль. Первая ошибка связана с полным математическим невежеством. Совершенно очевидно, что примеры, подобные приведенному на рис. 3.41, показывают, что процесс ус- установления соответствий требует большего, чем отыскание сугубо локаль- локальных минимумов: если эта задача вообще может быть представлена в такой постановке, то искомый минимум — это глобальный минимум. С другой сто- 198
роны, — и именно с этим связана первая ошибка — известно множество сис- систем, в которых для отыскания глобальных минимумов достаточно использо- использовать исключительно локальные взаимодействия, и, следовательно, результа- результаты гештальтистов не должны форсированно приводить к сделанным ими вы- выводам о недостаточности локальных взаимодействий. В частности, наиболее очевидный способ разрешения проблем гештальтистов, связанных с приме- примером рис. 3.41, заключается в том, чтобы считать издержки, соответствующие варианту (А -*А') + (В -+В'), меньшими, чем издержки, соответствующие ва- варианту (А -*В')'+ (В -*А'). Эта идея оказывается даже еще более простой, если обратить внимание на линейность, поскольку линейные системы облада- обладают очень хорошими свойствами, главным образом потому, что они не "за- "застревают" на локальных минимумах. Таким образом, теория соответствий Уллмана линейна по существу. Второй принципиальной ошибкой являлось отсутствие у гештальтистов представления о собственно процессе. Они рассматривали объединение в целостный образ как проявление действия различных правил — принципов замыкания, "хорошего" продолжения, регулярности, симметрии, простоты и т. д. [122, с. 110], которые были суммированы в гештальтпсихологии как закон прегнантности. Последний играл для гештальтпсихологов роль некото- некоторого физического закона. Если бы они представляли себе, каким образом подобные принципы могут реализовываться в различных процессах объеди- объединения (например, в виде ограничений, указывающих, что следует и что не следует объединять), быть может, они не отказались бы от систематизации процессов формирования целостных образов. Мораль же в данном случае такова. В гл. 1 мы познакомились с некото- некоторыми из опасностей, подстерегающих чистых специалистов в области машин- машинного зрения, если они игнорируют биологические данные, характеризующие организацию зрительной системы человека. Основные трудности при этом возникают в связи с тем, что подобная узость взглядов может привести их к попыткам решения задач, которые задачами на самом деле вовсе не явля- являются, а возникают изчза недостатков конкретных датчиков, аппаратуры либо находящихся в их распоряжении вычислительных мощностей. В данном слу- случае мы наблюдаем обратную картину: математическое невежество (которое могло бы быть преодолено) и неспособность рассуждать на языке процессов (что более простительно) привели к краху теоретическое направление, на счету которого имелся ряд вполне реальных и очень ценных открытий. Мо- Мораль состоит в том, что невежестно в любой из трех указанных областей может оказаться опасным. Точно так же как современный физик должен в определенной степени знать математику, ее должен знать и современный психолог, который, однако, должен быть знаком и с обработкой информа- информации и иметь ясное представление о ее возможностях, ограничениях, плодо- плодотворных способах рассмотрения процессов и (это важнее всего) о том, что требуется для понимания этих процессов. Итак, приблизительно таким образом выглядит современное состояние проблемы установления соответствий. Уллман сформулировал ее как линей- линейную задачу минимизации и показал, как такая модель может объяснить ббль- 199
шую часть известных психофизических данных. Мы достаточно подробно рас- рассмотрим его идеи, а также некоторые более новые, касающиеся их биологи- биологической реализации на основе непроизводных элементов первоначального эс- эскиза высшего уровня. Что же касается данной проблемы в целом, то она не решена еще ни на одном из трех наших уровней. Поскольку, однако, о ней известно достаточно много, появление полностью объясняющей ее информа- информационной теории, как я полагаю, не за горами. Вторая сторона этой проблемы (теория определения структуры по движе- движению) очерчена лучше и применительно к уровню информационной теории, в сущности, решена в [237].. Форма этой теории теперь известна — она та же, что в гл. 2 (для первоначального эскиза) и в данной главе, хотя хронологи- хронологически теория Уллмана появилась одной из первых. Важнейшим дополнитель- дополнительным ограничением, введенным им, является жесткость; он очень точно опре- определил использование этого ограничения и показал, каким образом восстанов- восстановление трехмерной структуры может осуществляться на основе измерений, получаемых при успешной реализации процесса установления соответствия. Лежащий в основе этого математический результат представляет собой тео- теорему, утверждающую, что трех проекций четырех точек, принадлежащих жесткой конфигурации и не являющихся компланарными, достаточно для восстановления их положения в трехмерном пространстве и движения. Мы увидим, каким образом этот результат можно использовать в качестве крае- краеугольного камня интерпретации наблюдаемого движения. Лонге—Хиггинс и Праздни [135] использовали аналогичный подход в своем исследовании оптического потока. В заключение этого краткого обзора, вероятно, стоит сделать еще одно последнее замечание. Хотя геометрические свойства трехмерного пространст- пространства изучаются со времен Евклида, некоторые сравнительно простые теоремы все еще остаются неизвестными. Теорема о четырех точках и трех проекциях является одной из них, а с еще одной мы встретимся при обсуждении воз- возможностей получения информации о формах объектов по их силуэтам [176]. Трудно поверить, что других таких теорем не существует. Две теоремы были сформулированы в связи с тем, что процесс получения изображений протека- протекает в трех измерениях, и потому определенные типы геометрических соотно- соотношений, если они известны и используются, могут быть включены в процесс интерпретации изображений. Возможно, математики не зря потратят время, если они вновь обратятся к геометрии трехмерного евклидова пространства. Задача установления соответствий Экспериментальные данные Что такое исходное представление7 Исходя из общих соображений мы счи- считаем, что характерные объекты изображения (признаки-объекты), использу- используемые в процессе установления соответствия (будем называть их обобщенны- обобщенными признаками соответствия), должны иметь физическую интерпретацию. Это условие исключает использование значений уровней серого тона в чистом 200
к s к 5 а. а. о Смещение б) Рис. 3 42. При установлении соответствий тоновые изображения не используются. В про- противном случае при последовательном предъявлении двух кадров, на которых представ- представлены профили распределения яркостей (а), не возникало бы впечатления движения, так как максимальное значение корреляции этих кадров соответствует смещению (б). На самом же деле наблюдается переход яркостного перехода Е в F, из чего следует, что яр- костные переходы, но не тоновые изображения, являются теми обобщенными признака- признаками, которые используются в процессе установления соответствий [238] виде, причем можно показать непосредственно, что в зрительной системе человека корреляция уровней яркости не является основой процесса уста- установления соответствия. Рисунок 3.42 иллюстрирует это. Максимальная кор- корреляция двух кадров по уровню тона (рис. 3.42, а) соответствует нулевому смещению, что следует из корреляционной функции, приведенной на рис. 3.42, б. Если же, однако, соответствие устанавливается между резкими яркост- ными переходами, то можно предполагать, что яркостный переход Е кадра 1 скачком перейдет в яркостный переход F кадра 2 — именно так в действи- действительности все и происходит. Этот эксперимент показывает, что установление соответствий осуществля- осуществляется на уровне более высоком, чем уровень тоновых значений яркости. На- Насколько, однако, все-таки высок этот уровень установления соответствий? Устанавливаются ли они между относительно небольшими и простыми час- частями сцены, в основном независимо от очертаний и форм, либо при этом ис- используются значительно более сложные описания, например предусматрива- предусматривающие получение полной интерпретации конфигурации на одном кадре до на- начала сопоставления различных кадров7 Рисунок 3.43 иллюстрирует один из ряда экспериментов, показывающих, что второй вариант невозможен. На этом рисунке представлены два после- последовательных кадра — один из них составляют сплошные линии, другой — штриховые. Если бы анализ всей конфигурации в целом проводился по одно- одному кадру и в результате выделялись очертания колеса, которые далее исполь- использовались бы для установления соответствий с элементами следующего кадра, то в этом случае наблюдатель должен был бы воспринимать эти кадры при быстрой их смене как одно вращающееся колесо. Обратите, однако, внима- внимание на то обстоятельство, что ближайшие соседние элементы для внутренней и внешней частей колеса располагаются в одном и том же направлении, а для среднего кольца — в противоположном. В связи с этим, если бы соответствие устанавливалось сугубо локально, наблюдатель должен был бы видеть, что среднее кольцо поворачивается в одном направлении, а внешнее и внутреннее 201
Рис. 3.43. Пример, показывающий, что решение задачи установления соответствия для видимого движения предусматривает использование операций установления соответст- соответствий, относящихся к нижнему уровню. Кадр 1 образуют сплошные линии, а кадр 2 - штриховые. При соответствующем выборе межкадровых интервалов наблюдатель видит не одно вращающееся колесо, а три — внутреннее и внешнее кольца вращаются в од- одном направлении, а центральное - в противоположном (эти направления на рисунке указаны стрелками). Отсюда следует, что соответствие устанавливается между элемен- элементарными отрезками прямых, а процесс установления соответствий определяется глав- главным образом близостью отрезков [238] кольца - в противоположном (как это показано стрелками на рис. 3.43). При правильном выборе межкадровых интервалов именно это в действитель- действительности и наблюдается. Эти соображения дают основания для выбора элементов первоначального эскиза, причем следующий эксперимент показывает, что определенная роль в этом отношении принадлежит концам (так же как и в стереопсисе). На рис. 3.44, а представлен случай, когда соответствие устанавливается между концами двух прямых. Ситуация изменяется, если расстояния между соот- соответствующими концами много больше расстояний между отрезками пря- прямых, как показано на рис. 3.44, б; в этом случае соответствие устанавливает- устанавливается между короткой прямой и только ближайшей к'ней частью длинной пря- прямой. Пока не совсем ясно, устанавливается ли соответствие между наруше- нарушениями непрерывности типа приведенных на рис. 3.44, в, однако совершенно очевидно, что эта проблема представляет интерес. Рисунок 3.45 дает дополнительные подтверждения тому, что соответствие определяется характерными объектами изображения, относящимися к до- достаточно низкому уровню, а не очертаниями или формой соответственных 202
a) 6) в) Рис. 3.44. В качестве обобщенных признаков при установлении соответствий могут ис- использоваться также и концы, если две прямые на последовательных кадрах не очень сильно отличаются по длине (а). Если их длины разнятся очень существенно, соответст- соответствие устанавливается между короткой прямой и каким-либо отрезком длинной прямой. Пока неизвестно, могут ли нарушения непрерывности по ориентации типа приведенных на рис. 3.44, в использоваться в качестве обобщенных признаков при установлении со- соответствий [238) / А / С \ t R а) б) Рис. 3.45. Эти рисунки свидетельствуют, очевидно, о том, что установление соответст- соответствия определяется движениями образующих элементов, а не формой целостных объек- объектов [238] фигур. На рис. 3.45, а квадрат Л движется к большему квадратур. На рисун- рисунке же 3.45, б он движется к большему треугольнику В, а не к меньшему квадрату С. Таким образом, в этих примерах процесс установления соответст- соответствия определяется движением образующих элементов, а не подобием форм целостных объектов. Уллман [238, с. 26] приходит к выводу, что: 1) разли- различия характера слияния отдельных фигур согласуются с движениями, устанав- устанавливаемыми между их составными частями; 2) нет никаких указаний на то, что элементы структуры входят в некоторое множество базисных элементов или что процесс установления соответствия основывается на подобии фигур. В результате обсуждения этих проблем С. Уллманном, М. Райли и мной Рай- ли установил, что соответствия могут, в частности, устанавливаться между ориентированными сгущениями точек или группами параллельных прямых - ни в одном из этих случаев не устанавливается соответствие между обра- образующими элементами. Два соответствующих примера приведены на рис. 203
б) R в) Рис. 3.46. Соответствие может устанавливаться между границами или обобщенными признаками, относящимися к высшим уровням, даже в тех случаях, когда между обра- образующими элементами соответствие не устанавливается. Так, например, соответствие может устанавливаться между границами двух типов, окружающих квадраты (а). Дру- Другой пример (б) иллюстрирует эксперимент, в котором кадр 1 содержит одно сгущение точек, а кадр 2 - два, причем одно из сгущений кадра 2 идентично сгущению кадра 1, а второе сгущение кадра 2 не идентично сгущению кадра 1. Предпочтение идентичному сгу- сгущению никоем образом не проявляется. На рис. 3.46, в эта идея получает дальнейшее развитие. Первый кадр представляет группу С, образованную короткими горизонталь- горизонтальными прямыми. Второй кадр содержит две группы объектов — L, состоящую из корот- коротких горизонтальных прямых, и R, состоящую из длинных горизонтальных прямых. Наблюдатель не отдает предпочтения движению группы С к группе L, из чего следует, что в данном случае соответствие устанавливается не между образующими групп, но между описаниями их структур в целом 3.46, б и в. В подобных случаях правила установления соответствия, очевид- очевидно, определяются такими параметрами, как ориентация и размеры группы в целом. Соответствие может устанавливаться и между границами типа приве- приведенных на рис. 3.46, а, хотя в данном случае даже не может быть и речи о каком бы то ни было установлении соответствия между образующими эле- элементами. Межкадровые интервалы здесь имеют продолжительность порядка 100 мс, что много меньше 1/3 с, необходимых для того, чтобы очертания объ- объектов начали влиять на процесс установления соответствий. Итак, выводы Уллмана могут нуждаться в некоторой модификации, что- чтобы обеспечивалась возможность использования более обобщенных элементов описания изображения, входящих в полный первоначальный эскиз. Его основ- основное утверждение, что никакой сколь бы то ни было тщательный анализ форм объектов не предшествует процессу установления соответствия, сохраняет, 204
II a) б) д) Различие ориентации, град. Отношение расстояний Отношение длин 1/cosa 0 15 1.1 1.04 1.04 Относительный 1 2 30 45 1.2 16 113 15 1 15 1.41 вес 3 60 2.25 2.1 20 4 75,90 2.7,3 8 2.5 B 3) е) Рис. 3.47. Типичный эксперимент, предназначенный для измерения аффинного подобия и предусматривающий предъявление наблюдателю двух кадров (а), и вариант того же эксперимента, обеспечивающий большую чувствительность (б). Соотношение влияний длины и расстояния (в), смещения и расстояния (г), смещения и ориентации (д), изме- измеренные значения аффинного подобия (е). На рис. 3.47, в-д кадр 1 изображен штрихо- штриховыми, а кадр 2 — сплошными прямыми [238] однако, силу. И ограничения, вносимые термином тщательный, фактически допускают то, что допустимо в полном первоначальном эскизе (общая дли- длина, размеры, ориентация характерных объектов изображения и т. д.), и исклю- исключают то, что в нем исключено (так, запрещены представление в явном виде любого внутреннего угла характерного объекта изображения, упоминание о прямых углах и т. д.). Было бы интересно проследить, сколь далеко можно продолжить аналогию между обобщенными признаками, используемыми при установлении соответствия, и непроизводными элементами полного первоначального эскиза. Двухмерный характер процесса установления соответствий Для изучения локальных свойств процесса установления соответствий в случае небольшого числа изолированных элементов можно воспользоваться экспериментами типа того, который проиллюстрирован на рис. 3.47, а. В этом эксперименте первый кадр (штриховые прямые) содержат один эле- 205
мент, второй кадр (сплошные прямые) — два и наблюдатель должен опреде- определить, к какой из прямых второго кадра совершает кажущееся движение пря- прямая первого кадра. Райли недавно изменил эту экспериментальную схему, придав ей форму, приведенную на рис. 3.47, б; модифицированная схема предусматривает использование нескольких копий одной и той же экспери- экспериментальной задачи — преимущество при этом состоит в том, что обеспечива- обеспечивается несколько большая чувствительность. На рис. 3.47, в, г и д показаны раздражители, используемые в этих экспе- экспериментах, причем во всех вариантах кадр 1 дан штриховой, а кадр2 —сплош- —сплошными линиями. Все приведенные на рисунке примеры обладают приблизи- приблизительно одинаковым аффинным подобием с оригиналом. Рисунок 3.47, в ил- иллюстрирует соотношение длины и расстояния, рис. 3.47, г — соотношение смещения по вертикали и расстояния и рис. 3.47, д — соотношение ориента- ориентации и смещения. Относительные веса параметров для конфигурации, образо- образованной тремя прямыми, сведены в таблицу, приведенную на рис. 3.47, е. В нашем кратком обзоре собственно значения в таблице не столь уж важ- важны, но важен тот факт, что в рассматриваемом нами процессе используются результаты измерений, выполняемых на изображении, а не результаты изме- измерений реальных трехмерных объектов. Этот факт был установлен Уллманом [236] с помощью эксперимента, проиллюстрированного рис. 3.48. Так, на- например, в эксперименте, проиллюстрированном рис. 3.48, а, все прямые кадра 1, за исключением прямой С, имеют одну и ту же яркость. На кадре 2 яркостью выделяются лишь прямые L и R, в результате чего возникает дви- движение от С kL или R. Двухмерные отношения между прямыми Си L и пря- прямыми С и R ъ данном примере идентичны. Расстояния, разделяющие их в трехмерном пространстве, однако, отличаются очень значительно. На рис. 3.48, б представлен эксперимент с теми же прямыми для случая, когда рас- расстояния в трехмерном пространстве одинаковы, но расстояния на плоскости отличаются очень сильно. Подобным же образом в эксперименте, представ- представленном на рис. 3.48, в, углы на плоскости и в трехмерном пространстве раз- различны. Опираясь на результаты экспериментов, подобных описанным, Уллман приходит к выводу, что характеристики, измеренные на трехмерной "моде- "модели", несущественны для процесса установления соответствия - все его резуль- результаты можно получить из рассмотрения двухмерных конфигураций. Ему уда- удалось также сделать еще одно замечательное наблюдение относительно плав- плавности видимого движения. Когда человек видит два кадра, переходы от од- одного к другому иногда воспринимаются как плавные, а иногда — нет. Иссле- Исследования, подобные работам Корбина [37], а также Аттнива и Блока [6], по- показали, что плавность видимого движения главным образом и, возможно, всецело определяется воспринимаемым расстоянияем в трехмерном прост- пространстве, а не реальным расстоянием на плоскости. Даже Колере [123, гл. 4 и 5] является просто последним в ряду исследователей, изучавших степень соответствия с использованием в качестве критерия плавности движения. Совершенно очевидно, что в этой связи возникало некоторое логическое противоречие, поскольку три утверждения: 1) плавность движения зависит 206
R a) 6) " e) Рис. 3.48. Процесс установления соответствия, в котором используются только двух- двухмерные, а не трехмерные характеристики: а — соответствие устанавливается между прямой С (кадр 1) и прямыми L ylR (кадр 2), двухмерные отношения которых с С идентичны, а трехмерные — различны (поведение этих прямых оказывается идентичным) ; 6 — предпочтение отдлется прямой L, относи- относительно прямой R; в — сопоставление углов показывает, что соответствие определяется двухмерными углами [238] от воспринимаемого расстояния; 2) степень соответствия зависит от расстоя- расстояния на плоскости и 3) плавность движения отражает степень соответствия — несовместны. Уллман [236, эксперимент 5] разрешил эту проблему, сконст- сконструировав ситуацию, представленную на рис. 3.47, а: движение в одном на- направлении протекает плавнее,ав другом направлении— интенсивнее, в резуль- результате последнее оказывается преобладающим. Следовательно, плавность и степень соответствия — это разные вещи и процесс установления соответст- соответствия опирается лишь на результаты измерений на плоскости, которым, воз- возможно, предшествует учет глазодвигательных эффектов [203]. 207
Теория процесса установления соответствий Уллмана Как мы уже убедились с помощью примера, приведенного на рис. 3.41, в случае более сложных изображений элемент изображения не всегда отображается в элемент, обладаю- обладающий максимальным аффинным подобием: на отображения влияют также и межэлемент- межэлементные взаимодействия. Проводя экспериментальное исследование, Уллман ввел понятие степень соответствия (СС), являющееся производным от локальных аффинных подо- подобий, отражающее также воздействие различных разновидностей локальной конкуренции и определяющее в конечном счете получаемое в результате отображение. Рисунок 3.49 иллюстрирует это понятие. Вначале измеряются значения аффинного подобия для всех пар, затем учитываются влияния на эти значения локальных воздействий, что и дает в результате СС. Эти взаимодействия ослабляют СС при осуществлении, в частности, рас- расщепления или слияния, и потому они устраняются. С помощью численного примера Уллман показал (Приложение 4 его докторской диссертации), что эта простая схема по- позволяет объяснить и несколько случаев, являющихся камнем преткновения для теории восприятия движения [123; 5; 238, разд. 2.4.1]. Все это, однако, в первую очередь свидетельствует о том, что подход, использовав- использовавшийся при изучении возможностей локальных взаимодействий, часто все еще был обре- обременен серьезными недостатками (в ряде случаев точно так же, как и подход гештальтис- тов), порожденными неспособностью оценить сложность функций, которые могут реали- зовываться посредством локальных взаимодействий. Больший интерес представляла по- попытка Уллмана сформулировать теорию процесса установления соответствий, назван- названную им теорией минимального отображения. В сущности, она представляет собой тео- теорию максимального правдоподобия. ч В основе указанной теории лежат три основных допущения. Идея состоит в том, что- чтобы определить некоторый способ оценки относительной ценности пар, составляемых из характерных объектов изображений, относящихся к разным кадрам. Поскольку соот- соответствующий метод имеет вероятностный характер, следует ввести первое допущение о независимости решений для раз- различных пар. Второе предполагает, что каждый характерный объект изображения кадра 1 объединяет- объединяется в пару по меньшей мере с одним характерным объектом изображе- изображения кадра 2, и наоборот. Мы не требуем в явном виде взаимно од- однозначного соответствия (именно благодаря этому становятся воз- возможными расщепления и слияния). Значения аффинного подобия Рис. 3.49. Иллюстрация подхода Уллмана к установлению степени соответствия. Исходные значения аффинного подобия определяют- определяются для обобщенных признаков со- Обобщенные ответствия, после чего их локаль- признаки ные взаимодействия используются для получения окончагельных зна- значений степени соответствия Поперечные взаимодействия 208
Рис. 3.50. Типичное распре- распределение скоростей на изо- изображении. Почти при лю- любом практически возмож- возможном распределении скорос- скоростей реальных объектов р 00 в проекции последне- последнего на изображение р (у) бу- будут преобладать малые зна- значения скоростей |23$1 Скорость Поскольку, однако, формирование каждой пары сопровождается определенными затра- затратами, в окончательном решении расщепления и слияния сводятся к минимуму. Итак, второе допущение состоит в том, что множество паросочетаний должно покрывать оба множества обобщенных признаков. Интересна третья идея. Диапазон значений истинных скоростей в реальном мире, ес- естественно, весьма широк: иногда наблюдатель перемещается быстро, а иногда - медлен- медленно, иногда объекты движутся быстро, а иногда - нет. Но каким бы ни было распределе- распределение скоростей в реальном мире, значения проекций этих скоростей на изображение бу- будут, скорее, малыми, чем большими, просто в силу специфики процесса формирования изображения. Это иллюстрируется рис. 3.50. Штриховая линия р (и) представляет один из вариантов распределения вероятностей истинных пространственных скоростей. Сплошная кривая р (i>1 представляет соответствующую проекцию распределения ско- скоростей. Таким образом, исходя лишь из самых общих соображений можно считать, что наиболее вероятными являются отображения, отдающие предпочтение ближайшим со- соседям. Теперь суть этой теории становится очевидна. Энтропия qiy) некоторой заданной скорости v определяется как -log/? (и), где р - значение вероятности этой скорости. Решением, соответствующим i максимальному правдоподобию, является такое решение, которое минимизирует общую энтропию (точно так же, как это принято в статистичес- статистической механике) . Для того чтобы найти его, можно просто считать энтропию # (и) "ценой", соответсгвующей выбору скорости v, и затем искать то отображение, которое обеспечи- обеспечивает минимизацию полных затрат. Это — линейная задача, для решения которой можно воспользоваться простой локальной сетью, в которой могут быть предусмотрены допол- дополнительные штрафы (в случае необходимости) за отклонения от взаимной однозначности отображений, функция стоимости в данном случае представляет собой рассмотренную нами выше функцию аффинного подобия, а взаимодействия, которые иллюстрируются на рис. 3.49 и определяют СС, в сущности, задают минимальную общую стоимость, т. е. наиболее вероятное отображение, определяемое статистическими свойствами физическо- физического мира. Эта схема, естественно, является обобщением, соответствующим переходу от дискретного случая последовательных кадров к непрерывному, при котором изображе- изображение представляется в основном в виде входного потока характерных объектов. Критика теории Уллмана Теория Уллмана, посвященная процессу установления соответствия, имеет исключительную ценность в качестве первого шага в правильном направле- направлении: после 50 лет путаницы и недоразумений она вносит немного долгождан- 209
с, О + О О с2 а) \ \ \ в) R, R о О О О о о R2 + О 4- Рис. 3.51. На этом рисунке кадр 1 изображен с помощью кружков, а кадр 2 - с помощью крестиков. Наличие элемента С2 не влияет на наличие элемента С, (а). В случае (б), однако, это влияние существует: пара С, Сг действует как прямая С — она может пере- перемещаться либо к прямой L, либо к прямой R (в). Если конфигурация (обобщенный признак) разрушается из-за наличия какой-то иной пространственной организации (г), центральная пара элементов больше не рассматривается как прямая С [238] ной и живительной ясности. Ее значение состоит в том, что она позволяет нам формулировать ряд экспериментальных проблем, которые не возникли бы при иных обстоятельствах, и открывает путь рациональному исследованию явления в качестве альтернативы несистематизированной регистрации его феноменологии. Если оставить на время эмпирические аспекты этой теории, то можно выде- выделить несколько проблем, заслуживающих рассмотрения, особенно в книге, посвященной в первую очередь теории зрительной системы. Первая из них за- заключается в том, что допущение о независимости, необходимое для исполь- использования вероятностного аппарата, не совсем верно в эмпирическом смысле, по крайней мере в простейшей формулировке. В ситуации, представленной на рис. 3.51, а, независимость действительно имеет место: однозначность со- соответствия С2 — i?2 не влияет на неоднозначность поведения Сх. В ситуации же, приведенной на рис. 3.51, б, поведение Сх и С2 связано: как указывал Уллман, в сущности, они ведут себя таким образом, как будто служат конце- концевыми точками прямой С, показанной на рис. 3.51, в. Подобное поведение этих элементов не наблюдается при изменении задания способа группировки (рис. 3.51, г). 210
Итак, создается впечатление, что процесс установления соответствия мо- может в определенных пределах реализовываться не только нэ отдельных эле- элементах, но и на группах, ими образованных. Хотя процесс группировки не связан с получением в явном виде описаний внутренней структуры групп и хотя установление соответствий между группами в целом не является пре- препятствием для установления дополнительных соответствий между их элемен- элементами, наличие первых, возможно, ограничивает установление последних. В частности, допускаются те соответствия, которые совместны с соответст- соответствиями, установленными для включающей их группы, а несовместные в та- таком смысле соответствия не допускаются. Внутренняя структура подобного типа может быть представлена в теории с помощью вероятностного аппарата, но выглядит это неуклюже и свидетельствует о том, что мы, вероятно, еще не пришли к наиболее конструктивному подходу. Перед нами уже возникала вторая проблема: соответствие может устанав- устанавливаться между группами без установления соответствий между элементами, их образующими. Сам Уллман отмечал существование такой возможности [238, разд. 2.4.2] и в более поздней работе, выполненной совместно с М. Рай- ли, подтвердил и обобщил это наблюдение. Конечно, можно просто включить в теорию Уллмана взаимодействия, подобные этим взаимодействиям элемен- элементов высшего уровня (как это предлагает сделать Уллман), однако они не следуют из нее естественно и абсолютно не поддаются прогнозированию с ее помощью. В сущности, они практически противоречат ей, поскольку назначе- назначение этой теории в целом — показать, каким образом сложная и пдрой бес- беспорядочная реализация процесса установления соответствия для различных конфигураций может порождаться сугубо локальными взаимодействиями простых процессоров, отождествляемых с образующими элементами конфи- конфигурации. Что касается третьей проблемы, то ее необходимо рассматривать под не- несколько иным углом, а именно с позиций человека, создающего теорию. Что, могли бы мы спросить, дает вероятностный подход? И ответ, по существу, сводится к одному —линейность. Практическим следствием в данном случае оказывается то, что сугубо локальные взаимодействия с гарантией обеспечи- обеспечивают достижение как раз искомого глобального минимума. Велика дидакти- дидактическая ценность этого следствия, поскольку оно показывает, что, как и в случае нашего первого кооперативного стереоалгоритма, искомые глобаль- глобальные результаты могут достигаться с помощью чисто локальных взаимодейст- взаимодействий. С первого взгляда кажется, что именно этого нами следовало бы доби- добиваться, так как известно, что поверхностные связи в коре головного мозга весьма коротки [225]. Опыт, приобретенный нами при изучении стереопсиса и локально-парал- локально-параллельной организации, заставляет, однако, относиться к этим доводам с осто- осторожностью в связи с теми проблемами, которые возникают из-за итераций. В данном случае нам следует проявлять осторожность потому, что теория Ул- Уллмана не имеет статуса некоторого алгоритма — это теория высшего уровня — и, несомненно, существуют неитерационные способы ее реализации. Тем не менее то обстоятельство, что для ее реализации достаточно только локаль- 211
ных взаимодействий, оказывается достоинством лишь в- том случае, если она действительно реализуется локально. К сожалению, если исходить из номи- номинальной стоимости этой теории, в которую входит и ее реализация, то, как я полагаю, основным затруднением должно служить то, что скорость сходи- сходимости вычислительных процедур такого типа мала (меньше, например, ско- скорости сходимости первого алгоритма стереопсиса). Несомненно, скорость сходимости зависит от начальной точки итерации — и в этом отношении ис- использование приближенной группировки и укрупненных характерных объек- объектов изображения может оказаться полезным, - но даже и в таком случае для получения приемлемого результата может потребоваться от 10 до 70 итера- итераций. Этот довод не столь уж неопровержим: обычно любую проблему, воз- возникающую в связи со скоростью сходимости, удается разрешить с помощью каких-либо специальных ухищрений, тем не менее он ослабляет первоначаль- первоначальную привлекательность теории, построенной на основе концепции простой сети локальных взаимодействий. Мне значительно труднее сформулировать заключительное замечание, по- поскольку оно в значительно большей степени, чем остальные, основывается на неподтвержденных интуитивных представлениях о работе мозга. В основном, как я считаю, они сводятся к тому, что на этих достаточно низких уровнях вероятностные подходы (такие как принцип максимального правдоподо- правдоподобия) не используются. Частично это интуитивное убеждение возникло у меня в результате неоднократных попыток воспользоваться вероятностными ме- методами. Применение вероятностного подхода в задаче стереопсиса дает нечто напоминающее корреляцию уровней серого тона, и я однажды предпринял попытку привлечь этот подход для решения некоторых задач, связанных с 2,5-мерным эскизом; частично это интуитивное убеждение явилось следстви- следствием общего представления о недостаточной определенности (в некотором смысле) вероятностного подхода. Решение задачи любой сложности, получен- полученное методом максимального правдоподобия, всегда в значительной степени неправдоподобно (в техническом смысле). Тем не менее ответы, предлагае- предлагаемые зрительной системой, почти всегда правильны и, более того, обычно со- провождаются субъективным ощущением определенности (изредка —сомне- —сомнением) . Эти ответы значительно определеннее и значительно чаще оказывают- оказываются правильными по сравнению с теми, которые соответствовали бы достаточ- достаточно низкому значению вероятности. В аналогичных ситуациях я обычно обна- обнаруживал, что для описания устройства реального мира имеются лучшие огра- ограничения и часто именно они позволяют обеспечивать значительно более прочную основу для информационной теории. Другими словами, если бы мне пришлось отвечать на вопрос, сформули- сформулированный в конце раздела, посвященного стереопсису: правильно ли выбрана задача, которая является предметом информационной теории? — я бы отве- ответил более уклончиво, чем если бы речь шла о стереопсисе или второй части теории Уллмана, посвященной задаче определения структуры по движению. Я до сих пор не располагаю какой-либо определенной альтернативой, однако нижеследующие замечания указывают перспективу, в которой эта проблема мне видится. 212
Новый взгляд на задачу установления соответствия Одна или две задачи?Серлдевтюй всякой информационной теории зритель- зрительного процесса является ответ на следующий вопрос: для чего данный процесс предназначен? В модели Уллмана целью процесса установления соответствий является определение некоторой связи между последовательно поступаю- поступающими кадрами, что позволяет выявлять изменения, происходящие при сме- смене кадров. Регистрация этих изменений дает возможность затем задать вход- входную информацию для процессов, обеспечивающих восстановление структур и их движения. Не вызывает сомнения то, что это составляет по меньшей мере часть тех задач, для выполнения которых предназначен процесс установления соответст- соответствий, но исчерпывается ли этим его роль? Забегая немного вперед, можно за- заметить, что восстановление структуры по движению предполагает (внутренне проверяемым образом) введение допущения о жесткости движущихся тел. Следовательно, задачу установления соответствий можно в первую очередь анализировать с точки зрения некоторого наблюдателя, помещенного в среду с жесткими движущимися телами. При небольших временных интервалах задача установления соответствий, возникающая в такой ситуации, фактически эквивалентна задаче установле- установления соответствия, возникающей в стереопсисе, поскольку небольшие смеще- смещение и поворот некоторого объекта вызывают такой же эффект, как и не- небольшие смещение и поворот одного из глаз. Конечно, различные тела могут по-разному двигаться, порождая эквивалентность относительно различных пар положений глаз. Однако теория соответствия при стереопсисе имеет ло- локальный характер и может применяться локально при условии, что введен- введенные в ней допущения выполняются локально. Допущения эти состоят в том, что поверхности обладают локальной гладкостью, а соответствия являются однозначными, поскольку любая выбранная позиция всегда переходит толь- только в какую-то другую единственную позицию, а это почти всегда означает ее наличие на данном изображении. Некоторые видимые точки, естественно, пе- переходят в невидимые, и наоборот, но это аналогично тому, что при измене- изменениях стереоскопической глубины один глаз может видеть части поверхности, которые невидимы для другого глаза. Как же тогда быть с явлениями расщепления и слияния при видимом дви- движении, когда один элемент кадра при переходе к следующему кадру расщеп- расщепляется, вступая в соответствие с двумя элементами последнего (или наобо- наоборот)? Эти широко известные явления, отчетливо проявляющиеся в видимом движении, порождают значительные теоретические проблемы. Насколько часто они должны были бы возникать в контексте восстановления структуры по движению? Мы уже убедились в том, что они могут возникать при стерео- стереопсисе - как на физическом уровне (в тех редких случаях, когда оказывает- оказывается, что два характерных элемента поверхности, различимые одним глазом, относительно другого глаза расположены на линии прямой видимости), так и на психофизическом, что соответствует граничному случаю Панума. Изучив стереограммы Браддика, приведенные на рис. 3.19, б, мы установили даже, 213
что зрительная система человека очень терпимо относится к двойным соот- соответствиям при условии, что для одного из глаз они являются единственными. В этих случаях, однако, причины их возникновения не относятся к разряду фундаментальных; они должны быть связаны с реализацией и возникают главным образом из-за того, что условие единственности обеспечивается в реальном мире в столь сильной степени, что зрительная система может позво- позволить себе считать их выполненными без внутренней проверки. Относятся ли явления расщепления и слияния при видимом движении к той же категории, что и аналогичные явления, возникающие при решении за- задачи установления соответствия между изображениями стереопары, или они имеют более фундаментальный характер? Я полагаю, что, приняв точку зре- зрения, согласно которой единственной функцией процесса установления соот- соответствия при движении является решение задач, возникающих в связи с дви- движением твердых тел, последние можно решить точно таким же способом, как и эквивалентную задачу установления соответствия между изображениями стереопары. Эти явления должны получить почти такие же объяснения, как это было сделано для примеров граничного случая Панума при стереопсисе. Такой подход, однако, не вполне удовлетворителен. Одной, хотя и доволь- довольно субъективной, причиной для такого заключения служит то, что разновид- разновидность стереопсиса, которая достигается при непосредственном сопоставлении яркостных переходов текстуры, имеет столь состязательный характер (см., например, [162]), а создающееся в этом случае впечатление глубины столь незначительно, что возникает ощущение отсутствия "подлинного" стереопси- стереопсиса — присутствуют лишь неявные предварительные намеки на него (скажем, управление вергентными движениями глаз). В видимом же движении эти впечатления вовсе не смутны: яркостные переходы такого рода отчетливо различаются при движении. Соответствия, устанавливаемые в парах, даже столь несходных, как представленные на рис. 2.34, вполне отчетливы и опре- определенны, а состязательность, как это имеет место в стереопсисе, полностью исключена. Другой довод, который кажется мне неотразимым, следует из сообщения [189] о возможности возникновения видимого движения между субъектив- субъективными контурами и даже между диспаратными яркостными переходами в стереограмме, образованной случайными точками. С нашей узкой точки зре- зрения это чуть ли не парадокс, псокольку после того, как диспаратные яркост- яркостные переходы найдены, мы имеем дело уже с трехмерной структурой и, сле- следовательно, зачем тогда вообще нужно затевать весь этот процесс восстанов- восстановления структуры по движению, обеспечивающий получение трехмерной структуры? Очевидно, как мне кажется, наша узкая точка зренчя неадекватна — прос- просто невозможно допустить, чтобы процесс установления соответствий при дви- движении имел-столь ограниченный характер. В чем же тогда состоят его принци- принципиальные отличия от процесса установления соответствия между изображе- изображениями стереопары? Решающее различие состоит в том, что один из них развивается в прост- пространстве, а другой — во времени. Для твердых тел эти процессы эквивалентны, 214
но для пластичных поверхностей — нет. Очертания некоторого объекта при восприятии его левым глазом всегда совпадают с его очертаниями, воспри- воспринимаемыми в тот же момент времени правым глазом, но мгновения спустя эти очертания могут измениться, и бывает это вовсе не так уж редко. Птица при наблюдении издалека, например, очень быстро меняет свои очертания и облик как из-за того, что она не является твердым телом, так и, вероятно, из-за того, что лучи солнца падают на ее поднимающиеся и опускающиеся крылья под одним и тем же определенным углом. Изображение птицы может быть очень небольшим и с трудом поддающимся разбиению на более или менее твердые компоненты. Тем не менее, хотя из ее движений можно извлечь очень мало или вообще не извлечь никаких данных, непосредственно харак- характеризующих ее структуру, не возникает сомнений в том, что, несмотря на все наблюдаемые изменения внешнего облика, речь все время идет об одной и той же птице. Другими словами, время вносит важный новый фактор, кото- который достаточно независим от деталей трехмерной структуры объекта. Этим фактором является сохранение объектом "индивидуальности" во времени, и это составляет совершенно другую задачу. Для того чтобы показать разни- разницу, рассмотрим просто пример Уллмана [235] — "лягушка, превращающаяся в принцессу". Этот пример не относится к задаче восстановления структуры по движению, поскольку структура здесь изменяется, но он относится к про- проблеме индивидуальности объекта. Я считаю, что теория должна трактовать эти две задачи независимо, так как порождаемые ими требования к обработке информации несколько раз- различны. Идея установления соответствия между яркостными переходами абсо- абсолютно непонятна с точки зрения первого подхода, но совершенно естеств енна и чуть ли не без тени всяких сомнений привлекательна с точки зрения второго. Обратимся, например, к конфигурациям, порождаемым игрой света на речной поверхности. Все постоянные факторы в данном случае отражают исключи- исключительно геометрию русла реки, и, следовательно, именно ее и следует прини- принимать во внимание независимо от сияния речной поверхности. Такая ситуация вполне может служить реальным прототипом "регистрограмм движения" случайных точек, использовавшихся Б. Джулесом; вполне понятно, что мы должны быть в состоянии воспринимать такие "регистрограммы движения". Если на рыбе, неторопливо скользящей по поверхности реки, имеется непре- непрерывно меняющийся узор, образованный светом и тенью, то обнаружить ее можно только по ее диспаратным границам. Указанные границы перемещают- перемещаются, но рыба все время остается одной и той же. Эта проблема относится к со- сохранению индивидуальности объекта. Отдельные системы для структуры и сохранения индивидуальности объек- объекта. Итак, проблемы, порождаемые временным фактором, определяют по меньшей мере две различные задачи для процесса установления соответствий при видимом движении, причем сами эти задачи отличаются от первой из двух у Браддика, которые обсуждались в разд. 3.4. Первая задача представ- представляет собой первую половину проблемы восстановления структуры по движе- движению, и для случая движения твердых тел она фактически эквивалентна зада- задаче установления соответствия при стереопсисе. Единственная разница между 215
ними заключается в том, что в случае движения добавляется небольшой по- поворот одного из изображений, но новых существенных проблем это не вызы- вызывает. Цель, как и в стереопсисе, состоит в достижении очень детализирован- детализированного соответствия точно локализуемых объектов на изображении, с тем что- чтобы измерение изменений их положений на изображении могло выполняться с точностью (второго порядка), необходимой для обработки информации, обеспечивающей восстановление структуры по движению. Следует ожидать, что достижение такой точности предполагает в данном случае использование непроизводных элементов, относящихся к достаточно низкому уровню и подобных входящим в необработанный первоначальный эскиз, либо, быть может, даже просто пересечений нулевого уровня. Иными являются цели во второй задаче, и определяются они именно тем, что некоторый объект в процессе наблюдения во времени может измениться, что не может иметь место при изменении позиции наблюдателя в пространст- пространстве: он может изменить и свои очертания, и конфигурацию (и даже отража- отражательную способность). Точность не является здесь целью — она заключается з приблизительном сохранении индивидуальности объекта — в этом и состоит ключ к пониманию разницы между наблюдаемым движением и стереопсисом. Установление приближенного соответствия между изображениями стереопа- стереопары не является самоцелью — оно имеет смысл лишь как прелюдия к установ- установлению точного соответствия. Таким образом, приближенные соответствия оказываются лишь неясными и конкурирующими продуктами восприятия. Однако существенное значению имеег установление приближенного соот- соответствия во времени, поскольку оно открывает возможности для обеспече- обеспечения непрерывности объекта. Итак, как я полагаю, в этой ситуации может потребоваться создание двух теорий: для случая, когда рассматриваемый объект изменяется и перемеща- перемещается, и для случая, когда он только перемещается. В первой должно исполь- использоваться все то, что только может использоваться, в том числе непроизвод- непроизводные элементы высшего уровня в сочетании с нежесткими правилами установ- установления соответствий и вся доступная трехмерная информация. Явления, свя- связанные с субъективно плавными движениями, могут даже в большей степени оказаться предметом первой, а не второй теории, так как при восприятии плавность "идет рука об руку" с сохранением индивидуальности объекта, а из работы Аттнива нам известно, что плавность сопряжена с воспринимае- воспринимаемыми расстояниями в трехмерном пространстве. Вторая теория относится к более низкому уровню, эквивалентному в информационном смысле стерео- псису. И хотя реализация может быть иной, в этой связи имеет смысл поду- подумать о пересечениях нулевого уровня. Восстановление структуры по движению Задача Мы уже убедились благодаря эксперименту Уллмана [237] с цилиндрами, поворачивающимися в противоположных направлениях (рис. 3.52), что и разбиение сцены на отдельные объекты, и восстановление их очертаний в 216
Рис. 3.52. Иллюстрация эксперимента Ул- лмана с цилиндрами, поворачивающимися в противоположных направлениях. Точки, нанесенные на оба цилиндра, как показано стрелками, ортографически проектируют- проектируются на экран, порождая в результате неко- некоторую последовательность кадров, анало- аналогичных приведенным на рис. 3.53. Каждый отдельный кадр представляет собой неко- некоторое множество случайных точек, однако при предъявлении последовательности та- таких кадров в динамике становятся отчет- отчетливо видны поворачивающиеся цилиндры ' •* •! • * :>% трехмерном пространстве могут быть обеспечены в том случае, когда единст- единственно доступной информацией является та, которую удается почерпнуть из вида объектов, меняющегося по мере их движения. Каждый кадр, используе- используемый в этом эксперименте, включает внешне случайную совокупность точек и сам по себе интерпретации не поддается. Только при предъявлении таких кадров в виде некоторой непрерывной последовательности движение точек обеспечивает восприятие двух цилиндров, поворачивающихся в противопо- противоположных направлениях. Следовательно, мы будем рассматривать упрощенную задачу интерпрета- интерпретации последовательности кадров, каждый из которых образован некоторым множеством случайных точек. В реальных условиях кадры содержат более сложные, чем точки, непроизводные элементы, однако, как и в случае стерео- псиса, это простое представление позволяет отражать сущность задачи. Более того, будем предполагать, что с помощью процесса установления соответст- соответствий, рассмотренного выше, соответствие между последовательными кадрами уже установлено. Фактически нам потребуется лишь простая разновидность процесса установления соответствий, а именно процесс, ориентированный на твердые объекты, который, как нам теперь известно, с информационной точ- точки зрения эквивалентен процессу, обеспечивающему решение задачи установ- установления соответствия при стерео пейсе. Итак, наша очередная задача характеризуется некоторым набором данных, аналогичным представленным на рис. 3.53. Каждый кадр образован множест- множеством помеченных точек (хотя метки на рисунке не показаны), причем точка А кадра 1 соответствует точке А кадра 2 и т. д. Вопрос состоит в следующем: как осмыслить эти данные? Каким образом следует действовать, с тем чтобы найти для них разумную трехмерную интерпретацию9 В данном случае возникает точно такое же затруднение, с которым мы уже сталкивались в задаче стереопсиса, а именно решение не полностью опре- определено. Существует бесконечное число трехмерных конфигураций, способ- способных посредством прямоугольной проекции порождать изображения, приве- приведенные на рис. 3.53, скажем произвольное число различных и случайным об- образом изменяющихся снежных вихрей. Мы не видим, однако, эти различные возможные варианты, мы видим только один вариант, и именно он является правильным. 217
Рис. 3.53. Задача восстановле- восстановления структуры по движению. В приведенном наборе кадров содержится трехмерная инфор- информация (см. рис. 3.52). Каким образом следует ее восстанав- восстанавливать? Поэтому точно так же, как и в стереопсисе, мы должны использовать до- дополнительную для задачи информацию, с тем чтобы ввести ограничения на ис- искомое решение. Она должна быть одновременно содер- содержательной, истинной и в до- достаточной мере универсаль- универсальной. Содержательность оп- определяется тем, что такая информация определяет обычно единственное ре- решение: истинность следует не только из того, что чело- человек в действительности вос- воспринимает лишь одно реше- решение, но и из того, что это решение является также правильным и с точки зре- зрения реальностей внешнего мира; универсальность же требуется потому, что данная система имеет дело с новыми ситуациями, не располагая конкретными априорными сведениями об очертаниях наблюдаемых объектов. Известный подход Хотя известен ряд подходов к решению рассматриваемой задачи, лишь один из них заслуживает комментариев. Он был предложен Гельмгольцем [81] (см. также [26; 83]), который ввел в обращение идею об аналогичности движения и стереопсиса, в частности об аналогичности восстановления структуры по движению и восстановления расстояния по диспаратности. Эта идея, однако, имела серьезный недостаток из-за того, что различные объекты, на- находящиеся в различных частях зрительного поля, могут участвовать в совершенно раз- различных движениях. В данном случае для задачи установления соответствий это несущест- несущественно, поскольку процесс установления соответствий имеет сугубо локальный харак- характер. Мы уже использовали то обстоятельство, что для случая твердых объектов и корот- коротких временных интервалов обе задачи установления соответствий, в сущности, эквива- эквивалентны. Отмечалось, однако (не испытав по этому поводу особого беспокойства), что 218
a) б) Рис. 3.54. Демонстрационный эксперимент с ленгой конвейера. Точки, расположенные в зонах 1 и 2, перемещаются вправо со скоростью v' = v cos в , а точки, расположенные в зоне 2, - со скоростью v. Наблюдатель, видящий изображение, приведенное на рис.3.54, а, не воспринимает геометрическую конфигурацию, приведенную на рис. 3.54, б. Вместо этого создается впечатление, что все зоны расположены во фронтальной плоскости, а точки, лежащие в зоне 2, движутся быстрее [238] два различных локальных перемещения должны порождать две различные позиции пар глаз, с тем чтобы возникала эквивалентность задаче установления соответствия между изображениями стереопары. Причина, по которой это не вызвало у нас беспокойства, состоит в том, что при установлении соответствия правила объединения не зависят от точных позиций глаз. Эти позиции должны быть лишь близки друг к другу, обеспечивая таким образом аналогичный обзор. Следовательно, на установление соответствия не влияет тот факт, что различные части поля зрения практически порождают различные эквивалентные позиции пар глаз. Иначе, однако, обстоит дело с восстановлением глубины по диспаратности. Как мы убедились, этот процесс решающим образом зависит от эффективного глазного базиса 5, причем, вообще говоря, порождаемые значения б различны для каждого твердого объекта, движущегося по "индивидуальной программе". Отсутствует способ определе- определения этих значений априори, и, поскольку они изменяются, невозможно сравнивать про- происходящее в одной из частей поля зрения с происходящим в какой-то другой его части. Следовательно, несмотря на адекватность использования этого подхода для ре- решения задач установления соответствия в двух указанных случаях (при условии, что один из них ограничивается движением твердых тел и короткими временными проме- промежутками) , он совершенно не годится для восстановления трехмерной структуры. Из этих замечаний следует, что изменения скорости перемещения в поле зрения (ко- (которые аналогичны изменениям диспаратности) не должны непосредственно порождать впечатление глубины, а равенство скоростей также не обязательно должно служить очень полезным средством группировки. В гештальт-психологии, например, известно по- понятие "группировки по принципу общей судьбы", предусматривающее группировку на основании одинаковых скоростей; Поттер [18^] недавно снова обратился к одному из вариантов этой идеи. В демонстрационном эксперименте с цилиндрами, вращающимися в противоположных направлениях, возникают, однако, точки, имеющие одинаковые скорости, но расположенные на разных цилиндрах. Свидетельство, противоречащее дру- другой части утверждения и указывающее, что изменения скорости должны порождать из- изменения в восприятии глубины, предоставляется демонстрационным экспериментом Уллмана с лентой конвейера, который иллюстрируется на рис. 3.54. Скорость точек, рас- расположенных в зонах 1 и 3, равна и, а точек, расположенных в зоне 2, равна v. Наблюда- Наблюдатель не воспринимает различные участки ленты как плоскости, лежащие на различной глу- глубине, или даже как конфигурацию, приведенную на рис. 3..54, б. Вместо этого все точки 219
воспринимаются на одной и той же фронтальной плоскости; возникает впечатление, что при переходе из зоны 1 в зону 2 их скорость увеличивается, а при переходе из зоны 2 в зону 3 - уменьшается. Ограничение, предполагающее жесткость тела Большинство структур видимого мира являются жесткими или помень- шей мере почти таковыми. Многие из изучавших восприятие движения обра- обращали на это внимание (например, Уоллак и О'Коннелл [240], Гибсон и Гиб- сон [58], Грин [69], Хей [80], Йоханссон [106, 107]), и в результате воз- возникло убеждение, что жесткость играет в этой задаче особую роль. Им не уда- удалось осознать того, на что указал Уллман: поиск "жестких" интерпретаций — это не просто прихоть нашего механизма восприятия движения, он дает воз- возможность человеку однозначно решать задачу восстановления структуры по движению, Fie прибегая к использованию каких бы то ни было дополнительных ограничений. Этот поразительный факт следует из одного математического результата, названного Уллманом теоремой об определении структуры по движению. Она утверждает, что при задании трех различных прямоугольных проекций четырех некомпланарных точек, принадлежащих некоторой жест- жесткой конфигурации, структуры и движения, совместные с тремя заданными проекциями, определяются однозначно с точностью до отражения, при кото- котором ближайшие точки становятся наиболее удаленными. Другими словами, трех проекций четырех некомпланарных точек достаточно для определения их трехмерной структуры при условии, что задача установления соответствий уже решена. Кроме того, справедливость этого результата не ограничивается случаем видимого движения: для непрерывного движения исключительно от разрешающей способности систем, измеряющих временные изменения пози- позиций объекта, зависит, что именно рассматривается в качестве соответствую- соответствующих трех проекций. Комбинация "четыре точки — три проекции" в теореме о восстановлении структуры по движению является минимальной в следующем смысле. Если проекций только две, то можно построить произвольное количество точек, не имеющих единственной трехмерной интерпретации (хотя отдельные ком- комбинации, к счастью, будут ее допускать). Таким образом, в общем случае двух кадров недостаточно. В случае трех кадров трех точек снова, вообще го- говоря, оказывается слишком мало для получения однозначного решения — требуются четыре точки. Для четырех точек и трех проекций можно предложить достаточно правдо- правдоподобное доказательство, основанное на понятии числа степеней свободы, соответствующих этому случаю. Пусть указанные четыре точки обозначены как О, А, В и С, причем точка О всегда представляет начало координат @,0,0), а три проекции — как 1, 2 и 3. Необходимо определить 15 переменных. Де- Девять из них задают для проекции 1 положения, занимаемые в трехмерном пространстве точками А, В к С относительно точки О (три точки с тремя ко- координатами для каждой из них); остальные шесть переменных задают поворо- повороты в трехмерном пространстве, необходимые для получения проекций 2 и 3 из проекции 1. (Мы исключаем переносы, совмещая на всех проекциях точ- 220
ки О.) Для определения поворота а трехмерном пространстве требуются три переменные, для определения оси — две переменные, а для определения вели- величины поворота нужна одна переменная. Всю информацию, которую мы получаем из каждой проекции, составляют 6 отношений — двухмерные координаты для каждой из точек А, В и С. (Точ- (Точка О всегда имеет координаты [0, 0].) Следовательно, две проекции дают нам 12 отношений, что недостаточно для определения структуры, поскольку число неизвестных равно 15. Три проекции дают 18 отношений, т.е. их коли- количество больше 15, и этого достаточно при условии, что особых точек или внутренних зависимостей не слишком много. Трудная часть доказательства связана с установлением того, что эти 18 отношений действительно независи- независимы. То обстоятельство, что имеется 18 отношений, а неизвестных всего 15, свидетельствует о том, что часть информации не используется, и именно это в конечном счете обеспечивает возможность внутренней проверки гипотезы о жесткости объектов наблюдения. Допущение, предполагающее жесткость объекте наблюдения Проанализировав использование избирательности по направлению для определения свойств видимых поверхностей, мы обнаружили, что линии, ха- характеризующие нарушение непрерывности по направлению движения, случай- случайно не возникают. Они должны свидетельствовать о существовании границы, разделяющей поверхности, движение которых нсзовместно. Рассмотрев про- проблему стереопсиса, мы установили, что условия единственности и непрерыв- непрерывности гарантируют существование и единственность решения; соответствую- соответствующая теорема составила основу для анализа стереозрения, поскольку она по- позволила сформулировать и использовать в дальнейшем фундаментальное до- допущение стереопсиса. То же самое справедливо и в данном случае. Теорема о восстановлении структуры по движению в сочетании с прописной истиной, что большая часть объектов реального мира обладает локальной жесткостью, позволяет нам сформулировать основное допущение для восстановления структуры по дви- движению. Оно было определено Уллманом как допущение о жесткости объектов наблюдения [237] и сформулировано следующим образом: любая совокуп- совокупность элементов, подвергающихся некоторому двухмерному преобразова- преобразованию и допускающая единственную интерпретацию в виде некоторого твердо- твердого тела, движущегося в пространстве, порождается таким движущимся твер- твердым телом и, следовательно, должна интерпретироваться как таковое. Из теоремы о восстановлении структуры по движению следует, что в слу- случае твердого тела его трехмерную структуру можно определить по трем кад- кадрам (с точностью до симметрии, поскольку мы работаем с прямоугольной проекцией). Если жесткость отсутствует, вероятность получения случайной жесткой интерпретации пренебрежимо мала, так что на практике этот метод не приведет к успеху. Он, следовательно, обеспечивает самоконтроль ("внут- ("внутреннюю проверку") : если мы в состоянии восстановить трехмерную структу- структуру, которая согласуется с имеющимися данными, то можно считать, что она единственна и верна. Теорема о восстановлении структуры по движению до- 221
казывается конструктивно, что дает возможность записать некоторую систе- систему уравнений, решение которой, если оно существует, определяет искомую трехмерную структуру. Реализация такой схемы решения не вызывает затруднений, так как при этом требуется в качестве исходных данных задать лишь четыре точки и по- поэтому решение может осуществляться параллельно и независимо на всем зрительном поле. Это обстоятельство делает данную схему решения особенно привлекательной при объяснении того, каким образом человек воспринима- воспринимает движение. Тем не менее конкретные алгоритмы, позникающие в результа- результате непосредственного применения методов, используемых при доказательст- доказательстве теоремы, неправдоподобны в биологическом отношении. Они, в частности, не отвечают всем тем принципам, которые были сформулированы нами в разд. 3.1, скажем принципу пристойного ухудшения. Если просто записать не- необходимые уравнения и решить их, то это приведет к алгоритму, который окажется чересчур грубым. Если данные неточны либо наблюдаемый объект недостаточно жесткий, то этот метод "работать" не будет и пользоваться им бесполезно. На самом деле требуется некоторый алгоритм, характеризующийся при- пристойным ухудшением, по меньшей мере в двух смыслах. Во-первых, если ис- исходные данные искажены шумом, но имеются более чем три проекции, ис- искомый алгоритм должен обеспечить сначала получение приближенного описа- описания структуры, которое, однако, становится почти точным по мере предъяв- предъявления алгоритму большего числа проекций и увеличения объема сообщаемой ему информации. И, во-вторых, если наблюдаемые объекты не вполне жест- жесткие, искомый алгоритм должен обеспечить получение не вполне жесткой структуры, возможно, снова за счет использования им большего числа точек или проекций. Алгоритмы, обладающие робастностью такого типа, разраба- разрабатываются в нашей лаборатории. До тех пор пока некоторый конкретный алгоритм не предложен в качест- качестве кандидата на роль алгоритма, который действительно используется зри- зрительной системой человека, и пока не проведены соответствующие психофи- психофизические и нейрофизиологические эксперименты, мы не будем наверняка знать, адекватен ли данный подход к восприятию движения. Одна вещь, одна- однако, совершенно ясна: теперь нам известно, какие экспериментальные задачи актуальны. До тех пор пока Уллман не обратился к информационному под- подходу для решения этой задачи, мы этого не знали. Замечание о центральной проекции Считается, что алгоритмы, предназначенные для расшифровки не прямо- прямоугольных, а центральных проекций не входят в арсенал зрительной системы человека. Причина этого, вероятно, состоит в том, что изменения, соответст- соответствующие переходу от одного кадра к следующему, обычно малы уже сами по себе, а разница в изменениях, наблюдаемых на проекциях этих двух типов, обычно действительно очень мала. Психофизические данные указывают, что движение в направлении от наблюдателя, которое порождает изменения лишь в центральной, но не в прямоугольной проекции, не обеспечивает столь же 222
четкого восприятия трехмерной структуры, как для движений других типов [237]. Схема восстановления структуры по движению является, однако, ло- локальной по существу, поскольку ее рабочие "ядра" состоят всего из четырех точек. Даже центральная проекция является локально прямоугольной, и поэтому практически не возникает затруднений при использовании ортогра- фических методов восстановления по проекциям, аналогичных схеме Уллма- на, даже в тех случаях, когда реальное изображение представляет собой перс- перспективу. Оптический поток Дж. Гибсон продолжительное время считал, что "основным в зрительном восприятии является способ восприятия поверхностей. Соответствующий образ всегда содержит как субъективный, так и объективный компонент, т. е. он определяет положение наблюдателя, его перемещения и их направле- направления, а также расположение, наклони очертания поверхности" [54]. Шестнад- Шестнадцать лет спустя он высказал аналогичную точку зрения, проиллюстрировав ее рис. 3.55 [56, рис. 9.3]. Очень скоро началось изучение математических аспектов этой гипотезы, но затрагивались лишь отдельные частные случаи либо частные особенности общего случая [60, 131, 36]. Накаямаи Лумис [172] показали, каким обра- образом контуры глубины могут извлекаться из представления на сетчатке поля вектора скорости, порожденного движением наблюдателя. Только недавно, однако, удалось прийти к общей трактовке этой проблемы [135]. Рис. 3.55. Пример оптического потока, порождаемого движением, предложенный Гибсо- ном. Стрелки представляют значения угловой скорости, которые равны нулю непосред- непосредственно впереди и сзади [56) 223
Задача об оптическом потоке, а мы будем пользоваться именно последним термином, заключается в использовании поля вектора скорости на сетчатке, порожденного движением наблюдателя, для определения трехмерной струк- структуры видимых наблюдателю поверхностей. Предполагается, что эти видимые поверхности неподвижны. Принципиальное отличие данного подхода от под- подхода Уллмана заключается в том, что эффекты, связанные с оптическим потоком основываются на использовании нормальной проекции, а подход, предусматривающий восстановление структуры по движению, является прин- принципиально ортографическим. Таким образом, метод оптического потока поз- позволяет, вообще говоря, работать с плоскими поверхностями, т. е. когда под- подход, предусматривающий восстановление структуры по движению, неизбеж- неизбежно терпит неудачу. Исходное представление Ту информацию, которую называют оптическим потоком и на использова- использовании которой основывается наш анализ, можно рассматривать как мгновен- мгновенное поле вектора позиционной скорости [66], ставящее в соответствие каж- каждому элементу на сетчатке мгновенное значение этого элемента. Обычно счи- считается, что элементы имеют некоторую физическую интерпретацию. Получать эту информацию отнюдь не так просто, как порой предполагают приверженцы метода оптического потока. В разд. 3.4 мы уже убедились в том, что из-за существования проблемы апертуры локальные измерения как таковые мало что могут дать, кроме направления движения. Фактически пол- полное определение оптического потока эквивалентно решению более простой из двух задач устанавления соответствия в случае видимого движения, по- поскольку знание поля скоростей "течения" позволяет устанавливать соответст- соответствия между двумя кадрами, снятыми с очень небольшими временными интер- интервалами. Следовательно, если зрительная система человека анализирует оп- оптический поток, то при этом в качестве исходных должны использоваться такие же данные, что и при определении структуры по движению. Математические результаты Если наблюдатель приближается к некоторой неподвижной поверхности по прямой, то точке их встречи соответствует особая точка поля оптического потока и время встречи определяется исключительно угловыми скоростями поля [121]. Сомнительно, что эти положения существенно используются в зрительной системе человека, поскольку Джонстон, Уайт и Камминг [108], смоделировав оптическое расширение, возникающее при приближении к поверхности, показали, что человек в состоянии надежно определить фокаль- фокальную точку расширения лишь непосредственно перед кажущимся контактом с поверхностью. Обучая ученика посадке самолета, летчик-инструктор тратит некоторое время на объяснение того, что текущей расчетной точкой призем- приземления является фокальная точка расширения. Приобретение такого навыка требует сосредоточенности и тренировки, поскольку в его основе не лежит какой-либо естественный рефлекс. Таким образом, гипотеза Гибсона [55] 224
о важности роли, выполняемой фокальной точкой оптического расширения при управлении локомоциями, вероятно, ошибочна применительно к челове- человеку, хотя, быть может, более уместна применительно к птицам. Авторитетное изложение математических аспектов метода оптического по- потока появлюсь сравнительно недавно [135, 187]. Было показано, что вооб- вообще по монокулярной проекции жесткой текстурированной кривой поверх- поверхности можно определить ее градиент в любой точке, по полю вектора скорости изменяющегося на сетчатке — перемещения глаза относительно этой поверх- поверхности, а также первую и вторую производные поля. Соответствующая систе- система уравнений избыточна, что обеспечивает возможность проверки допущения о жесткости. Существует интересное различие между этим результатом и теоремой Уллмана о восстановлении структуры по движению. Согласно схеме Уллмана четыре точки составляют достаточную информацию при условии, что наблю- наблюдатель ждет столько, сколько необходимо для получения по меньшей мере трех различных проекций этих точек. В схеме Лонге—Хиггинза и Праздни до- достигается иной компромисс: требуются лишь два кадра и поэтому время, за- затрачиваемое на проведение измерений, оказывается меньшим. (В данном случае достаточно двух кадров, поскольку восстановление очертаний осно- основывается на использовании центральной, а не прямоугольной проекции.) С другой стороны, локальные пространственные окрестности, используемые в процессе решения, это не просто точки, как в схеме Уллмана: их размеры должны быть достаточными для того, чтобы обеспечивалось получение на- надежных оценок первой и второй пространственных производных поля векто- вектора скорости. Этот анализ являет собой еще один пример того, каким образом информа- информационная теория может содействовать экспериментальным исследованиям. Проведя математический анализ этой задачи (а он, несомненно, намного за- запоздал), Лонге—Хиггинз и Праздни создали теоретическую схему для исследо- исследования того, действительно ли мы, люди, используем оптический поток, как предположил Гибсон, и если эю так, то каким образом. Уже ясно, что су- существует ряд способов использования оптического потока, которые мы ре- реально не используем. Еще одним примером служит демонстрационный экспе- эксперимент Уллмана с лентой конвейера, который иллюстрируется рис. 3.54. Мы не воспринимаем зрительно, что геометрия зон 1 и 3 отличается от геометрии зоны 2, в то время как большинство теорий оптического потока будет наста- настаивать на том, что мы должны видеть это отличие. Мы тем не менее все же могли бы в какой-то форме использовать оптичес- оптический поток, возможно лишь в незначительной степени и в основном в перифе- периферическом, а не центральном зрении. Таким образом, в конечном счете в тех случаях, когда можно предположить точность измерений малой для системы, основанной на схеме Уллмана восстановления структуры по движению, сле- следует также рассчитывать обнаружить наиболее очевидные проявления опти- оптического потока. Остается установить, используется ли оптический поток в зрении человека. 225
3.6. КОНТУРЫ, ОПРЕДЕЛЯЮЩИЕ ОЧЕРТАНИЯ В гл. 2, обсуждая физические основы построения первоначального эскиза, мы отмечали, что существуют четыре основные причины возникновения кон- контуров на изображении: 1) нарушения непрерывности расстояния, с которого ведется наблюдение; 2) нарушения непрерывности ориентации поверхности; 3) изменения отражательной способности поверхности; 4) эффекты, связан- связанные с освещением, такие как тени, собственно источники света, блики. Выше в этой главе мы уже установили, как отдельные аспекты первоначального эскиза могут использоваться в качестве исходного представления для про- процессов, основанных на стерео пейсе или движении и обеспечивающих опреде- определение границ по различиям, зафиксированных на двух или нескольких изо- изображениях одной и той же сцены. Сейчас мы займемся более сложным случа- случаем, когда имеется только одно монокулярное изображение, и попытаемся выяснить, каким образом его контуры могут нести однозначную информа- информацию о форме. Загадка состоит в том, что контуры изображения двухмерны, хотя часто мы видим их в трех измерениях. Проблема, следовательно, сво- сводится к тому, каким способом и зачем мы получаем подобную трехмерную интерпретацию. Контуры, которые мы будем рассматривать, я называю контурами, опре- определяющими форму {контурами формы), поскольку они являются двухмер- двухмерными, сообщающими информацию о трехмерной форме. Я вовсе не буду касаться вопроса отыскания таких контуров на изображении — этой задаче достаточно много внимания было уделено в гл. 2. Следует тем не менее от- отметить, что физические источники возникновения контуров можно разделить на четыре указанные категории; эти источники порождают широкий спектр изменений, поддающихся обнаружению на изображении и, следовательно, значительное разнообразие способов, с помощью которых некоторый контур конкретного типа может быть найден на изображении. Рассмотрим в качестве примера эффекты, которые могут возникнуть в ре- результате нарушения непрерывности по глубине. Оно может привести просто к изменению яркости — фактически, поскольку зрительной системе человека свойственна склонность видеть более яркие объекты расположенными ближе, следует полагать, что такое соотношение яркости и глубины, вообще говоря, справедливо для видимого мира в целом. Если по обе стороны от места изме- изменения глубины характеристики поверхности одинаковы, то возникает грани- граница, разделяющая текстуры с различными плотностями размещения или раз- размерами элементов, образующих текстуру. Если две такие разделенные по- поверхности не принадлежат одному и тому же объекту, их текстуры обычно оказываются весьма различными и в результате граница определяется многи- многими критериями. Если нарушение непрерывности связано с изменением ориентации поверх- поверхности, то, вероятно, изменится и яркость. То же самое можно сказать о лю- любой характеристике освещенности, основанной на использовании функции, которая характеризует отражательную способность поверхности. Возможно, изменится и любая ясно выраженная организация на поверхности, и, возмож- возможно, то же самое произойдет и с некоторыми мерами длины. 226
Если отражательная способность поверхности проявляет какую-либо из множества видов регулярности, скажем появляется ряд параллельных пря- прямых, то она может давать наблюдателю ценную информацию о форме и т. д. Отсюда главным является то обстоятельство, что для определения на не- некоторой поверхности контуров можно использовать много способов, причем контуры должны выделяться на этапе предварительного анализа и представ- представления изображения. Некоторые из контуров такого типа с большей вероят- вероятностью порождаются определенными разновидностями изменений: наруше- нарушение непрерывности по ориентации, например, с большей вероятностью возни- возникает в результате изменения ориентации поверхности, а не изменения глуби- глубины; эти правила, однако, не столь уж непреложны. Важно понять, что очень многие из таких контуров могут давать нам информацию о трехмерной фор- форме, и они действительно ее дают; если вдуматься, то это на самом деле ока- оказывается поразительным. В данном разделе подобные контуры, определяю- определяющие форму, составляют основной предмет рассмотрения. Несколько примеров Не вызывает сомнения, что контуры могут очень явно и четко задавать форму. На рис. 3.56 приведено несколько соответствующих примеров, при- причем, как я полагаю, читатель согласится с тем, что впечатление подлинной трехмерности на рис. 3.56, б и в достигается с помощью эффектов, которые обеспечивают стереопсис или движение. Контуры на изображении могут по- порождаться несколькими различными физическими причинами независимо. Одни контуры, как на рис. 3.56, а, являются ограничивающими и порождают- порождаются нарушениями непрерывности по глубине, в данном случае они соответст- соответствуют яркостным переходам на границах наблюдаемых объектов. Другие по- порождаются изменениями ориентации поверхностей, границами разделения текстур, изменениями отражательной способности и окраски или тенями, от- отбрасываемыми на поверхность. Наиболее живо и загадочно выглядят конту- контуры, приведенные на рис. 3.56, бив. Чему они соответствуют в природе? В ко- конечном счете не часто приходится нам сталкиваться с объектами, порожден- порожденными деформациями проволочной сетки с прямоугольными ячейками, как это имеет место на рис. 3.56, б. Почему же в таком случае мы так легко вос- воспринимаем форму проволочной камеры, изображенной на рисунке? По той ли самой причине мы так хорошо воспринимаем рис. 3.56, в? Используется ли в этих случаях один и тот же основной прием, либо удачное взаимодейст- взаимодействие нескольких обеспечивает четкость восприятия? Таковы проблемы, которые мы будем рассматривать в этом разделе. К со- сожалению, поскольку до сих пор нам неизвестно, проявляется ли в случаях, подобных приведенным на рис. 3.56, бив, одно или несколько явлений, мы чувствуем себя при этом не столь уверенно, как это было при рассмотрении стереопсиса и движения. Психофизика еще не дает нам сведений о том, како- каковы здесь модули, и в результате мы пребываем почти в том же затруднении, которое испытывает лингвист, не располагающий четким разбиением языка на сравнительно независимые структуры. 227
a) 6) в) Рис. 3.56. Примеры контуров на двухмерном изображении, которые позволяют наблю- наблюдателю получать трехмерную информацию: "Весенние обряды" Пикассо — пример получения информации о форме по силуэтам (д); "Проволочная камера" (б); изображение кривой sin* (в). Изображения на рис. 3.56, бив оставляют наиболее живое впечатление Тем не менее некоторый прогресс все-таки имеет место. В нашем обсуж- обсуждении удобно выделить три темы: 1) контуры, соответствующие нарушени- нарушениям непрерывности по расстоянию от поверхности до наблюдателя (ограничи- (ограничивающие контуры); 2) контуры, соответствующие нарушениям непрерыв- непрерывности по ориентации поверхности; 3) контуры, присутствующие на поверх- поверхности реально. Последний тип контуров может порождаться, например, раз- разметкой поверхности или теневыми линиями. Важно то, что они лежат на по- поверхности, и поэтому я буду называть их контурами поверхности. Напом- Напомним, что контуры каждого из перечисленных типов могут отыскиваться на изображении различными способами. Во всяком случае наша основная проб- 228
лема в данном контексте формулируется следующим образом: почему и ка- каким образом подобные контуры, определяемые на одном двухмерном изо- изображении, могут служить для нас источником однозначной и достаточно час- часто весьма подробной информации о трехмерной форме? Ограничивающие контуры Ограничивающий контур — это просто контур, ^оторый представляет не- некоторое нарушение непрерывности по глубине и обычно соответствует силу- силуэту объекта, возникающему при проекции последнего на плоскость. Ограни- Ограничивающие контуры заинтересовали меня после того, как я обратил внимание на то (и это выглядит чуть ли не как парадокс), что, рассматривая силуэты на рисунке Пикассо "Весенние обряды" (он воспроизведен на рис. 3.56,а), мы воспринимаем их как вполне определенные трехмерные формы, отчасти хорошо, отчасти менее знакомые. Это весьма примечательный факт, так как эти силуэты (теоретически) могут быть порождены самыми различными формами, причем степень их разнообразия безгранична и при выборе иных точек наблюдения не обнаруживалось бы заметного сходства с теми форма- формами, которые мы воспринимаем. Требуется совсем немного воображения и умеренных искажений, для того чтобы получить довольно экзотическую трехмерную форму, подтверждающую справедливость последнего замечания. Мы могли бы, например, столь причудливо расположить пики и выпуклости, что при наблюдении с какого-либо определенного направления они обеспечи- обеспечивали бы восприятие силуэта человека или козла. Тем не менее, сталкиваясь с силуэтами, мы никогда о подобных вещах не задумываемся. Возможно, кто-то попробует частично объяснить это явление привычностью изображаемых форм, но это справедливо не для всех форм, так как можно использовать силуэт и для представления незнакомой формы, и, затратив даже значительные усилия, трудно вообразить более эксцентрич- эксцентричные трехмерные поверхности, которые могли бы порождать силуэты, при- присутствующие в живописи Пикассо. Парадокс же состоит в том, что граничные контуры в "Весенних обрядах", очевидно, сообщают нам о формах фигур больше, чем они должны это делать. Так, например, в данном случае соседние точки граничных контуров могут соответствовать тхыкам исходных поверх- поверхностей, далеко друг от друга отстоящим, однако в процессе восприятия та- такая возможность нами обычно игнорируется. Эта ситуация в такой степени напоминает те, в которых не принимается во внимание множество допустимых интерпретаций стереограмм, образован- образованных случайными конфигурациями точек, таких как метели, или регистро- грамм движения пар цилиндров, что чуть ли не вынужденно приходишь к сле- следующему выводу: где-то в глубинах механизма восприятия, обеспечивающе- обеспечивающего интерпретацию силуэтов как трехмерных форм, должен скрываться некий источник дополнительной информации, задающий ограничения, которые за- заставляют нас воспринимать силуэты так, как мы их на самом деле и воспри- воспринимаем. Возможно, но чуть менее определенно, чем в случаях анализа движе- движения и стереопсиса, соответствующие ограничения имеют, скорее, универсаль- 229
ный, нежели конкретный характер, и не предполагают наличия априорных знаний о наблюдаемых формах. Если эти ограничения имеют общий характер, то в способ, который мы ис- используем для интерпретации силуэтов и который позволяет нам извлекать форму из очертаний,' должен быть заложен ряд априорных допущений,. По- Последние должны отражать природу наблюдаемых форм. Более того, если не- некоторая поверхность не удовлетворяет подобным неявным допущениям, то мы будем воспринимать ее неверно. Наше восприятие будет обманывать нас в том смысле, что форма, которую мы ставим в соответствие контурам, отличается от той, которая действительно их породила. Общеизвестным при- примером служит театр теней: располагая нужным образом руки, Вы можете, к удивлению и восторгу ребенка, создавать изображения теней, в сущности, совершенно различных трехмерных форм, таких, скажем, как утка, кролик или страус. Огранишвающие допущения Нам предстоит ответить на следующий вопрос: какие допущения целесо- целесообразно вводить (и мы используем их подсознательно) при интерпретации силуэтов, аналогичных приведенным на рис. 3.56, а или 3.57, б, как трехмер- трехмерных форм? Очевидно, существенными являются три допущения [146]. Первое из них состоит в том, что всякая линия прямой видимости, направленная от наблюда- наблюдателя к объекту, должна касаться поверхности последнего строго в одной точ- точке. Другими словами, всякая точка, принадлежащая силуэту (рис. 3.57, б), должна соответствовать лишь одной точке, принадлежащей наблюдаемой по- поверхности (рис. 3.57, а). Причина введения такого допущения заключается в том, что даже при отсутствии указанного соответствия мы, вероятно, не смогли бы это установить; обычно это происходит в результате того, что две части объекта располагаются на линии прямой видимости. Такое допущение позволяет нам выделять на поверхности объекта кон- конкретную кривую, называемую источником контура (см. рис. 3.57, б). Она представляет собой множество точек, проекции которых на изображение рас- располагаются на границе силуэта; мы будем обозначать эту кривую симво- символом Г. Второе допущение гласит, что, за исключением, быть может, очень неболь- небольшого числа случаев, точки, оказавшиеся на изображении расположенными поблизости друг от друга7в действительности расположены поблизости друг от друга на поверхности объекта. Иллюстрация, приведенная на рис. 3.58, а, помогает объяснить смысл этого допущения. Представим себе, что аиЬ — это два холма, а источники контуров, порождающие а и Ь, совпадают с очерта- очертаниями вершин каждого из холмов на фоне неба. Если часть холма Ь, изобра- изображенная штриховой линией, оказывается невидимой, то источник видимого контура в точке Р перескакивает с одного холма на другой — эта кривая раз- разрывна. Острая вогнутость, имеющаяся в точке Р, в сущности, и свидетельст- свидетельствует об этой разрывности, и, следовательно, мы в значительной мере готовы 230
a) б) г) д) Рис. 3.57. Четыре структуры, важные с точки зрения изучения априорных условий и ис- используемые нами в процессе анализа ограничивающих контуров: а — трехмерная поверхность Е; б — ее силуэт Sy, соответствующий наблюдению из точ- точки V; в — контур Су силуэта Sy; г — множество точек источника контура Некоторое проектируется на контур; д — иллюстрация одного из условий теоремы, обсуждаемой в тексте. В частности, продемонстрирован смысл условия "все точки наблюдения с неко- некоторого расстояния, расположенные в одной и той же произвольной плоскости" к ней. Однако не считаем, что она может встретиться в телах собственно а и Ь, и фактически предполагаем, что такая разрывность не возникает. Это и со- составляет наше второе допущение. Оно гласит: точки контура, являющиеся соседними на изображении, порождаются точками источника контура, являю- являющимися соседними на наблюдаемом объекте. Последнее допущение имеет более сложный характер, поскольку относит- относится к роду данных о форме контура, принадлежащего изображению. Допус- Допустим, например, что нам предъявляется какая-то часть контура, подобно тому как это показано на рис. 3.58, б. Два предыдущих допущения позволяют нам считать, что этот контур порождается источником, принадлежащим поверх- поверхности, и мы можем допускать, что смежные точки контура порождаются смежными точками его источника. Поскольку процесс получения изображе- изображения таков, каков он есть, мы не можем полагаться на какие бы то ни было измерения, выполняемые на контуре изображения, и в результате единствен- единственный оставшийся непосредственный признак сводится к тому, что иногда кон- контур изгибается одним способом, а иногда — другим. Иначе говоря, между вы- выпуклыми и вогнутыми сегментами контура существует качественное разли- различие, которое при условии, что соответствующая поверхность достаточно глад- гладкая, в свою очередь, основывается на понятии точки перегиба. Вообще точки 231
Рис. 3.58. Второе допущение о том, что точки, являющиеся соседними на контуре, по- порождаются точками, являющимися соседними на его источнике, в сущности, означает отсутствие на контуре точки типа Р. Если бы изображенная штриховой линией часть Jb была невидима, источник контура перескочил бы с а на Ь, вызвав нарушения непрерыв- непрерывности в точке Р (а). Типичная часть контура {б). Единственными признаками, которы- которыми можно было бы воспользоваться в данном случае, являются выпуклости и вогнутос- вогнутости этого участка, т. е. точки перегиба контура, причем они должны отражать свойства поверхности, а не особенности процесса формирования изображения. Так, например, если наблюдатель находится поблизости от змеи (в), то выпуклости и вогнутости возни- возникают на изображении (г) не из-за того, что таковы свойства змеи, а из-за изменений рас- расстояния от нее до наблюдателя. Если изображается только ограничивающий контур (он показан на рисунке жирными линиями), то воспринимается некоторый шестиуголь- шестиугольник. Появление внутренних линий превращает его в некоторый куб, поскольку их нали- наличие предполагает, что ограничивающий контур - не плоский (д) перегиба контура не должны, естественно, иметь никакого значения для по- поверхности. Источник контура может извиваться самым произвольным и при- причудливым образом либо двигаться прямо к наблюдателю, а затем удаляться от него. В последнем случае, когда используется центральная проекция, вы- выпуклости и вогнутости возникают главным образом так, как это показано на рис. 3.58, виг. Следовательно, наш очередной вопрос должен быть следую- следующим: какой'должна быть точная формулировка допущения, предполагающе- предполагающего, что точки перегиба контура существенны, отражают каким-то образом истинные свойства наблюдаемой поверхности и не являются артефактами процесса формирования изображения? Два наших предыдущих допущения позволяют рассматривать источник контура как кусок проволоки, изогнутый в трех измерениях. Если точки перегиба контура должны отражать изгибы реального куска проволоки, то для этого должны выполняться следующие два математических условия: 1. Преобразования, используемые в процессе формирования изображения для получения контура из проволоки, должны быть линейными. Это требова- требование исключает возможность использования перспективных преобразований и ограничивает применимость нашей теории случаем наблюдения объектов из- 232
дали — размеры объекта должны быть малы по сравнению с расстоянием, разделяющим объект и наблюдателя. 2. Кривая, подвергающаяся преобразованию, должна лежать на некоторой плоскости. Другими словами, различительные признаки типа выпуклый-вог- выпуклый-вогнутый приобретают на изображении смысл лишь тогда, когда наблюдение ве- ведется издали и изогнутая проволока, являющаяся источником контура, ле- лежит на некоторой плоскости. Огсюда возникает наше третье допущение, со- согласно которому источник контура является плоским. Третье допущение является сильным, оно резко ограничивает класс по- поверхностей, для интерпретации формы которых могут использоваться силуэ- силуэты. Введение этого допущения тем не менее кажется неизбежным, если в про- процессе интерпретации мы хотим различать выпуклые и вогнутые сегменты. К счастью, однако, результаты, получаемые при использовании этого допуще- допущения, очень устойчивы: если источник контура не строго, а лишь приблизи- приблизительно плоский, то отклонения поверхностей от требований, предъявляемых к поверхностям соответствующего класса, обычно назначит ел ьны. Интересно отметить, что это условие на самом деле учитывается в большинстве совре- современных конструкций и все контуры, изображаемые на машиностроительных чертежах, ему удовлетворяют; таким образом, оно находит применение даже вне пределов изучения зрения. Если указанное условие нарушается, то мы, очевидно, действительно должны получать неверную форму. Так, например, ограничивающий контур, приведенный на рис. 3.58, д и обозначенный жирны- жирными линиями, при восприятии его как такового создает впечатление двухмер- двухмерного шестиугольника. Привлечение дополнительной информации, которую дают внутренние линии, позволяет, однако, получать совершенно другую интерпретацию. Ограничивающий контур, когда он представляет некоторый куб, перестает быть плоским. Значение введенных допущений Для того чтобы установить истинный смысл введенных нами допущений, необходимо понять, каким образом они ограничивают допустимые геометри- геометрические свойства наблюдаемых поверхностей. Очевидно, что для некоторых поверхностей эти допущения выполняются, а для некоторых — нет. Ну, а каким же все-таки образом поверхности удается удовлетворять этим допу- допущениям? Чтобы ответить на этот вопрос, необходимо сформулировать до- допущения в виде ограничений, налагаемых на геометрические свойства наблю- наблюдаемой поверхности, а затем выяснить, что из этого следует. Сформулируем эти ограничения еще раз. 1. Каждая точка источника контура проектируется в свою точку контура. 2. Точки, расположенные в контуре по соседству, порождаются точками источника контура, расположенными по соседству. 3. Источник контура полностью принадлежит одной плоскости. Для того чтобы сформулировать основной результат, необходимо позна- познакомиться еще с одним понятием — понятием обобщенная коническая поверх- поверхность. Оно было предложено Т. О. Бинфордом [17] для представления форм в программах вычислительных машин (иллюстрация этого понятия дается на 233
Рис. 3.59. К определению обобщенной конической поверхности рис. 3.59). Обобщенная коническая поверхность представляет собой поверх- поверхность, которая порождается перемещением некоторого поперечного сечения вдоль оси симметрии. Размеры поперечного сечения могут претерпевать глад- гладкие изменения — оно может становиться шире или уже, — однако форма по- поперечного сечения остается неизменной. Так, обобщенной конической по- поверхностью может представляться мяч, а также пирамида и с некоторым при- приближением — голень, часть руки от плеча до локтя, змея, ствол дерева, ста- сталагмит. Можно, в сущности, считать, что тело лошади представляется восьмью обобщенными коническими поверхностями — по одной на каждую из ног, а также по одной на голову, шею, туловище и хвост. Теперь подготовка к формулированию основного результата закончена, и я надеюсь, что читатель найдет его столь же неожиданным, как и я сам. Если поверхность гладкая (применительно к нашим целям это означает, что она должна быть дважды дифференцируема и иметь непрерывную вторую производную) и если ограничения 1-3 удовлетворяются для всех точек на- наблюдения, расположенных в некоторой одной плоскости (как это показано на рис. 3.57, д), то наблюдаемая поверхность представляет собой обобщен- обобщенную коническую поверхность. Справедливо также и обратное утверждение: если поверхность представляет собой обобщенную коническую поверхность, то ограничения 1—3 соблюдаются. Эта теорема означает, что если выпуклости и вогнутости изгибов контура изображения представляют истинные свойства некоторой поверхности,то эта 234
поверхность является обобщенной конической поверхностью или состоит из нескольких обобщенных конических поверхностей. Короче говоря, теорема утверждает существование некоторой естественной связи между обобщенны- обобщенными коническими поверхностями и собственно процессом формирования изо- изображения. Комбинация двух утверждений теоремы должна означать, как я считаю, что обобщенные конические поверхности будут иметь принципиаль- принципиальное значение для развития теории зрения. На самом деле этот результат означает, что в общем случае ограничиваю- ограничивающие контуры не позволяют восстановить форму, за исключением случая, когда форма образована обобщенной конической поверхностью и наблюдает- наблюдается из такой точки, которая исключает возникновение перспективного сокра- сокращения образующей оси формы (перспективное сокращение может возник- возникнуть в случае, приведенном на рис. 3.57, д, если точка наблюдения располо- расположена выше или ниже наблюдаемого объекта). Если же перспективного сокра- сокращения не происходит, то даже при том условии, что наблюдаемая форма со- состоит из нескольких различных обобщенных конических поверхностей (как, например, силуэт человека или лошади), соответствующая форма, по мень- меньшей мере частично, поддается восстановлению. Возможно, самым важным здесь является то обстоятельство, что,как мы убедимся ниже, оси коничес- конической поверхности можно восстанавливать по изображению; дело в том, что это позволяет задавать для наблюдаемой формы систему координат объекта. Более подробно мы остановимся на этой проблеме в гл. 5, где кратко опи- опишем алгоритм разбиения силуэта на составляющие его обобщенные коничес- конические поверхности. (Теоремы, на которых основан этот алгоритм, приводятся в работе Марра [146].) Сейчас же, однако, достаточно отметить, что использование ограничиваю- ограничивающих контуров предполагает выполнение трех сформулированных нами огра- ограничений, а выполняются они в том, и только том случае, когда наблюдаемые формы представляют собой обобщенные конические поверхности. Главным следствием этих ограничений является то, что там, где контур имеет вогну- вогнутости и выпуклости, поверхность изгибается внутрь и вовне. Никакой дру- другой информации ограничивающие контуры сами по себе дать не могут. Нарушения непрерывности по ориентации поверхности Контуры ориентации поверхности указывают положения нарушений не- непрерывности по ориентации поверхности. Они соответствуют, например, складкам, имеющимся на поверхности (скажем, внутренние линии на рис. 3.58, д), или продольно расположенным пикам и впадинам (рис. 3.60). С точ- точки зрения восстановления геометрии поверхности наиболее важная из проб- проблем, возникающих в связи с таким контуром, сводится к тому, соответству- соответствует ли он выпуклости или вогнутости поверхности. Все внутренние контуры на рис. 3.58, д представляют выпуклости, а на рис. 3.60 выпуклости и вогну- вогнутости чередуются, иногда образуя чрезвычайно запутанную картину. Часто, к сожалению, трудно разделить выпуклости и вогнутости по чисто локальным признакам, снимаемым с монокулярного изображения. Человек склонен воспринимать такие контуры как выпуклые (рис. 3.61,6), но даже 235
Рис. 3.60. Эскиз обоб- обобщенной конической по- поверхности, на котором видны ее силуэт (опи- (описывающий контур) и рифление (контуры, стягивающие поверх- поверхность по длине). Это рифление соответству- соответствует ^линиям нарушения непрерывности по ори- ориентации поверхности а) б) в) Рис. 3.61 Примеры изображений нарушения непрерывности по ориентации поверхности те примеры, которые ориентированы на определенный тип восприятия, могут допускать и альтернативный тип восприятия (ср. рис. 3.61, а и в). Необходимо сделать ряд замечаний относительно комбинаций, в которых подобные контуры могут встречаться, например применения ограничений типа введенных Уолцем [241] (см. рис. 1.3), которые указывают, что два вогнутых и один выпуклый контуры не могут соприкасаться в одной точке. Однако эти ограничения не отражают свойства исключительно изолирован- изолированных контуров; в гл. 4 мы обсудим несколько более сложных явлений. Един- Единственные данные, которыми в настоящее время мы можем пользоваться для различения изолированных выпуклых и вогнутых контуров, получены Хор- Хорном [92]. Он показал, что по крайней мере для сцен, содержащих призмы с белыми матовыми поверхностями, профили распределения яркости наяркост- ных переходах различных типов обладают характерными различиями. Если профиль распределения яркости на яркостном переходе представляет собой ступенчатое изменение или очень острый пик, то, по всей вероятности, соот- соответствующий яркостный переход — выпуклый. Если же профиль распределе- распределения яркости имеет сводчатую форму, то, по всей вероятности, соответствую- соответствующий яркостный переход - вогнутый. Мы, однако, еще не располагаем дока- доказательствами того, что эти критерии используются в зрительной системе чело- человека для классификации яркостных переходов. 236
Контуры поверхности Контуры поверхности появляются на изображении гладкой поверхности в силу различных причин и служат источником информации о трехмерной фор- форме поверхности, как это показано на рис. 3.62. Естественно, возникает во- вопрос, каким образом это происходит, что и послужило некоторое время назад предметом довольно тщательного исследования Стивенса [221]. Важ- Важнейшим в данном случае является то наблюдение, что мы не воспринимаем изображение на рис. 3.62 как сугубо плоское; нет никаких сомнений в том, что мы смотрим на некоторую гладкую волнистую поверхность. Как мы уже неоднократно убеждались, это означает, что, обращаясь к анализу таких изо- изображений, мы используем ряд априорных допущений. И снова, как и выше, основные информационные проблемы сводятся в данном случае к тому, каковы эти допущения, почему мы их используем и каким образом они дают нам возможность получать информацию об ориен- ориентации трехмерной поверхности по единственному двухмерному изображе- изображению? Обсуждая работу Стивенса, мы будем учитывать различие между кон- контуром, имеющимся на изображении, и соответствующим ему источником контура, расположенным на поверхности; впервые мы столкнулись с этим различием в процессе анализа ограничивающих контуров (см. рис. 3.57). От- Отличие данного случая состоит в том, что источники контура не должны боль- больше ограничиваться исключительно границами силуэта объекта, но могут воз- возникать в их пределах как результат разметки внутренних частей поверхнос- поверхностей или каких-либо эффектов, связанных с освещением. Так, например, кон- контуры, имеющиеся на рис. 3.62, естественно интерпретировать как изображе- изображение разметки, нанесенной на поверхность, и мы будем считать, что источники контуров для контуров изображения заключены в этой разметке. Эти конту- контуры могут, конечно, оказаться весьма абстрактными объектами, возможно, порожденными рядами точек, однако мы считаем само собой разумеющимся использование в данном случае конструкции полного первоначального эски- эскиза и свойственных ему возможностей представления. Мы будем называть такие контуры контурами поверхности. Отметим, что ограничивающие кон- контуры почти никогда не являются контурами поверхности (рис. 3.63). Рис 3 62 Семейсгно синусоид позволяет созда- создавать впечатление волнообразной поверхности Эти кривые естественно интерпретируются как контуры поверхности, т е изображения размет- разметки, нанесенной на некоторую реальную поверх- поверхность Какие ограничения могут использоваться при получении такой трехмерной интерпретации [221]'' 237
Рис 3.63. Кривые, приведенные на рис. 3.63, а, интерпретируются как ограничивающие контуры, а соответствующая поверхность воспринимается как некоторая обобщенная коническая поверхность, в данном случае как объект, имеющий форму вазы Такие контуры рассматривались в разд. 3.5, и обсуждение их свойств продолжается в данном разделе. Кривые, приведенные на рис. 3.63, б, интерпретируются как контуры поверх- поверхности, а сама поверхность воспринимается как слегка трепещущий флаг или разлино- разлинованный лист бумаги [221] Загадка контуров поверхности и трудности ее разрешения Особую трудность достоверному анализу проблемы контуров поверхнос- поверхности придает отсутствие явных физических источников регулярности контуров поверхности, которые наши механизмы восприятия могут использовать для достижения соответствующих целей. Очевидно, реальный мир менее структу- структурирован, чем иллюстрированные схемы типа приведенной на рис. 3.62, и я продолжаю испытывать глубокое недоумение по поводу того, каким обра- образом человеку удается интерпретировать подобные фигуры столь ярко. Стивене в своей полезной работе [221], впервые затронувшей эти пробле- проблемы, разделил их на две группы: определение формы источника контура в трехмерном пространстве и определение того, каким образом соответствую- соответствующая поверхность соотносится с данным источником контура. Первый шаг сводится к установлению формы куска проволоки, изогнутого в трех изме- измерениях таким образом, что он следует источнику контура и "правильно" вы- выглядит на изображении. Второй шаг в таком случае можно рассматривать как приклеивание к проволоке по всей ее длине ленточки с тем, чтобы она во всех подробностях воспроизводила полосу поверхности, расположенную не- непосредственно под источником контура. Определение формы источника контура Когда мы рассматриваем один контур, то создается впечатление, что эта кривая имеет характерную трехмерную форму и лежит в некоторой плоскос- плоскости. Так, рис. 3.64 составляет, например, впечатление некоторой плоской кри- кривой, расположенной в плоскости, которая характеризуется определенным, хотя, быть может, и небольшим, углом и направлением наклона. Допущение о том, что источник контура — плоский, существенно упрощает нашу проб- проблему, однако трудно считать это допущение правомерным, хотя теневые гра- границы, порождаемые яркостными переходами, имеющими вид прямых, и не- некоторые виды организации отражения поверхностей часто приводят к появ- появлению на поверхности плоских источников контуров. 238
Рис. 3.64 Создается впечатление, что при- приведенная на рисунке кривая имеет харак- характерную трехмерную форму - как если бы она бьша плоской и подвергалась перспек- перспективному сокращению в результате накло- наклона плоскости относительно наблюдателя Почему и каким образом возникает эта интерпретация [221] ? Можно было бы ввести и другие допущения. Так, Стивене отмечает [221], что большие возможности открываются, если рассматриваемая фигура обла- обладает симметрией, пусть даже не очень точной или искаженной (см. также [ 146]). Уиткин высказал предположение о том, что иногда полезно считать ре- реальный источник контура имеющим минимально допустимую кривизну, при- причем наблюдаемая кривизна контура на изображении частично определяется процессом формирования последнего. Все эти идеи, однако, все еще имеют частный характер и не систематизированы. Влияние наличия более чем одного контура Недостатки восприятия человеком отдельных контуров, аналогичных при- приведенному на рис. 3.64, возможно, связаны с недопустимым отсутствием каких бы то ни было реалистичных допущений, которые можно было бы ис- использовать при интерпретации подобных сцен. Если же имеется несколько контуров, то наше восприятие становится значительно ярче, как в случае, приведенном на рис. 3.62. Если контуры поверхности параллельны на изобра- изображении, то, за исключением чрезвычайно редких и нетипичных ситуаций, соот- соответствующие источники контуров на наблюдаемой поверхности параллельны. Параллельность источников контуров, позволяющая, перемещая источник контура по поверхности, совмещать его с соседним источником контура, ле- лежит в основе весьма конструктивной идеи о том, каким образом можно определять ориентацию поверхности, используя ее контуры. Параллельность источников контуров, в сущности, означает, что можно пренебрегать локаль- локальной кривизной поверхности в направлении перемещения источника контура. В "техническом" смысле такая поверхность является развертывающейся. Это означает, что соответствующую поверхность локально можно рассматри- рассматривать как некоторый цилиндр, представляющий собой поверхность, у кото- которой одна из двух главных кривизн равна нулю, в этом направлении поверх- поверхность — плоская. Эта идея иллюстрируется рис. 3.65 - 3.67. На рис. 3.65 изображена некото- некоторая поверхность, на которой видны контуры двух типов: волнообразные контуры, представляющие собой семейство параллельных источников конту- контуров, которые, как мы считаем, действительно присутствует на изображении, 239
Рис 3 65 Волнообразные линии представля- представляют контуры, видимые на изображении, а прямые (кривизна которых равна нулю) выявляют отношения параллельности, су- существующие между соседними волнообраз- волнообразными линиями Такая поверхность локально является некоторым цилиндром, поскольку одна из ее кривизн (а следовательно, и ее гауссовская кривизна) равна нулю [221] Рис 3 67 Рис 3 66 Обычно соответствие соседних параллельных контуров поверхности в явном виде на изображении не наблюдается, в отличие от случая, приведенного на рис 3 65 Это соответствие, однако, удается обнаруживать даже и в менее очевидных случаях Так, например, если контуры поверхности содержат прямые линии (а), то касательная к контуру в некоторой точке Р последнего может быть параллельная различным касатель- касательным соседнего контура, в то же время выбор лишь одной из этих касательных приведет к получению линии соответствия, параллельной другим линиям соответствия, связываю- связывающим криволинейные части соседних контуров (б) [221] Рис 3 67 Хотя, строго говоря допущения и методы, проиллюстрированные с помощью рис 3 65 и 3 66, требуют, чтобы наблюдаемая поверхность была цилиндрической, прак- практически ими можно пользоваться, предполагая, что выполняются они лишь локально, поскольку соответствие (параллельность) требуется устанавливать лишь между сосед- соседними контурами Следовательно, условие локальной цилиндричности позволяет нам интерпретировать поверхности, структуры которых в глобальном отношении не являют- являются цилиндрическими [221] 240
и множество прямых, ортогональных контурам первого типа, имеющих нуле- нулевую кривизну и представляющих соответствие, существующее между ло- локально-параллельными источниками контуров. Отождествляя такое соот- соответствие с прямыми, мы предполагаем, что наблюдаемая поверхность ло- локально является в определенном смысле простой, т. е. одна из ее кривизн равна нулю. Если заданы и волнообразные линии, и линии, указывающие со- соответствие, то ориентация поверхности достаточно определенно ограничена, поскольку нам известно, что в трехмерном пространстве линии двух этих типов перпендикулярны. Обычно контуры, указывающие соответствие, на изображении не видны, однако рис. 3.66 показывает, каким образом их можно восстановить даже при явной неоднозначности (некоторые подробности приведены в подписи к рисунку). И наконец, эту идею можно распространить и на случай поверхности достаточно общего вида (см. рис. 3.67), поскольку главное допущение, лежа- лежащее в основе интерпретации, должно выполняться лишь локально, в данном случае — для соседних контуров поверхности В примере, приведенном на рис. 3.67, основное требование (чтобы одна из кривизн обращалась в нуль) вы- выполняется лишь локально и приближенно. Структура поверхности, изобра- изображенной на рисунке, может быть определена с помощью методов, в основе ко- которых лежат приведенные выше идеи, несмотря на то,что в глобальном от- отношении данная поверхность явно не является развертывающейся. Стивене обратил внимание на один интересный факт, а именно если вдоль некоторой непрерывной кривой на поверхности возникают блики, то эта кривая — плоская (при условии, что источник освещения и точки наблюде- наблюдения удалены от поверхности). Такой контур подобен одному из наших кон- контуров соответствия, вдоль которого одна из главных кривизн наблюдаемой поверхности равна нулю. В этом случае нормаль к поверхности совпадает с нормалью к плоскости, в которой расположен окруженный бликами контур, точно так же, как в случае, приведенном на рис. 3.65, нормаль к поверхности расположена перпендикулярно и к прямым (контурам соответствий), и к волнообразным линиям. Следовательно, условия определения ориентации поверхности по контурам поверхности, предложенные Стивенсом, действи- действительно встречаются в реальных условиях. В целом определение ориентации поверхности по ее контурам остается увлекательной и нерешенной задачей. Однако основные допущения Стивенса (о плоскостности источника контура и о локальной развертываемости поверх- поверхности) представляются существенными компонентами процесса определения ориентации поверхности, и я буду очень удивлен, если выяснится, что они в той или иной форме не используются на практике. 3 7 ТЕКСТУРА ПОВЕРХНОСТИ В течение последних тридцати лет существенное внимание уделялось пред- представлению о том, что текстура поверхности может служить источником важ- важной информации о геометрических свойствах видимых поверхностей. Основ- Основным стимулом, вызвавшим интерес к этой идее, возможно, послужила ги- гипотеза, сформулированная Гибсоном [54] и утверждавшая, что с математи- 241
ческой и психологической точек зрения текстура является стимулом, доста- достаточным для восприятия поверхности. Утверждая это, он имел в виду, что мо- монокулярное изображение некоторой текстурированной поверхности содер- содержит достаточно информации, для того чтобы можно было однозначно опреде- определять расстояние до точек поверхности и устанавливать ее локальную ориента- ориентацию. Более того, он утверждал, что такая информация может использоваться и действительно используется в зрительной системе человека для получения указанной информации о поверхности. Если бы речь шла о таком идеализированном мире, в котором поверхнос- поверхности гладкие, обладают регулярной и четкой разметкой, а плотность распреде- распределения на них характерных объектов достаточна для того, чтобы можно было с высокой точностью измерять на изображении градиенты, то в этом случае многое можно было бы сказать в пользу утверждения Гибсона. К сожалению, однако, мир устроен не столь идеально, однородность и регулярность в реаль- реальном мире — это, скорее, исключения либо лишь приближения, а не правило; поэтому я придерживаюсь той точки зрения, что следует удивляться, когда оказывается, что нечто, скорее, можно сделать, чем нельзя. Кроме того, как отмечает Стивене [221], довольно простой математический аппарат, связан- связанный с этими проблемами, в прошлом излагался не без изъянов. Таким обра- образом, нам следует проявлять благоразумие и придерживаться критического и скептического отношения к предполагаемым возможностям восприятия текстур, за исключением тех случаев, когда удается неоспоримо продемонст- продемонстрировать, что зрительная система человека использует текстуры. Выделение элементов текстуры Первая задача, причем вряд ли ею кто-либо вообще занимался, сводится к тому, каким образом выделять на изображении однородные элементы тексту- текстуры, которые и должны являться объектом последующего анализа. Полное ре- решение этой задачи предполагает достижение полного понимания полного первоначального эскиза и процесса выбора на основании сходства, суть кото- которого состоит в классификации объектов по их происхождению (мы уже от- отмечали важность таких процессов — см., например, рис. 2.3). Давайте, одна- однако, считать выполнение этих условий само собой разумеющимся и будем предполагать, что поверхности реального мира снабжены необходимой регу- регулярной разметкой, которую мы в состоянии обнаружить на представлениях изображения, получаемых на ранних этапах процесса обработки. Параметры поверхности Как мы уже несколько разубеждались, существуют два способа задания позиции поверхности относительно наблюдателя. Мы можем либо определить расстояния до ее локальных участков, либо определить ориентацию поверх- поверхности относительно наблюдателя. Собственно ориентация поверхности естест- естественно разбивается на два компонента, называемых нами наклоном и направ- направлением наклона поверхности соответственно. Наклон поверхности представ- 242
ляет собой угол ее отклонения от фронтальной плоскости, а направление наклона — это то направление, в котором указанное отклонение происходит. Естественно, в математическом смысле расстояние и ориентация поверх- поверхности практически эквиваленты, будучи связаны операцией интегрирования (см. гл. 4). Применительно к нервной системе эта проблема выглядит совер- совершенно иначе: какая именно из этих величин — расстояние, наклон или на- направление наклона — фактически извлекается непосредственно из результа- результатов измерений вариаций текстуры? Изучая эту проблему, Стивене [221] при- пришел к следующим выводам. 1. Направление наклона, вероятно, определяется в явном виде. 2. Расстояние, вероятно, также определяется в явном виде. 3. Наклон, вероятно, определяется посредством дифференцирования взя- взятых в соответствующем масштабе значений расстояния, получаемых в соот- соответствии с п. 2. 4. В частности, вероятно, не выполняются или не используются измерения градиентов текстуры, в математическом отношении тесно связанных с на- наклоном поверхности, возможно из-за неточностей, неизбежно сопровожда- сопровождающих процесс измерения. Обратимся теперь к основаниям для этих выводов. Допустимые измерения Стивене отмечает, что даже совершенно по-разному выглядящие текстуры порождают одни и те же информационные задачи, и поэтому следует соблю- соблюдать чувство меры и не постулировать наличие большего числа механизмов, чем требуется для решения соответствующей задачи. На рис. 3.68 приведен пример, иллюстрирующий это положение: несмотря на то что приведенные на рисунке изображения выглядят совершенно по-разному, на обоих можно выполнять аналогичные измерения для определения расположения и размера изображенных объектов. Наш первый вопрос состоит в следующем: какие именно из множества возможных измерений на самом деле служат источни- источником признаков, которые создают у нас в процессе восприятия впечатление наклонной поверхности? Являются ли ими в случае изображения, приведен- приведенного на рис. 3.68, а, размеры эллипсов, расстояния, их разделяющие, плот- плотность их размещения или градиенты плотности? На рис. 3.69 удалена вся информация, которая была представлена на рис. 3.68, а, за исключением градиента плотности, и для обозначения позиций эл- эллипсов использовано три типа характерных объектов изображения. Несмотря на то что градиенты текстуры отчетливо видны, а их направления ясно очер- очерчены, во псех приведенных на этом рисунке примерах создается очень слабое впечатление наклона либо оно вообще не создается. Направление же наклона поверхности действительно определяется непо- непосредственно по изображению. Необходимо отметить, что делаться это может двумя способами (рис. 3.70) : мы можем определять либо то направление, по которому происходит изменение локальной плотности текстуры, либо, что 243
a) 6) Рис. 3.68. Текстуры обоих приведенных на рисунке типов, хотя и выглядят совершенно по-разному, но, в сущности, порождают одни и те же информационные задачи: а — изменяются ширина, эксцентриситет и плотность размещения эллипсов, причем это происходит именно таким образом, как в случае, если бы эти изменения были получены в результате построения центральных проекций одинаковых окружностей, расположен- расположенных на плоскости, отклоненной от наблюдателя (на таком изображении можно выпол- выполнить целый ряд измерений и затем использовать их результаты для определения геомет- геометрии наблюдаемой поверхности; значительная часть нашего обсуждения посвящается то- тому, использование каких именно измерений наиболее правдоподобно) ; б — сходящиеся прямые создают впечатление наклонной поверхности, разлинованной параллельными прямыми, находящимися на одинаковых расстояниях друг от друга. Хотя и предполага- предполагается, что для интерпретации изображений а) и б) требуются разные процессы, зто не обязательно так, поскольку измерения, связанные с размещением объектов, расстояни- расстояниями, их разделяющими, и т. п., могут быть выполнены на обоих изображениях. В сущ- сущности, кажущееся преимущество сходящихся контуров изображения б) над имеющими более случайный характер тестурами а) может объясняться исключительно тем, что об- образы типа приведенных на рис. 3.68, б допускают большую точность измерений на изо- изображении. С информационной точки зрения не существует каких-либо априорных причин для введения различных механизмов интерпретации этих изображений эквивалентно, линию, перпендикулярную тому направлению, по которому плотность текстурных элементов характеризуется наибольшей равномер- равномерностью распределения. Интересно отметить, что в случаях типа приведенного на рис. 3.70, б второй метод обеспечивает, вероятно, получение более точных характеристик. При этом требуется лишь определить направление линии / (рис. 3.70, в), точки пересечения которой проектирующими лучами цент- центральной проекции отстоят друг от друга на одинаковые расстояния. Известно также, что зрительная система человека в состоянии устанавливать равенство отрезков с точностью до нескольких процентов. Непосредственное определение расстояний, представленных в некотором масштабе Последний пример, заимствованный нами из работы Стивенса, приводится на рис. 3.71. Этот пример объясняет, почему Стивене считает, что человек 244
• a) 6) в) Рис. 3.69. Одной из возможных характеристик, позволяющих определять наклон поверх- поверхности, изображенной на рис. 3.68, а, является градиент плотности размещения эллипсов. Градиентные характеристики текстуры действительно обладают несколькими свойства- свойствами, привлекательными с математической точки зрения. На.данном рисунке точная гра- градиентная картина, приведенная на рис. 3.68, а, воспроизведена для трех типов локаль- локальных элементов текстуры. Во всех трех случаях градиент плотности явно виден, однако впечатления того, что поверхность наклонена, не возни кает.причем даже при наилучших условиях наблюдения. Иногда впечатление наклона можно вызывать, используя очень высокие значения градиента плотности, однако необходимые для этого значения оказы- оказываются неправдоподобными в физическом смысле. Примеры, подобные приведенным, заставляют сомневаться в том, действительно ли градиентные характеристики текстуры используются в зрительной системе человека для определения наклона текстурирован- ной поверхности [221 ] непосредственно измеряет размеры элемента текстуры, на основе которых определяет расстояние, а затем получает внутреннюю оценку угла наклона посредством процесса, родственного операции дифференцирования (см. гл. 4). При предъявлении освещенного изображения, приведенного на рис. 3.71,а, 245
б) Рис. 3.70. Направление наклона некоторой поверхности - это то направление, в котором данная поверхность отклонена от наблюдателя Если поверхность текстурирована равно- равномерно, то проекция прямой, указывающей направление наклона, на изображение обозна- обозначает направление, по которому локальная плотность текстуры изменяется в наибольшей степени, или, что эквивалентно, она перпендикулярна направлению, по которому элемен- элементы текстуры распределены наиболее равномерно [221] о о о 0 3 ° О о о о о о О ° О О О О О О о о о о О О о 0 о о о о О О о О О о 0 о О • о 8 0 О 0 ° 0 о г о <0 ° О о о о о о ° о О о ° о °° о °О о оо ° О о о ° ° ° • О о о о о о о °о о о о о оо а) оО ° ° - о °о • о о о ° о О О о р, б) Рис. 3.71. Используются ли градиенты текстуры при ее зрительном восприятии? Види- Видимый градиент (а) можно было бы считать причиной возникновения видимого наклона, однако при соответствующих условиях наблюдения изображение (б) определенно вос- воспринимается как трехмерное Следовательно, возможно, что на самом деле впечетление наклона создается размерами или яркостями окружностей [221] 246
в темной комнате у наблюдателя возникает впечатление наклонной плоскос- плоскости, на которой рассеяны сферы одинакового размера. Одна из возможностей для определения наклона заключается в использовании какой-нибудь гради- градиентной характеристики текстуры (например, градиента ширины окружнос- окружностей) . Однако изображение, приведенное на рис. 3.71, б, при таких же услови- условиях наблюдения также создает неоспоримое впечатление трехмерности, хотя в данном случае градиент отсутствует. Кажется, что большие окружности рас- расположены поблизости, а меньшие — в отдалении. Для объяснения обоих слу- случаев следует предположить, что окружности представляют сферы одинако- одинакового размера, а различие размеров возникает на изображении из-за того, что они находятся на различных расстояниях от наблюдателя (в соответствии с простейшим геометрическим правилом, согласно которому измеряемое зна- значение диаметра изменяется обратно пропорционально расстоянию, с которо- которого ведется наблюдение). Таким образом, зрительная система человека может не измерять наклон непосредственно, отдавая вместо этого предпочтение оце- оцениванию относительной глубины по изменениям размеров и, возможно, яркостей и определяя наклон по этим оценкам. Резюме Анализ текстур — это еще одна проблема, нынешнее состояние которой довольно неудовлетворительно. Ее математические аспекты затруднений не вызывают, однако иначе обстоит дело с аспектами психофизическими; неяс- неясно также и то, в какой степени "причуды" реального мира совместимы с ис- использованием в зрительной системе тех математических соотношений, кото- которые представляются нам допустимыми. Кроме того, до сих пор прискорбно 1 .тло известно о полном первоначальном эскизе, соответствующем заклю- заключительным этапам обработки информации в зрительной системе, на которых в действительности и выделяются основные элементы текстуры. Однако после того, как по этому поводу нам станет известно больше, можно будет при- приступить к экспериментальному исследованию этой проблемы, используя при этом самые разнообразные естественные изображения. Возможно, лишь тог- тогда мы сможем по-настоящему понять, почему текстурная информация ис- используется в зрительной системе человека столь специфически в столь огра- ограниченной степени, как нам это представляется. 3 8. ЗАТЕНЕНИЕ И ФОТОМЕТРИЧЕСКИЕ СТЕРЕОСКОПИЧЕСКИЕ ИЗОБРАЖЕНИЯ Роль, которую играет грим в театре, а также повсеместное распростране- распространение косметики в повседневной жизни заставляют предположить, что в зритель- зрительной системе человека действуют процессы, специально предназначенные для определения формы объектов по данным о затенении поверхностей. Похоже, однако, что возможности этих процессов невелики и определяются они ком- комбинацией тех сведений, которые удается извлекать из затенения, и информа- информации, содержащейся в ограничивающих контурах. Затенение само по себе лишь в слабой степени влияет на выявление формы, и поэтому одна из наи- 247
.*■ л- К"-' Л ■ ■'■.о '-., >'■ ■ . ; ■* ■♦ «' \. .*' ■ ■*,;. .■■ a) 6) Рис 3 72 Сопоставление синтезированного и реального изображения одного из районов Швейцарских Альп а - изображение, полученное с помощью методов Хорна на основе карты местности и карты отражательной способности для заданного времени дня; б - фотография, полу- полученная со спутника "Ландсат" более интересных теоретических проблем, возникающих в связи с предвари- предварительной обработкой изображений в зрительной системе человека (наряду с проблемой цвета), — это определение того, какую именно информацию и сколько можно получить из данных о затенении. Задача определения формы объектов по данным о затенении поверхностей в чисто теоретическом плане подвергалась тщательному анализу одной из самых первых. Б. К. П. Хорн в своей докторской диссертации, кратко изло- изложенной в его статье [91], показал, каким образом могут быть решены диф- дифференциальные уравнения, связывающие яркость изображения с ориентацией поверхности, при условии, что освещение обычное, а коэффициент отражения поверхности постоянен и известен. Затем Хорн изложил свои результаты на языке пространства градиентов [92], что существенно облегчило их понимание. Основное применение его результаты нашли в разработке методов анализа затенения возвышенностей. Допустим, например, что выбирается определенный район в Швейцарских Альпах. Как этот район будет выглядеть в 10 часов утра в солнечный летний день или в 4 часа пополудни? Рисунок 3.72 показывает, что методы Хорна дают возможность отвечать на такие вопросы. Сравнение синтезированного изо- изображения с фотографией, полученной со спутника, дает информацию об осо- особенностях отражательной способности поверхности Земли, свободную от 248
влияния затенения, вызванного конкретными характеристиками наблюдае- наблюдаемого района и освещения. Поскольку математический анализ задачи определения формы по данным О затенении является необходимым предварительным условием для любого сколь бы то ни было серьезного изучения способности человека решать эту задачу, я излагаю здесь наиболее важные идеи, связанные с таким математи- математическим анализом. Читателю, интересующемуся подробностями, следует обра- обратиться к работе [92], поскольку в моем изложении технике будет уделяться не слишком много внимания. Пространство градиентов Первое, что требуется при обсуждении задачи определения формы объек- объектов по данным о затенении — это разумный способ задания ориентации по- поверхностей. Для этого мы воспользуемся представлением, введенным в не- несколько различных контекстах Хаффманом [99] и Макуэртом [139]. Пусть задана некоторая поверхность (рис. 3.73,а). При условии, что эта по- поверхность — гладкая, в некоторой заданной точке поверхности существует ло- локальная касательная плоскость, т. е. существует некоторая плоскость, являю- являющаяся локально касательной к заданной поверхности в данной точке,и сущест- существует локальная нормаль к заданной поверхности, представляющая собой нор- нормаль к касательной плоскости в этой точке. Возьмем теперь ту же самую каса- касательную плоскость, переместим ее в начало координат и построим к ней нор- нормаль ОР, как это показано на рис. 3.73, б. Пусть точка/*имеет координаты (а, Ь, с). Совершенно очевидно, что длина нормали 0Рнесущественна —имеет зна- значение лишь ее направление; поэтому с тем же успехом мы можем использовать точку P'c координатами (а/с, Ь/с, 1). Теперь точку Р'можно задавать двумя числами (а/с, b/с}, т. е. просто как точку Р двухмерного пространства (рис. 3.73, в). Это и есть представление ориентации поверхности в пространстве градиентов. Использование пространства градиентов дает элегантный способ представ- представления ориентации поверхности. Несколько примеров помогут лучше понять его свойства. В случае фронтальной плоскости, когда нормаль к поверхности я У Р (а/с, Ь/с) б) в> Рис. 3.73. К объяснению идеи пространства градиентов 249
i 1 V V Ръ i /у -► X !\ a) 6) о X P P \ -► p \ в) Рис. 3.74. К объяснению идеи пространства градиентов направлена непосредственно к наблюдателю, а = Ъ = 0 и точка Р совпадает с началом координат 0 (см. рис. 3.73, в). Допустим теперь, что эта плоскость поворачивается по часовой стрелке вокруг вертикальной оси, как это показа- показано на рис. 3.74, а. При этом точка Р постепенно перемещается вправо вдоль оси р (Р2, Р3), как это показано на рис. 3.74, в, причем ее расстояние до нача- начала координат 0 равно тангенсу угла отклонения плоскости. Если же поворачи- поворачивать эту плоскость вокруг горизонтальной оси х, как это показано на рис. 3.74, б, то точка Р будет перемещаться вдоль оси q (PA, Р5), как это показа- показано на рис. 3.74, в, причем перемещение снова будет равно тангенсу угла от- отклонения плоскости. При вращении плоскости вокруг какой-либо промежу- промежуточной оси (она показана штриховой линией на рис. 3.74,в) точка Рпереме- Рперемещается по направлению г от оси р под прямым углом к оси, вокруг которой производится поворот, как это показано на рис. 3.74, б. Угол г представляет собой именно ту величину, которая в литературе по психофизике называется направлением отклонения плоскости, а угол между этим направлением и фронтальной плоскостью обычно называют отклонением плоскости, а иног- иногда - ее наклонением. Я буду обозначать отклонение символом а. Расстояние между точкой Р и началом координат равно значению tg с. 250
Быть может, читатель сочтет возможным потратить немного времени на то, чтобы поупражняться с этими понятиями на листе бумаги и до конца понять идею пространства градиентов, поскольку она важна и конструктив- конструктивна. В частности, можно попробовать убедиться в том, что длина отрезка ОР равна значению tg a. Освещение поверхности, ее отражательная способность и яркость изображения Изучение задачи определения формы объектов по данным о затенении свя- связано с отысканием способов нахождения ориентации поверхности по яркости изображения. Это сложная задача, поскольку яркость изображения зависит не от ориентации поверхности как таковой, а от характера освещения по- поверхности и ее функции отражения. В реальных условиях основное освеще- освещение часто имеет сложный характер, особенно в помещении. Вне помещения все обстоит несколько проще: солнце практически является удаленным то- точечным источником, а фоновый подсвет, который образует толстый слой об- облаков, практически равномерен — таким образом, эти два случая достаточно просты. Частичную облачность (днем) иногда можно рассматривать как ком- комбинацию этих двух случаев. В том, что касается основного освещения, ситуа- ситуация часто оказывается исключительно сложной из-за воздействия вторичных источников света: одна поверхность отбрасывает свет на другую, и, отража- отражаясь уже от последней, свет попадает нам в глаза. Эти эффекты почти не под- поддаются аналитическому изучению. Точно так же, как при удвоении акустического сигнала, влияние вторич- вторичных источников света приобретает особое значение для сцен, которые разыг- разыгрываются внутри помещений: свет от осветительной арматуры, установлен- установленной на потолке, может достигать поверхности кофейного столика непосредст- непосредственно или отразившись от потолка или стен. Потолок способствует освеще- освещению стен, а стены, в свою очередь, отражают свет обратно, способствуя осве- освещению потолка. Такой способ освещения называется взаимным. Совокупное воздействие этих эффектов придает исключительную трудность задаче опре- определения формы объектов по данным о затенении; поэтому до сих пор не на- наблюдается реального прогресса в ее решении, за исключением случая очень простых условий освещения при удаленном точечном источнике. Хорну, од- однако, удалось успешно решить эту проблему, и мы кратко остановимся на том, как он этого добился. Вторым фактором, оказывающим глубокое влияние на задачу определе- определения формы объектов по данным о затенении, служит функция отражатель- отражательной способности. Доля света, отражаемая от поверхности в направлении на- наблюдателя, зависит от микроструктуры отражающей поверхности. Эту за- зависимость обычно описывают некоторой функцией трех углов (они показа- показаны на рис. 3.75) : угла падения i, образованного падающим от источника света лучом и нормалью к поверхности, угла наблюдения е, образованного линией прямой видимости наблюдателя и нормалью к поверхности, и фазового угла g, образованного падающим и рассеиваемым лучами света. Функция отража- отражательной способности ф (i, e, g) — это отражаемая с единицы площади поверх- 251
О- /f|\\ Рис. 3.75. К определению углов падения i, наблюдения е и фазового g ности в направлении наблюдателя доля падающего света, приходящая- приходящаяся на единицу телесного угла. Дру- Другими словами, это означает, что ко- количество падающего на некоторый участок поверхности света, которое отражается в направлении некоторо- некоторого датчика, непосредственно зави- зависит от площади освещенного участ- участка, значения функции ф (i, e, g) и угловых размеров датчика. Известны различные функции отражательной способности. Идеальная лам- бертова поверхность (идеальная матовая поверхность) выглядит одинаково яркой во всех направлениях и характеризуется простой функцией отража- отражательной способности ф (i, e, g) = cos i. Поверхности запыленных каменистых объектов, наблюдаемых с большого расстояния, демонстрируют другой инте- интересный тип функции отражательной способности: при фиксированном значе- значении фазового угла g значение ф зависит лишь от отношения cos //cos e. Такая зависимость справедлива для материала, из которого состоят моря на Луне, причем при наблюдении с Земли фазовый угол g действительно постоянен. Это обстоятельство существенно способствовало изучению топографии Луны. Особенно простой функцией отражательной способности обладает полиро- полированная металлическая поверхность: функция ф принимает значение 1 при i = eag =i + e (свойства идеального зеркала).Если поверхность отполирова- отполирована не идеально, то значения функции ф несколько "размазываются" относи- относительно 1 (часто такое размазывание соответствует свертке с гауссианом). Это размазывание (пятнистость) вызывает, в частности, интерес потому, что многие из тех поверхностей, с которыми мы сталкиваемся повседневно, обладают функцией отражательной способности, являющейся комбинацией двух составляющих, обусловленных диффузионно рассеянным (матовая по- поверхность) и зеркально отраженным (зеркальная поверхность) светом. Функция отражательной способности глянцевитой белой краски является ре- результатом такой комбинации. Так, например, эта функция может иметь вид s(n + 1)B cos i cose — cosg)" ф(г, e, g) = + A - 0 cos i, где s — доля света, отражаемого зеркально; в этом выражении первый член соответствует составляющей, обусловленной зеркально отраженным светом, а второй — составляющей, обусловленной светом, рассеянным матовой по- поверхностью. Число п характеризует остроту пика первой составляющей; ти- типичным для глянцевитой краски можно считать п = 16 [92]. 252
Карта отражательной способности Лучший путь к пониманию задачи определения формы объектов по дан- данным о затенении лежит через понимание карты отражательной способности, обеспечивающей установление непосредственной связи яркостей изображе- изображения и ориентации поверхности. Допустим, что мы работаем с некоторым конкретным типом поверхности, функция отражательной способности которой ф известна. Пусть также источ- источник света и позиции наблюдения — удаленные, так что задача принимает прос- простейшую форму. При этом каждая ориентация поверхности будет порождать конкретную картину значений яркости изображения, которую можно пред- представить соответствующей картой в пространстве градиентов (р, q). В данном случае мы воспользуемся особенно простым вариантом карты отражатель- отражательной способности: будут вычерчены кривые равной яркости (изолинии яркос- яркости), нормированной с помощью некоторого масштабного коэффициента, принимающего значения от 0 (нулевая освещенность) до 1 (максимальная яркость, которую можно найти на изображении). Таким образом, если в не- некоторой точке измеренная яркость составляет, скажем, 0,8, то это означает, что данной ориентации поверхности (р, q) на карте отражательной способ- способности соответствует точка на изолинии 0,8. На рис. 3.76 — 3.79 приведено несколько примеров. На рис. 3.76 изображе- изображена карта отражательной способности для абсолютно матовой (ламбертовой) Рис. 3.76 Рис. 3.77 Рис. 3.76. Контуры постоянных значений cos i. Расстояние между контурами составляет 0,1. Эта карта отражательной способности характеризует объекты с ламбертовыми по- поверхностями в случае единственного источника света, расположенного вблизи наблю- наблюдателя Рис. 3.77. Контуры постоянных значений cosi. Расстояние между контурами составляет 0,1. Направление, в котором расположен источник, определяется координатами (р, g) = = @,7, 0,3). Эта карта отражательной способности типична для объектов с ламбертовыми поверхностями в случае, когда источник света не располагается вблизи от наблюдателя 253
*-Q Рис. 3.78 Рис. 3.79 Рис. 3.78. Контуры постоянных значений функции отражательной способности ф (/, е, g) = = cos //cos e. Расстояние между контурами составляет 0,2 Рис. 3.79. Контуры постоянных значений функции отражательной способности ф (г, е, g) = - 0,5 s (л + 1)B cos / соь с - cosg) п + A - s) cos /. Эта карта отражательной способности характеризует поверхность с функцией отражательной способности, являющейся ком- комбинацией двух составляющих, в случае, когда эта поверхность освещается единствен- единственным точечным источником. Такая функция отражательной способности может быть порождена глянцевитой белой краской поверхности, освещаемой источником, расположенным поблизости от наблю- наблюдателя. На рис. 3.77 представлен случай, когда поверхность — та же самая, но источник света находится в другом месте (его точные координаты р = 0,7, q = 0,3). Обратите внимание на то, что здесь изображена граница тени — ли- линия, соответствующая тем ориентациям поверхности, при которых в случае освещения данным источником поверхность становится самозатеняющейся. На рис. 3.78 представлена характерная карта отражательной способности лунных морей, а на рис. 3.79 приведена карта отражательной способности для упоминавшейся нами выше глянцевитой белой краски. Круговые контуры, расположенные очень близко друг от друга, соответствуют значениям яркос- яркости, изменяющимся очень быстро при любом изменении ориентации поверх- поверхности; таким образом, они обусловлены зеркально отраженным светом. Остальная часть этой карты напоминает карту, приведенную на рис. 3.77, и обусловлена диффузно рассеянным светом. Восстановление формы объекта по данным о затенении Задача восстановления формы объекта по данным о затенении даже при введении всех тех упрощающих допущений, которые обеспечивают возмож- возможность использовать карту отражательной способности, все еще остается очень трудной. Если яркость известна, то на карте отражательной способности мож- можно выбрать конкретную изолинию; это позволит узнать, что точка, определя- определяющая ориентацию поверхности, расположена, например, на изолинии 0,8, 254
однако пока еще не известно, где именно на ней. До тех пор пока не распола- располагаем дополнительной информацией — каждая точка изолинии столь же хоро- хороша, как и любая другая. Эту задачу тем не менее решить можно. Необходимое дополнительное условие сводится к предположению о гладкости поверхности и гладкости из- изменения ее ориентации (т. е. к дифференцируемости). В сущности, это озна- означает, что если для некоторой точки изображения известны ориентация по- поверхности и характер ее локальных изменений, то при перемещении по изо- изображению в некотором направлении, зная новое значение яркости изобра- изображения, можно указать новую локальную ориентацию. Это поразительно, поскольку невозможно предположить, что условие гладкости налагает ограничения, достаточные для того, чтобы получить ответ. Но это действительно так в силу блестящего математического приема, ис- использованного Хорном [92]; к сожалению, я не в состоянии кратко изло- изложить его на нормальном языке. Итак, с математической точки зрения задача разрешима. С биологической точки зрения, однако, такой тип решения, даже с учетом основных упрощений, на которых основывается метод Хорна, все еще слишком сложен, для того чтобы он мог быть использован. В общем слу- случае решение уравнений, обеспечивающих восстановление формы объекта по данным о затенении, для карты отражательной способности требует выполне- выполнения последовательного интегрирования по контурам изображения, располо- расположение которых может быть определено лишь в процессе интегрирования. Решение этих уравнений более простым способом при более параллельном выполнении вычислений представляется делом совершенно безнадежным, если только мы не готовы пойти на введение дополнительных ограничений. Итак, был испробован ряд подходов. Будем [258] предложил локаль- локальный итерационный метод определения ориентации поверхности, основанный на использовании как ограничений, налагаемых на ориентацию поверхности (типа минимизации локальной кривизны), так и ограничений, учитывающих затенение. Брейди [25] предложил вводить также ограничения и на тип по- поверхности, т. е. ограничиваться, скажем, рассмотрением обобщенных кони- конических поверхностей, и показал, каким образом можно определять направ- направление, в котором расположен источник света. Я полагаю, однако, что вполне справедливо утверждать следующее: ни один из этих методов не пролил пока особого света на использование инфор- информации о затенении в зрительной системе человека. Затруднение, вероятно, со- состоит в том, что человек использует эту информацию не очень хорошо. Судя по всему, система обработки зрительной информации, имеющаяся у челове- человека, использует грубую информацию о затенении хотя и часто, но не всегда правильно; возможно поэтому, затенением легко пренебрегают в пользу дру- других видов информации. Ситуации, в которых зрительная система человека не всегда работает хорошо, чреваты затруднениями из-за того, что знание ма- математического способа решения задачи может давать очень мало сведений от- относительно того, каким методом пользуется человек при ее решении. К сожа- сожалению, как мы убедимся ниже, то же самое можно сказать и о проблеме цве- цвета. Тем не менее человек действительно в определенной мере использует ин- 255
формацию о затенении, следовательно, в этой проблеме имеется нечто, тре- требующее понимания. Фотометрическое стереоскопическое изображение Известен метод восстановления формы объектов по картам отражательной способ- способности, который, вероятно, совершенно не представляет интереса в биологическом смыс- смысле, но столь элегантен, что я не могу преодолеть искушения упомянуть его. Идея метода была предложена Вудемом [259] и затем развита Хорном, Вудемом и Силвером [93]. Метод состоит в следующем. Пусть заданы некоторое изображение и карта отражатель- отражательной способности для одного положения источника света. Допустим, что измерена яркость изображения в какой-то одной точке. Как мы убедились, теперь можно установить, что точка, определяющая соответствующую ориентацию поверхности, расположена на \\\ чп а) б) А Ьс, у) = 0,8 Ы, у) = 0,4 в) Рис. 3.80. Иллюстрация идеи, лежащей в основе фотометрической стереоскопии. Берут- Берутся изображения /, И /3 одной и той же сцены, соответствующие различным условиям освещения, и используются две различные карты отражательной способности. Измере- Измерение яркостей в некоторой точке на обоих изображениях может привести к тому, что этой точке первого изображения будет поставлена в соответствие изолиния 0,8 (д), а этой же точке второго изображения - изолиния 0,4 (б). Следовательно, истинную ори- ориентацию поверхности (р, g) определяет одна из точек пересечения изолиний, т. е. точка А или В(в) 256
некоторой конкретной изолинии пространства градиентов (выше в качестве примера приводилась изолиния 0,8, воспроизведенная на рис. 3.80, в). Задача заключается в том, что нам неизвестно, какая именно точка изолинии задает правильную ориентацию по- поверхности (р, q). Допустим далее, что мы изменяем положение источника света (либо, если речь идет о сцене на открытом воздухе, делаем паузу в несколько часов), после чего с той же самой точки наблюдения получаем второе изображение. Геометрические свойства поверхности относительно наблюдателя остаются неизменными, однако карта отражательной способ- способности изменяется. Так, например, изменившаяся ситуация может приобрести вид, при- приведенный на рис. 3.80, б, и измерение яркости в той же самой точке изображения пере- переносит нас на изолинию 0,4 карты отражательной способности, как это показано на рис. 3.80, в. Таким образом, определение истинной ориентации поверхности сводится к вы- выбору одной из двух возможностей: двух точек пересечения первой изолинии 0,8 и вто- второй изолинии 0,4 - точек А и В на рис. 3.80, в. В сущности, это уже и есть решение зада- задачи, поскольку выбор одной из точек А к В может быть легко осуществлен на основе ин- информации о непрерывности или с помощью третьего изображения, соответствующего еще одному положению источника света. Схема такого типа может найти практическое применение, так как обычно можно по- построить карту отражательной способности даже для сложных условий освещения, хотя обычно ее приходится строить, опираясь на результаты реальных измерений: вычисли- вычислительная процедура синтеза такой карты сложна. При условии, что освещение и характе- характеристики поверхности в пределах схемы не изменяются, фактором, определяющим яр- яркость изображения, является ориентация поверхности. 3.9. ЯРКОСТЬ, ОСВЕЩЕННОСТЬ И ЦВЕТ Во всех процессах, рассматривающихся нами до сих пор, изображение из- изменений отражательной способности поверхности и ее освещенности исполь- использовалось для восстановления информации о геометрических свойствах по- поверхности. При этом ничего не говорилось о собственно природе поверх- поверхности. Тем не менее отражательная способность поверхности (светлая по- поверхность или темная, хорошо или плохо она отражает красный цвети т. д.) содержит информацию, которая часто имеет важный биологический смысл. Так, например, только взглянув, мы можем сразу сказать, зрелый ли плод, достаточно ли крепка ветка, чтобы выдержать вес человека, свеж и мягок ли лист, похоже ли на то, что это насекомое ядовито, и многое, многое другое. Следовательно, определение отражательной способности поверхности — важная задача, и мы действительно достигли немалых успехов в ее решении. Поразительно, сколь сильно воспринимаемый цвет зависит от отражательной способности поверхности и сколь мало он зависит от спектральных характе- характеристик света, попадающего человеку в глаз. Согласно данным Хелсона [82] источник света может на 93 % быть хроматическим, но когда он содержит по меньшей мере 7 % дневного света, освещаемая поверхность, если ее спект- спектральный коэффициент отражения постоянен (т. е. отражение на всех длинах волн одинаково), остается ахроматической. Обратная сторона этой же проб- проблемы — это сколь широк диапазон раздражителей, которые способны ввести нас в заблуждение, заставив говорить о наличии различий яркости в тех слу- случаях, когда на самом деле их нет; этот диапазон простирается от решетки 257
a) б) в) а) Рис 3 81 Примеры хорошо известных иллюзий яркости а — решетка Геринга; б — иллюзия Р. Спрингера, порождающая впечатление нечетко вы* раженных диагональных линий; в, г — кольцо Бинасси (обратите внимание на то, как просто с помощью введения контура в изображение, приведенное на рис. 3.81, г, можно создать впечатление, что две серые области выглядят по-разному) ; д — треугольник Канижа 258
Геринга и кольца Бинасси, с одной стороны, до явления субъективных кон- контуров — с другой. Несколько примеров таких раздражителей приведено на рис. 3.81. Теория цветового зрения находится в незавершенной и интересной стадии развития. С одной стороны, в течение длительного промежутка времени мы располагаем достаточно адекватным феноменологическим описанием, пред- предложенным Хелсоном [82] и Джаддом [109]. Их уравнения можно использо- использовать для прогноза восприятия человеком цвета, который будет почти столь же точен, насколько точно человек в состоянии описать этот цвет. Эти же уравнения без всяких изменений описывают известные эксперименты Ланда [127, 128] с двухцветной проекцией, где изображения, при воспроизведении которых использовались только два цвета, обеспечивали нормальное цвето- восприятие [110, 181]. Как отмечали, однако, сами Хелсон и Джадд, вероят- вероятно, с тем же успехом восприятие цвета можно было бы описать и целым ря- рядом каких-то других уравнений; и действительно, Ричарде и Парке [198] предложили более простую модель, обладающую почти такой же точностью. Проблема состоит в том, что все эти модели являются описаниями цвето- цветового зрения, но не его теориями. Исследователи не объясняют, почему их уравнения хорошо подходят для разделения эффектов освещения и эффек- эффектов, связанных с отражательной способностью поверхности. Возможно, что теории цветового зрения вообще не существует и эти описания — это все, че- чего мы в состоянии достичь; я, однако, надеюсь, что это не так. Единственной попыткой создать истинную теорию цветового зрения можно считать теорию ретинекса1, предложенную Ландом и Макканном [129]. Эта теория подвер- подвергалась критике в связи с тем, что она не могла объяснить ничего, выходяще- выходящего за пределы поддающегося объяснению в рамках модели Хелсона — Джад- да, и, вероятно, это действительно так. Эта критика, однако, проходит мимо того, что в контексте нашей книги составляет наиболее важное различие между этими двумя теориями, а именно что модель Хелсона — Джадда явля- является феноменологическим описанием, в то время как теория ретинекса пред- представляет собой информационную теорию, основанную на вполне_определен- ных допущениях о свойствах реального мира. Для того чтобы прояснить эти моменты, рассмотрим обе модели более подробно. Подход Хелсона - Джадда В основе подхода Хелсона — Джадда к цветовому зрению лежит освещенная време- временем точка зрения, согласно которой цвет объекта определяется соотношением световых потоков, отражаемых от различных частей зрительного поля, а не их абсолютными зна- значениями Хелсон и Джадд пытались получить некоторую формулу, позволяющую про- прогнозировать, какой цвет данный лист бумаги примет при определенных условиях осве- освещения и определенном фоне Таким образом, их интересовала не столько собственно цветовая константность, сколько количественная оценка степени нарушения этой кон- константности при изменениях освещения и фона Ретинекс (retinex) - неологизм, образованный от английских слов retina (сетчатка) и cortex (кора головного мозга) — Прим. перев 259
Их подход включает два этапа Во-первых, определение того, что следует считать "белым" применительно к условиям, характеризующим данную сцену, и, во-вторых, "вычисление" цвета, который примет этот лист бумаги, исходя из полученноЧ на первом этапе оценки белого цвета Принцип, лежащий в основе получения оценки белого цвета, состоит в следующем 1) стандартный белый цвет при дневном свете в соответствую- соответствующих координатах задается как (rwt gw); 2) измеряется "средний" цвет по всему зри- зрительному полю (задается как (/у,£у)), 3) предполагается, что скорректированный белый цвет (г„, gn) располагается в интервале между цветами, определенными в соот- соответствии с пп 1) и 2) Так, например, можно было бы записать следующие выражения rn=rf-k{rf-rw), gn=gf-k(gf-gw), из которых следует, что скорректированный цвет располагается на прямой, соединяю- соединяющей белый цвет при дневном свете со средним по соответствующему зрительному полю цветом Затем этот основной принцип был модифицирован Хелсоном и Джаддом посредст- посредством учета ряда экспериментальный наблюдений в уравнении цветового прогноза, ко- которое в результате утратило линейный характер Иначе говоря, эти изменения уда- удалили скорректированный белый цвет с прямой, соединяющей белый цвет при днев- дневном свете со средним по соответствующему зрительному полю цветом, чтобы обес- обеспечить возможность учета ряда специфических эффектов, обнаруженных Хелсоном и Джаддом экспериментально Наиболее важная модификация связана с понятием, на- названным ими адаптивной отражательной способностью и характеризующей, в сущ- сущности, уровень серого тона, соответствующий рассматриваемой сцене Листы бумаги, более светлые, чем этот уровень серого тона, принимают цветовой тон источника све- света, а более темные листы бумаги — цветовой тон дополнительного цвета Линейные зависимости, естественно, не обеспечивают учет этого эффекта Другие модификации связаны с усилением интенсивности адаптационных эффектов по мере удаления от бело- белого цвета, так, специфические эффекты возникают при большой яркости синей составля- составляющей источника света и т п В результате построено длинное и сложное выражение, в котором в основные уравнения, приведенные выше, добавляется ряд нелинейных чле- членов второго порядка (каждый из этих членов представляет какие-то конкретные экспе- экспериментальные данные) Вторая часть этой схемы, связанная с определением цвета ис- исходя из оценки белого цвета, получаемой описанным выше методом, формализуется просто Для определения цветового тона, который должен быть поставлен в соответст- соответствие точке (/■, g), следует лишь установить направление линии, соединяющей эту точку с точкой, характеризующей скорректированный белый цвет (/■„, gn), длина этой линии определяет насыщенность цвета В связи с этим подходом интересным является то обстоятельство, что введенные до- допущения обеспечивают успешный прогноз воспринимаемого цвета Отсутствует же в нем объяснение того, почему можно вводить также допущения и почему они обеспечи- обеспечивают правильный прогноз восприятия цвета в таком широком диапазоне условий Светлота и цвет в теории ретинекса Ланд и Макканн [129) положили в основу своей теории именно допущения о свойст- свойствах реального мира Она относится к плоскому миру так называемых мондриалов,ко- мондриалов,который, как мы уже убедились в гл 2, состоит из прямоугольных накладок, прикреплен- прикрепленных к большому куску плотного картона, который может освещаться различными способами (см рис 2 30) Первая часть этой теории посвящена качеству, которое Ланд и Макканн назвали светлотой, и в ней рассматриваются монохроматические изображе- 260
Рис З 82 Яркости двух отмеченных стрелками квадратов абсолютно одинаковы, и тем не менее одни из них воспринимается как значительно более темный по сравнению с другим [129] ния как раз такого рода Центральной они считают проблему разделения эффектов, свя- связанных с отражательной способностью поверхности, и эффектов, связанных с источни- источником света, поскольку, как давно известно, воспринимаемый человеком цвет поверхнос- поверхности в значительно большей степени отражает спектральные характеристики функции от- отражательной способности поверхности, чем спектральные характеристики света, попада- попадающего в глаза человека Как же можно разделить эти эффекты9 Какие именно характеристики могли бы иметь решающее значение, для того чтобы стало возможным разделение эффектов, вы- вызванных изменениями освещения, и эффектов, вызванных изменениями отражательной способности9 Ланд и Макканн предложили следующее изменения, связанные с освеще- освещением, в целом имеют постепенный характер, проявляясь обычно в виде гладких гради- градиентов освещенности, в то время как изменения, связанные с вариациями отражательной способности, проявляют тенденцию к резкости Эти дихотомия явно имеет место в изу- 261
чавшемся ими мире мондрианов, и, следовательно, если можно разделить эти два типа изменений, то можно разделить также эффекты, связанные с изменениями освещения, и эффекты, связанные с изменениями отражательной способности, работая с такими изображениями. На рис. 3.82 приведен пример, иллюстрирующий теорию Ланда и Макканна: это изо- изображение монохроматического мондриана, освещенного сверху. Яркость двух накладок, отмеченных стрелками, абсолютно одинакова, однако одна из них выглядит более тем- темной, чем другая. Если устранить эффекты, порожденные градиентом освещенности, то одна накладка действительно станет намного темнее другой. Утверждается, что именно эта информационная задача и решается в зрительной системе человека, а соответствую- соответствующий процесс назван обработкой информации в ретинексе. Алгоритмы Обработка информации в ретинексе реализуется по меньшей мере двумя способами. Сами Ланд и Макканн придерживались одномерного подхода, иллюстрация которого дана на рис 3.83, а. Если на изображении вдоль некоторого пути, соединяющего точки А и В, зарегистрировать значения яркостей, то их можно представить в виде первого гра- графика, на котором медленные изменения перемежаются с большими скачками, соответст- соответствующими границам, на которых происходят изменения отражательной способности. Ис- Использовав некоторое пороговое значение, можно исключить медленные изменения; в результате возникает второй график, отражающий лишь эффекты, связанные с измене- Измеренная яркость Br \J J\ у A— \ \ —r / Восстановленная яркость ■В а) Яркости изображения Вычисление последовательных разностей с помощью оператора, имеющего центрально-периферий- центрально-периферийную организацию Разделение по порогу Восстановление v*= v" + VftS v* Рис. 3.83. Схемы, иллюстрирую- иллюстрирующие алгоритмы работы ретинекса: а — одномерный алгоритм, предло- предложенный Ландом и Макканом; б — двухмерный вариант алгоритма, предложенный Хорном. Оба алго- алгоритма основаны на одном и том же принципе, согласно которому плавные изменения яркости не учитываются, а во внимание при- принимаются лишь нарушения непре- непрерывности 262
ниями отражательной способности. Поскольку система консервативна, не имеет значе- значения, какой именно путь между точками А и В выбирается - получаемые в результате описания эффектов, вызванных изменениями отражательной способности, будут всегда одними и теми же. Ланд и Макканн использовали этот метод, задавая достаточное число случайно выбираемых пугей на изображении, с тем чтобы был обеспечен учет всех точек изображения. Хорн [90] предложил двухмерный вариант этого же алгоритма, состоящий фактичес- фактически из все тех же трех шагов (этот алгоритм проиллюстрирован рис. 3.83, б). Первый шаг состоит в применении оператора вычисления последовательных разностей, который в данном случае имеет двухмерную центрально-периферическую организацию. После этого удаляются все малые значения и для дальнейшего рассмотрения оставляются лишь большие - соответствующие изменениям отражательной способности. И наконец, на основе лишь этих больших изменений проводится восстановление изображения, целью которого является построение двухмерного аналога второго из приведенных на рис. 3.83, а графиков. Для реализации этих процедур Хорном предложен интересный итера- итерационный алгоритм, основанный на методе ближайшего соседа и обеспечивающий вос- воспроизведение уравнений, представленных на рис. 3.83, б. Обобщение на случай цветового зрения Операции, схема выполнения которых приведена на рис. 3.83, иллюстрируют работу ретинекса в случае монохроматического зрения. Ланд и Макканн, обобщая идею рети- некса на случай цветового зрения, ввели условие независимости его работы по каналам красного, зеленого и синего цвета. В этом случае, как они предполагали, на выходе каж- каждого из каналов воспроизводится сигнал, зависящий не от освещения, а исключительно от отражательной способности поверхности. Объединение этих сигналов могло бы по- позволить добиться восприятия цвета, благополучно основывающегося исключительно на особенностях отражательной способности поверхности, а не на неверной природе источ- источника освещения. При этом, естественно, требуется попарная калибровка сигналов, по- поступающих по этим трем каналам, однако в этой связи Ланд и Макканн предложили назначать самую яркую точку сцены белой. Макканн, Макки и Тейлор [137] опубликовали результаты сравнения прогнозов, по- полученных с помощью этого алгоритма при предъявлении в качестве раздражителей мон- дрианов, и психофизических оценок цвета, данных испытуемыми, которым эти раздра- раздражители предъявлялись. Они установили, что согласие между оценками испытуемых и прогнозами было столь же хорошим, как и согласие между самими испытуемыми. Комментарии по поводу теории ретинекса Работа Ланда и Макканна кажется мне привлекательной в трех отношениях. Во-пер- Во-первых, они предприняли попытку создать подлинную теорию цветового зрения, а не прос- ю предложили некоторое описание процесса восприятия цвета. Во-вторых, они обратили внимание на значение границ и описали один из возможных способов распространения граничных эффектов по изображению. Такие эффекты известны давно, например иллю- иллюзия Крейка - Корнсуита или кольцо Бинасси, однако в явном виде граничные эффекты в уравнения Хелсона - Джадда не входят. В-третьих, в своей более ранней работе Ланд сформулировал интересный принцип, на важность которого обратил внимание Джадд, а именно: если цвета освещенных участков, образующих сцену, могут претерпевать только одномерные изменения, наблюдатель обычно воспринимает объекты такой сце- сцены как фактически лишенные преобладающего цветового тона. Возражения против теории ретинекса, судя по всему, сводятся к одному главному и нескольким второстепенным аргументам. Главный аргумент состоит в том, что за яв- 263
лением одновременного контраста стоит больше, чем содержится в теории ретинекса, т. е. модели, подобно модели Хелсона - Джадда основанные на явлении одновременно- одновременного контраста, позволяют давать объяснение эффектам Ландаи Макканна, а теория рети- ретинекса, предусматривающая исключение из рассмотрения градиента освещенности, не позволяет объяснять все эффекты, связанные с одновременным контрастом, поскольку последние проявляются особенно четко в случае равномерного освещения, когда гради- градиенты освещенности отсутствуют. Кроме того, Ланд и Макканн явно не всегда в своих экспериментах уделяли достаточное внимание эффектам одновременного контраста. Так, в частности, на рис. 3.82 один из квадратов окружен более темными "соседями", чем другой, так что можно предположить, что как раз на таком фоне они будут выгля- выглядеть по-разному. Во всяком случае восприятие яркости и восприятие цвета, очевидно, связаны по меньшей мере с несколькими эффектами, не укладывающимися в рамки подхода Ланда и Макканна. Одно из возможных объяснений этого заключается в том, что "дополнительные" эффекты определяются теми аспектами проблемы, которые Ландом и Макканном не рассматривались. Скажем, например, их теория относится только к плоским поверх- поверхностям, а эти дополнительные эффекты могут вводиться лишь для того, чтобы можно было рассматривать и более сложные варианты задачи, связанные с различными ориен- тациями поверхности в различных частях зрительного поля. Это, однако, маловероятно. Несомненно, трехмерность оказывает воздействие на восприятие яркости, но влияние ее, возможно, не очень велико. Гилкрист [61 ] указывал, что коэффициенты, учитываю- учитывающие влияние воспринимаемой ориентации на восприятие яркости, могут доходить до 0,3, однако Икэути [102], повторив его эксперименты, не смог получить коэффициенты, значения которых намного превышали бы 0,05 — 0,1. Первый из второстепенных доводов против идеи ретинекса имеет информационный характер: теория ретинекса предполагает наличие некоторого порогового значения (уров- (уровня градиента, при котором производится селекция изменений яркости), но не указыва- указывает, каким должно быть это пороговое значение. Однако печальный опыт говорит нам, что каждый раз, когда в задаче обработки изображений приходится задавать некоторое пороговое значение, возникают, как правило, проблемы (это одна из причин того, поче- почему столь привлекательна идея пересечений нулевого уровня). В данном случае пробле- проблема заключается в том, что при слишком низком значении порог не позволит исключить градиент освещенности; если же значение порога будет слишком велико, то это будет приводить к утрате ценной информации о затенении. Плавные изменения ориентации по- поверхности также порождают плавные изменения яркости на изображении, которые мо- могут представлять слишком большой интерес, для того чтобы непринужденно жертвовать ими. Могут быть важными также и плавные изменения окраски поверхности. В конце концов, радугу мы можем наблюдать, даже если она "увеличена" с помощью бинокля. Изменения цвета не исключаются посредством селекции по порогу. Второй второстепенный аргумент является плодом нейрофизиологических наблюде- наблюдений. Согласно теории ретинекса информация в красном, зеленом и синем каналах обра- обрабатывается независимо, причем каждый канал работаете соответствии со схемами,при- схемами,приведенными на рис. 3.83, и объединение происходит лишь впоследствии. Это, однако, не соответствует тому, что наблюдается. Обработка на нейронном уровне, очевидно, осно- основывается на принципе дополнительных цветов - выходные значения определяются раз- разностью результатов, получаемых пс двум цветовым каналам - непосредственно с само- самого начала. Даже в сетчатке большинство цветочувствительных клеток имеет оппонент- ную (в смысле реакции на дополнительные цвета) организацию [40]; кроме того, де Ва- луа и его сотрудники обнаружили существенную связь психофизических процессов, обеспечивающих различные цвета, с обнаруженными в эксперименте нейрофизиологи- нейрофизиологическими свойствами оппонентных нервных клеток наружного коленчатого тела. 264
Эти данные не опровергают той точки зрения, что функция ретинекса определяется обработкой информации в зрительном пути. Можно было бы возразить, как это сделал Хорн [90], что ретинекс может реализовываться на любой из трех линейных комбина- комбинаций выходов красного, зеленого и синего каналов с тем же успехом, что и на выходах отдельных каналов, причем такая модификация могла бы сделать теорию ретинекса совместимой с данными нейрофизиологических экспериментов. Этот довод, однако, не очень убедителен, особенно из-за того, что данная теория не дает достаточно убедитель- убедительных объяснений тому, почему операции над линейными комбинациями сигналов пред- предпочтительнее операций над отдельными сигналами. Некоторые физические обоснования важности явления одновременного контраста Широко распространена и освещена временем точка зрения (она восходит по меньшей мере к Эрнсту Маху), согласно которой цвет объекта определя- определяется соотношением световых потоков, отражаемых от различных частей зри- зрительного поля, а не их абсолютными значениями. Естественно, это и должно быть так, поскольку, несмотря на то что освещение сцены, сильно влияющее на спектральный состав ее изображения, время от времени и от одной ее час- части к другой резко изменяется, человек сравнительно нечувствителен к этим изменениям. Диапазон контрастности цвета, несомненно, ограничен — поку- покупая одежду, мы стараемся увидеть вещи при дневном свете или при свете обычных электрических лампочек, если магазин освещается лампами дневно- дневного света. Важно, однако, что, хотя механизмы зрительного восприятия позво- позволяют человеку лишь аппроксимировать реально существующее отражение, они делают это значительно более точно, чем воспроизводят количественный спектральный состав света, попадающего на сетчатку. Освещенность может изменяться очень резко даже в пределах одной сце- сцены, например от освещенности, создаваемой солнечным светом, до тени или от освещенности, создаваемой в большом зале вблизи источников света, до полумрака, царящего в самых дальних укромных уголках. Спектральные характеристики также изменяются, но обычно не столь существенно. Подде- Поддеревом свет зеленее, чем на открытом пространстве, а в устье пещеры он мо- может приобрести бурый оттенок. Таким образом, хотя основные изменения спектрального состава имеют временной характер, они могут происходить и в пределах одной сцены, причем это не оказывает заметного воздействия на человека. Каким же образом можно было бы учесть столь широкое разнообразие эффектов? Явление одновременного контраста1, по-видимому, могло бы найти отражение в анализе следующей ситуации. Допустим, вы идете по насы- насыпи, на которой среди зеленой травы и клевера растут желтые или синие цве- цветы. И хотя собственно спектральные характеристики света, отраженного от цветка, отнюдь нельзя использовать в качестве основы для определения ха- характеристик отражения его поверхности (ни в части ее светлоты, ни в части 1 Это явление выражается в том, что цвет или яркость одной области могут влиять на соседние области. 265
ее спектральных свойств), тем не менее на эти спектральные характеристики можно опираться, вероятно проводя сравнение с другими поверхностями, расположенными поблизости от данного цветка. Если кажется, что цветок светлее травы, то это, наверное, происходит в силу характеристик цветка, а не освещения (несмотря на то что головка цветка может даже поворачивать- поворачиваться, следуя за солнцем). Если цветок выглядит более синим, чем трава, то, возможно, это действительно так. Более того, особенно замечательное свойство эффектов, связанных с одно- одновременным контрастом (даже столь простых, что представлены на рис. 3.81, бив), — это "серьезность", с которой, по-видимому, зрительная систе- система к ним относится. Это выражается в том, что мы выбираем решения, ока- оказывающиеся неправильными, в ситуациях столь простых, как кольцо Бинас- си (см рис. 3.81, в), когда, как следует предполагать, практически любая разумная схема должна приводить к решению, отражающему объективное содержание ситуации. Я нахожу это положение столь поразительным, что у меня возникает искушение рассматривать сравнительные наблюдения как единственное, на что полагается человек. Даже и в этих обстоятельствах, для того чтобы схема решения, основан- основанная лишь на сравнительных данных, действовала успешно, необходимо пол- полностью разделить изменения, возникающие на изображении в результате из- изменений отражательной способности (типа различий между цветком и тра- травой) , и изменения, возникающие на изображении в результате изменений ос- освещения (типа тени, отбрасываемой расположенным поблизости деревом). Известно, что лужайка в тени выглядит темнее лужайки, лишенной тени, а маргаритка на солнце выглядит ярче маргаритки, находящейся в тени, одна- однако затенение не влияет существенно на цвет лужайки или маргаритки И зали- залитая солнцем, и находящаяся в тени маргаритки выглядит белыми, а находя- находящаяся в тени маргаритка (совершенно определенно) не выглядит серой. Для человека естественно воспринимать как более яркую маргаритку, залитую солнцем, чем находящуюся в тени. Из этого следует, что яркость яв- является субъективным качеством, связанным с интенсивностью основного ис- источника света. В то же время отражательная способность поверхностей более тесно связана с качественными характеристиками светлоты и цвета. Измене- Изменения светлоты — это в идеальном случае чисто скалярные изменения отража- отражательной способности поверхностей, не предполагающие каких-либо измене- изменений спектральных характеристик этих поверхностей (поддающихся обнару- обнаружению с помощью трех цветовых каналов), в то время как изменения цвета в идеальном случае связаны с изменениями спектральных характеристик по- поверхности и могут описываться двумя характеристиками — цветовым тоном и насыщенностью. Хелсон [82] иДжадд [109] определили термины яркость, светлота и цвет с чисто психофизических позиций, но я считаю, что данным ими определениям не противоречит отношение к ним как к перцептивным приближениям освещенности, а также абсолютного значения и спектрального распределения коэффициента отражения поверхности [109, с 3]. Следовательно, в информационном смысле проблема сводится к тому, каким образом можно разумно определить физические предпосылки для 266
Рис 3 84 Градиенты освещенности, порож- порождаемые исключительно освещением, обычно невелики и почти линейны оценивая яркости, светлоты и цвета по r + Аг изображению. В первую очередь следу- следует обратить внимание на то, что ориен- ориентация поверхности может влиять на яркость (согласно нашему определе- определению) , но, как правило, не на светлоту или цвет поверхности, поскольку при пАхР некоторых ориентациях поверхности свет будет достигать ее более непосредственным образом, чем при других. Таким образом, окончательное определение значений яркости приходится от- откладывать до тех пор, пока не будет оценена ориентация поверхности. Одна- Однако, как мы уже отмечали, до сих пор окончательно не установлено влияние трехмерности на восприятие яркости. Основным источником изменений яркости служат тени, и снова, как мы уже установили зто в разд. 2.4, они поддаются независимому обнаружению с помощью приемов, реализацией которых является оператор V/// Эти два явления — изменения ориентации поверхности и тени — служат основными источниками нарушения непрерывности по яркости, и поэтому при условии, что они учитываются должным образом, мы можем быть абсолютно уверены в том, что все остальные изменения источника света являются в основном гладкими, а не резкими. Обратимся к нашим очередным наблюдениям: 1) локально измеримые градиенты освещенности могут возникать на плоской поверхности только тогда, когда источник света находится не очень далеко; 2) эти градиенты освещенности малы, за исключением случаев, когда источник света находит- находится очень близко, 3) эти градиенты близки к линейным, за исключением, быть может, случаев, когда речь идет об участке поверхности, расположен- расположенном непосредственно под источником. Наши наблюдения проиллюстрирова- проиллюстрированы рис. 3.84. Освещенность в точке Р равна 1/г2, а в расположенной рядом точке Q она равна 1/г2 — 2х Ах/r 4 + 0A/г 4). Если значение Ах/х мало, то изменение освещенности при переходе из точки Р в точку Q пропорциональ- пропорционально —2Ддг/ и существенно линейно относительно Ах — расстояния между точками Р и Q при условии, что значение Ах мало по сравнению со значением х. Это, быть может, и служит одной из причин того, почему зрительная систе- система человека нечувствительна к малым линейным изменениям интенсивности света [28, с 153] Гипотеза обусловленности нелинейных изменений яркости свойствами поверхности Приведенные выше замечания позволяют предположить, что может ока- оказаться конструктивным следующий подход к установлению физическихпред- 267
посылок цветового зрения: при отсутствии резких изменений яркости, иден- идентифицируемых как границы тени или изменения ориентации поверхности, все нелинейные изменения яркостей могут быть поставлены в соответствие свойствам поверхности — либо ее ориентации, либо ее отражательной способ- способности. Другими словами, при отсутствии явных эффектов, связанных с осве- освещением (типа теней), все измеримые локальные различия в яркостях или спектральных характеристиках изображения определяются изменениями свет- светлоты или цвета поверхности. Такой подход позволяет пренебрегать малыми линейными изменениями яркости и дает обоснование представлению о том, что светлота и цвет могут определяться по измерениям нелинейных локаль- локальных изменений яркости и спектральных характеристик, выполняемых, на- например, посредством сравнения соответствующих значений в каждой точке изображения со значениями этих же величин в локальной окрестности точки. Следствия, касающиеся измерений на трехцветных изображениях Согласно физиологическим' данным некоторые оппонентные цветочувствительные клетки сетчатки обезьяны обладают рецептивными полями "комбинированного" харак- характера, например с красночувствительной центральной частью и зеленочувствительной периферией [67, 170J. Q п« по всему, нет оснований для того, чтобы оспаривать собст- собственно эти данные, однако мне в принципе очень трудно представить существование по- подобных нервных клеток и включить их в V2 G-схему, развитую нами в гл. 2. Дело в том, что нервная клетка, обладающая таким рецептивным полем (пример по- подобного рецептивного поля для удобства приведен на рис. 3.85, а), воспроизводит слож- сложную комбинацию пространственной и цветовой информации. Ее выходом не служит ни собственно результат v2 G-процедуры для одного цветового канала (как это имеет мес- место в случае, представленном на рис. 3.85, б, где рецептивное поле реализует V2 G-npo- цедуру для красного канала), ни чисто цветовая информация, характеризующая соотно- соотношение значений сигналов, получаемых по двум каналам для одной точки изображения, как это происходит в случае рецептивного поля, представленного на рис. 3.85, в. В сущ- сущности, на рис. 3.85, в представлен даже не оператор, реализующий метод нулевого сред- среднего: выходной сигнал не похож на вторую производную, а его пересечения нулевого уровня бессмысленны. При использовании такого рецептивного поля необходимо осо- особое внимание обращать на изменения значений выходного сигнала. Так, например, если подобному рецептивному полю с зеленочувствительной центральной частью и красно- чувствительной периферийной частью предъявляется лужайка, то разряд будет происхо- происходить по всей лужайке, причем несколько более интенсивным он будет в наиболее насы- насыщенных зеленых участках. Мне кажется, что такой способ плох не только с чисто "тех- "технической" точки зрения, но и противоречит нашему опыту в той части, что в нервной системе обычно кодируются не собственно абсолютные значения, а их изменения. Дру- Другими словами, этот способ является нарушением второго принципа Барлоу [9], пред- предусматривающего экономичное кодирование информации, содержащейся в раздражите- раздражителях в нервной системе. Для того чтобы сформулировать разумное предположение относительно того, какую информацию воспроизводят эти нервные клетки, мне кажется целесообразным объеди- объединить соображения двух типов. Во-первых, следует учесть, что для использования анали- анализа, основанного на V2 G-преобразовании, требуется идентичность спектральных характе- характеристик центральной и периферийной частей рецептивного поля, за исключением того, что их знаки должны быть противоположны. Это необходимо для того, чтобы имело смысл использовать пересечения нулевого уровня. 268
a) Возбуждающее рецептивное поле Тормозящее рецептивное поле б) R + G R-G R + G R-G Рис. 3.85. Возможные варианты организации цветовых рецептивных полей. Предполага- Предполагается, что пространственная организация полей соответствует разности двух гауссовских распределений: а — так называемое красно-зеленочувствительное оппонентное рецептивное поле; б — рецептивное поле с красночувствительной центральной частью и красночувствительной периферийной частью; в — красно-зеленочувгтвнтельное оппонентное рецептивное поле с идентичными пространственными распределениями для обоих цветов; г — рецептив- рецептивное поле, воспринимающее только яркость (сумму красного и зеленого сигналов) ; д — рецептивное поле, воспринимающее только разность цветов (разность красного и зеле- зеленого сигналов) ; е — двухмерное рецептивное поле, организация которого соответствует представленной на рис. 3.85, г; ж — двухмерное рецептивное поле, организация которого соответствует представленной на рис. 3.85, д. (Обозначения ./? —красный, G — зеленый.) Во-вторых, следует воспользоваться идеей разделения обработки информации о свет- светлоте и яркости и информации о цвете. Яркостные границы точно соответствуют изме- изменениям суммы сигналов, поступающих по красному и зеленому каналам (мы можем записать ее как (R + G) ). Для обнаружения этих границ следует применить к суммарно- суммарному сигналу оператор Ч1 G, как это показано на рис. 3.85, г. Кроме того, согласно гипоте- гипотезе, выдвинутой нами в предыдущем разделе, для обнаружения цветовых изменений сле- следует выделять относительные количественные изменения красного и зеленого цвета. Это может быть осуществлено с помощью применения V2 С-процедуры к разности красного и зеленого сигналов (/? - G), как это показано на рис. 3.85, д. Нервная клетка первого типа, рецептивное поле которой приведено на рис. 3.85, е, обладает не очень высокой цветочувствительностью, поскольку раздражителем, вызыва- вызывающим максимальный ответ, для нее служит белое пятно, расположенное в центре, а за- заторможена эта клетка может быть с помощью любой комбинации красного и зеленого 269
раздражителей в центральной и периферийной частях рецептивного поля. Единственным требованием при этом является уравновешенность эффективных яркостей. Второй тип клетки обладает совершенно иными свойствами. Для нее оптимальным раздражителем служит красное в центральной части рецептивного поля в сочетании с зе- зеленым в его периферийной части, и, следовательно, эта клетка принимает облик оппо- нентной цветочувствительной клетки. Такая клетка наилучшим образом будет отве- отвечать на изменения цвета и не будет давать вообще никакого ответа на предъявление чис- чисто белого пятна в центре рецептивного поля при условии, что красная и зеленая состав- составляющие сбалансированы в белом цвете должным образом. Такая клетка будет отвечать на появление цветовых границ и не будет отвечать на появление никаких иных границ. Для того чтобы такая клетка не реагировала на небелые границы светлоты (например, на границу между двумя красными участками, различающимися лишь долями, но не качеством отражаемого ими света), величины R и G должны выражаться в логарифми- логарифмических единицах. Эта клетка, таким образом, будет действовать как детектор чисто цве- цветовых изменений. Отметим также, что и операторы V2 G нечувствительны к линейным градиентам. Резюме Итак, изложенный подход основывается на отделении яркости от светло- светлоты и цвета, за которым следует разделение оценивания светлоты (доли от- отражаемого света в среднем) и цвета (спектрального распределения). Локаль- Локальные изменения можно определять по пересечениям нулевого уровня на свет- лотном изображении (R + G) и цветовом изображении (используя (R — G) и (В - G), где В - синий цвет). Основные нейрофизиологические выводы, следующие из этого, состоят в том, что ни в каких рецептивных полях не должны объединяться цветовые и пространственные изменения, как это показано на рис. 3.85, а; наоборот, должны существовать рецептивные поля типов, представленных на рис. 3.85, г (для восприятия изменений светлоты и яркости) и на рис. 3.85, д (для вос- восприятия цветовых изменений). Отрезки пересечений нулевого уровня могут зтгем выделяться аналогичным образом по результатам измерений обоих Т4пов,что дает возможность определять яркостные контуры по данным пер- первого типа и контуры цветовых переходов по данным второго типа. ЗЛО. ЗАКЛЮЧЕНИЕ В данной главе мы познакомились с некоторыми из поразительно разно- разнообразных способов кодирования в изображениях информации о поверхнос- поверхностях и рассмотрели, каким образом такую информацию можно реально из- извлекать из изображений (насколько это сегодня представляется возмож- возможным) . Как мы в настоящее время полагаем, в различных процессах, обеспе- обеспечивающих восстановление информации о поверхностях по изображениям, используются различные представления исходных данных. Простейшие из этих процессов (например, процесс, основанный на принципе избирательнос- избирательности по направлению) используют в качестве представления исходной инфор- информации пересечения нулевого уровня, а для более сложных (например, опери- оперирующих текстурой поверхности), возможно, требуются самые сложные варианты полного первоначального эскиза. Итоги нашего обсуждения под- подведены в табл. 3.2. 270
Таблица 3.2. Процессы, механизмы и объекты, обеспечивающие получение информа- информации о поверхности иа основе информации, содержащейся в изображении, и возможные представления исходной информации, используемые ими Процесс, механизм, лежащий в его основе, или объект анализа Возможное представление исходной информации Стереопсис Избирательность по направлению Восстановление структуры по движению Оптический поток Ограничивающие контуры Другие граничные признаки Контуры ориентации поверхности Контуры поверхности Текстура поверхности Контуры текстуры Затенение Главным образом ПНУ с учетом движения глаз, причем в качестве вспомогательного средства ис- используется ППЭ ПНУ ППЭ для установления соответствий; при рас- рассмотрении более тонких характеристик, возмож- возможно, только НПЭ ППЭ (?) (если этот процесс вообще использу- используется) НПЭ, КГ НПЭ НПЭ, КГ НПЭ, КО, СХОИ НПН, СХОИ КГ КО, НПЭ (возможно, и другие) Примечание. КГ — контуры границы, полученные с помощью процессов разделения и нелинейного укрупнения характерных объектов изображения; ППЭ — полный первона- первоначальный эскиз = НПЭ + СХОИ + КО + КГ; СХОИ — сгруппированные характерные объ- объекты изображения, полученные в результате применения процесса объединения к полно- полному первоначальному эскизу; КО — ко> уры освещенности (тени, блики и источники света); НПЭ — необработанный первоначальный эскиз (яркостные переходы, пятна, тонкие полосы, нарушения непрерывности и концы) ; ПНУ - пересечения нулевого уров- уровня, нарушения непрерывности и концы. Другой интересной особенностью этих процессов, помимо того, что все они используют несколько отличающиеся друг от друга представления исход- исходной информации, является то, что для их благополучного функционирования необходимо введение несколько отличающихся друг от друга допущений о внешнем мире. Как мы имели возможность убедиться, при использовании информации, содержащейся лишь в изображении, структура поверхности всегда оказывается существенно недоопределенной и искусство задания со- соответствующего процесса заключается именно в точном указании того, ка- какую именно дополнительную информацию можно безболезненно привлечь в форме допущений о свойствах внешнего мира; это и порождает достаточно сильные ограничения, необходимые для успешного функционирования про- процесса (скажем, условия единственности и непрерывности в стереопсисе, тре- требование жесткости при анализе движения и т.д.). Значительная доля искусст- искусства, требующегося для определения таких процессов, необходима для того, чтобы точно и правильно сформулировать эти дополнительные ограничения. 271
Таблица 3.3. Примеры вспомогательны* допущений, неявно используемых в про- процессах, обеспечивающих извлечение информации о поверхностях из изображений Процесс, механизм, лежащий в его основе, объект анализа или пред- представление Неявные допущения Необработанный первоначальный эскиз Полный первоначальный эскиз Стереопсис Избирательность по направлению Восстановление структуры по дви- движению Оптический поток Ограничивающие контуры Контуры поверхности Текстура поверхности Яркость и цвет Флуоресценция Допущение о совпадении в пространстве Различные допущения относительно пространст- пространственной организации функций отражения Условие единственности; условие непрерывности Условие непрерывности направления потока Допущение, предполагающее жесткость обектов наблюдения Допущение, предполагающее жесткость объектов наблюдения Гладкие и плоские источники контуров Локальная цилиндричность поверхности; плос- плоские источники контуров Равномерное распределение и равенство разме- размеров элементов поверхности Надежность только локальных сравнений Постоянный источник света В нашем обзоре речь шла и о процессах, которые мне кажутся определенны- определенными удачно, и о процессах, остающихся загадочными и довольно плохо опре- определенными. Основные допущения, использование которых предполагается в отдельных процессах, сведены в табл. 3.3, но читатель должен иметь в виду, что лишь немногие из них очевидны. Эту таблицу, следовательно, надо рас- рассматривать, скорее, как некоторый указатель, позволяющий ориентировать- ориентироваться в современных представлениях, чем как перечень точных формулировок, указывающих, что именно дает этим процессам возможность функциониро- функционировать. И наконец, еще несколько слов относительно стратегии исследований в данной области. Как мы видели, наблюдается поразительная разница в том, с какой ясностью и точностью мы в состоянии определять различные процессы. Некоторые из них, подобно стереопсису, восстановлению структуры по дви- движению и избирательности по направлению, отличаются простотой и четкостью, в то время как другие, подобно зрительному восприятию текстур и анализу контуров поверхности, по-видимому, запутаны в силу своей природы. Это положение не объясняется тем, что процессы первого типа требуют для пони- понимания меньших интеллектуальных затрат — в целом это не-так. Скажем, математический аппарат, используемый в связи с процессами стереопсиса или восстановления структуры по движению, не столь прост, как аппарат, связан- связанный со зрительным восприятием текстур. Аналитические трудности возника- 272
ют, скорее, при попытках установить, какие допущения о внешнем мире можно безболезненно вводить, чтобы облегчить процесс интерпретации изо- изображений этого внешнего мира. В тех случаях, когда это удается сделать ак- аккуратно, более или менее на основе изучения реального мира, в целом оказы- оказывается возможным построить хорошую теорию. В тех же случаях, когда это- этого сделать не удается, по моему мнению, не следует надеяться на достижение должного понимания этих процессов, до тех пор пока не будут обнаружены какие-то иные средства устанавливать, какие допущения о внешнем мире можно вводить безболезненно, а какие — нельзя, а также не будет разрешен связанный с этой проблемой вопрос о надежности различных разновидностей информации. В конечном счете все эти проблемы носят эмпирический характер и отно- относятся не столько к зрительной системе человека (хотя ответы на них должны быть отражены в структуре ее конструкции), сколько к статистической структуре видимого мира. Я думаю, что с этим придется согласиться, если, пытаясь разрешить эти проблемы, занять несколько более "техническую" по- позицию. По мере того как наши знания о способах реализации этих процессов предварительной обработки информации будут расти, мы будем создавать быстродействующие устройства, на которых эти процессы будут реализовы- ваться в истинном масштабе времени, и получим возможность таким доста- достаточно прямым способом получать более точные сведения о том, какие прие- приемы практически оправданны, а какие — нет. Изучение зрения представляет собой комбинацию изучения процессов и изучения внешнего мира, проводи- проводимых с таких довольно специфических позиций. Нечто в этом роде уже с очень давних пор делает естественная эволюция. Первым шагом должно стать построение некой единой системы, в которой были бы использованы все те процессы, которые в настоящее время нам по- понятны, однако очень многое еще предстоит сделать, до того как приступить к попыткам достижения даже такой ограниченной цели. Прежде всего реализа- реализация процессов типа построения необработанного первоначального эскиза тре- требует значительных вычислительных возможностей. Даже наиболее быстро- быстродействующие универсальные вычислительные машины работают на несколь- несколько порядков медленнее, чем требуется для воспроизведения зрения в истин- истинном масштабе времени. И хотя развивающиеся сейчас технологии изготовле- изготовления сверхбольших интегральных схем в конечном счете позволят использо- использовать необходимые для этого вычислительные мощности, соответствующие датчики и технология в настоящее время отсутствуют, и такое положение будет сохраняться еще в течение некоторого времени. Кроме того, естествен- естественно, остается еще одна проблема: что делать с информацией, появляющейся на выходе некоторого устройства, позволяющего реализовывать процессы, подобные описанным в данной главе. Именно этой проблемой мы сейчас и займемся. 273
ГЛАВА 4 НЕПОСРЕДСТВЕННОЕ ПРЕДСТАВЛЕНИЕ ВИДИМЫХ ПОВЕРХНОСТЕЙ 4.1. ВВЕДЕНИЕ В данной главе мы будем обсуждать проблемы и задачи, возникающие в связи с идеей 2,5-мерного эскиза, с которым мы уже встречались в разд. 3.3. Основной тезис прост: 2,5-мерный эскиз обеспечивает представление види- видимых поверхностей в координатах наблюдателя, позволяющее воспроизвести и объединить результаты всех процессов, описанных в гл. 3. Построение 2,5-мерного эскиза — это краеугольный камень нашей теории, последний этап перед интерпретацией информации, характеризующей поверхность, и, быть может, завершение процесса чистого восприятия. Возможно, читателя не удивит тезис о возможности существования подоб- подобного представления, как и то, что его построение может рассматриваться в качестве цели предварительной обработки изображений в зрительной систе- системе, особенно если учесть, что данная книга укладывается в рамки точно опре- определенной концепции. Вначале мы не располагали этой концептуальной схе- схемой и, пытаясь найти путь к пониманию того, что представляет собой зрение, были смущены, столкнувшись с трудностями чуть ли не философского пла- плана. Они возникли в связи с попытками определить, для чего предназначено восприятие. Читатель, который не сочтет за труд внимательно посмотреть работу [145], обнаружит, что в ней в явном виде не указывается, для чего предназначен первоначальный эскиз. Он обнаружит, что первоначальный эс- эскиз более или менее определен, имеет обоснование достаточно общего харак- характера и тесно привязан к реальностям физического мира. Идея же о том, что целью, ради которой в зрительной системе выполняется предварительная обработка информации, является получение в явном виде информации отно- относительно видимых поверхностей, проводится в этой работе лишь неявно. В то время, в сущности, машинное зрение пребывало в беспорядочном состоянии, поскольку (за исключением работы Хорна [91]) идея о том, что главным в зрении является определение форм объектов, еще всерьез не рас- рассматривалась. И хотя специалисты по психологии восприятия, подобно Гиб- сону, сознавали важность поверхностей, идея о некотором внутреннем пред- представлении, вырабатываемом в результате реализации каких-то специальных процессов, была чужда их мышлению. Оглядываясь назад, мы видим, что в наших взглядах и в характере вопросов, которыми мы задавались, царила изрядная путаница: нас интересовали проблемы, связанные с распознаванием по признакам, со способами выделения фигуры из фона, способами выделе- выделения и интерпретации "формы" или "фигуры", с возможностями управляемо- управляемого данными или восходящего анализа и необходимостью использования ни- нисходящих процедур. Кроме того, мы не располагали какой-либо единой структурой, которая давала бы нам возможность посмотреть, каким обра- образом такие процессы, как стереопсис, затенение или восприятие движения, могут сочетаться друг с другом, а также с другими свойствами зрения, по- порождая феномен, который мы называем способностью видеть. 274
Мышление такого типа было драматически "сметено" идеей 2,5-мерного эскиза, которая одновременно разрешила и эти, и многие другие проблемы. Она указала нам, в чем состоят цели предварительной обработки изображе- изображений в зрительной системе, и связала их с понятием внутреннего представле- представления объективной физической реальности внешнего мира, получение которо- которого предшествует разбиению сцены на объекты и другим обременительным процедурам, связанным с распознаванием объекта. В то же время эта идея обозначила пределы того феномена, который можно было бы назвать чистым восприятием — восстановление информации о поверхности исключительно с помощью управляемых данными процессов и при отсутствии необходимости в использовании конкретных гипотез о природе, назначении или функциях наблюдаемых объектов. И наконец, она явилась основой для получения об- общей постановки всей проблемы зрения в целом — концептуальной схемы, объяснению которой посвящена данная книга, позволившей за прошедшее с тех пор время придать нашему исследованию рациональную структуру, отра- отражающую принятую нами стратегию исследования. По всем перечисленным причинам появление осенью 1976 года идеи 2,5- мерного эскиза, впервые высказанной в статье Марра и Нисихары [151, рис. 2] и развитой более подробно несколько позже [148, разд. 3], стало для меня наиболее вдохновляющим событием за все исследование. Его первым непо- непосредственным следствием стала теория стереозрения [155], которая была со- создана в течение первой половины 1977 года. Годом позже началось построе- построение с новых позиций теории предварительной обработки изображений в зри- зрительной системе, и, конечно же, именно 2,5-мерный хкиз в конце концов привел нас к той общей концептуальной схеме, которой мы теперь располага- располагаем [148]. 4.2. СЕГМЕНТАЦИЯ ИЗОБРАЖЕНИЯ Вероятно, для того чтобы познакомить читателя с проблемой 2,5-мерного эскиза в целом, лучше всего описать тот тупик, ради преодоления которого он был предложен. Господствовавшее среди нейрофизиологов и психологов убеждение, что проблема фигуры и фона является для зрения одной из фун- фундаментальных, нашло отражение в попытках специалистов в области машин- машинного зрения реализовать некоторый процесс, называемый сегментацией. Смысл этого процесса в очень значительной степени близок идее выделения фигуры из фона, состоящей в разбиении изображения на области, выбор ко- которых определяется либо некоторой конкретной целью (в случае машинного зрения ею может оказаться, например, сборка водяного насоса), либо соот- соответствием этих областей реальным объектам или их частям. Несмотря на значительные усилия, затрачиваемые в течение длительного периода на решение этой проблемы, теория и практические приложения сег- сегментации продолжали оставаться на примитивном уровне по следующим двум причинам. Во-первых, было почти невозможно сформулировать на язы- языке изображений или даже реального физического мира, в чем точно состоят цели сегментации. Что такое, например, объект и что именно придает ему ту специфику, которая заставляет выделять его в качестве некоторой области 275
на изображении? Является ли объектом нос? Является ли объектом голова? Остается ли голова объектом, если она соединена с туловищем? А как об- обстоит дело с человеком, сидящим верхом на лошади? Эт.и вопросы свидетельствуют о том, что сложности, возникающие при по- попытках сформулировать, что именно следует на изображении выделять в виде некоторой области, разрастаются до уровня чуть ли н-е философской проблемы. На самом деле, ответов на такие вопросы не существует: все перечисленное может являться объектами, если Вы предпочитаете считать их таковыми, либо они могут служить некоторыми частями каких-то более крупных объектов (точный анализ этого факта проводится в гл. 5). Более того, даже если в каком-то конкретном случае ответы на такие вопросы были бы получены, это не очень помогло бы нам в других случаях. Довольно быстро обнаружилось, что, поскольку структура изображений чрезвычайно сложна, обычно оказывалось практически невозможно выделять искомую область, используя лишь критерии кластеризации, основанные на локальном сходстве или других чисто визуальных признаках и применяемые к яркос- яркостям изображения или каким-либо его представлениям типа необработанного первоначального эскиза. Области, обладающие "семантической" важностью, не всегда имеют какое-то определенное визуальное отличие. Большинство изображений чрезвычайно сложны, но даже простейшие и очень небольшие изображения, (как, например, изображение, на котором нет ничего, кроме двух листьев [145, рис. 13]) часто имеют матрицы яркостей, содержащие недостаточно информации для того, чтобы стало возможным разбиение изо- изображения на отдельные объекты. Сегментация, несмотря на отсутствие сколь бы то ни было точной форму- формулировки, определяющей ее содержание, продолжала оставаться предметом исследований, в которых использовались все более и более сложные методы. Достаточно долго считалось, что зрительное восприятие аналогично решению задач1 и потому, следовательно, должно быть связано с проверкой и коррек- коррекцией гипотез о наблюдаемом объекте. Эта точка зрения получила широкое распространение среди специалистов в области машинного зрения (см., на- например, [168]), и аналогичное положение было принято в психологии зрения (о чем свидетельствует монография [70]). Решающим отличием этого под- подхода от подхода, основанного на использовании ограничений (как это описы- описывалось в гл. 2 и 3), является то, что в решении задач используются дополни- дополнительная информация или гипотезы, имеющие не универсальный, а частный 1 В советской научной литературе для английского термина problem solving утвердил- утвердился термин "решение задач" (иногда можно встретить "решение проблем"), не совсем точно раскрывающий его содержание. Спектр вопросов, относящихся к направлению ис- искусственного интеллекта, называемому теорией решения задач, весьма широк. Обычно в него включают проблемы, связанные с организацией поиска в эвристических алгорит- алгоритмах, анализом деревьев поиска, использованием целей и подцелей, решением задач чело- человеком, соотношением вывода и инсайта, машинным доказательством теорем, использо- использованием дедуктивной логики при решении задач; иногда к этому направлению относят также программирование игр, обучение и распознавание образов (см., например, моно- монографию : Р. Бенерджи. Теория решения задач. Подход к созданию искусственного интел- интеллекта: Пер. с англ. - М.: Мир, 1972. — 224 с.). - Прим. ред. 276
характер и адекватные лишь для рассматриваемой или подобных ей сцен. Вместо того чтобы оперировать категориями типа жесткости объекта, мы ис- используем заключения следующего типа: черное пятно, расположенное на уровне стола, с высокой вероятностью является телефоном. Любая достаточно универсальная система зрения должна располагать очень большим числом таких гипотез в силу их специфичности и обладать способ- способностью отыскивать и раскрывать как раз те одну-две гипотезы, которые не- необходимы в конкретной рассматриваемой ситуации. Это и определяет всю сложность проблемы зрения, в которой основные вопросы, требующие от- ответа, связаны с тем, каким образом можно эффективно оперировать чрезвы- чрезвычайно большими объемами информации. Именно поэтому столько усилий было потрачено на разработку эффективных управляющих структур про- программ1 , обеспечивающих представление знаний, используемых при обработке зрительной информации. Между прочим, специалисты, работающие в других направлениях искусственного интеллекта, по тем же причинам считают пробле- проблему управления важной. Основное направление господствовавших в те времена идей сводилось, таким образом, к привлечению специализированных знаний о природе наблю- наблюдаемой сцены в качестве вспомогательного средства при сегментации ее изо- изображения на области, приблизительно соответствующие объектам, присутст- присутствие которых на сцене предполагается. Тененбаум и Барроу [226], например, использовали знания относительно нескольких различных типов сцен при сег- сегментации изображений ландшафта, служебного помещения, комнаты и ком- компрессора. Фройдер [50] воспользовался аналогичным подходом для иденти- идентификации на простой сцене молотка. Если бы этот подход оказался верным, то центральной проблемой зрения являлась бы подготовка соответствующе- соответствующего специализированного фрагмента знаний для использования его в необхо- необходимый момент в процессе сегментации. Так, работа Фройдера была, в част- частности, почти полностью посвящена созданию так называемой гетерархичес- кой системы управления, обеспечивающей такую возможность. Несколько позже по тем же самым причинам существенный интерес вызвал метод ре- релаксации, предложенный Розенфелдом, Хаммелом и Цакером [206]. Он пред- представляет собой метод оптимизации, позволяющий использовать при решении задачи сегментации ограничения, почерпнутые из самых различных источни- источников, причем управляющие процедуры, которые обеспечивают необходимую обработку информации, усложняются лишь в незначительной степени. Наша собственная работа, посвященная кооперативным алгоритмам, также несет легкий отпечаток надежд использовать их для объединения ограничений, по- почерпнутых из различных источников, и это послужило одним из стимулов для попыток разработки точных методов анализа сходимости таких алгорит- алгоритмов [152]. 1 Порядка взаимодействия подпрограмм в программе ЭВМ. 277
4 3 ПЕРЕХОД К НОВОЙ ПОСТАНОВКЕ ЗАДАЧИ Что же неверного было в идее сегментации? Наиболее очевидным изъя- изъяном, по-видимому, является то, что "объекты" и "искомые области" почти никогда не оказываются визуально простыми конструкциями и, следователь- следовательно, не могут быть выделены из первоначального эскиза или других аналогич- ХГ V" / 58 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 34 171 168 168 168 169 171 172 172 171 174 173 173 178 173 177 173 175 181 188 195 200 202 35 169 168 167 168 170 169 171 174 167 172 173 175 175 175 174 171 173 179 184 191 199 202 36 167 168 167 165 167 170 170 171 176 173 173 178 174 173 175 174 171 177 179 188 197 199 37 167 167 165 169 169 168 168 170 169 173 176 173 169 174 175 168 172 172 178 186 193 202 38 166 166 166 167 169 169 169 166 170 173 178 173 173 172 172 176 170 170 176 185 190 199 39 165 167 166 168 168 168 169 168 169 174 172 171 175 173 171 172 171 170 176 183 187 194 40 166 167 167 167 163 169 167 167 168 171 171 171 177 174 172 173 176 169 176 180 185 187 41 164 165 167 165 166 168 168 168 169 171 174 175 175 175 176 173 175 179 174 177 180 180 42 167 169 168 168 172 168 173 172 171 172 174 175 177 174 172 173 178 175 172 178 176 175 43 171 168 170 175 169 170 172 172 172 ГА 173 \Т 177 171 173 174 172 174 178 175 175 179 44 171 174 178 177 174 175 173 172 174 172 175 178 174 173 172 171 174 175 172 174 180 177 45 174 176 177 177 173 173 177 177 174 172 175 175 175 174 172 174 175 174 174 176 177 176 46 174 175 176 175 П5 175 174 179 173 172 175 174 176 175 173 П5 175 172 173 175 175 174 47 175 175 174 175 178 177 175 172 173 169 173 173 177 174 170 173 175 175 172 174 175 175 48 173 175 174 172 173 178 178 175 174 173 173 175 177 172 Д70 174 175 174 174 176 176 176 49 171 172 173 171 173 176 176 175 178 173 171 178 174 171 175 174 172 175 173 176 177 173 б) 278
ных представлений, фигурирующих на предварительном этапе обработки информации в зрительной системе, без привлечения дополнительных специ- специальных знаний Яркостные переходы, которым следовало бы быть заметны- заметными, либо полностью исчезают с изображения, либо исчезают с него почти пол- полностью (см., например, рис. 4.1), а в наибольшей степени на изображении обычно проявляются изменения освещенности, не имеющие никакого отно- отношения к отношениям, характеризующим содержание сцены. Если заданы не- некоторое представление типа первоначального эскиза и множество допусти- допустимых процессов отыскания границ, естественно с ним связанных, ю какие именно из множества допустимых границ следует прослеживать и почему9 Для получения ответов на эти вопросы было необходимо точно указать, какую информацию следует пытаться выделить из изображения, после чего сформировать некоторое представление для ее воспроизведения. Для того чтобы наши ответ на этот последний вопрос, следовало обратить- обратиться к основополагающим принципам, тек физическому содержанию ситуа- ситуации. Как мы уже несколько раз отмечали, основными факторами, определя- определяющими яркость изображения, служат 1) освещение; 2) геометрические свойства поверхности, 3) отражательная способность поверхности; 4) пози- позиция наблюдателя На одном из этапов обработки эффекты, обусловленные каждым из этих факторов, разделяются. Сущность подхода, таким образом, заключалась в следующем. Большая часть процессов, относящихся к предварительному этапу обработки инфор- информации в зрительной системе, выделяет информацию, касающуюся наблюдае- наблюдаемых поверхностей, непосредственно и независимо от того, составляют или нет они часть тела лошади, тела человека или ствола дерева. Именно эти поверх- поверхности (их форму и расположение относительно наблюдателя) и свойственные им отражательные способности необходимо перевести в явный вид на данном этапе обработки, поскольку от этих поверхностей отражаются фотоны, фор- формируя изображение, и, следовательно, именно они и являются теми объекта- объектами, о которых несут информацию фотоны. Иначе говоря, представление ви- видимых поверхностей должно быть получено прежде, чем будет установлено, принадлежит ли данная поверхность телу лошади, телу человека или стволу дерева Чго касается определения того, какие дополнительные знания необ- необходимо привлекать то должно быть вполне достаточно знаний общего харак- характера, т е. тех знаний общего характера, которые учтены в процессах предва- предварительной обработки информации в зрительной системе в качестве универ- универсальных ограничений в сочетании с геометрическими следствиями, вытекаю- Рис 4 1 Это изображение двух листьев интересно тем, что, несмотря на отсутствие вдоль всего яркостного перехода в пределах, обозначенных на рисунке прямоугольни- прямоугольником, изменений яркости, достаточных для полного восстановления этого яркостного перехода на основе одних знаний яркости, мы тем не менее без всяких усилий восприни- воспринимаем листья правильно В 1аблице приведены истинные значения яркости изображения на участке, ограниченном прямоугольником Поверхность на этом участке, однако, явно разрывна Эта ситуация может частично объясняться наличием процессов обеспечения -^ непротиворечивости, действующих в рамках 2,5-мерного эскиза 279
щими из факта одновременного существования этих поверхностей в трех- трехмерном пространстве. Был ли хоть какой-либо шанс за то, чтобы эта идея оказалась работоспо- работоспособна? Для того чтобы выяснить это, было необходимо рассмотреть три проблемы. Во-первых, что может значить "получить представление видимых поверхностей"? Ответ на этот вопрос требует в качестве предварительного условия проведения общей классификации представления форм объектов, чем мы займемся более тщательно в следующей главе. Во-вторых, следовало обратиться к данным психофизики, касающимся как процессов предвари- предварительной обработки информации в зрительной системе, рассмотренных в пре- предыдущей главе, так и того, имеются ли хоть какие бы то ни было сведения, подтверждающие, что результаты действия указанных процессов объединя- объединяются прежде, чем происходит интерпретация видимых поверхностей в качест- качестве обьектов. В-третьих, следовало обратиться к информационным аспектам задачи. В каком виде эти процессы предварительной обработки информации в зрительной системе приносят информацию о наблюдаемых поверхностях и. каким образом можно объединять всю эту информацию, поступающую из различных источников? При постановке задачи среднего уровня зрения часть работы сводится к изучению способов представления и рассмотрения поверхностей. Мы нач- начнем это изучение с обсуждения общих свойств представлений формы объек- объектов. Какие разновидности таких представлений известны и каким образом можно выбирать среди них? Хотя построение вполне универсальной класси- классификации представлений форм объектов — задача трудная, мы уже определи- определили три основных пункта, по которым следует принимать решения при фор- формировании некоторого представления формы объекта и которые главным образом и определяют ту информацию, воспроизведение которой в явном виде обеспечивает соответствующее представление. Во-первых, каков тип системы координат, используемый в представлении: привязывается ли пред- представление к наблюдателю или к наблюдаемому объекту? Во-вторых, каков характер непроизводных элементов формы объекта, используемых в соот- соответствующем представлении, т. е. элементов, местоположение которых долж- должна задавать выбранная система координат? Являются ли эти непроизводные элементы двух- или трехмерными, каковы их размеры и сколь детально они определены? И наконец, третья характеристика отражает организацию пред- представления, которая придается информации, включаемой в описание: пред- представляется ли она, например, в плоскостном виде подобно матрице яркос- яркостей изображения либо имеет некоторую иерархическую структуру подобно полному первоначальному эскизу, рассматривавшемуся в гл. 2? И первая проблема, возникающая при задании системы координат, и вто- вторая, связанная с определением непроизводных элементов формы объектов, имеют совершенно очевидные решения. Система координат должна быть при- привязана к наблюдателю, а непроизводные элементы формы объекта должны быть двухмерными и должны указывать ориентацию соответствующих ло- локальных участков поверхности. Дело в том, что вся информация, приноси- приносимая всеми рассмотренными в гл. 3 процессами предварительной обработки 280
информации в зрительной системе, зависит от различных особенностей про- процесса формирования изображения, например оценок глубины или ориентации поверхности относительно наблюдателя, и потому естественно укладывается в систему координат, ориентированную на наблюдателя. Кроме того, все эти процессы сообщают информацию о видимых поверхностях, причем обычно только локальную, и, таким образом, представление должна получать именно эта информация, причем обычно только локально. Имеет смысл рассмотреть эти проблемы более глубоко. 4.4. ИНФОРМАЦИЯ, ПОДЛЕЖАЩАЯ ПРЕДСТАВЛЕНИЮ Зрение, как мы уже убедились, служат источником нескольких видов ин- информации о форме объекта. Наиболее непосредственную информацию о фор-* ме дают стереопсис и движение, но почти столь же эффективны и контуры поверхности, зарегистрированные на отдельном изображении; кроме того, нам встречались примеры и других, менее эффективных способов передачи информации о форме объекта. Часто оказывается, что отдельные части сцены доступны для изучения одними из методов, а другие части — другими. Сколь- Сколько бы ни были отличны эти методы, все они обладают двумя важными общи- общими свойствами: имеют дело с информацией, извлекаемой из изображения, а не с априорными занятиями о формах наблюдаемых объектов и информация, получение которой они обеспечивают, относится к глубине или ориентации поверхности в произвольных точках изображения, а не к глубине или ориен- ориентации, характеризующим некоторые конкретные объекты. Рассматривая стереоскопическое изображение какой-либо сложной по- поверхности, например истлевшей рассыпающейся газеты или "лиственного" куба Иттелсона [104], представляющего собой коробку, к стенкам которой прикреплены листья, направленные прямо к наблюдателю, мы без труда оп- определяем ориентацию любого участка поверхности, а также и то, ближе или дальше от наблюдателя расположен выбранный участок поверхности по срав- сравнению с соседними участками. Тем не менее запоминается форма поверхнос- поверхности плохо, несмотря на то что воспринимается она очень четко. Более того, если поверхность содержит элементы, расположенные почти параллельно ли- линии прямой видимости, их ориентация, воспринимаемая при наблюдении одним глазом, может отличаться от ориентации поверхности, воспринимае- воспринимаемой при наблюдении двумя глазами. Читатель может убедиться в существовании такого явления, воспользовав- воспользовавшись комнатой с текстурированным потолком. Если рассматривать такой потолок через узкую трубку одним глазом, то очень скоро начнет казаться, что любая часть потолка, видимая через трубку, ориентирована под прямым углом относительно линии прямой видимости. Это впечатление является очень устойчивым, несмотря на то что Вы совершенно ясно сознаете его ложность. Эти наблюдения позволяют нам сделать несколько простых заключений. 1. Каждой точке поверхности, присутствующей на любой сцене, соответст- соответствует по меньшей мере одно внутреннее представление глубины или ориента- ориентации поверхности либо в той и другой. 281
2. Поскольку ориентация поверхности может ставиться в соответствие формам объектов, которые незнакомы наблюдателю, представление ориента- ориентации, возможно, предшествует разбиению сцены на отдельные объекты. 3. Поскольку воспринимаемая ориентация произвольного элемента по- поверхности может изменяться в зависимости от того, ведется ли наблюдение одним или двумя тазами, то, вероятно, представление ориентации поверх- поверхности почти полностью определяется процессами восприятия и на него лишь в незначительной степени влияет конкретное знание того, какова ориентация рассматриваемой поверхности на самом деле. С этим же может оказаться связанной и та особенность, что человек способен воспринимать поверхность намного лучше, чем запоминать результаты ее восприятия. 4. Кроме юго, представляется вероятным, что одно и то же представление ориентации поверхности может отражать влияние различных источников ин- информации. Для того чтобы наиболее эффективно использовать эти различные и часто взаимно дополняющие процессы порождения информации, их необходимо каким-то способом объединить. Соответствующая информационная пробле- проблема: как это сделать наилучшим образом? Ее естественным решением служит отыскание некоторого представления зрительно воспринимаемой сцены, обеспечивающего воспроизведение в явном виде именно той информации, которую могут давать эти процессы. К счастью, физическая интерпретация искомого представления очевидна. Все эти процессы позволяют получать информацию, характеризующую глу- глубину или ориентацию поверхностей, присутствующих на некотором изобра- изображении, а эти характеристики являются строго определенными физическими величинами. Нам, следовательно, требуется способ, позволяющий переводить эту информацию в явную форму, хранить ее соответствующим образом, и, возможно, вводить в представление любое физическое условие, выполняю- выполняющееся для тех значений глубины и ориентации поверхности, которые могут принимать эти характеристики у поверхностей, встречающихся в реальном физическом мире. В табл. 4.1 приводится перечень тех форм воспроизведения информации, получение которых из изображения может обеспечить различные процессы, действующие на предварительном этапе обработки информации в зрительной системе. Интересно отметить в связи с этим, что, хотя процессы типа ciepeon- сиса и движения в принципе позволяют получать информацию о глубине не- непосредственно, более вероятно, что реально они воспроизводят информацию о локальных изменениях глубины, например, с помощью измерения локаль- локальных изменений значений диспаратности. Контуры поверхности и затенение обеспечивают получение более непосредственной информации об ориентации поверхности. Кроме того, данные, характеризующие наложение, яркость и размеры, могут служить информацией о нарушениях непрерывности по глу- глубине. Основной фнукцией нашего искомого представления, следовательно, является не только воспроизведение в явном виде информации о глубине, локальной ориентации поверхности и нарушениях непрерывности по этим характеристикам, но также формирование и хранение некоторого глобально- 282
го представления глубины, совместимого с локальными данными, поступаю- поступающими по указанным информационным каналам. Мы называем такое пред- представление 2,5-мерным эскизом и в следующем разделе опишем одну из его возможных реализаций. Таблица 4.1. Наиболее естественные формы воспроизведения информации об изме- изменениях геометрических свойств поверхности, которую позволяют получать процессы предварительной обработки информации в зрительной системе Процесс, механизм, лежащий в его основе, или объект анализа Стереопсис Избирательность по направлению Восстановление структуры по движению Оптический поток Ограничивающие контуры Другая информация о наложении и загораживании Контуры ориентации поверхности Контуры поверхности Текстура поверхности Контуры текстуры Затенение Естественная форма воспроизведения информа- информации Диспаратность, т. е. 8 г , Аг и s Ar г , 8r , Ar us 1r us Ar АГ As s Вероятно, г Ar и s 5s и As Примечание, г — относительное значение глубины (в прямоугольной проекции); Ьг — непрерывные или малые локальные изменения г ; Аг — нарушения непрерывности по г ; S — локальная ориентация поверхности; 8S — непрерывные или малые локальные изменения S; As — нарушения непрерывности по S. 4.5. 2,5-МЕРНЫЙ ЭСКИЗ В ОБЩЕМ СЛУЧАЕ Для того чтобы дать пример какого-либо представления, которое можно использовать в качестве основы для более подробного рассмотрения его уст- устройства, я начну с описания первоначального варианта представления, ориен- ориентированного на наблюдателя (в этом смысл термина эскиз) и использующего непроизводные элементы поверхности только одного (малого) размера. Этот вариант предусматривает представление нарушений непрерывности кон- контуров поверхности, причем его внутренняя информационная структура раз- развита в степени, достаточной для хранения в совместимом виде описаний глу- глубины, ориентации поверхности и нарушений непрерывности поверхности. Для представления глубины можно воспользоваться скалярной величиной г — расстоянием от соответствующей точки поверхности до наблюдателя. Нарушения непрерывности поверхности можно представлять с помощью ориентированных элементов прямых. Как мы уже убедились, ориентацию по- поверхности можно представлять как некоторый вектор (р, q) двухмерного 283
Рис. 4.2. Второй пример 2,5-мерного эскиза (пер- (первый см. на рис. 3.12), в данном случае имеющего вид куба» Ориентация поверхности представляется стрелками, как и в случае, иллюстрируемом рис. 3.12 Ограничивающие контуры изображены сплош- сплошными линиями, а нарушения непрерывности по ори- ориентации поверхности — точечными линиями. Глуби- Глубина на рисунке не показана, хотя считается, что дан- данное представление позволяет получать приближен- приближенное впечатление о глубине пространства, что эквивалентно покрытию изображения иголками. Длина каждой из таких иголок определяет отклонение (или наклон) поверхности в данной точке, так что нулевая длина соответствует поверхности, расположен- расположенной перпендикулярно вектору, проведенному от наблюдателя в эту точку, причем длина иголки увеличивается по мере отклонения поверхности от на- наблюдателя. Ориентация иглы определяет наклонение поверхности, т. е. на- направление отклонения поверхности. Этот способ представления проиллюст- проиллюстрирован рис. 4.2; он аналогичен заданию пространства градиентов в каждой точке поля зрения. В принципе связь глубины и ориентации поверхности очевидна: первая яв- является просто интегралом от второй, взятым по областям, ограниченным на- нарушениями непрерывности поверхности. Таким образом, можно получить представление, информационная структура которого обеспечивает совмест- совместность хранения двух переменных — глубины и ориентации поверхности. Сле- Следует, однако, отметить, что в любой схеме такого рода нарушения непрерыв- непрерывности поверхности требуют специального подхода (подобно кривым, ограни- ограничивающим области интегрирования). Более того, если данное представление имеет активный характер и обеспечивает непротиворечивость, главным обра- образом посредством локальных операций, то кривые, обозначающие нарушения непрерывности поверхности (например, контуры, источниками которых яв- являются ограничивающие контуры), не должны иметь никаких разрывов, с тем чтобы была невозможна "утечка" интегрирования через какую бы то ни было точку границы объекта. Интересно, что этим свойством обладают субъективные контуры и что они тесно связаны с субъективными изменения- изменениями яркости, которые часто ставятся в соответствие изменениям воспринима- воспринимаемой глубины. Если система обработки зрительной информации, имеющейся у человека, включает некоторое представление, напоминающее 2,5-мерный эскиз, то было бы интересно узнать, входят ли в него субъективные контуры. Подводя итоги обсуждения 2,5-мерного эскиза, отметим, что его полез- полезность определяется тем, что он обеспечивает представление в явном виде ин- информации об изображении, причем в форме, хорошо соответствующей той информации, которая может порождаться процессами предварительной обра- обработки информации в зрительной системе. В таком случае, формулируя цели 284
предварительной обработки информации в зрительной системе, мы можем в качестве первостепенной цели указать построение этого представления. Так, например, в качестве конкретной цели можно было бы назвать определение ориентации поверхности на некоторой сцене, контуры которых в первона- первоначальном эскизе соответствуют нарушениям непрерывности поверхности и, следовательно, должны быть представлены в 2,5 мерном эскизе, и контуры которых в первоначальном эскизе отсутствуют и, следовательно, должны быть включены в 2,5-мерный эскиз таким образом, чтобы обеспечивалась не- непротиворечивость со структурой трехмерного пространства. Такая постанов- постановка позволяет обойти все трудности, возникающие в связи с категориями фигура и фон, область и объект, т. е. трудности, неизбежные в рамках подхо- подхода, основанного на сегментации изображения. В рамках же описанного под- подхода, идет ли речь о тоновой матрице яркостей, о первоначальном эскизе, об отдельных модулях предварительной обработки информации в зрительной системе или, наконец, о собственно 2,5-мерном эскизе, всегда требуется лишь определение свойств поверхностей, присутствующих на изображении. Это схематическое изложение общей идеи порождает множество вопросов, касающихся деталей, и некоторые из них мы обсудим в следующих разделах. Предупредим, однако, читателя, что ему не следует рассчитывать на получе- получение очень точных ответов. Наши знания начиная с этого момента становятся значительно менее конкретными, чем это было до сих пор. К сожалению, я в состоянии сообщить лишь нечто, мало выходящее за пределы некоторой кон- концептуальной схемы, в рамках которой следует ставить эти вопросы. Она тем не менее также обладает определенной ценностью, несмотря даже на то, что не может удовлетворить нашу потребность в получении окончательных от- ответов. Итак, имеет смысл придать этому описанию несколько более точную форму, чем оно имело до сих пор в процессе обсуждения 2,5-мерного эскиза. 4.6. ДОПУСТИМЫЕ ФОРМЫ ПРЕДСТАВЛЕНИЙ До сих пор психофизика всерьез и специально 2,5-мерным эскизом не за- занималась, и потому нам очень мало известно о нем, причем неизвестно даже, существует ли он на самом деле, в том смысле, как это предполагается в рамках нашего подхода к зрению. Основные вопросы тем не менее сформу- сформулировать нетрудно. Что именно представляется и каким образом? Какой именно должна быть система координат (даже сказав, что она должна быть привязана к наблюдателю, Вы оставляете еще много возможностей для вы- выбора)? И возможно, самый трудный вопрос: какого рода обработка инфор- мации.выполняется в самом представлении -либо для того, чтобы обеспечить его собственную внутреннюю непротиворечивость, либо для того, чтобы обес- обеспечить его совместность с той организацией, допустимость которой определя- определяется трехмерностью структуры реального мира? Первый вопрос звучит следующим образом: какая именно информация о поверхности воспроизводится в явном виде? Представляются ли, например, и глубина г , и ориентация поверхности s, или в действительности в представ- представление вводится лишь г, а ориентация поверхности определяется при возник- возникновении необходимости с помощью локального дифференцирования? Либо 285
a) б) Рис. 4.3. Эксперименты со стереограммами с большими значениями диспаратности. носги, при котором он в сосюянии одновременно добиться слияния как переднего плана, ляют2° (в), 2,25° (б), лишь ориентация поверхности представляется в явном виде, а глубина опре- определяется каким-то образом с помощью локального интегрирования? Эту воз- возможность принять значительно труднее, но она определенно отлична от пре- предыдущей. Наилучший довод в пользу представления в явном виде какой-либо функции типа расстояния от наблюдателя дает теория сгереопсиса. Максимальный диапазон значений диспаратности, одновременно поддающихся восприятию без возникновения диплопии, остается одним и тем же в четырех достаточно различающихся случаях. Во-первых, при стабилизации изображения1 Фендер и Джулес [47], предъявляя стереограммы, образо- 1 Изображения удерживаются на сетчатке в фиксированном положении, так что дви- движения глаз не оказывают никакого влияния. 286
в) г) Читатель может попытаться самостоятельно определить наибольшее значение диспарат- так и фона. При наблюдении с расстояния 20 см диспаратности этих стереограмм coctae- 2,5° (в) и 2,75° (г) ванные случайными конфигурациями точек, получали фигуру с размерами порядка 2°. Во-вторых, при отсутствии какой бы то ни было стабилизации (т. е. при нормальных условиях наблюдения) получен приблизительно такой же диапазон. При использовании сложных стереограмм, предложенных Джулесом [113, например, рис. 4.5-3], и наблюде- наблюдении с расстояния около 20 см диапазон значений диспаратности имеет приблизительно тот же порядок; если же смотреть на эти стереограммы со значительно более близкого расстояния, то все они оказываются вообще "не видны". В-третьих, в настоящее время кажется маловероятным, что максимальный диапазон одновременно воспринимаемых диспаратностей существенно зависит от их распределения. Читатель, воспользовавшись рис. 4.3, может непосредственно убедиться в том, что фигура с размерами порядка 2°, которая воспринимается при стабилизации изображения и при обычных условиях на- наблюдения стереограмм с непрерывно изменяющимися диспаратностями, сохраняется 287
также и в случае стереограмм с единственной диспаратностью. И, в-четвертых, в услови- условиях "любительского" эксперимента, проводимого с помощью собственных пальцев и реальных поверхностей, Вы получите аналогичную фигуру. Из этих примеров следует, что фигура с размерами порядка 2° для максимального диапазона одновременно воспринимаемых диспаратностей характеризует, очевидно, общий случай (при условии, что имеется достаточно пространства.для крайних значе- значений диспаратности) и что эта фигура не зависит от движения глаз. Трудно понять, каким образом буферное запоминающее устройство, в котором хранится только ориентация поверхности, могло бы реализовывать подобное ограничение, и поэтому я считаю, что значения глубины (быть может, только приближенные значения) в какой-то форме за- запоминаются, причем значения, которые запоминаются, соответствуют значениям диспа- диспаратности порядка 2 - 2,25°. Вторая группа доводов в пользу явного представления глубины в той или иной форме связана со значением нарушений непрерывности по глубине. Определенные процессы предварительной обработки информации в зрительной системе могут давать информа- информацию о таких нарушениях непрерывности, причем некоторые из них — лишь в качествен- качественном виде. Наиболее значительной, вероятно, является роль процессов, связанных с нало- наложением, некоторыми границами на текстурах, границами диспаратности, а также с изби- избирательностью по направлению (см. табл. 4.1). О важности субъективных контуров сви- свидетельствует четкость их восприятия. Если глубины расположения двух поверхностей очень сильно различаются, то субъективно мы, по-видимому, прекрасно отдаем себе отчет в этом, несмотря даже на то, что их ориентации абсолютно одинаковы. Доводы обоих типов указывают на наличие некоторой формы представле- представления глубины. В этой связи возникает одна интересная проблема: соизмерим ли диапазон значений одновременно воспринимаемых глубин в случае види- видимого движения с возможностями восприятия посредством стереозрения.Ни один из приведенных доводов не предполагает, однако, что информация о глубине должна храниться с высокой точностью, как должно было бы быть в случае формирования первоначального представления. В отдельном случае не составляет труда, опираясь на информацию, полученную при анализе движе- движения или стерео пейсе, определять, расположена ли некоторая точка впереди другой точки. Если же, однако, мы попытаемся сравнить расстояния, отделя- отделяющие нас от двух поверхностей, которые располагаются в различных частях поля зрения, то хорошего результата мы не получим: человек выполняет такое сравнение значительно менее точно, чем сравнение ориентации таких поверхностей. В результате возникают сомнения в том, что глубина является основной представляемой переменной, что ее значения, принадлежащие определенному диапазону, запоминаются точно и что она подвергается дифференцированию при необходимости определить ориентацию поверхности. Кроме того, еще более веские доводы свидетельствуют против такой возможности. Дело в том, что многие из процессов, перечисленных в табл. 4.1, порождают инфор- информацию об ориентации поверхности непосредственно, а не опосредованно — через информацию о глубине. Наиболее очевидными примерами служат про- процессы, связанные с контурами поверхности, затенением и контурами, харак- характеризующими нарушения непрерывности по ориентации поверхности. В сущ- сущности, однако, и стереопсис, и процесс восстановления структуры по движе- движению лучше приспособлены для получения информации о локальных измене- 288
ниях, чем об абсолютных значениях глубины: стереопсис — в связи с тем, что, по-видимому, мозгу редко бывает известно точное абсолютное значение угла конвергенции глаз и он обычно работает с изменениями этих значений; что касается процесса восстановления структуры по движению, то, поскольку со- соответствующий анализ проводится локально и предусматривает использова- использование ортогональной проекции, в результате воспроизводятся лишь локальные изменения глубины. Таким образом, существуют серьезные основания счи- считать, что оба указанных процесса очень хорошо приспособлены для получе- получения информации об ориентации поверхности, и, вероятно, правильнее видеть их назначение именно в этом, а не в том, чтобы в первую очередь определять расстояние до наблюдателя. И наконец, ориентация поверхности может определяться очень точно: с точ- точностью до 1—2° во всем диапазоне допустимых ориентации [221, приложение В]. Вывод об использовании человеком явного представления ориентации поверхности не основывается целиком на убедительных данных Стивенса, но, учитывая слабые возможности человека по определению глубины, я полагаю, что это — важный факт, и потому, если бы такого представления не сущест- существовало, это потребовало бы специального объяснения. Вывод, который я делаю на основании изложенных доводов, заключается в том, что человек, по-видимому, использует внутреннее представление вели- величины s и г , причем, если величина s может представляться весьма точно, то величина г представляется лишь со значительным приближением. У человека также могут иметься средства для более точного представления локальных различий по глубине, служащих дополнением к используемому человеком представлению ориентации поверхности. 4.7. ДОПУСТИМЫЕ СИСТЕМЫ КООРДИНАТ Вероятно, теперь нам следует перейти к проблеме системы координат. Мы уже отмечали, что такая система должна быть ориентирована на наблюдателя, однако и в этом случае еще остается несколько вариантов выбора. Первый и наиболее существенный момент заключается в том, что все обсуждавшиеся нами процессы естественным образом привязаны к координатам сетчатки, как это показано на рис. 4.4, а. Относительная глубина и ориентация поверх- поверхности определяются вдоль линии прямой видимости наблюдателя и по отно- отношению к ней, а не относительно какой-либо внешней системы координат. Таким образом, мы чуть ли не форсированно должны считать (по крайней мере сначала), что результаты, приносимые каждым из таких процессов, представляются в некоторой системе координат сетчатки. Кроме того, следует помнить о том, что координаты, определяемые отно- относительно линии прямой видимости наблюдателя, для него не очень удобны. При использовании такой системы координат нелегко установить, одинакова ли ориентация двух поверхностей или является ли некоторая поверхность плоской. В этом случае все время требуется учитывать угол, под которым располагается линия прямой видимости наблюдателя (как это видно из рис. 4.4, а), причем это осложнение усугубляется влиянием движения глаз. 289
/s, а) Рис. 4.4 В полярных координатах, привязанных к сетчатке для измерения ориентации поверхности естественно использовать угол, образованный этой поверхностью и линией прямой видимости наблюдателя. Таким образом, двум параллельным поверхностям 5, и S2 соответствуют различные углы в, и в2 с противоположными (в данном случае) знаками (д). Значительно более удобным является представление, которое предусмат- предусматривает отсчет всех углов от прямой, направленной прямо вверх (б). В таком случае не- нетрудно определить, параллельны ли две поверхности и являются ли они плоскими, вы- выпуклыми или вогнутыми Второй существенный момент, который следует из первого, состоит в том, что, хотя ббльшая часть процессов предварительной обработки информации в зрительной системе, обеспечивающих получение информации об ориентации поверхности, дает ее применительно к положению линии прямой видимости, каждый процесс может при этом использовать собственный способ. При стереопсисе, как мы видели выше, естественное предпочтение отдается раз- раздельному определению вертикальной и горизонтальной составляющих ориен- ориентации поверхности просто из-за того, что горизонтальное расположение глаз обеспечивает разделение вертикального и горизонтального направлений. В процессах, связанных с контурами поверхности и текстурной информацией, предпочтение отдается представлению в категориях отклонение — направле- направление наклона поверхности типа того, что было рассмотрено в разд. 3.6 и 3.7. С информацией, получаемой в процессе восстановления структуры по движе- движению, в этом отношении дело обстоит, вероятно, аналогично тому, как оно обстоит с информацией, связанной с контурами поверхности. Итак, э качестве резюме отметим, что существует несколько различных способов; представления ориентации поверхности в системе координат сетчат- сетчатки, причем в различных процессах предварительной обработки информации в зрительной системе могут использоваться несколько отличающиеся друг от друга способы представления первоначальных приближений действительных ориентации поверхности. Третий момент определяется наличием у человека центральной ямки сет- сетчатки глаза. Анализ различных частей поля зрения производится при некото- некотором заданном направлении взгляда с очень различным разрешением. Следо- Следовательно, в зависимости от того, о какой части зрительного поля идет речь, существенно изменяются объем памяти или размеры зоны буферного запо- 290
минающего устройства, необходимые для фиксации результатов функциони- функционирования процессов предварительной обработки информации в зрительной системе, причем потребности в памяти в зоне центральной ямки сетчатки оказываются значительно выше, чем в периферийной зоне сетчатки. Таким образом, появляется еще один довод в пользу системы координат сетчатки, поскольку при использовании системы координат, которая учитывала бы и движения глаз, разрешение, соответствующее центральной ямке сетчатки, должно было бы обеспечиваться по всему зрительному полю. Использование таких роскошных ресурсов памяти было бы расточительством — они не явля- являются необходимыми и идут вразрез с нашим собственным опытом восприя- восприятия, поскольку в противном случае человек оказался бы в состоянии форми- формировать такое впечатление о внешнем мире, которое было бы повсюду столь же детальным, как и по направлению взгляда. И наконец, момент, связанный с проблемой непротиворечивости. Мы уже отмечали, что процессы предварительной обработки информации в зритель- зрительной системе могут функционировать в значительной степени независимо друг от друга, причем одни части зрительного поля являются областью приложе- приложения одних процессов, а другие — других. Следовательно, возникает проблема обеспечения непротиворечивости различных типов информации, а также про- проблема назначения приоритетов, точно отражающих надежность отдельных процессов, т. е. назначения приоритетов, таким образом, чтобы при получении противоречивой информации из нескольких источников предпочтение отда- отдавалось информации, поступившей из "наилучшего" источника. Эта проблема непротиворечивости, как совершенно очевидно, должна быть разрешена на возможно более ранней стадии обработки информации в зрительной системе, поскольку до тех пор, пока она существует, вся получаемая информация не может быть сведена в единственное представление. Эти четыре замечания ведут к двум выводам. Во-первых, информация, по- поступающая из различных источников, очевидно, подвергается проверке на непротиворечивость и объединяется с помощью некоторой системы коорди- координат сетчатки. Так происходит потому, что вся информация воспроизводится в такой форме, и подобный способ ее представления, учитывающий, помимо всего прочего, повышенную информативность зоны центральной ямки сет- сетчатки,, наилучшим образом соответствует возможностям процессов получе- получения этой информации. Во-вторых, на этом этапе, вероятно, осуществляются определенные преобразования системы координат, целью которых является представление информации, поступающей от различных процессов, в некото- некотором стандартном виде, и, возможно, также учет угла наблюдения. Пример соответствующего преобразования приведен на рис. 4.4, б, где все углы оп- определяются относительно прямой, направленной прямо вперед (от наблюда- наблюдателя) , а не относительно локальной линии прямой видимости. Подобное пре- преобразование, во-первых, облегчает вычисление предикатов, характеризую- характеризующих такие свойства, как плоскостность,| выпуклость и вогнутость; во-вторых, обеспечивает простоту сравнения ориентации поверхностей, "расположенных" в различных частях поля зрения; в-третьих, открывает возможности для уче- учета движения глаз. 291
4.8. ИНТЕРПОЛИРОВАНИЕ, ПРОДОЛЖЕНИЕ И НАРУШЕНИЯ НЕПРЕРЫВНОСТИ Проблемы, к обсуждению которых мне хотелось бы перейти, возникают в связи с тремя различными типами психофизических экспериментальных данных. К первому типу относится наблюдение, впервые подробно изученное Уайтом [252]; оно состоит в том, что человек "видит" стереограммы, образованные случайными конфигурациями точек, даже при низкой плотности заполнения B—3 %) как изображения некоторой не- непрерывной поверхности, а не как набор изолированных точек. Читатель может убедить- убедиться в этом, обратившись к приведенной на рис. 3.8 стерео грамме с 5 %-ной плотностью за- заполнения. При ее наблюдении возникает очень отчетливое впечатление твердой поверх- поверхности. У нас создается уверенность в том, что все точки расположены на одной и той же глубине: они явно выделяются на прозрачной во всех остальных отношениях поверх- поверхности; эта поверхность - плоская, а ее ориентация ясно видна. Данное явление не будет казаться таким уж удивительным, если вернуться к теории стереопсиса, рассмотренной в разд. 3.3; дело в том, что пересечения нулевого уровня, которым поставлены в соот- соответствие значения диспаратности, покрывают не все изображение - на его большей части пересечений нулевого уровня вообще не имеется (см., например, рис. 3.14). По- Поэтому следует предполагать, что при этом используется какая-то разновидность процеду- процедуры заполнения Отметим, кстати, что кооперативный стереоалгоритм, результаты приме- применения которого проиллюстрированы рис. 3.7, включает в качестве составной части про- процесс заполнения, и это было одной из причин его первоначальной привлекательности для нас. Э Гримсон [71] рассмотрел заполнение (или задачу интерполирования) в психофи- психофизическом и информационном аспектах и обнаружив, что зрительная система оказалась чрезвычайно консервативной в отношении "размера" заполнения, выполняемого ею при отсутствии дополнительных данных Он предложил ряд стереограмм (типа приведенной на рис 4.5), в которых и плотность размещения точек, и значения диспаратности умень- уменьшаются по мере приближения к центру, как это показано на рисунке. Вопрос состоит в следующем: каким образом (если это вообще происходит) наблюдатель заполняет об- область, в которой отсутствуют точки?*Два из трех возможных вариантов заполнения при- приведены на рис. 4.5, в. вариант А предусматривает заполнение прямой линией с постоян- постоянным значением диспаратности, вариант В (на рисунке не показан) - выполнение неко- некоторого гладкого интерполирования, при котором две поверхности соединяются без нарушения непрерывности по ориентации поверхностей, вариант С - линейное продол- продолжение поверхностей вплоть до их пересечения Для того чтобы выяснить, что именно воспринимает наблюдатель, следует поместить тестовое пятно в промежуточную область с различными значениями диспаратности и по- попросить наблюдателя сказать, находится оно выше или ниже того места, "где проходит поверхность" Гримсон установил, что при таких условиях восприятие оказывается не очень четким: хотя испытуемые уверенно справляются с вариантами А и С, они прояв- проявляют нерешительность относительно положения пятна в варианте В Они никогда не сообщают о каких бы то ни было нарушениях непрерывности по ориентации поверхнос- поверхности. Гримсон пришел к выводу о том, что, хотя, по-видимому, какое-то интерполирова- интерполирование имеет место, проблема в целом не столь проста. Несколько позже мы рассмотрим ее информационные аспекты. Другой аспект нашей проблемы, который я буду называть продолжением, лучше все- всего проиллюстрировать с помощью стереопары, предложенной Э. Уиткином и представ- представленной на рис 4.6. Эта стереограмма воспринимается как два прямоугольника А я В, наложенных на целостный прямоугольник, включающий части Сх, С2 и С3. Любопыт- Любопытной особенностью этого эксперимента служит то, что информацию о стереоскопической диспаратности могут давать лишь вертикальные прямые Таким образом, области А, В, 292
, * « v* ••» .'_** 4 ^ *.#.- - ■ ** ч * • V*" * * " a) 10 Освещенность Диспаратность V/ б) Рис. 4 5. Сгереограмма (а) характеризуется распределением плотности размещения то- точек (б) и распределением значений диспаратности, показанным сплошными линиями (в). Такую ствреограмму можно использовать для того, чтобы с психофизических позиций выяснить, прибегает ли человек к интерполированию для заполнения разрывов, и если прибегает, то каким образом он его выполняет9 Два допустимых варианта интерполиро- интерполирования показаны штриховыми линиями (в) Рис 4 6В данной стереопаре область С2 наблюдается на той же самой глубине, что и об- области С1 и С3, несмотря на отсутствие характеристик диспаратности, позволяющих определять глубину расположения области С2 293
Рис. 4.7. Криволинейный субъективный контур может быть образован двумя окружностями с центрами в точках С\ и С2; каждая из этих окружностей гладко продолжает контур в соответствующей исходной точке (точки А и В), а в точке Г происходит их гладкое соединение. Субъектив- Субъективный контур включает ту из бесконечного множества пар окружностей, которая обеспечивает минимальную кри- кривизну продолжения С1 и С3 содержат точки, в которых значения диспаратности определены, и тот факт, что мы видим каждую из них как отдельную поверхность, относится лишь к проблеме интер- интерполирования. Для области С%, однако, такая информация отсутствует. То, что этой облас- области приписывается та же глубина, что и областям С, и С3, должно, следовательно, являть- являться результатом какого-то процесса продолжения, действующего "позади" наложенных плоскостей А и В. Для данного эксперимента решающее значение имеет точное выравни- выравнивание горизонтальных яркостных переходов областей С1, С2 и С3. Это эквивалентно тому, как если бы точное выравнивание этих переходов на двухмерном изображении по- позволяло наблюдать их в качестве проявления одного и того же нарушения непрерывнос- непрерывности поверхности в трехмерном случае, что, в свою очередь, позволяло бы видеть поверх- поверхность С2 на той же глубине, что и поверхности С, и С3. Аналогичный вывод, вероятно, можно сделать, опираясь на эксперименты, поставленные Н. Уайсстайн [246]. Она предъ- предъявляла смещающуюся решетку, закрывала ее центральный прямоугольный участок и тем не менее обнаруживала эффекты адаптации даже в пределах этого участка. Из этих экспериментов следует, что при использовании для представления поверх- поверхностей системы координат наблюдателя может возникнуть возможность одновременно- одновременного представления более чем одной поверхности. Может также оказаться существенным то, что в соответствующим образом построенных стереограммах, образованных случай- случайными конфигурациями точек (подобных приведенной на рис. 3.19, б), возникает воз- возможность одновременно и ясно наблюдать две поверхности. Мне самому не удается ви- видеть одновременно три поверхности (ср. с монографией Джулеса [113, рис. 5.7-1 ]), хотя, быть может, есть люди, которые в состоянии сделать это. И наконец, существует проблема нарушений непрерывности по глубине и ориентации поверхности. Нарушения непрерывности по глубине уже упоминались нами в связи с вариантами продолжения в примере, приведенном на рис. 4.6, а также в связи с явлени- явлением возникновения субъективных контуров. В обоих случаях непрерывность и гладкость (минимальная кривизна), по-видимому, являются важными критериями. Уллман [233] с феноменологических позиций провел изучение формы криволинейных субъективных контуров и установил, что ее можно точно представить с помощью двух окружностей (по одной на каждую точку-источник), между которыми должно быть построено глад- гладкое соединение (рис. 4.7) . Из бесконечного семейства пар окружностей, удовлетворяю- удовлетворяющих указанному условию, выбирается пара, позволяющая получить минимальную кри- кривизну соединения. Уллман описал также локальную сеть, обеспечивающую порождение" формы такого типа. Хотя форма таких контуров вполне ясна, нам мало известно относительно условий, при которых она возникает, за исключением достаточно общих соображений о необхо- необходимости данных о наложении в сочетании с монокулярными данными, более или менее непосредственно характеризующими точное местоположение нарушения непрерывности. Оба эти вида информации в несколько различных вариантах содержатся в треугольнике 294
Канижа (см. рис. 3.81, д), изображении солнца, образованном радиальными прямыми (см. рис. 2.25, б), и стереограмме, образованной случайными конфигурациями точек с 5 %-ным заполнением (см. рис. 3.8), в которой собственно "точки" содержат короткие вертикальные отрезки яркостных переходов. Эта тема заслуживает дальнейшего иссле- исследования с психофизических позиций. 4.9. ИНФОРМАЦИОННЫЕ АСПЕКТЫ ПРОБЛЕМЫ ИНТЕРПОЛИРОВАНИЯ С информационной точки зрения прежде, чем приступать к детальному планирова- планированию психофизических экспериментов, необходимо разрешить две проблемы. Первая связана с понятием нарушения непрерывности, а вторая — с различными вариантами интерполирования. Нарушения непрерывности Хотя различия между непрерывными и разрывными изменениями на континууме очевидны, в тех случаях, когда выборочное пространство дискретно, эти различия ста- становятся трудноуловимыми. Мы уже дважды сталкивались с этой проблемой - первый раз при обнаружении нарушений непрерывности по ориентации пересечений нулевого уровня, т. е. когда, строго говоря, такие нарушения возникать не могут, и второй раз в связи с алгоритмом светлоты Ланда и Макканна [129]. В обоих случаях предусмотрено введение некоторой пороговой величины. В первом случае в качестве основы для него используется та точка, в которой "реальное" нарушение непрерывности (источник) перестает быть различимым с очень резким изменением кривизны. Положение этой точ- точки зависит от размера рецептивного поля соответствующего канала; в результате то, что каналы с рецептивными полями меньших размеров могут "воспринимать" как глад- гладкость, каналы с рецептивными полями больших размеров могут "воспринимать" как нарушения непрерывности. Разрешение выборочного пространства в любом случае действительно налагает огра- ограничения на то, что можно считать непрерывным изменением. Допустим, например, что в одномерном случае исходное представление включает значения, разделенные некоторы- некоторыми промежутками б. В таком случае согласно теореме Котельникова - Шеннона данное представление не может включать полную информацию о процессах, частота которых превышает, скажем, тг/б = П. Следовательно, это представление в частотной области, в сущности, ограничено частотой П. Далее, хотя сигнал, полоса частот которого ограничена сверху частотой П, можно точно представить его выборочными значениями, разделенными промежутками б, это никак не гарантирует того, что такой сигнал будет соответствовать всем выборочным точкам, в которых будут заданы произвольные значения. Иначе говоря, если выбороч- выборочные значения изменяются слишком быстро, сигнал в целом может выйти за пределы ширины полосы частот, используемой для его представления. При возникновении такой ситуации представление автоматически приписывает соответствующее изменение нару- нарушению непрерывности просто потому, что не располагает возможностями, необходимы- необходимыми для учета тех изменений, которые имеют место на самом деле. Это обстоятельство точно отражается в теореме Бернштейна, утверждающей, что производная функции с ограниченным спектром не может принимать слишком большие по сравнению со значе- значением самой функции значения. Если/(х) — некоторая функция, полоса частот которой ограничена сверху частотой П, а/(х) - ее производная, то теорема утверждает, что supl/'Oe) I <П sup I/(*) I, т. е. максимальное значение модуля производной \ fix) I при любых значениях х не пре- превышает максимального значения П\ f(x) I. 295
Это — фундаментальное ограничение; оно действует во всех тех случаях, когда пред- предпринимается попытка представлять некоторую информацию дискретно (на дискретной решетке). В связи с этим особенно примечательно то, что зрительная система человека не в состоянии представлять синусоидальные сигналы с учетом их глубины, если частота таких сигналов превышает 3-4 периодов/град в центральной ямке сетчатки [231]. Это ограничение, возможно, помогает понять, почему субъективные контуры не возникают или видны не очень отчетливо, если Вы смотрите на них прямо, и видны значительно более отчетливо, когда Вы смотрите на них не прямо. Возможно также, что разрешаю- разрешающая способность представления уменьшается с увеличением эксцентриситета; таким образом, то, что допускает представление в центральной ямке сетчатки как очень высо- высокий градиент, при предъявлении с большим эксцентриситетом должно представляться как некоторое нарушение непрерывности. Как мы убедились в разд. 3.3, стереопсис иногда может давать вполне определенные данные о нарушении непрерывности поверхности Если, например, относительное значе- значение изменения диспаратности по горизонтали в одном из глаз достигает 1, то другой глаз в этом случае воспринимает нарушение непрерывности по глубине. Слабо заполнен- заполненные изображения, однако, часто не содержат информации, достаточной даже для того, чтобы установить этот факт При восприятии у Вас может возникнуть не очень опреде- определенное ощущение того, что диспаратность действительно изменяется, но Вы не можете точно сказать, где именно. Если при предъявлении стереограмм, образованных случай- случайными конфигурациями точек со слабым заполнением, оказывается, что два квадрата располагаются вдоль границы диспаратности, то возникают отчетливые субъективные контуры и граница ясно видна. Если же, однако, в стереограмме квадраты заменены, на- например, размытыми пятнами, то восприятие нарушения непрерывности становится зна- значительно менее определенным. Хотя все эти наблюдения не выходят далеко за пределы чистых гипотез, они действи- действительно служат свидетельствами консервативности процесса интерполирования, а также и того, что зрительная система весьма неохотно вводит контуры нарушений непрерывнос- непрерывности как по глубине, так и по ориентации поверхности, за исключением тех случаев, когда само изображение оказывается источником достаточно объективной информации об их расположении. Контур может проявляться не по всей своей длине, но маловероятно, чтобы по всей его длине совершенно отсутствовали всякие зрительно воспринимаемые проявления его существования. Э. Гримсон сформулировал это положение в виде сле- следующего афоризма: позиции, в которых нет информации, - это на самом деле позиции, в которых информация есть. Другими словами, нарушения непрерывности скрыть не- невозможно, и справедливо также и обратное: если изображение не дает вообще никаких данных относительно наличия какого-либо нарушения непрерывности, причем на тех участках, где можно было предполагать существование яркостного перехода, отсутству- отсутствует даже хотя бы один его фрагмент, то в таком случае можно не постулировать наличие нарушения непрерывности Таким образом, в тех ситуациях, когда непосредственные признаки намеренно устранены, как это сделано на рис. 4.5, мы не можем с полной оп- определенностью ни вводить контуры, ни интерполировать поверхности и, следовательно, результат восприятия, с которым мы остаемся, отличается зыбкостью и неопределен- неопределенностью Методы интерполирования Упоминания заслуживают три основных метода интерполирования. 1) линейное ин- интерполирование глубины г ; 2) линейное интерполирование ориентации поверхности; 3) интерполирование методом "обтекаемой поверхности" (этот метод используется при конструировании автомобилей для придания кузову гладкой формы). Очень приблизи- приблизительно первый метод аналогичен тому обратному преобразованию, с которым мы уже 296
встречались в предложенном Хорном алгоритме ретинекса [90]. Этот метод предусмат- предусматривает минимизацию значения оператора Лапласа V3 на соответствующей поверхности. Второй метод предусматривает приближенную минимизацию кривизны поверхности в любой заданной вогнутой или выпуклой области. (Это следует из того, что кривизна / = — div п, где div п - дивергенция п\ п — нормаль к поверхности, и локальное усредне- усреднение п практически обеспечивает минимизацию значения div п.) Недостатком обоих мето- методов в случае реализации их на некоторой решетке является медленная сходимость — в сущности, ее скорость обратно пропорциональна квадрату расстояния между узлами решетки. Мне уже доводилось выше высказывать свои сомнения относительно исполь- использования итерационных методов при обработке информации, связанной с восприятием (см. разд 3.2 и 3.5). Третий метод интерполирования, который Гримсон предпочитает двум первым, ос- основан на использовании понятия обтекаемой поверхности, т. е. поверхности с непрерыв- J. • у в) 4 - * * * , * ■ * в) . .Д. Рис. 4.8. Изображение, порожденное стереопарой (а); результаты его свертки с V2 G- фильтрами с рецептивными полями четырех различных размеров (б-д соответственно) ; картины пересечений нулевого уровня, полученные в результате указанной фильтрации (е-и); две проекции карты диспаратностей, полученные в результате установления со- соответствий между изображениями стереопары (к, л); изображения поверхностей, полу- полученные в результате применения к этой информации алгоритма интерполирования, пред- предложенного Э. Гримсоном (м, н) 297
й?- ■• к) ШШЙй ^#ШЩЙ1 л) Af) 298 Рис. 4.8 (окончание)
ными первой и второй производственными, а в производных третьего и высшего поряд- порядков допускающей разрывы Известны методы, обеспечивающие в результате однократ- однократного применения заполнение промежутков между тремя соседними точками и связыва- связывание разрывных мест таким образом, чтобы обеспечивалась гладкость производных про- произвольного высшего порядка Отказ от условия непрерывности для производных выше второго порядка основан на наблюдениях специалистов по автомобильному дизайну, сводящихся к тому, что покупатель замечает нарушение непрерывности формы поверх- поверхности лишь по первой и второй производным, а на третью уже не обращает внимания. На рис 4.8 приведены результаты применения одного из методов заполнения такого ро- рода к изображению, порожденному стереопарой Из этого примера следует, что метод по- позволяет получать гладкое изображение, которое радует глаз. Что же касается проблем соотношения этих рассуждений информационного характе- характера с тем, каким образом человек на самом деле обнаруживает нарушения непрерывнос- непрерывности или заполняет разрывы поверхностей (в том ограниченном диапазоне возможностей выполнения этих операций, которыми он обладает), то их разрешение - дело будущего. 4 10 ДРУГИЕ ИНФОРМАЦИОННЫЕ ПРОЦЕССЫ, ДЕЙСТВУЮЩИЕ В РАМКАХ 2,5-МЕРНОГО ЭСКИЗА Понятие непрерывности поверхности может, как мы уже в этом убедились, послужить источником разнообразных процессов обработки информации, действующих в рамках 2,5-мерного эскиза, в том числе процессов заполне- заполнения разрывов и гладкого продолжения, применяемых к нарушениям непре- непрерывности. Можно полагать, что в таких процессах подобным же образом учи- учитываются и иные локальные ограничения, например условия непротиворечи- непротиворечивости, определяющие допустимое расположение поверхностей друг относи- относительно друга в трехмерном пространстве, типа условий, сформулированных в явном виде Уолцем {241, рис. 1 — 3]. Подобные ограничения в конечном счете могут послужить основой для понимания таких явлений, как трансфор- трансформация куба Некера. Исходя из такой точки зрения естественным выглядит возникновение в результате стереоскопического слияния многих иллюзий, связанных с интерпретацией трехмерной структуры (куб Некера, субъектив- субъективные контуры, иллюзия Мюллера — Лайера, иллюзия Поггендорфа и т. п.) [113, 19]. Иллюзии типа "перевернутое ведро" (см. рис. 5.9) также частич- частично возникают в силу этих же причин, поскольку непрерывность поверхности ведра играет решающую роль в том, чтобы оно воспринималось должным образом. В связи с этим возникают интересные вопросы: какой объем обра- обработки приходится на операции, выполняемые в самом 2,5-мерном эскизе, и какой ее объем приходится на этап преобразования этого промежуточного представления в трехмерное представление того типа, которое человек сохра- сохраняет в памяти (см. следующую главу)? Такие иллюзии, как треугольник Пен- роуза, целый ряд изображений, созданных Эшером, и даже трансформирую- трансформирующаяся фигура, изображенная на рис. 4.9, служат, вероятно, примерами прояв- проявления совместного воздействия нескольких эффектов — частично локальных, относящихся к 2,5-мерному эскизу, а также других, возникающих в связи с тем, что по набору локальных проекций не удается построить целостную не- непротиворечивую трехмерную интерпретацию. 299
Рис. 4.9. Странные трансформации этой фигуры, возможно, как и трансформации куба Некера, определяются ограничениями, включенными в 2,5-мерный эскиз И наконец, еще одно замечание, кото- которое может показаться странным. Почему должны происходить трансформации куба Некера при включении его в стереограмму, образованную случайными конфигураци- конфигурациями точек? Можно было бы сказать, что поскольку стереопсис однозначно приписы- приписывает все яркостные переходы некоторой плоскости, то соответствующая фигура должна восприниматься, как двухмерная, а не трехмерная. Я полагаю, что лучше все- всего считать все контуры 2,5-мерного эскиза с трудом поддающимися трехмерной интер- интерпретации. Не имеет значения то обстоятельство, что включены они в 2,5-мер- 2,5-мерный эскиз по результатам процесса стереопсиса, а не заимствованы, напри- например, из первоначального эскиза. ГЛАВА 5 ПРЕДСТАВЛЕНИЕ ФОРМ ОБЪЕКТОВ ПРИ РАСПОЗНАВАНИИ 5.1 ВВЕДЕНИЕ Мы приступаем к заключительному и, возможно, самому замечательному из разделов нашей программы — преобразованию представлений форм объ- объектов, ориентированных на процессы восприятия, в представления форм объектов, удобные для использования в процессах распознавания. При этом возникает много проблем, требующих исследования. В данной главе, написан- написанной главным образом по материалам работы [151], затрагиваются лишь не- некоторые из них, причем в самой ограниченной степени. Тем не менее принци- принципиальные положения иногда наиболее четко выявляются при схематическом изложении, и основное внимание здесь будет посвящено тому, что именно предопределяет пригодность представления для его использования в дальней- дальнейшем при распознавании. В связи с этим нам придется заняться обсуждением того, что представляет собой распознавание и как оно происходит. Наиболее важным в данном случае является то, что нам теперь придется отказаться от удовольствия использовать систему координат наблюдателя, на применении которой основывались все представления, до сих пор рассматри- рассматривавшиеся, из-за неразрывной связи таких представлений с процессами фор- 300
мирования изображения. Для распознавания объекта необходимо устойчивое описание его формы, которое если и зависит от положения наблюдателя, то лишь в очень небольшой степени. Это, в свою очередь, означает, что элементы формы объекта и способы их соединения должны описываться не примени- применительно к положению наблюдателя, а в системе координат, в основе которой лежит собственно форма. Замечательным следствием этого условия служит то, что каноническая система координат1 должна быть задана на объекте до того, как будет описана его форма, причем, по-видимому, не существует способа обойти это требование. Для некоторых форм объектов, скажем фор- формы сигары, это сделать нетрудно, для других же, например "формы" ском- скомканной газеты, - нелегко. Итак, перейдем к детальному рассмотрению этих проблем. Я буду пользо- пользоваться термином форма для обозначения геометрической организации по- поверхности физического тела. Так, две статуи лошади, отлитые с помощью одной и той же литейной формы, имеют одинаковую форму. Представление формы - это некоторая формальная схема, предназначенная для описания формы объекта или ее отдельных аспектов, в сочетании с правилами, указы- указывающими порядок применения этой схемы при представлении формы любо- любого конкретного объекта. Я буду называть описанием формы в соответствую- соответствующем представлении результат применения этого представления к заданному объекту. Такое описание может характеризовать форму объекта как при- приближенно, так и во всех подробностях. 5.2. ПРОБЛЕМЫ, ВОЗНИКАЮЩИЕ В СВЯЗИ С ПРЕДСТАВЛЕНИЕМ ФОРМЫ Известно много видов информации, получаемой зрительным путем и иг- играющей важную роль в задачах распознавания и разделения объектов. В их числе особое место занимает информация о форме объекта, так как в отли- отличие от информации о цвете и зрительных текстурах для представления боль- большинства видов информации о форме объекта необходимо использовать ка- какую-либо систему координат, позволяющую описывать пространственные от- отношения. Так, например, информация, позволяющая различать по форме фи- фигурки животных, приведенные на рис. 5.1, заключена в пространственном расположении, ориентации и длине частей щеточек для чистки трубок, из ко- которых эти фигурки сделаны. Аналогичным образом, поскольку левая и пра- правая руки зеркально симметричны друг относительно друга, для того, чтобы описание формы руки позволяло устанавливать, относится ли оно к левой или к правой руке, оно должно тем или иным способом определять взаим- взаимные расположения большого и указательного пальцев. Критерии эффективности представления формы объекта Форма объекта характеризуется рядом совершенно различных аспектов, причем одни из них играют в распознавании более значительную роль, чем Система координат, которую однозначно определяет собственно форма объекта. 301
Рис 5 1 Эти фигурки, составленные из частей щеточек для чистки трубок, иллюстриру- иллюстрирует несколько положений, развиваемых в данной главе Представленные формы объекта для получения описания, подходящего для использования при распознавании, не должно воспроизводить форму поверхностей объекта. Как следует из данного рисунка, формы тел животных удается вполне эффективно отобразить с помощью соответствующего подбора пространственного расположения и относительных размеров небольшого числа кусочков щеточек Простота этих описаний объясняется соответствием, имеющим место между изображенными на рисунке кусочками щеточек и естественными (канонически- (каноническими) осями форм описываемых объектов Представление формы объекта для использо- использования при распознавании должно иметь в своей основе характеристики, которые одно- однозначно определяются соответствующей формой и могут быть надежно найдены по изо- изображениям соответствующего объекта [151] другие, и один и тот же аспект может быть описан рядом различных спосо- способов. Хотя самую общую классификацию представлений форм объектов по- построить трудно, можно попытаться сформулировать основные критерии для оценивания этих представлений и определить основные возможности выбора, который необходимо производить при формировании представления формы объекта. Доступность, удобство получения и использования описания Можно ли по изображению получить искомое описание и можно ли сделать это ценой разумных затрат? Информация, которую можно получить из изо- 302
бражения, подвержена фундаментальным ограничениям (например, связан- связанным с четкостью изображения), и поэтому требования, предъявляемые к описанию, должны укладываться в пределы возможного. Кроме того, описа- описание, которое в принципе можно построить по изображению, иногда тем не менее оказывается все же неприемлемым из-за недопустимо больших затрат памяти и времени, необходимых для его получения. Допустимое разнообразие описаний и их однозначность Для какого класса форм объектов предназначается представление и полу- получают ли эти формы канонические описания в соответствующем представлении9 Так, например, представление формы, предназначенное для описания плос- плоских поверхностей и сопряжений перпендикулярных плоскостей, позволяет представлять кубические твердые тела, однако не годится для описания бил- лиардного шара или расчески. Если представление предназначено для исполь- использования при распознавании, то соответствующее описание формы объекта должно быть однозначным. В противном случае на одном из этапов процесса распознавания возникает трудная задача, связанная с определением того, от- относятся ли два описания к одной и той же форме объекта. Если, например, для представления формы решено использовать многочлены и-й степени, то формальное описание некоторой заданной поверхности будет зависеть от вы- выбора системы координат. Поскольку маловероятно, что мы будем использо- использовать одну и ту же систему координат в двух разных случаях, не вводя каких- то дополнительных условий, то даже одно и то же изображение поверхности может порождать совершенно разные описания. Другой пример относится к представлению формы объекта с помощью большого числа маленьких кубиков, укладываемых таким образом, чтобы обеспечивалось максимально точное приближение искомой формы. Если раз- размеры кубиков достаточно малы, то форму объекта можно воспроизвести с их помощью с большой точностью, и, следовательно, возможности такого представления весьма обширны. С другой стороны, даженебольшое смещение, скажем на половину длины ребра 3-мм "мини-куба", может привести к су- существенному изменению представления формы объекта, что нарушает, таким образом, условие однозначности. Если же использовать 30-см кубики, то про- проблема однозначности в значительной мере снимается (для представления тела человека достаточно всего шести таких кубиков, поставленных друг на дру- друга), однако происходит это за счет возникновения существенных проблем в связи с другими аспектами представления. Устойчивость и чувствительность За пределами критериев допустимого разнообразия и однозначности пред- представления остаются проблемы, связанные с непрерывностью и разрешающей способностью представления. Для использования подобия форм двух объек- объектов при распознавании оно должно быть отражено в их описаниях, однако в то же время в них должны отражаться даже и наиболее трудноуловимые раз- различия данных форм. Эти противоположные требования можно выполнить 303
лишь в том случае, если имеется возможность разделить информацию, харак- характеризующую самые общие и в наименьшей степени подверженные изменени- изменениям свойства, и информацию, характеризующую наиболее тонкие отличия форм (т. е. чувствительную к этим различиям). Рассмотрим в качестве примера представление в виде фигурки, составлен- составленной из кусочков щеточек для чистки трубок. В этом представлении для описа- описания формы тела животного в качестве непроизводных элементов используют- используются расположение в трехмерном пространстве и относительные размеры кусоч- кусочков щеточек (см. рис. 5.1). Выбор размеров этих кусочков является средст- средством управления устойчивостью и чувствительностью получаемого в результа- результате описания фигурки из кусочков щеточек. Устойчивость обеспечивается благодаря использованию кусочков больших размеров; использование всего лишь одной щеточки обеспечивает наиболее устойчивое описание формы в целом, характеризуя лишь размеры и ориентацию объекта. Однако описание, составленное из кусочков меньших размеров, будет обладать чувствитель- чувствительностью к деталям меньших размеров, имеющим более локальный характер, скажем таким, как крайние части конечностей животных. Хотя подобные де- детали в меньшей степени проявляют тенденцию к устойчивости, они тем не менее могут оказаться важными при выделении тонких различий между сход- сходными формами объектов. Решения, которые необходимо принять при построении представления формы объекта Теперь мы в состоянии связать результаты, относящиеся к выбору того или иного способа представления формы объекта, с тремя только что введенными критериями качества представления. Не будет лишним повторить еще раз, что самым фундаментальным свойством представления является возможность с его помощью перевести в явную форму некоторые виды информации и что это свойство представления можно использовать для подчеркивания сущест- существенной информации, обеспечивая тем самым возможность ограничиваться менее объемными и легче поддающимися обработке описаниями. Нами будут рассмотрены три проблемы, возникающие при формировании представления: 1) система координат представления; 2) непроизводные элементы представ- представления, являющиеся основными элементами информации о форме объекта, используемыми в представлении; 3) организация, придаваемая соответст- соответствующим представлением информации в результате формирования ее описа- описаний. Системы координат Наиболее важной особенностью системы координат, используемой для по- получения представления, является способ задания этой системы. Если коорди- координаты задаются относительно положения наблюдателя, то мы говорим, что в представлении используется система координат, привязанная к наблюдателю1. 1 Систему координат этого типа мы будем называть также "системой координат, ориентированной на наблюдателя" и "системой координат наблюдателя" Аналогичные конструкции будут употребляться для обозначения системы координат, привязанной к наблюдаемому объекту. - Прим перев. 304
Если местоположение задается в системе координат, определенной на наблю- наблюдаемом объекте, то это означает, что в соответствующем представлении ис- используется система координат, привязанная к объекту наблюдения. Сущест- Существует, естественно, несколько вариантов систем координат обоих типов. При решении задач распознавания описания, ориентированные на наблюда- наблюдателя, легче получать, но труднее использовать, чем описания, ориентирован- ориентированные на объект наблюдения, поскольку первые зависят от той точки наблюде- наблюдения, применительно к которой они построены. В результате в любой теории распознавания, основанной на использовании представления, привязанного к наблюдателю, различные виды объекта должны, в сущности, рассматриваться как различные объекты. Таким образом, этот подход потенциально требует большого объема памяти для размещения описаний, что компенсируется сокращением объема и сложности вычислений, необходимых для учета эф- эффектов перспективы. Минский [168] предложил сокращать число таких описаний с помощью со- соответствующего выбора непроизводных элементов формы и проекций, подле- подлежащих запоминанию. Очевидно, что при определенных обстоятельствах этот подход позволяет получать очень хорошие результаты. Допустим, например, что белкам нужно отличать деревья от других объектов, но не нужно идентифи- идентифицировать конкретные породы деревьев по их форме. В таком случае они могли бы обладать способностью обращать внимание на некоторые общие характеристики облика вертикального ствола дерева, растущего неподалеку, которые не зависят от положения точки наблюдения. В представлении, осно- основанном на таких характеристиках, все деревья, растущие в среде обитания белки, будут иметь, по существу, одинаковые описания. В более сложных задачах распознавания, в которых учитывается прост- пространственное расположение его компонентов, любое представление, привязан- привязанное к наблюдателю, будет, вероятно, чувствительно к ориентации объекта. Рассмотрим, например, как зависит вид руки человека от ее ориентации даже в том случае, когда положения большого и остальных пальцев взаимно фик- фиксированы. При необходимости различать левую и правую руки, используя представление, привязанное к наблюдателю, эту задачу придется разбить на ряд частных случаев, каждый из которых должен соответствовать какому- либо конкретному виду руки. Альтернативой полному перебору всех допустимых видов рук являются использование какой-либо из систем координат, привязанных к объекту на- наблюдения, и переход в результате к построению некоторого канонического описания, не зависящего от расположения точки наблюдения. Было бы иде- идеально, если бы для распознавания объекта даже при неизвестных положениях точки наблюдения, требовалось хранить в памяти лишь по одному описанию пространственной структуры каждого объекта. Однако описание, привязан- привязанное к объекту, труднее получать, поскольку для каждого объекта приходит- приходится задавать собственную систему координат и, как уже упоминалось выше, эта система координат должна быть идентифицирована по изображению до построения описания. 305
Непроизводные элементы Непроизводными элементами представления служат наиболее элементар- элементарные составляющие информации о форме объекта, доступные на уровне пред- представления и являющиеся тем видом информации, которую представление получает от процессов обработки информации, действующих на более ранних этапах работы зрительной системы. Так, 2,5-мерный эскиз является приме- примером представления, непроизводные элементы которого содержат информа- информацию о локальной ориентации поверхности и расстоянии (относительно наблю- наблюдателя) в тысячах точек зрительного поля. Можно выделить два качества не- непроизводных элементов представления: тип информации о форме объекта, которую они содержат, что важно с точки зрения доступности, удобства по- получения и использования описаний, и размеры непроизводных элементов, существенные с точки зрения проблем устойчивости и чувствительности.^ Известны два основных класса непроизводных элементов формы объекта — поверхностные (двухмерные) и объемные (трехмерные). Как мы уже убеди- убедились, информация о поверхностях в большей степени поддается непосредст- непосредственному извлечению из изображения. Самые простые непроизводные элемен- элементы, которые целесообразно использовать для описания поверхностей, опреде- определяют лишь расположение и размеры небольших частей поверхности. Более сложные поверхностные непроизводные элементы, подобные используемым в 2,5-мерном эскизе, могут также включать информацию об ориентации и глубине. В свою очередь, объемные непроизводные элементы содержат информа- информацию о пространственном распределении формы объекта. Этот тип информа- информации в большей степени соответствует требованиям распознавания формы объекта, чем информация, характеризующая структуру его поверхности, и ее использование часто приводит к тому, что критерию устойчивости удовлет- удовлетворяют существенно более короткие и, следовательно, более устойчивые опи- описания. Простейший объемный непроизводный элемент определяет лишь рас- расположение и размеры и соответствует приближенно сферической области пространства. Добавив к этим данным векторную величину, можно прибли- приближенно задать некоторую цилиндрическую область, причем длина соответствую- соответствующего цилиндра указывается длиной вектора, а его диаметр — размерами непро- непроизводного элемента. Введение второй векторной величины позволяет задавать вращение относительно первого вектора, что дает возможность определять некоторую область подушкообразной формы, поперечное сечение которой в направлении первого вектора оказывается толще в направлении второго. Еще одна векторная величина может быть введена для задания направления и значения кривизны оси цилиндрической области. Сложность непроизводных элементов, используемых в представлении, ог- ограничивается главным образом типом той информации, надежное получение которой обеспечивают процессы, предшествующие построению представле- представления. Хотя информационную емкость непроизводных элементов можно уве- увеличивать произвольно, существует предел, дальше которого в этом увеличе- увеличении заходить бесполезно, поскольку чрезмерная детализация непроизводных 306
элементов приводит к усложнению обеспечения непротиворечивости при их получении с помощью упоминавшихся процессов, действующих на более ран- ранних этапах обработки информации в зрительной системе. В предельном слу- случае описания, входящие в представление формы объекта, состоят из единст- единственного непроизводного элемента. Такое представление будет удовлетворять условиям однозначности и устойчивости лишь в том случае, если при получе- получении с помощью указанных процессов информации, содержащейся в непроиз- непроизводном элементе, было обеспечено соблюдение непротиворечивости. Однако в таком случае эти процессы при определении непроизводного элемента должны были уже решить задачу распознавания формы объекта, и в резуль- результате отпала бы нужда в построении представления. Размеры — это еще один фактор, влияющий на то, какую информацию не- непроизводный элемент представления должен перевести в явную форму. В част- частности, информацию о признаках, превышающих по размеру заданные непро- непроизводные элементы, трудно использовать, поскольку она представлена лишь неявно в конфигурации, состоящей из большого числа меньших элементов. Рассмотрим, например, как можно было бы описать руку (от плеча до кис- кисти) в рамках формы тела человека с помощью представления поверхности типа 2,5-мерного эскиза. В данном случае представление — это, в сущности, то, что получается, если покрыть некоторую поверхность рыбьими чешуйка- чешуйками, — каждая из них при этом задает собственную локальную ориентацию по- поверхности. Поскольку имеется информация лишь о небольших участках поверхности, то для того, чтобы придать неявно присутствующей форме ру- руки явный вид, необходимо провести достаточно сложный анализ большой совокупности этих малых участков. В случае же использования представле- представления в виде фигурки из палочек для задания формы руки в явном виде доста- достаточно всего лишь одного непроизводного элемента — палочки соответствую- соответствующего размера. Все сказанное в равной степени можно отнести и к схеме пред- представления, основанной на использовании маленьких кубиков, которую мы обсуждали выше: из этого представления нельзя непосредственно получать информацию об элементах формы большего (чем в нем используется) раз- размера. На другом конце шкалы размеров признаки формы, размеры которых много меньше размеров непроизводных элементов, используемых для ее описания, не просто труднодоступны — они вообще отсутствуют в описании. Так, скажем, пальцы человека невозможно представить в описании фигуры из палочек, использующем лишь такие непроизводные элементы, размеры которых по порядку соответствуют размерам рук и ног. Если же воспользо- воспользоваться 30-см кубиками, то не удастся описать в явном виде даже руки и ноги. Аналогичным образом в таком представлении нельзя воспроизвести в явном виде детали поверхности, размеры которых оказываются существенно мень- меньше размеров основных поверхностных непроизводных элементов, используе- используемых в 2,5-мерном эскизе. Таким образом, размеры непроизводных элемен- элементов, используемыхв описании, в значительной степени определят то, какая ин- информация переводится при представлении в явную форму, какая информа- информация имеется, но недоступна непосредственно и какая информация опускается. 307
Организация Третья проблема, возникающая при формировании представления, связа- связана с характером организации информации о форме, которая придается этой информации с помощью представления. В простейшем случае представление не вносит никакой организации и статус всех элементов описания одинаков. Одним из примеров такой ситуации служит локальное представление поверх- поверхности, которое обеспечивает 2,5-мерный эскиз; вторым является наша бата- батарея мини-кубиков, приближенно представляющая форму трехмерного объ- объекта. Непроизводные элементы описания могут быть также объединены в моду- модули, состоящие, например, из смежных элементов приблизительно одинаково- одинакового размера; эти модели предназначены для того, чтобы можно было разли- различать отдельные объединения непроизводных элементов. Особенно удобна мо- модульная организация с точки зрения распознавания, поскольку она может выявлять различия в чувствительности и устойчивости при условии, что все элементы, образующие некоторый заданный модуль, отличаются приблизи- приблизительно одинаковыми уровнями устойчивости и чувствительности. 5.3. ПРЕДСТАВЛЕНИЕ ТРЕХМЕРНЫХ МОДЕЛЕЙ Мы сформулировали требования, которым должно отвечать представле- представление формы объектов при распознавании, исходя из критериев доступности, удобства получения и использования описания, допустимого разнообразия описаний и их однозначности, устойчивости и чувствительности. Мы пришли к выводу, что конструкция представления, удовлетворяющего указанным критериям, должна предусматривать использование системы координат, при- привязанной к объекту, и объемных непроизводныхуэлементов формы объекта (хотя, возможно, и не исключительно объемных), а также должна придавать какую-либо разновидность модульной организации непроизводным элемен- элементам, входящим в описание. Выбор этих решений окажет существенное воз- воздействие на все последующие, и, в частности, как непосредственное следствие этого выбора можно определить один конкретный тип представления — пред- представление трехмерных моделей. Естественные системы координат Нашу первую задачу составляет определение некоторой системы коорди- координат, привязанной к объекту и ориентированной на представление его формы. Для того чтобы эта система координат была канонической, ее оси должны соответствовать важнейшим геометрическим характеристикам формы объ- объекта. И наоборот, представление должно быть рассчитано лишь на те формы объектов, для которых данное условие можно выполнить. В качестве естест- естественных осей координат для формы объекта можно указать пространствен- пространственную протяженность, симметрию, даже перемещение (например, ось враще- вращения) ; так, система координат для колбаски должна задаваться ее главной осью и кривизной, а система координат для лица — его осью симметрии. Объекты, "оси координат" которых многочисленны или плохо определены, 308
как, например, сфера, дверь или скомканная газета, неизбежно порождают неоднозначности. Для объектов столь правильной формы, как сфера, это не вызывает особых проблем, поскольку в любой достаточно разумной системе координат ее описание остается одним и тем же. Дверь характеризуется четырьмя различными осями координат, соответствующими ее длине, шири- ширине, толщине, а также оси, относительно которой она поворачивается. Посколь- Поскольку число описаний, возникающих в данной ситуации, невелико, а двери явля- являются важными объектами, то каждое из четырех допустимых описаний двери можно рассматривать как отдельный случай. Однако иначе обстоит дело для скомканной газеты, когда, по-видимому, число осей координат велико, а определены они плохо. В настоящее время лучше всего мы разбираемся в тех задачах, в которых оси координат определяются пространственной протяженностью или симмет- симметрией объектов [146], и для простоты мы ограничим диапазон представления трехмерных моделей объектами, формы которых допускают использование осей координат этого типа в качестве естественных. Один обширный класс объектов, формы которых удовлетворяют этому условию, составляют обоб- обобщенные конические поверхности (см. рис. 3.59). Этот класс форм важен для нас не потому, что удобно описывать соответствующие поверхности (на са- самом деле они могут оказываться отнюдь не простыми [88]), а потому, что объекты этого класса обладают хорошо определенными осями координат. Именно это обстоятельство является решающим, позволяя задавать неко- некоторую каноническую систему координат, привязанную к объекту, т. е. оно обеспечивает решение, несомненно, основной и самой трудной из всех тех за- задач, с которыми мы в данном случае сталкиваемся. Диапазон возможностей такого представления включает значительное чис- число реальных объектов, так как объекты, форма которых возникает в резуль- результате действия процессов роста, часто допускают вполне естественное описа- описание с помощью одной или нескольких обобщенных конических поверхностей. Несколько примеров такого рода приведено на рис. 5.1: отдельные кусочки щеточек, из которых составлены фигурки животных, представляют собой как раз оси обобщенных конических поверхностей, приближенно представ- представляющих форму отдельных частей тела изображаемых животных. Описания, основанные на использовании осей координат Для облегчения распознавания непроизводные элементы представления также должны соответствовать устойчивым геометрическим характеристи- характеристикам. Естественные оси координат форм объектов удовлетворяют этому ус- условию, и, следовательно, мы воспользуемся этими осями для задания непро- непроизводных элементов представления трехмерных моделей. Описание, в кото- котором используются непроизводные элементы, порожденные осями координат, можно рассматривать как некую фигуру из палочек (аналогичную изображен- изображенным на рис. 5.1), однако при этом следует иметь в виду, что эти палочки вы- выступают в роли локальных осей координат. Хотя такое описание передает лишь часть информации о форме объекта, именно эта информация представ- представляет особую ценность для распознавания. Мы еще больше сократим объем 309
а) б) Рис. 5.2. Метод "пала" для восстановления оси по силуэту, предложенный Бламом [20]: по границе объекта зажигается огонь, и местоположение оси определяется линией столк- столкновения огненных валов Этот метод, однако отличается повышенной чувствительностью к малым возмущениям контура, что нежелательно: а — прямоугольник, обработанный методом Блама; б — прямоугольник с вырезом, об- обработанный методом Блама информации, содержащейся в этих непроизводных элементах, ограничив ее лишь информацией о размерах и ориентации. Это позволит нам формулиро- формулировать представление трехмерных моделей, в минимальной степени связывая себя несущественными деталямя. Мы не будем затрагивать здесь и неко- некоторые более сложные проблемы, такие как криволинейность осей коорди- координат или схождение формы объекта на конус по его оси координат. Идея представления формы объекта с помощью конструкции из палочек не нова. Так, Блам [20] рассматривал процедуру классификации двухмер- двухмерных силуэтов, основанную на использовании метода "пала" для построения одной из разновидностей конструкции из палочек по формам соответствую- соответствующих объектов (рис. 5.2), а Бинфорд [17] ввел понятие обобщенной коничес- конической поверхности для представления формы трехмерных объектов. Этим представлениям, однако, свойствен один существенный недостаток —они не сообщают содержащейся в них информации никакой модульной организации. Так, например, каждой части руки от плеч до кисти в таких представлениях формы тела человека может соответствовать, самое большее, один элемент (палочка); невозможно добиться того, чтобы в одном и том же описании единственная палочка соответствовала руке в целом, а три палочки меньших размеров соответствовали бы основным частям руки. Модульная организация представления трехмерных моделей Разбиение на модули описания, используемого при распознавании, должно быть точно определено: такое разбиение должно существовать и являться од- однозначно определенным. В представлении трехмерной модели в том варианте, как оно определялось до сих пор, лучше всего при выполнении этого разбиения • основываться на осях координат формы объекта. Каждой из этих осей можно поставить в соответствие приближенную пространственную информацию, что позволит естественным образом сгруппировать оси координат основных со- составляющих формы, входящих в диапазон допустимых для данного пред- представления. Модуль, определенный таким способом, мы будем называть трех- трехмерной моделью. Итак, всякая трехмерная модель определяет следующее: 310
1) ось модели, т. е. отдельную ось, характеризующую форму пространст- пространства, занимаемого моделью; эта ось является непроизводным элементом пред- представления и позволяет получать приближенную информацию о таких харак- характеристиках формы описываемого объекта в целом, как размеры и ориента- ориентация; 2) взаимное расположение в пространстве и размеры осей основных ком- компонентов пространственной формы, задаваемой осью модели (эта информа- информация не должна обязательно входить в модель); число осей компонентов должно быть невелико, и они должны иметь приблизительно одинаковые размеры; 3) названия (внутренние ссылки) трехмерных моделей компонентов фор- формы, соответствующих осям компонентов (независимо от того, когда такие модели были построены); их оси моделей соответствуют осям компонентов данной трехмерной модели. Каждый из блоков на рис. 5.3 изображает некоторую трехмерную модель, при этом слева показана ось модели, а справа видно расположение осей компо- компонентов. Ось модели трехмерной модели тела человека переводит в явный вид глобальные свойства (размеры и ориентацию) его целостной формы с помощью единственного непроизводного элемента. Каждой из шести осей компонен- компонентов, соответствующих туловищу, голове и конечностям, можно поставить в соответствие некоторую трехмерную модель, содержащую дополнительную информацию о разбиении данного компонента на совокупность меньших компонентов. Хотя отдельная трехмерная модель и является простой струк- структурой, объединение нескольких моделей такого рода с помощью иерархи- иерархической организации описанного типа позволяет строить описания, характери- характеризующие геометрические свойства поверхности с произвольной степенью дета- детализации. Подобную иерархию трехмерных моделей мы будем называть описа- описанием трехмерных моделей формы объекта. Пример, приведенный на рис. 5.3, иллюстрирует важные преимущества, которыми обладает модульная организация описания формы объекта. Устой- Устойчивость представления существенно увеличивается за счет использования как крупномасштабных, так и мелкомасштабных непроизводных элементов опи- описания формы объекта, а также благодаря выделению локальных пространст- пространственных отношений из более глобальных. При отсутствии подобной модуль- модульной организации было бы невозможно установить важность пространственно- пространственного отношения, характеризующего взаимное расположение двух соседних пальцев, по сравнению с отношением, характеризующим взаимное располо- расположение пальца и носа. Модульность обеспечивает также возможность более гибкого использования представления в соответствии с конкретными теку- текущими потребностями. Так, например, нетрудно построить описание трехмер- трехмерной модели только для плеча человека, которое впоследствии может быть включено в новое описание трехмерной модели, относящееся уже к форме тела человека в целом. И наоборот, приближенное, но допускающее исполь- использование описания формы тела человека описание не должно включать детали- детализированного описания плеча. И наконец, использование модульной организа- организации позволяет добиваться увеличения допустимого разнообразия форм в пред- 311
Человек Рис. 5.3. Эта схема иллюстрирует организацию информации о форме объекта в описании трехмерной модели. Каждый блок изображает некоторую трехмерную модель, при этом слева показана ось модели, а справа - расположение осей компонентов. Кроме того, не- некоторым осям компонентов поставлены в соответствие трехмерные модели, что показа- показано на рисунке с помощью перекрытия блоков. Однако взаимное расположение осей компонентов каждой модели показано не так, как следовало бы, поскольку оно долж- должно было бы быть представлено в системе координат объекта, а не в использованной здесь проекции, полученной с позиции наблюдателя (более правильная трехмерная мо- модель задана с помощью таблицы, приведенной на рис. 5.5,в). Наиболее важными особен- особенностями данного способа организации информации являются следующие: 1) каждая трехмерная модель представляет собой абсолютно независимый блок информации о форме объекта, характеризующийся органиченной сложностью; 2) информация о фор- форме объекта воспроизводится в виде, удобном для распознавания (расположение пальца оказывается более устойчивым, если оно определяется относительно кисти руки, кото- которой он принадлежит); 3) заданное представление допускает различные варианты исполь- использования. Такой подход ограничивает допустимое разнообразие форм объектов в пред- представлении, поскольку его можно использовать лишь для таких форм, которые имеют точно определенные разбиения на трехмерные модели [151J ставлении за счет уменьшения степени детализации или увеличения последней за счет уменьшения допустимого разнообразия в представлении. Это упроща- упрощает информационные процессы, обеспечивающие получение представления и его использование, так как, несмотря на, вероятно, очень большую слож- сложность полного описания трехмерной модели, в каждый момент времени рабо- работа ведется лишь с одной трехмерной моделью, а сложность каждой трехмер- трехмерной модели ограничена и такова, что не исключает возможности работать с ней. Система координат трехмерной модели Известны две разновидности систем координат, привязанных к объекту, которые могли бы использоваться в трехмерной модели. В первой из них все оси компонент, входящие в описание (от туловища до ресницы), задают- задаются в одной и той же системе координат, основу которой составляет ось фор- формы объекта в целом. Во второй используется "распределенная" система ко- 312
ординат, т. е. каждая трехмерная модель снабжается собственной системой координат. Последний вариант предпочтительнее в основном по следующим двум причинам. Во-первых, пространственные отношения, определенные в описании трехмерной модели, всегда оказываются локальными относительно одной из входящих в это описание моделей и должны задаваться в системе координат, привязанной именно к этой модели, в силу тех же самых причин, по которым м-ы считаем систему координат объекта предпочтительнее систе- системы координат наблюдателя. В противном случае информация о взаимном расположении компонентов какой-либо модели оказалась бы зависящей от ориентации оси этой модели относительно формы объекта в целом. Так, в частности, описание формы ноги лошади зависит от угла, составляемого ногой с ее туловищем. Во-вторых, помимо этих соображений, касающихся устой- устойчивости и однозначности, доступность, удобство получения и использования представления, а также его модульная организация улучшаются, если каждая трехмерная модель располагает собственной системой координат, поскольку в этом случае ее можнр рассматривать как абсолютно независимый элемент описания формы объекта. Система координат для задания взаимного расположения осей компонен- компонентов трехмерной модели может быть определена либо с помощью оси модели, либо с помощью одной из осей компонентов. Ось, выбранную для задания этой системы координат, мы будем называть главной осью модели. Примени- Применительно к приводимым здесь примерам главной осью служит ось компонента, пересекающаяся наибольшим числом других осей компонентов данной трех- трехмерной модели (или проходящая поблизости от них), например туловище животного на его общем виде. Кроме того, необходимо определить положе- Рис. 5.4. Расположение осей трехмерной модели в пространстве находится с помощью со- соотношений, определяемых на парах этих осей и называемых отношениями присоединения. Пространственное расположение одной оси S определяется относительно пространст- пространственного расположения другой оси А заданием местоположения одной из ее концевых точек относительно положения другой оси А в цилиндрической системе координат (р, г, в) и заданием ориентации и длины оси S в сферической системе координат (i, <?, s) с центром в указанной концевой точке и сооеной осью А {б) [151 ] 313
-45 45° -90° - -135 L-AB-4—BC-4«-CD-4--DE-J L-BB-4-«-Co4—DD-4 ЕЕ •+■ 90 T 135° О 25 5 75 10 A Модель Туловище Туловище Туловище Туловище Туловище 180 а) S Туловище Голова Плечо Плечо Голень Голень Р ВС DE DE DE АВ АВ г АВ АВ ВВ ВВ ВВ ВВ в NN NN ЕЕ WW ЕЕ i NN NN Е Е SS SS ф NN NN Е W NN NN б) s СС ВВ DD DD DE DE в) Рис. 5.5. Значения углов и расстояний должно задаваться в отношении присоединения с учетом допустимых отклонений, чтобы особенности этих параметров отражались в пред- представлении в явном виде. Один из способов достижения этой цели иллюстрируется схема- схемами, позволяющими приписывать символические обозначения отдельными частями диа- диапазонов значений угловых (а) и линейных (б) величин. В таблице (в) приведен пример отношений присоединения, записанных с помощью введенной символики для трехмер- трехмерной модели тела человека, которая изображена на рис. 5 3. Векторы А и S соответству- соответствуют двум осям, связанным отношениями присоединения, записанными в строках табли- таблицы (каждая строка задает одно отношение присоединения). При замене мнемонических имен в столбцах А и S внутренними ссыпками на соответствующие трехмерные модели (если они существуют; в противном случае запись в соответствующей строке столбца отсутствует) в этой таблице будет иметься, в сущности, вся информация, содержащаяся в трехмерной модели [151] ние главной оси относительно оси модели, для того чтобы обеспечивались связи между элементами распределенной системы координат. Для задания положения в пространстве одной оси относи1еяьно другой требуются два трехмерных вектора. Один из способов такого задания про- проиллюстрирован рис. 5.4, на котором положение вектора Sотносительно век- вектора оси А задается с помощью двух векторов. Первый вектор, представлен- представленный в цилиндрической системе координат (р, г, в), задает начало вектора S относительно вектора А (рис. 5.4, а); второй вектор, представленный в сфе- сферической системе координат (i, v?, s) задает собственно вектор S (рис. 5.4,6). Мы будем называть этот объединенный набор координат (р, г, в, i, у, s), сов- совместно задающий вектор S отношением присоединения вектора S относи- относительно вектора А. 314
Поскольку точность, с которой форма может представляться трехмерны- трехмерными моделями, непостоянна, то целесообразно значения длин и углов, входя- входящих в отношение присоединения, также представлять с помощью некоторой системы, допускающей возможность изменения точности представления. Так, например, возможно, возникнет необходимость задать положение неко- некоторой оси следующим образом: пусть компонент "рука (от плеча до локтя)" тела человека (см. рис. 5.3) находится почти на самом конце туловища (т. е. значение параметра р точно равно 0), значение угла в задано лишь очень при- приближенно, а на возможные значения угла i наложены лишь очень слабые огра- ограничения. Пример соответствующей системы координат, допускающей воз- возможность изменения точности представления, приведен на рис. 5.5. 5.4. ЕСТЕСТВЕННЫЕ ОБОБЩЕНИЯ Описанные способы представления информации о форме объекта, пожа- пожалуй наилучшим образом суммированные в иерархической схеме, приведен- приведенной на рис. 5.3, подводят нас к тому, каким образом можно справляться с проблемами описания формы. Возможно, если бы Дж. Л. Остин мог увидеть такой рисунок, он бы не воздевал в отчаянии руки по поводу надежд на установление правил представления формы своего кота (см. разд. 1.2)! Эти идеи тем не менее еще весьма приблизительны, и немного усилий было затра- затрачено на их развитие после 1977 года, главным образом из-за того, что мы были поглощены подробным изучением процессов предварительной обработ- обработки информации в зрительной системе. В этот период, однако, часто поднима- поднимались проблемы, касающиеся путей обобщения этих идей. И хотя их решение в деталях еще не разработано, имеет смысл кратко определить те направле- направления, в которых возможности обобщения представления наиболее очевидны. Первое направление, вероятно, связано с тем, что представление двухмер- двухмерных конфигураций может осуществляться с тем же успехом, что и трехмер- трехмерных, при условии, конечно, что представляемые образы обладают естествен- естественной продольной осью или осью симметрии. Следовательно, мы в равной мере в состоянии представлять как двухмерный набросок лица, так и признаки и различные подробности, выделяемые на реальной трехмерной голове. На рис. 5.6 приведен соответствующий простой пример. В этой связи особенно важно обратить внимание на то, что симметричность образа порождает кано- каноническую ось, но не каноническое направление, совпадающее с этой осью. Остается еще определить, какому из направлений соответствует низ и како- какому — верх. Это решение необходимо принять в тот момент, когда начинается построение некоторой конкретной трехмерной модели, причем человек при принятии этого окончательного решения, по-видимому, ориентируется на то направление, которое в данный момент указывает вверх (обычно — верти- вертикально вверх). Если вы строите подробное описание лица, придерживаясь этого правила, а затем переворачиваетесь и становитель на голову, детали ста- становятся абсолютно нераспознаваемыми, возможно, из-за того, что после это- этого врожденный механизм принятия решений использует противоположное правило! Добавим к тому же, что, по-видимому, распознавание лиц осущест- осуществляется человеком с помощью достаточно точных, специализированных и 315
i 6) в) г) д) Рис. 5.6. Трехмерная модель двухмерного образа, изображающего лицо а — трехмерная модель лица в целом, осью модели служит ось симметрии лица; б—д — допустимые варианты трехмерных моделей основных составляющих образа поздно сформировавшихся процессов; читателям, интересующимся этой проблемой, следует обратиться к работе [32], а также к другим работам, ей посвященным. Второе направление связано с возможностью обобщить непроизводные элементы, используемые в представлении трехмерной модели, таким обра- образом, чтобы они включали поверхностные непроизводные элементы, разделя- разделяющиеся в целом на два типа. Первый тип составляют неровные двухмерные прямоугольные поверхности различных размеров, содержащие объекты эллиптической и кругообразной форм. Обычному человеку требуется немно- немного таких непроизводных элементов, хотя, очевидно, у такого скульптора, как X. Мур, их арсенал исчисляется сотнями. Непроизводный элемент второ- второго типа воспроизводит не сплошной, а пустотелый объект, например нечто вроде чашки или трубки. Нетрудно убедиться в том, что такие непроизвод- 316
Рис. 5.7. Примеры трехмерных моделей объектов достаточно сложной формы (а). При- Примеры объектов, при представлении которых может потребоваться использование поверх- поверхностных непроизводных элементов (б, в). Представление хорошо известного объекта (куба), построенное Хинтоном на основе нестандартного выбора оси, в роли которой выступает диагональ, связывающая противоположные вершины куба (г) ные элементы могут быть организованы примерно так же, как и исходное представление трехмерной модели; на рис. 5.7 проиллюстрировано несколь- несколько простейших способов использования подобного словаря непроизводных элементов для представления самых обычных предметов. Если допустить также использование в представлении криволинейных осей, то возможности представления объектов, с которыми мы постоянно сталкиваемся в повсе- повседневной жизни, существенно расширятся (см. рис. 5.7,а и особенно [88]). Другие важнейшие направления, по которым может идти обобщение опи- описанных идей, связаны не столько с пространственной организацией формы некоторого заданного объекта, сколько с пространственными конфигурация- конфигурациями, образуемыми несколькими отдельными объектами. В этом случае требу- требуются по меньшей мере три типа описаний. Первое должно обеспечивать зада- задание положений объектов в некоторой стандартной системе пространственных координат, привязанной к наблюдателю, фиксируя эти положения через углы, под которыми объекты расположены относительно наблюдателя, и расстоя- расстояния, отделяющие их от наблюдателя. Второе должно представлять расположе- расположение конфигураций относительно наблюдателя, например в виде отношения типа "Вы и два других человека образуете равносторонний треугольник". Важнейшими моментами в этом описании является учет позиции наблюдате- наблюдателя и представление в явном виде угловых отношений, т. е. внутренней струк- структуры конфигурации. И наконец, должны быть представлены взаимные распо- расположения ряда внешних объектов без учета их положения относительно на- наблюдателя. Так, например, три дерева могут быть расположены в один ряд или четыре здания могут образовывать квадрат. При этом возникают те же самые основные проблемы, с которыми мы уже сталкивались: каким обра- образом следует выбирать соответствующую каноническую систему координат 317
для воспроизведения в явном виде пространственных отношений конфигура- конфигураций? Сейчас уже ясно, каким образом следует подходить к решению такого ро- рода задач представления; поэтому я не думаю, что эти проблемы могут соз- создать непреодолимые трудности для разработчиков систем машинного зрения. Как мне кажется, основные трудности с точки зрения науки в данном случае связаны с тем, каким образом можно установить, какие именно системы и вычислительные схемы используются человеком в действительности. Я не рассчитываю на очень неожиданные ответы на эти вопросы, но сегодня просто не вижу способов экспериментального исследования проблем этого типа. По-видимому, поставить эксперименты для разрешения проблем, возникаю- возникающих в связи с этими высшими уровнями анализа, значительно труднее, чем в случае проблем нижних уровней. Можно было бы, в сущности, сказать, что на этих высших уровнях вы начинаем сталкиваться со всеми теми проблема- проблемами, с которыми имеют дело лингвисты. Значительным достижением явилась бы разработка хорошего экспериментального метода исследования таких проблем. 5.5. ПОЛУЧЕНИЕ И ИСПОЛЬЗОВАНИЕ ПРЕДСТАВЛЕНИЯ ТРЕХМЕРНОЙ МОДЕЛИ Преимущества модульности, являвшейся одним из основных предметов наших забот при построении представления трехмерной модели, становятся особенно очевидными при обсуждении процессов, обеспечивающих получение и использование представления, приведенного к виду, удобному для распоз- распознавания. В частности, ни в одном из этих процессов ни при каких обстоятельст- обстоятельствах не используются одновременно элементы, входящие в состав более чем одной трехмерной модели, даже в тех случаях, когда полное описание формы объекта включает ряд трехмерных моделей. Мы начнем обсуждение с рас- рассмотрения основных проблем, связанных с выбором системы координат мо- модели и осей ее компонентов и преобразованием определения осей примени- применительно к наблюдателю в систему координат модели. Затем мы обсудим зада- задачу распознавания этого описания, интерпретируя ее как задачу составления каталога описаний трехмерных моделей, хранящихся в памяти. И наконец, рассмотрим взаимодействие процесса получения описания трехмерной моде- модели и процесса распознавания. Неоднозначность, вносимая центральной проек- проекцией, часто означает, что непосредственно из изображения можно извлечь лишь приближенные данные о длине и ориентации осей формы объекта. Од- Однако если процессы распознавания и получения описания консервативны, т. е. надежностью отличается вся информация, восстанавливаемая при распоз- распознавании, то на первых этапах процесса распознавания могут быть найдены дополнительные ограничения, что даст возможность получить более точное описание. Получение описания трехмерной модели Для того чтобы построить трехмерную модель, необходимо исходя из изо- изображения задать систему координат и оси компонентов модели, а также оп- 318
ределить взаимное расположение осей компонентов в этой системе коорди- координат. Даже в том случае, если форма объекта имеет некоторую каноническую систему координат и существует естественное разбиение на оси компонентов, то все еще остается проблема извлечения этих признаков на изображения. В настоящее время мы не располагаем ее полным решением, однако для объ- объектов, формы которых входят в диапазон допустимых для представления трехмерной модели, некоторые результаты уже имеются. Так, например, как мы убедились в разд. 3.6, изображение оси некоторой обобщенной коничес- конической поверхности можно найти, опираясь на ограничивающие контуры, имею- имеющиеся на изображении, при условии, что эта ось не очень сильно изменилась в результате перспективного сокращения. Пример разбиения, полученного таким методом, приведен на рис. 5.8, а его краткое описание дано в подри- суночной подписи. Отметим, что окончательное разбиение (рис. 5.8, ё) полу- получено по исходному контуру (рис. 5.8, а) без использования каких бы то ни было сведений о трехмерной форме объекта, выходящих за пределы допуще- допущения, согласно которому этот объект состоит из обобщенных конических по- поверхностей. Следовательно, этот метод можно использовать для отыскания осей компонентов трехмерной модели, представляющей форму объекта, ко- который Вам до этого не был знаком. Полученный результат имеет несколько ограниченный характер, однако такова и используемая информация, а именно контуры, образованные каса- касательными к краю некоторой гладкой поверхности. Интересно, что, как мы установили в разд. 3.2, именно эти контуры непригодны для использования ни в процессах обработки информации, обеспечивающих стереопсис, ни в процессах обработки информации, обеспечивающих восстановление структу- структуры по движению, так как они не соответствуют каким-то определенным по- позициям на наблюдаемой поверхности. Складки и сгибы поверхности также порождают контуры изображения, и они еще требуют подробного изучения. Много еще работы предстоит и в области изучения способов использования информации о форме объекта, содержащейся в данных о затенении и в текс- текстурных данных. Основные трудности возникают при анализе изображений в тех случаях, когда какая-либо важная ось оказывается скрытой: либо из-за того, что она подверглась перспективному сокращению, либо из-за того, что она загороже- загорожена какой-то другой частью объекта. Так, например, хотя нетрудно определить по виду сбоку систему координат, привязанную к туловищу лошади, для за- задания формы тела лошади в целом, эту задачу решить сложно, если лошадь расположена к наблюдателю анфас. Известны три способа разрешения этой проблемы. Первый предусматривает использование для распознавания час- частичных описаний, построенных по осям, видимым спереди. В этом случае представление несколько ухудшается с точки зрения выполнения критерия однозначности, но не в столь сильной степени, как это было бы при построе- построении представления в системе координат наблюдателя. Второй способ пред- предусматривает использование видимых компонентов формы объекта во всех тех случаях, когда они легко поддаются распознаванию, а форма объекта в 319
I 1 i i ] i I I I I I I I ] I I I a) "I I I I I ■ 1+1*1 I I ГП I I I i I 6)  I I I I I I I I I I I I I I I I I I e) I I I ) I ) I I 1 I I I I I I I I I I I 1 n 1 [ 1 1 1 I I I I 1 1 I I I I d) 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 e) 320
целом распознается с трудом. Так, например, обычно на виде лошади спереди прекрасно видна ее морда, которая поддается непосредственному распозна- распознаванию, обеспечивая новые возможности распознавания лошади в целом. Мы рассмотрим этот метод в конце данного раздела. И наконец, иногда удается восстановить ось, подвергшуюся перспективному сокращению, опираясь на радикальную симметрию изображения. Интересным примером служит ведро для воды, изображенное на рис. 5.9. По изображению, приведенному на рис. 5.9, а, можно определить главную ось ведра и его форму по этой оси с помощью методов, рассмотренных выше, однако этого нельзя сделать по изображению, приведенному на рис. 5.9, в, на котором главная ось ведра показана в перспективном сокращении. Вмес- Вместо нее может появиться ось, восстановленная неправильно: она может, в част- частности, проходить через выступы, с помощью которых ручка прикрепляется к краям ведра. Неудача попытки получить с помощью этой неправильно оп- определенной оди описание, поддающееся распознаванию, означала бы, однако, что истинная ось выражена на изображении не наиболее явным образом и что на нем можно увидеть и какую-то другую ось. Наличие двух концентричес- концентрических окружностей (образованных верхним и нижним ободами ведра) являет- является надежным свидетельством в пользу того, что главная ось проходит через их центры. Кроме того, в силу концентричности эти окружности могут быть разнесены вдоль оси на большое расстояние. Учет этой возможности может обеспечить получение искомого описания ведра, несмотря на неоднознач- неоднозначность идентификации ближнего к наблюдателю обода. Вероятно, существен- существенную роль в интерпретации подобных изображений может играть карта ло- локальных глубин поверхности (типа 2,5-мерного эскиза), построенная с по- помощью стереопсиса, использования данных о затенении или текстурных дан- данных. Установление связи между координатами, привязанными к наблюдателю, и координатами, привязанными к объекту Методы обнаружения осей на двухмерном изображении обеспечивают по- получение описания положений осей в некоторой системе координат, привязан - Рис. 5 8 Ограничивающие контуры объектов простой формы, состоящих из обобщен- обобщенных конических поверхностей, можно использовать для определения проекций естест- естественных осей конических поверхностей при условии, что эти оси не подвергались чрез- чрезмерному перспективному сокращению. Данный пример иллюстрирует один из алгорит- алгоритмов решения этой задачи, использованный в программе, написанной П. Вейтаном. Ис- Исходные очертания (а) получены в результате применения процесса локальной группи- группировки к первоначальному эскизу изображения игрушечного ослика. Сглаживание этих очертаний и разделение их на выпуклые и вогнутые участки позволило получить изобра- изображение (б) Затем были определены явно выраженные иходные точки сегментации, по- подобные глубоким впадинам, обозначенным кружками (в), и с помощью набора эврис- эвристических правил, использованных для соединения этих точек с другими точками, распо- расположенными на контуре, была построена сегментация изображения (г) Области, постро- построенные в результате сегментации, послужили источником для получения осей компонен- компонентов (д) Тонкими линиями (е) обозначены положения компонентов (головы, ног и хвоста) вдоль оси туловища, а также положения других компонентов (морды и уха) "*F вдоль оси головы [151J 321
1. :- . ,„ ■J, e) г) Рис. 5.9. Эти изображения ведра для воды иллюстрируют одно важное свойство, прису- присущее любой системе, основанной на восстановлении канонических осей по изображению. Методы, которые целесообразно использовать для восстановления оси, приведенной на рис. 5.9, б, по изображению, приведенному на рис. 5.9, а, существенно отличаются от тех методов, которые наилучшим образом действуют в случаях, когда ось подвергается перспективному сокращению, как это имеет место на рис. 5,9, в и г [151] ной к наблюдателю, и, следовательно, требуется некоторое преобразование, обеспечивающее перевод описаний осей в систему координат, привязанную к объекту. В представлении трехмерной модели расположения всех осей определяются отношениями присоединения, как это показано на рис. 5.4, и поэтому требуется какой-нибудь механизм для определения отношения присо- присоединения по описанию двух соответствующих осей, заданному в системе ко- координат, привязанной к наблюдателю. Мы будем называть этот механизм процессором преобразования пространства изображения. 322
Поскольку отношение присоединения — это единственное позиционное описание, требующее интерпретации, процессор преобразования пространства изображения может быть очень простым. Отношение присоединения (р,г ,6, I, <p, s), как нам известно, представляет собой некоторое средство для зада- задания положения вектора S относительно вектора оси А. Задача процессора преобразования пространства изображения состоит в том, чтобы была обеспе- обеспечена возможность одновременного использования координат вектора S, за- заданных как в системе координат, привязанной к наблюдателю; так и в систе- системе координат, привязанной к вектору А, т. е. чтобы при задании вектора S в одной из систем координат можно было пользоваться и его описанием, представленным во второй системе координат. Эта задача — нетрудная (даль- (дальнейшие подробности, можно найти в работе [151]). Точность определения отношении присоединения с помощью процессора преобразования пространства изображения ограничивается той точностью, с которой век'оры А и S задаются в системе координат, привязанной к наблю- наблюдателю. Поскольку при использовании прямоугольной проекции информа- информация о глубине утрачивается, описания ориентации осей, получаемые по изо- изображения!*', воспроизводимым на сетчатке, с наименьшей точностью указыва- указывают значения углов, под которыми оси наклонены к наблюдателю или от него отклоняю гея. Параметры наклона оси часто удается определять по меньшей мере приближенно, используя данные стереопсиса, затенения, восстановления структуры по движению, а также данные, полученные в результате анализа текстур и контуров поверхности. Для увеличения точности описания накло- наклонов можно также использовать и те ограничения, которые выявляются в ре- результате осуществления процесса распознавания. Мы обсудим эту возмож- возможность ниже при рассмотрении проблемы взаимодействия процессов построе- построения трехмерной модели и распознавания. Индексирование и каталог трехмерных моделей При распознавании используется некоторая совокупность описаний трех- трехмерных моделей, которые хранятся в памяти, а также различные индексы, характеризующие эту совокупность и позволяющие устанавливать соответст- соответствие нового описания некоторому описанию, входящему в эту совокупность. Эту совокупность вместе с ее индексами мы будем называть каталогом трех- трехмерных моделей. Хотя наши знания по поводу того, какую информацию можно извлекать из изображения, все еще ограничены, по-видимому, целесо- целесообразно использовать главным образом три пути доступа в каталог, которые определяются использованием индекса специфичности, индекса присоедине- присоединения и индекса происхождения соответственно. На множестве всех трехмерных моделей можно задать иерархическую классификацию в соответствии с точностью той информации, которую они содержат; такая классификация может быть использована в качестве основы для введения индекса, который мы будем называть индексом специфичности. На рис. 5.10 приведен пример иерархии такого рода, заданной на моделях форм тел нескольких живых организмов. Верхний уровень иерархии содер- содержит наименее дифференцированное из имеющихся описаний — трехмерную 323
модель, не имеющую разбиения на отдельные компоненты. Определена лишь ось модели, и, следовательно, эта модель позволяет описывать объект любой формы. На следующем уровне детализации представлены различные конеч- конечности, а также обобщенные формы четвероногого, двуногого и птицы. Эти описания обладают наибольшей чувствительностью к числу осей компонен- Цилиндр 0 Конечность Четвероногое Двуногое Птица Корова Толстая конечность Лошадь Человек Страус Р J Тонкая конечность Жираф Обезьяна Голубь 324
тов, имеющихся в модели, и к их расположению относительно главной оси (которой для формы тела большинства животных служит туловище), при- причем относительно длин и ориентации компонентов имеется информация лишь самого приблизительного характера. При переходе в этой иерархии еще на один уровень вниз описания становятся более чувствительными к значениям углов и длин, и в результате появляется возможность различать, в частности, лошадь, жирафа и корову по форме тела. Для того чтобы устано- установить соответствие какой-либо новой модели и какой-либо из моделей, хра- хранящихся в каталоге, необходимо, начав с верхнего уровня иерархии, продви- продвигаться вниз по ее уровням, проходя через те модели, описания форм которых совместны с описанием новой модели, и продолжая это продвижение вплоть до достижения уровня специфичности (этот уровень определяется точностью информации, содержащейся в новой модели). После того как одна из трехмерных моделей формы объекта выбрана из каталога, ее отношения присоединения обеспечивают доступ к трехмерным моделям компонентов выбранной модели использованием расположения, ориентации и относительных размеров этих компонентов. Таким образом образуется еще один путь доступа к моделям, хранящимся в каталоге; -этот путь отождествляется с использованием индекса присоединения. Он указыва- указывает, в частности, что два аналогичных компонента, расположенные в передней части модели четвероногого, являются обобщенными моделями конечностей и что применительно к модели лошади они уже имеют более специфический характер моделей конечностей пощади. Итак, индекс присоединения полезен тем, что компенсирует отсутствие форм компонентов формы объекта до то- того, как трехмерные модели этих компонентов строятся по изображению. Индекс присоединения полезно использовать также и в тех случаях, когда доступ к модели каталога с помощью индекса специфически невозможен из-за неадекватности описания, построенного по изображению (эта неадек- Рис. 5.10. Для того чтобы процесс распознавания, обеспечивающий установление соот- соответствия описания формы нового объекта и описаний форм известных объектов, мог служить надежным источником информации о форме, он должен быть консервативным. Эта диаграмма иллюстрирует организацию (или индексирование) описаний форм объек- объектов, хранящихся в памяти, в соответствии с их специфичностью. В верхнем ряду поме- помещено самое общее описание формы объекта, которое содержит информацию лишь о размерах и ориентации объекта в целом. Поскольку внутренняя структура формы объ- объекта никак не оговаривается, формы всех объектов в равной степени поддаются описа- описанию. Описания, помещенные во втором ряду, содержат информацию о числе осей ком- компонентов и их расположении относительно главной оси, что позволяет различать целый ряд конфигураций по форме (в данном примере приведено несколько таких форм). На этом уровне отражаются ограничения лишь самого общего характера и касаются они относительных размеров компонентов и углов, определяющих их взаимное расположе- расположение. Эти параметры уточняются на третьем уровне, в результате чего появляется воз- возможность различать, например, по форме тела лошадь и корову. Соответствие новой трехмерной модели и одной из моделей, входящей в каталог, устанавливается в процес- процессе продвижения от верхнего уровня вниз настолько глубоко, насколько это позволяет информация, содержащаяся в новом описании На этом этапе может происходить развет- -* вление, в результате чего возникает новый класс форм {151 ] 325
ватность может возникнуть из-за очень слабой структурированности компо- компонента) . Третий путь доступа, который мы считаем важным, противоположен вто- второму и отождествляется с использованием средства, названного нами индек- индексом происхождения трехмерной модели. После того как некоторый компо- компонент формы объекта распознан, он может служить источником информации о том, какой могла бы быть форма объекта в целом. Так, например, грех- мерная модель лошади, введенная в каталог, может быть индексирована с помощью трехмерной модели каждого из ее компонентов, и, следовательно, трехмерная модель ноги лошади обеспечивает доступ к трехмерной модели формы лошади. Этот индекс оказывается существенным в случае, рассматривавшемся выше, т. е. в ситуации, когда главная ось формы загорожена либо подверга- подвергалась перспективному сокращению. Если лошадь расположена относительно наблюдателя анфас, то он, не обратив внимания на оси корпуса и задних ног, может по ошибке выбрать в качестве главной ось шеи лошади. Если не при- принять специальных мер, то в этом случае индекс специфичности не обеспечит возможности обратиться к модели лошади, содержащейся в каталоге. Разум- Разумная стратегия здесь заключается в применении процедуры вывода к компо- компонентам изображения. Применительно к данному примеру это привело к полу- получению трехмерных моделей головы, шеи и двух передних ног. Каталогизиро- Каталогизированные модели, головы и ног, скорее всего, должны отыскиваться с помощью индекса специфичности, причем каждая из них посредством индекса проис- происхождения определяется в качестве некоторого компонента трехмерной моде- модели четвероногого либо трехмерной модели лошади (в зависимости от качест- качества моделей компонентов, полученных в результате реализации процесса вы- вывода) , что обеспечивает надежную основу для анализа модели формы четве- четвероногого или лошади в целом. Важно иметь в виду, что индекс присоединения и индекс происхождения играют второстепенную относительно индекса специфичности роль — послед- последний лежит в основе нашего подхода к распознаванию. Как мы убедимся ни- ниже, значение этих индексов заключается в основном в том, что они обеспечи- обеспечивают контекстные ограничения, которые используются в процессе вывода (например, указывают, где может находиться главная ось в тех случаях, когда такую информацию невозможно получить непосредственно из изобра- изображения) . Эти индексы не служат препятствием для точного описания и распоз- распознавания новых составных форм, например, таких, как, кентавр (тело лоша- лошади в сочетании с верхней частью туловища человека). Может оказаться полезным введение в каталог и других индексов, скажем основанных на цветовых или текстурных характеристиках (таких, как поло- полосы зебры) или даже признаках незрительного характера (таких, как звуки, используемые живогаыми), однако рассмотрение подобных индексов лежит за пределами нашего исследования. 326
Взаимодействие между процессами вывода и распознавания До сих пор мы рассматривали получение трехмерной модели независимо от процесса, устанавливающего связь полученной модели с моделями, вклю- включенными в каталог трехмерных моделей. Мы считаем распознавaiтле процес- процессом, который осуществляется постепенно посредством продвижения от об- общего к специфическому, частично перекрывается с процессом построения описания по изображению, управляет последним и задает для него ограниче- ограничения. После того как с помощью одного из трех рассмотренных индексов из каталога выбрана соответствующая модель, было бы желательно использо- использовать ее для того, чтобы повысить качество анализа изображения. Эту проце- процедуру можно осуществлять в два этапа: во-первых, следует соотнести оси компонентов, определенные по изображению, с отношениями присоедине- присоединения, выбранными из каталога; во-вторых, следует использовать процессор преобразования пространства изображения для объединения ограничений, ко- которые можно получить из изображения, с ограничениями, определяемыми моделью, с тем чтобы построить некоторый новый набор выведенных отно- отношений присоединения, обладающих большей специфичностью, чем отношения присоединения, содержащиеся в каталожной модели. Этот второй этап пред- предусматривает анализ ограничений, которым должны удовлетворять отноше- отношения присоединения, совместные как с рассматриваемым изображением, так и с информацией, включенной в каталог. Собственно идея использования при интерпретации изображения запоминаемой модели формы объекта впер- впервые была реализована Робертсом [202] в программе ЭВМ для построения описаний яркостных переходов в формах конфигураций, образованных ку- кубиками, клиньями и шестиугольными призмами, по изображениям таких конфигураций. Установление соответствия между изображением и каталожной моделью Первый из упоминавшихся в предыдущем разделе этапов можно рассмат- рассматривать как решение некоторой гомологической задачи, состоящей в том, что отношения присоединения каталожной модели должны быть соотнесены с осями, определенными по изображению. Это решение может быть неполным. Так, например, оси ног легко идентифицируются на силуэте лошади по виду сбоку, однако обычно не удается различать левую и правую ноги, не обраща- обращаясь к дополнительной информации. Часто, однако, такая неоднозначность оказывается допустимой, поскольку соответствующие отношения присоеди- присоединения для обеих ног имеют идентичные описания общей ориентации (отлича- (отличаются лишь местоположения), а последние и составляют всю ту информацию, которая используется при дальнейшем анализе. В процессе реализации процедур вывода-распознавания происходит рост информации, пригодной при установлении соответствий между изображени- изображением и моделью. Вначале приоритет отдается информации, характеризующей положение компонентов относительно главной оси фигуры, составленной из палочек, поскольку этот вид информации в наименьшей степени подвергает- 327
ся искажениям, возникающим при использовании центральной проекции. Кроме того, с самого начала можно использовать следующие сведения: 1) от- относительную толщину форм, "обрамляющих" оси отдельных компонентов (шея лошади много толще ее ног); 2) допустимые разбиения осей компо- компонентов на более мелкие элементы (хвост и ноги лошади в первом приближе- приближении можно рассматривать как прямые, но верхняя часть тела должна обяза- обязательно включать два компонента, которые всегда образуют друг с другом достаточно большой угол); 3) симметричность или одинаковость (толщина ног лошади одинакова, а сами ноги расположены приблизительно параллель- параллельно — поэтому их длина и расположение на изображении примерно одинако- одинаковы, что отличает их от хвоста); 4) большие различия в значениях угла <р, вхо- входящего в отношение присоединения (на изображении ноги и хвост лошади обычно расположены по одну сторону корпуса, а шея — по другую). Взятые все вместе, эти данные обычно оказываются достаточными, для того чтобы установить соответствие между основными компонентами трехмерной моде- модели и осями, найденными по изображению. Индексы присоединения и происхождения также могут служить источни- источниками гомологической информации. При извлечении из каталога трехмерной модели с помощью индекса присоединения направление соответствующей оси компонента определяется автоматически. Так, например, когда анализ изображения лошади доходит до одной из ног, направление оси ноги опреде- определяется ее соединением с туловищем лощади (часть ноги, на которой располо- расположено копыто, удалена от места ее соединения с туловищем). При использова- использовании индекса происхождения для выбора модели из каталога на основе отож- отождествления отдельных компонентов форм установление попарных соответст- соответствий таких идентифицированных компонентов существенно ограничивает воз- возможности установления попарных соответствий для остальных компонентов. Так, например, при расположении лошади относительно наблюдателя в анфас положение туловища, которое на изображении не видно, можно определить, опираясь на расположение головы, шеи и передних ног. Анализ, основанный на использовании ограничений После того как установлена гомологичность трехмерной модели и изобра- изображения, хотелось бы использовать эту информацию таким образом, чтобы это дало возможность задать ограничения для допустимых значений углов накло- наклона осей. Основная идея при этом заключается в том, что зачастую лишь для очень небольшого числа комбинаций, составленных из значений углов накло- наклона осей, спроецированных на изображение, отношения присоединения, полу- полученные по изображению, будут совместны с отношениями присоединения, предлагаемыми каталожной моделью. Это утверждение эквивалентно тому, что достаточно часто имеется лишь небольшое число ориентации главной оси каталожной модели (относительно наблюдателя), при которых оси их ком- компонентов хорошо согласуются с проекциями осей на изображении. Объединенной информации, поступающей из изображения и каталожной модели, часто оказывается достаточно для однозначного (с точностью до симметричного расположения относительно плоскости изображения) опреде- 328
ления наклонов осей. Такт, например, на рис. 5.11, л представлен годограф ориентации вектора А (относительно наблюдателя), совместных с углом на- наклона 90° вектора А относительно вектора Бис углом 47° между их проек- проекциями на плоскость изображения. На рис. 5.11, б представлены допустимые ориентации при угле наклона 45° и угле между проекциями, равном —111°. На рис. 5.11, в приведены данные, характеризующие пересечение двух ука- указанных наборов значений. Жесткость этих ограничений зависит от конкретно- конкретного значения угла, под которым ведется наблюдение (как следует из других примеров, приведенных на этом рисунке), и от конкретных отношений при- присоединения соответствующей трехмерной модели. В общем случае наиболее жесткими ограничения становятся, когда ориентации осей компонентов раз- различаются очень существенно, а главные оси не лежат в плоскости изображе- изображения. Известно несколько алгоритмов, позволяющих использовать такие ограни- ограничения. Простейшим, вероятно, является алгоритм, основанный на релаксаци- релаксационной процедуре, которая обеспечивает коррекцию ориентации вектора А ме- методом последовательных приращений посредством поиска тех положений, при которых проекции углов между осями компонентов каталожной моде- модели, определенные процессором преобразования пространства изображения, наилучшим образом согласуются с проекциями углов, полученными с по- помощью изображения фигуры, построенной из палочек. На этом этапе вектор А будет указывать ориентацию главной оси, наилучшим образом соответствую- соответствующую всем названным ограничениям; процессор преобразования пространства изображения может использовать второй вектор (S) для определения ориен- ориентации каждой из осей компонентов, опираясь на присоединения, входящие в каталожную модель. При достаточно жестких ограничениях эта градиентная процедура эффективно сходится. С другой стороны, вместо того чтобы применять процедуру релаксации к ориентации главной оси каталожной модели, можно применять ее к углам наклона палочек, определяемым по изображению. В этом случае степень рас- расхождения определяется сравнением отношений присоединения, полученных для палочек на изображении, с соответствующими отношениями присоеди- присоединения, выбранными из каталожной модели. Этот подход представляет инте- интерес в связи с тем, что все преобразования, осуществляемые процессором пре- преобразования пространства изображения, имеют одно и то же "направление" (от координат, привязанных к наблюдателю, к координатам, привязанным к объекту). На последнем шаге уточненную информацию об ориентации можно использовать для извлечения из изображения дополнительной информации. В частности, после того как определены ориентации осей, можно вычислить относительные значения их длин. В целом процесс распознавания можно описать следующим образом. Вначале из каталога выбирается модель, характеризующая распределение компонентов по длине главной оси. Далее эта модель используется для полу- получения ограничений, касающихся взаимной ориентации компонентов, что по- позволяет определять абсолютную ориентацию (по отношению к наблюдателю) 329
ffr л A A 180c 135" 90° 180* 135* 90е 180е 135е 90° Кл 180е 135е 90' 180е 135е 90° L^ 90° 45° 0° 90° '\ 180° 135е 90° 'Л Т~1 135е 90е 45' 135е 90' 135' 90е 90° 45° 0° ж) 90° 45° 0° з) 45 90° 45° 0° 90° 45° 0° "90° 45° 0° а) б) в) 45° 0° 90° 45° д) е) 0° 90° 45° 0° и) осей компонентов на изображении. Последняя информация может послужить основой для вычисления относительных значений длин осей компонентов с помощью процессора преобразования пространства изображения. Информа- Информацию, полученную таким образом, можно затем использовать для различения форм на следующем уровне индекса специфичности. 330
Рис. 5.11. Если известны пространственный угол наклона i, образуемый вектором S с осью А, а также проекция этого угла на плоскость, то ориентация системы координат, связанной с остью А, относительно наблюдателя существенно ограничена: а — ориентации, допустимые при угле наклона, равном 90 , и том угле на соответствую- соответствующем изображении фигурки из палочек, который обозначен жирными отрезками пря- прямых; допуск по углу на изображении составляет 5° (горизонтальные оси графиков ха- характеризуют углы отклонения оси А от плоскости изображения в направлении наблюда- наблюдателя; вертикальные оси графиков характеризуют поворот системы координат относи- относительно оси А) ; б — ориентации, совместимые со значением угла наклона t = 45 и види- видимым на изображении углом, образуемым осями туловища и шеи; в — пересечение двух наборов ориентации, определяющее малый диапазон ориентации, соответствующих углу отклонения от плоскости изображения около 67° (существует еще одно решение, не показанное на этом рисунке, при котором угол отклонения от плоскости изображения составляет около —67°). Второй и третий ряды графиков и изображений иллюстрирует результаты аналогичного анализа при углах отклонения от плоскости изображения, рав- равных соответственно 45 и 0°. Таким образом, двухмерную информацию, извлеченную из изображения, и значения углов, которые содержаться в трехмерных моделях, хранящих- хранящихся в памяти, можно объединять, что иногда приводит к получению довольно точной информации о расположении в пространстве формы наблюдаемого объекта по отноше- •^ нию к наблюдателю [151] 5.6. ПСИХОЛОГИЧЕСКИЕ АСПЕКТЫ ПРЕДСТАВЛЕНИЯ ФОРМ ОБЪЕКТОВ ПРИ РАСПОЗНАВАНИИ При изучении первоначального эскиза и процессов, обеспечивающих из- извлечение информации о свойствах поверхностей объектов из изображений, представляемых в таком виде, большим подспорьем для нас служили экспе- экспериментальные данные, которыми располагают нейрофизиология и психофи- психофизика, а также тщательный информационный анализ того, что в действитель- действительности можно получать на основе доступной информации. Наш подход в зна- значительной мере основывается на принципе модульной конструкции [145], который утверждает, что всякий обшир ый процесс обработки информации должен расчленяться на ряд локальных, практически автономных и специа- специализированных подпроцессов. В основу анализа были положены психофизи- психофизические данные и повседневный опыт, указывавшие, какими могли бы быть соответствующие модули, причем главный тезис заключался в том, что при отсутствии модульной организации процессов обработки зрительной инфор- информации последовательное внесение изменений в их "конструкцию" (вероятно, принципиальное условие их эволюционного совершествования) не позволило бы добиться улучшения одних характеристик зрительного аппарата без одно- одновременного ухудшения целого ряда других. К сожалению, биологические науки в состоянии сообщить нам очень не- немного относительно проблем, возникающих в связи с указанными особен- особенностями зрительных процессов. В сущности, ничего не известно о физиологи- физиологических и анатомических структурах, обеспечивающих синтез трехмерных зрительных описаний наблюдаемого мира, причем даже наилучшая из имею- имеющейся психологической информации носит по большей части анекдотический характер и добывается в основном в результате неврологических, а не психо- психофизических исследований. 331
Я считаю, однако, очевидным, что мозг должен строить трехмерные пред- представления объектов и пространства, ими занимаемого. Как заметил Садер- ленд [224], существуют по меньшей мере две основательные причины для то- того, чтобы это было именно так. Во-первых, чтобы живые организмы имели воз- возможность манипулировать различными объектами и не налетать на них, они должны обладать способностью воспринимать и представлять расположение поверхностей объекта в пространстве. Отсюда следуют минимальные требова- требования к представлению типа 2,5-мерного эскиза. Во-вторых, чтобы распознать не- некоторый объект по его форме и оценить исходя из результатов распознавания его роль в последующем "действии", по изображению должна быть построе- построена какая-либо разновидность трехмерного представления, которое затем каким-либо способом должно быть сопоставлено с хранящимся в памяти трехмерным представлением, причем последнему уже поставлена в соответст- соответствие и другая дополнительная информация. Как мы уже установили, процес- процессы синтеза и сопоставления не поддаются строгому разделению, поскольку процесс синтеза некоторого трехмерного представления может естествен- естественным образом включать постоянное обращение за консультацией к каталогу, содержащему все более специфические формы объектов. Эти обстоятельства вынуждают нас при изучении проблем указанного ха- характера в значительной степени полагаться на тщательный анализ требований, предъявляемых к обработке и представлению информации. Говоря без оби- обиняков, существенные ограничения определяются тем, для чего соответствую- соответствующее представление предполагается использовать. Итак, нас интересовали требования, которым должно отвечать представле- представление формы объекта, чтобы его можно было использовать при распознавании, и мы пришли к трем основным выводам. Представление формы объекта, подходящее для распознавания, должно-: 1) использовать некоторую систему координат, привязанную к объекту; 2) включать объемные непроизводные элементы различных размеров; 3) иметь модульную организацию. Непосредст- Непосредственным следствием этих условии является представление, основанное на ис- использовании естественных осей формы объекта (например, тех осей, кото- которые определяются фигуркой, построенной из палочек). Кроме того, как мы убедились, основной процесс, обеспечивающий получение описания формы объекта в таком представлении, должен включать средства идентификации естественных осей формы объекта по его изображению и некоторый механизм, позволяющий преобразовывать описания, задаваемые в системе координат, привязанной к наблюдателю, в описания, заданные в системе координат, при- привязанной к объекту. И наконец, мы установили, что собственно процесс распознавания пред- представляет собой некоторую смесь процедур непосредственного получения ин- информации о форме объекта из изображения и "развертывания" запоминае- запоминаемых трехмерных моделей, степень детализации которых постепенно увеличи- увеличивается в ходе процесса распознавания — вывода описаний. Таким образом, принципиальную роль в этом процессе играют совокупность запоминаемых описаний формы объектов и ряд индексов, заданных на этой совокупности и позволяющих устанавливать соответствие между некоторым новым (вьгое- 332
Рис 5.12. Иллюстрация влияния выбора системы координат, при- привязанной к объекту, на воспри- восприятие формы. Черные фигуры мо- могут восприниматься как ромбы или квадраты, в зависимости от того, какая из их нескольких естественных осей использована денным) описанием и соответствующим описанием, хранящимся в памяти. Наиболее важный из этих индексов обеспечивает возможность распознавания формы объекта в процессе постепенного перехода от общего к специфичес- специфическому, основанного на использовании специфики информации, извлекаемой из изображения. Имеются два подхода, с помощью которых можно попытаться экспери- экспериментально проверить конструктивность этих идей применительно к процес- процессам распознавания, реализующимся в зрительной системе человека. Можно попробовать выяснить, какого рода информация используется в явном виде в тех представлениях, которыми оперирует зрительный процесс, либо попро- попробовать отыскать некий коррелят процессов распознавания, обеспечивающий вывод этих представлений и выполнение над ними соответствующих опера- операций, действуя в духе исследования мысленного вращения, выполненного Шепардом. Первый подход обладает большей фундаментальностью. Исполь- Используется ли трехмерное представление, имеет ли оно модульную организацию и привязано ли оно к объекту? Для того чтобы получить ответы на эти вопро- вопросы, еще предстоит выполнить соответствующие эксперименты, однако на трех наблюдениях стоит остановиться сейчас. Во-первых, фигуры животных, построенные из палочек (типа приведен- приведенных на рис. 5.1), обычно легко распознаются, несмотря на ограниченность информации о форме, в них содержащейся. Хотя это и не доказывает, что в основе зрительного процесса, используемого человеком, лежат фигуры из па- палочек, отсюда на самом деле следует, что информация, содержащаяся в таких фигурах из палочек, играет в нем важную роль. Во-вторых, иллюзии, подобные приведенной на рис. 5.12 (на нее впервые обратил внимание Эрнст Мах), свидетельствуют о том, что описания локаль- локальной информации о форме объекта привязываются к осям, задаваемым более глобально. В ряду, помещенном на рисунке справа, объекты выглядят как ромбы, а на диагонали (слева) они воспринимаются как квадраты. Следова- Следовательно, в процессе анализа этого образа строится диагональная ось; это ока- оказывает влияние на описание форм локальных элементов и потому, возмож- возможно, последнему предшествует. В-третьих, Уоррингтон и Тейлор [243] обратили внимание на затруднения, с которыми сталкивались их пациенты, имевшие поражения теменной доли правого полушария при интерпретации некоторых изображений самых обыч- обычных объектов, названных Уоррингтон и Тейлором необычными. Так, в част- частности, эти пациенты были не в состоянии распознать ведро по его виду свер- сверху (см. рис. 5.9, в), причем они отрицали, что на рисунке изображено ведро, 333
даже тогда, когда им говорили, что оно там изображено. На способностях же воспринимать изображения типа приведенного на рис. 5.9, а эти нарушения практически не отражались. Как отмечают Уоррингтон и Тейлор, такое раз- различие не поддается простому объяснению с помощью аргументов, связанных с тем, что изображенный предмет хорошо известен пациенту, или с тем, что восприятие глубины нарушается,,поскольку оба изображения ведра нормаль- нормальны, а глубина столь же существенна для трехмерной структуры изображения, приведенного на рис. 5.9, а, как и для трехмерной структуры изображения, приведенного на рис. 5.9, в. Если, однако, внутреннее представление формы объекта, используемое при распознавании, основывается на естественных осях этой формы, то правильное описание второго изображения вызывает большие затруднения, так как в этом случае главная ось подвергается перс- перспективному сокращению. Если это объяснение верно, то необычные изобра- изображения объектов по Уоррингтон и Тейлору — это изображения, на которых какая-либо из важных естественных осей формы объекта подвергается перспективному сокращению; в результате пациенту становится трудно най- найти или вывести описание формы изображенного объекта в канонической системе координат. ГЛАВА 6 ОСОБЕННОСТИ МЕТОДА Мы завершили изложение нашего нового информационного подхода к проблеме зрения. И хотя это изложение содержит немало "разрывов", я на- надеюсь, что оно обладает целостностью, позволяющей читателю получить до- достаточно определенное представление о нашем подходе и приступить к оцен- оценке его ценности. В этой очень короткой главе дана самая общая характерис- характеристика всего подхода в целом, рассмотрены его важнейшие и наиболее общие характерные особенности, а также их взаимосвязь, кроме того, предпринята п)пытка остановиться и на стиле исследования, вытекающего из сути подхо- подхода Было бы удобно сосредоточить обсуждение на четырех основных момен- моментах. .Первый из них постоянно возникал на протяжении всего изложения — кон- концепция различных уровней объяснения. Центральный принцип нашего подхо- подхода заключается в том, что для понимания того, что представляет собой зрение и каким образом оно действует, недостаточно использовать лишь какой-то один уровень объяснения. Недостаючно ни уметь описывать ответы отдель- отдельных нервных клеток, ни уметь давать локальные прогнозы результатов психофизического эксперимента, недостаточно даже уметь писать программы для ЭВМ, действующие приблизительно так, как это требуется. Необходимо располагать всеми этими возможностями и одновременно в самой полной мере учитывать еще один уровень объяснения, который назван нами уровнем информационной теории. Осознание и существования, и важности этого уров- уровня представляет собой один из важнейших аспектов нашего подхода. Поняв это, можно в явном виде сформулировать три уровня объяснения (информа- 334
ционная теория, алгоритм и реализация), после чего станет ясно, каким образом эти три различных уровня соотносятся с различными разновидностя- разновидностями экспериментальных наблюдений и теоретического анализа, которые могут выполняться. Я определенным образом выделяю уровень информационной теории не потому, что считаю его по существу более важным, чем два других уровня (истинная сила нашего подхода состоит в объединении всех трех уровней наступления на проблему зрения), а потому, что существование именно этого уровня прежде не осознавалось и соответственно ему не уделя- уделялось внимания. Следовательно, освоение этой идеи может вызывать у нович- новичков в нашей области наибольшие затрудения,и уже только в силу одной этой причины ее значение должно соответствующим образом подчеркиваться во всяком вводном курсе, каковым данная книга и задумана. Второй важный момент состоит в том, что, приняв информационную точ- точку зрения, мы оказались в состоянии довольно четко сформулировать об- общую структуру зрительного процесса. Основу концепции, определяющей эту структуру, составляет представление о том, что все принципиальные пробле- проблемы зрения связаны с природой используемых представлений (т. е. тех кон- конкретных характеристик реального мира, которые в процессе зрительного восприятия переводятся в явную форму) и природой процессов, обеспечива- обеспечивающих выделение этих характеристик, получение представлений, выполнение над ними различных операций и в конечном счете — "чтение" этих представ- представлений. Проанализировав пространственные аспекты проблемы зрения, мы пришли к общей структуре процесса обработки зрительной информации, базирующейся на использовании трех основных представлений: 1) первона- первоначального эскиза, предназначенного для представления в явном виде характе- характеристик двухмерного изображения, начиная со степени и местоположения из- изменений яркости на нем и кончая представлением локальных геометричес- геометрических свойств изображения с помощью непроизводных элементов, причем в наиболее сложных случаях первоначальный эскиз может включать некоторое иерархическое описание какой-либо структуры высшего порядка, заключен- заключенной в соответствующих распределениях отражательной способности; 2) 2,5- мерного эскиза, привязанного к наблюдателю представлением глубины и ориентации видимых поверхностей и включающего контуры нарушений не- непрерывности значений этих характеристик; 3) представления трехмерной модели, существенными особенностями которого являются привязка систе- системы координат к объекту, использование объемных непроизводных элемен- элементов (это позволяет выявить организацию пространства, занимаемого объек- объектом, а не только его наблюдаемых поверхностей), причем непроизводные элементы могут иметь различные размеры и организуются в виде некоторой модульной иерархической структуры. Третий важный момент связан с изучением процессов, обеспечивающих определение различных физических характеристик сцены по ее изображени- изображениям. Решающим элементом в построении информационных теорий подобных процессов является выявление достоверных ограничений, определяющих ха- характер развития событий в реальном мире и обеспечивающих в связи с этим дополнительную информацию, необходимую для получения искомых харак- 335
теристик. В гл. 3 было приведено множество соответствующих примеров, значение которых было систематизировано в табл. З.З.Сила анализа данного типа состоит в том, что выявление эффективных и достаточно универсаль- универсальных ограничений обеспечивает получение результатов, касающихся зрения, которые отличаются такой же надежностью, как и результаты, получаемые в других науках. Более того, после того как сформулирована информационная теория неко- некоторого процесса, можно создать реализующие ее алгоритмы и сопоставить их характеристики с характеристиками зрительной системы человека. Такой метод позволяет получать результаты двух типов. Во-первых, если эти харак- характеристики по существу идентичны, то это является веским свидетельством в пользу того, что ограничения, заложенные в соответствующую информаци- информационную теорию, эффективны и могут в неявном виде использоваться зритель- зрительной системой человека; во-вторых, если некоторый процесс соответствует тому, что наблюдается у человека, то он, вероятно, достаточно хорош для то- того, чтобы войти в состав некоторой универсальной системы машинного зрения. Последний важный момент связан с методологией или стилем подхода такого типа, как наш; он касается двух важных наблюдений. Во-первых, речь идет о двойственности, присущей представлениям и процессам, что наглядно продемонстрировано на рис. 6.1; она часто является полезным средством для выбора оптимального способа исследования некоторой конкретной проб- проблемы. Как при изучении представлений, так и при изучении процессов задачи общего характера часто возникают в связи с повседневным опытом или психофизическими либо даже нейрофизиологическими результатами весьма общего характера. Подобные данные часто могут приводить к построению некоторого конкретного процесса или теории представления, отдельные при- примеры которых могут быть реализованы в виде программы ЭВМ или подверг- подвергнуты тщательному психофизическому исследованию. Если мы в достаточной степени уверены в правильности соответствующего процесса или представле- представления на таком уровне, то можем перейти к детальному изучению его реализа- реализации, что связано с решением важнейших и очень сложных задач нейрофизио- нейрофизиологии и нейроанатомии. Второе наблюдение состоит в том, что не существует действенных рецеп- рецептов для выполнения исследований такого типа (несмотря на то, что иногда я допускал их существование) — не существует чего-либо, выходящего за пределы обычных процедур получения научных результатов, справедливых для любой науки. Действительно, в некоторой мере наслаждение, получаемое от занятий наукой, определяется тем, что нам никогда не известно наверня- наверняка, откуда может возникнуть ключ к решению очередной проблемы: будет ли это элемент повседневного опыта, сообщение о неврологическом недос- недостатке, теорема, касающаяся геометрии трехмерного пространства, результат психофизического изучения повышенной остроты зрения, нейрофизиологи- нейрофизиологические данные или тщательный анализ проблемы представления. Все эти раз- разновидности информации играют существенную роль в формировании кон- концепции, описываемой в данной книге. И, как можно предполагать, все они будут продолжать вносить свой вклад в развитие этой концепции, причем 336
Повседневный опыт, обобщенные данные психофизических экспериментов Проблема представления Информационная проблема Характер информации, подле жащей представлению в яв- явном виде Информационная теория про цессы и ограничения Конкретное представление (поддается программной pea лизации) h Конкретный алгоритм (поддается программной реа- реализации) Детализированные психофизические данные Конкретный нервный механизм К Н Конкретный нервный механизм Детализированные нейрофизиоло гические и нейроанатомические данные J Рис. 6.1 Схема, иллюстрирующая связи представлений и процессов взнос этот будет как чрезвычайно интересным, так и непредсказуемым. Я лишь надеюсь, что эти замечания могут побудить некоторых из читателей данной книги присоединиться к нам в нашем волнующем предприятии и раз- разделить наш труд, посвященный решению очень трудной, но благодарной за- задачи — раскрытию тайн зрительного восприятия человека.
ЧАСТЬ III ЗАКЛЮЧЕНИЕ ГЛАВА 7 ОБОСНОВАНИЕ ПРАВИЛЬНОСТИ ИНФОРМАЦИОННОГО ПОДХОДА К ПРОБЛЕМЕ ЗРЕНИЯ 7.1. ВВЕДЕНИЕ В первой и второй частях этой книги я предпринял попытку изложить до- достаточно подробно подход к изучению зрительного восприятия, заключаю- заключающийся в том, что оно рассматривается главным образом как задача обработ- обработки информации. Я старался в процессе изложения отвечать на наиболее часто возникающие вопросы, однако опыт, приобретенный мной в попытках разъ- разъяснения сути этого подхода в процессе чтения лекций и дискуссий, застав- заставляет предполагать, что у читателя еще могут быть сомнения и вопросы, остав- оставшиеся без ответа, хотя они и могут сводиться к самым простым замечаниям типа того, что вся схема выглядит слишком искусственной или — на противо- противоположном полюсе мнений — маловыразительна. Если бы мы, однако, останавливались на всех возможных возражениях, то это в слишком сильной степени нарушило бы наше изложение. Поэтому я счел за благо вынести ответы на такие возражения в отдельный раздел, по- построив его в виде дискуссии сторонника информационного подхода с челове- человеком, относящимся к нему скептически. Ее основу составляют беседы, в ко- которых участвовали Франсис Крик, Томазо Поджо и я, но эта сконструирован- сконструированная дискуссия отнюдь не следует им буквально, а мой воображаемый оппо- оппонент объединяет в себе черты целого ряда реальных людей. Наша дискуссия структурирована в не очень значительной степени и охватывает множество проблем, но, по-видимому, это неизбежно. 7 2. ДИСКУССИЯ Не начать ли нам с идеи уровней объяснения, поскольку Вы придаете ей столь большое значение?Каким образом она связана с представлениями о де- детекторах признаков, в частности с первым постулатом Хораса Барлоу [9, р. 380], гласящим: "Описание деятельности отдельной нервной клетки, резуль- результаты которой передаются в другие нервные клетки и влияют на их деятель- деятельность, а также ответ нервной клетки на воздействия, оказываемые на нее ак- активностью других нервных клеток, обладают полнотой, достаточной для функционально понимания нервной системы "? 338
Я не могу, естественно, согласиться с этой формулировкой Барлоу, хотя полностью разделяю одно из положений, лежащих в ее основе, а именно что единственный феномен, поддающийся наблюдению, — это деятельность нерв- нервных клеток, поскольку именно они являются первичными коррелятами вос- восприятия. Этот постулат Барлоу, однако, не в состоянии охватить анализ на первом уровне — на уровне информационной теории. Невозможно понять стереопсис, рассматривая исключительно нейроны. Необходимо при этом принимать во внимание единственность, непрерывность и основную теорему стереопсиса. Невозможно понять процесс восстановления структуры по дви- движению, не зная результата типа теоремы о восстановлении структуры по дви- движению, показывающего, почему такое явление возможно. Кроме того, у ров - невый подход вводит усилия исследователя в рамки строгой интеллектуаль- интеллектуальной дисциплины, а это обстоятельство чрезвычайно важно для исследователя. До тех пор пока Вы оперируете категориями механизмов или нейронов, Ваш анализ чреват сравнительной неточностью. Вспомним о морали, которую мы вынесли из анализа схем нижнего уров- уровня стереопсиса, рассматривавшихся в разд. 3.3! Ни в одной из них информа- информационная задача не была точно поставлена на высшем уровне, и почти все пред- предложенные схемы на самом деле предусматривали выполнение совсем не той обработки информации, какая была нужна. Другим примером служит кон- концепция сегментации, обеспечивающая разбиение изображения на отдельные области и выделение на нем объектов. На эту концепцию была затрачена мас- масса времени, что привело в конечном счете к созданию множества частных ре- релаксационных методов и методов, основанных на выдвижении и проверке гипотез, которые были предназначены для сращивания отдельных областей изображения в "осмысленные" области (см. гл. 4). И в данном случае проб- проблема состоит в том, что эйфория, связанная с механизмами, предназначен- предназначенными для выполнения каких-либо конкретный функций, оказывается столь сильной, что специалисты начинают ошибочно полагать, что они понимают эти механизмы в степени, достаточной для разработки их аппаратной реализации, точно так же, как это имело место в более простом случае стереопсиса. Реаль- Реальный же прогресс был возможен лишь при обращении к первому уровню, т. е. к построению 2,5-мерного хкиза и связанных с ним средств, а также при ус- условии точной постановки соответствующих задач. Достаточно ли определенно я выразил свою мысль? Концепция уровней имеет решающее значение: не обращаясь к ней, невозможно понять восприя- восприятие — это просто недостижимо на пути мышления в категориях синаптичес- ких пузырьков, нейронов и аксонов, точно так же, как невозможно понять полет, изучая исключительно оперение. Контекст, обеспечивающий правиль- правильное понимание роли оперения, задается аэродинамикой. Еще один ключевой момент состоит в том, что обьяснение всякого явления следует искать на соответствующем уровне. Бессмысленно, например, пытаться достичь пони- понимания быстрого преобразования Фурье, реализуемого на ЭВМ IBM 370, на языке транзисторов. Это просто не имеет смысла, поскольку было бы чрез- чрезвычайно трудно. Возьмем, например, сетчатку. Я утверждаю, что с информационной точки 339
зрения она воспроизводит (по Х-каналам) величину V2G * /и (по К-каналам) ее производную по времени d/dtD2G */). С информационной точки зре- зрения — это точное описание того, что делает сетчатка. Естественно, ей свойст- свойственно множество других функций: она преобразует свет, способна работать в колоссальном динамическом диапазоне, ее центральная ямка обладает очень интересными свойствами, она может перемещаться и т. д. Что именно Вы будете считать разумным описанием функций сетчатки, зависит от той точки зрения, которой Вы придерживаетесь. Лично я адекватным описанием считаю процедуру V2 G, но я занимаю откровенно информационную позицию. Физиолог, специализирующийся на изучении сетчатки, не согласился бы с этим, поскольку хотел бы точно знать, каким образом сетчатка "вычисляет" эту величину. Специалист же по хеморецепции едва ли согласился бы с тем, что анализ такого рода вообще имеет какое бы то ни было отношение к сет- сетчатке! Каждая из точек зрения соответствует определенному уровню объяс- объяснения, и для каждой из них в конечном счете должно быть найдено свое место. Хорошо, я понимаю Вас. Вы просто утверждаете, что первостепенную важ- важность с информационной точки зрения представляет то, что делается и зачем оно делается - именно это и составляет Ваш высший уровень. Подробности реализации соответствующих процессов не столь уж важны с этой точки зрения при том условии, что с помощью этих процессов делается именно то, что требуется. Я бы хотел выразить эту мысль еще категоричнее. На рис. 7.1 приведены три описания, в сущности, одного и того же процесса. В верхней части рисун- рисунка помещено математическое описание, с которым мы очень хорошо знако- знакомы: V2 G * I. На рис. 7.1, б изображен участок сетчатки, реализующий, как мы считаем, именно эту процедуру (по крайней мере, частично). И наконец, на рис. 7.1, в представлен кремниевый кристалл интегральной микросхемы, изготовленной по технологии приборов с зарядовой связью сотрудником научно-исследовательских лабораторий фирмы Hughes Г. Наддом и предназ- предназначенной для выполнения процедуры свертки V2G. Итак, по существу, все три объекта — формула, сетчатка и микросхема — оказываются идентичны- идентичными на самом общем уровне описания их функций. Независимы ли на самом деле различные уровни объяснения7 В сущности, нет, хотя информационная теория некоторого процесса до- довольно независима от алгоритмического уровня и уровня реализации, по- поскольку она определяется исключительно подлежащей решению задачей об- обработки информации. Соответствующий алгоритм, естественно, в очень зна- значительной степени зависит от информационной теории, но он зависит также и от характеристик тех "аппаратных" средств, с помощью которых он должен быть реализован. Так, например, возможно, что биологические механизмы лучше приспособлены для реализации параллельных, а не последовательных алгоритмов, в то время как, очевидно, прямо противоположное можно ска- сказать о средствах современной цифровой электроники. 340
Право, я не могу согласиться с тем, что информационная теория столь независима от других уровней. Точнее, я не могу вообразить, чтобы оказа- оказались возможными две совершенно различные теории некоторого процесса. Теория 1 может существенно превосходить теорию 2, представляющую собой, возможно, всего лишь одну из точек зрения, причем слабо обоснованную, однако может оказаться, что нейронные сети не обеспечивают простой реали- реализации теории 1, но прекрасно воспроизводят теорию 2. В результате тщатель- тщательная проработка теории 1 бказалась бы напрасной тратой сил. где волокна зрительного нерва Ганглиозные нервные клетки Внутренний синаптический слой Амакриновые клетки Биполярные клетки Горизонтальные клетки Наружный синаптический слой Ядра рецепторов Рецепторы Пигментный слой (эпителиальные клетки) б) Рис. 7.1. Математические выражение, описывающее предварительную фильтрацию изо- изображения (в). Поперечное сечение сетчатки, одна из функций которой — реализация вы- выражения а), б). Принципиальная схема кремниевого кристалла интегральной микро- микросхемы, обеспечивающей выполнение процедуры а) со скоростью, соответствующей час- частоте телевизионных кадров (в). V2 — оператор Лапласа; G — гауссиан; / (Jt, у) — изображение; * — символ операции свертки 341
в) Рис 7 1 (окончание) Конечно, вполне возможно, что дело будет обстоять именно таким обра- образом (мне кажется, что именно с таким случаем мы встречаемся в задаче оп- определения формы объекта по данным о затенении). Меня вовсе не удивило бы, если бы оказалось, что решение интегральных уравнений Хорна при опре- определении формы объекта по данным о затенении с помощью нейронных сетей вызывает неоправданные осложнения, в то время как эти же уравнения для простых случаев поддаются решению на вычислительной машине. Человек лишь в очень ограниченной степени способен восстанавливать форму объек- объектов по данным о затенении; соответствующие модели часто строятся на осно- основе упрощенных допущений, которые часто нарушаются (случай вышеупомя- вышеупомянутой теории 2). Тем не менее я не уверен в том, что усилия, затраченные на углубленное исследование, подобное выполненному Хорном, напрасны, даже в данных обстоятельствах. Хотя они и не дают непосредственной информации относительно стратегий восстановления формы объектов по данным о затене- затенении, используемым человеком, такие исследования могут служить источни- источником информации, необходимой в качестве основы для построения рутинных рабочих моделей, используемых нами Что Вы могли бы сказать относительно известных идей, связанных с де- детекторами признаков7 Насколько они согласуются с Вашим подходом7 В историческом плане, я полагаю, понятие признака (я вовсе не хотел бы здесь заниматься его точным определением) сыграло важную роль в отходе наших представлений от концепции полного действия Лешли (согласно кото- 342
рой мозг является некоторой разновидностью мыслящей овсяной каши, причем единственным решающим фактором является количество этой каши, участвующей в работе в соответствующий момент времени) и в переходе на значительно более конкретные позиции, связанные с деятельностью отдель- отдельных нейронов (таких позиций мы и придерживаемся в настоящее время). Эта смена представлений произошла благодаря работам Барлоу [8], Каффле- ра [125], Леттвина с соавторами [133] и, естественно, Хьюбела и Уисела [95, 96] В сущности, их результаты в конечном счете привели к возникнове- возникновению представления, согласно которому одной из функций, выполняемых от- отдельными нервными клетками, является воспроизведение в явном виде со- сообщения о том, что на входе имеется некоторая конкретная и очень специфи- специфическая конфигурация — излагалось же это представление в категориях при- признаков. В связи с основным вопросом* в каких случаях наличие специфической конфигурации на изображении означает, что некоторая специфическая кон- конфигурация реально существует во внешней среде? — возникает, однако, ряд чрезвычайно занимательных проблем. Первая из них (мы уже сталкивались с ней в гл. 1) связана с тем, каким образом описания внешней среды возни- возникают в действительности. Так, например, лягушка фактически пытается об- обнаружить не муху — она отыскивает маленькие движущиеся черные пятнышки подходящего размера Аналогичным образом комнатная муха на самом деле не получает представление наблюдаемого мира, в котором она находится. Она просто вычисляет значения двух параметров (^, Ф), которые вводятся в быстродействующее устройство, порождающее момент вращения, в резуль- результате при преследовании самки муха достаточно часто завершает этот процесс успешно. С другой стороны, совершенно очевидно, что человек действитель- действительно в явном виде определяет характеристики реальных наблюдаемых им по- поверхностей Интересно, что одной из особенностей эволюции зрительных систем является постепенный переход к решению трудной задачи представле- представления все более существенных аспектов наблюдаемого мира Вознаграждением служит рост пластичности зрительной системы, который достигается за счет роста сложности анализа и, следовательно, роста затрат времени и размеров мозга, необходимых для его осуществления. Ограничивается ли, однако, этим то, что можно сказать об идеях, связан- связанных с признаками? Нет, не ограничивается Существует интересный круг проблем, которые в определенной мере побуждают нас вновь обратиться к работам философов, изучавших восприятие, используя категории "сенсорных атомов", объединя- объединяющихся в более крупные "молекулы" сенсорного опыта, которыеи представ- представляют собой те объекты, которые мы в состоянии распознавать. Вероятно, можно было бы выявить некую традицию попыток изучения распознавания, основанного на использовании признаков. Их отправной точкой можно счи- считать идеи Барлоу [8], затем появился метод многомерного шкалирования Краскала [124], Далее следует отметить прекрасную монографию Джардина и Сибсона, посвященную кластер-анализу [105], мои ранние работы по но- 343
вой коре [142] и огромное число работ, посвященных теории статистичес- статистических решений. В чем же состояла главная идея? В ее основе лежала надежда на то, что процесс распознавания может осу- осуществляться следующим образом: Вы смотрите на изображение, выделяете на нем признаки и используете найденные признаки для классификации и, следовательно, распознавания того, что Вы наблюдаете. В основе такого под- подхода лежит некоторое допущение, сводящееся, в сущности, к тому, что ра- разумно заданные классы объектов определяют в некотором многомерном пространстве признаков, координаты которого соответствуют отдельным из- измеримым признакам, выпуклые или почти выпуклые области. Это означает, что "одинаковые" объекты — элементы одного и того же класса — характери- характеризуются признаками, обладающими большим сходством, чем объекты, не яв- являющиеся одинаковыми. Это выглядит вполне логично. Что же было здесь не так? К сожалению, это просто неверно — наблюдаемый мир ведь столь сложен. Неясно, относится признак к изображению или к соответствующему объек- объекту? Различные условия освещения порождают совершенно разные изображе- изображения и точно то же самое можно сказать о различных точках наблюдения. Даже в таком частном случае, как изолированные двухмерные стилизован- стилизованные рукописные символы, трудно установить, что должен представлять со- собой признак. Посмотрите, тю происходит при постепенном переходе от 5 к 6: исчезает угол, сужается промежуток. Практически ни для одной цифры нель- нельзя ограничиться каким-либо единственным признаком. Зрительные описа- описания, необходимые для решения этой задачи, должны быть более сложными и не столь непосредственно связанными с тем, что мы рассматриваем как их естественное представление в виде цепочки штрихов, нанесенных отдельны- отдельными движениями. Следовательно, Ваш главный тезис сводится к тому, что наш мир просто слишком сложен и потому не может служить источником разновидностей анализа, подобных тому, который порождается идеей детектора признаков? Это верно, за исключением, естественно, тех случаев, когда для наблюдае- наблюдаемой среды удается задать жесткие ограничения: освещение, точка наблюде- наблюдения, диапазон, в котором элементы поддаются наблюдению, и т. д. Если это сделано, то можно рассчитывать на получение определенных результатов. В противном случае — нет, причем для того, чтобы удостовериться в этом, приходится очень тщательно изучать публикации, поскольку об отрицатель- отрицательных результатах обычно не сообщается, несмотря на то, что подобные резуль- результаты могут оказаться исключительно важными при оценке перспективности соответствующей стратегии исследования. Какие возможности существуют в тех случаях, когда объект исследова- исследования не позволяет вводить столь жесткие ограничения*! Таких возможностей имеется две: использование более сложного крите- 344
рия принятия решений и использование лучшего представления. Переход к более сложному критерию принятия решений означает отказ от надежд на то, что классы соответствуют выпуклым кластерам признаков, и включение в процесс принятия решений логических механизмов, с тем чтобы вопросы, которые ставятся на определенном этапе процесса классификации, могли формулироваться с учетом полученных к этому моменту ответов. Грубо го- говоря, из этого подхода развился искусственный интеллект. Этот же подход приводит к взгляду на распознавание или классификацию как на разновид- разновидность направления решения задач. Решения, принимаемые в процессе поиска окончательного решения, и пути его поиска существенно зависят от частных результатов, получаемых в процессе определения окончательного решения; эти результаты, в свою очередь, определяют, какую информацию необходимо использовать, для того чтобы процесс решения продолжался. В гл. 5 мы встречались с примерами такого подхода. Другая возможность связана с ис- использованием некоторого представления или последовательности представле- представлений, которые лучше приспособлены для решения именно той задачи, кото- которую требуется решить в конкретном случае. Для зрения практически именно эта задача оказывается более существенной, хотя для таких областей, как ме- медицинская диагностика, более плодотворным может оказаться подход, основанный на методах решения задач. Не может ли оказаться так, что существуют какие-то иные подходы, ко- которыми можно было бы воспользоваться для рассмотрения этих проблем? Что Вы могли бы сказать относительно процедурного представления знаний, ис- использованного Виноградом [257] (в соответствии с таким способом пред- представления, скажем, понятия типа "поднимать" или "кубик" представляются программамиI! Если Вы хотите, чтобы был поднят кубик, то Вы просто по- последовательно реализуете две соответствующие программы. Мне такой под- подход кажется вполне разумным. Каким образом он связан с упоминавшими- упоминавшимися Вами двумя возможностями! Процедурное представление на самом деле вовсе не является представле- представлением — это просто некий способ реализации. Представление — значительно более точно определяемый объект. Так, в частности, не существует ни одного результата, который определял бы границы процедурного представления или вводил бы какие-нибудь условия единственности (в том смысле, как это бы- было сделано в гл. 5). Этот механизм не в большей степени является представ- представлением, чем любой список свойств! Как мы уже убедились, для того чтобы определить некоторое представление, следует задать его непроизводные эле- элементы, возможный способ их "устройства" и т. д. В данном случае (в этих процедурных представлениях) непроизводными элементами служат просто примитивы соответствующего языка программирования (в работе Виногра- Винограда — языка Плэннер или Лисп). Такие непроизводные элементы бесполезны при представлении того, что действительно реализует соответствующий про- процесс, если речь идет о любом описании высокого уровня, точно так же, как отдельные команды программы, реализующей быстрое преобразование Фурье и написанной на каком-либо машинном языке, бессмысленно исполь- 345
зовать для понимания смысла этого преобразования. Для того чтобы пони- понимать программу и работать с ней, необходимо ввести в нее комментарии. Именно комментарии, а не машинный код, обеспечивают, в сущности, пред- представление того, какого рода обработку информации выполняет программа. Программа HACKER, разработанная Сассманом [223], как раз и служит при- примером попыток создания полезного стандартного комментария в одном из конкретных и узких направлений программирования. Почему Вы считаете, что список свойств не есть способ представления зна- знаний? Так ли это на самом деле1} Этого я не утверждаю. Я считаю лишь, что список свойств не является представлением. Он является одним из приемов программирования, кото- которым можно воспользоваться, чтобы реализовать некоторое представление, но собственно представлением не является. Для того чтобы убедиться в этом, достаточно поставить очень простой вопрос: что можно и что нельзя предста- представить в списке свойств? Или, если воспользоваться приведенным выше выра- выражением, каковы границы его возможностей? Единственно ли любое описа- описание? Бессмысленно ставить зти вопросы применительно к списку свойств, точно так же, как и применительно к процедурам. Оба эти механизма универ- универсальны с точки зрения представления, поскольку на самом деле они оба от- относятся к нижнему уровню объяснения и связаны с решениями, касающими- касающимися реализации. Это — не представления, это - механизмы. Выбор того или иного механизма влияет на то, сколь сложно или просто будет программисту придать какой-то части информации явный вид, однако решение о том, что именно должно переводиться в явную форму и что не должно, — это реше- решение, касающееся собственно представления и не зависящее от механизма ре- реализации. Ах, так - ну, хорошо, давайте вернемся снова к признакам, поскольку именно от понятия признака мы в конце концов пришли к идее о том, что роль представления состоит в переводе определенной информации в явную форму, не так ли1. Именно так. Я считаю, однако, что пора отказаться от этих старомодных взглядов; значительно продуктивнее обратиться к системам представлений, позволяющих с необходимой полнотой описывать, во-первых, изображения, а затем и иные извлеченные из изображения аспекты наблюдаемого мира. Кроме того, я думаю, что важно не придавать чрезмерного значения уста- установлению непосредственной связи наших идей с нейронным уровнем объяс- объяснения. В первую очередь следует убедиться в том, что наши представления и алгоритмы точны, устойчивы и основываются на психофизических данных. После этого можно будет углубиться в нейрофизиологию. Прежде чем оставить эту тему, как мне кажется, следует обсудить еще од- одну проблему. Речь идет о признаках (допустим, что начиная с этого момента мы будем говорить о них как об описаниях) и об изменениях, позволяющих получать их. В чем точно заключается различие между некоторым элементом описания (вероятно, его можно было бы называть высказыванием) и соот- соответствующим измерением? Действительно ли это так существенно? 346
Эта проблема имеет два аспекта. Один — исторический, который связан с тем, что еще в 1974 году, в этом вопросе имела место фантастическая пута- путаница. Говоря проще, эта путаница состояла в том, что понятия измерений и высказываний смешивались в одну кучу. Так, например, нервная клетка, рецептивное поле которой обладает центрально-периферической организа- организацией, будет отвечать на появление какого-либо пятнышка, но, кроме того, она будет отвечать и на появление множества иных объектов — линии, ярко- стного перехода, двух пятнышек и т. д. В сущности, часто по этому поводу нельзя сказать ничего, за исключением того, что нервная клетка воспроизво- воспроизводит значение свертки, например нашего "старого приятеля" V2G*/. Тем не менее эти клетки называли детекторами пятнышек. Это не так уж страшно, когда речь идет о сетчатке, но если понимать опре- определение простой нервной клетки (простейшая разновидность рецептивного поля), данное Хьюбелом и Уиселом [95], буквально, то оно также сведется к выполнению линейной свертки -с одной возбуждающей полоской и одной тормозящей полоской. В результате на выходе будет воспроизведена величи- величина, близкая к первой производной по направлению. Сегодня я не считаю, что эти нервные клетки реализуют операцию линейной свертки (см. гл. 2), но дело, однако, состоит в том, что находятся люди, считающие их одновре- одновременно и устройствами, реализующими процедуру линейной свертки, и детек- детекторами признаков, а это уже — интеллектуальное преступление. Естествен- Естественно, выходные сигналы таких устройств, реализующих операцию линейной свертки, можно использовать для обнаружения яркостных переходов, но для этого требуются дополнительные усилия: необходимо отыскивать максиму- максимумы первых произвбдных или пересечения нулевого уровня вторых. И есте- естественно, теперь мы считаем, что простые клетки на самом деле являются де- детекторами пересечений нулевого уровня. Дело, однако, в данном случае сно- снова состоит в том, что исключительно из-за неорганизованности мышления специалистов в области машинного зрения, а также и физиологов, упущена из вида плодотворная теория предварительной обработки изображений в зрительной системе в целом (см. гл. 2). Второй аспект проблемы вполне актуален и в наши дни — он возникал уже в нашем рассмотрении в гл. 2 и связан с тем, когда и каким образом зрительные процессы "осуществляются с помощью символьных операций". Большинство согласится с тем, что некоторая матрица яркостей 1(х, у) или даже результат применения к ней операции свертки V2C */ не очень похожи на объект, образованный символами. Это просто непрерывный двухмерный массив, некоторые элементы которого вызывают очевидный интерес. Тем не менее, когда мы начинаем говорить о людях и автомобилях, полях и де- деревьях, то явно'в очень значительной степени оперируем символами, и я сно- снова подчеркиваю, что большинство сможет обнаружить намеки на символы в результатах экспериментов Хьюбела и Уисела [95]. Наша позиция состоит в том, что зрение обращается к операциям над символами практически сра- сразу — прямо на стадии пересечений нулевого уровня, причем вся прелесть за- заключается в том, что переход от аналогового представления в виде некото- некоторого массива к дискретным ориентированным отрезкам, пересекающим 347
нулевой уровень под определенным углом, осуществляется., вероятно, без потери информации [157,179]. На этом использование символов ни в коем случае не заканчивается. Пред- Предварительная обработка изображений в зрительной системе почти полностью сводится к манипулированию символами. Концы, нарушения непрерывности, локально-характерные объекты, допустимые прямые, группы, границы — все эти объекты представляют собой чрезвычайно абстрактные конструкции, и лишь для очень немногих из них обнаружены нейрофизиологические кор- релянты; тем не менее эксперименты, подобные поставленным Стивенсом [220], указывают, что объекты такого рода должны существовать (см. гл. 2). Каким еще образом можно было бы подойти к изучению этих явлений? Что Вы могли бы сказать о какой-либо разновидности трансформационного или структурного подхода, подобного использованному Хомским? Предпринимались попытки разрабатывать грамматики для анализа изо- изображений, включавшие правила, которым должны удовлетворять штрихо- штриховые рисунки [173]. Однако эти грамматики в целом были неудачны и ни ра- разу не увенчалось успехом их использование при анализе какого-либо реаль- реального изображения. Среди первых работ, выполненных в рамках такого под- подхода, наилучшим, как мне кажется, оказались варианты анализа миров, по- построенных из кубиков, которые были предложены Гасманом [75], Макуэр- том [139] и Уолцем [241]. К сожалению, обобщение этого анализа не было получено: он подвержен влиянию неправильного выбора соответствующего минимира, как, впрочем, и большая часть исследований в области искус- искусственного интеллекта. Величайшей заслугой работ в области искусственного интеллекта явилось то, что они побуждали исследователей подтверждать свои взгляды с помощью соответствующих программ ЭВМ, причем в процес- процессе разработки таких программ они часто убеждались в неправильности своих представлений. Эти исследования прокладывали путь конструктивному спо- способу мышления, отвергая, например, данное Бертраном Расселлом определе- определение восприятия объекта как множества всех допустимых образов этого объекта [208]. Сталкиваясь, однако, с необходимостью программировать в рамках таких исследований реальности, исследователи очень часто оказыва- оказываются связанными с каким-либо мини-миром, в котором очень многие факто- факторы проявляются лишь в простых формах. Хотя такие программы не были предназначены для решения отдельных задач, в целом они работали доста- достаточно хорошо, для того чтобы обеспечить получение искомого результата. Именно к этому жанру относится программа Винограда, предназначенная для анализа мира, образованного кубиками [257]. Основная концептуальная ошибка здесь заключается в игнорировании модульности; использование ко- которой позволяет проводить разбиение задачи. Я что-то не улавливаю Вашу мысль. Зачем здесь нужна модульность и ка- каким образом она игнорировалась? Как и раньше, я полагаю, что наиболее яркие примеры предоставляет нам зрение. Мини-миры, использовавшиеся в первых исследованиях, или, если 348
угодно, предметная область, представляли собой миры, состояние из куби- кубиков, — конфигурации, образованные призмами, которые имели белую мато- матовую поверхность и располагались на черном фоне. В результате изучения этой предметной области Уолц аккуратно систематизировал типы узлов, которые могут возникать при "встрече" различных типов яркостных переходов (как это показано на рис. 1.3) [241]. Допустив затенение, Уолц обнаружил, что большинство штриховых рисунков, построенных по таким сценам, допуска- допускает однозначную интерпретацию. Обратите, однако, внимание на то обстоя- обстоятельство, что ни один из процессов общего характера, рассматривавшихся в гл. 3, в рамках этого подхода объяснен не был. Причина же состоит в том, что непросто изучать процессы общего характера, комбинация которых и создает зрение человека, если ограничиваться каким-то частным мини-ми- мини-миром, за исключением тех случаев, когда соответствующий мир тщательно вы- выбирается исходя из уже сложившихся у исследователя представлений о том, что такой мир действительно соответствует какому-то модулю (как это име- имеет место в случае стереограмм, образованных случайными конфигурациями точек). Принципиально важно понять различие между этими двумя разновидно- разновидностями мини-миров. Первые имеют очень частный характер, вторые — общий. До сих пор была подтверждена ценность лишь мини-миров второго типа, хо- хотя ограничения типа использованных Уолцем могут оказаться полезными применительно к 2,5-мерному эскизу (см. гл. 4). Дело в том, что для истин- истинных информационных модулей, отличающихся универсальным, а не частным характером, действительно можно доказывать теоремы, устанавливающие работоспособность этих модулей в реальном мире. Именно в этом состоит подлинная разница между подходом, изложенным в данной книге, и концепцией, лежащей в основе искусственного интеллек- интеллекта; отчаянные попытки запихнуть целостный действующий мини-мир в про- программу вычислительной машины (предприятие, требующее выполнения неи- неимоверного объема работы) заставили искусственный интеллект (как направ- направление) пренебречь попытками создать подлинную теорию, а затем и вовсе отказаться от таких попыток, сосредоточившись вместо этого на усовершен- усовершенствовании инструментальных вычислительных средств. Эти усилия не увен- увенчались особыми достижениями. Таким образом, хотя подход, практикуемый искусственным интеллектом, был необходим для того, чтобы избавить нас от ложных исходных представлений о простоте зрения, он, в свою очередь, стал ограниченным и бесплодным из-за неспособности осознать, что такое истин- истинная информационная теория и каким образом ее следует развивать. Существуют ли правила, обеспечивающие успешное выполнение такой работы? Не думаю. Я считаю, что неудачи вначале вполне естественны. Пример .с по- полетом, приводившийся нами выше, прекрасно иллюстрирует ряд важных мо- моментов. Во-первых, очевидно, что невозможно понять, каким образом летает птица, рассуждая о деталях структуры ее оперения. Поэтому естественно в качестве следующего шага попытаться повторить поведение птицы — я назы- 349
ваю это стадией имитации. В результате люди пытались строить крылья по об- образу и подобию птичьих и летать, размахивая ими. Из этого вообще ничего не получилось. На этой стадии имитация ограничивалась, в сущности, двумя нижними уровнями или, быть может, лишь вторым уровнем. Подлинный ус- успех приходит лишь после того, как Вы понимаете, что профиль крыла обеспе- обеспечивает аэродинамическую подъемную силу в соответствии с уравнением Бер- нулли. Эта часть относится к первому уровню - уровню аэродинамики. Именно она объясняет подобие птицы и самолета "Боинг-747" и отличие их от комара, который держится в воздухе не за счет крыльев, а буквально "протаптывая воздух" в настоящем турбулентном режиме На каком-то этапе, однако, ведь все-таки придется непосредственно свя- связать представления, относящиеся к первому уровню, с нейронными механиз- механизмами, не так ли? Вы говорили о глазах - о сетчатке и о V2G-преобразова- нии; что, однако, Вы могли бы сказать относительно движения глаз? Я по- понял, что с Вашей точки зрения (я хотел сказать, с точки зрения обработки информации и уровней объяснения) они слишком тривиальны, для того что- чтобы заниматься ими. Это, однако, никак не облегчает мне поиск механизма, соответствующего им на нейронном уровне. Да, я согласен с тем, что это трудная проблема. Но, во-первых, как я наде- надеюсь, в гл. 4 было ясно показано, что движения глаз отнюдь не сводятся к обычному вычитанию. Мы установили там, сколь тесно, скажем, представле- представление ориентации поверхности связано с тем, выбираете ли Вы систему поляр- полярных координат, привязанную к сетчатке (естественную с точки зрения фор- формирования изображения), либо какой-либо более инвариантный тип привя- привязанной к сетчатке системы координат. Во-вторых, если отложить переход от системы координат, привязанной к сетчатке, то соответственно уменьшится сложность вычислительных опера- операций, необходимых в тот момент, когда переход, наконец, осуществляется. В соответствии с изложенным в гл. 5 можно непосредственно переходить к представлению 3-мерной модели, для которого используется некоторая ус- устойчивая система координат, привязанная к наблюдателю. После этого оста- остается убедидься лишь в том, что при движении глаз соответствующее пятныш- пятнышко перемещается так, как оно должно перемещаться. И наконец, я полагаю, что в данном случае, как и всегда, не следует позво- позволять обманывать себя кажущимися свойствами и богатством нашего воспри- восприятия. Мы уже сталкивались с этой проблемой в связи с непосредственностью и живостью нашего восприятия. Я был бы удивлен, если бы оказалось, что при движении глаз мы в состоянии уследить за чем-либо, выходящим за пре- пределы минимума объектов, и считаю, что возможности человека в этом отно- отношении чрезвычайно ограниченны. Хорошо, я согласен с правдоподобностью Ваших доводов. Они, однако, не предполагают использования наших уровней, не так ли?Мне кажется, что это проблема несколько иного рода Совершенно верно, однако, объясняется это главным образом тем, что теория движений глаз, относящаяся к первому уровню, столь проста, что мы 350
даже не упоминали ее там. Мне кажется, что фактически общие идеи, касаю- касающиеся этих проблем, можно найти у Гибсона, и совершенно очевидно, что их ясно сформулировали в конце 1960-х — начале 1970-х годов Марвин Мински и Симор Пейперт. Тем не менее эти общие идеи никогда не разрабатывались подробно. Курьезно, что происходило это из-за того, что искусственный ин- интеллект оставался лишенным головного мозга: не было осознано существо- существование теории первого уровня, которую предстояло создать. Это направление быстро продолжало (а часто и продолжает) погружаться в трясину механи- механистических объяснений, в рамках которых запоминание должно обеспечи- обеспечиваться какой-либо разновидностью нервной сети, процессом, реализуемым на вычислительной машине, или некоторым набором процедур. Мне это неизвестно. Эти способы кажутся мне вполне разумными объяс- объяснениями памяти. Почему Вы находите их столь предосудительными? Действительно, в простых случаях типа движения глаз можно прибегать к столь непосредственному стилю рассуждений, оставаясь безнаказанным. Очень опасно, однако, рассчитывать на то, что подобный стиль мышления в принципе может позволить в самом деле прийти к какому бы то ни было ис- истинному пониманию тех задач обработки информации, решением которых заняты нейронные механизмы. Рассмотрим в качестве примера известный и элегантно сформулирован- сформулированный случай — обсудим вкратце теорию фреймов, предложенную Минским. Фрейм представляет собой, в сущности, некоторый объект, которому можно приписать различные свойства. Рассмотрим, например, следующие свойства слова, представленного в виде фрейма: Имя Цвет Вес Аппетит Клайд Розовый Большой Большой Фрейму можно также поставить в соответствие и процессы, а содержание фрейма можно оснастить разнообразными взаимосвязями и индексами. В своей наиболее известной работе, относящейся к этой проблеме, Мин- Минский описывает, сколь велико число "субъективно правдоподобных" явле- явлений, поддающихся рассмотрению в рамках этого подхода при условии, что используемые концептуальные элементы достаточно "велики" [168]. Я, од- ко, считаю этот подход фундаментально порочным из-за свойственного ему стиля мышления, основанного на анализе механизмов. Это возвращает нас к одной из уже обсуждавшихся проблем. Если бы фреймы давали некоторое представление, а не просто механизм можно было бы сразу установить, что поддается представлению с их помощью, а что - нет. Это может быть сделано, но пока еще не сделано. До тех пор пока это не сделано, следует остерегать- остерегаться идей типа фреймов или списков свойств. Дело в том, что этот метод пред- предполагает, скорее, мышление в категориях сравнений, чем рассмотрение ка- каких-то реальных объектов, точно так же, как анализ зрения, основанный на изучении отдельных частей Фурье-спектра, является аналогом рассмотрения 351
описаний изображения, относящихся к различным масштабным уровням. Это слишком неточный метод, для того чтобы он мог оказаться полезным. В таких ситуациях подлинного прогресса можно добиться, лишь точно сфор- сформулировав соответствующие задачи обработки информации, возникающие в пределах нашего первого уровня. Ваша точка зрения не относится, однако, исключительно к фреймам, не так ли? Не справедлива ли она по отношению ко всему искусственному ин- интеллекту в целом? Да, Вы это очень точно заметили — подходы, основанные на рассмотрении механизмов, по-настоящему опасны. Дело в том, что целью подобных иссле- исследований служит, скорее, имитация, чем достижение подлинного понимания, и они могут легко выродиться в написание программ, лишь самым механи- механическим образом имитирующих отдельные узкие аспекты поведения челове- человека. Именно к этой категории относит свою программу ELIZA Вейценбаум [247], и я не вижу никаких оснований не согласиться с ним. В более дискус- дискуссионном плане, но также критически я оценил бы исходя из этих позиций ра- работу Ньюэлла и Саймона, посвященную системам правил подстановки [176], и отдельные части работы Нормана и Румелхарта [180], посвященной долго- долговременной памяти. А почему все-таки? Причина состоит в следующем. Если мы считаем целью исследований, вы- выполняемых в рамках информационного подхода, постановку и осмысление конкретных задач обработки информации, то главную роль должны выпол- выполнять структуры этих задач, а не механизмы, с помощью которых реализуют- реализуются их решения. Следовательно, исходя из этого в первую очередь необходимо отыскать задачи, которые мы в состоянии хорошо решать, выяснить, каким образом они решаются, и проанализировать нашу деятельность, опираясь на достигнутое понимание задач. Наиболее продуктивным источником тюдоб- ных задач служат те операции, которые нам удается выполнять хорошо, лег- легко и, следовательно, бессознательно, поскольку трудно понять, каким обра- образом могла бы обеспечиваться надежность при отсутствии в основе доброка- доброкачественного метода. К сожалению, исследования, посвященные решению задач, по вполне оче- очевидным причинам оказались сконцентрированными вокруг тех задач, кото- которые вполне понятны содержательно, но вызывают затруднения, когда чело- человек пытается их решать. Речь идет о таких задачах, как решение в уме вычис- вычислительных и криптоарифметических1 задач, доказательство геометрических теорем, игра в шахматы, — обо всех тех задачах, качество решения которых человеком существенно зависит от его индивидуальных способностей, и до- достижение хороших результатов, очевидно, основывается на использовании колоссального объема знаний и опыта. 1 Например, задачи типа DONALD. + GERALD = ROBERT. Требуется найти цифры, соответствующие каждой из букв. 352
Я утверждаю, что они создают исключительно благоприятные условия, чтобы не приступать к изучению того, каким образом человек справляется с такими задачами. У меня нет сомнений, что, решая в уме вычислительные задачи, мы хорошо справляемся с какими-то задачами, однако последние не являются вычислительными задачами; в результате мы оказьюаемся далеки от понимания хотя бы одного элемента того, что представляет собой изучае- изучаемое явление. Поэтому мне кажется, что нам следует в первую очередь занять- заняться более простыми задачами, поскольку именно на этом пути можно рассчи- рассчитывать на получение реальных достижений. Если не обращать внимания на эти критические замечания, то Вы будете получать неправдоподобные механизмы, которые могут послужить основой лишь для выводов о том, что они не в состоянии обеспечивать решение тех задач, которые не может решать человек. Как мне кажется, системы правил подстановки прекрасно соответствуют этой характеристике. Если даже рас- рассматривать их как механизмы в рамках их определения, очень многого еще продолжает не хватать. Для использования в качестве языков программиро- программирования они плохо сконструированы и с ними неудобно работать — мне трудно поверить в то, что мозг человека может страдать от столь плохих способов реализации на столь важном уровне. Эта идея имитации - сводится ли она лишь к мышлению в категориях сопоставлений, как Вы заметили выше? Да, в очень значительной мере это именно так. В сущности, можно было бы провести и другую параллель, на этот раз между системами правил под- подстановки, используемыми специалистами в области решения задач, и Фурье- анализом, используемым специалистами в области нейрофизиологии зрения. Простые операции, связанные с построением пространственно-частотного представления изображения, могут имитировать ряд интересных особенно- особенностей, свойственных, очевидно, зрительной системе человека. В их число вхо- входят обнаружение повторяющихся событий, некоторые зрительные иллюзии, концепция отдельных независимых каналов, выделение формы объекта в целом из мелких локальных деталей, а также простой способ обеспечения ин- инвариантности по размерам. Причиной игнорирования специалистами в облас- области анализа изображений пространственно-частотной области служит то обсто- обстоятельство, что она фактически бесполезна с точки зрения главной задачи зре- зрения — построения описания, указывающего, что где находится, на основе мат- матрицы яркостей. Интуитивные знания, которыми не располагают специали- специалисты в области физиологии зрения и которые столь важны, относятся именно к тому, каким образом может быть построено подобное описание. В каче- качестве средства обработки информации система правил подстановки воспро- воспроизводит^ несколько интересных идей: отсутствие в явном виде обращений к подпрограммам, использование канала связи типа "классная доска" и нали- наличие некоторой разновидности кратковременной памяти. Однако именно то, что системы правил подстановки обнаруживают эти побочные эффекты (подобно тому, как фурье-анализ "отображает" некото- некоторые зрительные иллюзии), и означает отсутствие у них какой бы то ни было 353
связи с происходящим в действительности. Я предполагаю, в частности, что возможность выполнения кратковременной памятью роли регистра запоми- запоминающего устройства, вероятно, является наименее важной из ее функций. Я считаю, что существует несколько "интеллектуальных рефлексов", свя- связанных с обработкой объектов, хранящихся в такой памяти, причем до сих пор об этих рефлексах нам ничего не известно, хотя в конечном счете выяс- выяснится, что именно они являются факторами, определяющими работу кратко- кратковременной памяти. Изучение деятельности человека в рамках систем правил подстановки ка- кажется мне напрасной тратой времени, поскольку это занятие эквивалентно изучению некоторого механизма, но не задачи. И снова, механизмы, ради по- постижения которых предпринимаются подобные исследования, будут раскры- раскрыты в процессе изучения тех задач, которые требуют решения, точно так же, как продвижение в области изучения зрения происходит потому, что изучает- изучается именно проблема зрения, а не нейронные механизмы зрительной системы. Что Вы могли бы сказать о памяти человека? Вы высказали предположе* ние, что и в этой области направление исследований было выбрано непра- неправильно. Что Вы имели в виду? Я упоминал о работе Нормана и Румелхарта, посвященной возможному способу организации информации в долговременной памяти. Опасность в данном случае снова заключается в том, что проблемы ставятся безотноси- безотносительно четко определенной задачи обработки информации. Как раз наобо- наоборот, проблемы ставятся и их решения находятся в категориях механизмов — в данном случае речь идет о механизме, названном "активной структурной сетью", причем он столь прост и универсален, что лишен теоретического смысла. Норман и Румелхарт могли бы заметить, что подобная "ассоциация", возможно, существует, но они не в состоянии были ни указать, из чего эта "ассоциация" состоит, ни утверждать, что для решения задачи х (с которой человек может справиться) память должна быть организована некоторым конкретно определенным образом, причем, если подобная организация име- имеет место, в качестве побочных эффектов должны возникать некоторые под- поддающиеся идентификации "ассоциации" определенного типа. Феноменологическое крыло экспериментальной психологии может выпол- выполнить важную работу, состоящую в отыскании нуждающихся в объяснении фактов, в том числе относящихся к долговременной памяти, и, как мне ка- кажется, скажем, Шепард [213], Роек [205] и Уоррингтон [242] весьма пре- преуспели в этом отношении. Экспериментальная психология, однако, подобно экспериментальной нейрофизиологии, будет не в состоянии объяснять эти факты до тех пор, пока в рамках исследований, посвященных обработке информации, не будут выявлены и решены отражаемые этими фактами зада- задачи обработки информации. Я думаю, что это именно то направление, которо- которому нам следует посвятить свою энергию. Что в таком случае Вы скажете о работе Гантера Стента, посвященной пи- пиявкам? Разве в ее основе не лежит также изучение механизма? 354
Это подразумевалось. Работа посвящена детальному исследованию меха- механизма, с помощью которого пиявка может плавать. Я очень высоко оцени- оцениваю эту работу, так же как и работу тюбингенской группы, посвященную домашней мухе, но считаю, что существовавшие в свое время надежды по- получить на основе эти результатов очень существенные обобщения не увенча- увенчались успехом, причем объясняется это снова проблемой уровней. Задачи об- обработки информации, которые должны решаться нервной системой, опреде- определяют то, что она должна делать. Возможно, человек снабжен какими-либо простыми осцилляторами, действующими подобно пиявке, и с очень боль- большой натяжкой можно было бы рассчитывать использовать их в конце концов для понимания некоторых особенностей дыхания. Тем не менее результаты такого рода не объяснят нам, каким образом человек видит. Наблюдается явно выраженное стремление устанавливать в конечном сче- счете связь объяснения со структурой - в этом, несомненно, проявляется влия- влияние молекулярной биологии. Не думаете ли Вы, что это было достигнуто в данном случае? Или Вы считаете все это предприятие совершенно безна- безнадежным? Да, я согласен с тем, что это следует сделать для центральной нервной си- системы, но сомневаюсь в том, что это вообще осуществимо в целом. Барьер сложности слишком высок. Не забывайте, однако, что мы уже приступили к этой работе! Обнаружение пересечений нулевого уровня и избирательность по направлению тематически очень близки к нейронному уровню. Проявляй- Проявляйте больше терпения в ожидании дальнейших результатов! Как уже отмеча- отмечалось выше, я держу пари, что невозможно понять быстрое преобразование Фурье, рассматривая, каким образом оно реализуется на уровне транзисто- транзисторов в ЭВМ IBM 370. Только на понимание выражающих его формул мне тре- требуется около 10 минут, не говоря уже о принципиальной схеме, реализующей их. И еще одно замечание в заключение: я не думаю, что эволюционные и ге- генетические программы будут поддаваться пониманию непосредственно в тер- терминах соответствующих механизмов, составляющих их основу. Я предпола- предполагаю, что для понимания процесса развития в силу его сложности потребуется в конечном счете некоторая многоуровневая структура. Есть ли надежда вернуться к непосредственному анализу зрительного вос- восприятия и того, что в действительности происходит, когда Вы используете зрение? Хорошо, не устроят ли Вас идеи, связанные с первоначальным эскизом? Я думаю, что удовлетворят. Важнейшим представляется то, что предвари- предварительная обработка изображений в зрительной системе в высшей степени свя- связана с манипулированием символами. Действительно, используются утверж- утверждения, указывающие, где оканчиваются линии (да, да - я даже принимаю этот язык и меня в данном случае даже не очень беспокоят нейроны!), а так- также и такие, которые указывают, что искомые линии и допустимые линии столь же "реальны", как и любые другие. Можно, например, определять ори- ориентацию и тех и других и оперировать ими. Не в этом ли состоит идея ? 355
В очень значительной степени именно в этом, и если говорить еще об одной ключевой идее, то следует упомянуть локально-характерные объекты и спо- способность пользоваться приближенными критериями выбора при группиров- группировке подобных локально-характерных объектов и отыскании образов-конфи- образов-конфигураций (как это было проиллюстрировано с помощью рис. 2.3). У меня еще осталась легкая неудовлетворенность в связи с представлени- представлением пространственных отношений - на изображении, естественно. Я помню обсуждение систем координат, проведенное в гл. 2, однако убедило оно меня не до конца. Каким образом мы можем убедиться в том, что важная про- пространственная информация не утрачивается ? Да, в этом отношении следует проявлять осторожность, поскольку я не думаю, что значительная часть информации, заключенной в пространственных отношениях, переводится в явную форму на очень ранней стадии обработки. Так, например, совершенно очевидно, что отсутствуют врожденные структу- структуры для информации типа "угол, образованный двумя линиями". Этот вид информации не появляется в явном виде в полном первоначальном эскизе; в 2,5-мерном эскизе также отсутствует информация об угле, образованном двумя поверхностями. Эти величины не относятся к восприятию. Их область действия — представление 3-мерной модели. С другой стороны, всего лишь нескольких пространственных отношений (типа допустимых линий, заклю- заключенных между соседними локально-характерными объектами) часто оказы- оказывается достаточно для неявной передачи геометрии фигуры в целом. Это мо- может оказаться справедливым даже в случае чрезвычайно неточных измерений длин (допустимо, что они просто упорядочены по значениям). Яркий пример богатства информации, которую могут дать всего лишь несколько признаков сходства, являют археологические данные Флиндерза Питри. Он оценивал подобие захоронений, обнаруженных в верхнем тече- течении Нила, на основе числа совпадающих характеристик осколков гончар- гончарных изделий, найденных в этих захоронениях. Опираясь лишь на эту инфор- информацию о сходстве и используя методы типа многомерного шкалирования, удается довольно точно определять время погребения. Этот случай получил очень интересную интерпретацию [119]. Мы же хотим лишь заметить, что в двухмерном случае ситуация характеризуется даже еще большими ограниче- ограничениями. Я не считаю, что угроза потери информации велика, но я уверен в том, что лишь сравнительно небольшая часть пространственной информации переводится в явную форму на ранних этапах обработки изображений в зри- зрительной системе. Итак, мы получаем полный первоначальный эскиз, после чего вступают в действие все описанные в гл. 3 процессы, для того чтобы снабдить нас инфор- информацией о поверхности ? И, грубо говоря, все это действие разворачивается в полярных координатах, привязанных к сетчатке, быть может, с небольшими различиями в зависимости от того, какой именно процесс реализуется? Да, это действительно так, причем информация о поверхности, приноси- приносимая каждым из этих процессов, объединяется в 2,5-мерном эскизе, по-преж- 356
нему используется система координат, привязанная к сетчатке, причем, воз- возможно, более удобная, чем полярные координаты. В истинном смысле чистое восприятие на этом заканчивается. К этому моменту информация уже подго- подготовлена для преобразования в представление в виде 3-мерной модели реаль- реального объекта, т. е. в описание, которое затем можно хранить в памяти. Меня все еще беспокоят этот процесс объединения-увязывания, а также мысль о том, что изо всего богатства подробностей Вы оставляете всего лишь некоторое описание. Это выглядит как-то чересчур умозрительно. Ну, во-первых, данное описание может отличаться произвольной степенью подробности — зто просто вопрос времени и усилий, затрачиваемых на его получение. Другая проблема связана с утверждением о том, что зрительное восприятие сводится к формированию подобных описаний. Да, здесь дей- действительно происходит концептуальный скачок, который я прошу Вас при- принять. Лично мне не удается обнаружить каких-либо существенных послед- последствий, возникающих из-за того, что эту точку зрения не удается обосновать в общем случае, и, поскольку мы уже достигли, вероятно, понимания 20 — 25% процесса в целом, я искренне считаю, что остальная часть процесса имеет такой же характер. Несомненно, это концептуальный скачок, но я полагаю, что пока эта идея заслуживает право на существование, поскольку анализ зрительного восприятия применительно к формированию конкретных раз- разновидностей описаний позволяет объяснять столь многое столь просто. Не пытайтесь, однако, всегда думать о зрении применительно к нейронному уровню! Это просто невозможно: структура зрения достаточно сложна на верхнем уровне и она исключительно сложна на уровне монтажной схемы. Оканчивается ли этап непосредственного восприятия воплощением в 2,5- мерном эскизе результатов тех процессов, которые рассматривались в гл. 3? Я думаю, что это подходящий момент для проведения раздела, посколь- поскольку вплоть до него факторы, относящиеся к высшим уровням, очень незна- незначительно влияли на эти процессы или вообще не оказывали на них никакого влияния. Эти процессы воспроизводили только ту информацию, которую они порождали — ни больше, ни меньше. Понятие непосредственное вос- восприятие несколько дезориентирующе, так как реализация процессов, о ко- которых идет речь, может требовать определенного времени (возьмите, напри- например, слияние стереограммы, образованной случайными конфигурациями точек), но она не предусматривает досконального анализа (в стиле Джуле- са), т.е. активного осмысленного изучения изображения и сопоставления его частей. Это соответствует случаю стереограммы, образованной случай- случайными конфигурациями точек, поскольку, как мы считаем, при большой продолжительности времени, затрачиваемого на восприятие такой стерео- стереограммы, задержка в основном определяется случайными движениями глаз, связанными с попытками обнаружить отправную точку слияния. Если 2,5-мерный эскиз изменяется при каждом движении глаз, то он ут- утрачивается при каждом таком движении (за исключением, быть может, малых перемещений исключительно по глубине). Не кажется ли все это Вам ужасно расточительным"? 357
Это, несомненно, расточительство, но елей имеется механизм, позволяю- позволяющий заново обработать соответствующую сцену в естественном масштабе времени, то такая расточительность уже не имеет значения. В сущности, она чуть ли не обязательна, поскольку смысл существования 2,5-мерного эскиза заключается в объединении и представлении поступающей в процессе восприятия информации, но не в ее хранении, и поэтому возможность сэко- сэкономить на вычислительной мощности за счет использования большей памя- памяти здесь реально не используется. Допустим, например, что 2,5-мерный эс- эскиз всегда имеет разрешение, соответствующее центральной ямке сетчатки, и управляется, как обычно, центральной ямкой сетчатки. В результате память немедленно оказалась бы почти полностью загружена устаревшей информа- информацией (или ничем не загружена). Память же предназначена вовсе не для этого. Прежде чем происходит обращение к чуть ли не любой реальной па- памяти, должен быть осуществлен переход к какому-то представлению типа 3-мерной модели, обладающему значительно большей устойчивостью, чем привязанный к наблюдателю образ объекта быстротечного мира. Таким об- образом, представление, объединяющее информацию, поступающую из различ- различных источников, должно быть привязано к сетчатке и должно изменяться, оно должно располагать областью центральной ямки сетчатки, отличающей- отличающейся высоким разрешением, и точно отображать только поступающую в дан- данный момент информацию. Эти требования выглядят разумными, однако у меня возникают затруд- затруднения, когда я соотношу их с собственным опытом. Проблема заключается в юм, что в этой модели восприятия происходит столько разнообразных событий, в то время как мое собственное восприятие отличается определен- определенной цельностью, единством, которое, как мне кажется, не согласуется с эти- этими идеями или, по меньшей мере, в них не отражается. Каким образом вся эта информация связывается в единое целое? Каким образом можно объяс- объяснить цельность зрительного опыта? Основная идея действительно предполагает, что очень многое осуществля- осуществляется с помощью практически независимых процессов. На уровне 2,5-мерного эскиза между этими событиями устанавливается связь, однако только неяв- неявная, в то время как следующий шаг посвящается построению привязанных к объекту описаний наблюдаемых форм объектов (которые могут быть пред- представлены с помощью системы координат, привязанной к наблюдателю); опи- описание в данном случае представляет собой некоторый единый объект, постро- построенный просто добавлением соответствующих свойств к основному описанию формы объекта — это делается примерно так же, как при работе писателя, которому нужно расцветить свое изложение (он вводит в текст качествен- качественные прилагательные). Что Вы имеете в виду, говоря о наличии "лишь неявной"связи? Не более того, что, несмотря на разное действие различных процессов, име- имеется возможность установить, когда результаты их реализации относятся к одному и тому же видимому объекту. 358
Вы имеете в виду, что если некоторый процесс, относящийся к необрабо- необработанному первоначальному эскизу, привел к обнаружению яркостного перехо- да,.а процесс, относящийся к цвету, привел к определению его цвета, то связь между этими двумя видами информации существует лишь в неявном виде? Мне не совсем ясен этот момент. Это всецело вопрос адресации. В большинстве вычислительных машин ин- информация адресуется посредством указания о том, где ее следует искать. В некоторых вычислительных машинах обращение к порциям данных осно- основывается на указании этих порций. Такая память называется ассоциативной; ее нетрудно организовывать. В нашем случае мы, возможно, имеем дело с комбинацией этих двух способов адресации, т. е. с чем-то вроде "яркостный переход, расположение которого в зрительном поле приблизительно опреде- определяется координатами (х, у), ориентация составляет, скажем, 30° и его яр- яркость соответствует некоторому заданному значению". Такое описание пол- полностью определяет рассматриваемый яркостный переход как применительно к представлению в виде необработанного первоначального эскиза, так и при- применительно к процессам, относящимся к цвету. Таким способом можно уста- носить связь между этими двумя разновидностями информации, по крайней мере в принципе. А что, осмелюсь спросить, Вы можете сказать по поводу всех этих полей коры головного мозга? Разве не естественно было бы предполагать, что каж- каждое из них имеет дело с отдельным процессом? Меня это не удивило бы. В таком случае то, что Вы говорите, сводится, в сущности, к следующе- следующему: вплоть до данного момента каждый из процессов развивается независи- независимо, причем, возможно, в различных полях коры головного мозга (к настоя- настоящему времени обнаружено по меньшей мере 10 таких полей, неправда ли?), и, снабдив каждый из них приближенной информацией, в качестве которой могут использоваться приближенные значения координат и ориентации, Вы точно устанавливаете, о каком видимом объекте идет речь. Да, это проблема адресации. И затем Вы, кроме того, получаете точную информацию, соответствую- соответствующую специализации конкретного поля или процесса - значение цвета или ducnapai нести, например. Именно так. Кроме того, я считаю в этой связи важнейшим то обстоятель- обстоятельство, что объединение информации производится с помощью операций над символами. Что собственно Вы имеете в виду? Это не похоже на наложение трех отпечатков, используемое в полиграфии для получения цветной иллюстрации. Мы никогда не воспринимаем цвет объекта как нечто, размазанное в пределах его границ. Дело в том, что при- приближенная информация о положении и ориентации используется в качестве адреса. Если необходимо установить точное расположение границы объекта, 359
следует обратиться к необработанному первоначальному эскизу. Если необ- необходимо установить цвет объекта, следует обратиться к процессу, дающему информацию о цвете. Понятно. Эта идея предполагает, что процесс объединения информации должен быть очень активным, не так ли? До тех пор пока некий механизм не обратит специально внимания на то, что пересечение нулевого уровня х стереоизображения представляет собой коричневую границу, эти две порции информации будут продолжать оставаться разделенными. Да, я думаю, что пришлось бы специально поинтересоваться цветом пере- пересечения нулевого уровня х. Очевидно, многие из этих операций осуществля- осуществляются автоматически в процессе движения глаз. В конечном счете именно для этого, в частности, предназначен 2,5-мерный эскиз, т. е. для преобразования информации о геометрических свойствах поверхности, поступающей от мно- множества процессов, привязанных к сетчатке, в некоторую единую, более удоб- удобную для использования и привязанную к наблюдателю форму. В то же время связи с описаниями других свойств поверхности устанавливаются таким об: разом, чтобы доступ к ним осуществлялся проще; это связано с подготов- подготовкой к построению трехмерного описания, привязанного к объекту. Таким образом, Вы считаете, что подлинное объединение не осуществля- осуществляется, вероятно, до того момента, пока не начинается построение 3-мерной модели ? Да. Это выглядит так, как будто бы все цепочки символов, соответствующие всей необходимой информации, тщательно подготовлены и размечены, но их объединение не начинается до тех пор, пока не начинается построение 3-мерной модели. Причем эти порции информации могут быть очень приближенными либо являться составными элементами очень точной информации. Таким же обра- образом можно предполагать, что и другие свойства задаются приближенно (на- (например, цвет — зеленоватый) или очень точно (например, точно указывается оттенок зеленого цвета). Каким образом, однако, это согласуется с моим личным опытом восприя- восприятия ? Он говорит мне о том, что восприятие целостно, а не половинчато, плохо определено и фрагментарно, каким оно предстает в Вашем описании. Ну, хорошо. Вспомним, во-первых, что зрительные процессы, свойствен- свойственные человеку, могут протекать чрезвычайно быстро. Время, проходящее между запросом информации, характеризующей какой-то участок зрительно- зрительного поля, и переводом на него глаз, получением необходимой информации и установлением ее связи с 3-мерной моделью, обычно не превышает полови- половины секунды. Во-вторых, насколько точно Вы в состоянии воспроизвести не- незнакомую Вам сцену, если взглянули на нее лишь мельком7 Довольно неточ- неточно! Ее общую организацию и, возможно, одну-две детали. И как только Вы закрываете глаза, все богатство восприятия исчезает, не так ли? Я считаю, что 360
богатство восприятия соответствует доступному в текущий момент, на уров- уровней чистого восприятия, причем то, что Вы в состоянии воспроизвести мгно- мгновенно, значительно теснее связано с описанием 3-мерной модели, которое Вы формируете, пока Ваши глаза открыты. Я начинаю лучше осознавать продуктивность идеи о том, что восприятие - это построение некоторого описания. Да, именно в этом и состоит суть всей проблемы, и очень важно достичь согласия именно по этому пункту. Давайте допустим, что Вы правы и, следовательно, 2,5-мерный эскиз при- привязывается к сетчатке и человек, обрабатывая его, строит небольшие 3-мер- 3-мерные модели и помещает их в пространственную систему координат, привя- привязанную к наблюдателю. Что происходит, если Вы существенно смещаете взгляд ? Во-первых, точно определенные очертания объекта, который Вы только что рассматривали (допустим, что это была фарфоровая кошка) и для кото- которого Вы только что построили детальное описание, превращаются в пятно на изображении, как только Вы переводите взгляд, для того чтобы рассмотреть соседнюю фигурку (фарфоровую собаку). Если это пятно удается надежно идентифицировать в 2,5-мерном эскизе, то я должен допустить существова- существование некоторого процесса, поддерживающего связь между ним и 3-мерной моделью, построение которой Вами только что завершено, в результате че- чего, если пятно перемещается, Вам немедленно становится известно, что имен- именно перемещается. Но как же, наконец, все это выполняется с помощью нейронов? Потерпите, пожалуйста, —сейчас мы к этому приступим. Обратите, однако, внимание на то, что с точки зрения информационных процессов принципи- принципиальных затруднений это не вызывает. Трудно, однако, увязать все это с тем, что, как мне представляется, зна- значит "видеть" - непросто все это принять. Постепенно Вы войдете во вкус. Решающее значение имеет первый шаг: если Вы согласитесь с тем, что зрение - это обработка информации, выполня- выполняемая ради построения некоторого описания, то дальше Вы сможете перейти к изучению того, что такое описание на самом деле и как именно его можно строить. И все-таки мне нелегко согласиться с тем, что Вы столь много внимания уделяете обработке информации. Мозг в конечном счете состоит из нейро- нейронов, а не из кремниевых кристаллов. Очевидно, однако, я к этому привыкну. Кроме того, если зрение - это построение описаний, то реализовываться они должны на нейронном уровне, не так ли?Поэтому нельзя ли рассчитывать на установление нейрофизиологических коррелятов 2,5-мерного эскиза или ка- какого-то фрагмента 3-мерной модели? Это было бы убедительно. Было бы просто замечательно, если бы реализация оказалась столь про- проста — соответствовала бы постулату Барлоу об активности нейронов! Лично 361
мне кажется, что она больше соответствует последнему, чем теории клеточ- клеточного ансамбля Хебба. Меня продолжает беспокоить еще одно общее положение - оно относится к временной непрерывности перцептивного опыта. Мне вполне понятно Ваше представление о том, каким образом может поддерживаться непрерывность при движении глаз и т. п., однако Вы оставляете в стороне более крупную проблему чисто временной непрерывности. Почему, когда я смотрю на дере- дерево, я все время вижу его как одно и то же дерево? Вероятно, в каждый мо- момент времени я мог бы начинать строить для него новую 3-мерную модель и в этом случае я должен был бы воспринимать пятно, представлявшее старое дерево как новое. Тем не менее этого не происходит. Можете ли Вы это про- прокомментировать ? Неизменность видимого мира (непрерывность объектов во времени) яв- является исключительно важным аспектом зрения; я думаю, допущение этой неизменности стало просто одним из наших рефлексов, сформировавшихся в процессе развития. В сущности, вся обработка зрительной информации в целом основывается на выявлении и использовании условий непрерывности (одним из примеров здесь служат процессы установления соответствий, рас- рассматривавшиеся в гл. 3). Возьмем еще одно общее положение. Вы рассматриваете лишь форму. Как в таком случае обстоят дела с распознаванием в случае, когда задача со- состоит в отнесении к одному классу двух объекте, имеющих различную фор- форму, но выполняющих одну и ту же функцию (например, два стула различной конструкции) ? Наша теория не может сказать ничего относительно распознавания на се- семантической основе, присвоения объектам имен или функций, хотя, несом- несомненно, это направление имеет для распознавания в реальном мире почти столь же большое значение, как и определение формы [244]. Я считаю, что проблема понимания того, что имеется в виду, когда говорят о семантике не- некоторого объекта, исключительно интересна, но я считаю также, что она дей- действительно чрезвычайно сложна и в настоящее время в значительно меньшей степени поддается решению, чем проблемы, возникающие в связи со зритель- зрительным восприятием. Если общая схема, описываемая Вами, верна, нельзя ли сделать какие бы то ни было заключения, касающиеся живописи и рисования^ опираясь на зна- знания о юм, что делает зрительная система с изображениями, поступающими на ее вход? Могут ли эти знания, например, помочь при обучении живописи и рисованию? Возможно, хотя мне бы очень не хотелось сейчас связывать себя какой-то определенной точкой зрения. Тем не менее было бы интересно обратить вни- внимание на то, какие представления предпочитают, а иногда и разрушают раз- различные художники. Пуантилисты, например, экспериментируют в основном с образом; остальная часть схемы обработки зрительной информации остает- остается неизменной, причем во всех других отношениях картина имеет самый 362
обычный вид. Пикассо же, с другой стороны, совершенно определенно раз- разрушает почти полностью уровень 3-мерных моделей. Трехмерность его фигур не имеет реалистического характера. Пример художника, работающего в основном на этапе представления поверхности, найти несколько труднее — быть может, это Сезанн? Если обратиться к другим задачам, например типа тех, которые возникают в связи с естественным языком, насколько универсален оказывается пропо- проповедуемый Вами подход? Насколько широко он может применяться? Каковы задачи, при решении которых он может не сработать ? Системы, не обладающие модульностью. Процессы типа тех, с помощью которых собираются цепочки аминокислот, с тем чтобы получить белок, т. е., иначе говоря, сложные системы, элементы которых взаимодействуют между собой, испытывающие многообразные влияния, которыми нельзя пренебре- пренебрегать. Самой острой проблемой изучения понимания естественного языка яв- является, несомненно, вопрос о степени его модульности и о том, что собствен- собственно эти модули собой представляют. Хорошо, я допускаю, что модульность может оказаться ключевым мо- моментом, но ведь важно, чтобы обеспечивалась и некоторого рода беглость, не так ли? Если некоторый процесс не в состоянии развиваться легко, глад- гладко, без постороннего вмешательства, если его течение постоянно требует сознательного вмешательства, то может оказаться, что для такого процесса отсутствует "прозрачная " теория и эти свойства приведут его в класс процес- процессов типа формирования белков, теории которых трудны для понимания. Если,однако, возвратиться к естественному языку, то какие модули обнару- обнаружены для него? Этот вопрос неясен; некоторые специалисты утверждают, что естествен- естественный язык по своей природе не обладает модульностью и потому должен ана- анализироваться в значительно большей мере гетерархически. Не напоминает ли это положение ситуацию, существовавшую в период, когда исследования зрения только начинались? Да, боюсь, что это так. Представляется, однако, что действительно суще- существуют модели, а также и соответствующие правила, возникающие на ниж- нижнем уровне, — правила слогообразования, правила просодии и пользующийся наибольшей известностью анализ синтаксиса, выполненный Хомским. Насколько, однако, можно считать синтаксис отдельным модулем? Разве не утверждают специалисты в области искусственного интеллекта, как, на- например, Шенк, что синтаксис вовсе не является отдельным модулем? Согласен, причем очевидно, что синтаксическая расшифровка предложе- предложения не может проводиться совершенно независимо от семантического анали- анализа этого предложения. Постепенно, однако, возникает представление о том, что необходимая степень взаимодействия между двумя этими видами анали- анализа мала, а вопросы относительно синтаксиса, на которые требуется получать ответы, оказываются самого простого рода, скажем: относится ли некоторая 363
часть предложения к первой именной составляющей или ко второй? Маркус [140] первым подробно исследовал эти проблемы и показал, что система синтаксического анализа может составить очень хороший модуль. На высших относительно синтаксиса уровнях, однако, в настоящее время имеется лишь самое незначительное число сведений о том, что представляет собой модуль- модульность, но я уверен, что такие сведения должны появиться. Почему специалисты в области искусственного интеллекта столь упорно отвергают традиционные (в стиле Хомского) подходы к синтаксическому анализу? Создается впечатление, что лишь один Маркус принимает их ? Я думаю, что происходит это по двум причинам. Во-первых, легко приве- привести примеры, в которых синтаксический анализ невозможен без сопутствую- сопутствующего семантического анализа. Таким образом, поскольку оказывается, что синтаксис не является подлинно независимым модулем, то исходя из этого специалисты в области искусственного интеллекта хватаются за противопо- противоположную точку зрения, согласно которой синтаксис вообще не является моду- модулем. Это неверно: на самом деле синтаксис, очевидно, представляет собой почти модуль, нуждающийся в некотором взаимодействии с семантикой, од- однако число видов такого взаимодействия чрезвычайно мало. Вторая причина связана с нашим старым приятелем — проблемой уровней. Теория трансформационных грамматик Ноама Хомского относится к теори- теориям первого уровня, а это означает, что она не имеет никакого отношения к тому, каким образом должно реализовываться структурное распознавание. Эта теория просто определяет правила, указывающие, что должно представ- представлять собой разбиение некоторого произвольного предложения. Хомский вы- выразил эту идею, сформулировав свою теорию как теорию владения языком. Идея уровней не была, однако, по-настоящему понята специалистами в области вычислительной лингвистики. В самом деле, одно из возражений Винограда против подхода Хомского состояло в том, что трансформацион- трансформационную структуру нельзя инвертировать для того, чтобы превратить ее в систему синтаксического анализа! Такое замечание может принадлежать лишь челове- человеку, которому не удается понять разницу между первым (что и зачем) и вто- вторым (каким образом) уровнями. Эта ошибка не выделяет Винограда из об- общего рядй, однако все, кто работает в области искусственного интеллекта, совершили ее, а сейчас, по мере того, как использование вычислительной тех- техники становится для лингвистов привычным, они попадают в ту же ловушку. В результате, как я опасаюсь, программы вычислительных машин, предназна- предназначенные для работы с естественным языком, дают довольно мало для понима- понимания естественного языка, за исключением работ Маркуса [140], приступив- приступившего к созданию настоящей теории второго уровня, описывающей исполь- используемый человеком алгоритм синтаксического анализа. Какие подходы к семантике Вам кажутся наиболее перспективными7 Вероятно, это подход, который я называю проблемой множественности описаний объектов, и подход, связанный с решением проблем референции, вносимых проблемой множественности описаний. 364
Не можете ли Вы осветить эту тему подробнее7 Хорошо. Подобно многим другим, работающим в этой области, я думаю, что наше понимание мышления должно основываться по меньшей мере на одном, а возможно, и на нескольких главных принципах, касающихся орга- организации и представления знаний и определяющих, в некотором смысле, что именно важно в общей природе интеллектуальных способностей человека. Эти принципы, которые как будто бы начинают выкристаллизовываться, хо- хотя они еще несколько неопределенны, можно сформулировать следующим образом. 1. Сферы мышления, языка, памяти и восприятия должны быть шире, чем это допускается самыми последними психологическими теориями [168]. Они должны отличаться также очень высокой эластичностью, причем будет нелегко точно учесть это требование. 2. Восприятие некоторого события или объекта должно предусматривать одновременное построение нескольких различных описаний его, охватыва- охватывающих различные аспекты использования, назначения и сопутствующих об- обстоятельств соответствующего события или объекта. 3. Различные описания, упоминающиеся в принципе 2, включают как при- приближенные, так и точные описания. Первые составляют существенный эле- элемент выбора адекватных общих сценариев, необходимых в соответствии с принципом 1, и правильного назначения ролей, выполняемых теми объекта- объектами и операциями, которые определяют выбор сценария. Для того чтобы лучше уяснить эти принципы, рассмотрим пример. Если Вы читаете следующий отрывок: "Муха яростно билась в оконное стекло. Джон поднял газету.", то немедленно заключаете, что намерения Джона в отношении этой мухи яв- явно злонамеренны. Если бы он взялся за телефон, то вывод не был бы столь определенным. Все согласны с тем, что "угрожающий насекомому" сцена- сценарий, возникающий каким-то образом при чтении этих предложений, в самой приближенной форме порождается информацией о том, что муха яростно бьется в оконное стекло. Подобный сценарий содержит референцию к како- какому-то предмету, с помощью которого можно раздавить муху на хрупкой поверхности, т.е. описание, указывающее, что газета здесь годится, а те- телефон — нет. Можно, следовательно, прийти к заключению, что при упоми- упоминании газеты (или, в случае зрения, при виде газеты) не только строится ее внутреннее описание (как газеты) и задается приближенное описание 3-мерной модели газеты, определяющее ее форму и оси, но эта газета опи- описывается также и как некоторый легкий и гибкий объект, имеющий протя- протяженность в длину и ширину. Поскольку второе предложение могло бы иметь продолжение: "и сел читать", газета должна быть описана и как пред- предмет чтения; аналогичным образом она должна быть описана как легковос- легковоспламеняющийся предмет, как шуршащий предмет и т. д. Поскольку обычно нам заранее неизвестно, какой именно аспект объекта или действия важен, то из этого следует, что на протяжении большей части времени рассматрива- 365
емый объект будет служить источником ряда различных приближенных внутренних описаний. То же самое относится и к действиям. Вероятно, важ- важно отметить, что газете не обязательно ставится в соответствие описание, раскрывающее прихлопывание мухи, чтение или зажигание огня, - просто используется то описание газеты, которое соответствует ее роли согласно действующему сценарию. Почему Вы считаете, что все должно происходить именно так? Важность каталога простых приближенных описаний событий и объектов определяется ролью, которую такие приближенные описания играют в пост- построении конкретных сценариев, возможно весьма искусно разработанных, и в обращении к ним, причем роль эта осуществляется примерно тем же способом, каким некоторая универсальная 3-мерная модель животного мо- может в результате соответствующего взаимодействия между изображением информации, заключенной в каталоге моделей, превратиться в конечном счете в очень конкретного Чеширского Кота. То, что выглядит после появ- появления первого предложения немногим более чем враждебные намерения от- относительно невинной мухи, после появления дополнительной информации о газете превращается во вполне конкретную ситуацию прихлопывания мухи. Еще неизвестно, каким образом это достигается лучше всего и какие именно описания должны ставиться в соответствие различным словам или воспринимаемым объектам. Что Вы могли бы сказать о других видах обработки информации, осущест- осуществляемой мозгом, о таких, например, как планирование поведения и реали- реализация выработанных планов? Не окажется ли проще отыскивать модули на этих направлениях? В конце концов, семантика - это одна из тех облас- областей, в которой способности человека достигли наибольшего развития, и по- поэтому не столь уж беспочвенно предполагать, что она может оказаться слож- сложной. Я бы попробовал что-нибудь попроще. Я полагаю, что, вероятно, это отличный совет, и в этой связи мне вспо- вспоминается замечательный эксперимент, поставленный Стаммом [219]. Речь идет о так называемой задаче с отсроченной реакцией (см. рис. 7.2): кусо- кусочек пищи помещается в одно из двух углублений, опускается экран, после того как время задержки заканчивается, экран поднимается, и животное имеет возможность направиться к тому углублению, в котором, по его мнению, спрятана пища. Известно, что в решении этой задачи участвуют некоторые участки префронтальной коры; при их удалении животное не в состоянии справиться с этой задачей. Стамм воспользовался методом де- деполяризации, с помощью которого ему удавалось эффективно "отключать" эти участки коры на необходимый ему период времени. Он задался вопро- вопросом: когда соответствующий участок префронтальной коры должен нахо- находиться в работоспособном состоянии, для того чтобы задание могло быть выполнено? Оказалось, что животному необходимо, чтобы префронтальная кора работала, когда экран опускается и начинается отсчет времени задерж- задержки. Если же соответствующий участок префроктальной коры оказывается выведенным из строя в любой другой момент времени, то это сказывается 366
Рис. 7.2. Иллюстрация эксперимента с отсроченной реакцией. На виду у животного кусо- кусочек пищи помещается в одно из углублений, после чего между животными и этими углуб- углублениями на время помещается экран. После того как экран убирается, животное должно выбрать одно из двух углублений. Если оно делает правильный выбор, то получает пищу на выполнении задания во много меньшей степени либо вообще не сказы- сказывается! Результаты этого эксперимента можно интерпретировать, например, следующим образом. Любая вычислительная машина, работающая в реаль- реальном масштабе времени, должна быть способна формировать планы, подго- подготавливать их к выполнению при определенных условиях и подготавливать пусковые схемы, обеспечивающие их реализацию. Невозможно каждый раз повторять заново все операции обработки информации, и действительно, структура личности отчасти состоит из тысяч подобных микропланов, каж- каждый из которых предназначен для реализации одного из паттернов поведе- поведения человека в соответствии с возникновением определенных условий. Для разработки таких планов должен, однако, существовать какой-то механизм; возможно, в эксперименте Стамма мы встретились с простым примером того, как это происходит. Когда углубления исчезают из поля зрения жи- животного, оно включает в свой набор планов задание двигаться к соответст- соответствующему углублению после того, как такая возможность появится. Это простой план, но тем не менее это — план. Если несколько развить эту идею, то мы убедимся в том, что она подра- подразумевает разделение центральной нервной системы на две части, которые можно определить как орган планирования и исполнительный орган соот- соответственно. Орган планирования вводит планы и их пусковые схемы в ис- исполнительный орган, который, когда приходит время и возникают необхо- 367
димые условия, реализует эти Планы. Так ли уж абсурдно предполагать, что в процессе гипноза исполнительный орган становится доступен програм- программированию извне и именно благодаря этому оказывается возможным зада- задавать человеку, находящемуся в гипнотическом состоянии, планы, которые будут реализовываться позже при наступлении предписанных условий? Идея заслуживает обсуждения, по меньшей мере. Это интересная мысль. Мне до сих пор вообще не приходилось встречать объяснений возможности "программировать" кого бы то ни было, а Ваше предположение выглядит вполне правдоподобным. Что, однако, Вы могли бы сказать относительно "шаблонной" природы программирования? Ведь поведение человека чрезвычайно гибко, не так ли? Несколько затруднитель- затруднительно привести эту особенность в соответствие с возможностью существования некоего набора запрограммированных реакций. Я думаю, что это полностью зависит от того, сколь велико, разнообразно и искусно организовано сформированное множество паттернов поведения. Если оно содержит широкий набор паттернов и обеспечивает возможность действовать по-разному в лишь слегка различающихся ситуациях, то можно считать, что имеется возможность демонстрировать гибкое поведение и, меж- между прочим, более свободно выбирать паттерны, поскольку при этом будет учитываться соответствующим образом более широкий спектр адекватной информации. Если информация не используется (случайные паттерны) либо используется лишь какая-то отдельная порция информации (форсирован- (форсированные паттерны), то, естественно, нельзя считать, что наше поведение харак- характеризуется гибкостью или свободой. Очевидно, здесь действительно наблюдается существенная разница. По мере того, однако, как мы приближаемся к утверждению о том, что мозг — это некоторая вычислительная машина, меня все больше и больше тревожит проблема сути человеческих ценностей. Утверждение о том, что мозг — это некоторая вычислительная машина, верно, но оно вводит в заблуждение. Мозг действительно является высоко- высокоспециализированным устройством для обработки информации или, скорее, множеством таких устройств. Отношение к мозгу человека как к устройст- устройствам для обработки информации ни в коей мере не выхолащивает и не отри- отрицает человеческие ценности. Если уж поднимать эту проблему, то именно данная точка зрения отражает тенденцию к поддержке этих ценностей и мо- может в конце концов помочь нам понять, что собой в действительности пред- представляют человеческие ценности с информационной точки зрения, почему их природа избирательна и каким образом они вплетены в потенциальную способность человека к социальному поведению и организации, которой оделяют нас наши гены.
СЛОВАРЬ ТЕРМИНОВ Быстрое преобразование Фурье (БПФ) - fast Fourier transform (FFT). Быстро- Быстродействующий алгоритм цифровой об- обработки сигнала, предназначенный для выполнения преобразования Фурье на числовой матрице, размер- размерность которой определяется некото- некоторой степенью числа 2. Этот алгоритм был предложен Дж. М. Кули и Т. У. Тьюки. Некоторое время тому назад С. Виноградом был предложен алгоритм, обладающий еще более вы- высоким быстродействием; этот ал- алгоритм называют очень быстрым преобразованием Фурье (ОБПФ) (VFFT)- Вергентные движения глаз - vergence eye movements. См. дизъюнктивные дви- движения глаз. Ганглиозные клетки сетчатки — retinal ganglion cells. Слой нервных клеток, который последним включается в об- обработку информации, выполняемую сетчаткой. Аксоны этих нервных клеток выходят из сетчатки через так называемое слепое пятно, образуя зрительный нерв. См. ^Г-клетки и У-клетки. Гауссиан - gaussian (G). Так называе- называемое распределение Гаусса (или нор- нормальное распределение) в двухмер- двухмерном случае определяется как G (г) = = A/2тго3)ехр(-г2/2о2). Главная ось (модели) - principal axis. Ось трехмерной модели, к которой присоединяется большая часть осей компонентов модели, например ось туловища трехмерной модели четве- четвероногого. Глубина — depth. Субъективное пред- представление наблюдателя о расстоянии до наблюдаемой поверхности. Гороптер — horopter. Известно несколь- несколько определений гороптера. В данной книге под гороптером понимается поверхность, диспаратность которой при текущем положении глаз равна нулю. Граничный случай Панума - Panum's limiting case. См. рис. 3.19. Двоичное отображение изображения — bit map. Удобный способ приближен- приближенного представления расположения объектов на изображении. Двухмер- Двухмерный массив ставится в соответствие х, у-координатам изображения, и рас- расположение на нем объектов указыва- указывается с помощью занесения 1 в соот- соответствующую ячейку массива. 2,5-мерный эскиз - 2,5-с/ sketch. Пред- Представление глубины и ориентации на- наблюдаемых поверхностей, привязан- привязанное к позиции наблюдателя и вклю- включающее контуры нарушений непре- непрерывности по этим параметрам (см. рис. 3.12). Дизъюнктивные движения глаз — disjunc- disjunctive eye movements. Движения глаз, из- изменяющие относительные направле- направления взгляда двух глаз (делая их бо- более конвергентными или более дивер- дивергентными), но не изменяющие сред- среднее направление взгляда глаз. Диспаратность - disparity. Если два объ- объекта находятся на разных расстояни- расстояниях от наблюдателя, то относительные расположения их изображений в раз- разных глазах будут отличаться. Соот- Соответствующая разность, которую обыч- 369
но измеряют в угловых минутах, на- называется диспаратностью. Различие по глубине, составляющее около 2,5 см на расстоянии около 1,5 м прямо перед наблюдателем, порождает дис- паратность, равную приблизительно Г. Дифференциальные операторы - differen- differential operators. Пространственные диф- дифференциальные операторы типа д/дх и д/ду могут быть при реализации ап- аппроксимированы операторами сверт- свертки, рецептивным полям которых бу- будет придана соответствующая форма. Несколько примеров таких операто- операторов приведено на рис. 2.11. Едва различимое различие (ЕРР) - just noticeable difference (JND). EPP- эксперимент предназначен для изуче- изучения способности замечать изменение значения некоторого параметра в не- некотором диапазоне его значений; в процессе выполнения ЕРР-экспери- мента в каждой точке соответствую- соответствующего диапазона измеряется измене- изменение значения параметра, необходимое для того, чтобы соответствующее из- изменение могло бы быть обнаружено. Обычно два раздражителя, используе- используемые в эксперименте, налагаются друг на друга. Зона Панума — Panum's area. Диапазон значений диспаратности, в котором удается добиться стереоскопического слияния без использования движений глаз. Зрительная кора — striate cortex. Часть коры головного мозга обезьяны и че- человека, в первую очередь воспри- воспринимающая зрительную информацию. Названа таким образом из-за наличия так называемой полоски Дженнари (stria of Gennart) - полосы нейрон- нейронной ткани белого цвета, проходящей только через этот участок мозга. Источник контура - contour generator Геометрическое место точек видимой поверхности, порождающих некото- некоторый контур на изображении поверх- поверхности. 370 Канал пространственной частоты - spatial frequency channel. Канал, пропускаю- пропускающий лишь некоторый ограниченный диапазон пространственных частот. Части зрительной системы человека, осуществляющие предварительную обработку изображений, содержат це- целый ряд каналов пространственной частоты, эффективная полоса пропус- пропускания каждого из которых составля- составляет менее двух октав, т. е. отношение максимального и минимального зна- значений частот, пропускаемых каждым каналом, меньше, чем 4.1. Карта отражательной способности — reflectance map. Набор контуров, от- отражающих связь яркостей изображе- изображения с ориентацией поверхности, при- причем не всегда это соответствие ока- оказывается взаимно-однозначным. Не- Несколько примеров таких контуров приведено на рис. 3.76 - 3.79. Контур поверхности - surface contour. Изображение контура, расположенно- расположенного на видимой поверхности. Конъюнктивные движения глаз - conjun- conjunctive eye movements. Движения глаз, изменяющие среднее направление взгляда двух глаз. Кооперативный алгоритм — cooperative algorithm. Нелинейный алгоритм, пре- предусматривающий использование стро- строго определенным образом взаимо- взаимодействия сугубо локальных операций для достижения глобальной упорядо- упорядоченности. Назван алгоритм по анало- аналогии с так называемыми кооператив- кооперативными явлениями, известными в физи- физике (например, моделью ферромагне- ферромагнетизма, предложенной Изингом, сверх- сверхпроводимостью и фазовыми перехо- переходами) . Кооперативные алгоритмы имеют много общего с этими явле- явлениями. Кривая равной яркости (изолиния ярко- яркости) - isoluminance contour. Карта отражательной способности обычно сортоит из~ кривых равной яркости, представленных в р, q -координатах (в пространстве градиентов).
Локально-характерный объект (двух- (двухмерный признак изображения) - place token. Характерный объект, указывающий "важное" место на изо- изображении. Объекты такого рода ха- характеризуются местоположением на изображении; кроме того, им могут приписываться и некоторые другие свойства. Считается, что эти объекты формируются на этапе предваритель- предварительного анализа пространственной орга- организации изображения. Мир игрушечных кубиков - block world. Сцены, образованные кубиками с бе- белыми матовыми плоскими гранями, расположенными на темном фоне. Такие сцены широко использовались в значительном числе ранних работ, посвященных проблемам машинного зрения. Модуляционная передаточная функция (МПФ) - modulation transfer function (MFT). Фурье-преобразование некото- некоторого фильтра или функции. МПФ ин- интересна тем, что позволяет, просто взглянув на ее график, определить, ка- какие частоты соответствующим фильт- фильтром пропускаются, а какие — подав- подавляются. Наклон (отклонение) поверхности - slant. Угол, под которым некоторая плоскость наклонена относительно фронтальной плоскости наблюдателя или отклоняется от нее. Этот угол на- называют также наклонением (dip). Наклонение - dip. См. наклон поверх- поверхности. Наружное коленчатое тело (НКТ) - lateral geniculate body (LGB). Основ- Основные клеточные ядра зрительного пу- пути, расположенные между глазом и мозгом. Входные сигналы поступают в НКТ через зрительный нерв, состоя- состоящий из аксонов ганглиозных клеток сетчатки. Аксоны, исходящие из НКТ (их называют оптическими разветвле- разветвлениями) у человека и обезьяны входят в зрительную кору. Ограничивающий контур - occluding contour. Конгур на изображении, об- образованный ограничивающим яркост- ным переходом. Оператор Лапласа (лапласиан) —Laplacian. Формально определяется как V2 = = д2/дх2 + д2/ду2 и представляет со- собой изотропный дифференциальный оператор наименьшего порядка. При- Применяется к двухмерному распределе- распределению. Результат этой операции пред- представляется графиком, имеющим очер- очертания мексиканской шляпы. Он запи- записывается как = -1пт4A-г212т2)ехр(-г212т2) (см. рис. 2.9). Описание — description. Описание некото- некоторого конкретного объекта возникает в результате применения к нему не- некоторой схемы представления. Ось компонента модели - component axis. Вспомогательная ось трехмерной модели, например ось шеи в трехмер- трехмерной модели четвероногого. Ось модели - model axis. Ось, которая ставится в соответствие трехмерной модели и определяет протяженность формы объекта, представляемой мо- моделью в целом. Отношение присоединения - adjunct relation. Удобное средство задания от- относительного положения пары осей трехмерной модели (обычно исполь- используется для указания связи оси ком- компонента с главной осью модели) (см. рис. 5.4 и 5.5). Первоначальный эскиз - primal sketch. Представление двухмерного изобра- изображения, обеспечивающее перевод в яв- явную форму количественных и пози- позиционных характеристик изменений яркости на изображении. Это пред- представление имеет иерархический ха- характер: на нижнем уровне непроиз- непроизводные элементы представляют ис- исходные изменения яркости и их ло- локальную геометрическую структуру, а непроизводные элементы верхних 371
уровней отражают группировку и вза- взаимное расположение объектов, выде- выделяемых на низших уровнях (см. рис. 2.7). Повышенная острота зрения - hyperacui- ty. Человек в состоянии справляться с разнообразными заданиями с точно- точностью, порядок значений которой мень- меньше размеров колбочек сетчатки гла- глаза, поставляющих соответствующую информацию. Диаметр колбочек цен- центральной ямки сетчатки составляет приблизительно 27" и, тем не менее, при решении ряда задач достигается точность порядка 5", а острота сте- стереоскопического зрения может дости- достигать даже 2". Считается, что задачи такого рода относятся к диапазону повышенной остроты зрения. Поле 17 - area П. - Зрительная кора. Потенциал действия - action potential. Самоподдерживающийся биоэлектри- биоэлектрический потенциал, который распро- распространяется вдоль аксона, обеспечивая тем самым передачу сигнала от од- одной нервной клетки к другой через синапс. Механизм проведения такого сигнала был объяснен А. Л. Ходжки- ным и А. Ф. Хаксли. Представление — representation Пред- Представлением некоторого множества объектов S служит некоторая фор- формальная схема их описания в сочета- сочетании с правилами, указывающими, ка- каким образом данная схема применя- применяется к любому из объектов множе- множества. Представление трехмерной модели - 3-d model representation. Представление форм объектов, привязанное к объек- объекту и предусматривающее использова- использование объемных непроизводных эле- элементов различных размеров, упоря- упорядоченных в виде некоторой модуль- модульной структуры иерархического харак- характера (см. рис. 5.3). Пространственная частота - spatial fre- frequency Фурье-преобразование неко- некоторого изменяющегося во времени сигнала сводится к представлению 372 этого сигнала в виде суммы синусо- синусоидальных и косинусоидальных со- составляющих, каждая из которых со- соответствует своей временной частоте. Если же сигнал изменяется не во вре- времени, а в пространстве (как, напри- например, это имеет место в случае отдель- отдельного изображения), то составляющи- составляющими, с помощью которых Фурье-пре- Фурье-преобразование представляет такой сиг- сигнал, оказываются его пространствен- пространственные частоты, причем их можно рас- рассматривать как ориентированные си- синусоидальные решетки. Пространство градиентов - gradientspace. Математический объект, позволяю- позволяющий представлять ориентацию неко- некоторой поверхности в трехмерном про- пространстве с помощью точки графика, построенного в двухмерной системе координат (их обычно обозначают как р, ^-координаты) (см. разд. 3.8 и, особенно, рис. 3.73). Простые клетки - simple cells. Класс нервных клеток зрительной коры, обладающих чувствительностью к ори- ориентации. Обнаружены Хьюбелом и Уиселом, которые определили их как простые клетки в силу линейного характера ответа этих клеток на раз- раздражители, попадающие в их рецеп- рецептивные поля. Разность двух гауссовских распределений (РГР) - difference of two Gaussians (DOG). Функция, образованная раз- разностью двух гауссовских распределе- распределений. Считается, что такие функции описывают форму рецептивных полей ганглиозных нервных клеток сетчат- сетчатки и форму рецептивных полей, ис- используемых в четырех канальной мо- модели предварительной обработки изо- изображений в зрительной системе, пред- предложенной Уилсоном. Форма таких функций очень близка к форме функ- функции V2G(cm. рис. 2.16). расстояние —distance Этим термином обычно обозначают истинное расстоя- расстояние в трехмерном пространстве, отде-
ляющее наблюдателя от наблюдаемой поверхности. Ретинекс - retinex Термин, введенный Эдвином Ландом для обозначения об- обработки изображения, заключающей- заключающейся в удалении всех плавных измене- изменений яркости (таких, которые могут вызываться изменениями освещения) и сохранении всех резких измене- изменений яркости (таких, которые могут вызываться изменениями отражатель- отражательной способности). Родопсин — rhodopsin Чувствительный к свету зрительный пигмент, содержа- содержащийся в палочках — рецепторах глаза. Ряд Вольтерра - Volterra series. Матема- Математический объект, используемый для представления одного класса нели- нелинейных систем. При условии, что функция достаточно гладкая, т. е. не имеет нарушений непрерывности, по- порогов или точек разветвления, такую функцию можно представить в виде суммы одночленов, например как fix, у) = ах + Ьу + сху + dx2y + ... Что касается конкретного примера, связанного с системой управления по- полетом комнатной мухи, то в данном случае существенны лишь члены низ- низшего порядка. Саккада — saccade Конъюнктивные дви- движения глаз могут осуществляться плавно либо в виде некоторого зара- заранее программируемого баллистичес- баллистического скачка, внутреннее программи- программирование которого занимает около 160 мс; этот скачок называется сак- кадой. Кроме того, дизъюнктивные движения глаз всегда являются глад- гладкими и их осуществление непрерыв- непрерывно контролируется с помощью обрат- обратной связи по диспаратности, образо- образованной текущим и искомым значе- значениями вергентного угла. Свертка (*) - convolution. Формально свертка двух функций f(x) и g (x) определяется как/*#(х) = //(*') X Х£(дс - x')dx'. При работе с изобра- изображениями ее смысл можно легко объяснить, используя рецептивные поля. Пусть точке изображения с ко- координатами (х, у) соответствует "взвешенное" рецептивное поле и пусть его организация имеет централь- центрально-периферический характер. Это по- поле обеспечивает линейное суммирова- суммирование вкладов, вносимых каждой ча- частью изображения при "взгляде" на нее через рецептивное поле, т. е. точ- точки, расположенные в центре, берутся с большими положительными весами, а точки, расположенные на перифе- периферии, - с небольшими отрицательны- отрицательными весами. Результатом этой опера- операции является значение свертки изо- изображения с функцией, представлен- представленной весами рецептивного поля, со- соответствующее данной точке (х, у). Таким образом, для того чтобы вы- вычислить свертку на всем изображе- изображении, т. е. определить ее значения во всех точках изображения с коорди- координатами (х, у), необходима процеду- процедура, требующая больших вычислитель- вычислительных затрат Синапс — synapse. Соединение нервных клеток, связывающее аксон одной клетки и дендрит (сому — тело клетки) другой. Большая часть си- синапсов имеет химическую природу. Это означает, что сообщения переда- передаются через них с помощью выделения какого-либо химического продукта на окончание аксона; некоторая часть синапсов, однако, имеет электричес- электрическую природу. Сложные клетки - complex cells. Класс нервных клеток зрительной коры, об- обладающих чувствительностью к ори- ориентации. Эти клетки были обнаруже- обнаружены Хыобелом и Уиселом. Сложность клеток этого типа по сравнению с простыми клетками состоит в том, что их ответ не является линейной функцией пространственных раздра- раздражителей, попадающих в их рецептив- рецептивные поля, однако эти клетки не обна- обнаруживают определенной чувствитель- чувствительности к концам яркостных переходов и полос. 373
Тахистоскоп — tachistoscope. Устройство, которое используется в психофизи- психофизических экспериментах для кратко- краткосрочного предъявления испытуемому зрительных раздражителей. Точки пересечения сигналом нулевого уровня — zero-crossing. Точки, в кото- которых значение функции изменяет знак. Трехмерная модель - 3-d model. Основ- Основной элемент, используемый при по- построении представления трехмерной модели. Она задает: ось модели, опре- определяющую общую протяженность формы объекта; относительные раз- размеры и пространственную организа- организацию нескольких осей компонентов модели; указатели для форм, связан- связанных с этими осями (см. блоки, изо- изображенные на рис. 5.3). Форма объекта — shape. Геометрия ре- реальной поверхности объекта. Фронтальная плоскость - frontal plane. Плоскость, расположенная перпенди- перпендикулярно линии прямой видимости наблюдателя. Функция отражательной способности — reflectance function. Эта функция ста- ставится в соответствие некоторой по- поверхности и указывает, какая часть падающего на поверхность света отра- отражается при различных условиях на- наблюдения и освещения (см. рис. 3.75 и разд. 3.8). Эксцентриситет — eccentricity. С помо- помощью этого термина обычно обозна- обозначают угловое расстояние от централь- центральной ямки сетчатки. W-клетки, ЛГ-клетки, У-клетки - W cells, X cells, Y cells. Три класса ганглиоз- ных клеток сетчатки. Разделение .Y-клеток и У-клеток было введено К. Инрот-Кугеллом и Дж. Д. Робсо- Робсоном, а существование И^-клеток было установлено позже. Эти классы были выделены как анатомически, так и физиологически. У-клетки обладают телом наибольшего размера, рецеп- рецептивным полем наибольшего размера и встречаются реже остальных типов (их доля среди общего числа гангли- озных клеток составляет около 4 %). Они обладают высокой скоростью проведения, их ответы имеют фаз- фазный характер, в них проявляются эф- эффекты смещения и Маклуэйна, они не / обладают чувствительностью к цвету и значительно реже встречаются на пе- периферии. Я-клетки меньше У-клеток, обладают меньшими рецептивными полями и встречаются чаще, чем У-клетки (около 60 % ганглиозных клеток сетчатки составляют .У-клет- ки). Они обладают средней скоро- скоростью проведения и их ответы имеют тонический характер; эти клетки не подвержены воздействию эффектов смещения и Маклуэйна, часто прояв- проявляют чувствительность к цвету и сравнительно часто располагаются в центральной ямке сетчатки. Размеры W-клеток очень малы, они обладают малой скоростью проведения и со- составляют около 40 % общего числа ганглиозных клеток. Эти нервные клетки, деятельность которых труд- трудно регистрировать, часто обладают избирательностью по направлению и другими довольно специфическими свойствами. Многие из этих нервных клеток проецируются в верхнее дву- двухолмие.
СПИСОК ЛИТЕРАТУРЫ 1. Adrian, E. D. 1928. The Basis of Sensation. London: Christophers (Reprint ed New York. Hafher, 1964). 2. Adrian, E. D. 1947. The Physical Background of Perception. Oxford: Clarendon Press. 3. Agin, G. 1972. Representation and description of curved objects. Stanford Artificial Intelligence Project Memo AIM-173 Stanford, Ca.: Stanford University. 4. Anstis, S. M. 1970. Phi movement as a subtraction process. Vision Res. 10,1411-1430. 5. Attneave, F. 1974. Apparent movement and the what-where connection. Psychologia 17, 108-120. 6. Attneave, E, and G. Block. 1973. Apparent motion in tridimensional space. Percept. & Psycbopbys. 13, 301-307. 7. Austin, J. L. 1962. Sense and Sensibilia Oxford: Clarendon Press. 8. Barlow, H. B. 1953. Summation and inhibition in the frog's retina J Physiol. (Lond.) 119, 69-88. 9. Barlow, H. B. 1972. Single units and sensation: a neuron doctrine for perceptual psychology? Perception 1, 371-394. 10. Barlow, H. B. 1978. The efficiency of detecting changes in random dot patterns. Vision Res. 18, 637-650. 11. Barlow, H. B. 1979- Reconstructing the visual image in space and time. Nature 279, 189-190. 12. Barlow, H. В., С. Blakemore, and J. D. Pettigrew. 1967. The neural mechanism of v binocular depth discrimination/ Physiol. (Lond.) 193, Ъ21-Ъ42. 13. Barlow, H. В., R. M. Hill, and W. R. Levick. 1964. Retinal ganglion cells responding selectively to direction and speed of image motion in the rabbit. / Physiol. (Lond.) 173, 377-407. 14. Barlow, H. В., W. R. Levick. 1965. The mechanism of directional selective units in rabbits retina/. Physiol. (Lond.) 178, 477-504 15. Beck, J. 1972. Surface Color Perception. Ithaca, N.Y.: Cornell University Press. 16. Berry, R. N. 1948. Quantitative relations among vernier, real depth, and stereoscopic depth acuities/ Exp. Psychol. 38, 708-721. 17Binford, Т. О. 1971. Visual perception by computer. Paper presented at the IEEE Conference on Systems and Control, December 1971, Miami. 18. Bishop, P.O., J. S. Coombs, and G. H. Henry. 1971. Responses to visual contours Spatio-temporal aspects of excitation in the receptive fields of simple striate neurons/ Physiol. (Lond.J19, 625-657. 19. Blomfield, S. 1973. Implicit features and stereoscopy. Nature, New Biol. 245, 256. 375
20. Blum, H. 1973. Biological shape and visual science, part 1./ Tbeor. Bioi. 38, 205-287. 21. Bouguer, P. 1757. Histoire de l'Academie Royale des Sciences, Paris; and Traite d'Optique sur la Gradation de la Lumiere (Ouvrage posthume de M. Bou- Bouguer)., TAbbe deLacaille, Paris, 1760. 22.Braddick, O. J. 1973 The masking of apparent motion in random-dot patterns. Vision Res. 13, 355-369. 23. Braddick, O. J. 1974. A short-range process in apparent motion. Vision Res. 14, 519-527. 24. Braddick, O. J. 1979 Low- and high-level processes in apparent motion. Phil. Trans. R. Soc. bond В 290,137-151 25. Brady, M. 1979. Inferring the direction of the sun from intensity values on a gen- generalized cone. Proc. Int Joint Con/. Art Intel., 1JCA1-79, 88-91. 26. Braunstein, M. L. 1962. Depth perception in rotation dot patterns: Effects of nutne- rosity and perspective./ Exp. Psycbol. 64, 415-420. 27. Breitmeyer, В., and L. Ganz. 1977. Temporal studies with flashing gratings: Infer- Inferences about human transient and sustained channels. Vision Res. 17,861-865. 28. Brindley, G. S. 1970. Physiology of the Retina and Visual Pathway. Physiological Society Monograph no. 6. London: Edwin Arnold. 29. Brodatz, P. 1966. Textures. A Photographic Album for Artists and Designers. New York- Dover. 30. Campbell, F. W. С andj. Robson. 1968. Application of Fourier analysis to the visibility of gratings/ Physiol. (bond.) 197, 551-566. 31. Campbell, F. W. С 1977. Sometimes a biologist has to make a noise like a mathe- mathematician. Neuroseiences Res. Prog. Bull. 15,417-424. 32. Carey, S., and R Diamond 1980. Maturational determination of the developmental course of face encoding. In Biological Bases of Mental Processes, D. Kaplan, ed., 1-7. Cambridge, Mass.: МГГ Press. 33. Chomsky, N. \%5 Aspects of the Theory of Syntax. Cambridge, Mass.: МГГ Press 34. Chomsky, N., and H. Lasnik. 1977. Filters and control. Linguistic Inquiry 8,425-504. 35. Clarke, P. G. H., I. M. L. Donaldson, and D. Whitteridge. 1976. Binocular mechanisms in cortical areas I and II of the sheep/ Physiol (bond.) 236, 509-526. 36. Clocksin, W F. 1980. Perception of surface slant and edge labels from optical flow: A computational approach. Perception 9, 253-269. 37. Corbin, H. H. 1942. The perception of grouping and apparent motion in visual space. Arch. Psychol. Whole No. 273. 38. Crick, F H. C, D. Marr, and T Poggio. 1980. An information processing approach to understanding the visual cortex. In The Cerebral Cortex, Ed. F. O. Schmitt and F. G. worden. (The Proceedings of the Neuroseiences Research Program Colloquium held in \tbods Hole, Mass., May 1979) Cambridge, Mass.: МГГ Press. 39. Dev, P. 1975. Perception of depth surfaces in random-dot stereograms: A neural model. Int. J. Man-Machine Stud. 7, 511-528. 40. DeValois, R. L. 1965- Analysis and coding of color vision in the primate visual system. Cold Spring Harbor Symp. Quant. ВЫ. 30, 567-579. 376
41. DeValois, R. L, I, Abramov, and G. H.Jacobs. 1966. Analysis of response patterns of LGN cells./ Opt. Soc. Am. 56,966,977. 42. DeValois, R. L., I. Abramov, and W. R. Mead. 1967. Single cell analysis of wavelength discrimination at the lateral geniculate nucleus in the macaque. / Neuropby- . siol. 30,415-433- 43. Dreher, B. and K. J. Sanderson. 1973. Receptive field analysis: Responses to moving visual contours by single lateral geniculate neurons in the cat./. Physiol. (bond.) 234,95-118. 44. Enroth-Cugel, C. and J. D. Robson. 1966. The contrast sensitivity of retinal ganglion cells of the cat./ Physiol. (Land.) 187, 517-522. 45. Evans, R M. 1974. The Perception of Color New York: Wiley. 46. Felton, Т. В., W. Richards, and R. A. Smith, Jr. 1972. Disparity processing of spatial frequencies in man/ Pbystol. (bond.) 225, 349-362. 47. Fender, D., and B. Julesz. 1967. Extension of Panum's fusional area in binocularly stabilized vision./ Opt. Soc. Am. 57,819-830. 48. Fbrbus, K. 1977. Light source effects. МГГ A. I. Lab Memo 422. 49. Fram, J R., and E. S. Deutsch. 1975 On the quantitative evaluation of edge detection schemes and their comparison with human performance. IEEE Transactions on Computers C-24,616-628. 50. Freuder, E. С 1974. A computer vision system for visual recognition using active knowledge. МГГ A.I. Lab Tech. Rep. 345- Sl.Frisby, J. P., and J. L. Clatworthy. 1975- Learning to see complex random-dot ster- eograms. Perception 4,173-178. 52. Frisby, J. P., and J. E. W. Mayhew. 1979. Does visual texture discrimination precede binocular fusion? Perception 8,153-156. 53.Galambos, R., and H. Davis. 1943- The response of single auditory-nerve fibres to acoustic stimulation./ Neuropbysiol. 7, 287-303 54. Gibson, J. J. 1950. The Perception of the Visual World. Boston: Houghton Mifflin. 55. Gibson, J. J. 1958. Visually controlled locomotion and visual orientation in animals. Brit.J. Psych. 49,182-194. 56. Gibson, J. J. 1966. The Senses considered as Perceptual Systems. Boston. Houghton Mifflin. 57. Gibson, J.J. 1979. The Ecological Approach to Visual Perception. Boston. Houghton Mifflin. 58. Gibson.J. J., and E. J. Gibson. 1957. Continuous perceptive transformations and the perception of rigid motion/ Exp. Psychol 54,129-138. 59. Gibson, E. J.J. J. Gibson, O. W. Smith, and H. Flock. 1959 Motion parallax as a determinant of perceived depth/ Exp. Psychol. 8, 40-51. 60. Gibson, J. J., P. Olum, and F. Rosenblatt. 1955. Parallax and perspective during aircraft landings. Am. / Psychol. 68, 372-385. 61. Gilchrist, A. L. 1977. Perceived lightness depends on perceived spatial arrangement Skence 195,185-187. 62. Glass, L. 1969. Moire effect from random dots. Nature 243, 578-580. 63. Glass, L, and R. Perez. 1973- Perception of random dot interference patterns. Nature 246, 360-362. 377
64. Glass, L, and Ё. Swttkes. 1976. Panem perception in humans: Correlations which cannot be perceived Perception 5,67-72. 65. Goodwin, A. W., G. H. Henry and P. O. Bishop. 1975 Direction selectivity of simple striate cells-. Properties and mechanism/. Neuropbysiol. 38,1500-1523 66. Go don, D. A. 1965. Static and dynamic visual fields in human space perception / Opt. Soc. Am. 55,1296-1303 67.Gouras, P. 1968. Identification of cone mechanisms in monkey ganglion cells. / Pbysiol. (Land) 199. 533-Я7. 68. Granit, R, and G. Svaetichin. 1939- Principles and technique of the electrophysio logical analysis of colour reception with the aid of microelectrodes. Upsala LakmefFatb. 65,161-177. 69. Green, В. Е 1961. Figure coherence in the kinetic depth effect./ Exp Psychol 62, 272-282. 70. Gregory, R. L. 1970. The Intelligent Eye. London: Weidenfeld & Nicholson. 71.Grimson, W. E. L. 1979. Differential geometry, surface patches and convergence methods. МГГ A.I. Lab. Memo 510. (Available as From Images to Surfaces: A Computational Study of the Human Early Visual System. Cambridge. MIT Press 1981.) 72. Grimson, W. E. L. 1980. A computer implementation of a theory of human stereo vision. МГГ A.I. Lab Memo 565. Phil Trans. Roy Soc. Land. B292, 217-253. 73. Grimson, W. E. L., and D. Marr 1979. A computer implementation of a theory of human stereo vision. In Proceedings ofARPA Image Understanding Workshop, L. S. Baumann, ed, SRI, 41-45. 74. Gross, С G., С E. Rocha-Miranda, and D. B. Bender 1972. Visual properties of neurons in inferotemporal cortex of the macaque /. Neuropbysiol 35,96-111. 75. Guzman, A 1968. Decomposition of a visual scene into three-dimensional bodies. In AFIPS Con/. Proc. 33, 291-304. Washington, D.C.: Thompson. 76. Harmon, L. D., and B. Julesz. 1973. Masking in visual recognition Effects of two- dimensional filtered noise. Science 180,1194-1197. 77. Hartline, H. K. 1938. The response of single optic nerve fibres of the vertebrate eye to illumination of the retina. Am.J Pbysiol. 121, 400-415. 78. Hartline, H. K. 1940. The receptive fields of optic nerve fibers. Am.J. Physiol. 130, 690-699. 79. Hassenstein, В., and W. Reichardt. 1956. Systemtheoretische Analyse der Zeit-, Reih- enfolgen- and Vorzeichenauswertung bei der Bewegungsperzeption des Rus- selkafers Cblorophanus. Z. Naturf. lib, ЫЪ-Ы4. 80. Hay,-C. J. 1966. Optical motions and space perception—An extension of Gibsons analysis. Psycbol. Rev. 73, 550-565. 81.Helmholtz, H. L. F. von. 1910. Treatise on Physiological Optics Translated by J P. Southall, 1925 New York Dover. 82. Helson, H 1938. Fundamental principles in color vision. I. The principle governing changes in hue, saturation, and lightness of non-selective samples in chromatic illumination/. Exp. Psychol. 23, 439-471. 83. Hershberger, W. A, and J. J. Starzec. 1974. Motion parallax cues in one dimensional polar and parallel projections. Differential velocity andaccelerauon/displace- mentchange/ Еф Psycol. 103, l\l-12b. 378
84.Hildreth, E. 1980. A computer implementation of a theory of edge detection. МГГ A.I. Lab Tech. Rep. 579. 85. Harai, Y., and K. Fukushima. 1978. An inference upon the neural network finding binocular correspondence. Biol Cybernetics, 31, 209-217. 86. Hochstein, S., and R. M. Shapley. 1976a. Linear and non-linear spatial subunits in Y cat retinal ganglion cells/. Pbysiol. (hand.) 262,265-284. 87. Hochstein, S., and R. M. Shapley. 1976b. Quantitative analysis of retinal ganglion cell classification./ Pbysiol (bond) 262, 237-264. 88. Hollerbach, J. M. 1975- Hierarchical shape description of objects by selection and modification of prototypes. МГГ A.I. Lab. Tech. Rep. 346. 89. Horn, В. К. P. 1973 The Binfbrd-Horn LINEFINDER. МГГ A.I. Lab. Memo 285. 90. Horn, B. K. P. 1974. Determining lightness from an image. Computer Graphics and Image Processing 3, 277-299- 91. Horn, В. K. P. 1975 Obtaining shape from shading information. In The Psychology of Computer Vision, P. H. Winston, ed., 115-155. New York: McGraw-Hill. 92. Horn, B. K. P. 1977. Understanding image intensities. Artificial Intelligence 8, 201-231. 93. Horn, B. K. P., R. J. Woodham, and W. M. Silver. 1978. Determining shape and reflectance using multiple images. МП" A.I. Lab. Memo 490. 94.Hubel, D. H., and T. N. Wiesel. 1961. Integrative action in the cat's lateral geniculate body/. Pbysiol. (Land.) 155,385-398. 95.Hubel, D. H., and T. N. Wiesel. 1962. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex. /. Pbysiol. (Land.) 166, 106-154. 96. Hubel, D. H., and T. N. Wiesel. 1968. Receptive fields and functional architecture of monkey striatecortex/. Pbysiol. (bond.) 195, 215-243- 97. Hubel, D. R, and T. N. Wiesel. 1970. Cells sensitive to binocular depth in area 18 of the macaque monkey cortex. Nature 225,41-42. 98. Hueckel, M. H. 1973- An operator which recognizes edges and lines/ Assoc Corn- put. Macb. 20,634-647. 99. Huffman, D. A. 1971. Impossible objects as nonsence sentences. Machine Intelli- Intelligence 6, 295-323 100. Ikeda, H., and M. J Wright. 1972. Receptive field organization of "sustained" and "transient" retinal ganglion cells which subserve different functional roles./ Pbysiol. (Land) 227, 769-800. 101. Ikeda, H., and M. J. Wright. 1975. Spatial and temporal properties of "sustained" and "transient" neurons in area 27 of the cat's visual cortex Exp. Brain Res. 22, 363-383. 102. Ikeuchi, K. Personal communication. 103. Ito, M. 1978. Recent advances in cerebellar physiology and pathology. In Advances in Neurology, R. A. P. Kark, R. N. Rosenberg, and L. J. Shut, eds., 59-84. New York: Raven Press. 104. Ittelson, W. H. 1960. Visual Space Perception, New York. Springer. 105. Jardine, N., and R. Sibson. 1971. Mathematical Taxonomy. New York: Wiley. 106. Johansson, G. 1964. Perception of motion and changing form. Scand.J. Psycbol. 5, 181-208. 107. Johansson, G. 1975- Visual motion perception. Sci. Am. 232,76-88. 379
108. Johnston, I. R, G. R. White, and R. W. dimming. 1973- The role of optical expansion patterns in locomotor control, Arn.J. Psycbol. 86,311-324. 109. Judd, D. B. 1940. Hue saturation and lightness of surface colors with chromatic illumination./ Opt. Soc. Am. 30, 2-32. 110. Judd, D. B. 1960. Appraisal of Land's work on two-primary color projections./ Opt. Soc. Am. 50, 2Я-268. 111. Julesz, B. 1960. Binocular depth perception of computer generated patterns. Bell Syst. Tecb.J. 39, П25-П62. H2.Julesz, B. 1963- Towards the automation of binocular depth perception (AUTO- MAP-1 )• In Proceedings qfthelFIPS Congress, C. M. Popplewell, ed. Amsterdam: North Holland. 113. Julesz, B. 1971. Foundations of Cyclopean Perception. Chicago: University of Chi- Chicago Press. 114. Julesz, B. 1975. Experiments in the visual perception of texture. Sci. Am. 232,34-43- US. Julesz, В., and J. J. Chang, 1976. Interaction between pools of binocular disparity detectors tuned to different disparities. BkA. Cybernetics 22,107-120. 116. Julesz, В., and J. E. Miller. 1975. Independent spatial-frequency-tuned channels in binocular fusion and rivalry. Perception 4,125-143- 117. Kaufman, L. 1964. On the nature of binocular disparity. Am.J. Psycbol. 77,393-402. 118. Kelly, D. H. 1979- Motion and vision. II. Stabilized spatio-temporal threshold surface. J Opt. Soc Am. 69,1340-1349. 119. Kendall, D. G. 1969. Some problems and methods in statistical archaeology. World Archaeology 1,68-76. 120. Kidd, A. L, J. P. Frisby, and J. E. W. Mayhew. 1979- Texture contours can facilitate stereopsis by initiating appropriate vergence eye movements. Nature 280, 829-832. 121. Koenderick, J. J., and A. J. van Doom. 1976. Local structure of movement parallax of the plane./ Opt. Soc. Am. 66,717-723. 122. Kofflca, K. 1935. Principles of Gestalt Psychology. New York: Harcourt, Brace & 123. Kolers, P. A. 1972. Aspects of Motion Perception. New York: Pergamon Press. 124. Kniskal, J. B. 1964. Multidimensional scaling. Psycbometriha 29,1-42. 125. Kuffler, S. W. 1953- Discharge patterns and functional organization of mammalian retina./ Neuropbysiol 16, 37-68. 126. Kulikowski, J. J. and D. J. Tolhurst. 1973. Psychophysical evidence for sustained and transient detectors in human vision./ Physiol. (Land.) 232,149-162. 127. Land, E. H. 1959a. Color vision and the natural image. Proc. Natl. Acad. Sci. 45, 115-129,636-645. 128. Land, E. H. 1959b. Experiments in color vision. Sci. Am. 200,84-94,96-99. 129. Land, E. H., and J. J. McCann. 1971. Lightness and retinex theory/ Opt. Soc. Am. 61, 1-11. 130. Leadbetter, M. R. 1969- On the distributions of times between events in a stationary stream of events/ R. Statist. Soc. В 31, 295-302. 131. Lee, D. N., 1974. Visual Information during locomotion. In Perception. Essays in Honor of James]. Gibson, I. D. G. MacLed and O. Pick, eds. Ithaca, NY: Cornell University Press. 380
132. Legge, G. E. 1978. Sustained and transient mechanisms in human vision. Temporal and spatial properties. Vision Res. 18,69-81. 133. Lettvin, J. Y, R. R. Maturana, W. S. McCulloch, and W. H. Pitts. 1959. What the frog's eye tells the frogs brain. Proc. Inst. Rod. Eng 47,1940-1951. 134. Logan, B. F, Jr. 1977. Information in the zero-crossings of bandpass signals. BeU Syst. TecbJ. 56, 487-510. 135. Longuet-Higgins, H. C, and K. Prazdny. 1980. The interpretation of moving retinal images. Proc. R. Soc. bond. В 208, 385-387. 136. Longuet-Higgins, M. S. 1962. The distribution of intervals between zeros of a sta- stationary random function. Phil. Trans. R. Soc. land. A 254, 557-599. 137. McCann, J. J., S. P. McKee, and T. H. Taylor. 1976. Quantitative studies in retinex theory: a comparison between theoretical predictions and observer responses to the color Mondrian experiments. Vison Res. 16, 445-458. 138. McCulloch, W. S., and W. Pitts. 1943. A logical calculus of ideas immanent in neural nets. Bull. Math. Biopbys 5,115-137. 139. Mackworth, A. K. 1973. Interpreting pictures of polyhedral scenes. Art. Intel. 4, 121-137. 140. Marcus, M. P. 1980. A Theory of Syntactic Recognition for Natural Language. Cam- Cambridge, Mass.: МГГ Press. 141. Marr, D. 1969. A theory of cerebellar cortex/ Pbystol. (Land.J02,437-470. 142. Marr, D. 1970. A theory for cerebral neocortex. Proc. R. Soc. bond. В176,161-234- 143. Marr,.D. 1974a. The computation of lightness by the primate retina. Vision Res. 14, 1377-1388. 144. Marr, D. 1974b. A note on the computation of binocular disparity in a symbolic, low-level visual processor. MIT A.I. Lab. Memo 327. 145. Marr, D. 1976. Early processing of visual information. РЫ1. Trans. R. Soc bond В 275, 483-524. 146. Marr, D. 1977a. Analysis of occluding contour. Proc. R. Soc. Land В 197,441-475. 147. Marr, D. 1977b. Artificial intelligence—a personal view. Artificial Intelligence 9 37-48. 148. Marr, D. 1978 Representing visual information. Lectures on Mathematics in the Life Sciences 10, 101-180. Reprinted in Computer Vision Systems, A. R. Hanson and E. M. Riseman, eds., 1979, 61-80. New York: Academic Press. 149. Marr, D. 1980 Visual information processing: the structure and creation of visual representations. Phil. Trans. R. Soc. bond В 290,199-218. 150. Marr, D., and E. Hildreth. 1980. Theory of edge detection. Proc. R. Soc. bond. В 207, 187-217. 151. Marr, D., and H. K. Nishihara. 1978. Representation and recognition of the spatial organization of three-dimensional shapes. Proc. R Soc. bond В 200,269-294. 152. Marr, D., G. Palm, and T. Poggio. 1978. Analysis of a cooperative stereo algorithm. Biol. Cybernetics 28, 223-229- 153. Marr, D., and T. Poggio. 1976. Cooperative computation of stereo disparity. Science 194, 283-287. 154. Marr, D., and T. Poggio. 1977. From understanding computation to understanding neural circuitry. Neurosciences Res. Prog. Bull. 15, 470-488. 155. Marr, D., and T. Poggio. 1979. A computational theory of human stereo vision. Proc. R. Soc. bond. В 204, 301-328. 381
156. Marr, D., Т. Poggk>, and E. Hlldreth. 1980. The smallest channel in early human vision./ Opt. Soc. Am. 70,868-870. 157. Marr, D., T. Poggk), and S. Ullman. 1979- Bandpass channels, zero-crossings, and early visual information processing./ Opt. Soc. Am: 69,914-916. 158. Marr, D., and S. Ullman. 1981. Directional selectivity and its use in early visual processing. Proc. R. Soc. Land. В 217,151-180. 159.Marroquin, J. L. 1976. Human visual perception of structure. Master's thesis, МГЕ 160. Maturana, H. R., and S. Frenk. 1963- Directional movement and horizontal edge detectors in pigeon retina. Science 142,977-979. 161. Maturana, H. R., J. Y. Lettvin, W. S. McCuIloch, and W. H. Pitts. I960. Anatomy and physiology of vision in the frog (Rana pipiens). J. Gen. Pbysiol. 43 (suppl. no. 2, Mechanisms of Vision), 129-171. 162.Mayhew, J. E W., andj. P. Frisby. 1976. Rivalrous texture stereograms. Nature 264, 53-56. 163. Mayhew, J. E. W., and J. P. Frisby. 1978a. Stereopsis masking in humans is not ori- entadonally tuned. Perception 7,431-436. 164. Mayhew, J. E W., and J. P. Frisby. 1978b. Texture discrimination and Fourier analysis in human vision. Nature 275, 438-439- 165. Mayhew, J. E. W., and J. P. Frisby. 1979. Convergent disparity discriminations in narrowband-filtered random-dot stereograms. Vision Res. 19,63-71. 166. Metelli, F. 1974. The perception of transparency. Sci. Am. 230,91-98. 167. Miles, W. R. 1931. Movement in interpretations of the silhouette of a revolving fan. Am]. Psycbol. 43, 392-404. 168. Minsky, M. 1975. A framework for representing knowledge. In The Psychology of Computer Vision, P. H. Winston, ed, 211-277. New \fork: McGraw-Hill. 169. Mitchell, D. E. 1966. Retinal disparity and diplopia. Vision Res 6, 441-451- 170. Monasterio, F. M. de, and P. Gouras. 1975- Functional properties of ganglion cells of the rhesus monkey retina./ Pbysiol. (bond.) 251, 167-195. 171. Movshon, J. A, I. D. Thompson, and D. J. Tolhurst. 1978. Spatial and temporal contrast sensitivity of neurones in areas 17 and 18 of the cat's visual cortex/ Pbysiol. (bond.) 283, 101-120. 172. Nakayama, K., and J. M. Loomis. 1974. Optical velocity patterns, velocity sensitive neurons, and space perception: A hypothesis. Perception 3,63-80. 173. Narasimhan, R 1970. Picture languages. In Picture Language Machines, S. Kaneff, ed., 1-25. New York. Academic Press. 174. Nelson, J. I. 1975. Globality and stereoscopic fusion in binocular vision./ Tbeor. Biol. 49,1-88. 175. Neuhaus, W. 1930. Experimentelle Untersuchung der Scheinbewegung. Arcb. Ges. Psycbol. 75, 315-458. 176. Newell, A, and H. A Simon. 1972. Human Problem Solving. Englewood Cliffs, N.J.: Prentice-Hall. 177. Newton, I. 1704. Optics. London. 178. Nishihara, H. K. 1978. Representation of the spatial organization of three-dimen- three-dimensional shapes for visual recognition. Ph.D. dissertation, МГГ. 179. Nishihara, H. K. 1981. Reconstruction of V2 G filtered Images from gradients at zero-crossings. (In preparation.) 180. Norman, D. A, and D. E. Rumelhart. 1974. Explorations in Cognition. San Francisco: W. H. Freeman and Company. See esp. 35-64. 382
181. Pearson, D. E., С. В. Rubinstein and G. J. Spivack. 1969. Comparison of perceived color in two-primary computer generated artificial images with predictions based on the Helsen-Judd formulation/ Opt. Soc. Am. 59, 644-658 182. Pettigrew, J. D., and M. Konishi. 1976. Neurons selective for orientation and binoc- binocular disparity in the visual wulst of the barn owl (Tyto alba). Science 193, 675-678. 183. Poggio, G. R, and B. Fischer. 1978. Binocular interaction and depth sensitivity of striate and prestriate cortical neurons of the behaving rhesus monkey/ Neu- ropbystol. 40,1392-1405. 184. Poggio, Т., and W. Reichardt. 1976. Visual control of orientation behavior in the fly. Pan II. Towards the underlying neural interactions. Quart. Rev. Biophys. 9, 377-438. 185. Poggio, Т., and V. Torre. 1978. A new approach to synaptic interactions. In Approaches to Complex Systems, R Heim and G. Palm, eds. 89-115. Berlin. Springer-Verlag. 186. Potter, J. 1974. The extraction and utilization of motion in scene description. Ph-D. dissertation, University of Wisconsin. 187. Prazdny, K. 1980. Egomotion and relative depth from optical flow. Biol. Cybernetics, 36,87-102. 188. Ramachandran, V. S., and R. L. Gregory. 1978. Does colour provide an input to human motion perception? Nature 275, 55-56. 189. Ramachandran, V. S., V. R. Madhusudhan, and T R. Vidyasagar. 1973- Apparent move- movement with subjective contours. Vision Res. 13,1399-1401. 190. Rashbass, C, and -G. Westheimer. 1961a. Disjunctive eye movements. / Pbysiol. (Land.) 159, 339-360. 191. Rashbass, C, and G. Westheimer. 196lb. Independence of conjunctive and disjunc- disjunctive eye movements./ Physiol. (bond.) 159,361-364. 192. Regan, D., K. I. Beverley, and M. Cynader. 1979. Stereoscopic subsystems for position in depth and for motion in depth. Proc. R. Soc. bond. V 204,485-501. 193. Reichardt, W, and T. Poggio. 1976. Visual control of orientation behavior in the fly. Part I. A quantitative analysis. Quart. Rev. Biopbys. 9, 3 1-375. 194. Reichardt, W, and T. Poggio. 1979. Visual control of flight ir. flies. In Recent Theo- Theoretical Developments in Neurobiology, W E. Reichardt, V. B. Mountcastle, and T Poggio, eds. 195. Rice, S. O. 1945. Mathematical analysis of random noise. Bell Syst Tech. J 24, 46-156. 196. Richards, W 1970. Stereopsis and stereoblindness. Exp. BrcmRes. 10, 380-388. 197. Richards, W. 1971. Anomalous stereoscopic depth perception. / Opt. Soc. Am. 61, 410-414. 198. Richards, W, and E A. Parks. 1971. Model fop color conversion/ Opt. Soc. Am. 61, 971-976. 199. Richards, W 1977. Stereopsis with and without monocular cues. Vision Res. 17, 967-969. 200. Richards, W, and D. Regan. 1973. A stereo field map with implications for disparity processing. Invest. Optbal. 12,904-909. 201. Riggs, L. A., and E. W. Niehl. 1960. Eye movements recorded during convergence and divergence/ Opt. Soc. Am. 50,913-920. 383
202. Roberts, L. G. 1965. Machine perception of three-dimensional solids. In Optical and electro optical information processing, ed. J. T. Tippett et aL, 159-197. Cambridge, Mass.: MIT Press. 203. Rock, I., and S. Ebenholtz. 1962. Stroboscopic movement based on change of phe- phenomenal rather than retinal location. Am.J. Psycbol. 72,221-229. 204. Rodieck, R. W., and J. Stone. 1965 Analysis of receptive fields of cat retinal ganglion cells/ Neuropbysiol. 28, 833-849. 205. Rosen, E. 1978. Principles of categorization. In Cognition and categorization, E. Rosch and B. Lloyd, eds., 27-48. Hillsdale, N.J.: Lawrence Erlbaum Associates. 206. Rosenfeld, A..RA. Hummel, and S. W. Zucker. 1976. Scene labelling by relaxation operations. IEEE Trans. Man Machine and Cybernetics SMC-6, 420-433. 207. Rosenfeld, A., and M. Thurston. 1971. Edge and curve detection for visual scene analysis. IEEE Trans. Сотри*. С-20, 562-569. 208. Russell, B. 1921. Analysis of Mind. London: Allen & Unwin. 209. Save, A., and J. P. Frisby. 1075. The role of monoculariy conspicuous features in facilitating stereopsis from random-dot stereograms. Perception 4, 159-171. 210. Schatz, B. R. 1977. The computation of immediate texture discrimination. MIT A.I. Lab Memo 426. 211. Schiller, P. H., B. L. Finlay, and S. F. Volman. 1976a. Quantitative studies of single- cell properties in monkey striate cortex. I. Spatiotemporal organization of receptive fields/ Neuropbysiol 39,1288-1319- 212. Schiller, P. H, В L. Finlay, and S. F Volman. 1976b. Quantitative studies of single- cell properties in monkey striate cortex. II. Orientation specificity and ocular dominance./ Neuropbysiol. 39,1320-1333. 213. Shepard, R N. 1975. Form, formation and transformation of internal representa- representations. In Information Processing and Cognition: The Loyola Symposium, R. Solso, ed, 87-122. Hillsdale, N.J.: Lawrence Erlbaum Associates. 214. Shepard, R. N. 1981. Psychophysical complementarity. In Perceptual Organization, M. Kubovy and J. R. Pomerantz, eds. Hillsdale, N.J.: Lawrence Erlbaum Asso- Associates. 215- Shepard, R. N.. and J. Metzler. 1971. Mental rotation of three-dimensional objects. Science 171, 701-703- 216. Shipley, W. G., F. A. Kenney, and M. E. King. 1945. Beta-apparent movement under binocular, monocular and interocular stimulation Amer. J. Psycbol. 58, 545-549. 217. Shirai, Y. 1973. A context-sensitive line finder for recognition of polyhedra. Artificial Intelligence 4, 95-120. 218. Sperling, G. 1970. Binocular vision: A physical and neural theory. Am. J. Psycbol 83, 461-534. 219. Stamm, J. S. 1969. Electrical stimulation of monkey's prefrontal cortex during delayed response performance/ Сотр. Pbys. Psycb. 67, 535-546. 220. Stevens, K. A. 1978. Computation of locally parallel structure. Biol. Cybernetics 29, 19-28. 221. Stevens, K. A. 1979- Surface perception from local analysis of texture and contour Ph D. dissertation, MIT (Available as The information content of texture gra- gradients. Biol. Cybernetics 42 A981), 95-105; also, The visual interpretation of surface contours. Artificial Intelligence 17 A981), 47-74.) 384
222. Sugie, N.. and M. Suwa. 1977. A scheme for binocular depth perception suggested by neurophysiological evidence. Biol. Cybernetics 26,1-15. 223. Sussman, G. J. 1975. A Computer Model of Skill Acquisition. New York: American Elsevier. 224. Sutherland, N. S. 1979- The representation of three-dimensional objects. Nature 278,395-398. 225. Szentagothai, J. 1973- Synaptology of the visual cortex. In Handbook of Sensory Physiology, vol. 7/3B, R. Jung, ed., 269-324. Berlin: Springer-Verlag. 226. Tenenbaum, J. M, and H. G. Barrow. 1976. Experiments in interpretation-guided segmentation. Stanford Research Institute Tech. Note 123 227. Tolhurst, D. J. 1973 Separate channels for the analysis of the shape and the move- movement of a moving visual stimulus./ PbyskA. (bond) 231,385-402. 228. Tolhurst, D. J. 1975- Sustained and transient channels in human vision. Vision Res. 15,1151-1555. 229. Torre, V., and T. Poggio. 1978. Asynaptic mechanism possibly underlying directional selectivity to motion. Proc. R Soc. Land. В 202, 409-416. 230. Trowbridge, T. S., and K. P. Reitz. 1975. Average irregularity representation of a rough surface for ray reflection./ Opt. Soc. Am. 65, 531-536. 231. Tyler, С W. 1973. Stereoscopic vision: cortical limitations and a disparity scaling effect Science 181, 276-278. 232. Tyler, С W., and B. Julesz. 1980. On the depth of the cyclopean retina. Exp. Brain Re, 40,196-202 233. Ullman, S. 1976a. Filling-in the gaps: The shape of subjective contours and a model for their generation. Biol. Cybernetics 25,1-6 234. Ullman, S. 1976b. On visual detection of light sources. Biol. Cybernetics 21,205-212. 235. Ullman, S. 1977. Transformability and object identity. Percept. Psycfoopbys. 22, 414-415. 236. Ullman, S. 1978. Two dimensionality of the correspondence process in apparent motion. Perception 7,683-693. 237. Ullman, S. 1979a. The interpretation of structure from motion. Proc. R. Soc. bond. В 203, 405-426. 238. Ullman, S. 1979b. The Interpretation of Visual Motion. Cambridge, Mass.: MIT Press. 239. von der Heydt, R, Cs. Adorjani, P. Hanny, and G. Baumgartner. 1978. Disparity sensitivity and receptive field incongruity of units in the cat striate cortex. Exp. Brain Res 31, 523-545 240. Wallach, H., and D. N. O'Connell. 1953. The kinetic depth effect/ Exp. Psycbol. 45, 205-217. 241. Waltz, D. 1975- Understanding line drawings of scenes with shadows. In The Psy- Psychology of Computer Vision, P. H. Winston, ed., pp. 19-91. New York: McGraw Hill. 242. Warrington, E. K. 1975. The selective impairment of semantic memory. Quart J Exp. Psycbol. 27, 635-657. 243. Warrington, E. K., and A M. Taylor. 1973- The contribution of the right parietal lobe to object recognition. Cortex 9,152-164. 244. Warrington, E. K., and A M. Taylor. 1978. Two categorical stages of object recogni- recognition. Perception 7,695-705. 245. Watson, B. A, and J Nachmias. 1977. Patterns of temporal interaction on the detec- detection of gratings. Vision Res. 17,893-902. 385
246. Weisstein, N. 1973- Beyond the yellow Volkswagen detector and the grandmother cell: A general strategy for the exploration of operations in human pattern recognition. In Contemporary Issues in Cognitive Psychology. The Loyola Sym- Symposium, R. Solso, ed Washington, DC: W H. Winston & Sons. 247. Weizenbaum, J. 1976. Computer Thought and Human Reason. San Francisco: W. H. Freeman and Company. 248. Wertheimer, M. 1912. Experimentelle Studien uber das Sehen von Bewegung. Zeit- schrift f. Psychol. 61,161-265. 249.Wertheimer, M. 1938. Laws of Organization in Perceptual Forms. Harcourt, Brace & Co., London. 71-88. 250. Westheimer, G., and S. P. McKee. 1977. Spatial configurations for visual hyperacuity. Vision Res. /7,941-947. 251. Westheimer, G., and D. E. Mitchell. 1969. The sensory stimulus for disjunctive eye movements. Vision Res. 9, 749-755. 252. White, B. W. 1962. Stimulus-conditions affecting a recently discovered stereoscopic effect Am. J. Psycbol. 75,411-420. 253. Williams, R H., and D. H. Fender. 1977. The synchrony of binocular saccadic eye movements. Vision Res. 17, 303-306. 254. Wilson, H. R 1979. Spatiotemporal characterization of a transient mechanism in the human visual system Unpublished manuscript. 255. Wilson, H. R, and J. R Bergen. 1979. A four mechanism model for spatial vision. Vision Res. 19,19-32. 256. Wilson, H. R, and S. С Giese. 1977. Threshold visibility of frequency gradient patterns. Vision Res. 17,1177-1190. 257. Winograd, T. 1972. Understanding Natural Language. New York: Academic Press. 258. Woodham, R J. 1977. A cooperative algorithm for determining surface orientations from a single view. Proc. Int. Joint Conf. Art. Intel, IJCAI-77, 635-641 259. Woodham, R. J. 1978. Photometric stereo: A reflectance map technique for deter- determining surface orientation from image intensity. Image Understanding Systems and Industrial Applications, Proc. S.P.I.E. 155. Also available as MIT A.I. Lab Memo 479. 260. Zeeman, W. P. C, and С. О. Roelofs. 1953 Some aspects of apparent motion. Acta Psychol. 9, 159-181. 261. Zucker, S. 1976. Relaxation labelling and the reduction of local ambiguities. Uni- University of Maryland Computer Science Center, Tech. Rep. 451. СПИСОК РАБОТ, ПЕРЕВЕДЕННЫХ НА РУССКИЙ ЯЗЫК 33. Хомский Н. Аспекты теории синтаксиса/Пер, с англ. под ред. и с предисл. В. А. Зве- гинцева. - М.: Изд-во МГУ, 1972. - 260 с. - (Публикации Отделения структурной и прикладной лингвистики/Под общ. ред. В. А. Звегинцева. - Серия переводов. - Вып. 1). 70. Грегори Р. Л. Разумный глаз/Пер, с англ. и нредисл. А. И. Когана. - М.: Мир, 1972. — 216 с. 75. Гузман А. Разбиение визуальной сцены на трехмерные тела//Интегральные роботы: Сб. статей/Пер, с англ. под ред. Г. Е. Поздняка. -' М.: Мир, 1973. - С. 241 - 268. 386
91. Хорн Б. Определение формы по данным о полутонах//Психология машинного зре- зрения/Под, ред. П. Уинстона; Пер. с англ. под ред. В. Л. Стефанюка. — М.: Мир, 1978.-С. 137 - 184. 138. Мак-Каллок У. С, Питтс В. Логическое исчисление идей, относящихся к нервной активности//Автоматы: Сб. статей/Под ред. К. Э. Шеннона и Дж. Маккарти; Пер. с англ. под ред. А. А. Ляпунова. - М.: ИЛ, 1956. - С. 362 - 384. 168. Минский М. Структура для представления знания//Психология машинного зре- зрения/Под ред. П. Уинстона; Пер. с англ. под ред. В. Л. Стефанюка. - М.: Мир, 1978.- С. 249 - 338. 177. Ньютон И. Оптика или трактат об отражениях, преломлениях, изгибаниях и цве- цветах света/Пер, с 3-го англ. изд. 1721 г. с примеч. С. И. Вавилова. — 2-е изд., прос- просмотр. Г. С. Ландсбергом. - М.: Гостехиздат, 1954. — 368 с. - (Классики естество- естествознания. Математика. Физика. Астрономия). 195. Раис С. Теория флуктуационных шумов//Теория передачи электрических сигналов при наличии помех:ЛГб. переводов/Пер, с англ. под ред. Н. А. Железнова. - М.: ИЛ, 1953. 202. Роберте Л. Автоматическое восприятие трехмерных объектов//Интегральные ро- роботы: Сб. статей/ Пер. с англ. под ред. Г. Е. Поздняка. — М.: Мир, 1973. - С. 162 - 208. 238. Ульман Ш. Принципы восприятия подвижных объектов/Пер, с англ. под ред. В. Л. Стефанюка. - М.: Радио и связь, 1983. - 168 с. 241. Уолц Д. Интерпретация контурных рисунков-, изображающих сцены с тенями/Пси- тенями/Психология машинного зрения/Под ред. П. Уинстона; Пер. с англ. под ред. В. Л. Сте- Стефанюка. - М.: Мир, 1978.-С. 30- 111. 247. Вейценбаум Дж. Возможности вычислительных машин и человеческий разум. От суждений к вычислениям/Пер, с англ. под ред. А. Л. Горелика. - М.: Радио и связь. - С. 368. 257. Виноград Т. Программа, понимающая естественный язык/Пер, с англ. под ред. Г. Е. Поздняка. - М.: Мир, 1976. - 296 с. ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Алгоритм 39, 41, 119 Дев 136 итерационные методы 211 кооперативный 120, 131, 133, 136, 292, 370 — стереопсис 131 обнаружение источников света 99 определение локально-параллельной структуры 97 поле скоростей 191 построение необработанного первона- первоначального эскиза 86 психофизика 42 реализация избирательности по на- направлению 180 светлоты 262 Стивенса97, 120 теория ретинекса 262 трансформационные грамматики 44 установление соответствий между изображениями стереопары (stereo matching) 42, 131, 143 глубина 158 формулировка 140—151 Векторы трехмерные 314 Восприятие-изучение (scruting) ПО мгновенное (preattentive) ПО Восстановление структуры по .движению (structure from motion) 196, 216 ограничение, предполагающее жест- жесткость 225 оптический поток 225 387
Вращение мысленное (mental rotation) 27 многошаговое (stepwise) 27 Гауссиан 369 Геометрия 54, 108 коэффициенты отражения 56 непроизводные элементы 66 Гештальтпсихология 24, 198 группировки по принципу "обшей судьбы" 219 движение 172 закон прегнантности (law of Prag- nanz) 199 Гипотеза о геометрическом происхожде- происхождении воспринимаемых границ на текс- текстурных изображениях 108 Гистерезис 139 Гладкость и затенение 255 Глубина 158, 288,369 2,5-мерный эскиз 277 диспаратность 158 линейное интерполирование 296 представление 288 Глянцевитость 102 Гофрирование поверхности на стерео- стереоскопических изображениях (surface corrugation in stereograms) 56 Градиент освещенности 267 — плотности 243 Граница 107, 108 воспринимаемая (perceptual boun- boundary) 108 объекта (object boundary) 64 поверхности, перемещающиеся неза- независимо друг от друга (indepen- (independently moving surfaces) 187 прозрачность 102 текстура (texture boundary) 108 тени (shadow boundary) 102 яркостная (luminance boundary) 269 Группировки по принципу "общей судь- судьбы" (grouping process by common fate) 219 Движение 172, 179 видимое (apparent motion) 173, 194 - задача установления соответствия (correspondence problem) 177 - оптический поток 223 - расщепление 213 - слияние 213 - существенные характеристики 173 388 ложное (spurious) 191 наблюдаемое (visual) 172 непрерывность (continuity of flow) 63 Движения глаз 141 вергентные 141, 163, 369 - 2,5-мерный эскиз 163 дизъюнктивные 163, 369 конъюнктивные 370 саккадические 163 Детектор: "нервная клетка для бабушки" 31 положения (hand-detector) 29 признаков 32, 338, 344, 347 Детекторы диспаратности: обезьяна 168 овца 168 Диплопия (diplopia) 158 Диспаратность 112, 369 глубина 158 неперекрестная (uncrossed dispari- disparity) 157 определение ориентации поверхности по ее значениям 170 перекрестная (crossed) 157 расстояние 169 реализация на нейронном уровне (neural implementation) 167 стереоскопическая (stereo dispari- disparity) 124 Допущение о совпадении в пространстве (spatial coincidence assumption) 83, 117,272 жесткость объектов наблюдения (ri- (rigidity assumption) 221 Единственность и установление соответ- соответствия 129, 154 Заюраживание (одних частей сцены дру- другими) (occlusion) 282 Задача обработки информации 19, 36 Затенение (shading) 251 фотометрические стереоскопические изображения (photometric ste- stereo) 256 Зона Панума 370 фузионная 148, 156 Зоны запретные 188 зрительные (visual areas) 31 Зрение: машинное (computer vision) 34
- затенение и фотометрические сте- стереоскопические изображения 247 - мир кубиков 33 - обнаружение яркостных переходов (edge detection) 32, 82 - распознавание 50 - сегментация изображения 275 - установление соответствий между изображениями стереопары (stereo matching) 135 цветовое (color vision) 24 И (логический элемент) 79 движущееся пересечение нулевого уровня (moving zero-crossing) 187 И—НЕ (логическая схема) 121 избирательность по направлению 172, 175 Избирательность по направлению (direc- (directional selectivity) 172,175 алгоритм 180 информационная теория (computatio- (computational theory) 187 логический элемент И—НЕ 172,175 луминг (looming) 193 модель 121, 176 налагаемые ограничения 188 поверхности, перемещающиеся неза- независимо друг от друга 187 реализация на нейронном уровне 182 теория Марра172,175 Изменения геометрических свойств по- поверхности 283 Изображения 46 в перспективе (perspective view) 142 извлечение информации о форме (shape information from) 52 необычные (unconventional views) 333 обнаружение яркостного перехода 32 остаточные (afterimages) 41 пространственная организация (spatial arrangement) 92, 95 созданные Эшером 299 соответствующие каталогу 3-мерных изделий 327 стереоскопические (stereograms) 25 тоновые (gray-level) 200 трехмерная модель 328 трехцветные, измерения 268 фотометрические стереоскопические (photometric stereo) 256 шахматной доски (chessboard pattern) 89 штриховые рисунки (line drawings) 33 Изучение адаптивного обнаружения по порогу 26 Иллюзия 46 искаженной комнаты, предложенная Эймсом 156 Крейка-Корнсуита 263 Мюллера—Лайера 299 Поггендорфа 299 Инварианты 45 Индексы: присоединения (adjunct) 325 — как источник гомологической ин- информации 328 происхождения (parent) 328 — как источник гомологической ин- информации 328 специфичности (specifity) 323 Интенсивность отраженного света 245 Интерполирование линейное 296 — методом "обтекаемой поверхности" ("fair surface") 296 Информация гомологическая 328 — характеризующая форму 52 Искусственный интеллект 44 информационная теория 43 синтаксический анализ 354 "Истинная форма" (real shape concept) 46 Источники контура 230, 370 — света 251 Каналы 75 модели структуры 149 производная по времени 182 пространственной частоты 141, 370 для стереопсиса 139 Карта: глубин (видимой поверхности) (depth map) 142 диспаратностей (для двух глаз — то- точек наблюдения) (disparity map) 158 ориентаций-тлубин (поверхностей, доступных взору наблюдателя) (orientation-and-depth map) 141 отражательной способности 253, 370 затенение 253 фотометрическое стереоскопичес- стереоскопическое изображение 256 Каталог трехмерных моделей 327 389
Клетки: зрительной коры простые (cortical simple cells) 79, 181, 187 наружного коленчатого тела (lateral geniculate cells) 77,264 простые 79, 372 Пуркинье (Purkinje cells) 30 реагирующие на появление светлого раздражителя в центре рецептивно- рецептивного поля (on-center cells) 77 темного раздражителя в центре рецептивного поля (off-center cells) 77 сетчатки ганглиозные (retinal gangli- ganglion cells) 77, 369 Колбочка центральной ямки сетчатки (foveal cone) 162 Коленчатое тело наружное (lateral geni- geniculate body) 264,371 Колесо, вращение 201 Коллинеарность характерных объектов изображений 62 Кольцо Бинасси 259, 263, 266 Константность цветовая (color constan- constancy) 259 Контраст одновременный (simultaneous contrast) 265 Контуры: ограничивающие 229, 321, 371 — в 2,5-мерном эскизе 284 определяющие форму объекта (shape contours) 226 ориентации поверхности (surface orien- orientation contours) 235 освещенности (illumination contours) 271 поверхности 237, 370 - параллельные 240 субъективные (subjective contours) 64, 95 - видимое движение 214 — допустимые прямые (virtual li- lines) 95 Конфигурации Гласса (Glass patterns) 60, 95 алгоритмы'для определения 120 Концы (terminations) 64, 91, 202 полос (of bars) 64 соответствие 202 Кооперативность (cooperativity) 120, 154 390 установление соответствия 154 Кривая равной яркости 370 Критерий аффинного подобия (affinity measure) 197 Крутизна яркости (intensity slope) 73 КубНекера41,299 Линия прямой видимости (наблюдате- (наблюдателя) (line of sight) 169 Локализованность пространственная, условие (constraint of spatial locali- localization) 82 Луминг (looming) 193 Метод "пала" (grassfire technique) 310 - релаксации (relaxation technique) 277 - Финка-Хаймера 30 Механизм тонический (sustained) 75 - фазный (transient) 75 Мир кубиков 33, 371 Модель дипольная 137 трехмерная 310, 327, 374 - каталог 323 ферромагнетизма Изинга 135 цветового зрения Хелсона-Джад- да259 Модуль восприятия (modules of percep- perception) 26 Мондрианы (mondnans) 260 Наблюдение издали (distant view) 232 Наклоны 242, 371 осей 323 поверхностей 242 - текстура 243 Наложение (occlusion) 282 Направление наклона (поверхности) (tilt) 242 текстура 243 Нарушения непрерывности 295 2,5-мерный эскиз 282 интерполирование 295 концы 92 направление движения 64 необработанный первоначальный эс- эскиз 86 непрерывность 62 ориентация поверхности 235 поверхности, перемещающиеся неза- независимо друг от друга 187
пространственная организация 105— 106 Нейроны 29 двоичное отображение (bit maps) 92 настраиваемые на определенные зна- значения диспаратности 139 определяющие степень возбуждения по некоторому направлению (ori- ented-activity neurons) 94 Нейроны-детекто ры: большой удаленности (far neurons) 139 малой удаленности (near neurons) 139 настраиваемые на определенные зна- значения диспаратности 139 Нейрофизиология 31 большие ганглиозные Х-клетки сет- сетчатки (retinal ganglion X cells) 77 У-клетки сетчатки (retinal gangli- ganglion Y cells) 77 детектор луминга 194 клетки, обладающие избиратель- избирательностью по направлению 175 — сетчатки низших животных 28, 48 нейроны, чувствительные к значению диспаратности 139 нервные клетки-зерна и острота зре- зрения 168 оппонентные цветочувствительные клетки 268 простые кортикальные клетки (corti- (cortical simple cells) 79 реализация логических операций И-НЕ 121 Непрерывность 63, 128 движения 63 как условие установления соответст- соответствия 129 нарушений непрерывности 62 пространственная 62 "Нервная клетка для бабушки" (grand- (grandmother cell) 31 Нервная сеть с двумя устойчивыми состо- состояниями (bistable naural network) 41 Нервные клетки: оппонентные цветочувствительные (color-opponent cells) 270 сетчатки лягушки ганглиозные 28 Нервные клетки-зерна 168 Обнаружение яркостного перехода (edge detection) 32, 67 - изменения яркости 82 - система выделения линий Бинфорда- Хорна 33 Обработка изображения (в зрительной системе) предварительная (early visi- vision) 75 Объекты: локально-характерные 64, 371 характерные (tokens) 57, 106 - изображения границы 108 - коллинеарность 62 - сгруппированные (group tokens) 271 - стереоскопическая диспаратность 124 Ограничения 38, 116 жесткости (rigidity constraints) 220 затенение 254 избирательность по направлению 188 нарушение непрерывностей по ориен- ориентации поверхности 236 определение формы по ограничиваю- ограничивающим контурам 231 сложение 38 стереоскопическая диспаратность 126 Однозначность описания и распознавание формы объекта 303 Оператор 32 Лапласа 67, 70, 297, 371 обнаружение яркостных переходов 32 освещение 102 Описание 36, 371 трехмерной модели 311 уровни 40 Определение формы объекта по дан- данным о затенении поверхностей (shape from shading) 35 Оптика физическая 18 - экологическая (ecological optics) 45 Организация информации о форме объ- объекта 308 - пространственная 106 Ориентация 42 локальная 95 поверхности 42 - 2,5-мерный эскиз 283 - изменение диспаратности 170 - линейное интерполирование 296 - пространство градиентов 249 - фотометрическая стереоскрпия 256 Освещение 102, 261 391
вторичные источники 251 исследования Уллмана 99 поверхностей отраженным светом взаимное 56 условия 56 яркость 54 Освещенность 257, 261 затенение 251 Острота зрения (acuity) 76 повышенная (hyperacuity) 168, 372 стереозрение 168 Ось: главная 313, 321, 369 наклона 323 непроизводные элементы, порождае- порождаемые координатными осями 310 перспективное сокращение (foreshor- (foreshortened axis) 321 продольная (axis of elongation) 315 Отношение присоединения 314, 323, 371 определение с помощью процессора преобразования изображения 323 Отношения пространственные 92 Отображение бинарное 86 — двоичное 92, 369 Отражательная способность 34 адаптивная 260 глянцевитость 102 яркость 54 Отражение 56 различение геометрических свойств (geometry distinguished) 56 Отрезки пересечений нулевого уровня (zero-crossing segments) 74 Перебор полный (exhaustive enumerati- enumeration) 305 Пересечения нулевого уровня (см, изби- избирательность по направлению) угол 73 Переходы яркостные (edges) 64, 82 необработанный первоначальный эс- эскиз 84 непроизводные элементы 107 размытые затененные участки изобра- изображения (blurry shadow edges) 67 Плавность и соответствие 216 трехмерное восприятие 216 Плоскость фронтальная 374 Поверхности 57 иерархическая организация 58 392 контуры 237 ламбертовы 253 перемещающиеся независимо друг от друга 187 Поверхность обобщенная коническая (generalized cone) 233, 319 Поворот в трехмерном пространстве (three-dimensional rotation) 26 трехмерные объекты 26 Повреждения теменной области мозга (parietal lesions) 50 Подобие 60 аффинное 206 видимое движение 197 гештальтпсихология 199 Подсвет фоновый (ground illumination) 251 Подход редукционистский (reductionist approach) 29 - "сверху вниз" 113 Позиция наблюдателя и яркость 54 Поле вектора позиционной скорости, мгновенное 224 - - скорости и теория минимального отображения 208 - клетки рецептивное (receptive field of cell) 28 - скоростей 63,187 Полосы (bars) 64 необработанный первоначальный эс- эскиз 84 Получение описания для трехмерной мо- модели 322 "Поля" на изображении ("fields" in ima- image) 24 Последовательность представлений 52 Поток оптический 223 Представление 36, 42, 372 бинаризованное 73 2,5-мерный эскиз 274 информация о глубине 288 использование 48 исходное в задаче об оптическом по- потоке 224 - в процессе установления соответст- соответствий 200 — таблица 271 обобщенные признаки 208 предварительная обработка зритель- зрительной информации 55,58 пространственная организация изобра- изображения 92
процесса 39, 337 психофизика 285 размера и формы 306 трехмерной модели 53, 372 формы объекта 280, 300 с помощью конструкций из пало- палочек 309 Предъявление изображений техистоскопи- ческое 163 Преобразование Фурье 38 быстрое 369 рисунок "в елочку" 59 Признаки 57 обобщенные, минимальное отображе- отображение 208 подходящие для использования в процессе установления соответст- соответствия (между изображениями стерео- стереопары) (matchable feature pairs) 140 пусковые (trigger features) 28 различные (discriminant) 109 Принцип: модульной конструкции (modular de- design) 114 наименьшего вреда (least commitment) 119 непрерывность потока (continuous flow) 187 пристойного ухудшения (graceful deg- degradation) 119 Проблема апертуры 178 - заполнения (filling-in) 292 Программа A UTOMAP 135 - ELIZA 352 Проекция монокулярная (monocular pro- iection) 24 - нормальная (polar) 224 - центральная (perspective) 222 Прозрачность 102,103 Производные: по времени 181 для каналов 182 по направлению первого порядка 69 второго порядка 69 Пространство градиентов 249, 372 координаты 42, 242 Процедура релаксации 329 Процесс 38, 335 адаптивной группировки 63 группировки, задача установления со- соответствия 211 интерполирования 292 - информационные теории 299 информация, получаемая из изобра- изображения 283 классификация (grouping) 104 модули 114 неявные допущения 272 продолжения 315 сегментация 275 таблица 271 установления соответствия 196 двухмерный характер 205 единственность 128 луминг193 — между изображениями стерео- стереопары, ложные цели 146 ------ исходное представле- представление 143 - - — фузионная зона Панума 156 Процессор преобразования пространства изображения (image-space processor) 322 Психофизика 25, 114 движение 191 нижнего уровня зрения 75 распознавания текстур 110 стереоскопического зрения 138 яркости, освещенности и цвета 257- Прямая допустимая (virtual line) 97 Пятна 64 необработанный первоначальный эс- эскиз 84 Разбиение 319 на модули 310 описания 310 Раздражитель мондрианов 100 Размазывание функции отражения, при- приводящее к "пятнистости" поверхнос- поверхности (smudge) 252 Распознавание (recognition) 51 на основе сопоставления набора при- признаков (feature-based recognition) 274 объекта 295 текстур (texture discrimination) ПО формы объектов (shape recognition) 331 вывод 327-330 требования к нему 331 Расстояние 372 393
геометрические свойства 94 диспаратность 169 стереопсис 286 текстура 245 Расщепление при видимом движении 213 РГР для структуры каналов 149 Реализация на нейронном уровне 182 избирательность по направлению 187 логическая операция И—НЕ 121 простые клетки 181 процесс слияния изображений стерео- стереопары 165 Регистрограммы движения (moviegrams) 215 Ретинекс 33, 260, 373 Решетка Геринга (Hcring grid) 25 7 - смещающаяся (drifting grating) 294 Рисунок "в елочку" (herringbone pat- pattern) 59 — штриховой 33 поворот 26 Саккада 163, 373 Светлота (lightness) 266 нарушение непрерывности 295 одновременный контраст 265 теория ретинекса 260 Свойства геометрические 54 признаки изображений для их опре- определения 95 яркость 54 Сегментация 275, 339 Сетка (wire grid) 86 Силуэты 229 обобщенная коническая поверхность 233,319 Система: выделения линий Бинфорда-Хорна 33 двигательная 31 координат 55, 289 — каноническая 319 — представление информации о фор- форме объекта 301 трехмерной модели 308 — привязанная к наблюдателю (viewex- centered) 289 объекту наблюдения (obiect- centered) 322 — процессор преобразования прост- пространства изображений 322 — сетчатки "(retinocentric frame) 290 394 с малым диапазоном действия (short- range system) 174 счисления 36 Слияние (двух изображений стереопары в единое бинокулярное) (fusion) 158, 165 независимое (на различных прост- пространственных частотах) (independent fusion) 160 при видимом движении 213 реализация на нейронном уровне 165 степень соответствия 208 стереоскопическое (stereo fusion) 161 Случай Панума граничный (Panum's limi- limiting case) 213 единственность 154 пример 155 Соответствие и контуры поверхности 240 - неоднозначное 156 - теория минимального отображения 208 Соотношение яркости и глубины 226 Соревнование бинокулярное (binocular rivalry) 139 Сохранение объектом "индивидуальнос- "индивидуальности" 215 Способность отражательная 34, 257 адаптивная 260 •, затенение 251 коэффициент отражения 34 цвет 257 Стабилизация изображения (stabilized- image conditions) 287 Степень соответствия (correspondence strength) 208 Стереоалгоритмы кооперативные (coope- (cooperative stereo algorithm) 292 установление соответствия между изображениями стереопары 90 Стереограммы 114,133, 159 вергентность 163 видимое движение 173, 194 глубина 158 двойные соответствия (double mat- matches) 214 изучение интерполирования 296 кооперативный алгоритм 131 образованные случайными конфигу- конфигурациями 25,114 распознавание текстур 110 с большими значениями диспаратнос- ти286
Стерео зрение (stereo vision) 112, 138, 163 Стереопара (stereo pair) 114 Стереопсис (stereopsis) 124 биологические данные 138 гистерезис 139 информационная теория 339 нарушение непрерывности 296 основное допущение 129 расстояние 286 слияние 158 условия 126 Стереослепота (stereo blindness) 139 Структуры программ управляющие 277 - управляющие 277 Схема формальная 37 Таблица подобия, вмонтированная в зри- зрительную систему человека (hard-wired table of similarities) 197 Текстура 108, 241 выделение элементов 242 стереопсис 161 Тень неясная (soft shadow) 86 Теорема Котельникова—Шеннона 295 - Логана 80 Теория: грамматик следовая (trace theory of grammar) 44 информационная 39, 40, 43, 116, 335 - восстановления структуры по дви- движению 220 - для поверхностей, перемещающих- перемещающихся независимо друг от друга 187 - избирательности по направлению 178 - интерполирования поверхностей 2% - поля скоростей 187 - ретинекса 33 - стереоскопического зрения 124 - установления соответствия при дви- движении 208 - этапа предварительной обработки информации в зрительной системе человека 75 коры мозжечка (cerebellar cortex the- theory) 30 минимального отображения (minimal mapping theory) 208 проводимости кабельная (cable-theory analysis) 121 работы мозга репрезентационная (re- (representational theories of mind) 22 ретинекса (retinex theory) 2.64 трансформационных грамматик (trans- (transformational grammar theory) 44 Точки пересечения сигналом нулевого уровня 67, 80, 348, 374 алгоритм установления соответст- соответствий 143 допущение о совпадении в пространст- пространстве 83 логический элемент И 121 нулевые точки 67 обнаружение отрезков 79 определение местоположения в прост- пространстве 82 перемещающиеся, обнаружение 186 промежутки между ними 147 процесс установления соответствий 143 между изображениями стерео- стереопары 89 случай чисто синусоидального сигна- сигнала 146 теорема Логана 80 Точки сегментации исходные (segmenta- (segmentation points) 321 явно выраженные (strong segmentati- segmentation points) 321 Треугольник Канижа 258 - Пенроуза 299 Трехцветность 24 Угол: зрения 158 наблюдения (angle of gaze) 158, 251 наклона осей 328 падения 251 Уровни объяснения (levels of explanati- explanation) 38,41, 340 Условие: единственности (uniqueness constra- constraint) 128 непрерывности (continuity constra- constraint) 128 пространственной локализованности (of spatial localization) 82 совместимости (compatibility constra- constraint) 128 - как условие установления соответ- соответствия 129 Установление соответствий 196 видимое движение 177, 202 395
исходные представления 200 между изображениями стереопары и пересечения нулевого уровня 90 обобщенные признаки 200 Философия восприятия 19-23 Фильтр гауссовский 69 пересечение нулевого уровня 67, 151 распределения интервалов, разделяю- разделяющих пересечения нулевого уров- уровня 151 Фильтры полосовые для изображений 90 Фи-феномен обращенный (reversed phi- phenomenon) 192 Фовеа (центральная ямка сетчатки) (fo- vea) 290 Форма: по данным затенения 35, 247 тел животных 302 Функция: модуляционная передаточная 182,371 отражения 251, 374 с ограниченным спектром 295 Характеристики • текстуры градиентные 245 Цвет 257, 266 белый 260 в теории ретинекса 260 измерения на трехцветном изображе- изображении 268 модель Хелсона—Джадда 259 нелинейные изменения яркости 267 необработанный первоначальный эс- эскиз 359 одновременный контраст 265 Цели ложные 140 процесс установления соответствий 140 Цилиндры, поворачивающиеся в противо- противоположных направлениях 194, 216 Частота пространственная 75, 372 Четкость изображения (resolution on ima- images) 56 Четыре точки, три проекции (теорема о восстановлении структур по движе- движению) 200 Чувствительность (контрастная) воспри- восприятия решеток 75 - представление формы объекта 304 - к значению диспаратности 165 Элементы: изображения (picture element) 47 непроизводные (primitives) 65, 105, 107, 197 — задача установления соответствий 169 — необработанного первоначального эскиза 106 — обобщение 316 — обобщенные (higher primitives) 106 — объемные (volumetric) 306 — поверхностные (serfacc-based) 306 соответственные (matching elements) 26 Эскиз (sketch) 54 2,5-мерный 53, 54, 274, 335, 369 — вергентные движения глаз 141 — виды представления 274 — карта ориентаций-глубин 141 — нарушения непрерывности 282 — общий случай 283 — сегментация 275 — система координат 289 — субъективные контуры 284 первоначальный 53, 54, 66, 335, 371 — иллюстрация 65 — необработанный (raw primal sketch) 82 — обобщенные непроизводные элемен- элементы (higher primitives in) 106 — полный (full primal sketch) 104 — соответствие 201 Эффект распространения (pulling ef- effect) 140 Яркость 32, 257, 266 влияние трехмерности на восприя- восприятие 264 восприятие 266 затенение 251 одновременный контраст 265 оператор Лапласа 297 размывание изображения 64 тени 102 факторы, ее определяющие 54 W-клетки 374 Л'-клетки 77, 182 У-клетки 185 V'G 185
ОГЛАВЛЕНИЕ Предисловие к русскому изданию 5 Зрение как информационный процесс 5 Список литературы к предисловию 17 Предисловие 18 От издательства 18 ЧАСТЬ I. ВВЕДЕНИЕ И МЕТОДОЛОГИЧЕСКИЕ ПРЕДПОСЫЛКИ 19 Общее введение 19 Глава 1. Методология и концепция исследования 24 1.1. Предпосылки и предыстория 24 1.2. О понимании сложных систем обработки информации 36 Представление и описание 36 Процесс 38 Три уровня рассмотрения информационных машин 40 Значение информационной теории 43 Подход Дж. Дж. Гибсона 45 1.3. Структура представления для зрения 46 Предназначение зрения л 47 Развитое зрение 50 К искомому - через возможное 52 ЧАСТЬ II. ЗРЕНИЕ 54 Глава 2. Получение представления изображения 54 2.1. Физические основы предварительной обработки изображения в зрительной системе 54 Получение представления изображения 57 Основные физические допущения 57 Поверхности как реальные объекты 57 Иерархическая организация 58 Подобие 60 Пространственная непрерывность 62 Непрерывность нарушений непрерывности 62 Непрерывность движения 63 Об общих свойствах представления 64 2.2. Определение точек пересечения сигналом нулевого уровня и исходный перво- первоначальный эскиз 67 Определение точек пересечения сигналом нулевого уровня 67 Биологические следствия 74 Психофизика нижнего уровня зрения 75 Физиологическая реализация V2 G-фильтров 76 Физиологический механизм обнаружения пересечений нулевого уровня . ... 77 Первое полностью формализованное представление изображения 80 Необработанный первоначальный эскиз 82 Методологические отступление 89 2.3. Пространственная организация изображения 92 2.4. Источники света и прозрачность 99 Другие эффекты, связанные с источниками света 102 Прозрачность 102 Выводы 103 2.5. Процессы классификации и полный первоначальный эскиз 104 Основные тезисы доказательства 109 Информационный подход и психофизические аспекты распознавания текстур . . НО 397
Глава 3. От изображений к поверхностям 111 3.1. Модульная организация системы обработки зрительной информации у чело- человека 111 3.2. Процессы, ограничения и возможности представления изображений 116 3.3. Стереопсис 124 Измерение стереоскопической диспаратности 124 Информационная теория 124 Алгоритмы для установления соответствий между изображениями стерео- стереопары 131 Реализация процесса слияния изображений стереопары на нейронном уровне 165 Определение расстояния до поверхности и ее ориентащ-и по данным о диспа- диспаратности 169 Информационная теория 169 Алгоритм и его реализация 172 3.4. Избирательность по направлению 172 Введение в проблему наблюдаемого движения 172 Информационная теория 178 Алгоритм 180 Реализация на нейронном уровне 182' Использование избирательности по направлению для разделения поверхностей, перемещающихся независимо друг от друга 187 Информационная теория 187 Алгоритм и его реализация 189 Луминг 193 3.5. Видимое движение 194 Зачем нужно изучать видимое движение? 195 Две стороны задачи 196 Задача установления соответствий 200 Экспериментальные данные 200 Двухмерный характер процесса установления соответствий 205 Теория процесса установления соответствий Уллмана 208 Критика теории Уллмана 209 Новый взгляд на задачу установления соответствия 213 Восстановление структуры по движению 216 Задача * 216 Известный подход 218 Ограничение, предполагающее жесткость тела 220 Допущение, предполагающее жесткость объектов наблюдения 221 Замечание о центральной проекции 222 Оптический поток 223 Исходное представление 224 Математические результаты 224 3.6. Контуры, определяющие очертания 226 Несколько примеров 227 Ограничивающие контуры 229 Ограничивающие допущения 230 Значение введенных допущений 233 Нарушения непрерывности по ориентации поверхности 235 Контуры поверхности 237 Загадка контуров поверхности и трудности ее разрешения 238 Определение формы источника контура 238 Влияние наличия более чем одного контура 239 3.7. Текстура поверхности 241 Выделение элементов текстуры , 242 Параметры поверхности 242 Допустимые измерения > 243 398
Непосредственное определение расстояний, представленных в некотором масштабе 244 Резюме 247 3.8. Затенение и фотометрические стереоскопические изображения 247 Пространство градиентов 249 Освещение поверхности, ее отражательная способность и яркость изображения. 251 Карта отражательной способности 253 Восстановление формы объекта по данным о затенении 254 Фотометрическое стереоскопическое изображение 256 3.9. Яркость, освещенность и цвет 257 Подход Хелсона — Джадда 259 Светлота и цвет в теории ретинекса 260 Алгоритмы 262 Обобщение на случай цветового зрения 263 Комментарии по поводу теории ретинекса 263 Некоторые физические обоснования важности явления одновременного контраста 265 Гипотеза обусловленности нелинейных измерений яркости свойствами поверх- поверхности 267 Следствия, касающиеся измерений на трехцветных изображениях 268 Резюме 270 3.10. Заключение 270 Глава 4. Непосредственное представление видимых поверхностей 274 4.1. Введение 274 4.2. Сегментация изображения 275 4.3. Переход к новой постановке задачи 278 4.4. Информация, подлежащая представлению 281 4.5. 2,5-мерный эскиз в общем случае 283 4.6. Допустимые формы представлений 285 4.7. Допустимые системы координат 289 4.8. Интерполирование, продолжение и нарушения непрерывности 292 4.9. Информационные аспекты проблемы интерполирования 295 Нарушения непрерывности 295 Методы интерполирования 296 4.10. Другие информационные процессы, действующие в рамках 2,5-мерного эскиза 299 Глава 5. Представление форм объектов при распознавании 300 5.1. Введение 300 5.2. Проблемы, возникающие в связи с представлением формы 301 Критерии, эффективности представления формы объекта 301 Доступность, удобство получения и использования описания 302 Допустимое разнообразие описаний и их однозначность 303 Устойчивость и чувствительность 303 Решения, которые необходимо принять при построении представления формы объекта 304 Системы координат 304 Непроизводные элементы 306 Организация 308 5.3. Представление трехмерных моделей 308 Естественные системы координат 308 Описания, основанные на использовании осей координат 309 Модульная организация представления трехмерных моделей 310 Система координат трехмерной модели 312 5.4. Естественные обобщения 315 399
5.5. Получение и использование представления трехмерной модели 318 Получение описания трехмерной модели 318 Установление связи между координатами, привязанными к наблюдателю, и координатами, привязанными к объекту 321 Индексирование и каталог трехмерных моделей 323 Взаимодействие между процессами вывода и распознавания 327 Установление соответствия между изображением и каталожной моделью . . 327 Анализ, основанный на использовании ограничений 328 5.6. Психологические аспекты представления форм объектов при распознавании . . 331 Глава 6. Особенности метода 334 ЧАСТЬ Ш. ЗАКЛЮЧЕНИЕ 338 Глава 7. Обоснование правильности информационного подхода к проблеме зрения. 338 7.1. Введение 7.2. Дискуссия 338 Словарь терминов 369 Список литературы 375 Список работ, переведенных на русский язык 386 Предметный указатель • 387 Научное издание ДЕЙВИД МАРР ЗРЕНИЕ ИНФОРМАЦИОННЫЙ ПОДХОД К ИЗУЧЕНИЮ ПРЕДСТАВЛЕНИЯ И ОБРАБОТКИ ЗРИТЕЛЬНЫХ ОБРАЗОВ Заведующая редакцией О. В. Толкачева Редактор С. Н. Удалова Художественный редактор Т. В. Бусарова Переплет художника В. Я Виганта Технический редактор JI. А. Горшкова Корректор Т. JI. Кускова ИБ№1276 Подписано в печать 22.09.87 Формат 60x88/16 Бумага офс. № 2 Гарнитура "Пресс-роман" Печать офсетная Усл. печ. л. 24,50 Усл. кр.-отт. 24,50 Уч.-иэд. л. 30,94 Тираж 7700 экз. Изд. № 21508 Зак. № 745 Цена 3 р. 10 к. Издательство "Радио и связь". 101000, Москва, Почтамт, а/я 693 Московская типография № 4 Союзполиграфпрома при Государственном комитете СССР по делам издательств, полиграфии и книжной торговли. 129041, Москва, Б. Переяславская ул., д. 46