Титул
Оглавление
Предисловие
Введение
Часть 1. Форма Полутонового изображения
Глава 2. Форма изображения с заданной упорядоченностью яркостей
Глава 3. Морфологический анализ изображений, заданных с погрешностью
Часть 2. Схоластические методы анализа формы
Глава 5. Эмпирическое построение случайной формы изображения
Часть 3. Возможные методы анализа формы
Глава 7. Схоластические модели возможности в задачах анализа изображений
Часть 4. Цветные изображения
Часть 5. Прикладные задачи
Приложения
А.2. Линейные операторы в пространствах изображений
А.3. Опрераторы проецирования на выпуклые замкнутые множества
А.4. Случайные элементы евклидова пространства
А.5. Методы проверки статистических гипотез
А.6. Возможность как альтернативная вероятности модель случайности
А.7. Элементы теории возможностей
Список литературы
Обложка
Text
                    Ю. П. Пытьев
А. И. Чуличков
Методы
морфологического анализа
изображений
I
МОСКВА fl
ФИЗМАТЛИТ
2010


УДК oly.zo+oly.8 β β Издание осуществлено при поддержке ББК 22.18 г* сгх>Р1 Российского фонда фундаментальных j-[95 J J исследований по проекту 09-07-07013 Пытьев Ю. П., Чуличков А. И. Методы морфологического анализа изображений. — М.: ФИЗМАТЛИТ, 2010. — 336 с. — ISBN 978-5-9221-1225-3. Рассмотрено математическое понятие формы изображения как (инвариантной относительно условий получения изображения) характеристики геометрической формы изображенного объекта. Рассмотрены основанные на понятии формы изображения методы морфологического анализа изображений, ориентированные на компьютерные решения задач анализа и интерпретации изображенных объектов при априорной неопределенности условий регистрации их изображений, таких, в частности, как характер освещения, его спектральный состав и т. п. Типичными являются задачи, в которых даны два изображения одной и той же местности, полученные в разное время при различных и неизвестных условиях освещения, и требуется выделить объекты, представленные на первом (втором) изображении и отсутствующие на втором (первом) изображении. Для специалистов по математическому моделированию, а также для студентов старших курсов и аспирантов технических и физико-математических специальностей вузов. Научное издание ПЫТЬЕВ Юрий Петрович ЧУЛИЧКОВ Алексей Иванович МЕТОДЫ МОРФОЛОГИЧЕСКОГО АНАЛИЗА ИЗОБРАЖЕНИЙ Редактор И.Л. Легостаева Оригинал-макет: К.А. Андреев Оформление переплета: Н.В. Гришина Подписано в печать 04.05.10. Формат 60x90/16. Бумага офсетная. Печать офсетная. Усл. печ. л. 21. Уч.-изд. л. 24. Тираж 300 экз. Заказ № 884 Издательская фирма «Физико-математическая литература» МАИК «Наука/Интерпериодика» 117997, Москва, ул. Профсоюзная, 90 E-mail: fizmat@maik.ru, fmlsale@maik.ru; http://www.fml.ru Отпечатано в ООО «Чебоксарская типография № 1» 428019, г. Чебоксары, пр. И. Яковлева, 15 © ФИЗМАТЛИТ, 2010 ISBN 978-5-9221-1225-3 © Ю.П. Пытьев, А. И. Чуличков, 2010
ОГЛАВЛЕНИЕ Предисловие 9 Введение 13 Часть I. Форма полутонового изображения Глава 1. Основные понятия морфологического анализа 26 1.1. Математические модели изображения 26 1.1.1. Линейное пространство изображений (26). 1.1.2. Пространство изображений €2μ(Χ) (27). 1.1.3. Пространство изображений С(Х) (28). 1.2. Понятие формы изображения. Сравнение изображений по форме. . 29 1.2.1. Модель и форма мозаичного изображения (30). 1.2.2. Операция сравнения изображений по форме (33). 1.3. Форма изображения как оператор проецирования 37 1.3.1. Форма как оператор проецирования на множество V/ в пространстве £μ(Χ) (37). 1.3.2. Аппроксимация в €2μ(Χ) формы произвольного изображения (39). 1.3.3. Форма как оператор проецирования на множество V/ в пространстве С(Х) (40). 1.3.4. Форма как линейное множество в пространстве С(Х) (41). 1.4. Форма фрагмента изображения 43 1.4.1. Модель изображения объекта на произвольном фоне и его форма (43). 1.4.2. Форма деформированного фрагмента изображения (44). 1.5. Примеры форм изображений 46 1.5.1. Форма кусочно гладкого изображения (46). 1.5.2. Форма размытого изображения (50). 1.5.3. Форма контурного изображения (51). 1.5.4. Форма изображения ламбертова объекта (53). 1.5.5. Форма изображения произвольного объекта, освещаемого конечным числом источников света произвольной интенсивности (62). 1.6. Решение задач морфологического анализа изображений 63 1.6.1. Узнавание объекта по форме его изображения (63). 1.6.2. Классификация объектов по форме их изображений (63). 1.6.3. Выделение отличий по форме (65). 1.6.4. Оценивание параметров объекта по форме его изображения (65). 1.7. Морфологические и корреляционные методы анализа изображений 67
4 Оглавление 1.8. Независимость по форме 69 1.8.1. Независимость изображений по форме, заданной как линейное подпространство &μ{Χ) (70). 1.8.2. С-эквивалентные изображения (74). 1.8.3. Ранг корреляции форм изображений (78). Глава 2. Форма изображения с заданной упорядоченностью яркостей 80 2.1. Изображения с известной упорядоченностью яркостей в пространстве ε2μ(Χ) 80 2.1.1. Мозаичные изображения с упорядоченными яркостями (80). 2.1.2. Сравнение по форме изображений с упорядоченной яркостью (84). 2.1.3. Аппроксимация проектора на конус (85). 2.1.4. Эквализация и форма изображений (88). 2.1.5. Независимость изображений по форме, заданной в виде выпуклого замкнутого конуса (91). 2.2. Изображения с упорядоченными яркостями в пространстве С(Х). . 91 Глава 3. Морфологический анализ изображений, заданных с погрешностью 94 3.1. Анализ изображений, искаженных ограниченной погрешностью . . 94 3.2. Анализ изображений, искаженных неограниченной погрешностью 95 3.2.1. Близость изображения к форме, заданной как линейное подпространство евклидова пространства изображений (95). 3.2.2. Инвариантные свойства функционала близости изображения ξ к заданной форме (98). 3.2.3. Анализ формы изображения как элемента функционального пространства (101). 3.3. Сравнение по форме двух изображений, регистрируемых с погрешностью 103 Часть II. Стохастические методы анализа формы Глава 4. Морфологический анализ изображений, искаженных случайным шумом 108 4.1. Модель регистрации, искажающей изображение случайным шумом 108 4.2. Форма как линейное подпространство ΊΖη ПО 4.2.1. Узнавание изображения, искаженного шумом ограниченной энергии (ПО). 4.2.2. Узнавание изображения, искаженного шумом неограниченной энергии (111). 4.2.3. Принцип максимума надежности при классификации изображений, искаженных гауссовым шумом (114). 4.2.4. Оценка параметров объекта по его зашумленному изображению (118). 4.2.5. Случайные множества, оценивающие значение параметра сцены по ее изображению (121). 4.3. Форма как выпуклый замкнутый конус V С ΊΖη 124 4.3.1. Близость изображения к форме V (124). 4.3.2. Оценивающие множества. Форма как выпуклый замкнутый конус (126). 4.3.3. Оценка параметра формы изображения, минимизирующая
Оглавление 5 максимальную погрешность при гарантированной надежности (129). Глава 5. Эмпирическое построение случайной формы изображения · 130 5.1. Аппроксимация формы изображения, искаженного случайным шумом 130 5.1.1. Аппроксимация формы изображения формой мозаичного изображения (130). 5.1.2. Надежность мозаичной аппроксимации формы изображения при заданном разбиении поля зрения (133). 5.1.3. Надежность мозаичной аппроксимации формы изображения. Общий случай (134). 5.2. Аппроксимация формы изображения параметрическим семейством подпространств 136 5.2.1. Форма изображения как семейство линейных подпространств (136). 5.2.2. Выбор наиболее надежного подпространства заданной размерности для аппроксимации входного сигнала (138). 5.2.3. Выбор размерности аппроксимации (139). 5.2.4. Связь с методом максимального правдоподобия (140). 5.2.5. Результаты вычислительных экспериментов (141). 5.3. Аппроксимация формы множества изображений 145 5.3.1. Эффективная размерность множества изображений (145). 5.3.2. Эффективная размерность множества классов эквивалентности изображений (149). Часть III. Возможностные методы анализа формы Глава 6. Вероятностные и возможностные модели формы изображений 153 6.1. Вероятностные и возможностные модели морфологического анализа изображений 153 6.2. Возможностная модель изображения и его интерпретации 156 6.2.1. Модель регистрации изображения (156). 6.2.2. Анализ изображений, искаженных аддитивным шумом (159). 6.3. Примеры задания меры возможности на множестве изображений. . 160 6.3.1. Форма как «четкое» множество (160). 6.3.2. Нечеткая форма изображения при деформации поля зрения (161). 6.3.3. Форма как множество изображений с известной упорядоченностью яркостей точек поля зрения (162). Глава 7. Стохастические модели возможности в задачах анализа изображений 165 7.1. Возможность в статистической теории проверки гипотез 165 7.1.1. Область принятия гипотезы и ее связь с оценивающим множеством (165). 7.1.2. Нечеткий параметр распределения случайного элемента. Простые гипотезы и альтернативы (167). 7.1.2. Нечеткий параметр распределения случайного элемента. Сложные гипотезы и альтернативы (168).
6 Оглавление 7.2. Возможность на множестве значений параметра формы изображения 168 7.2.1. Возможность, индуцированная результатом регистрации изображения с шумом заданной дисперсии (168). 7.2.2. Возможность, индуцированная результатом регистрации изображения с шумом неизвестной дисперсии (170). 7.3. Эмпирическое построение нечеткой формы изображения 173 Часть IV. Цветные изображения Глава 8. Морфологический анализ цветных изображений 177 8.1. Математическая модель цветного изображения 178 8.1.1. Цвет и яркость (178). 8.1.2. Цветное (спектрозональное) изображение (182). 8.2. Форма цветного изображения 184 8.2.1. Сравнение цветных изображений по форме (185). 8.2.2. Форма мозаичного цветного изображения (187). 8.2.3. Общее понятие формы цветного изображения (192). 8.3. Аппроксимация формы цветных изображений 193 8.3.1. Форма как оператор наилучшего приближения (193). 8.3.2. Приближение цветного изображения изображениями, цвет и яркость которых постоянны на заданных подмножествах разбиения {Αι} поля зрения X (194). 8.3.3. Аппроксимация формы в широком смысле произвольного изображения /(·) (197). 8.3.4. Приближение цветного изображения мозаичными изображениями с заданным конечным набором значений (200). 8.3.5. Приближение цветного изображения мозаичными изображениями с конечным числом значений вектора цвета (203). 8.3.6. Приближение цветного изображения изображениями, цвет которых постоянен на заданных подмножествах разбиения {Aj} поля зрения X (204). 8.3.7. Приближение цветного изображения изображением с заданным набором значений вектора цвета (210). 8.3.8. Приближение цветного изображения изображением с конечным числом значений вектора цвета (213). 8.3.9. Форма изображения с заданным распределением цвета Ψ{χ), χ £ X (214). 8.3.10. Случай, когда допускаются небольшие изменения цвета в пределах каждого Аг, г— 1,..., N (215). 8.4. Форма цветного изображения как оператор наилучшего приближения в чебышевской метрике 221 8.5. Задачи морфологического анализа цветных изображений 224 8.5.1. Задачи идентификации при произвольно меняющейся интенсивности освещения (224). 8.5.2. Задачи совмещения изображений и поиска фрагмента (225). 8.5.3. Задача анализа спектрозональных изображений (226).
Оглавление 7 Часть V. Прикладные задачи Глава 9. Примеры решения задач морфологического анализа изображений 228 9.1. Морфологическое подавление случайного шума 228 9.1.1. Подавление шума на кусочно постоянном изображении (228). 9.1.2. Подавление шума на произвольных изображениях (233). 9.2. Выделение неизвестного объекта на фоне, форма изображения которого известна 237 9.2.1. Морфологический метод (237). 9.2.2. Локальный морфологический алгоритм (239). 9.2.3. Локальный корреляционный метод (241). 9.2.4. Локальный метод ранговой корреляции (242). 9.2.5. Сравнение алгоритмов (242). 9.3. Аппроксимация формы текстурнозначного изображения 244 9.4. Морфологический метод сжатия изображений текста 250 9.4.1. Математическая модель и форма изображения текста (251). 9.4.2. Алгоритм морфологического сжатия изображения текста (254). 9.5. Фильтрация гладкого фона 258 9.5.1. Математическая модель и форма изображения фона и сигнала (258). 9.5.2. Постановка и решение задачи фильтрации фона (259). 9.6. Поиск области интерлейсинга 261 9.6.1. Модель изображения, искаженного интерлейсингом (262). 9.6.2. Морфологический метод поиска области интерлейсинга (263). 9.7. Измерение микрорельефа поверхности по набору его изображений 264 9.7.1. Математическая модель мультифокусного изображения (265). 9.7.2. Задача оценивания высоты рельефа поверхности (266). 9.7.3. Оценка высоты рельефа как оценка параметра формы (267). 9.8. Классификация изображений и оценка параметров системы регистрации 270 9.8.1. Математическая модель формирования изображения (270). 9.8.2. Классификация и оценка параметров измерительной аппаратуры (271). 9.9. Цветовая сегментация на основе морфологического фильтра 273 9.10. Поиск отличий по форме в цветных изображениях 275 Приложения 276 АЛ. Множества, подмножества, линейные пространства 276 АЛЛ. Отношения. Частично упорядоченные множества. Решетки (276). А.2. Линейные операторы в пространствах изображений 278 А.2.1. Линейные операторы в евклидовых пространствах (278). А.2.2. Операторы ортогонального проецирования (278). А.2.3. Ко-
8 Оглавление нечномерная аппроксимация формы в широком смысле (280). А.2.4. Псевдообратный оператор (282). А.З. Операторы проецирования на выпуклые замкнутые множества . . . 284 А.3.1. Задача наилучшего приближения в нормированном пространстве (284). А.3.2. Выпуклое замкнутое множество евклидова пространства и проекторы на него (284). А.3.3. Аппроксимация проектора на выпуклое замкнутое множество (288). А.3.4. Проектор на выпуклый замкнутый конус евклидова пространства Пп (290). А.4. Случайные элементы евклидова пространства 296 А.4.1. Определение и свойства случайных элементов (296). А.4.2. Нормально распределение случайные элементы евклидова пространства. Распределения Пирсона и Снедекора-Фишера (297). А.5. Методы проверки статистических гипотез 299 А.5.1. Нерандомизированный и рандомизированный критерии проверки статистической гипотезы (299). А.5.2. Симметрия задачи проверки гипотез. Инвариантные критерии (301). А.5.3. Симметрия задачи проверки гипотезы о независимости математического ожидания предъявляемого изображения от формы CN (303). А.5.4. Надежность статистической гипотезы. Простая гипотеза и простая альтернатива (307). А.5.5. Минимаксная надежность сложной гипотезы при сложной альтернативе (311). А.5.6. Оценки максимальной надежности (315). А.6. Возможность как альтернативная вероятности модель случайности 316 А.6.1. Вероятность: проблемы эмпирического построения и интерпретации (316). А.6.2. Возможность как мера предопределенности исходов стохастического эксперимента (317). А.6.3. Классы эквивалентных возможностей (318). А.6.4. Шкала значений возможности. Возможность события (318). А.6.5. Необходимость. Шкала значений необходимости (320). А.6.6. Возможность, максимально согласованная с вероятностью (321). А.6.7. Возможность: эмпирическая интерпретация и эмпирическое построение (322). А.7. Элементы теории возможностей 324 А.7.1. Интеграл. Определение и свойства (324). А.7.2. Мера возможности. Определение и свойства (326). А.7.3. Принцип относительности (327). А.7.4. Нечеткие множества (328). А.7.5. Нечеткие элементы (329). А.7.6. Нечеткие события (329). Список литературы 331
Предисловие Одним из самых эффективных инструментов получения информации об окружающем мире для человека является зрение. «Лучше один раз увидеть, чем сто раз услышать», — гласит народная поговорка. Действительно, с первого взгляда мы можем узнать знакомый предмет на своем рабочем столе или заметить, что кто-то нарушил знакомый порядок расположения предметов. Мы легко узнаем человека по его фотографии и выделяем в ряду изображений знакомые лица. «На глаз» мы можем оценить взаимное расположение предметов, их размеры и другие характеристики. Ко всему этому можно еще добавить, что подобные задачи мы решаем как при ярком солнечном свете, так и в сумерки, и при искусственном освещении, по фотографии или даже по рисунку. При этом качество изображений не играет заметной роли — даже малоконтрастные и сильно зашумленные фотографии подчас несут достаточно информации для узнавания изображенного объекта или сцены. Эта легкость во многом определила интерес исследователей к изучению алгоритмов работы зрительного анализатора живых организмов; прогресс в этой области позволил бы конструировать автоматы, способные заменить человека во многих областях его деятельности. И хотя успехи в создании систем машинного зрения достигнуты впечатляющие, до сих пор такие системы не могут конкурировать с человеком при решении сложных задач распознавания, классификации и пр. Возможно, одной из причин является то, что изображение, как правило, рассматривается в отрыве от модели его формирования. С формальной точки зрения изображением является скалярная или векторная функция, заданная на подмножестве плоскости, ее значения интерпретируются как яркость изображения. Стандартные методы анализа изображений состоят в применении к ним тех или иных преобразований, известных в математике или специально сконструированных для тех или иных целей [14, 15, 20, 27, 31, 35, 37, 65, 66, 85]. Результатом этих операций является некоторая система признаков, характерных для заданного класса изображений; далее методами теории распознавания образов [9-11, 19, 21, 61, 64, 90] решаются многие практические задачи. Однако как выбор признаков, так и способы оценки их значений — достаточно трудные задачи.
10 Предисловие В отличие от описанного выше подхода морфологические методы анализа изображений основаны на математических моделях, связывающих изображения с объектами изображаемой сцены и условиями их регистрации. Если речь идет об анализе сцены, а не об анализе изображения как такового (как объекта исследования), то все изменения изображения сцены, возникающие при изменении условий получения изображения (освещения, характеристик видеокамеры и т. п.), следует признать несущественными. С самых общих позиций анализатор сцены по ее изображениям можно представить как «черный ящик», на вход которого поступает изображение, а на выходе содержатся сведения, позволяющие высказываться о содержании сцены. В идеале выходной сигнал «черного ящика» — характеристики объектов сцены — остается прежним, если в широких пределах менять свойства входного изображения, связанные с изменением освещенности сцены, разрешающей способности системы формирования видеоинформации и др., но не обусловленные изменением «геометрии» сцены. С другой стороны, изменения в самой сцене — удаление или добавление предметов, изменение их взаимного расположения, т. е. такие, которые не могут быть вызваны изменением условий наблюдения, — приводят к изменениям на выходе анализатора. Центральным понятием морфологических методов анализа служит понятие формы изображения, понимаемой как часть информации, сохраняющаяся при вариациях условий формирования изображения. Формально она может быть определена, например, как инвариант преобразований, моделирующих изменения условий формирования изображений сцены. Рассмотрим примеры задач, которые не могут быть решены без использования морфологических методов анализа изображений. На рис.П.1 приведен ряд изображений, на которых наблюдатель видит практически одну и ту же сцену, узнает знакомые предметы, может оценить их форму, взаимное расположение, размеры. Можно заметить, что в правом нижнем углу изображения Π.Ι,β, отсутствует фрагмент («бочка»), имеющийся на изображениях Π.Ι,α и б (см. цветную вклейку). В то же время нельзя сказать, что эти изображения одинаковы — они отличаются яркостью и контрастом. Но эти отличия обусловлены не свойствами сцены, а условиями регистрации — характером освещения сцены, чувствительностью видеокамеры и т.п. Выделяя информацию о предметах сцены, человек даже не задумывается о том, каково время экспозиции, откуда падает свет и т.п. Формальная постановка задачи узнавания сцен по их изображениям является одной из целей морфологических методов анализа изображений, описанных в данной монографии.
Предисловие 11 Ρ с. П.2 Другой пример связан с проблемой поиска заданного знака, например буквы «А», на странице книги. Для человека эта зада а требует нап яженного внимания, особенно если страница частично зали а кр ской и плохо освещена. Морфологические методы позволяют уверенно отыскивать знаки задан ой формы даже в сложной помеховой обстановке, такой, например, какая изображена аре. П.9. I звестно, что можно опре елять « а глаз* расстояние между пре - метами, их размер, причем при размытых сливающихся с фо юм границах объектов э о делать труднее. Однако именно в так χ условиях приходится работать при исследовании наночастиц, см. рис.П.З, Морфологические методы построены аким образом, что гаран ируют максимальную точность определения коорд на ент ов и радиусов частиц нанопоропжа Ρ с, П/Л
12 1редисловие 900 <ЪП Рис. П.4 Еще о 1Н ример применения о фологических методов связан с проблемен совмещения сигналов, «в ι елом остаточно схожих, но отличающихся деталями, см. рис. П.4; совмещение осуществл ется пу ем с вигов с гнала в оль оси абсцисс, Эта задача воз икает η и определении временной задержка выходных сигналов трех микрофонов, регист ирующих акустический сигнал; значение относительного времени задержки с г *алов на выходе микрофонов позво яет о |реде- лить направление на источник звука Различие трасс распространи ия звука обуславливает вариации регистрируемого звукового давления при сохранени общ χ особенностей си нала. Морфологические ме о позволяют дать формальное описание сходства сигналов и дают мак- с шально точную оценку времени сдвига, Б настоящей книге описаны методы анализа и интерпрета ии изображен 1й с *ен, основан н ι с на онят ι и фо мы изображения. Морфологический подход вляется е е одн ш шагом а пут ί ана 1иза изображен и" с точки зрения содержащейся в нем информаци ι важной для решен я поставленной задач . Издание этой книги стало возможньм благодаря финансовой поддержке Российского фонда фундамента ьных исследований (грант №09-0 -0 013) и юмощ на их друзе" и колле . Авторы глубоко благодарны И Богданову, Б.Баскакову, С.Введенскому, .Делю- кину, , Демину, Г.Животникову А.Захарченко В.Илюшину, П.Ко- быльчаку, А* Ко н ^льеву, \ . Морозовой, Д. Устинину, И. Фалом к и ну, О.Фаломкиной, В.Шишакову и другим, предоставившим результаты асчетов, иллюстрирующих морфологические методы анализа дан ых.
Введение Рассмотрим ряд изображений на рис.В.1 (см. цветную вклейку). Легко заметить, что это изображения одного и того же объекта — цветка горицвета. Наблюдатель воспринимает содержание изображенной сцены как неизменное, даже если яркость, контраст, цветовая гамма изображения изменяются в широких пределах. Из этого можно сделать вывод, что для решения таких задач, как узнавание и классификация объектов, оценивание их геометрической формы и т.п., важны не точные значения яркости и/или цвета изображения в каждой точке поля зрения, а знание некоторых структур на поле зрения, которые вызывают зрительное впечатление цветка и не меняются при изменении яркости, контраста и т. п. С другой стороны, в реальных условиях нам, как правило, недоступна информация об условиях формирования изображения, позволяющая однозначно связать яркость и цвет изображения со свойствами изображаемых объектов сцены. Та совокупность математических характеристик изображений, которая независимо от условий их регистрации позволяет выделять, узнавать объекты и оценивать их геометрические характеристики, выделять эволюционирующие во времени элементы сцены на ее изображениях, полученных при произвольно меняющихся условиях регистрации и т. п., получила название формы изображения, а представленные в этой книге математические методы анализа и интерпретации изображенных сцен названы морфологическими [40, 47, 77-79]. Основу морфологических методов анализа изображений составляют математические модели и специально разработанный математический формализм, позволяющие охарактеризовать изображения в терминах инвариантов преобразований распределений их яркости и цвета по полю зрения, сохраняющих информацию, необходимую для решения поставленной задачи. Принципам морфологического анализа изображений и сигналов посвящены работы [40, 47, 77-79]. Проиллюстрируем понятие формы изображения на простом примере. Рассмотрим полутоновые монохромные (gray-scale) изображения однородно освещенного кубика, рис. В.2, полученные с помощью фотоаппарата. На нем представлены фрагменты, изображающие три видимые грани кубика, и фон. Благодаря однородности освещения и постоянству оптических свойств граней кубика и фона эти фрагменты
14 Введение Рис. В.2. !зображения кубика при различных условиях наблюдения изображет я имеют ρ мерно одинаковую яркое ь Изменения условий од оро ного освещен я пр водя зме ен ю яркостей эт χ фра ме - тов, но геометрическ е свойства однородно освещенных и окрашенных областей поля зрен я останутся преж ими — они определяются ормой об екта, геометрическ м свойствам его поверх ости и не зависят о услов и регистрац и зображений. Следователь о, существенным ля передачи геометрических характерней* кубика является разбиение оля зре ия на множества npj мерно одинаковой яркости» а несущественным — яркость этих областей. В качестве модели каж ого изображения кубика примем функ- ц -ю, зада ную на прямоуголь ой облас и ( а поле зрен я) разбитой на подмножества, соо ветствующие видимым граням кубика и фону. Значения функци определяются яркостью изображенtfit они постоянны на каждом из подмножеств, см. рис.Б.З. Изменяя яркость каждого из подмножеств в произвольных пре делах получим множество всех изображений кубика, которые могут быть получены при ва- ρ ации условий их регистрации. В этом случае решение задачи узнавания сцены (кубик в заданном ракурсе на однородном фоне при однородном освещении) состо ит в том, чтобы π оверить, принадлежит ли предъявленное изображение, обозначим его /, этому множеству изображений или нет. Факт принадлежности изображения / указанному множеству означает, что можно указать условия регистрации, при которых полученная фотография с приемлемой точностью совпадет с предъявленным изображением, и, следовательно, нет причин утверждать, что / не изображает заданную сцену с кубиком. В против ом случае / не может бьть порождено кубиком ни при каких условиях наблюдения — его следует признать изображением другой сцены. Рис. Б.З. Моде ь изображения кубика как кусоч о юсто иное изображение
Введение 15 Инвариант условий регистрации — в рассматриваемом примере множество всех изображений кубика — называется формой изображения 0. Описанный здесь подход может быть применен для узнавания произвольной сцены, представленной полутоновым изображением. Рассмотрев изображения сцены, полученные при всех возможных условиях их регистрации, получим множество V всех изображений рассматриваемой сцены. Это множество называется формой изображения сцены. Охарактеризовать его можно, задав конструктивную процедуру проверки принадлежности любого изображения этому множеству. Например, если изображения рассматриваются как элементы некоторого метрического пространства ΊΙ, так что определено расстояние между любыми двумя изображениями, а множество V замкнуто в ΊΙ, то такой процедурой является вычисление расстояния от предъявленного изображения до множества всех возможных изображений сцены. (Расстояние от некоторого элемента / до заданного множества V определяется как точная нижняя грань расстояний от / до элементов множества V; для замкнутых множеств точная нижняя грань достигается на некотором элементе Pf множества V, его называют проекцией / на V.) Равенство нулю этого расстояния означает, что / е V, т.е. что предъявлено изображение рассматриваемой сцены, отвечающее некоторым условиям регистрации. В рассмотренном примере инвариантным относительно условий регистрации является равенство или неравенство нулю расстояния между предъявленным изображением и его проекцией на множество всех изображений сцены, и форма изображения сцены в этом случае может быть отождествлена с операцией вычисления проекции. В этой книге методы анализа изображений в терминах их формы называются методами морфологического анализа. Очертим круг задач, для решения которых используются методы морфологического анализа. Задача узнавания объекта по его изображению. С формальной точки зрения, узнать заданную сцену или объект на изображении — значит, определить, может ли эта сцена или объект при некоторых условиях регистрации дать предъявленное для анализа изображение. Рассмотрим для примера изображение листа календаря, приведенное на рис. В.4, а. Несмотря на весьма низкое качество изображения, можно заметить, что в каждой таблице числа, означающие дни месяца, содержат три изображения цифры «пять». Но как указать формальное 0 В данном случае форма изображения кубика содержит все, что может сообщить о геометрической форме кубика его изображение.
16 Введение Риг. В 4. а) Изображение календаря. б)-г) Изображения цифры * ять*, д) Результат узнавай й" ест пропуше ые фрагменты, е) езультат уз звания; имеются ложные срабатывания правило, ко орое юзвоги узнать изобра* έ е этой циф ы «автомат - чески», независимо от условий получения изображения ВД а? В π остей шей ситуац и для решения э ой задач морфологическими методами следует определить фо му изображения цифры «пять» Рассмот им для э ого уве иченное зображение цифры *пя ь»Ф взятое из фрагмента изображения календаря, соответствующего дате «25 февраля , см, рис. В, ,б. Будем считать, что все д угие зображения ифры «пять» голучень ή него путем нелинейного преобразования его яркости (вар анты таких изображен и пр ведены на рис. В.4 в, г). Множество V таких изображений будем считать формой изображения φ агмента, содержащего изображение цифрь «пять*- Изображения из множес ва V будем с итать сравнимы ш по фор ге с изображением цифры «пять ia рис. В.4, б. Все изображе! ияр не содержащиеся в множестве V, будут не сравн мы по форме с изоб ажением, приведенныг* на рис. ΒΆ, б- В этом смысле фо мой изображения цифры «пять* можно считать множес о зоб аже и1, с авнш ιχ с нт ю форме
Введение Μ В идеальном варианте узнавание цифры «пять» на предъявленном фрагменте сводится к выяснению, принадлежит ли указанный фрагмент определенной таким образом форме изображения. Однако фрагменты изображения, содержащие другие цифры «5», отличаются от рис. В.4, б, не только преобразованием яркости: на изображении присутствуют шумы, знаки могут быть плохо пропечатаны и т. п. Поэтому будем считать, что в предъявленном фрагменте можно узнать цифру «пять», если его яркость можно «с достаточной точностью» приблизить изображениями из формы изображения цифры «пять», т.е. полученными из изображения на рис.В.4,б, нелинейными преобразованиями его яркости (определения понятий «точность приближения», «нелинейное преобразование яркости» и др. будут даны ниже в зависимости от рассматриваемых математических моделей изображений). Результат поиска участков поля зрения, содержащих изображение цифры «пять», приведен на рис. В.4, д, е. Найденные участки выделены белыми прямоугольниками. Фрагменты изображения на выделенных участках признавались изображением цифры «пять», если отличие (например, норма разности) между приближаемым фрагментом и его проекцией на множество всех изображений этой цифры (проекцией «должным образом» сдвинутого фрагмента на форму изображения цифры «пять») не превосходило заданный порог. Изменяя значение порога, можно задавать более или менее жесткие условия узнавания. Так, малое значение порога привело к результату, изображенному на рис. В.4, д. Здесь нет ни одного ложного срабатывания, однако оказалась не узнанной цифра в дате «25 сентября», отличающаяся малой контрастностью. Увеличение порога приводит к тому, что пропущенный ранее фрагмент признается теперь как содержащий цифру «пять», однако есть и ошибочные узнавания — в датах «26 января», «31 января», «19 февраля» и др. Поиск фрагмента, сравнимого по форме с изображением знака «шесть», иллюстрирует рис. В.5. В верхней его части приведено изображение ряда цифр. Изображения искажены небольшим шумом. Область прямоугольной формы, в которую целиком помещается изображение одного знака, движется по полю зрения в горизонтальном направлении, и рассматривается фрагмент изображения, вырезаемый этой областью. Этот фрагмент приближается изображениями, сравнимыми по форме с изображением цифры «шесть». График точности этого приближения приведен на нижней части рис. В.5. Как видно из рисунка, фрагменты изображения, содержащие цифры «три», «пять», «восемь», «девять» и «ноль», достаточно близки к форме изображения цифры «шесть» — об этом свидетельствуют довольно глубокие локальные минимумы на приведенном графике, однако наи-
18 Введение 3000 _Г 2500- 2000. 1500. 1000. 500. 1234567890 "т Τ"r IT "*" Τ * Τ' ΤΙ о π 1— 100 200 300 —ι 1 г 400 500 Рис. В.5. Вверху — изображение цифр, внизу — точность приближения подвижного фрагмента изображениями цифры «шесть» в зависимости от его расположения более глубокий минимум соответствует предъявленному фрагменту, действительно содержащему цифру «шесть». Создание математических методов решения задачи узнавания объектов по их изображениям весьма актуальны для разработки охранных систем, для систем контроля, когда, например, на изображении, формируемом видеокамерой, требуется узнать автомобиль заданной марки или в отпечатке пальца узнать характерный участок папиллярного узора, и др. Здесь описан простейший морфологический метод узнавания объекта по его изображению. Заметим, что форму изображения можно построить, исходя из математической модели изображения. Например, если известны геометрическая форма объектов сцены, оптические свойства их поверхностей, условия освещения и модель устройства, формирующего изображения, то можно указать, какое изображение данной сцены может быть получено или как будет выглядеть фрагмент изображения заданного объекта. Так, в примере с изображением кубика, см. рис. В.2, можно считать, что все его изображения — кусочно- постоянные, принимающие значения, равные константе на областях поля зрения, соответствующих трем граням кубика и фону. Варьируя неизвестные параметры модели, можно получить все множество изображений объекта или сцены. На практике для того, чтобы указать множество изображений сцены, как правило, достаточно указать лишь самые общие характеристики объекта и системы регистрации и на этой основе построить множество изображений, которые может породить
Введение 19 данный объект. Остается лишь проверить, входит ли предъявленное для анализа изображение в это множество. Однако в примере с узнаванием цифр форма изображения задавалась без обращения к математической модели, описывающей физические процессы его формирования. Достаточно было указать, что, например, при изменении контраста изображения знаков сохраняют свои характерные особенности. Точно так же не произойдет перепуты- вания изображений цифр, если изменять в широких пределах яркость изображений. В рассмотренном примере был задан класс возможных преобразований Τ : / —► F о /, изменяющих яркость исходного изображения / по следующему правилу: яркость f(x) точки χ преобразуется в яркость F о f(x) = F(f(x)) независимо от расположения точки χ на поле зрения (т.е. функция F(·) не зависит от х). Точки поля зрения, различающиеся по яркости на изображении /, после преобразования F о / могут получить одинаковую яркость. Если же на изображении / яркости точек χ и у равны, f(x) = f(y), то это равенство сохранится и для преобразованного изображения: F о f(x) = F о f(y). Таким образом, в результате преобразования F изображение может стать «более простым» по своей форме, так как области различной яркости изображения / могут получить одну и ту же яркость на изображении F о /, при этом соответствующая область постоянной яркости изображения F о f будет объединением областей постоянной яркости изображения /. Это наблюдение позволяет определить сравнение изображений по форме. Пусть задан некоторый класс Τ преобразований изображения /. Будем говорить, что форма g не сложнее, чем форма /, если изображение g может быть представлено в виде g = F о / при некотором F е Т. Множество изображений, форма которых не сложнее формы /, назовем формой изображения /. На практике форму изображения можно определить, указав максимальный инвариант преобразований яркости изображения /. Задача классификации объектов по их изображениям. Рассмотрим изображение, содержащее цифры от нуля до девяти, см. рис. В.6, а. В простейшей задаче классификации требуется указать, какой объект изображен на фрагменте поля зрения, содержащем, например, цифру «семь», см. рис. В.6, б. В отличие от предыдущего случая здесь заранее известно, изображения каких объектов могут быть предъявлены для анализа. В этом смысле классификация является более простой задачей, чем узнавание, так как в последнем случае множество альтернатив неопределено. Так же, как и при решении предыдущей задачи, для каждой цифры определяется класс всех ее возможных изображений (форма). Далее
20 Введение 234567890 7 в 0,05 0,2 0, 0}6 0,8 1,0 R= I R = 5 Я = 25 00 80 60 40 20 ~\ R - •^L Jt= 1 - з 9 R = 7 5Г= 5 од 0,2 0,3 t 0,4 Рис* В>6 а) Изображен я шфр. б) Изображение цифры *7* е) Искаженные шумом изображения цифры «семь», г) Частота правильной классификации в зависимости ототношения *шум/с^ нал* принимается решение, с како" из полученного набора форм наиболее схоже предъявленное изоб ажение. Для это о находится ближа"шая к .ему фо ма изображе ий, для чего ре шется задача его наилуч его приближения изображениями из заданной формы. Если есть несколько множеств, наиближайш χ к заданному, то для выбора одного из них требуется привлечь дополнительные сооб аже- ния. Морфолог ческие методы классификации обладают высокой по- мехозащище .нос ью. Для ^ллюст гцт этого свойства на рис.ВДв, пр еден набор зображен й ц ιφρ семь», искаженн χ аддитивным шумом в виде пятен в форме кругов различных радиусов; яркость пятен однородна и случайно изменяется от пятна к пятну. Изображения на рис.В.6,я, расположены в виде таблицы. Каждая строка таблиць содержит изображения цифры «семь», искаженные пятнами о ого ν ого же радиуса, столбцы таблицы содержат изображения с одинако ым отношением «шум/си нал , понимаемо о у в о ношение к а рата норм ι шумового изображения к квадрату нормы * ю 1езного» изоб ажения. Значен ie этого о ношения приведено над каждым из с олб ов. Графики частоты ошибочных решений в зависимости от величины отношения «шум/сигнал* для различных способов искажения (для ра диусов кругов R = 1,3,5,7,9) π иведены на рис. В. 6, г. Видно, что чем ме ь ie ад ус к уга, тем более юме оусто^ч вмето .лассифи -ации.
Введены 21 За ача ыде ен я об ек ов, редс авленны на зобр е и х. На ис.В. вверху ι иведен изображения / \ g двух сце^. Изображения олучены при раз ых ус юв ях освещения, а сцен отл чаются тем, что н одной з ιΧ (изображе но" на д) о .вился нов и объ- ек — кош к Требуете по изображе нияь указат от ич is в сце .ах Рис. В.7. Изображение двух сцен (вверху), разность изображений (внизу слева) тличие по форме (внизу справа) Изображе ,ия олучень при азл чных условиях, из-за этого яркости областей, соответствуют ιΧ одина ьов м объектам сцен, могут существенно различаться. Поэтому не имеет смысла вычитать пото чечно яркость одного изображения из яркости другого — об этом сви детельствует результат, приведенный на рис. Б.7 слева внизу. «Серое» изображение показывает, что яркости соответствующих точек заметно отличны друг от друга. Определим форму изображения /, представленного на рис. В.7 еле ва вверху, как множество изображений сцены, полученных при всех возможных условиях его per хтрации, при этом изменение условий егистрации будем моделировать преобразованием яркости исходного изображения /. Можно заме ить^ что появление кошки в комнате приводит к нарушению формы изображения /, поскольку никаким (нелокальным) изменением я кости невозможно привести изображение / к изображению д. Морфологический метод выделения отличия предъявленного изображения д от заданного / по форме сводится к нахождению тех особенностей изображения д, котор е не могут быть получены из /
22 Введение путем преоб азования яркости /: отличия в форме соде жатся в разности изображения g и его Hat лучшего ι ибл^ жения изображе иями из формы /, Эта азность приведена на ρ ία В сп ава внизу. В результате такого морфологического вычитания на темном фоне оявляетс дос аточно ярк й объект (кошка), показывающий отличие по форме зображения g от /. Оцен ван е параметров обье *та о его з обра же ию. Час о а ра ике оказываю с не звестны* и араметры объекто сцены, оп еделяющие, например, их расположение, размеры и т. п. Ин формация об этих параметрах содержится в изображении. На рис, В.8 приведено изображение ву г кубиков. Несмот я на то что неизвес ны м о ν е па а метр ι модел и связ вающей ассматр шемую cue у с е о изображением π едоставле ной информаци доста очно для того, чтобы оценить, насколько отличаются размеры изображенных кубиков, если известно, что они находятся на одинаковом расе ояни от стокам ер ι, или наско ько отл ^чаются расстояния до них, если азмеры кубиков одинаковы. Другой пример связан с определением координат зада ного знака на поле зрения. В электронной л тограф и перед на ]лен еъ слоя sei ества а пове хность пластины Рис, В.8. Изображение несе ин- ремния ребуется расположить эту форм цию о размере и/или удален- пластину в стро 0 оп еделенном по- ности объекта π ложении. Для контроля положения пласт ны а ее поверхность наносится е ерны знак, *зображе н 1Й на ρ ic. B+9 слева вве ху+ Изоб- ажение этого знака в электронном м ^кроскопе позволяет определить коорди аты пластины и скорректировать ее положение. В рассматрива емом примере ситуация несколько усложняется тем, что п и напылени репер (крест) оказывается под слоем вещества, что приво ит к разь ы- т ш его изображе и я, η ρ 1чем контролировать это разм ие достаточно сложно Тем не менее информация о его положении на оле з ения присутствует в изображен и. На рис. В.9 с рава вверху показано, как в электронном микроскопе выглядит под слоями напыленного резиста; это изображен е получено компьютерным моделированием процесса рассеян я электронов в матер але слое ме одом Монте-Кар о, [67). Для on e еления координат репера по его размытому изображению задается форма изоб ажения репера как множество его размыть χ изображений со всевозможными способам размытия; фо ма зав сит
Введение 23 от умер ого век ора араме ов, ко ор м ял ются коорди аты креста на поле з ения. Далее вычисляется расстояние от редъяв- ле ного изображения до формы размытого изображения репера для различных значений координат центра репера на поле зрения. График зависимое и этого расстояния от з ачений координат це τ а ре ера приведен на рис. В.9 слева внизу, рко выражен ый мшимум этой зависимости позвол ет с точностью, достаточ о' для техноло \ν\ изготовления микросхем, опре елять положение репера: це а деления .а шкале координат равна 0,1 мкм. Найденное расположение репера на фрагменте η едъяв енного изображения пр ведено на ис. В.9 спра а вн зу-Замет м, что зуал оесо мете ие этом с учае практически невозможно. Все эти прил еры связа .ы с необходимостью оценива ь по изображению те или иные параметры сцен. Для решения этой задачи с каждым иксированным значением параметра сцены свяжем множес о изображе и" это" сце ы. С ормальной точк зрени еле ует айти такое значение параметров, для которого множес во определяемых им изображение в лючает предъявленное изображение. Если такой набо не единственен, то для выбора нужной оценки следует привлекать дополнительные соображения, а есл предъявленное изображение не в л ючено и в какое ъ ожество с шдует с ать аиболее похоч ie по форме. Рис В.9 Оце ιΚΒ. положени репера ι о его изображению
24 Введение Однако если нас интересует не столько сцена, на которую в наибольшей степени похоже предъявленное изображение, а наиболее точная оценка параметра λ (в рассмотренном примере λ — вектор из координат репера), следует поставить задачу так, чтобы оценка λ параметра λ выбиралась из условий минимума погрешности оценки. Для решения этой задачи требуется уточнить модель формирования предъявляемого изображения. Пусть, например, известно, что координаты λ изображенного репера могут принимать значение из некоторого заданного множества Л на плоскости. Множество изображений репера с координатами λ Ε Λ обозначим V(A). Рассмотрим схему формирования изображения / репера в виде равенства ξ = ί + ", (Β.1) в котором «неискаженное» изображение / принадлежит множеству V(A), λ G Л, а «шумовое изображение» и, моделирующее погрешности, возникающие при формировании изображения /, принадлежит заданному подмножеству λί множества всех изображений. Задача состоит в выборе оценки λ для λ е Л, удовлетворяющей условию ||А - λ|| = inf max{||A' - λ|| | λ : ξ = / + ι/, / e VA, ν е Я]. (В.2) λ'€Λ Согласно (В.2) оценка λ минимизирует максимально возможную погрешность оценивания параметров координат знака λ Ε Λ и называется минимаксной [45]. Для решения задачи (В.2) построим множество Л^ с Л значений параметра λ, при которых возможно равенство (В.1) при некоторых ν Ε λί и / е V\. Это множество содержит те и только те значения вектора λ, для которых отличие предъявленного изображения ξ от некоторого изображения из множества V(A) изображений, порожденных репером с координатами λ, может быть объяснено наличием шума i/еЛЛ Решением задачи (В.2) в этом случае является центр шара минимального радиуса, содержащего множество Αξ. Радиус этого шара дает оценку погрешности определения искомых координат. Продемонстрируем работу метода минимаксного оценивания параметров объектов на примере анализа размеров и положений двух нано- частиц по их изображению в растровом электронном микроскопе, см. рис. В. 10, а. Известно, что частица в идеальных условиях изображается областью поля зрения в виде круга, яркость которой отличается от яркости фона, а радиус круга изменяется в некоторых заданных пределах. При регистрации изображение искажается аддитивным шумом и, принадлежащим заданному ограниченному множеству. Требуется по
Введение 25 а б Рис. В. 0. Оценка размеров и расположения наночастиц по их изображению данному изображению определить координаты центра и радиус кру а, зображающего на но астицу Положение частиц априори про «вольно. Существует целое множес во значений центров кругов с рад усами, лежащ ми в заданных пределах, при которьх ι изображения будут от ичаться от пред я в ен ого на рис. В 10, , не более, чем на элемент рз множества ΑΛ Это множество центров показано на ис.ВЛО, б, черным цветом. Оно состоит из двух односвязных об ыстей, ервая \ з них оценивает возможное положение цен ра первой частицы, вторая — второй. Μ нимаксной оценкой положения наночастицы является центр кру а м нимально о радиуса, со ержаг его соответствующую область а ис.В. 0» б; его радиус задает величину линимаксной ог ешности оценивания. Точно так же найдется несколько значений радиусов двух кру- ов, лежа их в оле зрения изоб ажения рис, В 10, а, для которьх изображение этих кругов отличае ся о рис. В. 10, a, ie более, чем на элемент из ΛΛ Минимаксной оценкой радиуса частицы является середина отрезка содержащего возгюжн е значения радиуса соо - ветствую его круга. На рис. В. 10,6, изоб ажены круги, радиусы и положения центров которых равны м нимаксным оценкам пара метро соотве ствующих наночастиц Если «шумовое зображение* ν в (ВЛ) — случайный элемент пространства изображений с заданным законом его распределения ероя ностей, то можно ост оить для λ оценивающие множества минимально о размера, [45].
Часть I ФОРМА ПОЛУТОНОВОГО ИЗОБРАЖЕНИЯ Глава 1 ОСНОВНЫЕ ПОНЯТИЯ МОРФОЛОГИЧЕСКОГО АНАЛИЗА 1.1. Математические модели изображения 1.1.1. Линейное пространство изображений. С математической точки зрения под изображением будем понимать числовую функцию /(·), заданную на ограниченном подмножестве X плоскости Έ?. Область X будем называть полем зрения, а значение f(x) функции /(·) в точке χ G X — яркостью в точке χ поля зрения X. На практике для представления изображений в памяти компьютера в качестве поля зрения X выбирают набор узлов прямоугольной сетки, а яркость в каждом узле задают целым числом в интервале от 0 до 255. Однако такое множество объектов лишено многих привлекательных свойств: при сложении или вычитании яркостей двух изображений результат может выйти за рамки множества яркостей {0, 1,..., 255}. Для теоретического анализа проблем, возникающих при создании методов морфологического анализа, условимся считать, что поле зрения X — произвольное ограниченное подмножество плоскости 7£2, а яркость изображения в каждой точке поля зрения X принимает конечное числовое значение: f(x) Ε (—οο,οο), χ е X. Определим линейные операции сложения изображений и умножения изображения на число следующим образом: (/ + 9)(х) = fix) + 9{х), (а · f)(x) = а · /(χ), χ G X В этом случае множество всех изображений, заданных на поле зрения X, представляет собой линейное пространство. Заметим, что линейность пространства изображений приводит к тому, что функции, принимающие отрицательные значения на поле зре-
/./. Математические модели изображения 27 ния X, тоже считаются изображениями. Отрицательные яркости могут возникнуть, если пользоваться логарифмической шкалой; в этом случае f(x) = k\nl(x), где 1(х) — световая энергия, попадающая на элементарную площадку, расположенную в точке χ G X, к — калибровочный коэффициент. Логарифмическая шкала удобна тем, что экспоненциальный рост яркости воспринимается зрительным аппаратом человека как линейный. Обозначим μ(·) некоторую меру на σ-алгебре борелевских подмножеств поля зрения X. Будем считать, что существует интеграл от квадрата изображения по полю зрения X: |/2(х)ф(х)<оо. (1.1) X В качестве меры μ подмножества А поля зрения X будем использовать либо его площадь (меру Лебега), либо так называемую считающую меру, когда на поле зрения X задано конечное множество точек (узлов сетки), и мера множества А с X равна числу узлов сетки, принадлежащих множеству А. Форму записи (1.1) будем использовать только для того, чтобы единым образом представить два случая: когда поле зрения X представляет собой ограниченное подмножество плоскости К2, интеграл понимается «в обычном смысле» (как интеграл Лебега): /(χ)άμ(χ) = f(x)dx. χ χ Если же заданы сетка узлов {дц,... ,хп} G X и считающая мера, то f/(x)dM(x) = ^/(xi). χ *=1 В зависимости от того, как определено расстояние между изображениями, будем рассматривать различные метрические пространства изображений. 1.1.2. Пространство изображений €2μ(Χ). Если выполнено (1.1), то для любых двух изображений fug можно определить скалярное произведение по формуле ($./) = ]"/(*Ж*)Ф(*) (1-2) X и норму изображения 11/11 = φ2(χ)άμ(χ))1/2. X
28 Гл. 1. Основные понятия морфологического анализа Расстояние между изображениями / и д при этом определяется нормой разности / — д: P(f, 9) = II/ - д\\ = (J(/(s) - g{x)f άμ{χ))Ιβ. χ Таким образом определенное линейное пространство изображений со скалярным произведением (1.2) называется евклидовым пространством £2μ(Χ). О Если какое-либо соотношение выполнено для всех точек множества X, кроме точек множества нулевой меры, будем говорить, что оно выполнено почти всюду на X, и обозначать это символом (mod μ). В частности, для эквивалентных функций f,g Ε £2μ(Χ) можно записать f(x) = g(x), χ Ε X (mod μ). В том случае, когда на X заданы сетка узлов и считающая мера, для вычисления нормы, скалярного произведения и расстояния между изображениями достаточно знать значения изображений в узлах сетки. Тогда случае любое изображение / Ε С^(Х) можно представить как вектор n-мерного пространства с координатами (/(*!),...,/(*„)) eft" и г=1 ιι/ιι = (Е/2ы)1/2. г=1 ρ(/.») = (έ(/(^)-^))2)1/2· г=1 1.1.3. Пространство изображений С(Х). Рассмотрим класс С(Х) кусочно непрерывных изображений, заданных на ограниченном подмножестве плоскости — на поле зрения X с К2: изображение / принадлежит классу С(Х) тогда и только тогда, когда существует конечное измеримое разбиение A\,...,An поля зрения X, такое, что на каждом из А^ г = l,...,iV, функция /(·) непрерывна, причем </?(/) = sup |/(ж)| < оо. хех О Более аккуратное определение пространства £2μ(Χ) и его свойства можно найти в [28]. Здесь отметим лишь, что если две функции f,g G £2μ(Χ) совпадают всюду, кроме, быть может, подмножества X, мера μ которого равна нулю, то расстояние p(f,g) = 0. Такие функции называются эквивалентными, и элементами пространства £2μ(Χ) являются классы эквивалентных функций.
1.2. Понятие формы изображения. Сравнение изображений по форме 29 Функционал </?(/), определенный на С(Х), является нормой элемента / е С(Х)\ обозначим его ||/||с· Расстояние между изображениями / и д в этом случае определяется нормой разности / - д: Pc{f,g) = \\f ~g\\c = sup|/(x) -д{х)\. хех Для любого изображения / е С(Х) определен интеграл \/(χ)\άμ{χ) < оо. χ Линейное нормированное пространство изображений С(Х) не является евклидовым: в нем нельзя определить скалярное произведение, согласованное с нормой | · \с. В дальнейшем в общем случае для обозначения линейного пространства всех изображений будем использовать символ £, указывая в нужных случаях, о каком из пространств, €2μ(Χ) или С(Х), идет речь. При этом если С = £2μ(Χ), равенства типа f(x) = д(х), χ Ε X, понимаются как равенства почти всюду на X (modμ). 1.2. Понятие формы изображения. Сравнение изображений по форме В этом пункте перейдем к построению формы изображения как инварианта преобразований изображения, моделирующих изменение условий его регистрации. Как уже упоминалось, знание яркости изображения в каждой точке поля зрения является избыточным для решения множества задач анализа изображенной сцены. Значительно более важной является «структура» (называемая в морфологическом анализе формой изображения), не изменяющаяся при вариации условий его формирования. Примером такой структуры (формы) может служить разбиение поля зрения на множества постоянной яркости и/или цвета: на изображениях горицвета, приведенных на рис.В.1, область, соответствующая лепесткам цветка, всегда имеет одну и ту же геометрическую форму, сохраняющуюся при различных условиях регистрации изображения горицвета. Изображения кубика на рис. В.2, полученные при меняющихся в достаточно широких пределах условиях наблюдений, будут состоять из четырех областей поля зрения, на каждой из которых яркость изображения постоянна. Эти области соответствуют трем видимым граням кубика и фону. Заметим, что при некоторых условиях освещения яркости некоторых из этих областей могут оказаться одинаковыми, при этом поле зрения разобьется на области постоянной яркости, число которых будет меньше четырех.
30 Гл. 1. Основные понятия морфологического анализа В этом случае естественно считать, что форма такого изображения будет менее сложной, чем у исходного. 1.2.1. Модель и форма мозаичного изображения. Остановимся на последнем примере подробнее и построим достаточно простую математическую модель, позволяющую получить множество изображений, форма которых не сложнее формы изображения кубика на однородном фоне (или, иными словами, — множество изображений, сравнимых по форме с изображением кубика). Вообще говоря, для создания математической модели изображения сцены необходимы сведения об излучении, падающем на объекты сцены, нужно знать их геометрическую форму, оптические свойства их поверхностей, а также фона, на котором они рассматриваются, и, наконец, модель системы, формирующей изображение. Понятно, что на практике столь подробные сведения вряд ли доступны, однако для решения описанных выше задач достаточно лишь самых общих представлений о том, как устроены объекты сцены, фон и система формирования их изображения. Пусть выполнены следующие условия. 1. Освещение сцены однородно, но может меняться его интенсивность, направление, а также чувствительность устройства формирования изображений. 2. Изображаемая сцена состоит из расположенного на оптически однородном фоне кубика с оптически однородными гранями, так или, что интенсивность отраженного света определяется только взаимным положением нормали к поверхности, направлением на наблюдателя, а также интенсивностью и направлением падающего на сцену светового излучения. 3. Кубик изображается при определенном ракурсе и на фиксированном расстоянии от системы формирования изображения. 4. Размеры объекта и изображаемого участка фона достаточно малы по сравнению с расстоянием до регистрирующей системы. В первом приближении (если не учитывать переотражения от граней, затенения и другие подобные эффекты) эти условия означают, что из любой элементарной площадки однородной плоской грани объекта или фона в видеосистему приходит излучение одинаковой интенсивности, определяемое взаимным расположением нормали к поверхности, направлением на видеосистему и, вообще говоря, направлением падающего излучения, если поверхность не является диффузно отражающей (ламбертовой). Тогда каждая грань кубика будет изображаться областью поля зрения X, все точки которой имеют одинаковую яркость. То же самое можно сказать и об изображении фона: соответствующая ему область поля зрения на изображении сцены также будет характе-
1.2. онятие формы изображения. Сравнение изображений го форме 31 ризоваться одинаковой яркое ью. В результате изображен е куб *ка на однородном фоне мож о пре ставить как кусочно остоянную функ ι ию, заданную на поле зрения Х\ области постоянной яркости соот ветствуют изображениям граней объекта и фона, см, рис. 1 I, справа. Пр ϊ изменении условий освещения (при сохране и и его однородности), зл е е ии коэффициента усиления видеокамеры и т. п. яркости областей могут меняться в широких пределах, однако сама геометрическая форма этих областей остане ся не змеиной. Ρ α 1Л. Изоб ажение кубика и области постоянной яркости Следователь о, « ас ь ин ормации», о ветствен *ая за геометри- чес ую форму изображаемого объекта, содержится в форме областей постоянной яркости изображения, а их яркость о носится к «части информации», несущественной с то ки зре* и я еометри *еск ιχ свойств объекта та * как в рамках используемой модели формирова .ия изображения э и яр ^ости могут быть произвольными. Модель изображения кубика на однородном поле зрения запишем в в де Л {х) = Σ ^Х^)* х € х (1.3) г=1 е"ствительно, здесь все поле зрения X разбито на области Ai с X г= 1,... ,4; все точки области Л* имеют одинаковую яркость q, χ е А, Xi{x) = U: — индикаторная функция множества Ait Ai Π Aj = 0 при г ф j, 4 i = 1,..·,4; U Ai = X. Изменение ус гови" наблюдения — переме щение и изменение яркости источника освещен я, чувст тель ост видеокамеры и т. п. — приведет к изменению значений яркости с4 подмножеств A-ti=lt...t4t поля зрения X. Если объект представляет собой выпуклый многогранник со τι- чески одноро ными повер ностями гра ей, освещен ый однород ым
32 Гл. 1. Основные понятия морфологического анализа потоком света и изображаемый на однородном фоне, то его изображение запишется в виде ЛГ+1 f(x) = Y2ciXi(x), xeX. (1.4) г=\ Здесь N — число граней, видимых из точки наблюдения, q — яркость изображения грани Aiy г = 1,..., Ν\ сдг+ι — яркость изображения фона. Множества одинаковой яркости, изображающие грани объекта, имеют индикаторные функции %*(·) соответственно, г = 1, ,iV, а фон — индикаторную функцию %λγ+ι(·)· Изображения вида (1.4) являются частным случаем так называемых мозаичных изображений; в общем случае для мозаичного изображения яркость области Аг является непрерывной функцией точки χ Ε Aiy г = 1,..., Ν, см. ниже, п. 1.5.1. Если в результате изменения условий наблюдения яркости q, г = = 1,...,4, могут принимать любые числовые значения, то множество всех изображений кубика можно записать в виде 4 V/cub = {/(*) = ]ССгХг(я), Χ£Χ, Q G (-00, Оо), 1= 1,...,4J. г=1 Подмножество V/cub линейного пространства С всех изображений представляет собой множество всех линейных комбинаций четырех линейно независимых функций %ь г = 1,...,4, т.е. четырехмерное линейное подпространство в линейном пространстве всех изображений, и обладает тем свойством, что любое изображение кубика, полученное в результате изменений условий наблюдения, принадлежит этому множеству, а если некоторое изображение ему не принадлежит, то оно не может быть изображением кубика ни при каких условиях наблюдения. В более общем случае, когда рассматривается объект с плоскими гранями на однородном фоне при однородном освещении, множество всевозможных его изображений ЛГ+1 V/ = {/(ж) = ^СгХг(х), ХвХ, d G (-00, ОО), I = 1, ... , N + 11 г=\ (1.5) является (N + 1)-мерным линейным подпространством. Определение 1.1. Множество V/, определенное в (1.5), называется формой изображения объекта с плоскими оптически однородными гранями на однородном фоне при однородном освещеонии, или, короче, формой изображения /(·). Определенная таким образом форма изображения может рассматриваться как множество изображений фиксированной сцены при всех
1.2. Понятие формы изображения. Сравнение изображений по форме 33 возможных условиях регистрации. Заметим, что для задания этого множества достаточно указать разбиение поля зрения X на множества А\,..., Αν+\\ все точки каждого из этих множеств на любом изображении из V/ имеют одинаковую яркость. Отметим следующий факт. Если для некоторого изображения яркости двух или большего числа множеств совпадают, то разбиение поля зрения на множества равной яркости содержит менее, чем N + 1, элементов. Как уже упоминалось, форма такого изображения считается менее сложной, чем форма изображения (1.4) с несовпадающими яркостями сь... ,сдг+1. Множество V/ в (1.5) можно теперь рассматривать как множество изображений, форма которых не сложнее, чем форма изображения ЛГ+1 f(x)=^CiX(x)9 xeX, (1.6) г=\ для которого яркости множеств А\,..., Αχ+\ различны: q ^ Cj, г ^ j, ;,j = i,...,jv+i. 1.2.2. Операция сравнения изображений по форме. В этом пункте опишем формальный подход, позволяющий строить множества изображений с заданной или более простой формой, не обращаясь к модели мозаичного изображения. Заметим, что множество изображений V/, определенное в (1.5), может быть получено из одного-единственного изображения (1.6). Для этого надо лишь для каждого г = 1,..., ΛΓ + 1 произвольным образом изменять значения яркости С{ области Αι постоянной яркости заданного изображения (1.6). Формально это можно сделать, рассматривая множество изображений вида ΛΓ+1 д(х) = F(f(x)) ξε Σ Псг)х(х), xeX. (1.7) i=\ где функция F(-) — любая из некоторого класса F числовых функций, заданных на числовой прямой Έ}. Далее для таких изображений с преобразованной яркостью будем использовать обозначение д = F о / е С: g(x) = {Fof){x)=F{f(x)), xeX. Естественно рассматривать в качестве множества всех возможных преобразований яркости класс F/ всех таких функций, для которых результирующее изображение F о /, F e F/, тоже являются элементом пространства С (в частности, если рассматривается евклидово пространство изображений €2μ(Χ), то F о f должна быть функцией, определенной на X, квадрат которой интегрируем — для этого достаточно, чтобы Ff G F были ограниченными борелевскими функциями). В част- 2 Ю.П. Пытьев, А. И.Чуличков
34 Γα. L Основные оня ия морфологического анализа ноет для |римера, рассмот енного в [редыдущем пункте, множество V/cub всех зображен Г куби а можно записать следующим образом: Vf„h = {ff€£: g^Fof, FeFf}. (1Л) Дейс вите >ь о, 4 Fof(x) = Y/F(ci)Xi(xl xeX, и для того, чтобы изображение из м южества (КЗ) принадлежало и множеству (1 8), необходимо и достаточно выбрать функцию F e F/ так, чтобы F(a) = fy, г = 1,... ,4. Рассмотрим область Л{ поля зрения X, на которой изображение / имеет одн> и ту же яркость с^. Во всех точках этой области яркость изображен я акже при тает одно и то ,е значен е F(ci), озмож- но, отличное от с*. Однако может случиться так, что изображение д имеет одну и ту же яркость на двух или более областях, на которых яркости изображения / различны. В ассматриваемом примере это произойдет, если F(ci) = (cj) при некоторых г и j, г Φ jt — в этом случае яркости множеств А и Aj на изображени д равны, см изобра- жени я / и д на ρ *с. ♦ . Так как число областей с разл ч ой яркостью f 9 92 Рис. 1.2. Форма изображения д\ ι д? не сложнее формы / при описанных греобразо аниях ркост^ не может возрастать, будем говорить, что изображение д по форме не сложнее, чем /. Самой простой формой обладает изображение, равное константе всюду на поле зрения X; бу ем азыва ь его изображением однородного поля зрения, см, изображение д% на рис.1.8. Опишем эти предложения формально. Опре еле е 1.2. Пус ъ С — инейное ормированное остран- ство всех изображений, F — класс всех берелевских функций, опреде-
1.2. Понятие формы изображения. Сравнение изображений по форме 35 ленных на действительной прямой и принимающих числовые значения, F/ — подкласс F, выделенный условием Ff = {FeF: Fof(.) еС}. 1. Будем говорить,_что форма изображения / не сложнее, чем форма /, и писать / -< /, если f(x) = F(f(x)), χ G X, для некоторой функции F(·) e F/. 2. Формой изображения /(·) G С назовем множество V/ = {Fo/, FeF/}c£. (1.9) 3. Изображения / и / назовем эквивалентными по форме, если / -< / и /_-< /. Факт эквивалентности изображений будем отмечать как / ~ /. 4. Изображения / и / назовем совпадающими по форме, если V/ = = Vjr, в этом случае будем писать / = /. 5. Изображения /_и / назовем сравнимыми по форме, если выполнено либо / -< /, либо / -< /. Заметим, что / = / влечет / ~ /. Согласно этому определению, форма V/ изображения / состоит из тех и только тех изображений f e С, для которых выполнено V/ = {/: S< /}; иными словами, множество V/ есть множество всех изображений, форма которых не сложнее, чем форма /. Заметим, что все изображения из V/ сравнимы по форме с /, но не обязательно сравнимы по форме между собой. Определенный таким образом класс функций F/ является линейным подпространством F. Заметим, что в приложениях часто используются более узкие классы преобразований F/, однако в большинстве случаев F/ можно считать выпуклым подмножеством F. При этом выпуклым будет и V/, поскольку если /ι -< / и /г -< /, то и α/ι + 6/г -< / для любых а > О, 6 > О, α + b = 1. Далее множество F/ предполагается выпуклым, а V/ — замкнутым в С. Эти свойства формы Vf нам потребуются в дальнейшем, при конструктивном определении формы изображения. _ _ Заметим, что отношение «ξ» транзитивно: если / = / и / = /, то / = /. Что касается отношений «-<» и «~», то для них свойство транзитивности в общем случае не выполняется. Оно будет выполняться, если множество F/ наделить свойствами полугруппы относительно
36 Гл. 1. Основные понятия морфологического анализа естественной операции композиции функций, а именно, если^из включений F(-) e F/, F(-) e F/ будет следовать включение Fo F(-) G F/. В этом случае «ξ» и «~» означают одно и то же. В данном выше определении операции сравнения изображений по форме изображение /(·) не обязательно должно быть мозаичным, что позволяет сравнивать по форме изображения произвольных объектов и сцен, а не только многогранников. Кроме того, класс функций F/ может быть не столь широк, как в рассматриваемом случае, когда F/ — линейное подмножество класса борелевских функций. Выбирая класс F/ должным образом, можно учесть ограничения на возможные условия регистрации изображений. В частности, если условия наблюдения таковы, что сохраняется упорядоченность яркостей точек поля зрения, т.е. если f{x\) < /(#2), то F о f(x\) ^ F о f(x2) (наиболее яркие участки поля зрения всегда остаются самыми яркими и т.п.), то в качестве класса функций F/ следует рассматривать монотонно неубывающие функции, не выводящие результат преобразования Fo f из пространства С. Множество V/ всех изображений, форма которых не сложнее /, в этом случае, вообще говоря, не будет подпространством. В этом случае наименьшее (по включению) подпространство, содержащее V/, называется формой f в широком смысле. Укажем на связь между классом функций Cjrft измеримых относительно σ-алгебры J7/, порожденной функцией /(·), с формой Vf = {geC: g = Fof, FeFf}eC, (1.10) где F/ — класс всех борелевских функций. Будем считать, что в σ-алгебре Т$ содержатся и все подмножества X μ-меры нуль. Тогда, как следует из определения формы /, форма V/ совпадает с классом измеримых функций Cj?f. Рассмотрим^класс изображений, эквивалентных по форме /, и обозначим его /. Множество всех классов эквивалентных по форме изображений является частично упорядоченным множеством. Рассмотрим форму V/ изображения / и разобьем множество С всех изображений на классы эквивалентных по форме изображений, {С\ ~} — множество всех таких классов. Форма V/ разобьется при этом на множество эквивалентных классов, {V/\ ~} С {С\ ~). Для {V/\ ~} точной верхней гранью является класс изображений /, эквивалентных по форме /, а точной нижней гранью — класс изображений {ео = = соХх € £, со € (—οο,οο)}, эквивалентных по форме константе. Частично упорядоченное множество, для которого любая пара его элементов обладает точной верхней гранью и точной нижней гранью, называется решеткой или структурой. Множество V/ с определенной на нем операцией сравнения по форме является структурой, см. приложение, п. АЛЛ.
1.3. Форма изображения как оператор проецирования 37 1.3. Форма изображения как оператор проецирования 1.3.1. Форма как оператор проецирования на множество V/ в пространстве С2 (X). Пусть множество всех изображений есть евклидово пространство С2(Х), а множество V/ является выпуклым замкнутым множеством в ί2μ{Χ). Для того чтобы конструктивно воспользоваться понятием формы изображения, заметим, что с каждым подпространством V/ С £}μ(Χ) взаимно однозначно связан оператор P\?f ортогонального проецирования на V/, см. приложение, п. А.2.2. Этот оператор каждому элементу д G £2μ(Χ) ставит в соответствие его единственную ортогональную проекцию Pvs9 € V/, определяемую как ближайшее к д е £}μ(Χ) изображение Pvfg из V/. Для нахождения проекции следует решить задачу наилучшего приближения элемента д е €2μ(Χ) элементами из V/, т.е. следующую задачу на минимум: \\g-PV/g\\2 = mf{\\g-h\\2\heVf}. (1.11) Проекция Pvsg изображения д на форму V/ является изображением из множества V/, наиболее близким к д. Множество V/ теперь запишется как множество собственных элементов оператора ортогонального проецирования Pvf: Vf = {g € СЦХ) : PVjg = g). Поскольку оператор ортогонального проецирования в ряде случаев легко вычисляется, то вместо множества V/ можно использовать взаимно однозначно связанный с ним проектор P\>f. Этот оператор ортогонального проецирования в морфологическом анализе тоже называется формой изображения /. Заметим, что в общем случае задача приближения изображения д элементами множества V/ отличается от задачи приближения / элементами множества Vg, они приводят к различным результатам. В качестве иллюстрации этого факта на рис. 1.3, а, б, приведены два изображения, / и д соответственно, а на рис. 1.3, в, г, — проекции Pvf9 и Ρν9ί· Видно, что приближение Pyfg изображения д (сидящего котенка) изображениями, форма которых не сложнее, чем / (т.е. изображениями, которые можно получить из изображения стоящего котенка всевозможными преобразованиями яркости), тоже оказывается изображением стоящего котенка, только значительно менее контрастным, близким к изображению поля зрения однородной яркости. Аналогично, приближение Pvgf изображения / изображениями, форма которых не сложнее, чем д, — малоконтрастное изображение сидящего котенка.
38 Гл. ί. Основные понятия мо фологического анализа в г Рис. 1.3 Два изображения ко ен *а / д и проекции Pv д и Ρν9 аибо ее просто ор ого а ьн й проекте выч хляется для случая, когда V/ является конеч омерным подпространством. Б час ности, если множество V/ задано соотношением (1.5), то переписав задачу (1,11) б виде \\9-Ρν9\\2 = = in I \\g- h\\2\h = Σ ЪХи c* e (-οο,οο), г = 1, — ,Ν + 1 к заметим что ||<; — h\\2 — положительно оп еделенная квадратичная форма относи ельно коэффициентов ci,... ,qv+i- Поэтому равенство нулю производных э ой орм ι по cit г = l,„.tJV*f 1, — необходимое и достаточное условие ее м ж шума Взяв производные ||<? — h\\2 о яркостям сгт г = 1,...yN + 1т и приравняв их нулю, получим систему л нейных у авнений относ ельно с», г=1,...,АГ+1, решив кото ую, найдем
1.3. Форма изображения как оператор проецирования 39 Записав в явном виде входящие в (1.12) функции, получим ЪМ*) = Σ Χ ίχί{χΊάφΊ *(*)■ * ^Χ (mod μ). г~{ χ Соотношение (1.12) означает, что проекция д е £2μ{Χ) на V/ есть мозаичное изображение F\?fg с множествами постоянной яркости, совпадающими с множествами постоянной яркости изображений из класса V/. Яркость изображения F\?fg на каждом множестве А{ равна средней яркости изображения д на множестве А^, г = 1,... ,ЛГ + 1. Полученный здесь явный вид ортогонального проектора на подпространство V/ делает морфологические методы легко реализуемыми как на обычных цифровых компьютерах, так и на спецпроцессорах. 1.3.2. Аппроксимация в С2 (X) формы произвольного изображения. В предыдущем пункте получено точное выражение для проектора на подпространство мозаичных (кусочно постоянных) изображений. В то же время в морфологических методах используется конструкция формы изображения как множества изображений, форма которых не сложнее заданной; элементами этого множества не обязательно являются только мозаичные изображения, и построить проектор на это множество в явном виде не удается. Однако, как известно [28], любое изображение / е £?μ(Χ) может быть сколь угодно точно приближено в £2μ(Χ) кусочно постоянным изображением. Это позволяет использовать конструкцию проектора на множество мозаичных изображений как приближение проектора на множество изображений, форма которых не сложнее, чем форма / G С2(Х). Эта аппроксимация может быть построена следующим образом. Пусть задано изображение / G €2μ(Χ). Выберем числа с\ < С2 < ... < < сдг-1, лежащие в области значений функции /(·), заданной на поле зрения X, и определим разбиение поля зрения X на области А\ = {χ : f(x) < ci}, Ai+\ = {χ : a ^ f(x) < q+i}, г = 1,...,ЛГ - 2, An = {x : cn-\ ^ /(#)}, причем числа ci,...,cat выберем так, чтобы множества Aj имели ненулевую меру: μ(Α^) > О, j = 1,..., N. Построенное разбиение определяет подпространство мозаичных изображений ^ = {д = Е4Ю^](Я «Г е(-оо.оо). i=h...,N} (1.13) г=\ и ортогональный проектор Р* ' на Vj^ в £2μ(Χ). Элемент Р) 'f является наилучшим приближением / е £}μ(Χ) элементами множества кусочно постоянных функций, определенного в (1.13). Так как множество кусочно постоянных функций плотно в £2μ(Χ), существует
40 Гл. 1. Основные понятия морфологического анализа последовательность разбиений поля зрения X и соответствующая ей последовательность ортогональных проекторов {Р) у}, для которой lim ||pW/-/||=0. N—►00 J Условия сходимости последовательности ортогональных проекторов содержатся в следующем утверждении. Теорема 1.3.1 ([47]). Пусть множество С = \J Cn плотно в мно- жестве f(X) = {ζ е ΊΖ\ ζ — /(χ), χ Ε Χ}, причем Сдг+i получается из Cn = {c\ , ...,cjy } добавлением новой точки. Тогда lim pW/(·) = Pff(-), /(·) e 4(X). Если μ(Α^Ν)) > 0, j = 1, ... ,ЛГ, N—юо J r j mo Pf>N = P(fN) - P{fN~l\ Pf] = 0, d/гя AT = 1,2,... суть попарно ортогональные одномерные ортогональные проекторы, причем ~ °° ~ к ~ pff(-) = Σρ/."/(·). Σρ/·*/(·Η/. ^=1.2,.... ΛΓ=1 Ν = \ Множество их собственных векторов образует ортогональный базис в подпространстве V/. В приложении, п. А.2.3, приведены условия сходимости последовательности конечномерных проекторов {Ру '} к проектору Р/ на форму V/ изображения / е £2μ(Χ), позволяющие считать проектор на множество Vn в (1.13) при фиксированном η приближением проектора Р/ на множество V. Там же приведен и явный вид ортогонального базиса подпространства V/. 1.3.3. Форма как оператор проецирования на множество V/ в пространстве С(Х). В некоторых задачах анализа изображений важную информацию несет значение яркости на областях малой меры и даже яркости изображения в точке; к ним относятся, например, задачи поиска мелких дефектов на изображениях микросхем. В этом случае расстояние p{f,g) между изображениями / и g удобно определять не в метрике евклидова пространства £2μ(Χ), а путем их «поточечного» сравнения, полагая, например, p(f(-),9(-)) = svip{\f(x)-g(x)\}. (1.14) хех В этом случае вместо класса изображений £2μ(Χ) будем рассматривать класс ограниченных кусочно непрерывных функций, заданных на ограниченном подмножестве (поле зрения) X плоскости ΊΖ2 и принимающих числовые значения.
1.3. Форма изображения как оператор проецирования 41 Определение 1.3. Функция /(·), заданная на ограниченном подмножестве X плоскости 7£2, называется кусочно непрерывной, если область ее определения X с ΊΖ2 может быть представлена в виде раз- N биения X — (J Аг на конечное число непересекающихся подмножеств г=\ А\,... ,An, Ai Π Aj = 0, г, j — 1,..., ЛГ, г Φ j, на каждом из которых функция /(·) непрерывна и ограничена. Класс таких функций обозначен С(Х). Этот класс является линейным нормированным пространством с нормой, определяемой для /(·) G С(Х) равенством Н/Нс = sup |/(x)[. (1.15) хех Если метрика (т.е. расстояние между двумя элементами) в пространстве С(Х) задана соотношением (1.14), то проекция gv на множество V Ε С определяется решением задачи наилучшего приближения: p(gv,g) = ini{p(f,g)\f€V}. (1.16) Расстояние между элементами пространства С(Х) является функцией выпуклой, но не строго выпуклой, поэтому решение задачи наилучшего приближения может быть не единственным. Если изображения заданы в конечном числе η точек поля зрения X (например, в узлах прямоугольной сетки), то рассуждения о непрерывности функции теряют смысл. В этом случае любое изображение / естественно задавать набором их яркостей / = (f(x\),... ,f(xn)) в заданных точках поля зрения {х\,... ,хп} с X и считать их элементами линейного нормированного пространства с нормой ||/||с= max \f{xi)\. г=\,...,п Линейное нормированное пространство как непрерывных (заданных всюду на X), так и дискретных (заданных в узлах сетки) изображений с нормой (1.15) будем обозначать символом С(Х). 1.3.4. Форма как линейное множество в пространстве С(Х). Рассмотрим форму изображения / е С(Х), заданную в виде множества N V ={</>(·) = ΣC*X*(·)' c*e(-oo,oo), г=1,...,Аг}, (1.17) г=1 и найдем проекцию #у изображения д е С(Х) на это множество в пространстве С(Х) как задачу наилучшего приближения изображения д
42 Гл. 1. Основные понятия морфологического анализа кусочно-постоянными изображениями: inf sup сге(-оо,оо), г=1 Ν Χ£χ N Х^Хг(я) -д{х) г=\ (1.18) Для того чтобы определить яркость проекции изображения д е С на V, достаточно на каждом множестве А^ г— 1,..., JV, решить задачу наилучшего приближения функции д(х), χ Ε А^ константой q. Эта задача является задачей на минимакс: sup{|ai-0(s)|}= inf sup {\a - д{х)\}. (1.19) хеЛг СгЕ(-сю,сю) хеЛг Для решения задачи следует вычислить наибольшую ~дг и наименьшую #. точные грани функций #*(·) на множестве Αχ и выбрать ^ = (Л+£-)/2, где sup g(x), хеЛг 9< inf g(x). хеЛг В качестве проекции элемента д на множество V в С(Х) выберем функцию N г=\ (1.20) а точность аппроксимации функции д кусочно постоянной функцией Pvg равна hv(g) = max (дг - д)/2. г=\ N —ь Подчеркнем, что решение задачи (1.18), вообще говоря, не единственно. Действительно, на рис. 1.4 приведены два варианта решения задачи наилучшего приближения заданной функции функциями, принимающими значения, равные константе на каждом из трех заданных интервалах. Наибольшая погрешность аппроксимации, равная δ, определяется поведением функции на первом интервале, значения наилучшего приближения на втором и третьем интервалах могут меняться так, чтобы максимальное отличие заданной функции от ее приближения на этих интервалах не превосходило δ. Рис. 1.4. Два различных кусочно- постоянных приближения функции имеют одну и ту же точность
ί.4. Форма фрагмен а изображения 3 № Получении * здесь вариант Pvg роении и д на множество V определяет в качестве на илу шего приближения д эле ментами V такую кусочно постоянную функцию, которая обеспечивает аилучшее приближение функции д константой Ci на каждом множес ве Ait i= 1 Ν, см. рис. L5. Погрешность э ого приближения равна hVi(g) = (^ — д.)/2, а пол ая по решностъ приближения элемента д элементами множества V равна hv(ff) = i=IiaXjVnv.i(ff)- Построенный та им образом элемент vg для каждой функции д G С(Х) единстве 1ен. Будем считать, что соотношение (1.20) о ι еде- ляет оператор Ρν, действующий из С(Х) в V С С(Х). Этот о ератор будем называ ь опера о ом π оецирования на л ножество V. Рис. 1.5. Кусочно-постоя ое приближение функц и, аилу ч шее на каждом из трех и .те валов 1.4, Форма фрагмента зображен я 1.4Л. Модель изображения объекта на произвольном фоне и е о форм # Рассмотрим более сложную ситуацию, когда заданный объект рассматривается на произволь ом фоне. Например, на рис. 1.6 имеется фрагмен -, изображающий кубик, а также неоднородны" фо . Узна ь кубик на сложном фоне позволяют характерные особен ости его изображения: наличие соо ветствующих τ ем г аням кубика рех облаете" яркост каждо з котор χ pa на онстанте зображе ие (непрозрачного) кубика на некото ом фоне зададим в следующем виде: з f{x) = Y^ciXi(x) + φ{χ)χι{χ). (1 21) i-l Рис 1 6 Фо ма изображен я на φο з ольном фоне
44 Гл. 1. Основные понятия морфологического анализа Здесь χι,...,Χ4 — индикаторы множеств А\, Ач, Аз, изображенных на рис. 1.6 справа, и множества А± — Х\ (А\ U A<i U Аз). Множество всех изображений кубика получится из (1.21), если допустить, что яркости сь г — 1,2,3, могут принимать любые числовые значения, а яркость фона </?(·)%4(·) — произвольная функция из С. Считая, что яркости с\, С2, сз могут принимать априори произвольные значения, получим определение формы фрагмента изображения кубика на неоднородном фоне: з Vc = \9 = Σ°*Χ*(·) + <Ρ(·)Χ4(·)' <Ч€ (-οο,οο), г =1,2,3, φ(·) G £J. 2=1 В общем случае пусть известна область Η поля зрения X, на которой находится фрагмент изображения заданного (непрозрачного) объекта /хя; Хя(*) — индикаторная функция подмножества Н. Дополнение Х\Н области Η до всего поля зрения занимает фон, распределение яркости фона на множестве Х\Н неизвестно и может быть произвольным; xXSH(·) — индикаторная функция множества Х\Н. Пусть задан класс F преобразований яркости, моделирующих изменение условий регистрации, тогда формой фрагмента изображения / на подмножестве Η называется множество V? = {heC, h = Fo (/хя(·)) + Ψ · хх\н(·), F e F/я, φ e cV (1.22) где введены обозначения /· χΗ (χ) = f(x) -χΗ{χ), φ·χχ\Η{χ) = φ {χ) x χ χχ\η{χ)> χ £ Χ. Иными словами, форма фрагмента изображения определяется как множество изображений, форма фрагмента которого на Η определена изображением /хя, а форма на дополнении Х\Н к Η (форма фона) произвольна. Множество изображений Vf можно интерпретировать как форму изображения известного объекта на произвольном фоне. Заметим, однако, что в ряде случаев удобно интерпретировать Η как подмножество поля зрения X, задающее фон известной формы, на котором расположен неизвестный объект, занимающий оставшуюся часть Х\Н поля зрения X. В этом случае Vf является формой изображения известного фона, на котором помещен неизвестный объект. 1.4.2. Форма деформированного фрагмента изображения. Рассмотрим ряд изображений, приведенных на рис. 1.7. На каждом из них можно заметить изображение кубика на неоднородном фоне, однако, в отличие от предыдущего случая, фрагмент, изображающий кубик, перемещается по полю зрения. Учтем возможность деформации фрагмента, изображающего кубик, например, его сдвиги по полю зрения, повороты, нелиней-
ΊΑ. Форма фрагмента изображения 45 Риг 1.7. Ρ з-гмчн te похоже ж η вижног фрагмен тбраже и, на фоне про звольной формы ные преобразования масштаба t т. п. Для этого рассмотрим область Я = A! U ^2 U Λζ С X. Aj ПА, = 0, t ^ j, г J = 1,2,3, и его инди- ка орную функцию Хн() = Χι(0 + Хг(0 + ХзО)- Обозначим символом 7г(0 преобразование плоскости Τ?,2, оставляющее Я в пределах поля зрения Χ: ^χ{χ) Ε X для всех χ £ Н\ здесь 2 — параметр деформации. Область Ηζ = 7г(^)' полученная из Я деформацией с параметром г, имеет индикаторную функцию χΎτ( jta;el. Множество всех таких деформаций обозначим символом Г (Я). Пусть φ(χ)Ί χ G X, — изображен е фона и з — некото ое зображе ие (непрозрачного) кубика а задан ом фоне \ зоб ажение, полученное из / npol· зво ьн м изменением яркости областей Л], Лг· А$> их де ормац ей (движением) и π оизвольным изменением она, запишем в виде з (&?*&&&№·) Жх) = Σ^Χί(7^(χ)) + Ψ(χ)[1 - ХИ(ъ(хШ х € х Здесь Xj(7z(0) ~~ индикатор множества Az^t полученно о рз Aj деформацией 7г е Г(Я) поля зрения» j = 1,2,3; z = |J Л^ Х*ч„ — j=JA3 индикатор фона изображения, содержащем φ агмент, отоб ажаю и и кубик, деформированный преобразованием ηζ 6 Т(Н). Введем множество преобразований д{н) = {дъ,сисгхз.Ф* ъ е Г(Я)Т Cj e (-οο,οο), j = 1,2,3, ψ е с\ исходного изображения, моделирующих всевозможные изменения уело вий его регистраци .. Формой подвижного фрагмента изображения кубика в этом случае назовем множество изображений, полученных всевозможными деформациями Те £ Г(Я) φ агмента Я на поле зре-
46 Гл. 1. Основные понятия морфологического анализа ния X, произвольными изменениями яркостей областей А\, А^, А$ и произвольным изменением изображения фона: У(Я,Г(Я)) = j^.cbCa.cs.V ° / е С> ^.c,,c2,c3)V € £(#)}· В общем случае, когда изображение / G С не является мозаичным и задано в виде f(x) = ся(х)%я(х) + сххя(х)%ххя(х), x G X, где сн{х)хн{х), х е X, изображает объект, а сх^н(х)\х^н(х), χ е X, — фон, преобразование изображения /, моделирующее изменение условий его регистрации и движение объекта по произвольному фону, зададим в виде (9lz,FM-) ° Л(χ) = (F ° ся) WXh (ж) + ф{х){1 - Хн Ы*))), х^Х, где ηζ е Г(Я), F e F, F — класс преобразований яркости, моделирующих изменение условий регистрации; ψ(-) G С — изображение произвольного фона. Класс преобразований изображения /, моделирующих изменения условий регистрации, обозначим 0(Я) = {07,.f.*. 7*еГ(Я), FeF, феС}. Тогда форма изображения, содержащего подвижный фрагмент заданной формы, определится как множество УС(Я,Г(Я)) = {9ίζ,γ,φ of еС, д1жм G £(#)}. (1.23) _ Аналогично предыдущему пункту, множество изображений УС(Я,Г(Я)) можно интерпретировать как форму изображения подвижного известного объекта на произвольном фоне, или как форму изображения известного фона, на котором помещен неизвестный подвижный объект. 1.5. Примеры форм изображений 1.5.1. Форма кусочно гладкого изображения. На практике объекты сцены не всегда являются однородно освещенными многогранниками с оптически однородными гранями, но тем не менее, рассматривая изображение сцены, как правило, можно выделить области поля зрения, соответствующие разным объектам или их частям; яркость изображения на каждой такой области является достаточно гладкой функцией и, как правило, терпит разрыв при переходе через границы областей. Распределение яркостей на этих областях может меняться в зависимости от освещения, изменения чувствительности регистрирующей системы и т.п., однако области остаются неизменными при заданном взаимном расположении сцены и системы регистрации изображения.
1.5. Примеры форм изображений 47 Запишем математическую модель такого изображения в виде N f{x) = ^Ci{x)Xi{x), X G X С Ίΐ\ г=\ где Хг(·) — индикаторные функции множеств Aiy составляющих разбиение поля зрения X, а функции сД·) дифференцируемы некоторое число раз на соответствующих множествах Аи г= l,...,iV. (Если рассматривать изображение /(·) как элемент пространства £2(Х), то Сг(-) эквивалентны дифференцируемым на Αχ функциям, г — l,...,iV, т.е. могут отличаться от них не более, чем на множестве μ-меры нуль.) Такие изображения будем называть мозаичными. Заметим, что частный случай мозаичных изображений, в которых с%{х) = const, г = 1,..., Ν, был рассмотрен выше, в п. 1.2. Однако столь неопределенные модели мозаичных изображений достаточно трудно использовать на практике. Рассмотрим более простую модель, приблизив функции а(·) на Αι, например, полиномами, г — 1,..., N. Для полиномов степени не выше единицы получим кусочно линейные изображения вида N /(я) = Σ(«< + (Ьих- x0,ih)Xi{x), х е X С ?г2, (1.24) г=1 где at — числа, 6г-,#о,г G 7£2 — векторы плоскости 7£2, г = 1,...,Л/\ (χι,Χ2)2 — скалярное произведение элементов х\ и Х2 плоскости ΊΖ2\ вектор хо,г плоскости ΊΖ2 выбран как «центр тяжести» множества Аг с X, задаваемого индикаторной функцией Хг(-): χ-χί(χ)μ(άχ) _ χ χί(χ)μ(άχ) χ тогда число a* G ΊΖ1 равно средней яркости изображения /(·) на множестве Аг, а вектор Ьг равен градиенту яркости изображения /(·) на множестве Aiy i = I,... ,Ν. Форму Vlf кусочно линейного изображения получим как множество в £2 (X) функций вида (1.24), где числа a* G ΊΖ1 и векторы bi G II2, г = 1,... ,ЛГ, произвольны, а индикаторные функции χί(·), г— 1,..., Ν, заданы. Запишем решение задачи наилучшего приближения любого заданного изображения д G £2μ(Χ) мозаичным изображением вида (1.24),
48 Гл. 1. Основные понятия морфологического анализа для чего приравняем нулю производные от квадрата нормы их разности: Φ(αι, ...,алг,Ьь...,Ьлг) = \д(х) -]^(а» + (Ь»,ж - хо,г)2)Хг{х)) μ{άχ), по переменным at e К1 и 6* е Έ2, г= 1,...,JV, и получим систему линейных уравнений (а* + (6»,χ-χο,»)2 ~ 9{χ))μ{άχ) = 0, г = 1 i\T; χ (α» Η- (6г,х - жо.Ог - #(#))(# _ χο,ί)μ(άχ) = 0, г = 1,... ,-ЛГ. χ Решая ее, найдем Д,# = Σ^ + (Ь*« Х ~ х0,г)2)Хг(я), г=1 где 2* = /#(ζ)·χ*(ζ)μ(^) X /χ^(χ)μ(ώ) χ )(ж - xo,i)Xi{x)μ{άχ), г= 1,...,АГ, χ а оператор A G (7£2 —> 7£2) определен для любого у £ΊΖ2 равенством А2/= (у,х-хоД(я-яо,ОхДя)д(сЬ), г = 1,..., TV. X Дадим геометрическую интерпретацию формы мозаичного изображения (1.24). Пусть {еьег} С ΊΖ2 — ортонормированный базис на плоскости ΊΖ2. Представим вектор χ е 1Z2 в виде разложения по этому базису: χ = (x,ei)2ei -На; = {х.еъ)^. Запишем яркость сД·) изображения /(·) на подмножестве Αϊ Ci(x)xi(x) = (α» -Η (6»,ж - xo,ih)Xi{x) = = (a» - (Ьг,Я0,г)2)Хг(я) + -Η (б»,ei)2((x,e\)2Xi(x)) -H (6»,е2)г((ж,е2)2Хг(я)) = 2 fc=0
.5. Примеры форм изображений 49 где qo = аг- (bi,хо.гЬ· <к>к = (Ь».е*)2. = 1 JV, ft - L2. Это означает, что яркост Cj е £*(ЛГ) на множес ве Л; являе ся линейной комбинацией трех элементов dijt(*) € £^(A),fc = 0,1,2, таких что rf*jo(·) = Xi[·)* <*Ы0 = (е*. OatoO· fe = 1 2, ΐ = 1 ЛГ. Следовательно, форма ^усоч о ли ейно о зоб аже и ваяется линейным подпространством €μ(Χ) размерности 3JV. Э о подпространство состой из всех линейных комбинации элементов {dijt} С £?μ{Χ), к = О, 1,2, г = 1 JV. Ортогональный проектор на него равен lf = QlfQZf ^ е (£?Л*) -* £2iW)· гда л нейн и огтеРа °р Q f e (^ — CUX)) для любого вектора с= (с^с^ьс^огдь-->c/v,2) € 7£3;v определен равенством *=l fc=0 Заметим, что если на плоскости Ή? задана декартова система координат, о dimo{x[1x2) = Xi(x ,лъ). <кк(х{ ^г) - здх^жьжа), а? = (хьаъ) е Я2, и ма ри а оператора QL состоит з ZN сто бцов 4л,*=1 JV,* = 0,1,2. Кусочно линейная форма (1.24) может использоваться как приближение формы ι30 ражения редметов из достаточно ши око го класса. Для примера на рис. 1.8 приведено t3o6pa *ение конусов ι е о ап рок- сима ifi кусочно линей ым 13ображением. Рис. 1.8. Изображение конусов (слева) его кусо шо линейная аппроксимация (справа) Рис. I 9 Исходное изобра- е ие бъе та (я), его усоч о линейная ап рокси- мация с помощ ю *азб et ^я юл зре jhh н 27 множеств (б)
50 Гл. 1. Основные понятия морфологического анализа На рис. 1.9 приведено изображение более сложного объекта (а) и его кусочно линейной аппроксимации путем разбиения поля зрения на 27 подмножеств (б). Видно, что уже при небольшом числе множеств кусочно линейная аппроксимация дает достаточно подробное представление об изображаемом объекте. 1.5.2. Форма размытого изображения. Рассмотрим ситуацию, в которой неконтролируемыми являются параметры, определяющие разрешающую способность системы формирования изображений. Пусть изображение объекта заданной формы строится с помощью некоторой неидеальной видеосистемы (например, объект имеет микроскопические размеры, сравнимые с размером пучка в сканирующем электронном микроскопе, [16]). В результате получается некоторое размытое изображение. Задача состоит в том, чтобы путем анализа заданного размытого изображения обнаружить объект известной геометрической формы и/или оценить его положение на поле зрения. Подобные случаи встречаются, например, в электронной литографии, когда требуется определить положение меток совмещения, нанесенных на кремневую подложку и покрытых слоем резиста. Построим математическую модель регистрируемого изображения и модель его преобразований, обусловленных изменением условий регистрации. В данном случае под различными условиями регистрации понимаются варианты размытия изображения видеосистемой, задаваемые различными функциями размытия точки. Пусть, например, наблюдаемое изображение д G €2μ(Χ) можно представить как «идеальное» изображение объекта, искаженное линейным преобразованием: д(х) = a(x,x')f(x') μ(άχ'), χ G Χ(τη.οάμ). Χ' Здесь д(х) — яркость регистрируемого изображения в точке χ поля зрения X, /(·) — идеальное изображение, заданное на подмножестве X' С X плоскости ΊΖ2 — на поле зрения идеального изображения; под идеальным понимается такое изображение, которое получилось бы на выходе идеальной неискажающей системы формирования изображений. Функция а(·,·): Х($$Х —> К1, называемая аппаратной функцией системы, формирующей изображение, описывает размытие идеального изображения системой; ее значение а(х,х') определяет «вклад», вносимый яркостью точки х' идеального изображения в яркость точки χ регистрируемого изображения. Будем считать, что аппаратная функция равна нулю, если \\х — х'\\2 > R, где параметр R определяется разрешающей способностью системы. Уточним модель размытия. Разобьем отрезок [0, Я] на т отрезков точками 0 = ζο < ζ\ < ... < zm = R, и будем считать, что аппаратная
1.5. Примеры форм изображений 51 функция а(·,·) принимает значение, равное константе а*, в кольце с центром в точке х, внутренним радиусом z%-\ и внешним z%\ т α(χ,χ') = y^aiXi{x'\x), 1=1 где Хг{'\х) — индикаторная функция г-го кольца с центром в точке х, г— 1,... ,т. Тогда регистрируемое изображение д е £2μ(Χ) представимо в виде Я = £агА/е£2(Х), г=1 где линейные операторы Di е (£2μ(Ω) —> £2μ(Χ)), г = l,...,m, определены равенствами Df(x) = χί(χ'\χ)/(χ')μ(άχ'), χ G X (modμ). Ω для любого изображения /(·) е £μ(Ω)· Будем считать, что идеальное (неразмытое) изображение /(·) задано, а коэффициенты аг, г = 1,... ,т, неизвестны. Тогда все возможные изображения данного объекта, образуют множество т V = lg = ^2aiDtf, аге (-00,00), г=1,...,т|, (1.25) г=1 где Dif е £^(Х) — заданные функции. Множество V представляет собой линейное подпространство в £}μ (Χ) размерности т, состоящее из всех линейных комбинаций элементов {Dif, г = 1,...,т} С £μ(Χ). Оно является формой размытого изображения. Оператор проецирования на множество V является линейным ортогональным проектором на V С £μ (Χ) и может быть построен точно так же, как в предыдущих пунктах. Задача определения положения метки, наносимой на кремниевую пластину для точного ее позиционирования в процессе изготовления микросхем, рассмотрена во введении, см. рис. В.9. 1.5.3. Форма контурного изображения. До сих пор рассматривалась форма как множество изображений объекта, полученных при различных условиях наблюдения. При этом считалось, что условия наблюдения влияют только на яркость изображения и никак не влияют на геометрическую форму областей поля зрения, моделирующих оптически однородные грани объекта, или на их взаимное расположение. С другой стороны, форма рассматривалась как множество изображений, образованных из некоторого наиболее «подробного» изображения путем эквивалентных или упрощающих его форму преобразований.
52 Гл. 1. Основные понятия морфологического анализа Распространяя этот подход на изображения, полученные при различных взаимных расположениях изображаемых объектов и видеодатчиков, следует считать эквивалентными по форме изображения, которые получены одно из другого сдвигом, поворотом, масштабным преобразованием и т.п. Это предложение было использовано в п. 1.4.2 при рассмотрении формы подвижного фрагмента изображения. В более общем случае форму изображения объекта можно рассматривать как множество его изображений, получаемых при всевозможных условиях освещения, параметрах видеоаппаратуры, взаимных расположениях объекта и видеокамеры. В этом случае в задаче наилучшего приближения приходится учитывать всевозможные ракурсы объекта, масштабы и т.п., что делает вычисление проекции достаточно громоздким. Существенно упростить ситуацию можно, воспользовавшись описанием изображений в терминах инвариантов, сохраняющихся при всевозможных изменениях ракурса, масштаба, сдвига и т. п. В этом пункте рассмотрим специальный класс контурных изображений, моделирующих рукописные символы, графики и т.п., и построим методы их анализа, инвариантные относительно аффинных преобразований плоскости, на которой рассматриваются контуры. Для этого выделим на поле зрения множество точек </?, принадлежащих некоторой кусочно гладкой кривой (контуру). Контурным изображением будем называть бинарную функцию двух переменных на плоскости К2: ( 1, если χ принадлежит контуру φ, f(x) = < _ [ 0, если хне принадлежит контуру φ. Будем считать, что контуры настолько гладкие, что информацию об их геометрической форме можно представить, расположив на нем достаточно много точек. Таким образом, зададим изображение контура φ как упорядоченный набор точек Хг, г = 1,...,п, плоскости К2, система координат которой выбрана так, чтобы каждая точка Хг контура φ, задавалась парой чисел {щ,ь)г). Рассмотрим координатное пространство ΊΖ2η точек φ— (u\,w\,... ,un,wn) и группу G преобразований пространства К2п, таких, что φ* = #(</?) — новое положение контура φ на плоскости ΊΖ2 при д G G. Будем считать, что контуры φ и φ эквивалентны по форме, если найдется такое преобразование д е G, что φ = д(ф). Сформулируем критерий эквивалентности контуров по форме для группы G, состоящей из элементов д, получаемых путем аффинных преобразований каждой точки Хг е К2, г = 1,... ,п, контура φ. Обозначим х=(и), x*=(U\), а=(аЛ, А=(а" °21У
1.5. Примеры форм изображений 53 причем det А φ О, и рассмотрим аффинное преобразование д2 точки χ е К2\ х* = д2х = Ах + a. Преобразование д е G получается применением аффинного преобразования #2 к каждой точке а^, г = 1,...,п, контура </? G 7£2п, и значит, определяется шестью параметрами. Заметим, что любые три точки поля зрения, не лежащие на одной прямой, под действием преобразования д могут быть переведены в любые три точки, также не лежащие на одной прямой. Если J — векторный инвариант группы G, отличный от константы, т.е. функция 2к аргументов, такая, что для любого аффинного преобразования плоскости #2 J(u\,w\,...,uk,wk) = J{g2{u\,w\),...,g2{uk,wk)), то к должно быть не меньше 4. Для общей аффинной^группы η точкам плоскости V2 соответствует 2п — 6 инвариантов Ja, Ja, a = 1,... ,η - 3: где Δα = det ( ξα+2 ξα+1 V Δα = det ( ξα+2 ξα ^ a ξα = ϋα — ιχα+ι, ηα — ^α — wa+i. Каждый инвариант, Ja и Ja, зависит от координат четырех точек контура </? и, по определению, численно не меняется при аффинных преобразованиях поля зрения. Таким образом, набор инвариантов определяет описание контурного изображения, не зависящее от указанных преобразований поля зрения. Итак, контуры φ njp эквивалентны по форме тогда и только тогда, когда 3α(φ) — Ja (<£>), Ja(ip) = </«(<?), а = 1,... ,га — 3. Множество контуров, эквивалентных по форме, могут быть получены из некоторого заданного представителя путем применения всех аффинных преобразований плоскости К2, на котором рассматриваются контуры. Геометрически этому множеству соответствует одна-единственная точка в К2п~6. Проектор на это одноточечное множество тривиален — любая проекция на него является точкой этого множества, а его сходство по форме с другим контуром будем определять евклидовым расстоянием в К2п~6 между векторами, координатами которых служат соответствующие наборы инвариантов. 1.5.4. Форма изображения ламбертова объекта. Выше были рассмотрены примеры моделей формирования изображения объекта, когда благодаря предположениям о геометрических и оптических свой-
54 Гл. 1. Основные понятия морфологического анализа ствах объекта удается построить форму его изображения как конечномерное линейное подпространство в пространстве всех изображений. Для более сложных объектов можно предложить аппроксимацию их изображений кусочно постоянными функциями, что соответствовало бы аппроксимации объектов многогранниками, однако на практике такой подход может привести к существенному увеличению размерности множества возможных изображений объекта (размерности формы). В то же время существует целый класс объектов, учет оптических свойств которых позволяет существенно снизить размерность множества формируемых ими изображений — это так называемые лам- бертовы объекты. При регистрации изображения какой- либо реальной сцены, как правило, используют следующую схему: на поверхность объектов сцены падает свет от одного или нескольких источников света. Отраженный от объектов сцены свет попадает в фотоприемное устройство, которое и формирует изображение сцены, рис. 1.10. Сигнал датчика определяется энергией излучения, падающего на датчик в единицу времени. Для количественной характеристики световой энергии в фотометрии используется понятие светового потока, определяемого как энергия излучения, распространяющегося в заданном направлении внутри некоторого телесного угла, содержащего это направление, через некоторый элемент поверхности в единицу времени [17]. Для датчика фотоприемного устройства интерес представляет световой поток через поверхность датчика в направлении е от элемента σ поверхности объекта, расположенного в точке г. Световой поток аФе(е ,dQe,D) от элементарной площадки σ поверхности объекта в направлении е в телесный угол dfle, содержащий датчик площади D, создается за счет отраженной поверхностью объекта световой энергии, падающей от источника света, направление на который из точки г дает вектор s. Пусть этот источник является точечным и имеет силу света /, тогда световой поток в телесном углу dfls, падающий на площадку σ площади 5, равен Рис. 1.10. Ход лучей при формировании изображения d&8(Z%dSla%S) = IS cos ϋ ~Ύ2 ' (1.27)
1.5. Примеры форм изображений 55 Будем считать, что расстояние I от источника до объекта много больше характерных размеров изображаемой сцены, нет затенений поверхности объектов и отсутствует подсветка площадки σ излучением, отраженным от соседних участков поверхности объектов, так что световой поток, падающий на σ, определяется только косинусом угла ϋ между вектором s и нормалью га к поверхности в точке г, см. рис. 1.10. Отраженный площадкой σ световой поток определяется падающим световым потоком и отражающими свойствами поверхности: аФе(е, аПе, D) = к(7, п(7), 7) <2Ф5(7, dil8tS)t (1.28) где k(s,n(r), e) — коэффициент отражения [17]. Таким образом, в указанных условиях, в которых справедливы (1.27) и (1.28), выходной сигнал Е(7,п(7),7) датчика, формирующего изображение площадки σ,расположенной в точке г, запишется в виде _^_^_^_^ _^_^_^_^ Е(7,п(7),7) = ко(7 ,п(7),7) S cosu, где ko(s,n,e) определяется геометрическими факторами и отражательными свойствами поверхности объекта. Величину E(s ,п(г), е) назовем видимой яркостью точки г поверхности объекта. Она и определяет яркость в соответствующей точке изображения сцены. Заметим, что в общем случае для определения видимой яркости поверхности объекта в точке г, наблюдаемой с направления е, необходимо учитывать взаимное расположение векторов га, е и s. Однако существует класс объектов, оптические свойства которых таковы, что видимая яркость их поверхности не зависит от направления наблюдения. Далее будем рассматривать класс так называемых ламбертовых объектов. Определение 1.4. Объект называется ламбертовым в точке г, если видимая яркость Е(7, п(7),7) его поверхности в этой точке не зависит от направления наблюдения при любом характере освещения: Е{7,7(7),7) = Е{7,7(7)). Определение 1.5. Объект называется ламбертовым, если он лам- бертов в каждой точке. Таким образом, учет свойства ламбертовости объекта при вычислении яркости в точке требует от нас знание величины только косинуса угла ϋ между векторами η и s, так как этот угол определяет энергию, падающую на площадку σ на поверхности объекта. Заметим, что если при регистрации изображения ламбертова объекта измеряется не само распределение видимой яркости E(s,n(r)) его поверхности, а некоторое его преобразование f(E(s, га (г))), то ламбертово свойство
56 Гл. 1. Основные понятия морфологического анализа объекта сохраняется. Действительно, поскольку яркость E(s, га(г)) в каждой точке объекта не зависит от направления наблюдения е, то и величина f(E(s,n(r))) также не зависит от е в каждой точке, и объект остается ламбертовым, если его описывать в терминах преобразованных значений яркостей f(E(s,n(r))). Отметим важное свойство ламбертова объекта, позволяющее построить форму его изображения. Для этого обозначим 5 = Js/||s||, назовем вектор 5 световым вектором точечного источника с силой света I и зададимся вопросом: можно ли при вычислении видимой яркости поверхности объекта в точке г взять в качестве светового вектора 5 суперпозицию световых векторов падающих в точку г излучений? Вообще говоря, нет. В качестве примера рассмотрим сцену с зеркальной поверхностью и двумя точечными источниками освещения, излучения от которых падают в точку А под углами а\ и с*2, см. рис. 1.11. При вычислении яркости поверхности в точке А мы должны учитывать, что интенсивность светового излучения от элемента поверхности в точке А будет распространяться только в направ- Рис. 1.11. Отражение от зер- лениях, определяемых углами отраже- кальной поверхности шя β{ и ^ связаНных с углами падения а\ и OL^ соотношениями щ = Д, г = 1,2. Если при вычислении видимой яркости поверхности в точке А в качестве вектора направления падающего излучения взять суперпозицию векторов S\ и 5г, задающих падающие на поверхность объекта в точке А излучения от источников S\ и 5г соответственно, то для зеркальной поверхности следовало бы ожидать отраженное излучение в направлении, указанном на рис. 1.11 пунктиром. Однако, как уже отмечено, для зеркальной поверхности в этом направлении отражение отсутствует. В случае же ламбертова объекта яркость поверхности в точке г е S равна £7(5,η(?)) = α(7)(η(7),5) (1.29) и не зависит от е. Поскольку выражение (1.29) линейно по 5 G Έ?, то вектор S может представлять собой суперпозицию падающих в точку г излучений: £7(5, п{7)) = Ех(5, п(7)) + ... + EN(S, n{7)) = = £(51+... + 5лг,п(7)),
1.5. Примеры форм изображений 57 где 5ι,..·,5τν — векторы, задающие направления, из которых падает свет. Иначе говоря, если ламбертов объект освещен с нескольких направлений (или даже диффузно), яркость в каждой его точке определяется суммой световых векторов всех световых потоков, освещающих объект: S = S\+ ··· + Stv, в то время как для определения суммарной яркости в общем (неламбертовом) случае необходимо знать все световые векторы 5ι,···,5τν и направление наблюдения. Примером ламбертова объекта является теннисный мяч, его поверхность диффузно рассеивает падающий на него свет. Металлический и стеклянный шары не являются ламбертовыми, что хорошо видно на рис. 1.12 (см. цветную вклейку), — эти объекты дают блики на своих изображениях, что свидетельствует о наличии зеркального отражения от их поверхностей. Вообще говоря, поскольку информация об изучаемом объекте извлекается только из его изображения, то следует наложить ограничения на освещение объекта, считая его пространственно однородным; в противном случае изучение объекта по его изображению может стать невозможным. Действительно, если белый экран осветить потоком света из видеопроектора, то можно создать иллюзию присутствия любого объекта. В этой ситуации изображение несет информацию не об объекте (плоскости экрана), а о свойствах освещения. Далее ограничимся пространственно-однородными освещениями, при которых векторы ~s не зависят от точки г е S, и, в частности, поверхностями S, не допускающими самозатенения. Рассмотрим более подробно структуру множества изображений ламбертова объекта, созданных при различных условиях освещения. Пусть X — поле зрения на плоскости 7£2, /(·) G £}μ(X) — изображение ламбертова объекта, поверхность S которого задана уравнением S(r) = 0 и имеет заданное распределение видимой яркости E(S, ™(0)> (1-29). Пусть 5i, 5г> 5з — линейно независимые световые векторы, так называемые базовые освещения S. Тогда £7<(5,η(7)) = α(7)(η(7),5<). г = 1,2,3, (1.30) суть базовые видимые яркости точек поверхности S, отвечающие излучениям Si, 5г> 5з· Им соответствуют базовые изображения объекта fi(x)% хе X, г = 1,2,3, на поле зрения X. Пусть на объект падает излучение с суммарным световым вектором 5; представим его в виде линейной комбинации световых векторов базовых излучений Si, S2. 5з' S = aiS\ +a2S2 + azS3. (1.31)
58 Гл. 1. Основные понятия морфологического анализа Тогда в силу ламбертовости объекта линейной комбинации базовых световых векторов (1.31) соответствует линейная комбинация базовых изображений с теми же коэффициентами: f(x) = a\f\(x) +a2f2(x) +аз/з(я), χ Ε X, а*Е(-оо,оо), г =1,2,3. (1.32) Естественно выбрать базовые освещения так, чтобы изображения /Д·), г = 1,2,3, были линейно независимыми в линейном пространстве всех изображений. Таким образом, множество изображений ламбертова объекта (т. е. форма изображения ламбертова объекта) целиком содержится в трехмерном подпространстве линейного пространства изображений. Заметим, что в (1.32) не все числовые коэффициенты физически реализуемы, поэтому, вообще говоря, форма изображения ламбертова объекта не совпадает с линейным подпространством, натянутым на базовые изображения /ΐ(·). * = 1,2,3. Поэтому это линейное подпространство назовем формой в широком смысле изображения ламбертова объекта, [81]: Vl = |/(ж) = aifi(x) + a2f2(x) + аг/г(х), х€Х, di Ε (—οο,οο), г = 1,2, 3 >. Для построения оператора Pl ортогонального проецирования на форму Vl будем считать изображения элементами евклидова пространства £2μ (X) и найдем решение задачи наилучшего приближения изображения g е £2μ(Χ) элементами множества Vl С £2μ(Χ): \\g-PLg\\2 = mi{\\g-f\\2 \feVL}. (1.33) Для решения этой задачи воспользуемся формулой (1.32), задающей общий вид элемента / G Vl; запишем минимизируемый функционал 3 2 \\9-^2сгЩ i=l и приравняем нулю его производные по q, г = 1,2,3. В результате получим систему трех линейных уравнений с тремя неизвестными: з Σ(Λ·^)^ = ^^)· J" = 1.2,3. (1-34) г=\ В силу линейной независимости изображений fit матрица Qij = (fi*fj)> г,j = 1,2,3, обратима, и система уравнений (1.34) имеет единственное решение с*. Для записи решения задачи (1.33) можно воспользоваться оператором, псевдообратным к линейному
1.5. Примеры форм изображений 59 оператору А : (R? —► £2μ(Χ)), действующему на любой трехмерный вектор с = (сьС2,сз) Ε Έ? по формуле з г=1 см. приложение, п. А.2.4. В этой ситуации Vl — пространство значений оператора Л, и проектор на 7£(Л) = Vl, согласно п. А.2.4 приложения, равен АА~ е С^(Х) —> £^(Х). Здесь Л~ — оператор, псевдообратный А. Итак, ортогональный проектор на Vl определен соотношением з г=\ где ci, г = 1,2,3, — решение системы (1.34), либо эквивалентным ему соотношением PLg = AA-g. (1.35) Представим теперь, что нам предъявлены несколько изображений одного объекта, полученных с некоторой точностью. Как узнать, что все изображения суть изображения ламбертова объекта? Математически задача сводится к поиску линейного подпространства минимальной размерности, содержащего все изображения данного объекта. Если его размерность не превосходит трех, то предъявленное множество изображений есть множество изображений ламбертова объекта. Однако если изображения получены с некоторой ошибкой, то определение размерности множества заданных изображений требует уточнения. Эта проблема рассматривается в параграфе 5.3 гл. 5, посвященной аппроксимации формы изображений. Здесь же рассмотрим эксперимент по вычислению размерности множества изображений объектов, представленных на рис. 1.13. Будем считать, что поле зрения X состоит из конечного числа η точек — узлов прямоугольной сетки, и изображения объектов формируются согласно схеме ξ = ί + ", (1.36) где ν — изображение белого шума, его яркость в любой точке поля зрения представляет собой случайную величину с нулевым математическим ожиданием и одной и той же дисперсией, и случайные величины ν[χ\) и ν(χ2) некоррелированы при х\ φ Х2, х\,Х2 € X· Пусть дан набор из L изображений {&, г = 1,...,L} теннисного мяча. Составим из них матрицу В е ΊΖη —> 1ZL размера L χ η, матричный элемент Bij которой является значением яркости j-ro узла сетки X для г-го
60 Гл. 1. Основные понятия морфологического анализа изображения & теннисного мяча: Bij = £i(xj), г— 1,... ,L, j = 1,..., п. Если бы наблюдения (1.36) ламбертова объекта проводились без погрешности, то у матрицы В имелось бы не более трех линейно независимых строк, а значит, матрица ВВ* е 1ZL —► 1ZL имела бы не более трех отличных от нуля собственных чисел. Поскольку регистрация изображения (1.36) сопровождается аддитивным шумом, то η η (ВВ*)гк = £>(*,■)&(*;) = Σ (Λ(^)Λ(^·)+ 3 = 1 3=1 + fi(xj)vk(xj) + Vi(xj)fk(xj) + Vi(xj)vk(xj)), i,k = 1.....L, т.е. матрица ВВ* является суммой матрицы Q e 1ZL —> 7£L с матрич- n ными элементами Qik = Σ fi(xj)fk{xj) ранга не выше трех и сим- метричной случайной матрицы G е 7£L —> 7£L с матричными элемента- п МИ Gifc = J] fi(Xj)vk(Xj) + Vi(Xj)fk{Xj) + Ui{Xj)yk{Xj), i,k = 1,...,L. Вычисляя математические ожидания и дисперсии матричных элементов случайной матрицы G, получим EG^ = Sika2L, E(Gik — EGik)2 = = 0(σ2), где — символ Кронеккера, г, к = 1,...,L, а 0(σ2) — функция, бесконечно малая того же порядка, что и σ2 при σ2 —► 0: lim 2 = const. σ2—>Ό σ При trQ ^> a2L реализация матрицы ВВ* может рассматриваться как возмущение матрицы G случайной матрицей Q, и в силу непрерывной зависимости собственных значений самосопряженной матрицы от возмущения [23], в спектре матрицы ВВ*, упорядоченном по невозрастанию, должны присутствовать собственные значения, величины которых, начиная с четвертого, заметно меньше трех ее первых собственных значений. Таким образом, вычислив собственные значения матрицы ВВ*, можно получить представления о том, согласуется или нет представление о ламбертовости объекта с результатом наблюдения его изображений. Методы вычисления эффективной размерности множества данных предложены в работе [83]; их применение к анализу множества изображений с целью оценки их ламбертовости изложены в работе [73]. На рис. 1.13 (см. цветную вклейку) приведены наборы изображений теннисного мяча, стеклянного и металлического шаров, а на рис. 1.14 приведены графики логарифмов собственных значений матриц, составленных из изображений каждого объекта. Видно, что для изображения теннисного мяча собственные значения сначала быстро убывают, ί 1, г = к, 1 0, г φ к,
1.5. Примеры форм изображений 61 1 23456789 Рис. 1.14. Логарифм собственного значения матрицы В В* £ 1ZL —> 1ZL в зависимости от номера собственного вектора для изображений теннисного мяча (а), металлического (б) и стеклянного шаров (в) а, начиная с четвертого, убывают практически линейно и очень медленно. Поэтому можно считать, что с хорошей точностью набор изображений на рис. 1.13, а, имеет ранг, равный трем. Для изображений металлического и стеклянного шаров собственные значения плавно убывают, что не позволяет считать эти объекты ламбертовыми. Как уже отмечалось выше, коэффициенты αϊ, α2, аз разложения суммарного светового вектора по базисным световым векторам могут принимать только неотрицательные значения. Если их рассматривать как координаты вектора из ΊΖ3, то они должны принадлежать некоторому подмножеству /С е Έ?, например, задаваемого соотношением /С = {(αι,α2,α3)|αι ^ 0, α2 ^ 0,аз ^ 0}. В более общем случае множество /С будем считать выпуклым замкнутым конусом в 7£3, см. приложение, п. А. 1.2. Если /С — выпуклый замкнутый конус в 7£3, то легко заметить, что и множество изображений f(x) = a\f\(x) + α2/2(χ) + аз/з(я), χ е Χ, (αι,α2,α3) G /С, тоже образует выпуклый замкнутый конус в £2μ(Χ). Этот конус Va: = {/(^) = a\fi(x) + α2/2(χ) + аз/з(я), х еХ, (αι,α2,α3) Ε /С} назовем формой изображения ламбертова объекта. Методы построения проекций на выпуклые замкнутые множества обсуждаются в приложении, п. А.З.
62 Гл. 1. Основные понятия морфологического анализа 1.5.5. Форма изображения произвольного объекта, освещаемого конечным числом источников света произвольной интенсивности. В действительности лишь немногие реальные тела рассеивают свет без значительных отклонений от закона Ламберта. Поэтому более реалистичной выглядит модель формирования изображения сцены, в которой оптические свойства поверхности объекта полагаются произвольными, однако накладываются условия на способ освещения объекта. Пусть, по-прежнему, яркость изображения /(·) в точке χ поля зрения X определяется потоком световой энергии АЕ из соответствующей элементарной площадки поверхности объекта, определяемым выражением (1.29). Будем считать, что яркость поверхности объекта I(r, e, s) является однородной функцией светового вектора излучения, падающего на поверхность: /(г, е , a s) = al( г , е , s), а ^ 0. Кроме того, известно, что объект может освещаться N удаленными некогерентными источниками света, каждый из которых дает однородный по пространству световой поток падающего на объект излучения с известным направлением светового вектора s^ и произвольной интенсивностью ai ^ 0, г — 1,..., N. Считая, что интенсивности световых потоков складываются (в силу некогерентности освещения), получим, ЧТ° N N г=\ г=\ и если fi G £2μ{Χ) — изображение объекта, освещенного г-м источником света единичной интенсивности, то при любом освещении, задаваемом интенсивностями а\,...,ам падающих на объект световых потоков от заданных источников света, изображение / Ε £2μ(Χ) на выходе линейной системы регистрации будет линейной комбинацией изображений fi e £2μ(Χ), г= 1,..., N. Заметим, что речь здесь идет об общем случае неламбертовых объектов. Это свойство для ламбертовых объектов также имеет место, однако для ламбертова объекта, как было сказано выше, замена всех источников света одним, световой вектор которого равен сумме световых векторов излучений всех источников света, не изменит изображение объекта. Этот вектор может быть разложен на три составляющие (базовые световые векторы); в результате некогерентности света результирующее изображение представимо в виде трех изображений, отвечающих базовому освещению. При освещении неламбертова объекта излучением со световым вектором, равным сумме световых векторов излучений всех источников, получается изображение, вообще
1.6. Решение задач морфологического анализа изображений 63 говоря, отличное от изображения объекта, освещаемого всеми источниками одновременно, однако оно равно сумме изображений объекта, освещенного каждым источником отдельно. Если источники освещения выбраны так, что изображения /»(·)» г = 1,..., Ν, линейно независимы, то множество изображений объекта, освещенного N заданными источниками света произвольной интенсивности, целиком содержится в АГ-мерном линейном подпространстве пространства £}μ[Х\ состоящем из всех линейных комбинаций изображений /г(-)> г= l,...,iV. Это линейное подпространство Vo назовем формой изображения объекта в широком смысле. Множество всех изображений объекта, освещаемого заданными источниками света, образует конус в £?μ(Χ): Ко = 1 £>г/г, аг > 0, г = 1,..., N 1 с £2μ(Χ). Этот конус назовем формой изображения объекта. Проектор на форму Vo в широком смысле строится аналогично тому, как был построен проектор на подпространство Vl в предыдущем пункте. Алгоритм построения проекции произвольного изображения g на конус Ко в €2μ(Χ) приведен в приложении, п. А.3.4. 1.6. Решение задач морфологического анализа изображений Приведем решение задач, сформулированных в параграфе 1.1, воспользовавшись проектором Р/ на форму изображений. 1.6.1. Узнавание объекта по форме его изображения. Пусть задана форма изображения некоторого объекта как выпуклое замкнутое множество V/ С С всех его изображений, Р/ — проектор на V/, и предъявляется некоторое изображение д. Требуется определить, является ли д изображением этого объекта, т. е. выяснить, выполнено ли включение д е V/. Это включение эквивалентно равенству Р/д = д: если оно выполнено, то можно подобрать условия регистрации, при которых объект породит изображение д\ если же нет, то в рамках принятой модели нет никаких оснований узнать в изображении д заданный объект. 1.6.2. Классификация объектов по форме их изображений. Пусть задан набор форм изображений К различных объектов в виде множеств 14, к = Ι,...,/f, каждое из которых представляет собой множество изображений к-ro объекта при всевозможных условиях
64 Гл. 1. Основные понятия морфологического анализа регистрации, им соответствуют проекторы Р^, к = \,...,К. Предъявляется изображение д одного из К объектов. Задача состоит в выборе того класса изображений, к которому принадлежит предъявленное изображение д\ для этого следует проверить равенство нулю нормы \\д — Ркд\\- Однако в реальных ситуациях в силу неточности модели измерения, наличия шумов и т.п. предъявленное изображение может не принадлежать ни одному из заданных классов 14, к = l,...,lf, тогда естественно найти тот класс, к которому наиболее близко по форме изображение д. Если в качестве меры близости изображения д к множеству V выбрать квадрат нормы разности \\д — Pvg\\2, то задача классификации сводится к решению задачи на минимум: Этот минимум равен нулю при полном соответствии предъявленного изображения модели формирования. Если минимум в (1.37) достигается при нескольких индексах fcii».--»fcim, T0 9 классифицируется как изображение одного из объектов с номерами kix,..., kirn. В качестве иллюстрации вернемся к задаче классификации изображений цифр, неформально рассмотренной во введении. На рис. В.5, а, приведены изображения цифр от 0 до 9. Форма изображений цифры г задана как множество Vi = {c\x\+4xl 4 е (-00,00), fc=l,2}c4(X), где χ\ — индикаторная функция области поля зрения, изображающей цифру г; \г2 — область фона, соответствующая изображению цифры г, г = 0, ...,9. Разбиение поля зрения на области, отвечающие цифре «семь» и фону, приведено на рис. 1.15. Обозначим Pi проектор на подпространство Vi С £2μ(Χ), г = 0, ...,9. Величина Sij = \\Pigj — gj\\2 квадрата нормы разности изображения j-й цифры gj и ее проекции на форму Vi задает отличие по форме изображения gj от git i,j = О,... ,9. Для изображений цифр, полностью соответствующих рассмотренной здесь их модели, выполнено = 0, г = j, Рис. 1.15. Разбиение поля зрения на области, отвечающие знаку «7» и фону ц >0, гфз, для любого изображения gj € Vj и любого проектора Pit i, j = О,... ,9. Заметим, что близость изображений по форме в этом пункте опре-
1.6. Решение задач морфологического анализа изображений 65 делена так, что для изображения, на котором все точки поля зрения имеют одинаковую яркость g = const, выполнено \[P%g — g\\2 = 0 при всех г = О, ...,9. Действительно, изображение, яркость которого равна константе для всех точек поля зрения, в рассмотренной модели может быть получено от любой цифры, когда яркость фона совпадает с яркостью знака. В результате предложенным здесь алгоритмом изображение с постоянной яркостью будет отнесено ко всем классам. Ниже, в гл. 3, будет предложено другое определение близости изображений по форме, свободное от этого недостатка. 1.6.3. Выделение отличий по форме. Пусть V С С — выпуклое замкнутое множество изображений заданного объекта, полученного при всевозможных условиях наблюдения, и Pv — проектор на это множество. Требуется на предъявленном для анализа изображении g e С выделить те особенности, которые отличают его от изображения данного объекта. Поскольку Pvg е V, то изображение Pvf9 является самым лучшим приближением изображения g изображениями, форма которых не сложнее, чем форма /; соответственно, изображение g — Pvg представляет все то, что отличает g по форме от /. Именно это изображение приведено во введении на рис. В.7, справа внизу, в примере, в котором выделялось отличие изображения комнаты с кошкой от формы изображения без кошки, рис. В.7, вверху справа и слева соответственно. 1.6.4. Оценивание параметров объекта по форме его изображения. Пусть модель объекта задана с точностью до параметра λ, принадлежащего некоторому заданному множеству Л. В качестве такого параметра может выступать, например, размер или расположение объекта относительно видеокамеры. Для каждого значения параметра определим форму его изображения в виде множества V\ С С2{Х) всех возможных его изображений и проектор на это множество Р\, λ е Л. По предъявленному изображению g e £2μ{Χ) требуется оценить параметр λ е Л. Оценка значения параметра λ определяется решением вариационной задачи ||5-PAff||2~inf . (1.38) Если инфимум в (1.38) достигается при нескольких значениях параметра λ, то для однозначного оценивания параметра следует либо указать добавочные условия, которым должна удовлетворять оценка, либо провести дополнительные наблюдения. Поясним, как формально решается задача оценивания параметров объекта по его изображению, рассмотренная во введении. На рис. В.9 справа вверху приведено изображение /, заданное на поле зрения X 3 Ю. П. Пытьев, А. И. Чуличков
66 Гл. 1. Основные понятия морфологического анализа и содержащее размытое изображение знака в виде креста, а вверху слева — неразмытое изображение креста на подмножестве Η поля зрения X С К2. Фрагмент в виде размытого изображения креста задан как функция </(·), определенная на подмножестве ηζΗ с X. Задача состоит в оценке координат подмножества ηζΗ на поле зрения X по изображению /. Так же, как и в (1.25), введем операторы Di,...,Dm, определяющие размытие изображения, и идеальное изображение креста f(x) = сн(х)хно(х) + со(1 - ХЯо(я)), х € Х- Здесь Н0 С X — часть поля зрения, занятая собственно изображением креста; на оставшейся части Х\Но поля зрения изображение /(·) имеет яркость фона со. В pern зультате действия на изображение / линейной комбинацией 5Z &iDi г=\ операторов Di,...,Dm получим изображение, фрагмент которого на подмножестве Η содержит размытое изображение креста. На подмножестве Η С X зададим форму размытого изображения креста так же, как это было сделано в п. 1.5.4: т Vf,H = {g^Y^caDif, сце (-οο,οο), г= l,...,m} С £2μ {Η). i=\ Для решения задачи оценивания координаты размытого знака на поле зрения X рассмотрим преобразование ηζ{χ) = χ - ζ, определенное для тех точек χ поля зрения X, для которых χ — ζ е X. Будем рассматривать множество Ζ — множество только тех значений параметра сдвига ζ, при которых ηζΗ целиком содержится в X. Для каждого ζ € Ζ и для каждого а = (а\,..., аш) определим преобразование glz,a, размывающее и сдвигающее фрагмент, изображающий крест: т (#7ζ,α°/)(ζ) = ^α»Α/(7*(ζ))χ(7*0*0), хеХ, г=1 и для каждого ηζ, ζ G Ζ, зададим форму размытого изображения креста, сдвинутого на вектор ζ е Ζ, как множество изображений Vt = {geCl{X), <?(·) = <bW+ + cfon(x)(l-X(7,(*))), ае?гт}, (1.39) где Cfon(-) — произвольное изображение. Оператор проецирования на множество Vz обозначим Pz. На рис.В.9, слева внизу, приведен график \\Pzf — /||2 как функция вектора ζ сдвига фрагмента Н$ по полю зрения X. Точка на плоскости,
1.7. Морфологические и корреляционные методы анализа изображений 67 в которой достигается минимум функции Φ(ζ) = \\Pzf ~ /||2, ζ € Ζ, дает оценку положения размытого изображения знака на изображении /. 1.7. Морфологические и корреляционные методы анализа изображений Приведем примеры классов F преобразований изображения / е G £μ(Χ), отличных от класса всех борелевских функций и, тем не менее, задающих формы изображения / в виде подпространств в £2μ(Χ) (или ортогональных проекторов на эти формы). Рассмотрим класс F линейных однородных функций, т.е. функций вида Fk(-) = k-, k е (—οο,οο), определенных на числовой прямой II1. Множество изображений, чья форма не сложнее, чем форма /, представляет собой одномерное линейное подпространство V/ = {</ = */. * € (-ос, оо)} С £2μ(Χ), (1.40) натянутое на /. Это множество состоит из изображений, полученных из / линейными однородными преобразованиями яркости (если под контрастом изображения понимать отношение суммы наибольшей и наименьшей яркостей изображения к их разности, то такое преобразование сохранит его контраст). Множество V/ выпукло и замкнуто в £2μ(Χ), поэтому существует единственная проекция изображения g e £2μ(Χ) на форму V/, которую получим, решая соответствующую задачу наилучшего приближения: В результате получим \\9-kf\\~ min . «£( — οο,οο) pf9={4mf- (ΐ·4ΐ) Пусть теперь класс F Ε (Τ^1 —► Т^1) задан в виде множества линейных функций F = {Fk,b(m) = к · +Ь, — оо < к < оо, -оо < b < оо}, определенных на числовой прямой. Преобразование / —► F о / можно охарактеризовать как преобразование изображения, линейно изменяющее яркость, в результате изменяется как контраст изображения, так и средняя яркость. Множество изображений, форма которых не сложнее, чем форма /, представляет собой двумерное линейное подпространство в £μ(Χ), натянутое на векторы / и ео, где ео = χχ представляет собой изображение однородного поля зрения единичной яркости, ео(х) = 1: V/ = {9 = */ + Ьео, -оо < к < оо, -оо < b < оо} . (1-42)
68 Гл. 1. Основные понятия морфологического анализа Это множество также выпукло и замкнуто. Найдем проекцию изображения д е С2{Х) на форму изображения /, представленную в (1.42). Для этого запишем задачу наилучшего приближения в виде \\g-kf-be0\\ = \\Po9 + (I-Po)9- - kP0f - k(I - P0)f - fceo|| ~ min , /c,6£( —00,00) где Pq — проектор на однородное поле зрения X для любого д е £2μ(Χ), определенный равенством Род = тг-ЙГ е°- \Ы\2 Теперь для нахождения проекции следует найти минимум квадратичной функции \\Р09 + (1- Р0)д - kP0f - k(I - P0)f ~ be0\\2 = = ||(/ - Po)(g - kf)\\2 + \\P0((g - kf) - be0)\\2 по к и b. В результате получим, что искомая проекция имеет вид ^■Kr"-"^*· (,43) Заметим, что эти простейшие примеры сравнения изображений по форме приводят к результатам, которые известны в так называемых алгоритмам корреляционного анализа, [26]. В корреляционном анализе близость изображений f,g G £2μ{Χ) характеризуется величиной |С0Г(/'9)| = РШ· меняющейся от единицы при коллинеарности изображений до нуля при ортогональности fug. Это связано с неравенством Коши-Буня- ковского |(/,#)| ^ II/H\\д\\, в котором равенство выполнено лишь при линейной связи между элементами / и д: f = kg. Близость изображения д к форме / можно определить величиной PmorPh{f,g) = \\д-Р/д\1 равной нулю, если форма д не сложнее, чем форма /. Если форма определена так, как в (1.40), то, в соответствии с (1.41), 1Ь-^112 = 1Ы12-^ и для того, чтобы выбрать из некоторого множества изображений V/ С £2μ{Χ) изображение до G €2μ(Χ), наиболее близкое по форме
1.8. Независимость по форме 69 к / Ε £2μ(Χ), следует минимизировать pmorph{f,g) выбором д Ε V/. Для этого необходимо и достаточно добиться максимума квадрата скалярного произведения тах{(/,^)2 | д Ε V/}, что эквивалентно условию максимума корреляционной близости сог(/, ·) выбранного изображения д к заданному изображению /. Аналогично, если форма задана соотношением (1.42), а проектор на форму изображения /, соответственно, в виде (1.43), то для решения задачи наилучшего приближения изображения д линейной комбинацией изображений / и ео следует максимизировать квадрат скалярного произведения (/, (/ — Ро)д)2 компонент изображений д и /, ортогональных константе, выбором д Ε V/, что эквивалентно условию максимума |c0r(/"Po/^"^)l=ll/-Po/||||,-Po,|| выбранного изображения д к заданному изображению /. Таким образом, методы морфологического анализа могут рассматриваться как обобщение корреляционных методов. 1.8. Независимость по форме С практической точки зрения, помимо сравнимости по форме, полезно понятие «наибольшей непохожести» изображения д на изображение / по форме. Формально в этом случае множество V/ не содержит изображений, сравнимых по форме с изображениями из Vg, исключая д = const. Рассмотрим определение формы изображения / Ε £2μ(Χ) в виде множества Vc(f) = {geCl(X):g = Fof, / е F,}, где F/ — класс функций, содержащий константу F(z) = const для всех ζ Ε ΊΖ1 (во всех рассмотренных выше примерах классы F/ преобразований яркости, определяющие форму изображения /, этим свойством, очевидно, обладают). В этом случае форма в широком смысле любого изображения / содержит изображения, равные константе (почти всюду) на поле зрения X. Эти изображения обладают «максимально простой» формой. Поэтому формы V/ и Vj в широком смысле двух любых изображений fug обязательно содержат непустое пересечение: V/ П Vj 2 Vo, где Vo = {coxx, —oo < cq < oo} — одномерное подпространство в £2μ(Χ) простейших по форме изображений, равных константе почти всюду (по мере μ) на поле зрения X. Изображением /, максимально отличным по форме (в широком смысле) от изображения /, будем считать такое, для которого его наилучшее приближение изображениями из множества V/ достигается
70 Гл. 1. Основные понятия морфологического анализа Рис. 1.16. а) Изображение / не зависит от формы /. б) Изображение / не является независимым от формы /, так как Ро/ φ Pvf только на константе, см. рис. 1.16. Действительно, в этом и только в этом случае изображение / представимо как сумма вектора, ортогонального V/, и изображения Ро/, равного константе (μ-почти всюду на X), где Ро — ортогональный проектор на Vo- В противном случае / есть сумма ортогонального к V/ изображения и отличного от константы изображения из V/, несущего «черты» изображения /. Итак, для максимального отличия изображения / от изображений из V/ разность между / и ее проекцией на Vo должна быть ортогональна V/. Такие изображения будем называть независимыми от формы V/. 1.8.1. Независимость изображений по форме, заданной как линейное подпространство С2 (X). Фиксируем некоторое изображение / G £2μ(Χ) и рассмотрим его форму V/, которую будем считать линейным подпространством £μ(Χ)\ ортогональный проектор на V/ обозначим Pf. Для любого изображения / изображение Р// является наилучшей в £}μ(Χ) аппроксимацией / изображениями, форма которых не сложнее, чем форма /. Поэтому если такой аппроксимацией оказывается изображение вида const χχ G £2μ(Χ) (modμ), то естественно считать, что изображение / не зависит от изображений, форма которых не сложнее, чем форма /, т.е. иными словами, не зависит от V/. Смысл так определенной независимости поясним^следующим образом. Наилучшая аппроксимация Р// изображения / — однородное по яркости поле зрения X — является изображением простейшей формы на X. Следовательно, в изображениях, форма которых не сложнее, чем форма /, нет ничего такого, что можно было бы использовать для описания изображения /\ _ _ ^сли / -< /, то Pff = /; если же / не зависит от V/, то^ Pff(x) = const (μ-почти всюду) на X. В первом случае изображение / точно воспроизводится изображениями из V/, во втором случае с помо-
1.8. Независимость по форме 71 щью тех же изображений на X удается воспроизвести лишь среднюю яркость изображения /. Обозначим Ро ортогональный проектор на Vo. Очевидно, для всякого изображения / выполнены соотношения Ро ^ Р/ (см. приложение, п.А.2), Р/Ро = РоР/ = Ро, и Pof(x) = *^у | ί(ζ)μ(άζ) = c{f)Xx{x), (modμ), χ с(/) = мЫ/(гЫ^ χ где _ ι χ — средняя яркость / на поле зрения X. Поскольку Ро/ — наилучшая аппроксимация / изображениями вида οχχ^-), то в случае независимости / от V/ выполнено равенство Р// = Ро/, так как Pff — наилучшая аппроксимация / изображениями из V/, а все изображения вида с\х содержатся в V/. Замечание 1.8.1. Для самосопряженных операторов А,Ве G (£2μ(Χ) —► £2μ(Χ)) неравенство А ^ В означает неотрицательную определенность оператора В — А, т. е. (В — Af, /) ^ О для любого / е СЦХ). Так как Р0 ^ Pf ^ /, где / е (СЦХ) - £*(*)) - единичный (тождественный) оператор, то по определению для всякого изображения / выполнено {PbfJ)<{PffJ)< (If), что эквивалентно неравенствам WK Н^/И 11/11· При этом если / не зависит от V/, то ||Ро/|| = Ц-Р//Ц, если же i<i, то ||Ρ,/|| = II/IL Итак, изображение / не зависит от V/, если (Р/-Л,)/ = 0. (1.44) Если равенство (1.44) выполняется для всякого изображения из Vj, будем говорить, что форма изображения / не зависит от формы изображения /. Лемма 1.8.1, [48]. Пусть форма изображения / не зависит от формы /. Тогда форма / не зависит от формы /. Доказательство. По определению условие леммы означает, что (Р/ - Ро)/ = 0 для всех / е Vr, или, иначе, (Pf - Po)Pjh = О для любого изображения h e £2μ(Χ). Таким образом, сформулированное в лемме условие независимости эквивалентно равенству (Pf-P0)Pj = 0. (1.45)
2 л I. Основные понятия морфологического анализа Поскольку PjPo = PoPf но переписать в виде о = PqP~ = Дь то равенство (1.45) мож (Р/-Ро)(Р7-Ро) = 0, (1.46) а посколь 'у Pf, P* Pq — самосопряженные операторы то отсюда следует равенство ( j — ){Р/ — fb) = 0, и, аким образом, V/ не зависит от Vj. Ш Рассмотрим примеры изображений, независящих от формы V/. На рис. 1.17 приведень два изображения, д и /; первое состоит из вертикальных полос на поле зрения Хт а / — из горизонтальных. Легко заметить, что как изображение / не зависит от формы VQ, так и изображение д не зависит от формы V/. Более того, это свойство сох анится при любых значениях я кости юлос. Следовательно, формы зоб ^ажен й / и д являются вза мно независимыми. Ρ с. 1.17. Изображе ия д и / неэа висимы по форме Рис. 1.18. V зоб аже ия слева и в центре перестанут быт незав симыми по форме при изменении яркостей областей А\, Αι и Аз» обозначенных справа На ρ с. 1.18 гриведен пр мер изоб ажения /, состоящего 13 двух верт кальн ϊχ полос, изображен я gt состоящего из тех же вертикальных полос с яркостями с ι и С2, но на первой полосе есть пятно пло- /л\ *> с μ(Ά\) + сзи(Аз) ^ щади μί Лз) яркосп сз такой, что —)—$ Г; , = С2· с?тот пример μΗι)+μ(^3) характерен тем, что небо ibiuoe фоизво ьное изменение в яркостях ci, C2t сз изображен и . д приведет к счезновению независ мост по фо ме изображения д от /, Здесь изображение д не зависи от формы /, о в отличие от предыду его 1римера формы зображений \ д е являются езависимыми. Дадим формальное определение независимости форм,
1.8. Независимость по форме 73 Определение 1.6. Форма изображения д не зависит от формы /, если Ρ β — const χχ, для всех # е Vg = {h G €2μ(Χ) : h -< g}. Сформулируем конструктивный критерий независимости форм в терминах операторов Pf и Ро ортогонального проецирования на формы V/ и Vo, соответственно, где Vo = {οχχ, с е (-οο,οο)} — форма изображений, равных константе почти всюду на X. Заметим, что поскольку Ро ^ Р/, Ро ^ Pj, то операторы Pf — Ро и Pj — Ро — ортогональные проекторы и, как показано при доказательстве леммы 1.8.1, независимость форм V/ и Vj эквивалентна взаимной ортогональности ортогональных проекторов Pf — Ро и Рг — Ро. Формы V/ и Vj являются независимыми тогда и только тогда, когда (Pf-Po)Pj = 0. (1.47) Сформулируем требования, которым должны удовлетворять множества одинаковой яркости мозаичных изображений, независимых по форме. Рассмотрим два мозаичных изображения: N, Ng j=\ k=\ первое из них принимает значение, равное константе Cj на множестве Aj, j = Ι,.,.,ΛΓ/, разбиения Of = (A\,...,ANf) поля зрения X, а второе — значение, равное константе Ьк на множестве Вк, к = 1,..., Ng, разбиения Dg = (В\,... ,Внд), здесь \j и фк — индикаторные функции множеств Aj и Вк соответственно, j = 1,... ,Nf, к = 1,..., Ng, Nf ^ оо, Ng ίζ οο. Тогда Nf / ч Nf IN9 / / ч \ Рл-ΓΜν - V^ I V W'^K L и для того, чтобы форма д не зависела от формы /, необходимо и достаточно, чтобы суммы к=\ Их,· II2 не зависели от j, j = l...,Nf. Для этого множество значений матрицы QeUN* ^llNf, Qjk = %^, 3 = 1.-.^/. *= 1,···,^ должно быть одномерным подпространством, натянутым на вектор е = (1, 1,..., 1) Ε 1ZNf. А для этого необходимо и достаточно, чтобы j-й
74 Гл. 1. Основные понятия морфологического анализа столбец матрицы Q состоял бы из одинаковых чисел Xj, j = 1,... ,Nf. Это означает, что для любых j = 1,...,Nf выполнено равенство {J2iM = Xk, k=l,...,Ng. (1.48) Однако при этом и для любых j = 1,..., Ng выполнены равенства W^' *='.-.".. <»·49) в которых левая часть не зависит от k, к = \,...,Ng. Действительно, из-за попарной ортогональности элементов в каждом из наборов ф\,..., фмд и χ!,..., χΝ/ и в силу равенств Ng Nf к=\ 3=\ выполнено Ng Nf Nf ш\2 = fei*) = (Фк,хх) = №,Σχν) = Σλ*ω2. г=1 μ=\ μ=\ а значит, с учетом (1.48), (ХЛ'Фк) (Xj.^fc) AfcllxjH2 а*£|Ы12 λ^||Χμ||2 μ=1 μ=1 и не зависит от к, к = 1,... ,Ng. Но равенство (1.49) означает, что и форма изображения / не зависит от формы д. о iXj^k) Заметим, что ,/ мо есть относительная часть площади множена11 Л „ ства Aj, занимаемой множеством Aj Π Bk, иными словами — «доля множества Bk во множестве Aj». Таким образом, если для каждого фиксированного к= l,...,Ng доля множества Bk во множестве Aj одна и та же для всех j = 1,..., Nf, то и для каждого фиксированного j = \,...,Nf доля множества Aj во множестве Bk одна и та же для всех к = 1,..., Ng, и формы изображений / и д взаимно независимы. 1.8.2. С-эквивалентные изображения. Посмотрим на проблему связи между формами изображений с несколько иной точки зрения. В предыдущем пункте мы договорились считать изображение / не зависящим по форме от /, если наилучшее приближение / изображениями из формы / является константой. Если же изображения отличаются только средней яркостью (т. е. их разность равна константе
1.8. Независимость по форме 75 почти всюду на X), то их можно считать «максимально похожими» друг на друга. Такие изображения будем называть С-эквивалентными. Любое изображение / G £2μ{Χ) представимо в виде суммы двух ортогональных слагаемых: / = /о + /о*> гДе /о = Д)/> /о* — (I ~ Д))/> а Ро - ортогональный проектор на множество Vo = {соХх, со G G (—οο,οο)} изображений, равных константе на всем поле зрения X. Поэтому все пространство £2μ{Χ) можно разбить на множество классов С-эквивалентных изображений, т.е. таких, разность которых равна изображению οοχχ некоторой постоянной яркости со. (Множество классов эквивалентных изображений носит название фактор-пространства £2μ(Χ)/νο, [28].) Изображения / и / назовем независимыми, если (#. Я = (/- /όΧ) = (/■ /) - Щ^ | /(*) άμ(χ) | /(*) άμ(χ) = 0. (1.50) Χ Χ В терминах предыдущего пункта, изображение / не зависит от формы V, если (1.50) выполнено для любого / G V, и форма изображения / не зависит от формы / тогда и только тогда, когда изображения д$ и д, а также ^о* и 9> являются ортогональными для всех д €Vg и g G V^. Этот подход можно распространить на случай, когда разность между изображениями / и / принадлежит некоторому линейному подпространству Vc С £μ(Χ) функций вида η Vc = {/ = 5^CiXi. c2G (-οο,οο), i=l,...,n|, (151) 2=1 где χ2 — индикаторные функции множеств Сг, г = 1,... ,п, образующих η разбиение С поля зрения: X — |J Сг, Сг Π С^ = 0 при г ^ j, и мера мно- г=1 жества Сг больше нуля: μ((?ΐ) > 0, i,j = 1,... ,гг: С = {Сг,г = 1,... ,гг}. Определение 1.7. _ _ 1. Изображения / и /, для которых f - f e £с, назовем С-эквива- с ~ лентными, f ~ /. _ 2. Изображения / и / назовем С-независимыми, если ((I-Pc)fJ) = ((I - Pc)lf) = 0. (1.52) 3. Изображение / является С-независимым от формы V изображения /, если (1.52) выполнено для любого / G V. 4. Формы Vg и V^ изображений д и д С-независимы, если (1.52) выполнено для любого / G V5 и J G Vg.
76 Γα, 1. Основные поня ия морфологического анализа Расе отренные выше £-экви алент ые изобра ения голучаются отсюда» в частности при С = £ = {©, PC}. Для £- езависимых изображений и форм сохраним аименование независимых / 9 Рис. 1Л 9. Изображения и д С-нсзависимы по форме а рис. 1.19 приведен пример С-независимых по форме изображений Поле зрения, на котором заданы эти изображения, представляет собой объединение двух квадра ов Фрагменты изображений, рассматриваемые на левом квадрате, независимы по орме, и проекция фрагмента изображения / на форму ра мента 13ображе ия д есть зображен е гостоянно" яркости, оч о так же с φ агмен ал и, заданными на правом квадрате. Однако яркое и роек m и различны, и рассматривая в качестве линейного подпространс ва Vq линейную комб нац so и д ка ор ых м ожес в эт χ квадрате , получ iM, to f и д С-независимы, Рассмотрим, далее, для π рос о ы ситуацию, когда рассматриваемые зоб ажения предста имы в виде N /(аО = 5Ζ c*X^ix)- х € Х> г— где Ха — индикаторные функции множеств Л^ ' = \t...tNt образую- N ι ϊχ разбиение ю я зрения; X = \J ΑίΎ Ai Π Aj = 0 при г φ j и мера i=\ множества Ai больше нуля: μ{Αι) > 0Т itj = 1 N. Минимал ную конечную алгебру подмножеств X, содержащую все подмножества разбиения А = {А7г = 1 ... N], обозначим Τ л. Форма N ^ = {/ = Х/г*^> с-€(-оо,оо), г= 1 ЛГ} (1. 3) г=] изображения / представляют собой линейное подпространство э е- ментов (?μ{Χ) эквивалентных Τ л измерим м ункциям. Форму V^ назовем порожде ной разбиением А.
1.8. Независимость по форме 77 Если формы изображений (1.53) и (1.51) независимы, то алгебры ?л и Fc> порожденные разбиениями Л и С, будем также называть независимыми. Теорема 1.8.1, [48]. Следующие утверждения эквивалентны: 1. Алгебры Та и Тв, порожденные соответственно разбиениями Л = {Аг, г = 1,... , М} и В = {Bj, j = 1,...,Ν}, независимы. 2. Для любых Аг и Bj μ{ΑίΓΐΒά)μ{Χ) = μ{Αί)μ{Βά), г= Ι,.,.,Μ, j = 1 JV. (1.54) 3. Попарно независимы элементарные алгебры Тлг и Тв3, порожденные разбиениями {Аг,Х\Аг} и {Bj,X\Bj}, г = 1,... ,М, J = 1 JV- 4. Попарно независимы изображения из форм Уд и V#, порожденных разбиениями А и В. 5. Для ^сякого изображения / e Va (/ € V#) проекция Р#/ ~ О (-Рд/ ~ 0), где Р& {Ра) — ортогональные проекторы в €2μ(Χ) на VB (Va). 6. Проекторы Ра и Р& связаны условием Ра-Рв = Рв'Ра — Ро = = Ρε- Доказательство. Согласно определению, независимость алгебр Та и Тв означает выполнение равенства Ы., (Х*)оХ) = μ{Α* П В,) - μ{Α^ό) = 0, т.е. выполнены равенства (1.54). Утверждение 3 следует при этом из равенств (ХАгЛхв^о) = (Хх ~ХАг,Хвг) = {(χαΛο,Χχ -XBi) = = (Хх - (ХАг)о> Хх -XBi)= 0, причем легко увидеть, что утверждение 2 следует из утверждения 3 и эквивалентного утверждения 4. Воспользовавшись далее (1.54), для м ί = ΣCiXAi e Va найдем N (/.Хв,)., ^^μ(ΛΠΒ,·)ΧΒ, С?; — ft/ = E^», = EE ,„ мв,)л- UU "W)
78 Гл. 1. Основные понятия морфологического анализа что доказывает утверждение 5. Если, наоборот, выполнено утверждение 5, то, воспользовавшись (1.8.2), получим, что для / е Va ι лт η u(AiC\Bj) совпадают для всех j = 1,..., N. Поэтому отношения v J/ = qi не зависят от j, и следовательно, ^ = μ(Αΐ)/μ(Χ). Тем самым получены равенства (1.8.2). Эквивалентность утверждений 2 и 6 определению проверяется непосредственно. ■ Теорема 1.8.2, [48]. Изображение f не зависит от формы Va тогда и только тогда, когда Ра! = Pof ~ 0. Доказательство. Согласно определению, (/. (ХЛ, )оХ) = } fix) άμ(χ) ~ ^ | f{x) άμ(χ) = 0, Ai Χ причем, как легко увидеть, эти равенства эквивалентны определению независимости / от Va- Отсюда следует м г ι г P*f = Σ ^) J Я*) Μχ) = -^χ) J /(*) Μχ) = Ρο/ - 0. ■ i=l г χ χ Заметим, что для более общего понятия С-независимости утверждения теоремы 1.6.1 останутся справедливыми, если условие (1.54) заменить на μ{ j) h ^ ' 1.8.3. Ранг корреляции форм изображений. Если проекция изображения из формы Vg на форму V/ равна константе, то g и / независимы по форме. В этом случае число множеств одинаковой яркости проекции PfTj, g е Vg, равно единице. Если проекция любого изображения g е Vg на V/ представляет собой двухуровневое изображение вида llxi II2 Xl IIX2II2 Г?У Ik.. 112 X1 ^ Ил/«112 Х2,
Ϊ.8. Независимость по форме 79 м г е χι — индика ор *ая функция м ожества D\ — (J Α3μ1 г χ2 — индикато ная функц я множест a £>2 = X\D\t & / < JV/, то зоб- ражения / и д *е я ляются независимыми о форме на всем поле зрения X, однако на подмножествах D £>2 формы изображен и у и / незав *симь. На э их рассужде иях построено поня™ е ран а корреляции форм изображений. Определение ,8, Рангом корреляции формы изображе и я д с фо - мой f назовем размер ость прост анства значе *нй one атора / д. 1 / 9 h PjPgh Рис. 1.20. Ранг корреляции формы изоб ажений / и д равен трем pl· мер зображен ш, анг оррел ц и формы которых раве трем, приведен на рнс. 1.20, Изображе не / представляет собой шесть вертикальных полос разной я кос и на од ородном белол фоне, его форма — линейное подпространство £^{Х) размерности семь, изображе ие g сое оит из шест! го изо тальных олос равной яркости на однородном фоне, его фо ма — линейное подп остранство £2μ{Χ) размерности два. Проекция любого изображения, нап имерФ kf на форму ι зображения д даст зобра ен е Pgh шее \ гор зонтальных полос на одно одном фоне (его форма не сложнее, чем форма g)t а проекция P9h а форму изображения / — зображе ие двух роек верт кальны полос одина ково" яр ос \ на однород ом фо е — множество таких изображений является трехмерным инейным подпространством £^(Х). Для произвольных изоб вжен\ и ранг орреляцп фо мы ι зображения / с формой д такой же, как ранг корреляции формы д с /, поскольку размерность простра ства значений о tepaTOpa PfP9 совгадае с размер ос ью пространства значе 1НЙ оператора 9 /и равна числу отличных от уля собственных чисел оператора gpf(pgpf)* = PgPfPg (совпадающих с отличными от нуля собственными числами оператора pfps(FfPgY = (pgpfYP9Pf = pfpspf)* см* приложение, п. А.2. Как следует из опре елений, ра г корреляции независимых по форме зоб ажен и равен ед н це, а ранг ко реляц экв ва е тн по форме зоб ажет и а ен размер .ост по простра хтва V/,
Глава 2 ФОРМА ИЗОБРАЖЕНИЯ С ЗАДАННОЙ УПОРЯДОЧЕННОСТЬЮ ЯРКОСТЕЙ В этой главе рассматриваются примеры моделей объектов и сцен и строятся формы их изображений, являющиеся выпуклыми замкнутыми конусами линейного метрического пространства всех изображений, в качестве которого выбирается либо евклидово пространство £2μ(Χ), либо нормированное пространство кусочно непрерывных функций С(Х). Конструктивно формы изображений рассматриваются как операторы проецирования на эти подмножества. 2.1. Изображения с известной упорядоченностью яркостей в пространстве С2(Х) 2.1.1. Мозаичные изображения с упорядоченными яркостями. Часто на практике изображения сцены представляют собой мозаичные кусочно постоянные изображения вида N г=\ на которых яркости областей А\,..., An поля зрения X с индикаторами Хг(-) упорядочены в соответствии с неравенствами С! <Cfc<... <CN, (2.2) а изменение условий их регистрации может привести к изменению яркостей областей A\,...,An поля зрения X, но лишь к такому, при котором сохраняется упорядоченность, задаваемая неравенствами (2.2). Такие ситуации встречаются, например, при изготовлении фотографий, когда на яркости ci,...,cw областей A\,...,An влияют время экспозиции, условия протекания химических процессов при проявке, вид и качество фотоматериала, как правило, неизвестные для данного изображения. В электронном микроскопе, формирующим изображение с помощью вторичных электронов, взаимный контраст областей поверхности объекта с различным химическим составом, в основном, определяется составом вещества, поэтому сохраняется упорядоченность яркостей этих областей при изменении энергии пучка, [6]. Еще один пример
2.1. Изображения с известной упорядоченностью яркостей 81 дают технические изображения ярких знаков, полос и других областей с размытой границей на темном фоне, когда яркость от фона до знака меняется монотонно, и вид этой монотонной зависимости меняется от изображения к изображению в зависимости от множества неизвестных факторов. Таковы расфокусированные изображения текстов, изображение трещин и обвалов на поверхности буровой скважины, получаемые специальной геофизической аппаратурой, изображения треков атомных ядер и элементарных частиц, изучаемые в ядерной физике, и др. Форму кусочно постоянного изображения с яркостями, упорядоченными в соответствии с неравенствами (2.2), определим как конус в пространстве £2μ(Χ): N Vc= U = Σ€ίΧί* Сг^-00'00)' г=1,...,АГ, с\ ^с2 ^ ... ^cN\. г=\ (2.3) К этому же множеству Vc С £2μ(Χ) придем, задавая форму как множество изображений, форма которого не сложнее, чем форма изображения вида (2.1) с попарно различными яркостями С1,...,сдг. При этом следует считать, что форма изображения g не сложнее формы /, если g представимо в виде g = F о / (mod μ) при некотором преобразовании яркости F Ε Fc, где Fc — класс всех монотонно неубывающих функций, заданных на числовой прямой, см. п. 1.3.4. Минимальное линейное подпространство в £2μ(Χ), содержащее конус Vc, будем называть формой в широком смысле. В данном случае формой в широком смысле является n-мерное линейное подпространство всех линейных комбинаций индикаторных функций Ш с СЦХ). Форма изображения Vc является выпуклым замкнутым конусом, см. приложение, п. А. 1.2. Для любого выпуклого замкнутого множества Vc Ε >С^(Х) и для любого элемента g e £2μ{Χ) существует его единственная проекция на Vc, которая определяется как реше- Рис. 2.1. Вычисление проекции на двумерный конус
82 Гл. 2. Форма изображения с заданной упорядоченностью яркостей ние задачи наилучшего приближения элемента g G £}μ(X) элементами множества Vc и обозначается Ucg. Эта проекция определяет оператор проецирования на Vc С £2μ(Χ), который, в отличие от проектора на подпространство £?μ(Χ), не является линейным. Между выпуклыми замкнутыми множествами евклидова пространства и проекторами на них существует взаимно однозначное соответствие. Свойства операторов проецирования на выпуклые замкнутые конусы см. в приложении, п. А.3.2. На практике полезна следующая теорема о транзитивности проецирования. Теорема 2.1.1. Пусть выпуклое замкнутое множеств Vc С £}μ(Χ) есть форма изображения /, и подпространство Сс D Vc — форма в широком смысле изображения /; Пс и Рс — операторы проецирования в €2μ(Χ) на Vc и Сс соответственно. Тогда для любого Ucg = Пс(Рсд), где Пс проецирует в Сс на Vc. Эта теорема означает, что для вычисления проекции Ucg сначала можно спроецировать д на подпространство Сс, содержащее множество Vc, а потом в этом подпространстве спроецировать Рсд на подмножество Vc С Сс. Доказательство теоремы содержится в приложении, п. А.3.2. Для примера вычислим проектор на множество изображений, заданное в виде конуса V/ = \ψ{·) = ciXi(-) + c2X2(·). с\ ^ с2, сис2 е (-οο,οο)}. (2.4) Легко видеть, что множество V/ является выпуклым замкнутым конусом как в £}μ(Χ), так и в двумерном подпространстве £2μ(Χ), натянутом на элементы χι и χ2. Найдем проекцию Исд элемента д G £?μ(Χ) на V/, пользуясь теоремой о транзитивности проецирования. Запишем сначала ортогональную проекцию д на Сс'. Рп- i^iXilv . (9>Х2) с9~ llxiII2 Xl 1Ы12Х2, а затем в двумерном линейном подпространстве Сс запишем проекцию элемента Рсд на конус Vc. Для этого зададим в Сс ортогональный базис {%i,%2}, и запишем Vc как множество элементов вида с\\\ + С2Х2, — ОО < С\ ^ С2 < СЮ.
2.1. Изображения с известной упорядоченностью яркостей 83 Окончательно проекцию Рсд е Сс : Рсд = \ , χι + 22 Х2» на llxi II Нх2|| множество ус запишем в виде Pfg(x) = с{ {д)х\ (χ) + c2(^)x2(x), где если ——гт^- ·\ сг{д) = { llx.ll2' Их. II2 ΙΜ 2 (#, XI + Х2) о/ъпм (g.Xl) . (#, Χ2) если ——ттг ^ г= 1,2. Ι1χι+Χ2||2' Их.II2 " Их2||2' В общем случае пусть форма в широком смысле задана как линейное подпространство N С = |/(х) = ^Cifi(x), χ е Χ(τηοάμ), Ci G (-оо, оо), г = 1,..., Ν>, г=\ являющееся линейной комбинацией заданных функций /Д) е С^(Х), г = 1,..., N. Рассуждая так же, как в п. 2.1.1 при вычислении проекции на форму ламбертова объекта, определим проекцию изображения д на множество V как решение вариационной задачи \\Pg-g\\ = mf{\\q-g\\\qeV}, или эквивалентной ей задачи N \\Рд-д\\2 = ы{\\д-д\\2\д(х) = ^2сгШ, xeX, i=l Ci Ε (—оо, оо), г = 1,..., N >. Приравняв нулю производные минимизируемого квадрата нормы по яркостям q, г = 1,..., Ν, получим систему линейных уравнений относительно вектора с е VJ^ с координатами q, вида Qc = Ъ, (2.5) где вектор b и матрица Q определены равенствами Ьг = (g,f%), Qi,j = (/i,/j)» i,j =1,..., Ν. Если не предполагать линейной независимости элементов /* е £2 (X), то уравнение (2.5) есть линейное уравнение общего вида, для решения которого полезно применять технику псевдообращения, см. п. А.2.4
84 Гл. 2. Форма изображения с заданной упорядоченностью яркостей приложения. Пользуясь ею, запишем проекцию на линейное подпространство С вектора g e £?μ(Χ) в виде N г=\ где Сг, г = 1,..., N — координаты вектора с = Q~b. Вернемся к проекции на конус Vc, заданный в (2.3). Пусть N £с = lg = Σ°ίΧί' Сг е {-οο,οο), г =1,..., ν\ г=\ — форма в широком смысле кусочно постоянного изображения / е G £2μ{Χ) вида (2.1). Если вычислена проекция Pcg е Сс С £2μ{Χ) элемента д на линейное подпространство Сс, то для вычисления проекции Исд требуется найти проекцию конечномерного вектора Рсд = > -η—||уХг Ε £с на конечномерный конус •=1 \\Хг\\ N Vc = |^«гХь «ι ^ ... ^ aN\ С Сс. г=1 Эта задача состоит в поиске N чисел αϊ,... , адт как решения конечномерной вариационной задачи ||Пс^-^||2 = т£{|||]^^хг-^агХг|Г Ι α{^...^αΝ), (2.6) г=\ "*г" г=1 являющейся стандартной задачей выпуклого математического программирования [8]. Обозначим (.—, Л = <*1М1, i=l,...,N. (2.7) 11Хг|| Задача (2.6) состоит в вычислении проекции вектора ξ е К^, заданного своими координатами ξι,...,ξτν» на выпуклый замкнутый конус yW = {/ е IIм : /ι/||χι|| ^ ... ^ /n/||xn||}. Алгоритм точного решения задачи проецирования вектора ξ на V^N^ приведен в приложении, п. А.3.4. 2.1.2. Сравнение по форме изображений с упорядоченной яркостью. Если анализируемое изображение не является мозаичным кусочно постоянным, то для определения его формы, учитывающей порядок яркости, воспользуемся операцией сравнения изображений по форме. Пусть F/ — класс монотонно неубывающих борелевских функ-
2.1. Изображения с известной упорядоченностью яркостей 85 ций, таких, что F о f е £2μ(Χ) при F G F/. Определим форму изображения / как множество изображений, форма которых не сложнее /: V/ = {д € СЦХ) : g = Fof, FeFf}. (2.8) Так определенное множество V/ является выпуклым замкнутым конусом, с которым взаимно однозначно связан оператор проецирования на него в £2μ(Χ). 2.1.3. Аппроксимация проектора на конус. В п. 1.3.2 рассмотрена аппроксимация ортогонального проектора на форму изображения, заданного в виде подпространства £2μ(Χ) изображений, форма которых не сложнее формы / е £2μ(Χ). Построим теперь последовательность конечномерных проекторов, аппроксимирующих оператор проецирования на выпуклый замкнутый конус изображений с упорядоченными яркостями, определенный в предыдущем пункте. Аппроксимация проектора на выпуклое замкнутое множество V Ε G £2μ(Χ) основана на следующих фактах, доказательство которых приведено в приложении, п. А.3.3. Сформулируем их, напомнив, что черта над множеством означает его замыкание. Лемма 2.1.1, [47]. Пусть V С С2(Х) — выпуклое замкнутое множество и {Vn} — монотонная последовательность выпуклых замкнутых множеств: оо ViCV2C...cV=(JV„ тогда для любого f e £2μ(Χ) lim Π,·/ = Π/, где Π — проектор на V, Π? — проектор на Vj, j = 1,2, Заметим, что в силу транзитивности проецирования, если Ρ ортогонально проецирует на линейное подпространство £, содержащее множество V, Π проецирует в £}μ(Χ) на V, а П проецирует в £ на V, то Π = ПР. Из этого факта, а также из теоремы 1.3.1 и леммы 2.1.1 получим следующее утверждение. Теорема 2.1.2, [47]. Пусть V(/) С £?μ (Χ) — форма изображения /()' {£j} ~ последовательность линейных подпространств пространства £2μ(Χ), такая, что оо С\ с£2с...с£0= [jCj
86 Гл. 2. Форма изображения с заданной упорядоченностью яркостей и У(/) С £р; кроме того, пусть Vn = Cn Π V(/), N = 1,2,..., и V(f) = oo = U (£j n V(/)), тогда П/Л·) = lim nf»/T) = Urn n<w)Pm/(·), /e ^(X), N—юо J N—юо J ^ где Π/, Π^Ν), P(N) и Π^Ν) - проекторы на V(/), £дг Π V(/), CN в С^(Х) и на Cn Π V(/) в С соответственно. Эти факты позволяют использовать конечномерные выпуклые замкнутые подмножества С^(Х) и проекторы на них как приближения форм изображений достаточно сложных объектов и сцен. Построим теперь аппроксимацию проектора на конус изображений с упорядоченными яркостями, форма которых не сложнее, чем форма изображения /, множество значений которого на поле зрения X ограничено: α ίζ f(x) ίζ b, x G Χ. Построим сначала аппроксимацию проектора на форму в широком смысле изображения /. Для этого для каждого N = 1,2,... выберем множество чисел ΒΝ = {Νι/2Ν,(Ν{ + 1)/2Ν,..., Ν2/2Ν}, где целые числа N ι и Ν2 определены условиями Построим разбиение поля зрения X: 4"> = |:г€Х: ψ^ί(χ)<^Υ λ = ΛΓ1-1,ΛΓ1,...,ΛΓ2) и соответствующий этому разбиению проектор Рдг на подпространство Cn изображений, принимающих постоянное значение на каждом из множеств Αχ \ \ = N\ — 1,N\,..., Ν2. Как следует из утверждений п. 1.3.2, последовательность проекторов сходится к проектору на форму изображения /, построенную как множество изображений С/ = {g е £2μ(Χ) ■ g = F о /, F e FB}, где FB — класс борелевских функций. Пусть F — класс монотонно неубывающих функций и Fn(z) = = λ/2Ν, если λ/2Ν < ζ < (λ + 1)/2Ν, λ = Ν{ - 1, АГЬ ..., Ν2. Очевидно, FN e F и Fo/(x)= £ (А/г^х^Ог) =/*(*), χ EX (modμ), λ=ΛΓ,-1 гДе Хд (') ~" индикаторная функция множества Αχ \ λ = Ν\ — - 1, Arb ..., ΑΓ2. Тогда, по построению, fN С Vjv(/) = £ν Π V(/) и, кроме того, VN(f) = V(fN) С V(/n+i), N = 1,2,....
2.1. Изображения с известной упорядоченностью яркостей 87 Покажем, что |J Удг(/) плотно в V(/). Действительно, пусть F G N=\ G F — непрерывная функция, тогда F о Fn ° / G V(/at), и [(Fo/(x)-FoFNo/(x))2M(dx) = ЛГ2 = Σ ί {Fof(x)-F(X/2N))\(dx)^ λ=Ν|-1 JN) лг2 ^ £ (F((A + l)/2w)-F(A/2JV))2M(4N))^eM(X), ΛΓ > Μ, λ=ΛΓ,-1 где Μ выбрано из условия F(z - 2м) — F(z) ^ ε для всех г G [а, Ь] (неравенства выполнены в силу равномерной непрерывности F(·) на [а, Ь}). Определим меру т/(·), заданную на борелевских множествах числовой прямой ΊΖ°° соотношением т/(В) = μ{χ G X : f(x) G В} для любого борелевского множества В. Для рассматриваемых мер множество монотонных непрерывных и т/-интегрируемых функций с инте- оо грируемым квадратом плотно в С}ш . Следовательно, |J Vn(/) плотно оо в V(/), то есть V(/) = \J(Cj r\V(f))t и можно пользоваться теоре- мой 2.1.2. Проектор П^ ' на выпуклое замкнутое множество См Π Удг(/) для любого g G £2μ (X) определяется соотношением ΛΓ2 nj%(*) = Σ ^Х^Ы *G* (πιοάμ), (2.9) λ=ΛΓ,-1 где Сд \ λ = Ν\ — Ι,ΛΓ!,..., ΑΓ2, — решение вариационной задачи min{ll Σ (°{\](д) - c\)X{\\x)\\2 I сдг,-! < cNl ^ ... ^ слг2| = λ=ΛΓι-1 лг2 = min J Σ (C1N)(^) ~ са)2мИаЛГ)) I cat,-i < сдг, < ... ^ cN2j, X=Ni-\ где c[N\g) = ^faJ, λ = JV, - 1, Nlt..., N2.
88 Гл. 2. Форма изображения с заданной упорядоченностью яркостей Для построенных здесь проекторов выполнены все условия теоремы 2.1.2, а следовательно, при фиксированном N проекция Щ *Р^д элемента д G £2μ(Χ) может служить приближением проекции д на конус изображений с упорядоченной яркостью, форма которых не сложнее, чем форма /. 2.1.4. Эквализация и форма изображений. Для решения большинства задач морфологического анализа приходится вычислять проекцию заданного изображения на выпуклое замкнутое множество. Так, в частности, для того, чтобы сравнить форму изображения д Ε £?μ(Χ) с формой / е £}μ(Χ), надо построить проекцию Р/д изображения д на множество изображений, форма которых не сложнее формы /, и сравнить д и Pjg. Если д = Pjg, то д -< /, в противном случае д не сравнимо по форме с /. Однако если форма изображения / е £?μ(Χ) задана как выпуклый замкнутый конус соотношением (1.9), где F — класс монотонно неубывающих функций, то операцию сравнения по форме можно проводить без вычисления проекторов. Рассмотрим так называемую функцию «распределения яркостей» изображения /: Mf(z) = mes{x Ε X, f(x) ^ ζ}, — οο < ζ < οο, где mes(B) означает площадь (μ-меру) множества В С X. Функция Mf(-) ограничена, 0 ^ Mf(·) ^ mesX, монотонно не убывает и непрерывна справа, Mf(z + 0) = Mf(z). Кроме того, lim Mf(z) = 0, ζ—►—οο lim Mf(z) = mesX. ζ—юо Таким образом, построенная функция М/(·) принадлежит классу F монотонных функций; изменение яркости изображения / преобразованием Mf о / приводит к изображению If = Mf о /, форма которого не сложнее формы /: If -< /. Более того, из построения функции Mf следует, что выполнено и обратное: / -< If. Следовательно, /(·) ~ //(·)· Изображения If, эквивалентные по форме /, обладают рядом важных свойств, делающих их полезными для сравнения изображений по форме. Определение 2.1. Преобразование /(·) —► //(·) = М/(/(·)) называется эквализацией изображения /. В результате эквализации получается изображение //(·) с равномерным распределением яркости. Действительно, пусть для простоты функция М/(·) непрерывна и строго монотонно возрастает на отрезке [0, mesX] от нуля до значения mesX. Тогда функция распределения яркости изображения //(·) линейна на этом отрезке: MIf(z) = mes{x G X, Ι/(χ) ^ ζ} = mes{x G Χ, Μ/(/(χ)) ^ ζ} =
2.1. Изображения с известной упорядоченностью яркостей 89 = mes {χ е X, f{x) ^ Mj\z)} = ζ, О ^ ζ ^ Здесь Μ7!(·) — функция, обратная к М/(·) на указанном отрезке, она существует и непрерывна в силу непрерывности и взаимной однозначности М/(·). Пусть, например, изображение / задано в η узлах прямоугольной сетки и в πι точках принимает значение с\, в п^ точках — значение С2 N и т.д., в пдг точках — значение сдг, ci ^ С2 ^ ... ^ сдг, ^^г = п. г=1 На рис. 2.2, а, приведен графики функции М/(·). После эквализа- ции πι точек поля зрения, имевших яркость с\, приобретут яркость п\\ П2 точек поля зрения, имевших яркость С2, приобретут яркость п\ + П2 и т.д. График функции М/о/(·) приведен на рис. 2.2, б. Видно, что точки разрыва функции М/0/(·) лежат на диагонали первого координатного угла. Для изображения /, заданного на ограниченном множестве X, множество значений яркостей которого представляет собой отрезок числовой прямой, причем mes{x G X, f(x) = с} = 0 для любого с G (—οο,οο); графики функций М/(·) и М/0/(·) приведены на рис. 2.2, в, и г, соответственно. Изображения, обладающие указанным свойством, будем называть изображениями с абсолютно непрерывным распределением яркости на поле зрения. В рассматриваемом случае ц п1 0 кМ а f ™ι + Щ/ К ί *' * л < >2 < ^ 2 п1 ™1 + ™2 Рис. 2.2. Распределение яркости для кусочно-постоянного изображения до эквализации (а) и после (б); то же для изображения с абсолютно непрерывным распределением яркости до эквализации (в) и после (г)
90 Гл. 2. Форма изображения с заданной упорядоченностью яркостей эквализация приводит к тому, что яркость функции I о /(·) равномерно распределена на множестве (0, mes{X}). Роль функции //(·) в задачах морфологического анализа дается следующей теоремой. Теорема 2.1.3, [40]. Для любых изображений f,ge £2μ(Χ): 1. Для того чтобы изображение g было не сложнее по форме, чем /, необходимо и достаточно, чтобы выполнялось неравенство 19(х) ^ 1/{х), х е X (modμ); 2. Для того чтобы изображения g и f были эквивалентны по форме, необходимо и достаточно, чтобы равенство Ig(x) = If{x) выполнялось для почти всех χ е X (modμ). Доказательство. 1. Пусть сначала известно, что изображение g не сложнее по форме, чем /. Это означает, что найдется такая монотонно неубывающая функция / е Т, что почти всюду на X (по мере μ) выполнено равенство ^ °/(·) = <?(·)■ а следовательно, IFof{x) = MFof{F о f(x)) = mes {ye X, F о f(y) ^ F о f(x)} > > mes {y e X, f{y) < /(*)} = If(x). Здесь последнее неравенство выполнено в силу монотонного неубывания функции F(-). Обратно, пусть Ig(x) ^ If{x) почти всюду на X. По построению, 1/(х) = mes {г G X, If (z) ^ If{x)}, то есть яркость If{x) эквализован- ного изображения в точке χ е X равна мере множества Лебега hif(x) функции If уровня If(x). Неравенство Ig(x) ^ If{x) означает, что множество Лебега изображения Ι9(·) любого уровня с, 0 ^ с ^ mesX, вложено в соответствующее множество Лебега уровня с функции //(·) либо совпадает с ним (с точностью до множеств μ-меры нуль). Отсюда с очевидностью следует существование монотонной функции, переводящей //(·) в 19('). А так как //(·) и Ι9(·) эквивалентны по форме изображениям / и g соответственно, то и сами функции / и g связаны монотонным преобразованием g(-) = F(/(·)). 2. Эквивалентность изображений / и д при равенстве I9(x) = If{x) следует из первого утверждения и того факта, что одновременное выполнение неравенств I9(x) ^ If{x) и 19{х) ^ If{x) возможно тогда и только тогда, когда выполнено равенство 19{х) = If{x)· ■ Теорема 2.1.3 позволяет проверять сравнимость по форме изображений / и д путем сравнения эквивалентных по форме изображений If и 1д.
2.2. Изображения с упорядоченными яркостями в пространстве С(Х) 91 2.1.5. Независимость изображений по форме, заданной в виде выпуклого замкнутого конуса. Понятие независимости форм изображений f,g е £2μ{Χ) в случае, когда их формы заданы в виде выпуклых замкнутых конусов V/ и V9, содержащих в себе подпространство Vo изображений ровного поля зрения X, может быть введено по аналогии со случаем, когда V/ и Vg — подпространства €2μ(Χ). Определение 2.2. Будем говорить, что форма изображения g не зависит от формы /, если (Р/ - Ро)Рд = 0. В этом случае наилучшее приближение Pfh любого изображения h -< д изображениями, форма которых не сложнее, чем форма /, имеет вид Poh, однако теперь Р/, Рд и Ро, вообще говоря, нелинейные операторы. Пример. Пусть Ν Ν Vf = [^CjXj, С1>...^сдг}, ν9 = {Σ€ίΧ3> ci ίζ ... ίζ cat}. Иначе говоря, изображения из V/ и Vg отличаются как негатив и позитив. Очевидно, формы изображений / и д независимы, хотя формы в широком смысле изображений / и д совпадают. 2.2. Изображения с упорядоченными яркостями в пространстве С(Х) Рассмотрим форму изображения / е С(Х) как множество кусочно постоянных изображений, яркости которых упорядочены по невозрастанию: N V = {/0*0 = Y^CiXi{x)> с\ ^ с2 ^ ... ^ слг}· г=1 Это множество является выпуклым замкнутым конусом в пространстве всех изображений С(Х). Построим проекцию д произвольного заданного элемента д е С(Х) на этот конус, для чего запишем задачу наилучшего приближения изображения д е С(Х) изображениями множества V: N \\д-д\\ =inf J sup \д(х) -^^χ^(χ)|, с\ ^ с2 ^ ... ^сдг}. (2.10) хеХ i=l Вариационная задача на минимакс (2.10) может иметь множество решений. Покажем, что одно из них можно получить, решая задачу линейного программирования [25].
92 Гл. 2. Форма изображения с заданной упорядоченностью яркостей Теорема 2.2.1. Решение с\,...,см задачи (2.10) может быть получено из решения задачи линейного программирования mm in {(и, d) I и e UN+X : Du > 0, Bu > q) , где и = (z,cu...,cN) G KM+°° % d= (1,0,..., TV) eKM+°° - векторы, имеющие N + 1 координату, матрица D е 7^+°° —> т^-00 имеет N — 1 строку: ах = (0, 1,-1,0,...,0,0) еЯлг+ι. а2 = (0,0, 1,-1, ...,0,0) еЯлг+ь а следующие N ατν-ι = (0,0,0,0,...,1,-1)еЯлг+1, матрица В е 7^л/Г+°° —> 7£€Л^ имеет 2Ν строк, первые N из которых равны Ьх = (1,1,0,...,0)еЯлг+ь Ь2 = (1,0,1,...,0)еЯлг+ь Ьлг = (1,0,0,...,1)еЯлг+ь Ьлм-ι = (1,-1,0,...,0)еЯлг+ь 6лг+2 = (1,0, —1,... ,0) еЯлг+i, b2N = (1,0,0,...,-1)€Ялг+1; вектор q Ε 7£€Л^ имеет координаты qi = — inf #(χ), <?лг+г = sup #(х), Х^^г X£At i=\,...,N, Ai — подмножества поля зрения X, задаваемые индикаторными функциями Хг(-), г— \,...,Ν. Знак неравенства, связывающего два вектора, означает, что выполнены неравенства для всех координат этих векторов. Первая координата вектора и е Км+°° решения задачи линейного программирования равна искомому значению минимума, а остальные N его координат дают значение одной из проекций вектора g на V. Доказательство. Запишем равенство N inf { sup \g(x) -У^СгХг(х)\, с\^с2^ ... ^ cN\ = хех г=1 inf max sup \g(x) - a\.
2.2. Изображения с упорядоченными яркостями в пространстве С{Х) 93 Заметим, что для каждого г = 1, Уг = sup \g(x) - а\ равно xeAi ,.,Ν значение точной верхней грани Уг sup g(x) - Q, xeAi Ci - inf g(x), x£Ai если если Ci ^ Ci > 2 (2.11) где gi и g_. определены в (1.20). выполнены неравенства ζ ^ г/г Обозначим ζ = max yiy тогда для ζ для всех г = l,...,iV и г равняется наименьшему числу, для которых все эти неравенства выполнены. Учитывая (2.11), запишем ζ ^ sup g(x) - Ci, xeAt z^ Ci- inf g(x), x£Ai (2.12) и ζ является наименьшим из всех чисел, для которых одновременно выполнены неравенства (2.12). Для решения исходной задачи осталось минимизировать ζ на множестве, задаваемом системой неравенств (2.12), объединенной с неравенствами с\ ^ С2 ^ ... ^ сдт. Для этого формально запишем векторы и= (z,ci,...,cN) е Пя+°°ч d= (1,0,... ,0) G Пя+°°, тогда скалярное произведение векторов и е 7^Л^+°°, d G 71-™+°° равно г: (u, d) = г, и задача на минимум формулируется как задача минимизации линейной функции (-,d) G (7^Л/Г+°° —► 7£°°) при линейных ограничениях (2.12) и с\ ^ С2 ^ ... ^ сдг, как и утверждается в условиях теоремы. ■ Для решения задач линейного программирования разработаны достаточно эффективные алгоритмы, реализованные в большинстве стандартных пакетов прикладных компьютерных программ.
Глава 3 МОРФОЛОГИЧЕСКИЙ АНАЛИЗ ИЗОБРАЖЕНИЙ, ЗАДАННЫХ С ПОГРЕШНОСТЬЮ В этой главе рассматриваются морфологические методы решения задач узнавания, классификации сцен по их изображениям, методы выделения отличий по форме и оценивания параметров формы для моделей изображений, учитывающих погрешности, возникающие при их регистрации. 3.1. Анализ изображений, искаженных ограниченной погрешностью Пусть известна «идеальная» форма изображения / G С в виде множества V/ (или проектора P\>f на это множество). Однако условия регистрации таковы, что реальные изображения отличаются от идеального за счет шумов измерительного тракта, отличия реальной модели регистрации от идеальной и т. п. В этом случае можно считать, что «идеальное» изображение д G V/ ненаблюдаемо, доступно регистрации лишь изображение ξ, отличающееся от «идеального» на изображение v. Запишем схему регистрации изображения в следующем формальном виде: ξ = 9 + ν. (3.1) Здесь д G V/ С С — изображение, форма которого не сложнее, чем /, a v — погрешность регистрации. Предположим, что и G Λ/*, где N с С — заданное ограниченное множество шумовых изображений, и рассмотрим задачу, в которой по предъявленному изображению ξ требуется определить, можно ли считать, что оно является результатом регистрации изображения, форма которого не сложнее формы /. Ответ на этот вопрос будет положительным тогда и только тогда, когда найдется такое изображение д G V/, что ξ — # G N. В этом случае отличие результата регистрации от изображения заданного класса можно объяснить наличием погрешности. Наиболее простой вид данная задача принимает в случае, когда N есть множество элементов, норма которых ограничена: N = {у G G £, ||ι/|| ίζ ε}. Тогда для ответа на заданный вопрос требуется найти элемент из V/, ближайший по норме к ξ, т. е. вычислить проекцию Pvs£,
3.2. Анализ изображений, искаженных неограниченной погрешностью 95 элемента ξ на V/. Если \\ξ — Pvs£,\\ ^ ε. то найдется такое изображение ν е Л/*, которое объясняет отличие ξ от V/. Аналогично решается задача классификации: если классы заданы как формы изображений в виде проекторов Pj, j = 1,... ,К, и предъявленное изображение (3.1) требуется отнести к какому-либо из классов, то изображение ξ следует отнести к классу с номером к, если \\ξ — Рк£,\\ ^ ε. Если среди номеров 1,2,..., UT есть несколько, для каждого из которых выполнено указанное неравенство, то решение задачи классификации неоднозначно; если же неравенство не выполнено ни для каких номеров, следует признать, что изображение ξ не принадлежит ни одному из указанных классов. Пусть задано параметрическое множество форм Рд, λ G Л, предъявлено зарегистрированное по схеме (3.1) изображение ξ и требуется оценить значение параметра λ, определяющего форму (ненаблюдаемого) изображения д. Тогда, если Л — метрическое пространство с расстоянием £л(·»·)» для построения оценки λ значения параметра λ, минимизирующей максимальную погрешность, следует решить задачу на минимакс: λ = arg 1шпшах{^Л(А,Л) | λ,λ G Л, \\ξ - Ρχξ\\ ^ ε}, λ λ Здесь {λ G Λ, \\ξ — Ρχξ\\ ίζ ε} — множество значений параметра формы «идеального» изображения, отличие которого от ξ можно объяснить погрешностью измерений. Минимаксной оценкой параметра λ G Л является центр шара минимального радиуса, целиком содержащего это множество [45]. 3.2. Анализ изображений, искаженных неограниченной погрешностью 3.2.1. Близость изображения к форме, заданной как линейное подпространство евклидова пространства изображений. На практике довольно трудно указать точное значение величины ε, ограничивающей норму погрешности регистрации изображения. В то же время, если о погрешности ничего не известно, то формально это означает, что результат регистрации ξ может сколь угодно сильно отличаться от изображения / в (3.1), и при любой гипотезе вида «изображение ξ есть результат регистрации изображения из заданного класса» нет причин отвергать гипотезу по результату регистрации ξ. В то же время в ряде задач оценить погрешность регистрации изображения / по схеме (3.1) можно по результату наблюдения /. Опишем такие ситуации, сделав несколько достаточно общих предположений о математической модели изображения и о характере погрешности.
96 Гл. 3. Морфологический анализ изображений Как правило, в компьютерных системах, предназначенных для анализа изображений, на вход вычислителя сигнал поступает в виде конечного набора чисел, организованного в матрицы; ее матричные элементы являют собой яркости в узлах прямоугольной сетки, наложенной на поле зрения X. Формально можно считать, что такой вид принимает идеальное изображение / е £}μ(Χ) при прохождении через систему регистрации; матрица изображения д, формируемая системой, связана с входным изображением / е £2μ(X) соотношением д = Af, где оператор А моделирует систему регистрации изображений. Изображение д полностью определяется η значениями яркостей в η узлах сетки. Если сетка имеет пх столбцов и пу строк, то число узлов равно η = пх χ пу. Упорядочив эти узлы, можно рассматривать соответствующие им значения яркости изображения как координаты вектора n-мерного евклидова пространства ΊΖη\ норма вектора равна квадратному корню из суммы квадратов его координат. Изображение д Ε ΊΖη можно рассматривать и как числовую функцию #(·), заданную на множестве узлов {xiy г = Ι,.,.,η}; она является элементом пространства £}μ(Χ) со считающей мерой на X, атомы которой расположены в узлах сетки {хг, г = Ι,.,.,η}, поэтому все изложенные выше факты, связанные с изображениями как элементами пространства С2(Х), остаются справедливыми. Пусть задана форма изображения / как линейное подпространство Lf с 7£п, размерность N которого строго меньше п, предъявлено изображение ξ е 1Ζη, зарегистрированное в соответствии со схемой (3.1). Требуется ответить на вопрос, можно ли считать, что в (3.1) изображение д принадлежит С/. Что же касается погрешности измерения, будем полагать, что в пространстве W1 нет выделенных направлений, в которых преимущественно может быть сосредоточена погрешность. Такое свойство называется изотропией. Формально это означает, что квадрат нормы проекции погрешности на любое /с-мерное подпространство составляет примерно k/n-ю часть квадрата нормы всего вектора погрешности. Изотропная погрешность является аналогом белого шума, рассматриваемого в стохастической теории. Заметим, что все формы изображений содержат класс Со = {q{xi) = = const, Xi e X, г = 1,... ,п} изображений однородного поля зрения. Поэтому составляющая изображения ξ, лежащая в одномерном подпространстве Со С ΊΖΝ, не несет никакой специфической существенной информации о принадлежности £ в (3.1) к той или иной форме изображений, и далее будут рассматриваться лишь изображения из ортогонального дополнения к Со. Обозначим С/$ = {д G С/: д _L Co} и С1- = {д е ΊΖη : д _L £/}. Проекторами на подпространства L/,ο и Cf являются операторы Pj — Pq и I — Ρ/ соответственно, где Р/ —
3.2. Анализ изображений, искаженных неограниченной погрешностью 97 ортогональный проектор на L/, Ро — ортогональный проектор на Со, г I — тождественный оператор. Оператор I — Ро является ортогональным проектором на ортогональное дополнение к Со. Если в распределении яркости изображения (I - Ρο)ξ на поле зрения X нет ничего «похожего» на изображение (I - Ро)/, можно считать, что изображение (J - Ро)£ целиком состоит из измерительной погрешности. Тогда для составляющих (I - Р/)£ и (Ρ/ - Ρο)ξ этого изображения, лежащих в Cf$ и Cj- соответственно, должно (приближенно) выполняться соотношение где N — размерность пространства С/,η > N. Уменьшение этого отношения по сравнению с (п — Ν)/(Ν — 1) означает, что у изображения (J - Ρο)ξ есть составляющая из линейного пространства L/,o, т. е. отличная от константы и сравнимая по форме с изображение /, заметная на фоне шумов. Эти рассуждения позволяют считать значение функционала τ fit) = { IK'-'/KII2 т-Ш**о. ||(Ρ/-Ρο)ξ|Γ IIV ' '" ' (3.3) ||(Р/-Л))С||2 = 0, мерой близости изображения ξ к форме С/. Покажем, как с помощью так определенной близости решаются задачи узнавания и классификации изображений по форме, а также задачи оценивания параметров формы изображений. Пусть требуется выяснить, можно ли считать, что предъявленное изображение ξ является искаженным изотропной погрешностью и изображением из С/. Если значение т/(£) достаточно мало по сравнению с (п — Ν)/(Ν — 1), то, как следует из приведенных выше рассуждений, имеются все основания к тому, чтобы дать положительный ответ на поставленный вопрос. Таким образом, критерием узнавания изображения из Cj в предъявленном для анализа изображении ξ можно считать выполнение неравенства где значение порога ε на практике выбирается на основе анализа ожидаемой помеховой обстановки, допустимого отношения сигнал/шум и т.п. Точно так же при решении задачи классификации, в которой классы заданы как формы изображений в виде проекторов Pj, j = Ι,...,/f, 4 Ю.П.Пытьев, А. И.Чуличков
98 Гл. 3. Морфологический анализ изображений изображение ξ следует отнести к классу с номером к, если τ&(ξ) ^ ε, ll(flb-fl>)ill!' Здесь функционал τ>(·) определен формулой, аналогичной (3.3), в которой проектор Р/ заменен на Р&. Если среди номеров \,2,...,К есть несколько, для которых выполнено указанное неравенство, то решение задачи классификации неоднозначно. Задача оценивания параметра формы изображения д, регистрируемого по схеме (3.1), решается так же, как и в параграфе 3.1, следует лишь заменить множество {λ G Л, \\ξ — Ρ\ξ\\ ^ ε} значений параметра формы «идеального» изображения, отличие которого от ξ можно объяснить погрешностью измерений, на множество {λ G Л, τ/(ξ) ^ ε}. Минимаксной оценкой параметра λ G Л является центр шара минимального радиуса, целиком содержащего это множество. 3.2.2. Инвариантные свойства функционала близости изображения £ к заданной форме. Для исследования свойств решающих правил, основанных на функционале (3.3), дадим несколько определений по аналогии с теорией проверки статистических гипотез, см. приложение, п. А.5.2. Рассмотрим схему (3.1) регистрации изображения как частный случай схемы наблюдения за неизвестным параметром ξ = ВД, (3.4) в котором Е(д, ν) = д + v. Пространство возможных значений параметра ϋ обозначим Θ, а пространство наблюдаемых величин обозначим ΊΖ. Определение 3.1. Схема наблюдений (3.4) называется Q,Q-unea- риантной, если существуют группа Q преобразований пространства ΊΖ значений элемента ξ и группа Q преобразований множества θ значений параметра ϋ, такие htoJsK = ΊΖ, QQ = θ, и 1). Для любого 7 € G существует единственное преобразование η = = С(т) € G такое, что 7(Ξ(#)) = Ξ(7#), ^θ. (3.5) 2). ζ{0) = G. 3). Для любого 7 € G существует вариант преобразования η е G С-1 (7)> Для которого выполняется условие (3.5). Пусть Он и Эд: — непересекающиеся подмножества Θ, первое из них определяет множество значений параметров, составляющих гипотезу Н, а второе — альтернативу /С.
3.2. Анализ изображений, искаженных неограниченной погрешностью 99 Определение 3.2. Задача проверки гипотезы Η при альтернативе /С называется Q, Q'-инвариантной, если 1). Схема наблюдения (3.4) Q, ^-инвариантна. 2). Множества Η к К, ^-инвариантны, т.е. для любых ϋ\ е θη, $2 £ е Эк и любого η е Q ηϋ\ G θ^, 7^2 £ ©a:· В инвариантных задачах проверки гипотез естественно воспользоваться правилом принятия решений, основанным на инварианте группы Q преобразований пространства наблюдений ΊΖ. В рассматриваемом случае параметром ΰ является пара (#, ν), θ = ΊΖη χ ΊΖη, а ΊΖ = 7£η. В соответствии с рассуждениями, проведенными в п. 3.2.1, постоянные составляющие Род и Pqu изображений д и ν не дают информации о близости изображения ξ к заданной форме £/, поэтому имеет смысл рассматривать только составляющие ξ = (J - Ρ0)ξ, д = (I - Р0)д, ν = (J - P0)i/ изображений ξ, g и и, ортогональные^ к £о· Сформулируем гипотезу, состоящую в том, что изображение ξ является только изотропным изображением погрешности, т. е. д = О, a v G £q обладает свойством изотропии. Альтернатива же состоит в том, что q Φ О, погрешность же ν по-прежнему изотропна. Запишем множества en = {(g^):geCf,o^eC^)}, и опишем группу преобразований параметра ϋ, оставляющую неизменными как множество θ^, так и множество вд:, а также сохраняющую изотропию погрешности и. Как видно из определения, если преобразование параметра (д, и) не выводит (Р/ - Ро)д и (Р/ - Pq)u из пространства £/,о = {ζ е С/ : ζ А. Со}, (I — Р/)д и (J - Pf)v — из пространства Cf = {z e ΊΖη : г _L £/}, не обращает в ноль ненулевую составляющую (Р/ — Ро)#, сохраняет ее нулевое значение, а также сохраняет однородность погрешности и, то такое преобразование не изменит ни множество гипотез θ^, ни множество альтернатив θ^. Такими свойствами преобразований ν обладают операции /с(С//,о + U±), где к — отличная от нуля константа, С//,о — произвольное ортогональное преобразование пространства £/,о, оставляющее неизменными элементы из Cf0, U± — произвольное ортогональное преобразование пространства Cf, оставляющее неизменными элементы из С/. Для изображения q такими операциями являются произвольные невырожденные операторы Q, оставляющие неизменными элементы из Cf0 и переводящие £/,о в себя. 4*
100 Гл. 3. Морфологический анализ изображений Рассмотрим теперь группу Q преобразований пространства наблюдений Cq = (I — Po)1Z, определенную следующими соотношениями: 0 = {%,и„,иЛО = (U/β + ui)(0/k}, где к еК1, к φ 0, а операторы [7/,о и U± определены в предыдущем абзаце. Единственным преобразованием η = ζ(^) е Q, построенным по преобразованию Jk,uf<0,u±, является 7fc,fct//,o,t//,o,t/_L· Множество таких преобразований образует группу Q и, как легко видеть, множества θ^ и Эд: являются ^-инвариантными. Таким образом, задача проверки гипотезы Он при альтернативе Эд: является Q, ^-инвариантной. Инвариантом группы Q преобразований пространства £q является функционал τ/(ξ), определенный в (3.3), так как его значение не изменяется при замене ξ на ηξ. Более того, τ/(ξ) является полным инвариантом этой группы, поскольку равенство т/(х\) = т/(хг) влечет равенство х\ = 7(^2) для некоторого преобразования η. Заметим, что функционал τ/(ξ) определен в (3.3) для элементов пространства ΊΖη. В приведенных^ здесь рассуждениях его аргумент ξ е £q С Кп. Однако значение функционала τ/(ξ) не зависит от постоянной составляющей изображения ξ, а значит, τ/(ξ) = τ/(ξ). В дальнейшем мы будем пользоваться функционалом т/(·), определенным всюду на Пп. Дадим геометрическую интерпретацию близости изображения ξ к форме С/ (3.3). Значение функционала τ/(ξ) равно отношению квадратов длин сторон треугольника, вершины которого являются концами векторов ξ, Ρ/ξ и Ροξ, см. рис. 3.1. При этом если Ρ/ξ = Ροξ, то треугольник вырождается в отрезок и нет оснований считать изображение ξ отличным от константы. Значение функционала τ/(ξ) в этом случае равно бесконечности. Если же Ρ/ξ Φ Ροξ, то длина отрезка, соединяющего точки ξ и Ρ/ξ, характеризует отличие изображение ξ от формы С/, определяемое соответствующей составляющей шумового изображения и, если принять, что д е С/. Длина отрезка, соединяющего точки Ροξ и Ρ/ξ, характеризует отличие по форме изображения проекции Ρ/ξ от изображений однородного поля зрения (не зависящих от формы С/, см. параграф. 1.8, и соответственно Рис. 3.1. Геометрическая интерпретация близости изображения ξ к форме С/
3.2. Анализ изображений, искаженных неограниченной погрешностью 101 принадлежащих £/). Значение rjl(^), таким образом, дает относительную величину отличия (по форме) от константы той составляющей изображения ξ, которая принадлежит пространству £/, по сравнению с величиной составляющей шумового изображения ξ — Ρ/ξ, не зависящего от формы С/. Чем меньше величина т/(£), тем больше (по сравнению с шумом и) составляющая изображения ξ, характеризующая форму изображения исследуемой сцены, и тем больше оснований считать, что изображение ξ является изображением заданной сцены. 3.2.3. Анализ формы изображения как элемента функционального пространства. Рассмотрим теперь общий случай, в котором изображения рассматриваются как элементы функционального пространства £}μ(Χ), а неопределенность в условиях регистрации изображений может приводить к вариациям их яркости в широких пределах. Пусть форма эталонного изображения / задана как выпуклый замкнутый конус V/, для анализа предъявляется изображение ξ = д + ι/, где ν Ε £?μ(Χ) — погрешность регистрации изображения д. Для уточнения модели погрешности и обсудим сначала на неформальном уровне ее возможную природу. На практике реальные условия регистрации изображений не всегда в точности соответствуют описывающей их модели, поэтому результат их регистрации может несколько отличаться от того, что предписывает модель. Однако эти отличия не могут быть слишком большими: если согласно принятой модели изображение заданной сцены в идеале должно принадлежать конусу V/, то в реальности результат его регистрации ξ может лежать в некоторой окрестности этого конуса, причем чем больше расстояние изображения ξ от V/, тем меньше возможность получить такой результат при регистрации изображения данной сцены (точное определение меры возможности будет дано ниже, в гл. 6 части III, посвященной теоретико-возможностным моделям формы). Опишем формально модель регистрации изображения д. Как следует из определения конуса, условие д Ε V/ влечет kg Ε V/ для любого к > 0. Это свойство конуса фиксирует инвариантность модели изображения к изменению общей яркости. Потребуем, чтобы такой инвариантностью обладала и модель погрешности, а именно, если ν можно считать погрешностью, то столь же возможно считать погрешностью и изображение ки для любого к > 0. Таким образом, класс изображений 'д — {kg, к > 0} и класс погрешностей ν — \kv, к > 0} являются классами эквивалентности пространства £}μ(Χ). В качестве их представителей можно рассматривать элементы £^(Х) единичной нормы, т.е. элементы, лежащие на поверхности сферы единичного радиуса.
102 Гл. 3. Морфологический анализ изображений Близость классов эквивалентности #ι и #2 определим величиной^ угла между лучами {кд\, к > 0} и {кд2, к > 0}, а близость класса ξ к множеству классов эквивалентности, составляющих выпуклый замкнутый конус V/ — величиной угла между ξ и его проекцией РуД на V/, см. рис. 3.2. Величину угла между лучами зададим значением квадрата его тангенса, т. е. величиной отношения \\Ρν,ξ\\2 ■ (3.6) Учтем теперь, что постоянные составляющие изображений ξ, ν и д не несут содержательной информации о сравнимости изображений по форме, значит, все приведенные выше рассуждения нужно повторить теперь для их составляющих, ортогональных Со. Положим, что для любого изображения q G Со, т. е. обладающего на поле зрения X однородной яркостью q(x) = const, x Ε X (mod μ), его проекция PVfq на V/ совпадает с q. Это означает, что одномерное линейное подпространство Со целиком содержится в V/, а для проекторов Pvf на V/ и Ро на Со выполнено Ру,Ро = Ρο· Перейдя в (3.6) от изображения ξ к его составляющей (I - Ро)£, ортогональной Со, получим количественную характеристику близости формы изображения ξ к V/: Рис. 3.2. Угол между лучами ξ и Pvfi, TVf(0={ \\(PVf-P0)t\\2' oo, ||(PV/-Po)£||VO, ||(РУ/-ЗД2 = 0. (3.7) Итак, чем меньше значение т^ДО» тем ближе форма изображения ξ к V/, что позволяет упорядочить множество всех изображений £*μ(Χ) по близости к любому выпуклому замкнутому конусу. Такое свойство функционала r\>f(·) полезно для решения задачи классификации изображений. Пусть заданы К различных форм изображений в виде выпуклых замкнутых конусов Уь к= Ι,...,/f, или соответствующих им проекторов Рь к = Ι,...,/f. Предъявляется результат ξ регистрации изображения д, искаженный погрешностью ν, причем точно известно, что д принадлежит хотя бы одному из конусов 14. Требуется по предъявленному изображению ξ выбрать класс, к которому принадлежит регистрируемое изображение д. Взяв в качестве меры близости
3.3. Сравнение по форме двух изображений 103 изображения ξ к множеству 14 значение функционала rfe(o = I № a)£||2 т_т]2ф0> \\(Рк-РоШ2' оо, ||(Ρ*-Ρο)ξ||2=0, получим, что решение следует принять в пользу класса с номером /со, если По (0^(0. 3 = 1 К. (3.8) Если это неравенство (3.8) выполнено для нескольких номеров &ii» ···»&гт, то g классифицируется как изображение одного из классов с этими номерами кц,..., кгт. Меру Tvy(0 близости изображения ξ к V/ можно использовать в задачах узнавания изображения по его форме или в задаче оценки параметров его формы так же, как и меру близости т/ в п. 3.2.1, однако значение порога следует выбирать адаптивно исходя из класса рассматриваемых изображений, помеховой обстановки и т.п. 3.3. Сравнение по форме двух изображений, регистрируемых с погрешностью Выше рассмотрены методы сравнения изображений по форме, в которых была задана форма эталонного изображения / е С, и требовалось определить, является ли предъявленное изображение g E С сравнимым по форме с эталонным. Если задано изображение /, то его форма может быть построена в соответствии с определением (1.2), см. п. 1.2.2. Однако на практике часто эталонное изображение нена- блюдаемо, а доступен лишь результат ξ его регистрации по схеме (3.1), искаженный погрешностью v. Предъявленное изображение η G С также является результатом регистрации изображения g e С по схеме (3.1): η = g + μ, аддитивной погрешностью регистрации изображения g является μ е С. Задача состоит в том, чтобы по наблюдению изображений ξ и η определить, можно ли считать изображения fug сравнимыми по форме. Иными словами, требуется по заданным изображениям ξ и η определить, найдется ли такое преобразование F G F, при котором неискаженные составляющие fug изображений ξ и η связаны соотношением либо g = F о /, либо f = F о д. Подчеркнем, что сложность задачи состоит в том, что изображения / и д непосредственно ненаблюдаем ы. Уточним модель изображений /иди погрешности их регистрации. Будем считать, что поле зрения X состоит из конечного числа точек (узлов сетки на плоскости ΊΖ2). В качестве класса
104 Гл. 3. Морфологический анализ изображений изображений рассмотрим линейное нормированное пространство С(Х), а погрешность будем считать элементом С(Х) ограниченной нормы: ν G Л/} = {q G C{X), \\q\\ ^ Sf}, μβλί9 = {ς£ С{Х), \\q\\ ^ δ9}, Sf и δ9 заданы. Если класс F состоит из всех (борелевских) функций, то нетрудно видеть, что для любых двух изображений ξ и η можно найти варианты их «незашумленных частей» / и д, связанных соотношением д(х) = F{f(x))9 xeX, (3.9) для некоторой функции F G F, при этом ξ = f + v, a η = д + μ. Действительно, для нахождения такой функции F можно нанести на числовой плоскости множество точек с координатами (ξ(χ),η(χ)), χ G X, тогда незашумленные значения (f(x),g(x)) изображений окажутся в окрестностях прямоугольной формы с центром в точке (ξ(χ),η(χ)), χ G X, длины их сторон по оси абсцисс равны 26/, а по оси ординат — 26д. Всегда найдется такая функция F G F, график которой пройдет через все эти прямоугольные области, тем самым можно утверждать, что r/-// = Fo(^-i/) для некоторой F G F и для некоторых ν G Λ// и μ G Λί9. Потребуем неубывания функций из класса F, тогда порядок яркостей точек поля зрения изображений д совпадает с порядком яркостей изображения Fog (из неравенства д(х\) ^ д(х2) следует F о g(xi) ^ F о д(х2) для любых х\, х2 G X). Так же, как и в предыдущем случае, построим на числовой плоскости множество точек с координатами (ξ(χ),η(χ)) и их прямоугольные окрестности размера δ/ χ δ9, χ G X. Тогда график монотонной функции, связываюей яркости изображений д и / соотношением (3.9), должен проходить через все эти окрестности. На практике иногда встречаются задачи, в которых сравнимыми по форме удобно считать изображения fug, обладающие следующим свойством: существует разбиение поле зрения X на два непересекающихся подмножества А и А = Х\А, таких, что на подмножестве А выполнено соотношение / -< д, а на подмножестве А — соотношение д -< /. Это означает, что найдутся такие элементы F\, F2 класса F монотонно неубывающих функций, для которых выполнено д(х) = F\(f(x)) для всех χ G Л, f(x) = F2(g(x)) для всех χ G А. Вернемся вновь к проблеме сравнения по форме изображений / и д, по результатам их регистрации ξ = f + ν, η = д + μ. Для того чтобы изображения / и д были сравнимы по форме в смысле, описанном в предыдущем абзаце, необходимо и достаточно, чтобы через прямоугольные окрестности всех пар точек (ξ(χ),η(χ)) на числовой плоскости можно было провести «монотонную кривую», которая может содержать как горизонтальные участки, так и вертикальные.
3.3. Сравнение по форме двух изображений 105 Формально задача сводится к следующему. Пусть поле зрения состоит из конечного набора точек; значения сигналов ξ, η, f и g в г-й точке обозначим &, т/г, /г и #г соответственно, г = 1,...,га. Требуется найти точки (fi,gi), ближайшие к некоторым соответствующим им точкам {£j,Vj), где j = j(i), г = 1,...,п, и функция j(-) устанавливает взаимно однозначное отображение (биекцию) множества чисел от 1 до п на себя, причем должны выполняться неравенства /l ^ /2 ^ ··· ^ /п. 9j{\) ^ 0j(2) ^ ··· ^ 9j{n)· Выполнение этих неравенств эквивалентно тому, что изображения / и g сравнимы по форме в указанном выше смысле. Расстояние между точками числовой плоскости задается следующим правилом: р((/,,М^))=тах{^,^}. Если максимальное среди всех расстояний между ближайшими точками (fi,gj(i)) и (£i,Vj(i)) не превосходит единицу, то отличие точек (ξί, Vj(i)) от точек (fi,g(i)) можно объяснить шумом. Заметим, что задача поиска ближайших к (&,г7я*)) точек путем выбора биекции j(-) и значений их координат (/г,^(г)), i= 1, .., гг, может иметь неединственное решение, однако интерес представляют не сами координаты, а максимальное среди всех расстояний между ближайшими точками (/г,^(г)) и (&,r7j(i))» i— 1, — , гг, так как именно оно определяет ответ на поставленный вопрос. В случае, когда априори не задано ограничение на величину погрешности δ, это расстояние является оценкой погрешности. Если эта погрешность представляется разумной, то изображения / и g можно считать сравнимыми по форме. Проиллюстрируем предложенный здесь метод результатом сравнения по форме двух сигналов, полученных регистрацией звука от некоторого удаленного источника с помощью микрофонов, установленных в различных пространственных точках. Эта задача упоминалась в предисловии, см. рис. П.4. На рис. 3.3 (см. цветную вклейку) приведены результаты регистрации выходных сигналов микрофонов в виде графиков зависимости от времени амплитуд трех сигналов, изображенных зеленым, синим и красным цветами. Сравним по форме сигналы, графики которых изображены синим и красным цветами. Для этого построим на числовой плоскости семейство точек (ξ(ί2),τ/(ί2)), г= Ι,.,.,η, рис.3.4 (см. цветную вклейку); здесь ξ — сигнал, график которого изображен синим цветом на рис. 3.3, а η — красным. На этом же рис. 3.4 проведем ломаные, прямоугольные отрезки которых параллельны осям координат. Ломаная, изображенная синим пунктиром, ограничивает облако точек сверху и слева, а красная штрих-пунктирная ломаная — снизу и справа.
106 Гл. 3, Морфологический анализ изображен й 0,6 0,4 ,* 0 -0,2 0,4 0,6 0,8 t - 1,(195 Т^ 1 1 1 1 ,1 1,105 " ] ι 1 1 J Д1 U ι— 1 15 t А А ,ц А А -\ ( Д2 χ о4 ис. 3.3. Резу тат регистрации сигналов на выходе микрофонов Рис. 3.4. Множество точек (ξ(ΐ )>^(ti))> i = 1,-..,тг, для сигналов, рассогласо- а ш\ по време ι i Будем считать, что величины макс шальной по решности фи регистрации сигнале не зависят от то о, с омещью какого микрофона они ρ гист ирую с . Тогда половина дли с ороны квадра а м ксимал - него разм ра, котор й юме1 ае ся ме у эт ми л ни ми, яв яется оценкой величинь δ: δ= max imn{\i(ti)-f(ij(i))l\r(ti)-g(tj{i))\}, Для ситуации, изоб женной на ис.3.4, э а оценка оказалась равной 0,46, что составляет приме но половину максимальной амплитуды сигнала ι совершенно не пр 1емлемо для того, чтобы считать эти си налы с авнимыми по форме. Однако сдвигом графика одного из с тналов вдоль оси времени можно олуч ть ситуацию, изображенную на рис. 3,5 После совме е-
3.3. Сравнение по форме двух изображений 107 0,8 0,6 0,4 0,2 О -0,2 -ОД 0,6 -0,8 -0,8-0 6-0, -О* О О, О, 0,6 U,8 Рис. 3.5. Множество то гек (£(£*}. 7?(tt))* i — 1, ■■- >п> после сдвига 0,6 L L l· 1 *-- г*- Г ■' ί ί .— ι ι '-+£?Ε» * l· t —ι τ Γ **"- ^■^J*4 + t t v-4- * ι 1 ' 1 -"-A* j j J j 1 0,4 0,2 Τ -0,2 0,4 0t6 -0,8 i^JVvWW^ 1,09 ,i ,095 1,1 ,105 ,n 1Д15 1Д2 1, 25 x 104 Рис, 3.6. Сигна lh после сдвига по времени н 1я сигналов получена приемлемая оценка измерительной погрешности δ = 0,05, чо соответствует амплитудному отношению сигнал/шум равному 9Р2Т вполне реалистичному для подобных изме ений. Графики сов^еще н χ с гна ов изображены на шс+3+6.
Часть II СТОХАСТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА ФОРМЫ Глава 4 МОРФОЛОГИЧЕСКИЙ АНАЛИЗ ИЗОБРАЖЕНИЙ, ИСКАЖЕННЫХ СЛУЧАЙНЫМ ШУМОМ В этой главе рассматриваются морфологические методы решения задач узнавания, классификации сцен по их изображениям, методы выделения отличий по форме и оценивания параметров формы для моделей, учитывающих погрешности стохастической природы, искажающие изображения при их регистрации. 4.1. Модель регистрации, искажающей изображение случайным шумом Здесь так же, как в предыдущей главе, будем считать, что доступным для анализа является изображение ξ, полученное в результате регистрации некоторого «идеального» изображения, сравнимого по форме с заданным изображением /. Схему наблюдения изображения запишем в виде f = Fo/ + i/. (4.1) Здесь F — априори произвольный элемент класса F допустимых преобразований яркости изображения /; изображение / и класс преобразований F задают эталонную форму V/. Будем интерпретировать ξ как искаженный шумом ν результат регистрации изображения F о f при некотором F G F. Изображение / ненаблюдаемо, доступно наблюдению лишь изображение ξ. Так же, как и в п. 3.2.1, будем считать изображение / вектором евклидова пространства ΊΖη, координаты /ι,...,/η которого суть значения яркости изображения в точках {хи г = Ι,.,.,η}
4.1. Модель регистрации, искажающей изображение 109 поля зрения, ft = f{x%), i = 1,...,п. Будем полагать, что погрешность ν е ΊΖη — это случайный вектор пространства ΊΖη с нулевым математическим ожиданием Ει/ = 0 и ковариационным оператором σ2/; здесь Ι Ε (7£η —> 7£п) — единичный (тождественный) оператор, шум с таким ковариационным оператором называется белым (ковариационный оператор случайного вектора и = (v\t... ,vn) задается матрицей ковариаций, матричные элементы которой равны ковариации соу(vi,Vj) = E(vi — Evi)(vj — Evj) соответствующих координат вектора v\ равенство нулю диагональных элементов матрицы σ2Ι означает, что погрешности измерения яркости в точках {xit г = 1,...,га} поля зрения X некоррелированы). Параметр σ2 > 0, равный дисперсии погрешности измерения яркости изображения F о f(xi) в точке хи г— 1,...,п, как правило, неизвестен. Если известно, что вектор погрешности имеет нормальное (гауссово) распределение с математическим ожиданием щ и ковариационным оператором Σ, то этот факт будем обозначать ν ~ М{щ, Σ); в рассматриваемом случае ν ~Λ/*(0, σ2Ι). В простейшей ситуации возможные условия наблюдения сцены таковы, что ее изображение / является кусочно постоянным на поле зрения Χ, Ν ί{χ) = Σ*κ(χ)> хеХ> <4·2) г=\ а все множество ее «идеальных» (ненаблюдаемых) изображений {Fo/, F eF} образует линейное подпространство вида N Cf = {feKn: f = J2aXi> c<G (-οο,οο), г= 1,...,Λτ}. (4.3) г=1 Если же класс F нелинейных преобразований является классом монотонных функций, то множество изображений {Fo/, FgF} является TV-мерным конусом ΊΖη: N Vf = {ge Пп: g = ^СгХг, -оо < сх ^ с2 ^ ... ^ cN < оо} С ΊΓ. г=1 (4.4) В общем случае форму изображения /, являющуюся линейным подпространством ΊΖη (например, получаемую из / всевозможными борелевскими преобразованиями яркости), будем обозначать символом £/, а форму /, являющуюся выпуклым замкнутым конусом ΊΖη (получаемым, например, всевозможными монотонными борелевскими преобразованиями яркости /), — символом V/. Элементы множеств С/ и V/ не наблюдаемы, доступны для наблюдения лишь изображения из С/ или V/, искаженные аддитивным шумом.
110 Гл. 4 Морфологический анализ изображений 4.2, Форма как линейное подпространство TV1 4.2.1. Узнавание изображения, искаженного шумом ограниченной энергии. В этом разделе считается, что форма предъявленного изображения задана в виде линейного подпространства Cj пространства 71п размерности N < η (в качестве примера та ,о" фо мь может служи ь юдпрос ранство, определенное в (4.3)); дисперсию σ2 шу ia, возни ающего в про ессе регистра ии изображе .ия *з £/, будеь считат известной. Задачу узнавания объекта по его 13ображению в рамках сформу- ли ованной модели регистрируемого изображения оставим как задачу провер и гипотезы о том, что пред явленное зображение £ е 71η может быть представлено в в де сум ν ы £ = * + *. (4-5) где первое слагаемое д являе ся изображе! ием из £/, а вто ое — с iy а иной погрешнее ью и е 7£п, контро ируемой нормальным (гауссовым) распределением Μ(0τσ2ϊ). Альтернатива состоит в том, что изображение ζ ie представимо в виде ( .5) ни при каких значениях Р€ С/. Примером такой задачи является узнавание неко орого знака о его зашумле! ному изображению, зада *ному на однородном фоне дискретного поля зрения; форма предъявляемого в уъе изображения является линей ι м од- прос ранством Cf, определен хым в (4.3), см. рис.4Л, При ве ной гипотезе изоб аже 6 ние ξ является случайным элемен- „ ^ том (вектором) пространства TZnt Рис 4.1. идеальное изображение , ч 1 контролируемым ^орма. ьнь м рас (а) дискретизованное зашумлен- r rj r нос изображение знака (б) ределениел с ь атемати геекм ожи- да шем, π и надлежащим Cj, и ковариационным оператором σ2Ι: ξ ^ Af(gta2 ), д £ Cj. При верной аль- ернативе юрмально распределенный вектор ξ имеет математическое ожидание д fi Cf. как известно [44, 45], для решения задачи проверки ста истической гипотезы П: ξ-Λ^,σ2/), gtCj, против альтернативы /С: £~Λ%,σ2/), g££fi
4.2. Форма как линейное подпространство ΊΖη 111 существует равномерно наиболее мощный инвариантный критерий: гипотеза отвергается, если \\ξ — Pcfi\\2/σ2 > ε, (4.6) причем ε выбирается из условия где α Ε [0,1] — уровень значимости критерия, равный вероятности ошибки первого рода, см. приложение, п. А.5.2, χ^_Ν — случайная величина, контролируемая распределением Пирсона (хи-квадрат) с числом степеней свободы, равным разности размерности вектора ξ и размерности линейного подпространства £/, Pcf — ортогональный проектор на С/. Поступая согласно правилу (4.6), мы будем ошибочно отвергать гипотезу Η с вероятностью а, а вероятность отвергнуть неверную гипотезу (мощность критерия) при этом будет максимальна (в классе инвариантных решающих правил; группа преобразований, к которым инвариантно это правило, описана в приложении, п. А.5.2). Заметим, однако, что среди распределений вектора ξ, составляющих гипотезу, имеются распределения с математическим ожиданием go Ε Со, где Со = {д € 7£п, д = С · χχ, С = const} — множество изображений однородного поля зрения, т.е. изображений, форма которых не зависит от формы С/, см. параграф. 1.8. Поэтому, следуя правилу (4.6), в случае Со С £/ можно принять гипотезу и в том случае, когда на предъявленном изображении вообще отсутствуют какие-либо детали, характеризующие форму изображения заданной сцены, кроме ее средней яркости. В этом случае формально гипотеза справедлива, но с практической точки зрения исследователя наверняка не удовлетворит решение, при котором утверждается, что однородное поле зрения есть изображение заданной сцены или знака. От этого недостатка можно избавиться, проверяя предварительно гипотезу о том, что математическое ожидание предъявленного изображения не является константой. Однако более эффективным в этом случае является подход, рассмотренный в следующем пункте. 4.2.2. Узнавание изображения, искаженного шумом неограниченной энергии. Пусть в (4.5) погрешность ν является нормально распределенным случайным вектором евклидова пространства ΊΖη с нулевым математическим ожиданием и ковариационным оператором σ2/, дисперсия σ2 > 0 координат шума ν неизвестна. По предъявленному изображению следует принять решение, можно ли считать его изображением заданной сцены, либо отвергнуть это предложение. При этом о сцене известно, что ее идеальное не искаженное шумом изображение сравнимо по форме с заданным изображением / и множество всех таких изображений составляет линейное подпространство С/ в Кп.
112 Гл. 4. Морфологический анализ изображений Если бы регистрация изображения (4.5) была абсолютно точной, т. е. в (4.5) ν = О и ξ = д, то, как следует из определений гл. 1, условием узнавания служило бы равенство Pcfg = Я- Однако, как уже отмечено выше, в п. 4.2.1, если д{х%) = const, г = 1,...,п, то, хотя равенство Pcfg = g выполнено, но такое изображение не зависит от формы £/, см. параграф. 1.8. Поэтому естественным условием принятия решения о том, что д есть изображение сцены, форма изображений которой есть £/, является одновременное выполнение равенства Pcfg = g и неравенства (Pcf — Ро)д φ 0. Однако на практике с вероятностью единица ν φ 0, и все проведенные выше рассуждения касаются ненаблюдаемого математического ожидания вектора ξ е ΊΖη. Задачу узнавания изображения заданной формы рассмотрим как задачу проверки статистической гипотезы о математическом ожидании Εξ = g изображения ξ. Если известно, что ν ~ Λ/*(0, σ2/), то гипотезу и альтернативу сформулируем следующим образом: Η: ξ~Λ/*(<?,σ2/), (J-Po)<7 = 0, (4.7) против альтернативы К: ξ~ΛΑ(5,σ2/), PLfJtg*0, (I-PLfu)g = 0. (4.8) Если гипотеза справедлива, то нет оснований считать ξ изображением заданной сцены, все изображения которой сравнимы по форме с /; если же верна альтернатива, то ξ естественно считать изображением заданной сцены. Заметим, что, как при верной гипотезе, так и при верной альтернативе, дисперсия погрешности неизвестна, и ортогональные проекции изображения, лежащие в ортогональном дополнении к С/, объявляются шумовой погрешностью, роль которой на практике, так же, как и в п. 3.2.1, могут играть изображения сцен, отличных от заданной. Как показано в приложении, п. А.5.3, задача проверки статистической гипотезы (4.7) обладает определенной симметрией, связанной с инвариантностью гипотезы и альтернативы относительно преобразований группы Q, а пространства наблюдения ΊΖη — относительно преобразований соответствующей группы Q, а ее решение, не зависящее от неизвестного параметра σ2, дается следующей теоремой. Теорема 4.2.1. Наиболее мощный инвариантный критерий уровня а решения задачи проверки гипотезы (4.7) против альтернативы (4.8) дается критическим множеством Sa с индикаторной функцией
4.2. Форма как линейное подпространство TV 113 где ..,_ „ 2 т = \\{Рс,-т\г ξΕΊΖ' (4Л0) константа С определена равенством Φ(Ν-ι.»-ΛΓ)(^η^)=1-α, α Φ(^,ρ)(·) — функция распределения Снедекора-Фишера с (fc,p) степенями свободы. Таким образом, оптимальное правило решения рассмотренной задачи узнавания заданной сцены по его изображению ξ, регистрируемому в шуме, формулируется следующим образом: предъявленное изображение ξ G ΊΖη может быть изображением заданной сцены, если j(£) ^ С. При использовании такого правила вероятность ошибочного узнавания сцены (уровень критерия) не превышает а, а вероятность ошибиться, не узнав изображение сцены, минимальна среди всех инвариантных критериев, уровень которых не больше а. Пусть теперь распределение вектора погрешности и е ΊΖη в (4.5) неизвестно, известны лишь егю математическое ожидание Ει/ = 0 и ковариационный оператор σ2Ι. В этом случае будем пользоваться решающим правилом (4.9), считая, что узнать сцену в предъявленном изображении ξ можно тогда, когда разность между g и Род достаточно велика по сравнению с погрешностью Pcsv — P$v. Действительно, так как математическое ожидание является наилучшей в среднем квадратичном априорной оценкой случайной величины, то для числителя в (4.10) его оценка может быть записана в виде E||(J- Рс,)й2 = tr[(I- Ρ£,)Σ„(Ι- Рс,)] = (η-Ν)σ2, (4.11) поскольку Pcf9 — Я- Здесь для любой квадратной матрицы Q обозначение trQ означает ее след, т.е. сумму всех ее диагональных элементов. Из соотношения (4.11) можно получить несмещенную оценку парамет- ;~У^Ш. (4..2> (п - N) Точно так же оценим величину составляющей вектора ν, лежащей в £дг и ортогональной константе: \\(PCf - Ро)И12 * ||(/ - Pc№2£^jr- (4-13) С этой величиной и имеет смысл сравнивать величину \\(Pcf — Д))£||2. отличающую от константы ту «часть» предъявленного изображения ξ,
114 Гл. 4. Морфологический анализ изображений которая имеет форму, в существенном определяющуюся формой изображения заданной сцены. Заметим, что дополнительная информация о нормальном распределении погрешности позволяет сформулировать оптимальное правило выбора порога, данное в теореме 4.2.1: порог выбирается так, чтобы вероятность ошибиться, узнавая сцену в предъявленном изображении, не превосходила а, при этом вероятность правильного узнавания максимальна. Таким образом, если ν — белый шум с неизвестной дисперсией, то даже при неизвестном распределении ν приведенная выше интерпретация решающего правила (4.9) все же позволяет использовать функционал j(-) как меру сходства изображения ξ с изображениями сцены, форма которых задана в виде подпространства С/. Критерием сходства является выполнение неравенства ЛО^со. (414) при этом квадрат нормы составляющей изображения ξ, ортогональной форме £/, в со раз меньше квадрата нормы составляющей изображения £, имеющей форму С/ и ортогональной константе. 4.2.3. Принцип максимума надежности при классификации изображений, искаженных гауссовым шумом. Рассмотрим задачу классификации, в которой заданы Μ сцен, изображение k-й сцены регистрируется согласно схеме i = 9k + v, ζ, Як, veKn, (4.15) где ν ~Λ/*(0, σ2Ι) — случайная погрешность регистрации, а дъ — неискаженное изображение сцены. Форма неискаженного шумом изображения дк задана в виде линейного подпространства Ck С ΊΖη размерности Nk,k=l,...,M. В задаче классификации предъявляется некоторое изображение ξ и требуется указать, изображением какой сцены из заданных Μ оно является. Учтем, что постоянная составляющая изображений не несет существенной информации об изображаемой сцене, и будем рассматривать лишь составляющую ξ = (I — Ρο)ξ изображения ξ, ортогональную Со. Задача классификации в этом случае может быть рассмотрена как задача выбора одной из Μ конкурирующих гипотез Н\,..^Нм\ к-я гипотеза состоит в том, что предъявленное изображение ξ является нормально распределенным случайным вектором Cq с математическим ожиданием Εξ Ε £ь ковариационный оператор вектора ξ Ε Cq равен а2{1-Р0)еПп^Пп\ к= 1.....М.
4.2. Форма как линейное подпространство ΊΖη 115 Воспользуемся принципом максимальной надежности статистической гипотезы [34, 55]. Характеристикой согласия гипотезы с результатом наблюдения является надежность, понимаемая как минимальный уровень наиболее мощного критерия, при котором гипотеза еще отвергается, см. приложение, пп. А.5.4, А.5.5. Надежности гипотезы можно придать смысл возможности ошибиться, отвергая гипотезу в пользу альтернативы, см. часть III настоящей монографии. Возможность Ps(·) определяется как мера на множестве событий, альтернативная вероятности, см. приложение, пп. А.6, А.7, а также монографию [39]. Возможность принимает значения на интервале [0, 1] и значение Ps(A) характеризует шансы наступления события А в ранговой шкале: содержательными в теории возможностей являются утверждения вида «событие А более (менее) возможно, чем событие В», или «события А и В равновозможны»; конкретное значение возможности Ps(A) события в этом смысле оказывается несущественным. В рассматриваемом здесь случае надежность представляется в виде случайной величины α(ξ), распределенной равномерно на [0,1] при верной гипотезе и с неограниченной в нуле плотностью в случае альтернативы. Поэтому малые значения надежности свидетельствуют, скорее, в пользу альтернативы, чем в пользу гипотезы. Согласованная с вероятностью возможность [39] обладает следующим свойством: если для пары событий А и В вероятность события А больше вероятности В, то возможность события А не меньше возможности В. Интерпретация надежности гипотезы как возможности ее выполнения является в этом смысле согласованной с вероятностной моделью надежности. В приложении, п. А.5.5, показано, что надежность гипотезы Η: ξ~Λ/*(α,σ2/), a G С С ?гп, при альтернативе /С: ξ-Λ/^,σ2/), Ь££, где С — линейное подпространство ΊΖη размерности Ν, дается выражением (А.52): α(ξ) = 1 - П(п_ло(||(/ - Ρε)ξ\\2/σ2), (4.16) где Пп-н(·) — функция распределения Пирсона хи-квадрат с к степенями свободы, Рс — ортогональный проектор на С. Для решения задачи классификации при к = Ι,.,.,Μ рассмотрим задачу проверки гепотезы Нк - ξΛΓ(α,σ2), a G Lb против альтернативы /Cfc : Ν(α,σ2), α £ L^, и вычислим надежность α/~(ξ) = 1 — - П(п_дгА;)(||(/- Ρ^)ξ||2/σ2) каждой из них, считая, что Pk — ортогональный проектор на L^.
116 Гл. 4. Морфологический анализ изображений Принцип максимальной надежности состоит в том, что при предъявлении изображения ξ принимается гипотеза с номером /со, при котором выполнены неравенства од0(£) ^ ОД(0» & ¥" &о» или, с учетом (4.16), неравенства 1 - Π(η_Ν )(||(J - 1%,)ξ\\/σ) > 1 - Π(η_ΛΓ0(||(Ι - Ι\)ξ\\/σ), k φ k0. (4.17) Если неравенства (4.17) выполнены для нескольких номеров &о,ь ···»fco.m» то, при отсутствии априорных предпочтений, выбор любой из гипотез с номерами fco,i,..., fco.m осуществляется произвольно. Заметим, что если размерности подпространств £ь к= 1,...,М, одинаковы, N\ = ... = NM, то принцип выбора гипотезы (4.17) сводится к выбору по минимуму расстояния вектора ξ до подпространств Ск, к= 1,...,М. Итак, если ξ еИп — предъявленное изображение одной из сцен, форма которой задана в виде подпространства Ск, и требуется определить, изображением какой из Μ сцен является ξ, то выбор осуществляется на основании правила (4.17). Если размерности всех подпространств £fc, к = 1,...,М, одинаковы, то считается, что ξ изображает сцену с номером ко, для которого Н(1-/ш<||(/-а)£||, к φ ко. Если эти неравенства выполнены для нескольких номеров fco.i».·, fco,m. то, при отсутствии предпочтений, выбор любой из сцен с номерами fco.i» ··· »&о,т осуществляется произвольно. Поясним, в каком смысле предложенное решающее правило (4.17) является оптимальным. Как следует из определения надежности од (ξ) гипотезы Нк и, в частности, из монотонности отношения правдоподобия для нецентрального распределения Пирсона, см. [29, 44, 45] и приложение, пп. А.5.4, А.5.5, функция распределения Fktk(-) надежности ОД (О ПРИ верной гипотезе Нк не превосходит функцию распределения Fkj.(·) надежности од (ξ) при верной гипотезе Нр Fk,k{z) < Fktk(*)> z € (-°°> °°)· Отсюда следует, что для любого ζ е [0,1] при верной гипотезе Нк выполнены следующие соотношения для вероятностей: Р*(од(0 > ζ) = 1 - Fktk(z) = 1 - Ο 1 - Fk%(z) = Р^(од(0 > z), т.е. для любого ζ е [0, 1] при верной гипотезе Нк наиболее вероятно, что именно статистика од (ξ) будет наибольшей среди всех α^(ξ), к, к = = Ι,.,.,Μ. Таким образом, решающее правило (4.17) минимизирует вероятность ошибочной классификации.
4.2. Форма как линейное подпространство ΊΖη 117 С другой стороны, поскольку, согласно определению, α&(ξ) есть уровень критерия проверки гипотезы Нк, то в рассматриваемом случае надежности α^(ξ) можно придать смысл вероятности ошибиться, отвергая верную гипотезу Hk на основании измерения ξ. Подчеркнем, что свойства надежности позволяют считать α^(ξ) согласованным с вероятностью распределением возможности (см. приложение, п. А.7) на множестве классов к = 1,... ,М. Сформулированный здесь принцип максимума надежности при классификации изображений приводит к решению, в котором выбирается гипотеза с максимальными шансами. Рассмотрим теперь ситуацию, когда погрешность регистрации изображения ξ в (4.15) имеет нормальное распределение с нулевым математическим ожиданием Ει/ = 0, ковариационным оператором σ2Ι и неизвестной дисперсией σ2 > 0. Рассуждая так же, как при решении задачи узнавания, рассмотренной в п. 4.2.2, для каждого к = 1,..., Μ сформулируем две конкурирующих гипотезы: Η: ξ-Λ/^,σ2/), {I-P0)q = 0, (4.18) и К: ξ-Λ/^,σ2/), (PLk-P0)q^0, (I-PCk)q = 0, (4.19) где Рск — проектор на £^, a Pq — проектор на одномерное подпространство изображений Со однородного поля зрения X. Надежность гипотезы (4.19) при альтернативе (4.18) вычислена в приложении, п. А.5.5, и равна <*<0-»№-.~»..((я£^). (4-ЭД "M-lk^·"-1 "· Выбор сцены, изображенной на предъявленном изображении ξ, осуществим на основе принципа максимальной надежности, согласно которому ξ изображает сцену с номером ко, если Если неравенства (4.21) выполнены для нескольких номеров ко,\, ··· ι fco.mi то, при отсутствии априорных предпочтений, выбор любой из сцен с номерами /со,ι,..., ко,ш осуществляется произвольно. Заметим, что если размерности подпространств Ck, к= 1,...,М, одинаковы, N\ = ... = Nm, to принцип выбора изображенной на ξ сцены (4.21) сводится к выбору по минимуму инварианта jfc(£),
118 Гл. 4. Морфологический анализ изображений к = 1,...,М: номер выбранной сцены ко должен удовлетворять неравенствам Jfco(0 < Jfc(0> к ф ко. Класс нецентральных распределений Снедекора-Фишера с (га,р) степенями свободы также является классом с монотонным отношением правдоподобия [29], поэтому для решающего правила (4.21) справедливы те же утверждения, которые касались алгоритма классификации (4.17), а именно, решающее правило (4.21) минимизирует вероятность ошибочной классификации, и надежности од (ξ), определенной в (4.20), можно придать смысл вероятности ошибки к-то рода, к= Ι,.,.,Μ, [4]. Согласно с введенной выше интерпретацией надежности как меры возможности, сформулированное здесь решающее правило выбирает сцену с номером ко, возможность которой максимально. 4.2.4. Оценка параметров объекта по его зашумленному изображению. В этом пункте будем полагать, что форма изображения сцены является линейным подпространством С\ С ΊΖη, значение параметра λ G Λ априори неизвестно, но задано множество Λ возможных его значений. Наблюдаемое изображение ξ сцены получено согласно схеме (4.5), где д G £\0. По изображению ξ G Кп требуется оценить значение λο G Λ. Например, по изображению сцены требуется оценить размер или координаты объекта заданной формы, взаимное расположение объектов сцены и т.п. Пусть погрешность наблюдения и G ΊΖη в (4.5) контролируется нормальным распределением λί(0, σ2Ι) с известной дисперсией σ2 > 0. Тогда при любом λο G Л случайный вектор ξ контролируется распределением Λ/*(<7(λο),σ2/), где д(Хо) G £\0, и по результатам наблюдения ξ требуется построить оценку параметра λο· Оценивание параметра λο по предъявленному изображению ξ G ΊΖη можно рассматривать как обобщенную классификацию сцен по их изображениям: роль конкурирующих гипотез в задаче оценивания играют распределения случайного вектора ξ, зависящие от параметра λGΛ. Так же, как и при решении задач классификации, будем использовать принцип максимальной надежности, для чего при каждом λ G Л вычислим надежность гипотезы Η(λ): ξ~Μ(9,σ2Ι), деСх, при альтернативе ВД: ξ~Ν(9,σ2Ι), д^Сх,
4.2. Форма как линейное подпространство IV 119 воспользовавшись выражением для надежности этой гипотезы, приведенными в приложении, п. А.5.5: α(1\)=1-Πη_Ν(Χ)(\\(Ι-Ρχ)ξ\\2/σ"), где ξ = (I — Ρο)ξ, Ρχ — ортогональный проектор в W1 на С\, Ν(Χ) — размерность пространства С\. Если максимальное значе- ние^надежности α(ξ, λ) достигается в точке λ* (£) Ε Λ, то значение λ* (О будем называть оценкой максимальной надежности параметра λο· Заметим, что с вероятностью единица выполнено равенство (I - Ρ\)ξ = (I - Ρ\)ξ, поэтому всюду далее, где это возможно, будем писать ξ вместо ξ. Если размерности подпространств С\ одинаковы при всех λ е Л, то оценка максимальной надежности (если она существует) может быть получена как решение задачи ||(J -Ρλ.(ξ))ξ||2 = max \\{Ι - Ρχ)ξ\\2. Иначе говоря, в качестве оценки предлагается выбрать параметр, который определяет ту форму изображения сцены, к которой наиболее близка форма предъявленного изображения. Если оценка максимальной надежности не единственна, то выбор среди них может быть осуществлен произвольно, либо должны привлекаться дополнительные соображения. Если изображения ξ многократно наблюдаются по схеме (4.5) при независимых реализациях погрешности и, так, что ξ = (£i,...,&v) _ выборка из распределения Af(go,a2I), go e £\0, то надежность гипотезы Н(Х) при альтернативе /С(А) зависит от функционала N Sn(£,A) = 5>(&,A), где τ(<7,λ) = ||(/-Ρλ)<7||2, λ G Л, g e Пп. i=i Асимптотические свойства оценок максимальной надежности при увеличении объема выборки N сформулируем в виде теоремы. Теорема 4.2.2. Пусть выполнены следующие условия: •got С\о и 9о i С\ при λ0 φ λ; • производная Q{g,X) = Л ' е KL в точке g = ξ обращается в нуль при λ = λ*; • функционал Sn{-,·) в некоторой окрестности точки (ξ, λ*) имеет вторые производные В(9,Х) = Щ^€(П^^),
120 Гл. 4. Морфологический анализ изображений причем матрица #(·,·) непрерывна в точке (ξ, λ*), udetB(£,X*)^0. Тогда 1. Оценка Χ*Ν = λ*(ξι,... ,ξτν) максимальной надежности сильно состоятельна. 2. Последовательность векторов {{Χ*Ν — Xo)V~N} при N —► оо слабо сходится к нормальному распределению Л/*(0, Т), где ковариационный оператор Τ е (KL -> HL) равен T = a2(B*(go,Xo)rlC*(go,Xo)C(go,Xo)(B(go,Xo)r1· (4.22) Доказательство теоремы 4.2.2 приведено в приложении, см. п.А.5.6. Оператор Τ е (KL —►1ZL) можно рассматривать как асимптотическую характеристику погрешности оценки максимальной надежности при стремлении к нулю измерительной погрешности σ2, что позволяет использовать оператор σ2(Β*(90, Хо)Г1С*(до, X0)C(g0, Xo)(B(g0, λο))"1 как приближенное значение ковариационного оператора оценки λ* (ξ) при малых дисперсиях шума σ2 для единственного наблюдения ξ по схеме (4.5). Пусть теперь дисперсия σ2 шума на изображении ξ априори неизвестна. Поступая так же, как при классификации сцен, для каждого λ G Л сформулируем гипотезу ЩХ): ξ~Λ%,σ2/), geU (4.23) против альтернативы /С(Л): ξ~Λ%,σ2/), (Ρλ-Ρο)<^0, (I-Px)g = 0, (4.24) где Р\ — проектор на С\, a Pq — проектор на одномерное подпространство изображений Со однородного поля зрения X. Надежность альтернативы (4.24) вычислена в приложении, п. А.5.5: ГДеп(.)= IKJ-^)-ll2 ЛЫ) ΙΙ(Ρλ-Ρο)·|Γ Оценим значение параметра λ* (ξ) е Л сцены, изображенной на ξ, из принципа максимальной надежности: α(ξ, λ*(ξ)) = sup{a(£, λ) | λ € Λ}. (4.25)
4.2. Форма как линейное подпространство TV 121 Если решение задачи (4.25) не единственно, то, при отсутствии предпочтений, оценка значения параметра λ выбирается произвольно из множества решений задачи (4.25). Если размерности подпространств С\, λ Ε Λ, одинаковы, то задача (4.25) сводится к задаче 7λ·«)(0=ίηίΟ'λ(0|λ€Λ}. Это означает, что в качестве оценки параметра сцены выбирается такое значение λ*(ξ), которое соответствует сцене, форма изображения которого наиболее близка к форме предъявленного изображения ξ. Оценка (4.25) обладает Свойствами инвариантности, описанными в п. А.5.3 приложения, а также асимптотическими свойствами, приведенными в теореме 4.2.2, однако не максимизирует точность определения значения параметра λ. Оптимальные по точности оценки рассмотрены ниже. 4.2.5. Случайные множества, оценивающие значение параметра сцены по ее изображению. Обозначим (Ω,.77, Ρ) вероятностное пространство с множеством элементарных событий Ω, сигма-алгеброй Τ его подмножеств и вероятностной мерой Р, заданной для каждого элемента Т, и рассмотрим случайное изображение ξ = ξ(ω) G ΊΖη, ω e Ω, измеримую функцию, отображающую Ω в ΊΖη. Пусть ξ является результатом регистрации изображения /, искаженным случайным шумом ν по схеме ξ = / + ι/, Ει/ = 0; форма Va изображения / зависит от неизвестного параметра λ е Л с lZm, где 1Zm — евклидово пространство. Тогда математическое ожидание / вектора ξ содержится в множестве V\; параметр λ G Л, определяющий это множество, неизвестен. Рассмотрим отображение ΊΖη, ставящее в соответствие каждому элементу ζ е ΊΖη борелевское подмножество Ф(г) С Λ. Если аргументом этого отображения является случайное изображение ξ, то множество Ф(£(·)) можно рассматривать как отображение Ω на множество борелевских подмножеств Λ, т. е. как случайное множество. Определение 4.1. Множество Φ (ξ) с Λ, зависящее от случайного вектора ξ = / + ν, называется случайным, если {λο Ε Φ (ξ)} является событием для любого λο Ε Λ и любого / G ^J Va. хеА Нас будут интересовать такие множества Φ (Ο ι которые с заданной вероятностью ρ покрывают истинное значение параметра λ, определяющего форму математического ожидания вектора ξ.
122 Гл. 4. Морфологический анализ изображений Если Ф(£) — случайное множество, то вероятность события λο G G Φ(ξ) зависит от параметра / G Уд. Обозначим Pf = Ρξ./({λ € Ф(0}) (4-26) вероятность накрыть случайным множеством значение параметра λ, если задано математическое ожидание / вектора ξ. В морфологическом анализе считается известной лишь форма V\ изображения /, поэтому для характеристики вероятности включения λ G Φ(ξ) при ξ ~ Ρξ,/(·)> / G Va, будем использовать точную верхнюю грань вероятности (4.26) по всем f eV\. Случайное множество Фр(£)> Для которого выполнено ρ = sup Р/ ξ sup Ри({\ G Фр(0}) (4.27) /GVa /GVa для любого λ G Λ, назовем множеством, оценивающим значение параметра λ G Λ формы Va с вероятностью р, О < ρ < 1. Среди всех множеств, оценивающих значение параметра λ G Λ формы Va с заданной вероятностью, нас будут интересовать те, для которых вероятность включения λο G Φ(ξ)> ^о 7^ А, минимальна. Определение 4.2. Размером множества Фр(£) С Λ, оценивающего параметр λ G Λ формы Va с вероятностью р, 0 < ρ < 1, назовем функцию 7р(^о>А) = sup Ρξ/({λο G ΦΡ(ξ)})> определенную для всех /GVa λ, λ0 G Λ. Построение оценивающих множеств минимального размера тесно связано с построением критических множеств наиболее мощного критерия в задаче проверки гипотезы Н(Х): ξ ~ Ρξ,/(·)> / € Va> при альтернативе /С(А'): ξ ~ Ρξ,/(·)> / ^ Vas Χ' φ λ, [45]. Рассмотрим наряду с Фр(£) множество Ф;'(А) = {зетг": ФРЫэА}, то есть Φρ^λ) — множество точек д выборочного пространства, для которых λ G Фр(#). Если Ф~ !(λο) — область принятия гипотезы Н(Х) при альтернативе /С(А'), определяющая наиболее мощный критерий уровня (1 — р), то соответствующее ему множество Фр(£) оценивает параметр λο с вероятностью ρ и имеет наименьший размер 7р(^>^о)· Соответствие между множествами Фр(·) и Фр^Ао) устанавливается с помощью дискриминантных множеств. Определение 4.3. Дискриминантным множеством уровня р, 0 < < ρ < 1, называется множество VP = {{g, λ) : ^ G ?гп, λ G Λ, Ψρ(0) э λ} ξ = {(<?, λ): <? g тгп, λ g λ, φ;1 (λ) э <?} с {тгп 0 Λ}.
4.2. Форма как линейное подпространство ΊΖη 123 В работе [45] установлена связь оценивающего множества минимального размера с множеством принятия гипотезы равномерно наиболее мощного критерия. Теорема 4.2.3. Если оценивающее множество соответствует равномерно наиболее мощному критерию проверки статистической гипотезы Η = {λ} С Л при альтернативе /С = {Λ\λ}, его размер 7р(^о> А) минимален для всех λ, λο G Л. Построим множество минимального размера, оценивающее значение параметра λ, задающего форму изображения предъявленной сцены, если известно, что форма изображения сцены является линейным подпространством С\ С W1 размерности N при любом значении параметра λ G Л. Пусть сначала известно распределение вектора шума: ν rsj Λ/^Ο,σ2/), где дисперсия σ2 известна. Тогда, как показано в приложении, п. А.5.2.3, область принятия гипотезы Η(λ): ξ ~ Af(g,a2I), g G C\, равномерно наиболее мощного критерия определяется следующим соотношением: Ъ;1(\) = {9€Пп: ||(/-РА)5||2<с}с7г", ρ = 1 - а. Построим дискриминантное множество Ър = {(д,\)€Пп®А, %1{\)эд} = (J^p'W"*}· хеА тогда множество минимального размера, оценивающее λ с вероятностью р, получится как сечение дискриминантного множества Т>р плоскостью {д = ξ}: ψ„(0 = {λεΛ, (ξ,λ)€Ρρ}. Оно обладает следующими свойствами: 1. λ G Фр(0» если и только если ξ G Φ"1 (λ); 2. sup Ρξι/({λο G Φρ(0} = sup Pu{{£ G Φρ^λο)} = P, если λ = λ0 fecx fecx для всех λ, λο G Λ, 0 < ρ ^ 1. В рассматриваемом случае Φρ(ξ) = {Α€Λ, \\(Ι-Ρχ)ξ\\2<ο}, где с выбирается из условия Пп-м(с) = р. Пусть теперь дисперсия σ2 погрешности ν в (4.5) априори неизвестна. Рассуждая так же, как при построении оценивающих множеств при известном параметре σ2, и воспользовавшись результатами, приведенными в приложении, п. А.5.2.3, для гипотезы Η: ξ~ΛΓ(9,σ2Ι), (1-РЬ)д = 0,
124 Гл. 4. Морфологический анализ изображений против альтернативы /С: ξ~Λ^,σ2/), (Рх-Р0)д^0, (I - Рх)д = О, где Р\ — проектор на С\, a Pq — проектор на одномерное подпространство изображений Со однородного поля зрения X, получим оценивающее множество Φρ(0 = {λ€Α, ja(0<c}. где ja(0 = — 2. Параметр с выбирается из условия откуда получим Р= SUp ΡΛΓ(/,σ2/)0'λ(0 < С), fecx ι_ρ=*<"-'·»-"> Gfb^j)· 4.3. Форма как выпуклый замкнутый конус V С TV1 4.3.1. Близость изображения к форме V. Рассмотрим форму как выпуклый замкнутый конус V/ изображений в пространстве ΊΖη, целиком содержащий одномерное подпространство Со изображений однородного поля зрения. Изображения из V/ можно рассматривать, например, как множество {д G ΊΖη\ д = F о /, F e F} изображений, сравнимых по форме с заданным изображением / заданной сцены, если F — класс монотонно неубывающих борелевских функций. Другим примером конуса является множество изображений V/, определенное в (4.4), его свойства изучены в приложении, п. А.З. Оператор проецирования на конус V/ обозначим PVf. Наименьшее линейное подпространство, целиком содержащее конус V/ (форму в широком смысле изображения / сцены), обозначим С/. Пусть предъявляется некоторое изображение ξ, искаженное случайной аддитивной помехой ξ = 9 + ", (4.28) и требуется ответить на вопрос, можно ли считать, что неискаженное (и недоступное прямому наблюдению) изображение д принадлежит конусу V/ и при этом отлично от константы. Если «часть» ξ — Pvf£, изображения ξ, отличающая его от конуса V/ и, значит, порожденная помехой, значительно меньше «части» Pvfi — Ροζ изображения ξ, принадлежащей V/ и отличной от константы, то в ξ можно узнать изображение заданной сцены. Формально сравнить эти части можно, вычисляя отношение нормы разности ξ и ее проекции на V/ к норме
4.3. Форма как выпуклый замкнутый конус V С ΊΖη 125 разности проекции ξ на V/ и проекции ξ на £о> по аналогии с тем, как это было сделано в п. 3.2.2. Обозначим Pq ортогональный проектор в Кп на одномерное линейное подпространство Со, Pvf0 — проектор на конус V/,ο = V/ Π (Lq). В силу теоремы А.3.2 приложения Pyf = Pq + Py/0. По аналогии с правилом, полученным в п. 3.2.2, рассмотрим функционал, определенный для любого ξ е ΊΖη равенством МО IIC-JVII2 если Ρν/ξ-ΡοξφΟ, PV-W /S S ' (4.29) оо, если Ρν}ζ, — Ροζ = О, характеризующий близость изображения ξ по форме к V/. На нем базируется решающее правило, узнающее заданную сцену в изображении ξ при выполнении неравенства МО^со. (4.30) Решающее правило классификации изображений по форме может быть сформулировано подобно тому, как это сделано для формы изображения, заданного как линейное подпространство ΊΖη в п. 3.2.1. Изучим асимптотические свойства функционала (4.29), для чего рассмотрим последовательность наблюдений &=9 + Vk, fc=l,2,... . (4.31) Положим д е V и запишем д = Род + (I — Ро)д = Род + PvQg, где PVog - проектор на конус V0 = V П (£,<{-), i/fc = P0i/fc Η- Py0^ Η- ?*, ^fc = vk — Pv^k, причем в силу свойств проекторов на выпуклые замкнутые конусы, см. приложение, п.А.З, и определения конуса Vo, для любого / е СЦХ) (PVo/, P0f) = 0, (Pvf,f- Pvf) = 0, Pvf - P0f = Py0/. Запишем &- Py^= Py0((/ - Po)g + Pyo^fc)) + U- Λό((' - fl>)$ + Py0^))= Ч, Ро& - Pvik = {l- Po)g + Py0^. Таким образом, если g Ε V, а при всех /с, начиная с некоторого номера, || (I - Ро)д + Ру0Ы1 > const > 0, то ш-ъай2 ,0 (432) тогда и только тогда, когда v^-^V при /с —► оо. Следовательно, в частности, если измерения (4.31) устроены таким образом, что погрешность vk —> 0 при к —► оо, то по наблюдению последовательности (4.31) в пределе при к —► оо возможно безошибочное распознавание того факта, что д е V, д £ Со, так как в этом случае
126 Гл. 4. Морфологический анализ изображений выполнено (4.32). Если же д £ V, то (4.32) не выполняется. Если д Ε Со, то и числитель, и знаменатель в определении jv(0 стремятся к нулю, и выполнение (4.32) зависит от способа стремления vk —> О при /с —► оо. Это означает, что если не рассматривать в качестве предъявляемых зашумленные изображения однородного поля зрения, то в пределе при ν —> О возможно безошибочное решение о том, изображает или нет предъявленная последовательность (4.31) заданную сцену. Обеспечить стремление к нулю погрешности регистрации изображения при случайном характере погрешности можно путем проведения серии регистрации изображений одной и той же сцены. Если каждый результат регистрации сопровождается независимыми погрешностями с нулевым математическим ожиданием и ограниченной в совокупности дисперсией каждой координаты вектора ν, то среднее арифметическое всех результатов можно представить как сумму элемента из V и случайного вектора, дисперсия каждой координаты которого стремится к нулю при стремлении к бесконечности числа к регистрируемых изображений. Тогда ν^ —► 0 при к —► оо по вероятности [58]. 4.3.2. Оценивающие множества. Форма как выпуклый замкнутый конус. Пусть форма изображения сцены задана с точностью до параметра λ Ε Λ С Ит и при каждом значении параметра λ Ε Λ представляет собой выпуклый замкнутый конус Va С ΊΖη, целиком содержащий подпространство Со изображений однородного поля зрения. Регистрация изображения д Ε V\ производится по схеме ξ = 9 + ν, (4.33) где погрешность измерения ν Ε W1 — нормально распределенный вектор с нулевым математическим ожиданием Ει/ = 0 и ковариационным оператором σ2Ι (дисперсии погрешности ν(χτ) измерения яркости д(хг) изображения д в каждой точке Χχ Ε X, г = Ι,.,.,η, равны σ2: ν ~ Λί(0, σ2Ι)). Требуется по предъявленному изображению ξ Ε ΊΖη оценить значение параметра его формы λ Ε Λ. Рассмотрим гипотезу Ηχ: ξ~Λί(9,σ2Ι), geVx, и соответствующую ей альтернативу /Сд: i~M{g,a2I), giVx. Для определения множества, оценивающего параметр λ Ε Λ, воспользуемся понятием нижней надежности сложной статистической гипотезы, см. приложение, п. А.5. Для определения нижней надежности рассмотрим ситуацию, когда гипотеза Η формулируется как предпо-
4.3. Форма как выпуклый замкнутый конус V С ΊΖη 127 ложение о том, что параметр распределения наблюдаемого вектора ξ принадлежит множеству Он, против альтернативы, состоящей в том, что значение параметра распределения принадлежит множеству Θκ, Θη Π Θκ = 0. Для всех возможных пар ($н>$к:), ^п € θ?*ι ϋκ, £ θ*:, построим соответствующие им надежности θίϋη,ϋκ{ζ). Нижней надежностью сложной гипотезы Η при сложной альтернативе /С назовем О а(0= sup inf α*η,*κ{ξ). Определим множество Ψρ(ξ) С Λ, оценивающее параметр формы, как множество элементов Λ гарантированной надежности 1 - р: Ψρ(0 = {λ€Λ: αχ(ξ)^1-ρ}9 0<р<1. (4.34) Нижняя надежность в рассматриваемом случае может быть получена методами, описанными в приложении, п. А.5. Запишем αλ(0 = sup inf αΜ,(0 = 1 - Φ(||(/ - Ρχ)ξ/σ\\), geVxg'evx, где α9,9'(ξ) — надежность простой гипотезы ξ ~ Л/^д, σ2/) при простой альтернативе ξ ^Λ/^',σ2/), а Φ(·) — функция нормального распределения λί(0, 1). Определим, с какой вероятностью множество (4.34) оценивает параметр формы. Для этого в соответствии с определением вычислим точную верхнюю грань sup Ри({\ е Фр(0» = sup Ри({\ - Ф(||(/ - Ρχ)ξ\\/σ) > 1 - ρ}) = fevx fevx = ζΜΡΡξ,ί({\\(Ι-Ρχ)ξ\\^σφ-ι(\-ρ)}). (4.35) fevx Как следует из свойств нормального распределения и множества V/, вероятность Ρξ,/({||(/ - Ρ\)ζ\\ ^ σΦ_1(1 -ρ)}) тем больше, чем ближе математическое ожидание / к ξ, и точная верхняя грань в (4.35) достигается, когда / = Ρχξ. Таким образом, искомое значение этой верхней грани можно записать в виде Ρη.ρ^({\\ν-Ρχν\\2^Μ-Ρχξ\\2}\ξ), где вероятность вычисляется при фиксированном значении ξ для независящего от ξ вектора η ~ λί{Ρχξ,σ2Ι). Это значение можно интерпретировать как вероятность получить в эксперименте (4.33) результат, 1) Нижняя надежность, вообще говоря, может оказаться неизмеримой функцией, в этом случае для нее нельзя указать распределения вероятностей. Однако в большинстве практически важных случаев и для всех рассматриваемых здесь примеров а(£) измерима.
128 Гл. 4. Морфологический анализ изображений согласующийся с гипотезой так же, как ξ, или лучше; в то же время надежность гипотезы д G Va при альтернативе д £ V\ равна вероятности получить в эксперименте (4.33) результат, согласующийся с гипотезой так же, как ξ, или хуже. Следовательно, вероятность, с которой множество Фр(0 оценивает значение параметра λ, равна ρ = 1 — α\(ξ). Оценка надежности ад (ξ) методом Монте-Карло равна отношению числа случаев выполнения неравенства Цт/fc — P\Vk\\2 ^ ||£ — -Р\£||2, гДе r/fc — k-я реализация случайного вектора η ~ λί(Ρχξ, σ21) в серии из К испытаний, к общему числу К реализаций (при этом математическое ожидание μ = Ρ\ξ вектора η считается фиксированным). В случае, когда дисперсия погрешности измерений неизвестна, распределение статистики \\ξ — Ρ\ξ\\2 зависит от неизвестной дисперсии σ2 шума ν в (4.33) и поэтому не может служить количественной характеристикой включения д Ε Уд. Для этой цели будем использовать статистику , in u-ρχα2 и ofi, ш = ιι^-w (4·36) Как было отмечено выше, чем больше величина ja(0> тем более правдоподобно утверждение, согласно которому верна гипотеза Ηχ: ξ~ΛΓ(9,σ2Ι), д = Р0д, (4.37) при альтернативной гипотезе /Сд: ξ~λί(9,σ2Ι), Рхд^Род. (4.38) Морфологический критерий проверки гипотезы (4.37) при альтернативе (4.38) определяется критическим множеством Sx = {zeTT:h{i)^S}. (4.39) Если ξ £ S\, то гипотеза (4.37) принимается и нет причин считать, что ξ есть искаженное шумом изображение из множества УдПА)"· Охарактеризуем согласие гипотезы с экспериментом минимальным уровнем критерия, отвергающим гипотезу (4.37) в пользу (4.38) по наблюдению ξ. Эта характеристика, называемая надежностью гипотезы (4.37), в данном случае равна αΗχ{ξ) = sup {Ρζ Ол(С) < Ja(0 I ξ) | С ~Λί(μ,σ2Ι), μ € £0, σ2 > 0} . Эта вероятность может быть вычислена методом Монте-Карло путем разыгрывания реализаций вектора ζ ~ λί(0, I) и подсчета частоты реализаций, для которых выполнено неравенство ja(C) ^ Ja(0· Так же, как и в предыдущем пункте, этой оценке можно придать смысл вероятности получить результат измерения (4.33), согласующийся с гипотезой так же, как ξ, или хуже.
4.3. Форма как выпуклый замкнутый конус V С ΊΖη 129 Соответственно, надежностью гипотезы (4.38) при альтернативе (4.37) назовем случайную величину ауА = 1 - α^λ. Множество Фр(0» оценивающее параметр λ е Л с вероятностью не меньшей р, построим по следующему правилу: будем считать, что Ψρ(ξ) состоит из тех и только тех значений λ Ε Λ, для которых надежность гипотезы (4.37) достаточно мала: αηχ(ζ) ^ 1 — р, что означает, что надежность альтернативы (4.38) не меньше р. Неравенство Р(ЫС) < ЫОЮ < 1 - Ρ влечет неравенство jA(0 ^ δ{1 -ρ). Чем меньше δ(\ -ρ), тем меньше (по включению) оценивающее множество Фр(0» и тем точнее локализуется оцениваемое значение λ е Л. 4.3.3. Оценка параметра формы изображения, минимизирующая максимальную погрешность при гарантированной надежности. Для множества Ψρ(ξ)ι содержащего параметр формы λ е Л с 1Zm с надежностью р, построим минимаксную оценку ||λ-λ||2= inf sup {НУ-λ||2}. (4.40) Оценка λ с гарантированной надежностью ρ минимизирует максимальную погрешность оценивания параметра формы λ е Л. Решением задачи (4.40) является центр шара Ог(Х) С 1Zm минимального радиуса г, содержащего множество Ψρ(ξ)> его радиус г является погрешностью оценки λ, [45]. Ясно, что чем выше вероятность р, тем больше погрешность г оценивания. 5 Ю.П. Пытьев, А.И.Чуличков
Глава 5 ЭМПИРИЧЕСКОЕ ПОСТРОЕНИЕ СЛУЧАЙНОЙ ФОРМЫ ИЗОБРАЖЕНИЯ В этой главе рассматриваются методы построения формы изображений объектов и сцен по наблюдению их реализаций и при заданной модели преобразований изображений, моделирующих изменение условий формирования этих изображений. 5.1. Аппроксимация формы изображения, искаженного случайным шумом В главах 1 и 2 рассматривался подход к аппроксимации формы изображения путем построения последовательности проекторов на подмножества кусочно постоянных изображений, сходящейся к проектору на заданное выпуклое замкнутое множество изображений, форма которых не сложнее, чем форма заданного изображения, см. п. 1.3.2 и п. 2.1.3. Однако на практике наблюдаемое изображение известно лишь с некоторой точностью. В этой ситуации нет смысла рассматривать предел последовательности проекторов, так как с приближением к пределу результат будет аппроксимировать не только форму неискаженного изображения, но и форму шума. Более естественно рассматривать приближенное значение проектора, точность которого согласована с точностью задания наблюдаемого изображения. В данной главе рассматриваются задачи аппроксимации формы изображения, точность которой согласована с точностью измерения яркости изображения. 5.1.1. Аппроксимация формы изображения формой мозаичного изображения. Рассмотрим ряд вспомогательных задач, позволяющих решить проблему аппроксимации формы изображений в общем случае. Задача 1. Пусть задано изображение / G £2μ{Χ) и измеримое разбиение {Ak} поля зрения X. Требуется построить наилучшее в смысле N уклонения в €2μ(Χ) кусочно постоянное изображение Σ сзХз> ап~ проксимирующее /; здесь χι = χι(·)> ··· >Хлг = Хлг(·) — индикаторные функции множеств Л ι,..., An.
5.1. Аппроксимация формы изображения 131 Очевидно, решением данной задачи является ортогональная проекция / на линейное подпространство, состоящее из всех линейных комбинаций индикаторных функций χ\,...,χν· N if.xj). 11/-/1Г = * U\\xi¥Xr Задача 2. Пусть задано изображение / G С^(Х) и определены значения яркостей с\ < С2 < ... < сдг (уровни квантования изображения / е £2μ(Χ)). Требуется построить разбиение {Ak} поля зрения X так, чтобы кусочно постоянное изображение / = Σ cjXj было наилучшим j=i в €2μ(Χ) приближением / изображениями кусочно постоянного вида. Поскольку г Ν 2 Ν г χ J=1 i=lA3 (5.1) то условие минимальности ||/ - /|| по всем разбиениям {Ak} приводит, очевидно, к требованию: множество Aj должно содержать все те χ Ε Χ, для которых \f{x) -Cj\ < \f(x) -ck\ для всех k = 1,...,ЛГ, k^j, т.е. A'j = {x e X : \f(x) - Cj\ < \f(x) - ck\, k=\,...,N, k^jjcAj. (5.2) Обозначим A'! = {xeX: \f(x) - Cj\ ^ \f(x) - ck\, k=\,...,N}. (5.3) Множества A", j = Ι,.,.,Ν, вообще говоря, пересекаются, и Aj С С Aj С Aj. Образуем множества Aj следующим образом: если точка χ принадлежит множествам А"г... ,А"т, то отнесем ее к одному из множеств Aj{,... ,Ajm. Определенные таким образом множества обо- значим Aj. Последние, очевидно, не пересекаются и |J = X. i=i Покажем, что разбиение {Ак} обладает требуемым экстремальным свойством. Действительно, пусть {В3} — произвольное разбиение поля зрения X, Xj — индикаторная функция Bj, j = Ι,.,.,Ν. Согласно (5.1),
132 Гл. 5. Эмпирическое построение случайной формы изображения достаточно показать, что для любого χ £ X выполнено неравенство N Х)(/(х)-с,-)2(^(х)-^(х))<0, j=l так как отсюда следует и Г N £(/(*) - с3)2(Ю(х) - χ;{χ)) άμ(χ) < 0. Выберем χ е X. Для этой точки найдется единственная пара индексов j и j, такая, что Xj{x) = xj(x) = 1. Для индекса j, по определению, |/(ж) - Cj\ ^ |/(ж) -cfc|, /с = l,...,iV, то есть \f{x) - с3\ ^ \f(x) -cj|, чем и завершается доказательство. Укажем один из конкретных способов выбора множеств {Ak}, удовлетворяющих всем требуемым условиям: Aj = {xeX: ^2^</(^)<^^-}, j=l,...,N, (5.4) где со = -оо, сдг+1 = оо. Задача 3. Пусть задано изображение / е £^ (X), число JV множеств искомого разбиения {Ak} и требуется построить наилучшее в £2μ{Χ) ~ N приближение / изображениями вида / = Σ cjXj- J=l Для решения этой задачи следует воспользоваться множествами (5.4), дополнительно потребовав выполнения равенств I f{x) άμ{χ) Cj=Cj({Ak}) = ^- , j= 1 ΛΓ. (5.5) Ι άμ(χ) Αό Система уравнений (5.4), (5.5) определяет искомую оптимальную аппроксимацию. Для решения задачи 3 обычно используется релаксационный алгоритм, в котором при начальном значении яркостей с\$ ^ С2,о ^ ίζ ... ίζ сдг,о вычисляется минимум выбором индикаторных функций {Xj }» 3 = Ι,.-.,-Ζν (решение задачи 2), затем фиксируются индикаторные функции {χ] *} и определяются яркости с\\ г = l,...,iV (решение задачи 1), далее процедура повторяется. Последовательности (к) (к) {с\ ,χ\ , г= 1,...,N} соответствует сходящаяся последовательность {II (к) II Ϊ / — Σ с\ л(^)г Г' так как она ограничена снизу
5.1. Аппроксимация формы изображения 133 и монотонно невозрастает. Однако эта последовательность не обязательно будет минимизирующей для задачи 3, так как минимизируемый функционал может иметь значительное число локальных минимумов; сходимость к глобальному минимуму здесь не гарантируется. Для того чтобы ответить на вопрос, адекватна ли аппроксимация, полученная при решении задач 1-3, следует уточнить модель предъявляемого изображения и сформулировать критерий адекватности. 5.1.2. Надежность мозаичной аппроксимации формы изображения при заданном разбиении поля зрения. Пусть задана форма изображения д G ΊΖη в виде подпространства CN = < Σ€ίΧί> QG (-οο,οο), г= Ι,.,.,Ν > , (5.6) где χι = (xi(si),...,х.-(жп)) еКп, χι,...,хп еХ', %;(·) - индикаторные функции заданного разбиения {Αι} поля зрения X на непересекающиеся множества Ait μ(Α{) > 0. Наблюдению доступно лишь изображение ξ Ε ΊΖη по схеме ξ = 9 + ν, (5.7) где погрешность измерения и е ΊΖη контролируется нормальным распределением Л/*(0, σ2/). Требуется определить, насколько результат измерения (5.7) согласуется с предположением о том, что д в (5.7) принадлежит форме Cn- Если это предположение верно, то случайный вектор ξ имеет нормальное распределение М{д,а21), где д е Cn, альтернатива состоит в том, что д £ Cn- Надежность этой гипотезы вычислена в приложении, п. А.5.5: α(ξ)=1-Πη-Ν(σ-2\\(Ι-Ρ)ξ\\2), (5.8) где Ρ — ортогональный проектор в ΊΖη на Cn, г (η - Ν) — размерность ортогонального дополнения Cn в ΊΖη [44]. Согласно (5.8) надежность α(ξ) определяется расстоянием р(£,£дг) в ΊΖη от вектора ξ е ΊΖη до iV-мерного подпространства Cn С ΊΖη. Квадрат этого расстояния, деленный на дисперсию шума σ2: Ρ2(ξΧΝ)= in/ ^\\ξ-9\\\ (5.9) geCN σζ при д е Cn равен квадрату длины проекции вектора шума ν на Cjj и контролируется распределением χΐ с числом степеней свободы, равным к = η - dim Cn· Надежность α(ξ) в этом случае имеет равномерное на [О, 1] распределение. Если же д в (5.7) не принадлежит форме Cn, расстояние р(£,£дг) в (5.9) определится не только вектором
134 Гл. 5. Эмпирическое построение случайной формы изображения шума, но и составляющей вектора д, не принадлежащей См С Кп. Его распределение в этом случае контролируется нецентральным распределением xLfc) с к степенями свободы и параметром нецентральности, равным ϋ = σ~2\\(Ι — PcN)g\\2, а распределение надежности α(ξ) концентрируется вблизи нуля. Величина надежности характеризует, таким образом, заметность отличия формы изображения д от формы вида (5.6) по результату измерения ξ в (5.7) на фоне шума v. Несколько сложнее обстоит дело, когда функции, на которые натянуто подпространство Cn, выбираются как решение задачи наилучшего приближения, как это было сделано в задачах 1 и 2, рассмотренных в п. 4.1.1. Этот вопрос рассматривается в следующем пункте. 5.1.3. Надежность мозаичной аппроксимации формы изображения. Общий случай. Пусть аппроксимация формы изображе- Г N ния ξ е W1 в виде линейного подпространства £дг(£) = \ Σ cjXj£> lJ=l Cj e (-00,00), j = 1,...,ΛΓ> получена решением задачи 3 п. 4.1.1, т.е. функции \j£, j = 1,..., Ν, являются решением задачи наилучшего приближения: Ν 2 Ν 2 к-Х^ад = inf £~Σ^χ* · (5л0) II *—* Μ c\,...,cN,x\ xn Μ *—' \\ Обозначим C(N) множество кусочно постоянных изображений из ΊΖη, множества постоянной яркости которых являются разбиениями поля зрения X не более, чем на N подмножеств: C(N) = U \Σ°Μ* c,-G (-οο,οο), j=l,...,jvlcftn; {Xjj=\,...,N}enN I j=\ J здесь Ωλγ — множество наборов {xj,j = 1,..., Ν} индикаторных функций всех разбиений дискретного поля зрения X на N непересекающих- N ся подмножеств Aj, μ(Α^) > 0, j = 1,..., Ν: \J A3 = Χ, Ai Π Aj = 0 j=i при гф j. Множество C(N) замкнуто в ΊΖη, так как представляет собой линейную комбинацию конечного числа линейных подпространств ΊΖη (количество подпространств равно числу С„ сочетаний из η точек поля зрения X по N подмножествам Aj, j = Ι,.,.,Ν). Для решения задачи (5.10) теоретически достаточно вычислить конечное число проекций функции ξ на каждое из подпространств, состоящих из кусочно постоянных изображений с заданными разбиениями поля зрения X, и выбрать из них ближайшую к ξ. Заметим, что решение задачи (5.10)
5.1. Аппроксимация формы изображения 135 может быть не единственным, тогда в качестве аппроксимации формы можно выбрать любое из ближайших к ξ подпространств. Проверим гипотезу о том, что предъявляемое изображение ξ в (5.7) можно действительно считать кусочно постоянным изображением д е C(N), .которое искажено шумом с нулевым математическим ожиданием Ει/ = 0 и ковариационным оператором σ2Ι. Пусть изображение д в (5.7) принадлежит некоторому линейному г Ν подпространству Cn С C(N) вида Cn = \ Σ cjXj> cj ^ (—οο,οο), j = = 1,..., N >. Тогда Ε||ξ - P^ ξ\\ = σ2(η — Ν), где Ρ^ — ортогональный проектор на Cn- Если же д не принадлежит ни одному из линейных подпространств, содержащихся в C(N), то для любого Cn £ £(Ю EU-PcM>°4n-N). Обозначим τ/ν(0 = inf{||£ - g\\2 \ д е C(N)} квадрат расстояния от ξ до множества всех кусочно постоянных изображений C(N), вычисленное в (5.10). В силу определения тдг(^) для любого линейного подпространства Cn С C(N) с вероятностью единица выполнено неравенство тлКО < U - PcstW2, а значит, ΕτΝ(ξ)^Ε\\ξ-ΡΖΝξ\\2 = σ4ν(Ι-ΡίΝ) = σ2(η-Ν). (5.11) В соответствии с неравенством Чебышева РМ0>е)<^<^^1. (5.12) На основании (5.12) построим критерий проверки сформулированной гипотезы. Выберем ε > 0 так, чтобы —- = а, и будем отвер- /<-\ ^ / \ σ2(η- Ν) гать гипотезу при выполнении неравенства тлг(£) ^ ε (а) = — -. OL В силу (5.11) уровень этого критерия не больше а. Наименьшее значе- ,с. σ\η-Ν) ние αίξ) = —-—/Л. , при котором гипотеза еще отвергается, служит ΤΝ[ξ) характеристикой согласия гипотезы с результатом наблюдения (5.7), так как величине α(ξ) можно придать смысл вероятности ошибиться, отвергая гипотезу. Итак, чем больше α(ξ) = —^-т-т—-, тем меньше оснований от- вергнуть предположение о том, что ξ является кусочно постоянным изображением, искаженным шумом ν Ε ΊΖη с ковариационным оператором σ2Ι. Если известно, что ν ~ Λ/*(0, σ2Ι), то, воспользовавшись
136 Гл. 5. Эмпирическое построение случайной формы изображения результатами, приведенными в приложении, п. А.5.5, для вычисления надежности аппроксимации формы получим α(ξ) = 1 - Л„_лг(т(0), где Пк(·) — функция распределения хи-квадрат с к степенями свободы. 5.2. Аппроксимация формы изображения параметрическим семейством подпространств В этом разделе используется математическая модель системы формирования изображений в виде линейного ограниченного оператора А, преобразующего «идеальное» изображение / е £2μ(Χ) в изображение, заданное в конечном наборе точек поля зрения X. Регистрация изображения Af сопровождается случайной погрешностью. В этом случае имеет смысл рассматривать приближения для формы идеального изображения / Ε £2μ(Χ) в виде конечномерных линейных комбинацией некоторых элементов £2μ(Χ). Число (размерность) и вид элементов, составляющих эти линейные комбинации (подпространства), определяют точность аппроксимации формы изображения /; эту точность имеет смысл согласовать с точностью регистрации изображений в схеме измерений (5.7). При этом под оператором А, задающим математическую модель системы регистрации изображений, можно понимать любой линейный ограниченный оператор, действующий из £2μ(Χ) в ΊΖη', тем самым методы, развиваемые в этом разделе, могут быть полезными для описания формы изображения по данным, полученным с помощью «неидеальных» систем с невысокой разрешающей способностью, не передающей характерные особенности идеального изображения. К ним относятся, например, системы радиовидения и др. 5.2.1. Форма изображения как семейство линейных подпространств. Запишем схему регистрации изображения / в виде t = Af + v, (5.13) где ξ — искаженный шумом и результат наблюдения выходного сигнала системы Л, на вход которой подано «идеальное изображение» сцены /. Оператор А е (£2μ(Χ) —► ΊΖη) всякому входному изображению / G £2μ{Χ) ставит в соответствие изображение Af e ΊΖη, заданное в конечном числе узлов сетки на поле зрения X. Будем считать, что для каждого натурального N = 1,2,... идеальное изображение / объекта с некоторой точностью может быть задано линейной комбинацией N векторов еДЛГ, Лдг) € £2μ(Χ), г— l,...,iV; этот набор векторов £(мЦ\м) = {еДЛ^Лдг)} С £2μ{Χ) при каждом фиксированном N определяется значением параметра Лдг G A(N^ с lZm^N>); множество Λ(Ν)
5.2. Аппроксимация формы изображения 137 всех возможных значений параметра задано для каждого N = 1,2,.... Формально это означает, что для каждого фиксированного N можно записать приближение изображения / е £2μ(Χ) изображением N /W = ]Гсгег(ЛГ,Л^), λΝ е Л<"\ (5.14) г=1 где (с1,...,сдг) = c(N) G ΊΖΝ — iV-мерный вектор коэффициентов линейной комбинации, аппроксимирующей входной сигнал / G £2μ(Χ); векторы этой линейной комбинации еД·,·), г = Ι,.,.,Ν, принадлежат заданному классу £(N) = |5W(Aiv)Aiv€AWjc£2(x) Здесь ΊΖΝ обозначает iV-мерное векторное пространство, элементами которого являются векторы, задаваемые значениями своих координат. В качестве класса £(Ν^ можно использовать, например, класс {χ^,λΝ, г = Ι,.,.,Ν}, индикаторных функций множеств d^Xn, г— Ι,.,.,Ν, задающих разбиение поля зрения X: N \Jd^Xn =X, Ό?Λν ΠΌ^Χν =0, i,j= Ι,.,.,Ν, гфз. 1=1 В этом случае параметр Лдг задает геометрическую форму подмножеств этого разбиения, а изображение f(N\ аппроксимирующее /, является кусочно постоянным. Класс £^N^ может состоять из вейвлетов, из функций базисов Фурье, Уолша, Хаара и др. Вектор f(N^ е £2μ{Χ) аппроксимирует входной сигнал / е £2μ(Χ), подаваемый на вход прибора А в эксперименте (5.7) с точностью е("> = /-/<">€ £»(*). (5.15) При фиксированных N и Хм и произвольных c^N^ e ΊΖΝ класс сигналов, определяемых соотношением (5.14), представляет собой линейное подпространство в £2μ(Χ) размерности не более N. Если считать, что идеальное изображение / объекта можно точно представить в виде (5.14) с заданными N и Адг, то схема измерения (5.13) может быть переписана в виде N ξ = AfW + v = J2 CiAei(N, XN) + v = B^cW + ν,
138 Гл. 5. Эмпирическое построение случайной формы изображения где c(N>} = (c\,...,cn) G ΊΙΝ, а линейный оператор В^ G (RN —► —► 7£п) для любого с G 7£N определяется соотношением N B(N)C = J^aAeiiN, \N), с = (с,,... ,cN) G UN. г=1 Теперь можно записать схему измерения изображения ξ, эквивалентную (5.13), в виде { = B(iV)c+i/. (5.16) Задача аппроксимации формы изображения состоит в выборе числа N и параметров Лдт G A^N\ при которых этот выбор не противоречил бы результату наблюдения изображения в эксперименте по схеме (5.13) или (5.16). 5.2.2. Выбор наиболее надежного подпространства заданной размерности для аппроксимации входного сигнала. Замена сигнала / его аппроксимацией /W вида (5.14) приведет к тому, что к результату измерения в (5.16) добавится погрешность Αε^Ν\ определяемая соотношением (5.15). Однако если эта погрешность незаметна на фоне шума ν, то на основании измерения (5.16) невозможно судить о том, отличается ли сигнал / от f(N\ В качестве критерия согласия результата регистрации изображения ξ G ΊΖη и гипотезы о модели формирования изображения ξ выберем надежность статистической гипотезы о том, что математическое ожидание изображения ξ есть выходной сигнал системы формирования А, на вход которой подано идеальное изображение /, являющееся линейной комбинацией функций £(мЦ\м), против альтернативы, что изображение / не представимо в виде такой линейной комбинации. Развиваемый далее подход следует методу максимальной надежности, см. приложение, п. А.5.6, [34, 55]. Рассмотрим гипотезу: ξ G ΊΖη сформировано в результате измерения N идеального изображения f(N>} = Σ сгег(^лг) по схеме (5.13) с неиз- г=1 вестными значениями с*, г = l,...,iV, число слагаемых N фиксировано, а погрешность ν контролируется нормальным распределением с нулевым математическим ожиданием и корреляционным оператором σ2Ι е {Пп -> Пп). Иными словами, N ξ ~ Λ/*(α, σ2/), α G C\N = I j^CjAej, Cj G (—оо, oo),j = 1,..., Ν >. J'=l (5.17) Альтернатива состоит в том, что математическое ожидание вектора ξ не принадлежит C\N: ξ~Λ/*(6,σ2/), Ъ£Сх„. (5.18)
5.2. Аппроксимация формы изображения 139 Надежность такой гипотезы вычислена в приложении, п. А.5.5 и равна α<"> (ξ, Ллг) = 1 - Пк (||σ-2 (I - ΡλΝ) ξ||2) , (5.19) где (I — ΡχΝ) — ортогональный проектор в ΊΖη на ортогональное дополнение £χΝ к линейному подпространству C\N, а число степеней свободы к равно размерности линейного подпространства £χ . Выберем значение Хм параметров Лдг так, чтобы надежность а(м\£,\м) соответствующей гипотезы была максимальна: α^(ξ,ΧΝ) = sup α^(ξ,λ,ν). (5.20) λΝΕΛ(^) Заметим, что в результате минимизации (5.20) в соответствии с определением надежности (5.19) и ее геометрической^интерпретаци- ей выбирается подпространство С/ = £(е\(Хм),... , елг(Алг)) С £2μ(Χ), для которых соответствующее пространство наблюдаемых изображений С = С(Ае\(\м),..., Ледг(Лдг)) С ΊΖη наиболее близко к реализации случайного вектора ξ Ε ΊΖη. Линейное подпространство Cf=C(el(\N),...,eN(\N))cCl(X) назовем максимально надежной аппроксимацией формы изображения / e £}μ(Χ) по наблюдению ξ G ΊΖη при заданном N. 5.2.3. Выбор размерности аппроксимации. Проделав процедуру, описанную в предыдущем разделе, для каждого значения N = = 1,2,..., получим семейство аппроксимаций формы идеального изображения / объекта. С ростом N расстояние inf ρ(ξ, С) от вектора ξ λΝΕΛ(Ν) до ближайшего к нему подпространства из класса {c(Ae{(XN),...,AeN(XN)), λΝ€Α^}, очевидно, не возрастает. Чем меньше это расстояние, тем больше надежность соответствующей модели аппроксимации (при заданном Ν) и тем менее возможно заметить отличие сигнала / от его конечномерной аппроксимации по результату ξ измерения сигнала Af на фоне шума ι/, решая соответствующую задачу проверки статистической гипотезы или вычисляя ее надежность. А значит, и тем меньше причин считать, что сигнал / имеет более сложную форму. В то же время стремление к слишком большому значению надежности аппроксимации формы в (5.20) путем увеличения размерности аппроксимации N приводит к тому, что вместо аппроксимации сигнала / все с большей подробностью аппроксимируется шум. Действительно, если все составляющие сигнала / е £2μ(Χ), заметные на фоне
140 Гл. 5. Эмпирическое построение случайной формы изображения шумов в сигнале Af e ΊΖη, уже вошли в линейную комбинацию сигналов, аппроксимирующую /, то дальнейшее увеличение размерности аппроксимации на единицу будет всякий раз приводить к уменьшению числа степеней свободы распределения χ2 случайной величины ||(7- PJ[ ^Σ-1/2^!!2, определяющей надежность соответствующей модели. Этот переход от аппроксимации сигнала к аппроксимации шума можно оценить по характеру убывания расстояния inf ρ{ξ,£) в за- λΝΕΛ(Ν) висимости от Ν: резкое замедление скорости убывания свидетельствует о том, что основные информативные составляющие сигнала / уже отражены в его конечномерной аппроксимации. Рассмотрим в качестве примера ситуацию, когда в качестве аппроксимации для / G £2 (X) используется кусочно постоянный сигнал. Запишем кусочно постоянную аппроксимацию /^(0 € £μ(^0 сигнала /(·) в виде /<">(*) = £**(*); xeX, x<(x) = |q *^·' (5.21) Множества Di постоянной яркости изображения f(N\ г— 1,..., Ν, и их количество N априори неизвестны и должны быть выбраны в соответствии с результатом измерения (5.13). В согласии с предлагаемым подходом, разбиение множества X, состоящее из непересекающихся подмножеств, происходит максимизацией (5.20), где в качестве векторов еДЛдг) используются индикаторные функции множеств £)*, а параметрами Лдг определяются границы этих множеств, г = 1,..., N. Эта максимизация эквивалентна минимизации расстояния от вектора ξ до проекции ξ на множество кусочно постоянных сигналов вида (5.21); минимизация достигается выбором разбиения X. 5.2.4. Связь с методом максимального правдоподобия. Рассмотрим несколько более простую ситуацию, когда известно, что входной сигнал / G £2 (X) задается кусочно постоянной функцией вида (5.21), заданной на отрезке X числовой прямой, X = [ао,адг), каждое множество Dj С X является отрезком [α^_ι,α^), j = l,...,iV, а вектор шума измерения и е Кп в (5.13) контролируется нормальным распределением Л/*(0, Σ). В этом случае оценку множества Dj и значения Cj сигнала / на этом множестве можно найти как оценку максимального правдоподобия, j = Ι,.,.,Ν, [7]. Логарифм функции правдоподобия в рассматриваемом случае имеет вид 1(ξ,α\,...,αΝ-\, с\, ...,сдг) =
5.2. Аппроксимация формы изображения 141 = *0-2 Σ"1/2(^-Σ^ ко = const, (5.22) и оценка максимального правдоподобия определяется как решение задачи на максимум: 1(ξ, а\,..., αίνΤϊ, с[,..., c/v) = = sup 1(ξ,α\,...,αΝ-\, c\,...,cN). (5.23) ai,...,ajv_i,ci,...,cjv Теорема 5.2.1. β рассматриваемом случае оценка максимального правдоподобия, полученная как решение задачи (5.23), сводится к задаче на минимум: ι2 |s-1/2(€-E^xi) inf (Ле-^^-Е^хЛИ 1, aj,...,aN_i,ci,...,CN I || \ ^=1 J\\ I (5.24) w совпадает с оценкой, полученной при решении задачи (5.20). Эта оценка по вероятности сходится к точному значению сигнала f при || Σ || -+0. В частности, если Σ = σ2Ι, то для сходимости оценки к точному значению / необходимо и достаточно, чтобы σ2 —► 0. Доказательство теоремы опирается на свойства оценок максимального правдоподобия, приведенные в [7] и в приложении, п. А.5.6. Существенным при этом является дифференцируемость функции правдоподобия по параметрам αϊ,... ,ам-\\ с\,... ,сдг. 5.2.5. Результаты вычислительных экспериментов. Проиллюстрируем эффективность предложенных методов оценивания входного сигнала в серии вычислительных экспериментов в ситуации, когда в качестве системы линейно независимых векторов {е^ ;{л] ')} используются индикаторные функции разбиения области X, а параметры X] , г = 1,..., ЛГ, определяют границы множеств, составляющих разбиение. В первом эксперименте на вход измерительной системы поступает кусочно постоянный сигнал, содержащий 4 уровня яркости, его график изображен на рис. 5.1, а. На рис. 5.1, б, приведен результат его регистрации, сопровождающийся размытием и аддитивным некоррелированным шумом, среднеквадратичная погрешность которого составляет 8% от максимальной амплитуды полезного сигнала.
142 Гл. 5. Эмпирическое построение случайной формы изображения Минимизация функционала (5.24) производится следующим образом. Сначала фиксируется число N и поле зрения, состоящее из 49 точек, разбивается на N непересекающихся областей так, чтобы достигнуть минимума в (5.24). Далее значение N увеличивается на единицу и вновь производится минимизация (5.24). Процедура повторяется до тех пор, пока изменение невязки (5.24) не станет незначительным. а 51 4Г 3Г 21 I 1 II I I \ I 1 О 10 20 30 40 50 0 10 20 30 40 50 30 в 25 20 15 10 5 0 234 56789 5Г 1 4Г I I 3| III I ■Ι Д. I 0 10 20 30 40 50 0 10 20 30 40 50 Рис. 5.1. а — входной сигнал; б — результат измерения (отношение шум/сигнал равно 0,08); в — график y(N) в зависимости от числа уровней кусочно-постоянного сигнала; г — оценка входного сигнала при η = 3; д — оценка входного сигнала при η = 4 На рис. 5.1, в, приведена зависимость минимума невязки (5.24) от числа уровней значений сигнала N. Видно, что при N > 4 значение минимума невязки с ростом N уменьшается незначительно, что свидетельствует в пользу того, чтобы выбрать значение N = 4 в качестве достаточно надежного для кусочно постоянной аппроксимации входного сигнала. υ 5 4 3 2 1 1 1 Л 1 ι - - -
5.2. Аппроксимация формы изображения 143 10 20 30 40 50 в υ 5 4 3 2 1 1 1—ι . 1 л —ι 1 - - - - I I 1 υ 5 4 3 2 1 1 1— 1 1 л —ι 1 - - - i , " 0 10 20 30 40 50 О 10 20 30 40 50 Рис. 5.2. а — результат измерения (отношение шум/сигнал равно 0,2); б — график y(N) в зависимости от числа уровней кусочно-постоянного сигнала; в — оценка входного сигнала при η — 3; г — оценка входного сигнала при η — 4 На рис. 5.1, г, приведено решение задачи кусочно постоянной аппроксимации входного сигнала при N = 3. Верно определено положение двух пиков, с хорошей точностью оценены их амплитуды, однако потерян третий пик малой амплитуды. На рис.5.1, д, число уровней значения сигнала / увеличено до оптимального N = 4. Качество оценки входного сигнала достаточно высокое. На рис.5.2,а-г, приведены аналогичные результаты для того же входного сигнала, но в ситуации, когда шум при измерении составляет 20%. Как видно из рисунков, результат восстановления достаточно устойчив по отношению к погрешности измерений. На рисунках 5.3 и 5.4 приведены результаты вычислительного эксперимента для входного сигнала, не являющегося кусочно постоянным. Входной сигнал / G Ищ изображен на рис. 5.3, а. Он измеряется в эксперименте по схеме (5.13), результат его измерения — сигнал ξ Ε ΊΖ49 — представлен на рис.5.3,б. Погрешности измерения щ, г= 1,...,49, некоррелированы и обладают среднеквадратичным уклонением, равным 10% (8%). На рис. 5.3, в, приведен график зависимости расстояния сигнала ξ от пространства значений оператора А, определяющего надежность модели измерения; она дается монотонно невозрастающей функцией аргумента N. Эта зависимость резко убывает до значения N = 4, далее скорость убывания заметно снижается. Можно предположить,
144 Гл. 5. Эмпирическое построение случайной формы изображения что, начиная с N = 4, увеличение числа множеств разбиения X приведет лишь к аппроксимации искажений оценки сигнала /, вызванных погрешностью измерения. О 10 20 30 40 50 0 10 20 30 40 50 02 4 6 8 Рис. 5.3. а — входной сигнал; б — результат измерения; в — график y(N) в зависимости от числа уровней кусочно-постоянного сигнала 0 10 20 30 40 50 0 10 20 30 40 50 Рис. 5.4. а — оценка входного сигнала при N = 3; б — при N = 4\ в — при N = 5; г - при N = 12 Графики оценок при N = 3,4,5, 12 приведены, соответственно, на рис. 5.4, а-г. Видно, что увеличение числа уровней действительно приводит к высокочастотной погрешности, не имеющей отношения к истинному сигналу /.
5.3. Аппроксимация формы множества изображений 145 5.3. Аппроксимация формы множества изображений Вопрос о выборе подпространства заданной размерности, наилучшим образом приближающим данные наблюдений, как отмечалось в п. 5.2, может быть решен при известной математической модели погрешности наблюдения. Однако если наблюдается множество изображений, то интерес представляет задача об определении подпространства заданной размерности (меньшей, чем число наблюдаемых изображений), элементы которого с наперед заданной точностью приближают все эти изображения. Подобная задача возникает при аппроксимации формы изображения ламбертова объекта, см. п. 1.5.4: формой изображения ламбертова объекта является трехмерное подпространство, натянутое на изображения объекта, полученные при трех различных базовых освещениях. Выбор трехмерного подпространства, аппроксимирующего форму изображения ламбертова объекта, может быть осуществлен по множеству наблюдаемых изображений. Эти и другие вопросы рассматриваются в настоящем разделе. 5.3.1. Эффективная размерность множества изображений. Вопрос о выборе подпространства минимальной размерности, с заданной точностью аппроксимирующего множество измеренных изображений, рассмотрим, следуя работе [83]. Пусть {£ij}, г = 1,...,п, j = l,...,m, — множество измерений (изображений), которое интерпретируется следующим образом. Имеются η датчиков, измеряющих значение некоторой физической величины, например, расположенные в η узлах сетки на поле зрения X. Выходной сигнал г-го датчика fi(t), г= Ι,.,.,η, меняется с течением времени t G Г. В моменты времени tj регистрируются значения сигналов £^ = fi(tj), г = Ι,.,.,η, j = 1,...,га. Множество {ξ^} удобно интерпретировать в зависимости от задачи либо как сменяющие друг друга изображения ξ^, регистрируемые в η точках в моменты времени tj, j = 1,... ,m, либо как г— 1,..., η функций времени, определяющих выходные сигналы η датчиков, значения которых регистрируются (одновременно) в моменты времени j = 1,..., т. В первом случае будем считать, что результатом измерения являются т n-мерных векторов £.; ( ξΐί \ епп, j=i,...,m,
146 Гл. 5. Эмпирическое построение случайной формы изображения во втором — η m-мерных векторов еПт, i=l,...,n, \ Sim / где Кт и Кп — соответственно га- и n-мерные евклидовы пространства. Пусть а[п\ ... ,dn — ортонормированный базис в ΊΖη и ^ = ЕМП)К°· г=1 (п) (п) Выберем к ^п векторов а\ ,... ,а{к ' и рассмотрим ошибку приближения вектора £·;·, j = 1,... ,т, линейной комбинацией ]Г (ξ·^,α|j W г=1 V ' первых к базисных векторов, j = 1,... ,m. Так как ^ - Σ МП)К} = (Л МП)Ь(П)· 1 < * <п' г=1 [θ, к = П, j = l,...,m, то под (полной) ошибкой приближения множества £#J, j = l,...,m, соответствующими линейными комбинациями г=1 будем понимать 71 *((5(Κ(η)» = Σ|Σ МП))«М| =Σ Σ Mn))' J = l г=/с+1 j=l i=fc+l η τη η = Σ Σ<4η)*«>1η)= Σ (S(-)«in).«in)). <5·25> i=k+\ j=\ i=k+\ k = 0,...,n-l, <5((:!(RW}) = 0, т.е. сумму квадратов расстояний векторов ξ·ι>···>£·τπ до линейной оболочки L(a\n\... , α*. )· Здесь «*» означает транспонирование, мат-
5.3. Аппроксимация формы множества изображений 147 ричные элементы произведений 0 a\n'*£9j и £^-аг· равны (^,аг· ), т ( €ij \ Ξ(η) = ξξ* = Σ (€ij..-..£nj) (ξΐΐ ··· ζ\τη \ snl ··· snra / Обозначим {аг· } — ортонормированный базис в ΊΖη, ε > 0. Определение 5.1. Эффективной размерностью множества изображений ξ#ι7·, j = 1,... , га, назовем функцию С СИ = inf min {/с | 0 < к < η, ί((2({αίη)}) < ε} , определенную для ε Ε [0, оо) и принимающую целочисленные значения. Для вычисления эффективной размерности рассмотрим следующие задачи, представляющие и самостоятельный интерес. Задача 1. Найти ортонормированный базис {rf°} С ?гп, такой, что для любого ортонормированного базиса {с^ } С ΊΖη и любого к = 1,...гс выполняется неравенство i[^({rt· }) ^ Йл({<4 }). При любом к = 1,... ,га базис {г|п)} обеспечит наименьшую в среднеквадратичном по всем изображениям £#J·, j= l,...,m, ошибку приближения изображений £#J- А: слагаемыми £ (ί·^»ΓΙ )rl » J = = 1,... ,m по сравнению с любым другим ортонормированным базисом {а\п)} С Пп. Задача 2. Найти ортонормированный базис {rjm)} с 7гт, такой, что для любого ортонормированного базиса {а^} С К™ и любого где(/ = 1,...,ш-1, δ™{{α™}) = 0) П 771 ρ Ш О Произведение строки αίη)* (£^·) на столбец £mj (αίη)) есть матрица, единственный матричный элемент которой равен (£·.?,α^η)), j — l,...,m; г = 1,..., п.
148 Гл. 5. Эмпирическое построение случайной формы изображения (& \ η ι ι Здесь Ξ(τη) = ξ*ξ = Σ \ : (6i •••&m) — матрица порядка га χ га. Определение 5.2, [83]. Эффективной размерностью множества измерений ξί9, г = 1,... ,п, назовем функцию ζ = ζ(ε) = inf mini/lo ^l^m, ^'({аИ}) < ε), О < ε < оо. Решение задач 1 и 2 дано в следующей теореме. Теорема 4.3.1. Пусть е\,..., еп — ортонормированный базис ΊΖη, состоящий из собственных векторов матрицы Ξ(η), Щп)ег = λ^, г— 1,... , п, упорядоченный так, что \\ ^ Лг ^ ... ^ λρ > 0 = λρ+ι = = ... = Лп. — 1 /2 1. Векторы fj = \j ' £*е^, j = 1,... ,р, являются ортонормиро- ванными собственными векторами матрицы Н(Ш), Ξ(τη)/7· = = ^jfj, j = 1,...,р. Векторы /i,...,/m, где fp+\%...%fm -любая ортонормированная система из CL(f\,..., /р), образуют ортонормированный базис Km, причем ^(m)fj — Л?'/?'» j = 1,... ,m, λι ^ ... ^ λρ > 0 = λρ+ι = ... = Am. 2. Ортонормированные базисы, которые требуется найти в задачах \ и 2, суть (п) _ · _ ι Г^ — 6^, 2 — 1, ... , 71, (m) /. . < г} - Л', j = l,...,m. 3. Ош^б/сг/ приближения 6${{r.n)}) и sff{{rim)}) вычисляются no формулам x(n)/r г(пЬч I Σ ЛЬ 0<fc<p, d(fc)Ur· ;; - \ i=k+\ { 0, p^k ^n\ {p Σ λ;> o^/<p, 0, ρ ^ / ^ ra. 4. Эффективные размерности множеств измерений {£·?·} w {&·} совпадают, причем ζ(ε) = min{fc,<5g({rin)}) < ε} = тт^^г^}) < ε} , ε € [Ο,οο).
5.3. Аппроксимация формы множества изображений 149 Пользуясь понятием эффективной размерности множества данных можно аппроксимировать с заданной точностью ε форму множества изображений £9j е ΊΖη, j = l,...,m, линейным подпространством. Это линейное подпространство является линейной оболочкой С(г\п\ ... ,Τζ}\) базисных векторов ry G 1ln, j = 1,...,ζ(ε), его размерность ζ(ε) есть эффективная размерность множества £9j e ΊΖη, j= l,...,m, см. определение 5.1. Точность аппроксимации формы равна (П?\ и определена формулой (5.25), причем SiJ\ ^ ε. 5.3.2. Эффективная размерность множества классов эквивалентности изображений. Пусть, как в предыдущем пункте, множество £,.j,j — l,...,m, интерпретируется как семейство изображений, полученных в эксперименте. Как правило, исследователь может указать класс Q (допустимых) преобразований £#J- —► 7?£·?, 7? £ G, j= l,...,m, таких, что с точки зрения интерпретации измерений незнание jj, j = \,... ,т, никак не влияет на качество интерпретации. В таком случае исследователь предпочитает иметь дело с более компактным, но представляющим всю экспериментальную информацию, фактор-множеством {ξ·^/ΰ^ классов Q^ эквивалентности, в котором все изображения, отличающиеся лишь преобразованием η е Q, могут быть представлены как один элемент; Q^ — индуцированный Q класс преобразований (Rn)m —► (Rn)m. Сжатые без потери информации данные обычно легче поддаются содержательному анализу. Определение 5.3. Пусть Q — группа преобразований Кп —► ^тгп, gw - подгруппа дт = д х... хд± {(71,...,7m), ъ eG, * = = 1,...,т}. Эффективной размерностью фактор-множества {^j}/G^ классов (?(т)-эквивалентности измерений (орбит группы (?(т) в (Ип)т) назовем функцию φ(έ) = inf {min{fc|0 < k < п,4п)({агИ},7(т)) < ε}} , {a[n)}n(rn)eQ(^ L J где ε^Ο, 7(m) = (7i,...,7m), 771 Π iin)({ajn)}.7(m)) = E Σ (OCi-ai"»)2, fc = 0,....»-l. j=\ 2 = fc+l ^n)({ain)}.7(m))=0 и inf вычисляется по всем ортонормированным базисам {аг· } С Кп и всем образованиям 7^ £ G^ С дш — {(71, ··· ,7т)}· Замечание 5.3.1. Поскольку д^ — группа, то для любого 7(m) = (7i,.».7m) e д{т)
150 Гл. 5. Эмпирическое построение случайной формы изображения эффективная размерность {jj&j}/^^ совпадает с эффективной размерностью {^j}/G^m\ т.е. определяется классами (?(т)-эквивалентности. Замечание 5.3.2. Так как Q^ содержит тождественное преобразование, то для любого множества измерений {£·?} φ(ε)^ζ(ε), ε > 0, где ζ(·) — эффективная размерность множества измерений {£·?}. Пусть, например, входные данные представлены изображениями (1.32), полученными от ламбертова объекта, см. п. 1.5.4; изображения рассматриваются как элементы евклидова пространства С2(Х). Преобразования вида /j(0 — *j/j(0. kj>0, т^Ш + Ч. J = h-,m, (5.26) моделируют изменения средней яркости и контраста изображений, отвечающие меняющимся условиям их формирования. Вычислим сначала эффективную размерность изображений /ι(·), ···. /п(*)> являющихся изображениями одного и того же ламбертова объекта, полученных при различных условиях пространственно-однородного освещения. Действуя так же, как в предыдущем пункте для изображений конечномерного евклидова пространства, найдем, что для построения эффективной размерности следует решить задачу на собственные значения для интегрального оператора F, определенного для любого элемента е() G £2μ(X) соотношением Fe{x) = | F(x, x')e(x') dx\ xeX, χ т где F(x,xf) = Σ fj(x)fj(x)i x'x' € Χ· Как было показано в п. 1.5.4, изображение ламбертова объекта является линейной комбинацией не более чем трех линейно независимых изображений Д(·), к = 1,2,3, этого объекта, полученных при базовых освещениях. Запишем это представление з fj(x) = Y2Tjkfk{x), xeX, j=l,...,m, fc=l тогда 3 m 3 F(x,xf)=Y2Y2rjkrj^fk(x)f^(x,)= Σ skk>fk(x)fk>{x'), χ,χ' eX, fc= 1.7 = 1 kk' = \
5.3. Аппроксимация формы множества изображений 151 т где Skk' = Σ TjkTjhf, k,k' = 1,2,3, и, следовательно, в задаче на соб- i=i ственные значения Fei(-) = Aie<(·), г = 1,2,..., λι ^ λ2 ^ λ3 ^ 0 = λ4 = ... . Итак, эффективная размерность множества изображений ламбертова объекта не превосходит трех, однако может быть и менее трех, если требуемая точность аппроксимации ε не очень велика. Определим теперь эффективную размерность классов эквивалентности этого же набора изображений /ι(·),..., /η(·) ламбертова объекта, где эквивалентными считаются изображения, отличающиеся линейными преобразованиями яркости, формально описанными в (5.26). Так как преобразованиями /(·) —► /(·) + const и /7() —► kjfj(-), kj > О, любое изображение можно сделать сколь угодно близким к нулю, то класс изображений, эквивалентных любому изображению из набора /ι(·)»···» /η(·)> можно аппроксимировать изображением f(x) = О, χ е X, с любой точностью. Поэтому формально эффективную размерность в этом случае можно считать равной нулю, что вряд ли интересно для практических целей. На практике более интересным является случай, когда эквивалентными считаются изображения, отличающиеся средней яркостью. Тогда для вычисления эффективной размерности классов эквивалентных изображений можно воспользоваться представителями (I - Ро)/г(·) классов, где (I - Ро) — ортогональный проектор в £2μ{Χ) на множество изображений, ортогональных константе. Искомая эффективная размерность классов эквивалентности в этом случае равна эффективной размерности множества (I - P0)f{(·),..., (I - Ро)/п(·)· Часто на практике объект или сцена могут перемещаться относительно видеокамеры. Это приводит к тому, что фрагмент, изображающий объект исследования, может занимать различные положения на поле зрения X. Рассмотрим, как при этом преобразуется его изображение. Пусть А с X — подмножество поля зрения X, на котором изображен выделенный объект, хл{') · X —► {0, 1} — индикатор множества А: , Г 1, хеЛ, хл{х) = \0, хеХ\А, и /а{-) = Χλ(·)/(·) — изображение выделенного объекта. Рассмотрим группу Q преобразований плоскости ΊΖ2 и выделим те преобразования 7^5, для которых ηΑ с X. Множество преобразований плоскости, не выводящих множество А за пределы поля зрения, обозначим £д. Здесь η А = {х е X : η~χχ G А} с X. Каждому преобразованию η е Ял
152 Гл. 5. Эмпирическое построение случайной формы изображения соответствует преобразование 7(7) изображения /л(7~1д0» если 1~Хх € X, О, если 7_1# & X* 1а{х)^71а(х) = { λ ' _1/VV' xGX, 7€&α· Поскольку относительное положение регистрирующей аппаратуры и объекта обычно не влияет на содержательную интерпретацию изображения, назовем изображения fA{·) = χ(·)/() и /β(·) = χβ(·)/(·) эквивалентными, /α(·) ~ /в()> если для некоторых преобразований 7А £ £д> 7в € £я /λ((7λ)"1χ) - /β((7β)"4 х G X. (5.27) Здесь Б — подмножество 7£2, целиком содержащееся в поле зрения X, г Qb С G — множество преобразований плоскости, не выводящих множество В за пределы поля зрения. Так как при выполнении (5.27) ύαΑ = ίβΒ, то А = (7л)_17в^ и В = (ίβ)~1ΎαΑ. Следовательно, /λ(·) ~ /в(·), если и только если существуют 7л ^ £а и 7в £ £# такие, что /,((7;)-1ι) = /β(χ), /λ(*) =/в((7'вГЧ х€Х Отношение «~», очевидно, рефлексивно: /л() ~ /в(*)> симметрично: /λ(·) ~ /в(·) <=> /в(·) ~ /λ(·) и транзитивно: /λ(·) ~ /в(·), /в(·) ~ ~ /с(*) => /α(·) ~ /с(*)> то есть <<rsJ>> ~ отношение эквивалентности. Эффективная размерность множества классов эквивалентности множества изображений Τ — {/л, (·)»···» fAm(·)} по отношению эквивалентности «~» (фактор-множества Τ по отношению эквивалентности «~»), заданному группой Q преобразований 7£2, определяется как функция φ{ε) = О О, где m 00 ад*}.Ш) = Е Σ (ъ/л,(-)м-))2, *=ο,ι,2,..., точная нижняя грань вычисляется по всем ортонормированным базисам {а?} С £2μ(Χ) и всем преобразованиям 7j € (/.д,. J = l,...,m.
Часть HI ВОЗМОЖНОСТНЫЕ МЕТОДЫ АНАЛИЗА ФОРМЫ Глава 6 ВЕРОЯТНОСТНЫЕ И ВОЗМОЖНОСТНЫЕ МОДЕЛИ ФОРМЫ ИЗОБРАЖЕНИЙ 6.1. Вероятностные и возможностные модели морфологического анализа изображений В предыдущих главах для описании условий регистрации изображений использовались два подхода — детерминированный и стохастический. При детерминированном подходе форма изображения рассматривалась как множество всевозможных изображений заданного объекта или сцены, причем не существует предпочтений одного изображения заданной формы перед другим — все они одинаково возможны. При стохастическом подходе случайная форма изображения сцены задает множество параметров распределения вероятностей на алгебре подмножеств пространства форм изображений, причем считалось, что элемент случайности связан с погрешностью наблюдений. Однако на практике встречаются ситуации, в которых ни детерминированный, ни стохастический подходы не являются адекватными. С одной стороны, на множестве изображений естественно задать некоторые предпочтения, однако описывать их в вероятностных терминах не удается, так как вероятность, прежде всего, оценивает частоту появления события в регулярном стохастическом эксперименте, в то время как обычно изображения реальных сцен не имеют стохастической природы из-за непредсказуемой эволюции как самой сцены, так и условий их регистрации. Более естественным выглядит подход, основанный на теории возможностей, см. приложение, пп. А.6, А.7, а также монографии [38, 39].
154 Гл. 6. Вероятностные и возможностные модели формы изображений Конструкции меры возможности применяются в морфологическом анализе изображений для моделирования нечеткости и неточности представлений о сцене и условиях регистрации ее изображения. Это достигается заданием меры возможности на множестве всех изображений. Мера возможности задает порядок, указывающий, какие изображения данного объекта или сцены более возможны, какие — менее, а какие невозможны вообще. Мера возможности характеризует предопределенность, шанс появления того или иного изображения сцены или объекта. Описание множества изображений сцены в ранговой шкале возможностей вполне достаточно для выбора оптимального правила принятия решения, например, наиболее возможного или минимизирующего возможность ошибки [38, 39]. Теория возможностей прежде всего является естественным обобщением теории ошибок. Действительно, если в теории ошибок результат измерения представляется множеством возможных значений измеряемой характеристики объекта, то в теории возможностей допускаются градации возможностей тех или иных значений ошибки. Возможностные модели могут возникать из попыток описания экспериментов со случайным исходом, теоретико-вероятностную модель которого построить нельзя. Причина этого может состоять в недостатке знаний, либо в отсутствии стохастической «стационарности». И то, и другое формально может выражаться в том, что для вероятности ос некоторого набора случайных событий А\,..., Ап,..., |J Αι — Ω, вы- i=\ полняются неравенства Р(А{)>Р(А2)>...>Р(Ап)>..., (6.1) в ряде случаев этого достаточно для того, чтобы построить возмож- ностную модель, согласованную с вероятностной (6.1) в том смысле, что для любых двух событий, А и В, из неравенства Ρ (Α) ^ Ρ {В) следует неравенство Ps(A) ^ Ps(B) для их возможностей Ps(·); в частности, сохранится тот же порядок и для событий А\,..., Ап,...: Ps{Ax) > Ps(A2) >...> Ps(An) > ... . (6.2) Тем самым для согласованных вероятностных и возможностных схем выполняется естественное условие: чем возможнее некоторое событие, тем оно вероятнее. Заметим, что при таком подходе одной и той же вероятностной модели с упорядоченными вероятностями (6.1) соответствует целый класс эквивалентных моделей с одинаково упорядоченными возможностями (6.2). Теоретико-возможностный подход снимает многие трудности, возникающие при использовании стохастического моделирования. Напри-
6.1. Вероятностные и возможностные модели 155 мер, незнание априорных распределений в теории возможностей может моделироваться распределением, в котором все ситуации считаются равновозможными. Подчеркнем, что в теории возможностей это означает отсутствие предпочтений одной ситуации перед другой, в то время как в теории вероятностей равномерное распределение на заданном множестве событий означает достаточно сильное условие равной вероятности указанных событий, что на практике должно подтверждаться равной частотой их появления в серии независимых испытаний (в пределе при стремлении числа испытаний серии к бесконечности). Если же возможны наблюдения над системой, то неизвестные априорные распределения возможности могут быть восстановлены эмпирически по небольшой выборке [39, 51]. Кроме того, возможностные модели могут возникать при попытке описания сведений качественного характера, когда известно, что реализация одних ситуаций (событий, значений параметров объекта или сцены и т.п.) более предпочтительна (возможна), чем других. Это предпочтение может быть выражено мнением эксперта, создающего модель регистрации изображений. Например, возможностную модель процесса можно построить, задав набор возможных ситуаций при регистрации изображения. Подчеркнем, что эта модель описывает не реальные наблюдения, а лишь возможность той или иной ситуации [50]. Возможностной модели, сконструированной на основе экспертных оценок, в ряде случаев можно сопоставить класс согласованных с ней вероятностных моделей, в том смысле, что для всех событий А и В, для которых выполнено неравенство Ps(A) ^ Ps(B), такое же неравенство выполнено и для вероятностей: Ρ (Α) ^ Ρ (В). Для того чтобы выводы теории возможностей имели содержательный смысл, необходимо, чтобы возможностные методы моделирования были инвариантны относительно любого сохраняющего порядок преобразования шкалы значений возможности. Следовательно, возможность не может интерпретироваться как частота события. Тем не менее теория возможностей позволяет математически моделировать реальность на основе опытных фактов, знаний, гипотез и суждений исследователей и проверять адекватность построенных моделей [39]. Подчеркнем, что инвариантность выводов представленного здесь подхода по отношению к монотонному преобразованию шкалы значений возможности принципиально отличает его и от других известных конструкций возможностей [72, 92, 93]. Различие между возможностными и вероятностными моделями можно охарактеризовать следующим образом: вероятность события оценивает частоту его появления в серии взаимно независимых испытаний, возможность же оценивает относительную предопределенность, шанс произойти событию в каждом испытании.
156 Гл. 6. Вероятностные и возможностные модели формы изображений В этой главе для решения задач морфологического анализа построена нечеткая форма изображений, заданная распределением возможностей на множестве изображений. Задачи узнавания, классификации, оценки параметров формы изображений ставятся как задачи минимизации возможности или необходимости ошибки по аналогии с работой [39]. Математические элементы теории возможностей и методы ее согласования с теорией вероятностей даны в приложении, пп. А.6, А.7. 6.2. Возможностная модель изображения и его интерпретации 6.2.1. Модель регистрации изображения. Изображения в этой главе рассматриваются как нечеткие элементы пространства С(Х) функций, определенных на поле зрения X и принимающих значения на числовой оси, см. приложение, п. А.7. Для дискретного поля зрения, состоящего из конечного числа точек (узлов сетки), значения яркости в узлах рассматриваются как координаты вектора ΊΖη, где η — число узлов. В рассмотренных в части I задачах считалось, что для каждой сцены можно указать множество V\ изображений сцены, причем сцена λ G Л взаимно однозначно определяет форму V\ его изображений. До сих пор считалось, что любое изображение из множества V\ может служить изображением сцены λ, и не были указаны какие-либо предпочтения одного изображения перед другими, а все изображения, не принадлежащие Уд, не могли быть изображениями сцены λ ни при каких обстоятельствах. В этой главе будем считать, что при заданном λ известно распределение возможностей значений нечеткого изображения /, и сам параметр λ является нечетким элементом множества Л с некоторым априорным распределением возможностей его значений. Наблюдаемым является изображение ξ, возможности его значений при известном / считаются известными. Для решения оптимизационных задач узнавания, классификации, оценки параметра сцены по его изображению требуется знание распределения возможностей значений параметра λ при заданном ξ. Посмотрим на эту задачу с общих позиций [39]. Рассмотрим воз- можностную модель эксперимента по регистрации изображения ξ, заданную совместным распределением возможностей значений следующих нечетких элементов: «идеального» изображения /, поступающего на вход системы регистрации, изображения ξ, являющегося результатом регистрации изображения /, и параметра λ, задающего форму изображения /: μ^'λ(ζ, q, и), (ζ, q, и)еПп χΊΓ х Л. (6.3)
6.2. Возможностная модель изображения и его интерпретации 157 Значение μ^,λ(ζ, q, и) равно возможности равенств ξ = ζ, f = q, X = и. Маргинальное распределение μ^'λ(ζ, и) = sup μξ,/·λ(ζ, q, и), {ζ, и) G ΊΓ х Л, (6.4) qenn определяет модель интерпретации результата регистрации изображения ξ, позволяющую, в частности, получить оценку значения параметра λ = и, основанную на результате регистрации ξ = ζ. При этом, исходя из априорного распределения изображения ξ, μΖ(ζ) = sup μξ,/\ζ% и), ζ G ΊΓ, (6.5) λΕΛ можно оценить и состоятельность модели регистрации изображения. Если, например, ξ = ζ — результат регистрации и μ^(ζ) = 0, то модель (6.3) следует признать неадекватной. Задачу интерпретации результата ξ можно понимать как задачу оптимального оценивания значения параметра λ, минимизирующего, например, возможность потерь оценивания d*(·) = arg min < sup πιίη(μ^,χ(ζ, и), l(u,d(z)))> (6.6) d(-):Kn-+A {zeK",ueA J или необходимость потерь оценивания d*(·) = arg min < inf max(?^,A(z, и), l(u,d(z))) > (6.7) d(-):Kn—>A [геКп,иеА J (см. приложение, п. A.7). Здесь функция d(·) : ΊΓ —> Л определяет правило оценивания, согласно которому результату регистрации ξ = χ ставится в соответствие значение и = d(x) параметра λ изображенной сцены, a l(u,d(z)) — возможность потерь, когда в качестве оценки значения λ = и используется значение d(z), и е Л, ζ е ΊΓ. Оптимальное правило определяется из условия (6.6), минимизирующего возможность потерь: sup ιτπη(μ^λ(ζ, гх), l(u, d(z))), zeun,ueA или из условия (6.7), минимизирующего неизбежность потерь: inf max(T^,A(z,ii),Z(ii,d(z))). ζ£ΊΙη, иеА Априорные шансы получить ту или иную реализацию q изображения / заданной сцены, отвечающую значению и параметра λ, могут быть заданы распределением переходной возможности [39]): μ/|λ(^|ιΟ, qelT, иеА,
158 Гл. 6. Вероятностные и возможностные модели формы изображений определяющей зависимость распределения нечеткого изображения / от значения и нечеткого параметра формы λ, и распределением μχ(η), представляющим априорную информацию о возможных значениях параметра формы. Равенство μ/·λ(9, и) = min^lA(g, и), μλΗ), {q, и) G Пп х Л, (6.8) определит совместное распределение (/, λ). Маргинальное распределение возможности значений нечеткого изображения / дается формулой μ·^) = 8ΐιρμ/,λ(<7,ϋ) = supmin^/|A(<?, и), μΧ{η)), (q,u) G Un x Λ. ίχ£Λ ια£Λ Аналогично, шансы получить ту или иную реализацию ξ можно задать распределением переходной возможности μΜ'χ(ζ\ς,ύ), z<EUn, qe1ln, uGA, определяющей зависимость распределения наблюдаемого нечеткого изображения ξ от значения q нечеткого изображения / и значения и параметра λ формы, и распределением μ·^λ(ρ,ΐ£), представляющим априорную информацию о возможных значениях изображения / и параметра формы λ. Равенство μ*'ί'χ(ζ^,η) = πάη(μΜ'χ(ζ^,η),μί'χύ,υ,)), {z,q,u) G Кп х Кп х Л, определит совместное распределение (ξ,/,λ). Теперь распределение μ£,λ(·, ·), необходимое для получения оптимальных оценок путем решения задач (6.6) и (6.7), получим как маргинальное: μ^χ(ζ,η) = sup μ^,λ(2, g, гх). qenn Заметим, что на практике распределние возможностей значений нечеткого изображения ξ при фиксированном значении f = q входного изображения не зависит от λ, поэтому μ^^,χ(ζ^,η) = μ^^(ζ^). Задачу узнавания заданной сцены, определенной значением λο параметра, по предъявленному изображению ξ можно решить на основании знания распределения переходной возможности μ^λ(·|·): значение μ^χ(ζ\λο) есть возможность реализации изображения ξ, — ζ заданной сцены, она определяет шанс получения изображения ξ — и заданной сцены по сравнению другими сценами. В частности, если μ^,λ(ζ,λο) = 0, то реализация ξ = и изображения заданной сцены λο невозможна. Решения задач классификации сцен и оценивания параметров сцен по их изображениям можно получить как оценки значения параметра λ G Λ из вариационных задач (6.6) и (6.7), причем если речь идет о классификации сцен, когда задано К классов, то формально можно
6.2. Возможностная модель изображения и его интерпретации 159 считать, что значение параметра λ Ε Λ в (6.6) и (6.7) задает номер класса, Л = {1,2,... ,К]. 6.2.2. Анализ изображений, искаженных аддитивным шумом. Пусть в схеме измерения ν — нечеткий элемент ΊΖη\ μ"(·) : ΊΖη —► [0, 1] — его распределение. Тогда для распределения переходной возможности μ^,λ(·|·, ·) найдем μΜ'χ{ζ\ς, и) = μΜ{ζ\ς) = μ" (г -q), ze Пп, q G ΊΓ. (6.9) Если μ·^,λ(·) : ΊΖη χ Λ —> [0,1] — априорное распределение (6.8), то μ*'/,7(2, q, и) = ΐϊΐΐη(μ1/(ζ - q), μί,Χ^, и)), z,qe ΊΖη, и G Л, — модель измерения (6.3) и μξ,Χ(ζ, и) = sup ΐϊΐΐη(μ1/(ζ - q), μ1^^, и)), ζ G ΊΙη, и G Λ. qenn Она используется для решения задач (6.6) и (6.7) оценивания параме- ра λ. Если в качестве критерия решения задачи оценивания параметра λ выбрать величину неизбежности (необходимости) потерь, т. е. [39] ϋ ( sup sup min (μ" (2 - q)^^'X(q, u),ul(u, d(z))) 1 , то, как показано в [39], для нахождения оптимального решающего правила достаточно для каждого ζ G ΊΖη решить задачу ϋ (sup mmW(z-q)^f>x(q,u),ul(u,d(z)))) ~ min . (6.10) \qeK" ) d(-):U"-+A Для широкого класса задач возможность потерь при оценивании и G Л значением г; Ε Λ задается равенством Г > 0, и Φ υ, l(u,v)\ ' ψ (6.11) 1=0, u = v, означающем, что в (6.10) только при d(z) = и потери невозможны; иными словами, так определенная функция /(·,·) задает возможность ошибки оценивания. Найдем оптимальное решающее правило d*(·), минимизирующее необходимость ошибки оценивания: d*(-) = arg min ΰ( sup ϊίΐίη(μ" (ζ - q), μ f,x(q, и), ΰ (I (и, d(z))))\ . (6.12)
160 Гл. 6. Вероятностные и возможностные модели формы изображений Если /(·,·) удовлетворяет условию (6.11), то минимум по d(-) в задаче (6.12) достигается на сЦж) = λ*, где λ* — элемент из Л, на котором достигается максимум возможности μ^χ(ζ,ΐί) [39]: μ^,λ (ζ, и) ~ max. (6.13) иеА Таким образом, в рассматриваемой модели оптимальной оценкой параметра λ сцены по предъявленному изображению ξ, — ζ является значение λ* G Л, на котором достигается максимум возможности: μ^,λ(ζ,λ*) = max μ^,Α(ζ, и) = иеА = max sup τηιη{μι'{ζ — q)^^x{q,u)). ueA qenn Заметим в заключение, что если отсутствуют априорные данные о возможных предпочтениях одних значений λ Ε Λ перед другими, то λ по-прежнему можно рассматривать как нечеткий элемент множества Л с распределением возможности μλ(ϋ) = 1 для всех и G Л. Все сказанное выше будет справедливо и в этом случае. 6.3. Примеры задания меры возможности на множестве изображений 6.3.1. Форма как «четкое» множество. Пусть распределение возможности ошибки классификации задано формулой (6.11). Распределения возможностей μλ(·) и μ·^λ(·|·) заданы следующим образом: μλ(„)=1, μ/|λ(*|*) = ( !' ql^ qeUn, u G Λ, I 0, q f Vu, где для каждого и G Л множество Vu является выпуклым замкнутым конусом пространства Кп, представляющим собой форму изображения сцены, задаваемой значением и е Л параметра λ. При этом, как легко видеть, μϊ'Χ^,η) = μ^χ^\η). Как было замечено в предыдущем пункте, при таких предположениях задача (6.12) поиска оптимальной оценки d*(z) = λ* значения параметра формы λ сводится к поиску оценки максимальной возможности параметра λ е Л при ξ = ζ, т. е. к решению задачи на максимум: μ^,χ(ζ, λ*) = max sup ΐϊΐΐη(μ1/(ζ — q), μ·^,λ(<ζ, и)) = U^A qenn = max sup r(||£-g||), ueA geVu
6.3. Примеры задания меры возможности на множестве изображений 161 которая в силу монотонного убывания функции г(·) эквивалентна задаче на минимум: max sup r(||£ - q\\) = min ||Ρν„ζ uga qeVu иеА |2 и ее решение не зависит от выбора функции г(·). Таким образом, задача поиска оптимальной оценки параметра формы в этом случае сводится к поиску конуса Уд*, ближайшего к предъявленному изображению z\ этот принцип оценивания описан во введении, а также в параграфе 1.4 гл. 1. 6.3.2. Нечеткая форма изображения при деформации поля зрения. В этом пункте считается, что изображение является функцией из класса €2μ(Χ). Пусть задано некоторое множество сцен, каждая из которых определяется значением и е Л параметра λ, и для каждого значения и параметра λ задано его эталонное изображение fu е С2(Х). Все изображения заданной сцены могут быть получены из эталонного путем преобразования их яркостей и деформацией поля зрения. Опишем их формально. Преобразование яркости изображения fu осуществляется функцией F е¥и так, что F о fu е £2μ(Χ) для любого F е ¥и, иеА; множество Vu = {q E Cl(X) : q = Fofu,Fe¥u} является выпуклым замкнутым множеством £}μ (Χ) для любого иеА. Деформация поля зрения X осуществляется преобразованием 7 € Г, где Г — множество преобразований плоскости ΊΖ2, переводящих X в себя: ηΧ — X для любого η е Г, и такое, что для всех и е А изображение, заданное равенством /J(a;) = /u(7x) (modμ), является элементом fu € £μ(^0· Преобразование η рассматривается как нечеткий элемент множества Г, заданный распределением возможности μΊ{·): Г —► [0, 1]. Для любых фиксированных q е С^(Х) и и е А рассмотрим множество преобразований ΗΐΜ = {7€Γ: q = Foft,FeFu}9 переводящих изображение fu в изображение, сравнимое по форме (в смысле, определенном в п. 1.2.2) с изображением /J, заданном на деформированном поле зрения, и зададим переходное распределение возможности μ·^λ(·|·) соотношением f|A/ . λ ί max^fo) I g e Г^}, если Г^ ф 0, ν ' ; \ 0, еслиГ«1м = 0, qeCl(X), иеА. 6 Ю. П. Пытьев, А. И. Чуличков
162 Гл. 6. Вероятностные и возможностные модели формы изображений Пусть схема регистрации нечеткого изображения ξ имееет вид ξ = f + ν, где распределение нечеткой погрешности регистрации ν задано так же, как в предыдущем пункте, т.е. в виде μν{·) = г(\\ · ||), где г(·): [0, оо) —► [0,1] — непрерывная строго монотонно убывающая функция, задающая вариант распределения нечеткой погрешности ν е ΊΖη при регистрации изображения, г (О) = 1. Тогда, если априорное распределение возможности значения пара- мера λ на множестве Л задано в виде μχ(η) = 1, и е Л, а распределение возможности ошибки при оценке значения параметра λ G Л — соотношением (6.11), то оценка λ* параметра λ G Л, минимизирующая необходимость ошибки оценивания (6.12), сводится к поиску оценки максимальной возможности параметра λ е Л при ξ = ζ, т. е. к решению задачи на максимум: μ^,λ(ζ,λ*) = max sup min (μ" (2 - q), μ^,Χ(ς, и)). (6.14) U^A qenn Еслид%)= 1 для всех <?еГ, a V^ = {деСЦХ): q = Fof^Fe¥u} выпукло и замкнуто для всех и е А и g e Г, то в силу монотонного убывания функции г(·) задача (6.14) эквивалентна задаче на минимум: min < min ||Pv9^ — z\\ >, (6.15) ueA \ger " Vu M J где PV9 — проектор на множество V^, и ее решение не зависит от выбора функции г(·). Оценкой λ* значения параметра λ, минимизирующей необходимость ошибки, в этом случае является то значение и, на котором достигается минимум в (6.15), или, иными словами, при котором объединение «деформированных конусов» I) V% ближе всего дег к предъявленной реализации ζ нечеткого изображения ξ. 6.3.3. Форма как множество изображений с известной упорядоченностью яркостей точек поля зрения. В этом разделе вновь вернемся к модели изображения как нечеткого вектора n-мерного евклидова пространства ΊΖη, см. п. 6.3.1, в которой координата ^ реализации q G ΊΖη нечеткого изображения / является яркостью точки χι г-го узла сетки, г = 1,..., п. Как видно из предыдущих пунктов, центральным моментом воз- можностных методов анализа формы изображений является задание возможности на множестве всех изображений. В этом пункте мы зададим возможность как функцию упорядоченности яркостей изображения, определенного на дискретном поле зрения и рассматриваемого как нечеткий вектор евклидова пространства W1. Упорядоченность яркостей изображения q (координат вектора q G ΊΖη) будем связывать с биекцией j(-) множества {!,...,п} на себя, считая, что наиболее
6.3. Примеры задания меры возможности на множестве изображений 163 {<!№', Qj(k+\)) = | j' возможным значением нечеткого изображения является вектор q Ε ΊΖη, для которого Qj(\) > Qj(2) > > Qj(n)· (6.16) Рассмотрим значение нечеткого изображения ζ G ΊΖη с упорядоченностью, задаваемого биекцией π(·) : {1,..., η} —► {1,..., η}: ζπ(\) ^ ζπ(2) ^ ··· ^ ζπ(η)· (6-17) Значение (ζπ(ΐ), ζπ(2)> ···»ζπ(η)) тем возможнее, чем меньше имеется нарушений в порядке следования неравенств (6.16) по сравнению с (6.17). Формализуем эти предложения следующим образом. Свяжем с неравенством qj{k) ^ qj{k+\) значение функции (φ(*);φ(*+ΐ)), определенное следующим образом: если qj{k) ίζ 9j(fc+i), если qj{k) > ^(fc+i). Рассмотрим вначале случай, когда яркости всех точек поля зрения на эталонном изображении qu различны: {qj(h)\ Qj(k+\)) = 1. к = \, ..., η - \. Пусть предъявляется изображение ζ G ΊΖη, все яркости которого различны. Переупорядочим его координаты путем введения биекции πζ (·): {1,2,..., η} —► {1, 2,..., η} так, чтобы выполнялись неравенства ζπζ(\) ^ ζπζ(2) ^ ··· ^ 2π2(η)· Мерой числа нарушений в упорядоченности координат вектора ζ е ΊΖη по сравнению с упорядоченностью координат вектора qu может служить функционал ρϋ"(·).π*(·))=έΐΑ*)-π*(*)|. (6-18) к Переходная возможность μ^χ(ζ\η) может быть задана в следующем ВИДС: μ^(ζ\η) = Γ(ρ(Γ(-),π* (■))), где г(·) : [0, оо) —► [0, 1] — непрерывная строго монотонно убывающая функция, г(0) = 1. Теперь, если μχ(η) = 1 для всех и G Л, то задача поиска оценки параметра λ, минимизирующей необходимость ошибки, сводится к решению задачи на минимум: mm p(ju (■),**(■)). (6.19) иеА Рассмотрим теперь общий случай, когда при упорядочении яркостей изображений возможны равенства. В этом случае проблема усложняется тем, что, с одной стороны, значение функционала р(·,·) не должно измениться, если в (6.18) для равных яркостей q^^ = qju^-\-\) переставить местами индексы ju(k + 1) и ju(k), и для равных яркостей
164 Гл. 6. Вероятностные и возможностные модели формы изображений Znz(m) = 2π2(τη+ΐ) переставить местами индексы πζ(τη) и πζ(τη+ 1). Модифицируем функционал с учетом этого замечания, для чего введем две меры различия упорядоченности яркостей изображений ζ и qu. Введем множества J и J в соответствии со следующим примером: Qju(l) > Qju(2) = Qju(3) = 9j«(4) > 9j«(5) = Qju(6) > Qju(7) > ... , 4 ν ' N ν ' / 4 {ju(2)Ju(3)Ju(4)}{J{ju(5)Ju(6)}{J..., 4 ν ' Ν ν ' J = K(1),^(2),^(3)}U{^(5),^(6),^(7)}|J..., т.е. множества I и J представляют собой объединения связных множеств индексов (номеров) равных яркостей, и определим две меры различия в упорядочении яркостей изображений ζ и qu\ d(z,qu) = min r([E|jM(fc)-^(fc)| + + •n-l Σ |(<7ju(fc);(77u(fc+i)) _ (^*(fc);^*(fc+i) ■fc=l d(z,qu) = max r ( [£ |jM(fc) - π*(*)| + + •n-l ■fc=l -I]}· >!]}■ (6.20) где mm и max вычисляются на множестве всех перестановок индексов в пределах каждого связного множества индексов, объединения которых образуют I и J. Первая сумма под знаками min и max в (6.20) не отличается от выражения п(г, s) при s = j в (6.18), вторая сумма учитывает только несовпадения равенств и неравенств в упорядочениях яркостей изображений q и ζ, и обращается в ноль при сравнении яркостей, не связанных знаком равенства. Значения функционала d(z, qu) более чувствительно к нарушению упорядоченности яркостей изображения ζ по сравнению с qu, чем значения функционала d(z,qu). Для определения переходной возможности μ^χ{ζ\η) теперь можно использовать формулы μ€|λ(*Η = Γ(ίί(π*(-),.Γ(·))) ИЛИ _ 0i|A(z|u)=r(d(7r*(-),.7tt(·)))- Их можно использовать для поиска оптимальных оценок параметра λ методами, описанными в п. 6.2.1.
Глава 7 СТОХАСТИЧЕСКИЕ МОДЕЛИ ВОЗМОЖНОСТИ В ЗАДАЧАХ АНАЛИЗА ИЗОБРАЖЕНИЙ 7.1. Возможность в статистической теории проверки гипотез В этой главе построены распределения возможностей на множестве параметров форм изображений, опирающиеся на стохастическую модель регистрации изображения. Основой построения являются методы, описанные в монографии [39]. 7.1.1. Область принятия гипотезы и ее связь с оценивающим множеством. Напомним основы методов проверки статистических гипотез. Пусть (Ω,Α Pu), и е Λ, — семейство вероятностных пространств, моделирующих стохастический эксперимент, в котором по наблюдению ω G Ω требуется принять решение о значении параметра и. Рассмотрим, например, задачу проверки гипотезы о параметре семейства вероятностей P(-,u): Л —> [0, 1], и е А, согласно которой и = щ. В качестве альтернативы примем равенство и = щ φ щ, [29]. Обозначим Ф(ио,и\,р) с Ω область принятия гипотезы, отвечающую наиболее мощному критерию уровня значимости а, см. приложение, п. А.5. Последнее означает, что гипотеза принимается всякий раз, когда наблюдение ω G Ф(ио,и\,р), и отвергается, если ω £ Ф(ио,и\,р), причем вероятность принять гипотезу, когда она и на самом деле верна, Ρ(ω е Ф(щ,иир),щ) = ре [О, 1]. Область Ω \ Ф(щ, и\,р) называется критической, вероятность ошибочно отвергнуть гипотезу Ρ(ω £ Ф(иъ,щ,р), щ) = I — ρ = а называется уровнем значимости критерия, вероятность Ρ(ω £ Ф(иъ,щ,р),и\) отвергнуть гипотезу, когда верна альтернатива, называется мощностью критерия. Так организованное статистическое правило решения, согласно которому гипотеза принимается, если ω е Ф(щ, щ,р), и отвергается, если ω е Ω \ Ф(ио, щ,р), называется критерием гипотезы и = щ при альтернативе и — и\, см., например, [45]. Область Ф(ио,и\,р), отвечающая наиболее мощному критерию, выделяется среди других областей Ф(ио,и\,р) принятия гипотезы (того
166 Гл. 7. Стохастические модели возможности же уровня р) тем, что обеспечивает наибольшую вероятность отвергнуть гипотезу, когда верна альтернатива, или, что то же самое, обеспечивает наименьшую вероятность принять исходную гипотезу ошибочно, когда на самом деле верна альтернатива, а именно, если ρ=Ρ(ω е Ф(гх0,гхьр),гхо) = р(^ € Ф(гхо, гхьр), гхо), (7.1) то _ Ρ{ω G Ф(и0,гм,р),гм) ^ Ρ (ω G Ф(гхо,гхьр), ιχι). (7.2) Пусть Ζ С Л χ Λ — симметричное антирефлексивное отношение, задающее перестановку Л, т. е. взаимно однозначное отображение Л —► Л, обладающее следующим свойством: если {щ,и\) G Ζ, то щ ^ щ и (гхьгхо) G Ζ, причем отношение Ζ определяет функции щ = и\(щ), щ G Л, и гхо = ^ο(^ι), i£i G Л. Рассмотрим семейство задач проверки гипотез и = гхо G Л против альтернатив гх = гм G Л, (гхо, щ) е Ζ. Для семейства пар гипотеза-альтернатива (гхо, wi) G Ζ для каждого ρ G [0,1] в Ω χ Λ определим дискриминантное множество Vv = U Ф(^о.^ьР) х {^о} = IJ Ф(гхо,р) х {гхо} = (u0,ui)ez щел (7 3) = {(ω, гхо) G Ω χ Л, cj G Ф(гхо,гхьр), (ио,щ) е Ζ} = = {(ω, гхо) G Ω χ Λ, ω G Ф(гхо,р)}, где Ф(гх0,р) = Ф(гхо,гм,р)|(ио,и,)^. ^о G Л; зависимость Ф(гх0,р) = = Ф(гхо,гх1(гхо),р), (гхо,р) G Л χ [0, 1], от Ζ опущена, поскольку далее множество Ζ с Л χ Λ считается фиксированным (если не оговорено противное). Для каждого ω G Ω определим подмножество Л Φ_1(ω,ρ) = {гхо G Л, (ω, гхо) G Т>р}, которое назовем оценивающим (или доверительным) множеством уровня доверия ре [0, 1] [29, 45]. Согласно этим определениям включения ω G Ф(гхо,р) С Ω, гхо G Φ_1(ω,ρ) С Л и (ω, гхо) G Т>р С Ω χ Л для всех ω G Ω, гхо G Л эквивалентны. Поэтому для любых (гхо, гч) G Ζ, ρ G [0, 1] и гх G Л Ρ(ω G Ф(гх0,гхьр),гх) ξξ Ρ(ω G Ф(гх0,р),гх) = Р(гх0 G Φ"1 (ω, ρ), гх), причем Р(гхо G Φ-1 (ω, ρ), гхо) = Р, гхо G Л. Множество Φ_1(ω,ρ) следует понимать как случайное, покрывающее и, тем самым, оценивающее истинное значение параметра распределения гхо G Л с вероятностью ρ G [0, 1].
7.1. Возможность в статистической теории проверки гипотез 167 Множество Φ~ι(ω,ρ) выделяется среди других оценивающих множеств Φ~ι(ω,ρ) уровня ρ тем, что Р(и0 е Φ-1(ω,ρ), μι) ^ P(u0 e Ф~1{и;,р),щ), (tio.Mi) e Z, (7.4) Р{иоеф-1{и,р), щ)^р. (7.5) Иначе говоря, если для некоторого щ е Л параметр в Р(-,гх) равен не гхо, а щ — щ(щ), (ио,и\) G Z, то вероятность включения щ G Φ~ι(ω,ρ) (и ошибочного принятия гипотезы) не превосходит ρ (свойство (7.5) называется несмещенностью [29]) и не превосходит вероятности включения щ Ε Φ~ι(ω,ρ) для любого оценивающего множества Φ~ι(ω,ρ) уровня р. Неравенство (7.4) выражает свойство оптимальности оценивающего множества. Заметим, что Φ~ι(ω,ρ) — множество тех щ Ε Л, (щ,и\) е Ζ, при которых гипотеза и = щ принимается в случае исхода ω е Ω; Ф(щ,и\,р) — множество тех исходов ω е Ω, при которых принимается гипотеза и = щ· Оба эти аспекта доверительных утверждений для семейства пар (щ,и\) е Ζ гипотеза-альтернатива представлены дискриминантным множеством Т>р (7.3): оценивающее множество Φ~ι(ω,ρ) — проекция на Л сечения Т>р, отвечающего фиксированному ω е Ω, Ф(ио,и\,р) — проекция на Ω сечения Т>р, отвечающего фиксированному щ е Л, (щ,щ) е Ζ. 7.1.2. Нечеткий параметр распределения случайного элемента. Простые гипотезы и альтернативы, [39]. В ситуации, рассматриваемой в предыдущем пункте, Φ~ι(ω,ρ) С Φ~ι(ω,ρ'), ω е Ω, если ρ < ρ'. Поэтому чем больше минимальное ρ G [0,1], при котором щ е Φ~ι(ω,ρ), тем менее правдоподобным представляется заключение, согласно которому щ Ε Л — истинное значение параметра распределения тем меньше возможность равенства и = щ. В пользу такого заключения свидетельствует неравенство (7.5), согласно которому вероятность включения щ Ε Φ~ι(ω,ρ) при верной гипотезе не меньше, чем при верной альтернативе, причем согласно неравенству (7.4) в последнем случае эта вероятность не больше, чем вероятность включения щ в любое оценивающее множество Φ~ι(ω,ρ) того же уровня р. Это замечание позволяет рассматривать параметр распределения как нечеткий элемент λ со значениями в Л и определить вариант его распределения равенством μλ(ϋθ) = μλ(ϋομ) = Ρ({ϋο}|ω) = = 1 - inf{p I pe [Ο,ΙΙ,ιιοΕφ-'ίω,ρ)}, щ ε Л, ω ε Ω, (7.6) в котором μχ(ΐίο\ω) есть значение случайной возможности равенства λ = uq при наблюдении ω Ε Ω.
168 Гл. 7. Стохастические модели возможности Как показано в [39], в том случае, когда область Ф(ио,щ,р) существует для любого ρ Ε [О, 1], μχ(η0 \ω) = 1 -sup{p\pe [О, \],щ £ Φ~ι(ω,ρ)} = = inf{a | α Ε [0, 1], wo t Ф" V 1 - a)}, (7-7) откуда следует, что значение μλ(ϋο | ω) можно интерпретировать как возможность ошибочно отвергнуть гипотезу и = щ как неверную. Заметим, что в приложении, п. А.5.4, в виде (7.7) определена надежность гипотезы и = uq. В этом случае значения μχ(χο) в (7.6) и в (7.7) совпадают. 7.1.2. Нечеткий параметр распределения случайного элемента. Сложные гипотезы и альтернативы. Рассмотрим более общий случай семейства задач проверки гипотез (Н(и), )С(и)), и Ε Л, в которых для каждого и е А гипотеза Н(и) = {и} и альтернатива К(и) есть подмножество Л, не содержащее и. Например, Н(и) — гипотеза, согласно которой и е Л — значение параметра вероятности Р(-,гх), контролирующей случайный результат регистрации изображения сцены, К,(и) — альтернатива, согласно которой значение параметра не равно и, Ци) = А\{и}. Пусть Ф(и,р) — область принятия гипотезы Н(и), и G Л, уровня доверия ρ е [0, 1]. Как и выше, область Φ~ι(ω,ρ) с Л определим так, чтобы включения ω Ε Ф(и,р) и и Ε Φ~ι(ω,ρ) были эквивалентны. Для реализации ω Ε Ω имеем {Н(и), и Ε Φ~ι(ω,ρ)} — множество принимаемых гипотез, Ф(и,р) — множество исходов ω Ε Ω, при которых принимается гипотеза Н(и) = {и}. Возможностью гипотезы Н(и) или, иначе говоря, возможностью того, что параметр семейства вероятностей равен и Ε Λ при исходе ω Ε Ω, назовем (см. (7.6), (7.7) μχ(μ Ι ω) = Ps({it}|cj) = 1 - inf{p | ρ Ε [0, 1], ω Ε Ф(и,р)}. Соответственно возможностью класса гипотез Н(В) = {Н(и), и Ε Ε В с Л} назовем ?3(Β\ω) = 1 - ϊηί{ρ Ι ρ Ε [0, 1], Β Π Φ"1 (ω,ρ) φ 0}. (7.8) 7.2. Возможность на множестве значений параметра формы изображения 7.2.1. Возможность, индуцированная результатом регистрации изображения с шумом заданной дисперсии. Пусть задано множество сцен, взаимно однозначно связанных со значением λ Ε Λ некоторого параметра, и для каждой сцены задана форма его изображений
7.2. Возможность на множестве значений параметра 169 в виде выпуклого замкнутого конуса V\ С ΊΖη. Изображение сцены /л Ε Vu при его регистрации искажается случайным гауссовым шумом ν е ΊΖη и предъявляется для анализа результат регистрации — изображение ξχβΊΖη: ζ\ = ί\ + ", ι/~Λ/*(0,σ2/). Как показано в параграфе 7.1, результат регистрации случайного изображения ξ индуцирует на множестве Л распределение возможностей. Построим эти распределения, пользуясь подходом, описанным в параграфе 7.1. Рассмотрим гипотезу о распределении случайного вектора ξ е ΊΖη: И(ео): £~Л/*(е0,а2/), (7.9) и альтернативу: К(е\) : £~A/*(ei,a2J), е\ φ е0, отличающиеся значениями математического ожидания. Как показано в приложении, п. А.5.4, в задаче проверки такой гипотезы существует наиболее мощный критерий с областью принятия гипотезы Ф(ео,еьр) = {z G ΊΖη: (ζ — eo,ei - eo) ^ c(p)}, где константа с(р) определяет уровень доверия и согласно (7.7) ей соответствует распределение возможностей, задающееся всего двумя значениями: μΑ(60|ξ) = [ ilL ds = ! _ φ Л*-*, «о-е.) J \/2π V ^||eo-ei|| (ξ-βο,βρ-βι) σ eo-ei "2/2 μ-(β1|0- Ι ^^ώ^Ι-φ·^-61·6'-8») л/2п \ €т||ео — || (ξ- βι,βι -βρ) cr||ei -eo|| Пусть теперь гипотезе (7.9) противопоставлена сложная альтернатива: /С : ξ - ЛГ(е, σ2/), е G ftn : е ^ е0. В этом случае существует равномерно наиболее мощный несмещенный критерий [29] с областью принятия гипотезы Φ(ξ,ρ) = {ζ е ΊΖη: \\ζ - ео\\2 ίζ const}, которому в согласии с результатами п. 7.1.3 соот-
170 Гл. 7. Стохастические модели возможности ветствует распределение возможностей |е-£||2 μ(β|0= I pn{s)ds= \-nn \\e-a2i°2 где Ρη(·) и Яп(·) — плотность вероятности и функция распределения хи-квадрат с η степенями свободы соответственно. Значению и G Л параметра, определяющего изображаемую сцену (и форму ее изображения), теперь сопоставлен выпуклый замкнутый конус Vu. Возможность того, что изображение ξ есть изображение сцены, определяемой значением и параметра λ, есть возможность сложной гипотезы Н(е): е G Vu. В соответствии с (7.8) эта возможность равна оо оо Г Г Ps({u}|i;) = sup pn(s)ds= pn(s)ds = ебКЦе-а|2/^2 \\Ρηξ~ξ\\2/σ2 = 1_Пп(\\ЩИ), (,10) где Ри — проектор в W1 на Vu. Функцию Ps({u}|£), определенную в (7.10), можно рассматривать как вариант распределения возможностей на множестве Λ, индуцируемого регистрацией изображения ξ: μ\η\ξ) = Ρ*({η}\ξ). Возможность μλ(·|ξ) монотонно убывает с ростом \\Ρηζ — £||2· 7.2.2. Возможность, индуцированная результатом регистрации изображения с шумом неизвестной дисперсии. Пусть в модели схемы регистрации изображения ξ = / + ν случайное шумовое изображение ν имеет нормальное распределение Λ/*(0, σ2/), однако его дисперсия σ2 > 0 неизвестна, а выпуклые замкнутые множества Va при каждом λ G Λ являются линейными подпространствами ΊΖη: Vu = Си. Построим распределение возможностей на множестве ΊΖη математических ожиданий случайного изображения ξ. Фиксируем «простую» гипотезу, состоящую в том, что математическое ожидание вектора ξ принадлежит одномерному подпространству Се = {q = ke, k G (—оо, оо)}, где е ^ 0 — фиксированный вектор ΊΖη. Поскольку дисперсия погрешности регистрации изображения ξ неизвестна, то любое изображение, отличное от ke, k G (-оо, оо), может рассматриваться как шум. Поэтому в качестве альтернативы рассмотрим утверждение, что математическое ожидание изображения ξ принадлежит множеству изображений, ортогональных е. Заметим, что по построению формы изображения, см. главы 1 и 2, одномерное линейное подпространство Со С ΊΖη изоб-
7.2. Возможность на множестве значений параметра 171 ражений однородной яркости принадлежит каждому подпространству £\, λ G Л, поэтому составляющая Рое изображения е, так же, как и составляющая Ροξ изображения ξ, не несет информации, позволяющей оценить параметр формы. Поэтому прибавление или вычитание изображения ровного поля зрения к изображениям е или ξ не меняет информации о форме изображения. С формальной точки зрения удобно в этой ситуации рассматривать в качестве гипотезы утверждение, что случайное изображение ξ имеет нормальное распределение {λί(ς,σ2Ι)}, σ2 > 0, с математическими ожиданиями, принадлежащими одномерному подпространству Со', если справедлива гипотеза, то нет причин считать изображение ξ изображением той же сцены, что и изображение е. При верной альтернативе будем считать, что математическое ожидание нормально распределенного изображения ξ принадлежит двумерному линейному подпространству Се$ G ΊΖη, натянутому на векторы е G ΊΖη и ео G Со, ео φ 0: £е,о = {<? G 7£n : q = к\е + /сгео, к\,к2 G (—оо, оо)}, и при этом не принадлежит только Со. Рассмотрим задачу проверки следующей гипотезы: Н: i~M{q,a2I), (I-P0)q = 0, (7.11) против альтернативы /С: £~Л/*(е,а2/), Peq - P0q φ 0, (I - Pe,0)q = 0. (7.12) Здесь Ροι Ре и Pe,o — ортогональные в ΊΖη проекторы на Со, Се и двумерное линейное подпространство Се,о Ε ΊΖη, натянутое на векторы е G ΊΖη и ео G Со, ео φ 0: £е,о = {q Ε 7£η · q = k\e + /сгео, к\,к2 G G (-oo, oo)}. Эта задача является частным случаем задачи, рассмотренной в п. 4.2.2, для которой имеется наиболее мощный инвариантный критерий, учитывающий ее симметрию, описанную в приложении, п. А.5.3. Область принятия гипотезы в этом случае имеет характеристическую функцию Г 1, Mz)<C, I 0, Je{z) ^ С, где ίγτ; ' 'о, если Рео^-Д)^т^О, [ -boo, если Pe,oz - Ροζ = 0,
172 Гл. 7. Стохастические модели возможности Этому критерию соответствует распределение возможностей на множестве одномерных подпространств Се\ 77/ Д'(е|0 = pn(s)ds= 1 - Ф{ (1,п-2) (n-2)/je(0 (п-2) ш ееПп, где Ρη(·) — плотность распределения Снедекора-Фишера с (1,п —2) степенями свободы. Распределение Д^(е|£) можно интерпретировать как «невозможность считать ξ изображением той же сцены, что и е». Вариантом распределения возможностей на множестве одномерных подпространств Се, задающим возможность «считать ξ изображением той же сцены, что и е», служит (п-2)/Ш ΛΙΟ p„(s)<is = 1-μ^(β|0, е€7гп. Возможность того, что изображение ξ есть изображение сцены, определяемой значением и параметра λ, есть возможность сложной гипотезы Н(е): е £ Си, где Си — линейное подпространство ~Rn для любого и € Л. Эта возможность равна Ps({«}|0 = sup ее£и (п-2ШО pn{s)ds = (η-2)/Μξ) pn(s)ds= Φ(ι,„_ ■2) (η-2) МО (7.13) где ju{z) = { { \\{I-PCu)zf \\Pc«z-Pbz\r +00, если PCuz- P0z ^0, если PCuz - Pqz = 0, zenn, a Pcu — ортогональный проектор в 1Zn на Си, и е Л; так определенный функционал ju(-) соответствует определению (4.Ю). Действительно, возможность считать ξ изображением той же сцены, что и е, тем больше, чем меньше угол между (Ре>о — Ρο)ζ и (/ — Pe,o)z, что и приводит к ответу в (7.13). Так же, как и выше, в п. 7.2.1, функцию Ps({?/}|£), определенную в (7.13), можно рассматривать как вариант распределения возможно-
7.3. Эмпирическое построение нечеткой формы изображения 173 стей на множестве Л, индуцируемого регистрацией изображения ξ: μχ(η\ξ) = ΡΒ({η}\ξ). Возможность μΧ(-\ξ) монотонно убывает с ростом j(£). 7.3. Эмпирическое построение нечеткой формы изображения В этом пункте даны общие конструкции случайной и нечеткой форм изображения как вероятностного, так и согласованного с ним возможностного пространств. Предложенная здесь конструкция позволяет применять общие процедуры построения на основе эксперимента меры возможности, описанные в монографии [39]. Пусть моделью изображения является элемент евклидова пространства 1Zn, и всевозможные изменения условий его регистрации приводят к тому, что изображения одной и той же сцены будут изменяться в пределах некоторого множества ω пространства ΊΖη, которые будем считать формами изображений соответствующих сцен. Рассмотрим ситуацию, в которой формы изображений образуют разбиение Ω пространства изображений 1Ζη на непересекающиеся подмножества ω: ΊΖη = Μ {ω}. Обозначим А σ-алгебру подмножеств Ω, ωβΩ содержащую все одноточечные множества {ω}, ω е Ω, и вероятность Ρ: Л —> [0,1]. Вероятностное пространство (Ω,ΛΡ), в котором элементарными исходами являются непересекающиеся формы (подмножества) ω е Ω, образующие разбиение пространства ΊΖη, А — некоторая σ-алгебра подмножеств Ω и Ρ — заданная на ней вероятность, называется случайной формой изображений [53]. Каждому элементу (событию) А е А соответствует форма Va = = Μ {ω} с ΊΖη, вероятность которой есть Р(А). иеЛ Пусть, например, множество Ω состоит из всех лучей в ΊΖη, исходящих из начала координат, А' — борелевская σ-алгебра подмножеств сферы 5n, a A — взаимно однозначно связанная с ней σ-алгебра подмножеств множества Ω. Задав на А' вероятность Р, одновременно зададим и соответствующую ей вероятность на А. Множество форм {Va, A e А} содержит все линейные подпространства ΊΖη и все конусы с вершиной в начале координат. По аналогии введем понятие нечеткой формы изображений из пространства ΊΖη как возможностного пространства (Ω,Α, Ps), где Ω — множество непересекающихся форм, образующих разбиение пространства 1Ζη, А — некоторая σ-алгебра подмножеств Ω и Ps — заданная на ней возможность [53].
174 Гл. 7. Стохастические модели возможности Остановимся сначала на математической модели случайного эксперимента Э, которая дана в виде некоторого дискретного вероятностного пространства (Ω,Ρ(Ω),Ρ), здесь Ρ(Ω) — σ-алгебра всех подмножеств счетного множества Ω. Согласно закону больших чисел, эмпирической оценкой вероятности события А является частота его появления в достаточно длинной последовательности независимых повторений эксперимента Э. Следовательно, если стохастическая модель формы изображения неизвестна, то, наблюдая за исходами эксперимента, ее можно сколь угодно точно оценить, если число исходов достаточно велико. Говоря о возможностях исходов этого же случайного эксперимента Э, заметим, что возможность оценивает обусловленный свойствами эксперемента Э шанс его исхода ωι в сравнении с шансами всех других его элементарных исходов. Поэтому естественно считать, что чем больше вероятность р^ исхода о^, тем чаще Шг встретится в длинной серии испытаний и, следовательно, тем более возможен (ожидаем) исход Шг в каждом очередном испытании. Пусть вероятности prf = Ρ({ι^}), г = 1,2,..., элементарных событий упорядочены по невозрастанию: 1 ^ρΓι ^рг2^...^0, рГ1+рг2 + ... = 1, (7.14) и Рг — класс всех таких вероятностей Р. При любом определении возможности Ps возможности элементарных событий psf = Ps({ic^}), г = 1,2,..., должны быть упорядочены аналогично: 1 =pSl ^ps2 ^ ... 5*0. (7.15) Класс Ps всех таких возможностей Ps называется согласованным с классом Рг. Заметим, что для любых событий А,В е Ρ(Ω), если для любого Ρ е Рг имеем Ρ (Α) < Ρ (В), то и для любого Ps e Ps имеем Ps(A) < Ps(B), см. приложение, п. А.6 и [39]. Представим класс Ps как объединение непересекающихся неприводимых классов Ps(e), ее [0,1]» эквивалентных возможностей, каждая из которых определяется конкретной упорядоченностью ее распределения в (7.15), Ps= (J Ps(e), (7.16) е€(0,1) где e = 0.eie2·.. — двоичная запись числа из [0,1], определяющего конкретную упорядоченность распределения Ps E Ps(e), заданную отношениями: psf = psi+1 <^=> ei = 0, psf > psi+1 <^=> e* = 1, г = 1,2,.... Возможность Ps называется согласованной с вероятностью Ρ, Ρ ~> ~> Ps, если найдется такое преобразование 7(·) £ Г> что Для любого события А е Р(П) Ps(A) = j(P(A)), ΐ{μ) = 0 <^> а = 0.
7.3. Эмпирическое построение нечеткой формы изображения 175 Возможность Ps называется максимально согласованной с вероятностью^, Тг «> Р, если Ρ ~> Ps и для^бых Ps, Ρ ~> Ps, найдется 7(·) G Г, такое, что для всех А е V(Q) Ps(A) = j(Ps(A)). Если Ρ «> Ps, то Ps называется Р-стохастически измеримой [39]. С практической точки зрения интерес представляет восстановление теоретико-возможностной модели формы изображений из эксперимента. Для этого проведем процедуру согласования вероятностной и возможностной моделей так, как это описано в приложении, п. А.6, а также в работе [39]. В работе [39] также показано, что если Ρ «> Ps, то каждый исход А е ν(Ω) стохастического эксперимента (Ω,'Ρ(Ω), Ρ), вероятность которого определена равенством Ρ (А) = 2_] Ргг> можно г: ωιΕΑ интерпретировать как исход А нечеткого эксперимента (Ω,'Ρ(Ω),Ρ), возможность которого Ps{A) = sup psf, причем г: u>i£A Ps(A)± sup ρδ,=7(Ρμ))=7( Σ PrO' Α€Ρ(Ω)· (7·17) ί:ω*€Λ \г:и,,еА ) где 7(*)i [0»1]г^ [^»1] ~~ произвольная (фиксированная) функция из класса Г(Р) с Г непрерывных на (0, 1] монотонно неубывающих функций. На самом деле возможность Ps, даже максимально согласованная с вероятностью Р, может «не чувствовать» вероятностных различий между событиями из 'Ρ(Ω), например, может так случиться, что Ps(A) = 1 для каждого непустого А е V(Ci). В таком случае класс Ρ(Ω) всех подмножеств Ω должен быть сужен до σ-алгебры А С V(il) подмножеств Ω, вероятности которых достаточно «контрастны», чтобы их отличия могла «передать» возможность, максимально согласованную с вероятностью Ρ на А. Выбирая должным образом σ-алгебру А, можно и вероятность максимально согласовать на Л с возможностью. Связь возможности с вероятностью в (7.17) и законы больших чисел позволяют дать и возможности событийно-частотную^интерпре- тацию, которая с учетом произвольности функции 7(0 £ Г(Р) такова: если Ps(A) > Ps(B), то найдется такое число η = п(А, В), что π н ν(η)(Α) > ν^η\Β) для всех η ^ η , т. е. упорядоченность возможностей исходов эксперимента Э при достаточно больших η определяет такую же упорядоченность их частот. Как показано в [39], каждому классу возможностей {Ps}(e), распределения которых упорядочены согласно е е (0, 1), сопоставлен класс вероятностей {Р}(е), причем так, что любая возможность Ps e Ps(e) максимально согласована со всеми вероятностями Ρ е Рг(е) и только
176 Гл. 7. Стохастические модели возможности с ними, а классы Pr(e), e Ε (О, 1), образуют разбиение класса Рг: Pr= (J Рг(е), (7.18) eG (0,1) индуцированное разбиением (7.16). Разбиения (7.16) и (7.18) позволяют свести задачу эмпирического определения стохастически измеримой возможности к задаче проверки статистических гипотез о принадлежности вероятности Ρ е Рг, контролирующей наблюдения, к одному из классов Pr(e), е Ε (0, 1). Методы построения такой возможности приведены в [39]. В ряде случаев, как уже отмечалось, может оказаться, что вероятности Ρ можно сопоставить только тривиальную согласованную с ней возможность, когда Ps(A) = 1 для любого А Ε Л; это, в частности, происходит при абсолютно непрерывной мере Р. В этом случае возникает необходимость в гранулировании множества элементарных событий, т.е. в разбиении Ω на измеримые подмножества Ωι,Ω2,..., которые в дальнейшем считаются элементарными событиями. Гранулирование следует выполнить так, чтобы при последующем построении возможности, согласованной с сужением вероятности Ρ на некоторую σ-алгебру подмножеств множества {Ωι,Ω2,...} возможности новых элементарных событий оказались различными. Методам гранулирования пространства Ω посвящены работы [39, 53].
a в Рис. П. I Рис. B.l. Изображение цветка горицвета при раз ичных условиях регистрации
I I Рис, 1 12 Изобра^ ен е ламбертова о ъек а ( е нисного ча) и объек ов не являющихся ламбертовым л {металлического и стеклянного шаров) _J L Рис, 1.3. Сер* и ^зображе \" тени к ого м ча (а), стеклянного (б) и металлического (в) шаров
,6 0,4 1 j 2 o/> 0*4 0.6 0,8 1 ' 1 1 1 1 1 -l -\ J I 1 1 1 Ί I 1 I 1 I I ,09o 1Д Д05 1, 1 1,115 Д2 x 01 Рис. 3.3. Результат регистрации сигналов на выходе микрофонов ,8 .6 0 и/> -0,2 -о, 0:6 -0,8 ι з ι ι ι -1 ι ι d \- А ! г ' А I Г ! * - - - J I \ · ■ 1 J I ί μ 1 0 6 >2 >,6 Рис. 3.4. Множество точек (ξ(ίϊ)* *?(**))» * = 1ι·- .га, для сигналов, рассогласованных по времени
ι.; г, ι, :ϊ«■ \л Jill :u. 2.12 2.i 1 Ul 2-L 1 "11 1 (:.r ι ι f . (].' " Г 00 0 1, Ρ с, 9,25. Кара рельефа поверхнос частицы попавше" на пласт ну до химико-механической полировки. Значение высоты поверхности кодируется цветом Рис 9.26. Реконструированная поверхность царапины, оставленной зондом на ко ак ой площадке, окр то" металлом В точка' повер ноет t выделе ы синим цветом, надежность модели лежит в пределах от 0, до 0,9; в точках, вы е eni χ фиолетовым цветом де% ость модели wet ее 0 7
11 1 J 1 I I I I * ι J J [ Ι Ι Ι l· t ■ LIE J 100 200 .* 1,1" ,13 1,1 U, l.M οτ;ϊ ч Л J 7 ϋ, 10,5* U! J ϋ 15 L_ с i I I 300 F r 1 8 β /I ? о 400 Μ KM *kA rVw 100 200 3 0 00 l14 к А i12 -lio -|8 46 44 42 4o 2 MKM 10 mkm1 Рис. 9.27. a — проф]гЛЬ высоты части метки в кремнии, измеренный профило- метром; б — профиль части метки в кремни t полученный с помощью анализа формы к ивой измерения фокуса, в — результаты реконструкции части метки методом анализа формы кривой измерени фокуса; г — геометрическая форма метки в кремнии Рис. 9 32. Исходные изображения (первое и третье) л резу 1ьтать работы детектора края (второе и четвертое)
100 200 300 400 5 0 6 0 ,0 10 0200 2,040 ЛЬ 40 450 с, 9,33, Изобра ен я сцен отл чаю ихся нал чнеъ журнала на столе шумом ис. 9.34. Слева — результат выделения отличия по форме между цветными изображениями сцен, приведенных на рис, 9.33 Сп ава — то же самое для черно-белых (полутоновых) изображений тех же сцен
Часть IV ЦВЕТНЫЕ ИЗОБРАЖЕНИЯ Глава 8 МОРФОЛОГИЧЕСКИЙ АНАЛИЗ ЦВЕТНЫХ ИЗОБРАЖЕНИЙ Хорошо известно, что изображения одной и той же сцены, полученные при различных условиях освещения и/или измененных оптических свойствах объектов, могут различаться радикально. Это обстоятельство порождает значительные трудности в прикладных задачах анализа и интерпретации изображений реальных сцен, в которых решение не должно зависеть от условий регистрации изображений. Речь идет, например, о задачах выделения неизвестного объекта на фоне известной местности, известного объекта на произвольном фоне при неконтролируемых условиях освещения, о задаче совмещения изображений одной и той же сцены, полученных в различных спектральных диапазонах и т.д. Для решения перечисленных задач разработаны методы морфологического анализа, рассмотренные в предыдущих главах. Они в основном ориентированы на применение к полутоновым (не цветным) изображениям и достаточно эффективны. Между тем по меньшей мере два обстоятельства указывают на целесообразность разработки морфологических методов анализа цветных изображений. Во-первых, в задаче обнаружения и выделения объекта последний, как правило, прежде всего цветом отличается от фона. Во-вторых, описание формы изображения в терминах цвета позволит устранить эффект теней и влияние неопределенности в пространственном распределении интенсивности спектрально однородного освещения [78-80, 82]. В этой главе построена математическая модель цветного (многоспектрального) изображения, определено понятие его формы и описаны методы морфологического решения задач анализа и интерпретации цветных изображений сцен.
178 Гл. 8. Морфологический анализ цветных изображений 8.1. Математическая модель цветного изображения 8.1.1. Цвет и яркость. Рассмотрим некоторые аспекты теории цвета так называемых многоспектральных (спектрозональных) [74] изображений, аналогичной классической колориметрии [30]. Пусть имеется поток (светового) излучения со спектральной плотностью е(А) ^ 0, где λ G (0, оо) — длина волны излучения (далее для краткости будем называть такой поток излучением). Детектор со спектральной чувствительностью w(X) > 0 регистрирует это излучение и формирует на выходе сигнал /е = ЦА)е(А) dA, неотрицательный для всех допустимых излучении. Пусть имеется I детекторов со спектральными чувствительностями г^-(А) >0, AG (Ο,οο), j = 1,2,..., Ζ. Для заданного излучения е(·) определим /-мерный вектор /е, j-я его координата равна выходному сигналу j-ro детектора, j = Ι,.,.,Ζ. Обозначив w(X) = (w\(X),... ,^(А)), A G (Ο,οο), запишем вектор fe в виде ^ /е = w(X)e(X)dX. (8.1) ι Обозначим г^(А) = Σ Wi(X), X G (Ο,οο), суммарную спектральную г=1 чувствительность всех / детекторов и запишем сумму fe выходных сигналов всех детекторов (всех координат вектора f е) в виде ι ОО ι ОО /е = Σ ^ = ί Σ W> (λΜλ) dX = ί ™(λΜλ) dX' (8.2) i=i ο '=1 ο Функционал /е назовем яркостью излучения е(·). Заметим, что яркость излучения неотрицательна. Бек/пор ^е = /е//е, /е > 0, (8.3) назовем цветом излучения е(·). Равенство /е = 0 возможно тогда и только тогда, когда все координаты вектора /е (выходные сигналы всех датчиков) равны нулю. Такое излучение будем называть черным. Для всех излучений, и для черного в том числе, справедливо равенство J е ~ reje- (8.4)
8.1. Математическая модель цветного изображения 179 Здесь вектор цвета φβ (сумма его координат равна единице) задает направление вектора /е, а яркость /е — его длину. Для черного излучения е(-) его цвет φβ будем считать произвольным вектором, яркость которого равна единице, сохранив за ним название «черный цвет». Излучение е(·) назовем белым и его цвет обозначим β = / e//e, если отвечающие ему выходные сигналы всех детекторов одинаковы, т.е. если ^ \w3\\)e(X)d\ = fe/l, j = l,...,I. о Векторы оо /в = (/el, ... , fell fei = ί ^(λ)β(λ) d\ ^ 0, _^ Ι (Pe = (<Pe\,---,<Pel), <Pei = fei/fe, Ζ=1,...,Ζ, ^ ψ^ = 1, J = l удобно считать элементами /-мерного линейного пространства К1. Векторы /е, соответствующие различным излучениям е(·), содержатся в конусе К = | / eKl: f\ ^ 0,..., /г ^ θ| с 7?,'. Концы векторов <?е содержатся во множестве ι £0Γ)Κ={φ£ηι:φι ^Ο,.,.,^Ο; J^ = l}, i=i где <£ = (<£i,... ,φι) и £с = < φ Ε 7?/: ^ ^· = 1 > — гиперплоскость в П1. Множество Е всевозможных излучений зададим следующими условиями: • если излучение е(·) Ε Ε, то для любого числа к > 0 и к * е(·) Ε £, где (х * е)(А) = хе(А), A Ε (0, оо); • вместе с любыми излучениями ei(·),... , es(·) множество Ε содержит все их выпуклые комбинации (смеси) а\е\(-) + ... + а3е3(-), αϊ ^0,...,αβ ^0, 5= 1,2,.... Таким образом, Ε — выпуклый конус излучений. Поэтому в соответствии с (8.1) векторы /е, е е Е, в ΊΖ1 образуют выпуклый конус Ке = \ /е> е е Е> С К, а векторы φ€ принадлежат множеству ССПКЕ.
180 Гл. 8. Морфологический анализ цветных изображений Если излучения е&(·) Ε Е, k = 1,...,ш, то и их аддитивная смесь m Σ ek(-) G E1. Для нее, согласно (8.1)-(8.4), т —+ _^ т _^ т 2-/ J вк т £ /е — 2^1 *ек' *е = 2_^ *ек' ^е = ~~^ = /-** ~™· ^ек' ' ' *=1 fc=1 Σ Л, к=1 Σ /ej J=l J=l Следовательно, справедливо следующее утверждение. Лемма 8.1.1. Яркость /е и цвет <Ре любой аддитивной смеси е(-) излучений ei(·),... ,ет(·), т= 1,2,..., определяются яркостями и цветами слагаемых. Подчеркнем, что равенство /е = /?, означающее факт совпадения яркости и цвета излучений е(·) и е(·), как правило, содержит сравнительно небольшую информацию об их относительном спектральном составе. Однако замена е(·) на е(·) в любой аддитивной смеси излучений не изменит ни цвета, ни яркости последней. Для элементов /е линейного пространства ΊΖ1 удобно использовать разложение по линейно независимым элементам (базису). Для этого далее предполагается, что вектор w(-) спектральных чувствительно- стей таков, что в Ε можно указать базовые излучения ει(·),..., ε*(·), для которых векторы fj = fe.,j=l,...,l, линейно независимы. Поскольку цвета таких излучений непременно отличны от черного, их яркости будем считать единичными, f3 = 1, j = 1,...,/. В таком случае излучение ε^·(·) характеризуется лишь цветом φ$ = Д, j = 1,...,/. Запишем координаты fei = Wi(X)e(X)d\ ^ 0, г = 1,...,/, вектора /е (отклики детекторов на излучение е е Е) как линейные комбинации откликов детекторов на базовые излучения ει(·),..., ει(·). В силу линейной независимости векторов <£j, j = 1,...,/, для всякого излучения е(·) найдутся такие коэффициенты a\>...yai (координаты вектора /е в базисе <£ь ..., <£*)> что ι
8.1. Математическая модель цветного изображения 181 Для каждой координаты fei вектора /е (выходного сигнала каждого детектора излучения) формула (8.6) примет вид ι i=i где (fij = \wi(X)ej(X)d\ ^ 0 — выходной сигнал г-го детектора, отвечающий j-му излучению ε^(·), i,j = Ι,.,.,Ζ. Матрица {<pij} — стохастическая, поскольку ее матричные элементы как яркости «базовых ι излучений» 6j(-) неотрицательны и Σ УЧ? = *» J = 1»···»^· При этом г=1 яркость ι ι ι /е = ΣΣα^' = Σ^ г=1 j=\ j—\ и цвет fc=l (конец которого лежит в Сс) определяются координатами а3 и цветами излучений £j(·), i = 1,...,ϊ, и не зависят непосредственно от спектрального состава излучения е(·). В ряде случаев белое излучение естественно определять, исходя из базовых излучений, а не из выходных сигналов детекторов, считая белым всякое излучение, которому в (8.6) отвечают равные координаты: а\ = ... = щ. Заметим, что слагаемые в (8.6), у которых а3 < О, физически интерпретируются как соответствующие излучениям, «помещенным» в левую часть равенства (8.6) с коэффициентами — а3 > 0: /е + Σ (~aj^j) — Σ aj^j· ^ такой форме равенство (8.6) предел <0 atj >0 ставляет «баланс излучений». Определим в ΊΖ1 скалярное произведение (·, ·)/ и векторы ψ{,..., фь биортогонально сопряженные с ψ\,..., Ψι\ (^ ·, Ψΐ)ι = δί3, г, j = 1,..., Ζ. Лемма 8.1.2. Б разложении (8.6) коэффициенты а3 определяются равенствами -> -> -> г -> -> «i = (/е. ^j)b j = 1, ... , I, /e = ^(/е> ^)^> J = l
182 Гл. 8. Морфологический анализ цветных изображений а яркость /е — равенством /е = (/е,ф)и где вектор ψ = ΣΨ» 3 = 1 ортогонален гиперплоскости £с, так как (ψ{ — (Pj,il>)i = О, i,j = = 1,...,J. Воспользовавшись техникой псевдообращения, см. приложение, п. А.2.4, и записав условие для определения биортогональной системы в виде ФФ = /, где матрицы Φ и Φ имеют матричные элементы Ф;/с = ((Pi)k, ^kj = (^j)k, i,j,k= l,...,i, получим для биортогонально сопряженных векторов Φ = Ф~~, а для вектора α = (αϊ,... ,щ) — выражение а = Ф~/е. Здесь Ф~ — матрица, псевдообратная к Ф. Что касается скалярного произведения (·,·)*, то его естественно определять так, чтобы выходные сигналы детекторов /еь...,/ег были координатами /е в некотором ортонормированном базисе {βι(·),..., ег(·)} С ΊΖ1. В этом базисе конус К определится следующим образом: К= {αι^ι(·) + ... + αη€?ι(·). αϊ ^0,...,αζ ^ θ} . Заметим, что для любых векторов f,g е К и, тем более, для /, 9 е е К ε С К выполнено (/, 9)ι ^ 0. 8.1.2. Цветное (спектрозональное) изображение. Цветное изображение определим аналогично полутоновому, считая, что на поле зрения X определена функция /е(-)> принимающая значение ъЖеСКсП1. Будем считать, что в каждой точке χ поля зрения X расположено I детекторов излучения со спектральными чувствительностя- ми w(x, λ) = (w\(x, λ),... ,νυι(χ, λ)); е(х,\) — излучение, попадающее в точку χ G Χ, λ G (0, оо). Поступая так же, как при определении полутонового изображения, цветным изображением назовем функцию, определенную на X и принимающую значения в ΊΖ1. Ее значение fe(x) в точке χ е X — вектор, координаты которого определим согласно равенству оо Уе(х) = [ w(x, \)е(х, X) d\, xeX. (8.7) о Тем самым, j-я координата вектора / е(х) есть выходной сигнал j-ro детектора излучения, помещенного в точку χ е X. Точнее, пусть X — поле зрения, (Χ,Τ,μ) — измеримое пространство X с мерой μ, Τ — σ-алгебра подмножеств X. Цветное {спектро-
8.1. Математическая модель цветного изображения 183 зональное) изображение /(·): X —> ΊΖ1 определим равенством _^ ι ~]{χ) = ^αό{χ)φ^ χ£χ> (8-8) i=i в котором почти всюду на X /(я) G Ke, olj(x) = (f(x), Ψ3)ι, % € Χ, j = 1,... ,Ζ, — измеримые функции на поле зрения X, такие, что ΙΙ/(·)Ι|2 = |(7(*), Ί(χ))ΐάμ(χ) = Σ \οα{χ)αό{χ){φ^Ψό)ιάμ{χ) < оо. Цветные изображения образуют подкласс функций X —> Я# ле- беговского класса £2μ1(Χ) = €2μ1 функций Χ —> ΊΖ1. Класс цветных изображений обозначим СЕЛ. Для упрощения терминологии далее любой элемент из С? х называется цветным изображением, а условие J(x) еЖЕ, хе X(mod/i), (8.9) — условием физичности изображения /(·). -> I Если /(·) — цветное изображение (8.8), то f(x) = Σ aj(x)> x € Χ, i=i как нетрудно проверить, — полутоновое изображение, т. е. ΙΙ/(·)Ι|2= ί(Σα^)) ^μ(χ)<οο, /(·) G £2 (X), f(x) > 0, χ G X (mod μ). г Изображение /(χ) = ^ ol3(x), χ е X, назовем полутоновым вариан- 3 = 1 _^ том цветного изображения /(·), а цветное изображение — цветом изображения /(·). В точках множества В = {х G I: /(#) = = 0} черного цвета ψ{χ), χ G В, — произвольные векторы из Ке Π £с С яркость которых равна единице. Полутоновым вариантом цветного изображения /(·) будем также называть цветное изображение &(·), имеющее в каждой точке X ту же яркость, что и /(·), Ь(х) = /(#), χ е X, и белый цвет, β(χ) = Ь{х)/Ь(х) = /?, χ G X.
184 Гл. 8. Морфологический анализ цветных изображений 8.2. Форма цветного изображения Так же как и для случая полутоновых изображений, понятие формы цветного изображения [78] призвано охарактеризовать форму изображенных объектов в терминах характеристик изображений, инвариантных относительно определенного класса преобразований изображения, моделирующих изменяющиеся условия его регистрации. Например, довольно часто может изменяться освещение сцены, в частности, при практически неизменном спектральном составе может радикально изменяться распределение интенсивности освещения сцены. Такие изменения освещения в формуле (8.7) выражаются преобразованием е(хуХ) —> к(х)е(х,\), в котором множитель к(х) модулирует яркость изображения Де(·) в каждой точке χ е X при неизменном распределении цвета. При этом в каждой точке χ е X у вектора f(x) может измениться длина, но направление останется неизменным. Более широкий класс условий наблюдения порождается изменением распределения интенсивности освещения сцены, сопровождающимся значительным изменением его спектрального состава, но пространственно однородным, одним и тем же в пределах всей изображаемой сцены. Поскольку между спектром излучения е и цветом φ нет взаимно однозначного соответствия, модель сопутствующего преобразования изображения /(·) удобно сформулировать в терминах преобразования его цвета <£>(·). Для этого фиксируем некоторое цветное изображение /(·) и определим отображение А(-)у ставящее в соответствие каждому вектору цвета φ е ΊΖ1 подмножество поля зрения Α(φ), в точках которого изображение /(#), χ е Α(φ), имеет постоянный цвет ψ{χ) = ψ. Пусть при рассматриваемом изменении освещения изображение /(·) преобразуется в /'(·) и, соответственно, цвет φ(-) — в цвет ψ'{·)\ предлагаемая модель преобразования изображения состоит в том, что цвет φ'{·) преобразованного изображения должен быть также постоянным на каждом множестве А(·), хотя, вообще говоря, — другим, отличным от φ. Характерным в данном случае является тот факт, что равенство ψ{χ) = φ (у) влечет ψ\χ) = Ψ1 {у), х,у € X. Если /(·) — самое детальное изображение сцены, то, вообще говоря, на различных множествах Α(φ) и Α(φ'), построенных по изображению /(·), цвет изображения /'(·) может оказаться одинаковым. Другими словами, если для некоторого χ е Α(φ) вектор цвета φ = φ (χ) преобразуется в ψ'{χ) = ψ', то выполнено включение Α(φ) С С Α'{φ'), причем, если и цвет φ {у) некоторой точки у £ X тоже пре-
8.2. Форма цветного изображения 185 образовывается в тот же вектор цвета φ', то Α(φ) U Α(φ") с Α'[φ'). Короче говоря, множества Α'[φ'), φ' е И1, постоянного цвета изображения /(·) должны либо совпадать с некоторым Α(φ), либо получаться путем объединения некоторых Α(φ), ψ G ΊΖι. 8.2.1. Сравнение цветных изображений по форме. Для определения понятия формы цветного изображения /(·) на пространстве £?μ1 удобно ввести операцию «~<» сравнения по форме, аналогично тому, как это сделано для полутоновых изображений: д(·) -< /(·) означает, что изображения /(·) и д(·) сравнимы по форме, причем форма д(-) не сложнее, чем форма /(·). Эта операция должна удовлетворять следующим естественным условиям: 1. Для любого /(·) е £?μ1 выполнено соотношение /(·) -< /(·). 2. Если для /(·), /i(·), д(-) е £2μ1 выполнены соотношения М0^я(-)ия(-н7(·), то Л(·) < /(·)· Отношение «-<» должно быть согласованным с определением цветного изображения (с условием физичности (8.9)), а именно, /(·) е С2Е1 влечет ~д(·) е С2Е1, если ?(·) -< /(·). Если д(-) -</(·) и /(·) -< #(·), то /(·) и д(·) назовем эквивалентными по форме (изоморфными), /(·) ~ #(·). Например, если /(·) и д(-) — изображения одной и той же сцены, то #(·), грубо говоря, характеризует форму изображенных объектов не точнее (не подробнее, не детальнее), чем /(·), если д(-) -< /(·). В рассмотренном выше примере преобразования изображений соотношение /'(·) ~ /(·) выполнено, если между множествами Α(φ), ψ е ΊΖ1, и Α'(φ'), φ' е ΊΖ1, существует взаимно-однозначное соответствие. Иными словами, /'(·) ~ /(·), если существует функция <?'(·) : П1 -> П1, такая, что Α! (φ1 (φ)) = Α{φ), φ е К1, причем φ'(φ) ф φ'(φ"), если φ ф ψ". В этом случае равенства φ(χ) = φ (у) и φ'(χ) = ψ'(у) эквивалентны, /'(·) и /(·) изоморфны и одинаково детально характеризуют сцену, хотя и в разных цветах. Если же <£>'(·) :ΊΖι^ΊΖι не взаимно однозначно, то Α'(φ1) = (J Α(φ)
186 Гл. 8. Морфологический анализ цветных изображений и /'(*) ~< /(*)· ^ этом случае равенство φ(χ) = φ (у) влечет φ'(χ) = = ψ'{у) (но не эквивалентно ему), и /'(·) передает, вообще говоря, не все детали сцены, представленные в /(·). Пусть, например, #(·) — полутоновой вариант /(·), т.е. д(х) = fix) и д(х)/д(х) = /?, χ G X. Если преобразование /(·)"*#(·) — следствие изменившихся условий регистрации изображения, то, естественно, д(-) -< /(·). Аналогично, если /(·), д(·) — изображения одной и той же сцены, но в д(·) вследствие неисправности выходные сигналы некоторых детекторов равны нулю, то д (·) -< /(·). Рассмотрим класс F преобразований пространства изображений €2μ1 в себя, результат преобразования д = F о / для каждого изображения /(·) е €2μ1 определен соотношением д(х) = (F о f)(x) = = F(f(x))y x e X (modμ), FeF. Будем считать, что если F\,F2 Ε F, то и преобразование F\ о F^ £ F (здесь (F\ о F<£) о / = F\(F2(f)) для любого / е £2 г). Тогда для любого преобразования FeF форма изображения д(х) = F о f(x), x e X (modμ), не сложнее формы /(·)· 9(-) ~< /(·)» поскольку если некоторые детали формы объекта не отражены в изображении /(·), то они, тем более, не будут отражены в ?(·)· Определение 8.1. Формой V(/(·)) изображения /(·) назовем множество изображений V(7(-)) = {5(-)e£2M,;, ?(·Η /(·)}, форма которых не сложнее, чем форма /(·), и их пределов в €2μ1 (черта символизирует замыкание в С? Л. Формой изображения /(·) в широком смысле назовем минимальное линейное подпространство С? х, содержащее V(/(·)). Если считать, что д(-) -< /(·) для любого изображения #(·) е е V(/(·)), то это будет означать, что отношение «-<» непрерывно относительно сходимости в £?μ { в том смысле, что отношение 9к(·) -< /(·)» к = 1,2,..., влечет lim gk(-) -< /(·)· к—+оо Рассмотрим теперь более подробно понятие формы для некоторых характерных классов изображений и их преобразований.
8.2. Форма цветного изображения 187 8.2.2. Форма мозаичного цветного изображения. Во многих практически важных задачах форма объекта на изображении может быть охарактеризована специальной структурой излучения, достигающего поля зрения X в виде N е(Хух) = ^Je^(A,x)xi(x)y X е (0, оо), χ € X. г=1 Здесь Хг(·)» * — l,...,iV, — индикаторные функции непересекающихся N подмножеств А{ с X, г = 1,..., Ν, положительной меры, (J Αι = X, г=\ на каждом из которых функции оо fij(x)= \ ei(X,x)(w(X)J^j)id\J xeX, j=l,...,Z, г = 1 7V, о непрерывны. Поскольку, согласно лемме 8.1.2, i=\ j=\ N I f . (8.10) φ6(χ) = ΣΧί(χ)Σ Г[Х) ?,, χ ex> то цветное изображение /е(·) такого объекта характеризует его форму непрерывным распределением яркости и цвета на каждом подмножестве Αι, г = 1,..., N. Для изображения /' -< /е ν ι 7'(х) = FoJe(x) = ΣΣϊί3{χ)Χί{χ)φ3, %=\ j=\ где fij(x) = Fj(fu(x),..., fu(x),x), χ G X, также характерно непрерывное распределение яркости и цвета на каждом А^ если Fj(-), j = l,..., AT, — непрерывные функции. Если, в частности, цвет и яркость /е() постоянны на А{, г = = 1,...,ЛГ, то это верно и для всякого изображения /'(·) -< /е(·). если Fj(·), j = l,...,iV, не зависят явно от χ е X. Для такого изображения
188 Гл. 8. Морфологический анализ цветных изображений примем следующее представление: _^ Ν Ι Ν /е(') = α(·) = ΣΣανχί^ = Σ в*Х*(*), г=1 ,7 = 1 г=1 / i=i (8.11) его полутоновой вариант ЛГ I β(·) = ΣΣα**(·) <8Л2> t=i i=i г на каждом А; имеет постоянную яркость <ц = Σ aij> a ^вет изобра- J = l жения (8.11) N / *ο = Σ*(*)Σ^^, <8·13) г=1 ^ Σ «ifc fc=l / не меняется на А{ и равен «<;(·) = У^ *J—Ψ $, г— 1,... ,iV. fc=l Учтем также, что для реальных изображений должно быть выполнено условие физичности (8.9) из предыдущего раздела, которое здесь примет вид N t г=\ j=\ Определение 8.2. Формой изображения (8.11), имеющего на раз- / личных множествах Αι несовпадающие яркости а» = Σ aij и различ- j=i ные цвета Μ-) = Σ-Γ*-ν3, i = l,...,N, fc=l назовем выпуклый замкнутый в С2 , конус: ν(α(·))={л·)=έέα«χί(·)^·е £^· j]ay^JGA:B,i=l,...,Jvl. (8.14) 7=1 J
8.2. Форма цветного изображения 189 Конус V(a(·)), очевидно, содержится в Ι χ Ν мерном линейном подпространстве (Ν Ι г=1 j=\ αί3£ (-00,00), г=1,...,ЛГ, j= Ι,.,.,ίΙ с£*>г, (8.15) которое назовем формой ёГ() (8.11) β широком смысле. Определение 8.3. Форму в широком смысле любого изображения α(·), у которого не обязательно различны яркости и цвета на различных подмножествах А^ г = l,...,iV, определим как минимальное линейное подпространство С2 t, содержащее все вектор-функции Fo α(·), F e F, где F — класс преобразований С? { —> С2 t, определенных как преобразования векторов a(x)->Fo а(х) во всех точках χ е Х\ здесь F — любое преобразование 0 72/ —> 7£г. Изображения из конуса (8.14) имеют форму, которая не сложнее, чем форма α(·) (8.11), поскольку некоторые из них могут иметь одно и то же значение яркости или/и цвета на различных множествах А^ г = 1,...,7V. Такие множества оказываются, по существу, объединенными в одно, что и приводит к упрощению формы изображения, поскольку оно отражает меньше деталей формы изображенного объекта, чем изображение (8.11). Это замечание касается и £(а(·)), если речь идет о форме в широком смысле. Лемма 8.2.1. Пусть {Αι} — измеримое разбиение Χ: Αι Π Aj = 0, Ν г φ jy iyj = 1,..., Ν, Χ = [J Α{. Изображение (8.10) имеет на каждом г=\ подмножестве Ас • постоянную яркость и цвет если и только если выполняется равенство (8.11); 1) Для упрощения обозначений будем использовать один и тот же знак F как для преобразования ΊΖ1 -+1Z1, так и для преобразования £?μ1 —► £?μ1.
190 Гл. 8. Морфологический анализ цветных изображений • постоянный цвет ι ι=ι Σ «ifc если г/ только если в (8.10) fij(x) = OLij9i(x), х G X, г = 1,..., JV, • постоянную яркость /», г = 1,..., iV, если г/ только если в (8.10) г J^ ДДя) = f(i)(x) не зависит от χ е X, i = l,...,N. i=i Доказательство. На множестве А» яркость и цвет изображения (8.10) равны соответственно /(*)(*) = Σ&(*). *<θ(*) = Σπ^' хеЛ- i=l,.-.,iV. i=i j=i 7«w Если выполнено равенство (8.11), то f(i)(x) и <Р(*)(#) от χ G А{ не зависят. Наоборот, если f(i)(x) = const и fij(x)/f(i)(x) = const, то и fij(x) = const, т.е. выполняется (8.11). —► ^ /"Y · · —► Если fij(x) = OLijQiix), то цвет <£(г)(#) = Σ υ—^i не зависит от k=\ χ G Ль г = 1,...,7V. Наоборот, пусть ^(ж) = Σ уу^-^· = ¥>ф не зависит от χ G А». В силу линейной независимости <Ρι,..., <Р/ координаты ^(г)(ж) не зависят от χ G Αι, то есть fij(x)/f(i)(x) = &ij = const и, следовательно, fa (χ) = а^д^х), где #(ж) = /(;)(#) — яркость на Αι ι и Σ «у = 1, г = 1,...,^V. i=i Последнее утверждение очевидно. ■ На практике в задачах морфологического анализа цветных изображений сцен важное значение имеет понятие формы изображения, имеющего постоянный цвет и произвольное распределение яркости в пределах заданных подмножеств Ai, г = l,...,iV, поля зрения X. Интерес к такой модели может быть объяснен следующим образом. Цвет изображения определяется спектральном составом излучения, покидающего поверхность объекта и содержащего как рассеянное, так и собственное излучения объекта, и зависит как от электродинамических свойств поверхности изображенного объекта, так и от спектрального состава падающего на него электромагнитного излучения
8.2. Форма цветного изображения 191 в том диапазоне, который используется для регистрации изображения. Поскольку спектральный состав падающего излучения, как правило, пространственно однороден, можно считать, что цвет изображения несет информацию о свойствах поверхности объекта, о ее форме, а яркость в значительной степени зависит и от условий «освещения». В согласии с леммой 8.2.1 изображение, имеющее постоянный цвет и произвольное распределение яркости в пределах подмножеств А{, г = 1,..., Ν, можно определить равенством -> N l /(*) = EE^^w^w^"· х е х> (8Л6) t=i i=i где Xi(x) — индикаторная функция А{> μ(Α{) > О, г = 1,..., Ν, функция Qi{-) задает распределение яркости ι J2<*ij9i(x)>0 (8.17) i=i в пределах А{ при постоянном цвете ι ^(о= Σ -τ*—** εΈε> i = *· - · N> (8Л8) k=\ причем для изображения (8.10) цвета <£>(ф г = 1,... ,iV, считаются попарно различными, а функции <?;(·)> * — 1» ···»^» ~~ удовлетворяющими условиям г E^<*ij0i(s) ^ 0, х е Αι, г = 1 iV. J = l Нетрудно заметить, что в выражениях (8.16)—(8.18) без потери ι общности можно принять условие нормировки Σ αυ — 1» позволяю- i=i щее упростить выражения (8.17) и (8.18) для распределений яркости и цвета. С учетом нормировки распределение яркости на А{ задается функцией giix) ^ 0, χ е Αι, а цвет на А{ равен ι ^(*) = Σα<^€**· i== 1-·-7ν· (8·19) i=i
192 Гл. 8. Морфологический анализ цветных изображений Определение 8.4. Формой V(/(·)) изображения (8.16) назовем класс всех изображений ~ Ν Ι 7(χ) = ΣΣ^&^Μ^ο ^КЕ, хе Χ, (8.20) t=l j=\ ι 5^2^ = 1, flft(ar) ^ 0, χ e Ai, j=\,...,N, i=i каждое из которых, как и изображение (8.16), имеет постоянный цвет в пределах каждого Ai, г = 1,..., N. Форма таких изображений не сложнее, чем форма /(·) (8.16), поскольку в изображении /(·) на некоторых различных подмножествах Ai, г = 1,..., N, могут совпадать значения цветов, которые jenpe- менно различны в изображении /(·) (8.16). Совпадение цветов /(·) на различных подмножествах Ai, г = 1,..., N, ведет к упрощению формы изображения /(·) по сравнению с формой /(·) в (8.16). Все изображения /(·) G V(/(·)), имеющие различный цвет на различных Ai, г = Ι,.,.,Ν, считаются изоморфными /(·) (и между собой), форма остальных не сложнее, чем форма /(·). Если /(·) -< /(·), то, очевидно, v(7(-))cv(7(·)). _ Если в (8.20) яркость gi(x) = 0 при χ G Ai (modμ), то цвет /(·) на Ai считается произвольным (постоянным), если же gi(x) > 0 в точках некоторого подмножества Ai С Ai, μ(Αι) > 0, то цвет /(·) на Ai считается равным цвету /(·) на А^ г = 1,..., N. Цвет изображения (8.20) может не совпадать с цветом (8.16). Если же по условию задачи все изображения /(·), χ е X, форма которых не сложнее, чем форма /(·), χ е X, должны иметь на Ai, г = 1,..., Ν, тот же цвет, что и цвет /(·), χ е X, то следует потребовать, чтобы aij = ocij, г = 1,...,Ν, j = 1,...,/, в то время, как яркости ]ji(x) ^ 0, г = 1, ...jj^V, оставались произвольными (если ]ji(x) = 0, χ е Ai (ιηοάμ), то цвет /(·) на Ai определяется равным цвету /(·) на Ai, г = Ι,.,.,Ν). 8.2.3. Общее понятие формы цветного изображения. Нетрудно определить форму любого, не обязательно мозаичного, изображения /(·) в том случае, когда допустимы произвольные изменения яркости
8.3. Аппроксимация формы цветных изображений 193 f(x) при неизменном цвете ψ{χ) в каждой точке χ е X. Множество, содержащее все такие изображения, т. е. множество £(/(·)) = Μ·)/(·). /Ое^Ь назовем формой в широком смысле изображения <£>(·)/(·)» У которого fix) φ О μ-почти для всех χ Ε X. Множество £(/(·)) является линейным подпространством С2 г, содержащим любую форму V(/(-)) = M0/(·). /(-)eFc£2}, β которой включение /(·) Ε F определяет допустимые значения яркости. В частности, если /(·) G F означает, что яркость неотрицательна: fix) ^ 0, χ е X (modμ), то V(/(·)) — выпуклый замкнутый конус в £?μρ принадлежащий £(/(·)). Более удобное описание формы изображения может быть получено на основе методов аппроксимации цветных изображений, в которых форма определяется как оператор наилучшего приближения. 8.3. Аппроксимация формы цветных изображений 8.3.1. Форма как оператор наилучшего приближения. В этом пункте рассмотрим задачи приближения заданного изображения /(·) G С? {{Х) кусочно-постоянными (мозаичными) изображениями [79]. Решение этих задач позволит построить форму изображения /(·) G €2μ1(Χ) в том случае, когда считается, что F о /(·) -<: /(·) для любого преобразования F е ΊΖ1 —> ΊΖ1, действующего на изображение /(·) как на вектор fix) е ΊΖ1 в каждой точке χ е X и оставляющего Fo/(·) элементом С2 t(X) (т.е. изображением). Так же, как это сделано в п. 1.2.3 гл.1, форма в широком смысле изображения /(·) может быть определена как оператор Π е С2 t[X) —> С2 t(X) наилучшего приближения изображения #(·) е €2μ1(Χ) изображениями Fo/(·), FGF: |2 г Г п-> — ιι2 mm FGF 9(·) F ° /(·)[ = min { р(χ) - Fo /(^1 άμ(χ)} = 9(-)-П9(-) 7 Ю. П. Пытьев, А. И. Чуличков
194 Гл. 8. Морфологический анализ цветных изображений где F — класс преобразований ΊΖ1 —> 1Z1 такой, что включение /(·) е е €μ1{Χ) влечет F о /(·) е €2μ1(Χ). Иначе можно считать, что £(/(·)) = {*"°/(·). feF}, (8.21) а П — оператор наилучшего приближения элементами множества £(/(·)), форма которых не сложнее, чем форма /(·). Характеристическим для £(/(·)) является тот факт, что если f(x) = f(y), то для любого F e F, F о J(x) = F о / (у), х, у е X. 8.3.2. Приближение цветного изображения изображениями, цвет и яркость которых постоянны на заданных подмножествах разбиения {Ai} поля зрения X. Рассмотрим задачу наилучшего -> ι -> приближения в £2μ1(Χ) цветного изображения /(·) = Σ aj(')^j изоб- i=i ражениями (8.11), в которых считается заданным разбиение А\,... ,Αν поля зрения X и требуется определить а^ £ (—οο,οο), г = l,...,iV, j = 1,...,/, из условия _► __> ||2 Г II—). _> 1.2 /(•)-13«yXi(-)Vi = /(\>-l]a;jXi(·)^·, Ф(ж) = " J " · · " ^ Ν Ι _+ _+ = min V У2 (аз(х) ~ 5υ)(α*(χ) ~ uik)(Vj, Ψ^ιάμ(χ). (8.22) i=l j,fc=l Ai Теорема 8.3.1. При μ(Α{) > О, г = l,...,iV, справедливы следующие утверждения. 1. Решение задачи (8.22) имеет вид a{j = ——- \ oij(x) άμ(χ) г = 1 iV, j=l,...,Z, (8.23) Аг г/ искомое изображение задается равенством Ν Ι г=1 j = l = E^J /Ы^Ы = п/(х), ,ei (8.24) г==1 Ai Оператор Π е (£^ ДХ) —> £^>г(Х)) является ортогональным проектором на линейное подпространство £(a(·)) e £^>г(Х)
8.3. Аппроксимация формы цветных изображений 195 изображений, яркости и цвета которых не изменяются в пределах каждого Αι, г = 1,... ,Ν. 2. Для базиса ψΓ j = 1,..., Ζ, биортогонально сопряженного с φ к, к = 1,..., I, полутоновой вариант г=1 j=l j=l цветного изображения Ν Ι г=1 j = l является наилучшей в С2 t(X) аппроксимацией полутонового N I ' -> -> варианта /(·) = ^ J] ^ = (/(·),ψ)ι цветного изображения /(·), еа/ш цветное изображение α(·) = Σ Σ aijXi{')^j явля- ется наилучшей в С? г(Х) аппроксимацией цветного изображения /(·)· Оператор Ρ е (£* ДХ) -> £* г(Х)), г={ Аг является ортогональным проектором на линейное подпространство полутоновых изображений, яркость которых постоянна в пределах каждого Αι, г = 1,..., N. 3. В точках множества Αι С X цвет а^·) = Σ %3—Фэ наи" k=\ _> Ν Ι _> лучшей аппроксимации α(·) = Σ Σ aijXi{')^j Цветного изоб- ражения /(·) является цветом аддитивной смеси е(А) = е(х, λ) άμ(χ) Аг составляющих е(х,\), χ G Αι, λ G (0, oo), излучения, попадающего на Ai, г = 1,..., 7V. Доказательство. Равенства (8.23) — условия минимума положительно определенной квадратичной формы (8.22), Π — ортогональный
196 Гл. 8. Морфологический анализ цветных изображений проектор, поскольку в задаче (8.22) наилучшая аппроксимация — ортогональная проекция /(·) на £(а(·)). Второе утверждение следует из равенства о = pf(-) = («(·), Й« = Σ ^щ} (/(»)· Й« «м»). вытекающего из (8.24). Последнее утверждение следует из равенств ι ι \αά{χ)μ(άχ) J f{x)4>(x) άμ(χ) аг(х) = Σ -Т^-*1 = Σ -Г ^ = ^"f · ^ Σ^ ^ Σ [<**(*) Μ*) J ^^ k=\ k=\ { Ai Аг x e Ai. Эти равенства вытекают из (8.23), леммы 8.1.1 и соотношений (8.5), в которых индекс еь к= 1,...,га, следует заменить на χ е Ai, г = 1,..., АГ. ■ Замечание 8.3.1. Для любого измеримого разбиения Ai, μ(Ατ) > О, г = Ι,.,.,Ν, ортогональные проекторы Π е (С2 t(X) —> £2μ1(Χ)) и Ρ Ε (£μ(X) —> £^(X)) определяют соответственно форму в широком смысле цветного изображения (8.24), цвет и яркость которого, постоянные в пределах каждого Ai, различны для различных Ai, г = 1,..., Ν, ибо £(<?(·)) = {<?'(·) в £2μ,ι(Χ), П<я'(·) = <?'(·)}> и форму в широком смысле полутонового изображения, яркость которого постоянна на каждом Ai и различна для разных Ai, г = 1,..., N. Если учесть условие физичности (8.9), то формой цветного изображения следует считать проектор П* на выпуклый замкнутый конус V(a(·)) (8.14). Аналогично, формой полутонового изображения следует считать проектор Р* на выпуклый замкнутый конус изображений (8.12), таких что Σα4 5*0, г= Ι,.,.,Ν. j=i Дело в том, что оператор ГЦ : С? t(X) —> С2 t(X) определяет форму V(a(-)) = {«'(·) е £2 i(X),a'(-)^«(·)} изображения (8.11), а именно, V(a(·)) = {«'(·) € LUX), Π.α'(·) - α'(·)}
8.3. Аппроксимация формы цветных изображений 197 — множество собственных функций оператора П*. Поскольку ГЦ /(·) — наилучшее приближение изображения / е С2 t(X) изображениями из V(a(·)), то для любого изображения α'(·) -<: α(·) из V(a(·)), и только для таких α'(·), выполнено ||Π*α'(·) — α'(·)|| = 0. Поэтому проектор П* можно отождествить с формой изображения (8.9). Точно так же, если обозначить £}μ + класс неотрицательных функций, вложенный в С2, то для полутонового изображения α(·) получим V(a(-)) = {a'(.)eCl+(X),a'(-)^a(-)} = = {«'(·) е£2,+ (Х), Ρ,α'(·) = «'(·)}· Проектор Р* можно отождествить с формой изображения (8.12), как это сделано в гл. 1, п. 1.2.3. Формы в широком смысле определяются связью задач наилучшего приближения элементами £(а(·)) и V(a(·)), которая известна как транзитивность проецирования. Именно, если ГЦ* : £(а(·)) —> £(а(·)) — оператор наилучшего в С2 ,(Х) приближения элементами выпуклого замкнутого (в £2μ1(Χ) и в £(а(·))) конуса V(a(·)) с £(а(·)), то П* = П**П. Иначе говоря, для определения наилучшего в £2μ1(Χ) приближения /(·) е С2 ,(Х) элементами V(a(·)) можно вначале найти ортогональную проекцию ГЦ*/(·) изображения /(·) на £(а(·)), а затем П/(·) спроецировать в £(а(·)) на V{a(-)). При этом конечномерный проектор П** для каждого конкретного конуса V(a(·)) может быть реализован методом динамического программирования, а для многих задач морфологического анализа изображений достаточным оказывается использование лишь проектора П. Форма в широком смысле С(а(-)) (8.15) изображения (8.11) полностью определяется измеримым разбиением Ль...,Д\г, последнее, в свою очередь, определяется изображением α(·): Ai = {χ е Χ, ~α(χ) = <ц}, г = Ι,...,-W, если векторы ait г= l,...,iV, попарно различны. Если при этом μ(Αί) > 0, г = l,...,iV, то форма в широком смысле изображения α(·) может быть определена и как оператор Π ортогонального проецирования на £(а(·)), определенный равенством (8.24). 8.3.3. Аппроксимация формы в широком смысле произвольного изображения /(·). Пусть Q-+(X) = {f(x),x е X} С ΊΖι — множество значений /(·), {A(f),f е Q^(X)} — измеримое разбие-
198 Гл. 8. Морфологический анализ цветных изображений ние X, порожденное /(·), и X = (J A(f), в котором A(f) = leQy{x) = {χ G Xу f(x) = /} — подмножество X, в пределах которого изображение /(·) имеет постоянные яркость и цвет, определяемые вектором 7 е Qj(X)\ 1{χ) = 7, если χ е A(f), 7 е Qy(X). До сих пор в этом разделе рассматривались изображения, для которых подмножества поля зрения X одинакового цвета имели ненулевую меру. Однако нетрудно привести пример изображения, для которого это свойство не выполняется для любого вектора цвета / е Q^(X). Действительно, если мера μ(·) — мера Лебега, ψ\ = (φ\\,...,φ\ι) и Ψ2 = (φ2\>'->φ2ΐ) — два вектора цвета, то примером такого изображения служит f(x) = (P\ + ||ж||^2» χ Ε X. Цвет этого изображения в точке χ е X равен £(ал = /0*0 _ *\ + 11^11^2 № ± μι и ' i=i а множества {A(f)t f e Q^(X)} представляют собой линии нулевой площади на поле зрения X. Для таких изображений теорема 8.3.1 не позволяет построить ортогональный проектор Π на £(/(·)). Покажем, что Π можно получить как предел последовательности конечномерных ортогональных проекторов. Заметим вначале, что любое изображение / е С21 можно представить в виде предела (в Се *) должным образом организованной последовательности мозаичных изображений "(Λ0(·) = Σ-τδ/ΤΤ ί 7(χ)Μ*), Ν =1,2,..., (8.25) где х\ \·) — индикатор множества А\ \ принадлежащего измеримому разбиению {А\. \ к = 1,...,7V} поля зрения X, г = l,...,iV, ЛГ = 1,2 В (8.25) можно, например, использовать так называемую исчерпывающую последовательность разбиений [13], удовлетворяющую следующим условиям: • A\N) jr-измеримо, α[ν) η Af] = 0, г ^ j, (j a[n) = X, i,j = = Ι,.,.,ΛΓ, Ν= 1,2,...;
8.3. Аппроксимация формы цветных изображений 199 • (N + 1)-е разбиение является продолжением TV-го, т.е. для любого j, 1 ^ j ^ N + 1, найдется г = i(j), 1 ^ г ^ iV, такое, что л(*+1)сЛ(ло. • минимальная σ-алгебра, содержащая все А\ \ г = l,...,iV, iV = = 1,2,..., совпадает с Т. Лемма 8.3.1 [13]. Пусть Λ{Ν) = {^w, i = 1,...,ΛΓ}, iV = 1,2,..., — исчерпывающая последовательность разбиений X и a[n\x) — то множество из Л^\ которое содержит χ е X. Тогда для любой ^-измеримой функции выполнено /(·): Χ -^ΊΖι, ι— _>(ΛΠ ||2 Г м- _>(#) ||2 /(·)-« J(·) = lim /(χ)-α1 ' (χ) \\άμ(χ) = 0 Ι Μ Ν-+οο J Μ \\1 lim N-+OC Χ и μ-почти для всех χ € Χ >^μ(Α<Ν\χ)) f(x) = Jim / /mg _ /(ζ)άμ(ζ). Воспользуемся этим результатом для построения формы в широком смысле Π произвольного изображения /(·). Пусть σ(/(·)) — минимальная σ-алгебра, относительно которой измеримо /(·), т.е. пусть *(/(·)) = {/ (£), В е В}, где / (В) = {х е X, /(х) е В} - прообраз борелевского множества В с ΊΖ1, В — σ-алгебра борелевских множеств ΊΖ1. Заменим в условиях, определяющих исчерпывающую последовательность разбиений, Τ на σ(/(·)) и выберем эту, зависящую от /(·), исчерпывающую последовательность ^(/(-))-измеримых) разбиений в лемме 8.3.1. Теорема 8.3.2. Пусть /(·) е £*,, {Α[ν\ г = 1,..., АГ}, N = = 1,2,..., — исчерпывающая последовательность разбиений X, причем σ(/(·)) — минимальная σ-алгебра, содержащая все А\ \ и П^ € (С2 t —> £?μ /) — ортогональный проектор, определенный равенством N vWM Г - ϊ·= 1 ι V Ъ ' г -\τ\ A (Ν) Тогда 1. Для любого σ(/(·))-измеримого изображения 9 (-) е £2μ1 и для μ-почти всех χ € X lim П^ 9 (χ) = 9 (χ). N—юо
200 Гл. 8. Морфологический анализ цветных изображений 2. Для любого изображения д(·) е €2μ1 при N —> оо U^g(x) —> —> Нд(х) (в С2 ι), где Π — ортогональный проектор на £(/(·)). Доказательство. Первое утверждение непосредственно следует из леммы 8.3.1 и определения П^, N = 1,2,.... Для доказательства второго утверждения заметим, что так как Α^Ν+^ — продолжение разбиения Α^Ν\ Ν = 1,2,..., то последовательность проекторов Π.(Ν\ N = 1,2,..., монотонно неубывает: П^1) ^ П^ ^ ..., и потому сходится (поточечно) к некоторому ортогональному проектору П. Так как £(/(·)) — множество всех а(/(-))-измеримых изображений и их пределов (в £^/), а в силу леммы 8.3.1 ||П(ЛГ)#(·) - #(·)|| —► 0 при N —> оо для любого а(/(-))-измеримого изображения #(·), то для любого изображения g(·) е £(/(·)) lim ||Π^5(·) - ?(·)|| = ||П?(.) - g (·)|| = 0, Ν—>оо и Ug(-) e £(/(·)) Для любого ?(·) е £(/(·)). ибо П^5(·) является а(/(-))-измеримым, 7V = 1,2,.... ■ Вопрос о том, каким образом может быть построена исчерпывающая последовательность разбиений, обсуждается в пунктах 8.3.5 и 8.3.6. 8.3.4. Приближение цветного изображения мозаичными изображениями с заданным конечным набором значений. Рассмотрим задачу приближения цветного изображения /(·), в которой задано не разбиение {Ai} поля зрения X, а векторы /p..., fq € ΊΖ1, и требуется построить измеримое разбиение {Ai}q поля зрения X, такое, что q ~* цветное изображение Σ fiXi(') является наилучшей в С? { аппрокси- г=1 мацией /(·). Так как |7(·)-Σ/^(·)| г=1 г=1 г=1
8.3. Аппроксимация формы цветных изображений 201 = } (Σ,(Ϊ(Χ) - 1г)Хг{х)^в{х) ~ Ъ)Хг{х))^{Х) = У г=\ г=\ = i2\\\7(x)-7i(x)\fa(x), (8.26) то в Αι следует отнести лишь те точки χ € X, для которых выполнено неравенство \\7(х) - /ill? < \\7(х) - 7j\t ίφ3= 1.2,..., q, или, что то же самое, 2(7w,7<-7j)i>ii7j?-n7i-ii?, гфз = \х-л- Те точки, которые согласно этому принципу могут быть отнесены к нескольким множествам, должны быть произвольно отнесены к одному из них. Учитывая это, условимся считать, что запись Ai = {xeX: 2(7\х), 7 i ~ 7j)i > >\\7άϊ-\\7ό\\Ιίφ3\3 = \,--,θ\\ i=l,...,q, (8.27) означает, что множества (Ai) не пересекаются и X = (J А{. г=\ Для того чтобы сформулировать этот результат в терминах морфологического анализа, рассмотрим разбиение ΊΖ1 = Т>\ U ... UT>q, в котором Vi = {JeTll: 2(7,7i-7j)i> >\\7ΐ\\ΐ-\\7ί\\1ίφΐ,3=1,..·,4}\ i=l,...,q, (8.28) и звездочка указывает на договоренность, принятую в (8.27). Определим оператор F, действующий из ΊΖ1 в ΊΖ1 по формуле F f = f i тогда и только тогда, когда f € T>i, i = 1,...,<?. Очевидно, F всегда можно согласовать с (8.27) так, чтобы включения /(х)еТ>гИхе Ai, г = 1,... ,д, можно было считать эквивалентными.
202 Гл. 8. Морфологический анализ цветных изображений Теорема 8.3.3. Пусть /i,..., fq — заданные попарно различные векторы ΊΖ1. Решение задачи mm f(^)-ΣfгЫ) г=1 наилучшего в С? х приближения изображения /(·) изображениями q -* _ ' -+ ρ -+ Σ /гХг(') ί/Ж^/П *И<5 F/(x) = Σ fiXi(·)* χ ^ Χ> где Xi(') ~ "H(?W- г=1 г=1 каторная функция множества Ai = {χ € X, f (χ) € T>i}, г = 1,..., ρ. Множество T>i с 72/ определено равенством (8.28). Нелинейный оператор F: 7^ —> 7Zl, F/ = fi для / е Viy г = 1,..., ς, как всякий оператор наилучшего приближения удовлетворяет условию F2 = F, т. е. является проектором. Замечание 8.3.2. Если данные задачи доступны лишь в полутоновом варианте, т.е. заданы числа (/», ^)i» * — !»···»<?» которые можно считать упорядоченными согласно условию (/\,ψ)ι < ... < (/лг»^0г» то, как показано в гл.4, см. соотношение (5.4), и в работе [40], искомое разбиение поля зрения X состоит из множеств Ai = {χ € Χ, ((/„ Й, + (Д-i, Φ)ι < 2/(х) < (/<, Й« + (/<+!. Й«}*. где (fo,il>)i = —оо, (fq+\,i>)i = оо, и имеет мало общего с разбиением (8.28). Замечание 8.3.3. Выберем векторы /if г= 1,...,д, единичной длины: ||/J = 1, г = 1,... ,д. Тогда Д '* = {/€ Я': (7i,7)l>(7j,7)l, i*3, j=l,··.,«}*. (8.29) Множества (8.29) являются конусами в Τ?/, ограниченными гиперплоскостями, проходящими через начало координат. Отсюда следует, что соответствующее приближение Σ fjXj(') изображения /(·) инвариантно относительно произвольного преобразования последнего, не изменяющего его цвет (например, f(x) —> g(x)f(x), χ € X), в частности, относительно образования теней на /(·). Замечание 8.3.4. Для любого заданного набора попарно различных векторов /ι,...,/g € Ке оператор F, приведенный в теореме 8.3.3, определяет форму изображения, принимающего значения /ι,...,/ρ
8.3. Аппроксимация формы цветных изображений 203 соответственно на измеримых множествах A\,...,Aq (любого) разбиения X. Всякое такое изображение является неподвижной (в С2 г) точкой F: Fg(-) = #(·), если 9 (-) = Σ fiXi(')> все они изоморфны г=1 между собой. Если некоторые множества из A\,...,Aq — пустые, или нулевой меры, соответствующие изображения имеют более простую форму. Иначе говоря, в данном случае формой изображения 9 (·) является множество всех изображений, принимающих заданные значения /j,..., fq на множествах положительной меры A\,...,Aq любого разбиения X, и их пределов в £}μϊ. 8.3.5. Приближение цветного изображения мозаичными изображениями с конечным числом значений вектора цвета. Запишем необходимые и достаточные условия в задаче наилучшего приближения изображения /(·) изображениями Σ fiXi(')> B которой требуется г=1 -Л) -+0 определить как векторы /ι,...,/w, так и множества A0x,...,A°q так, чтобы |7(·)-Σλχ?(·)|= mi? |7(·)-Σ7λ(·)|· (8.30) Воспользуемся для этого теоремами 8.3.1 и 8.3.3. Пусть Du i = 1, ···, Ν, — подмножества 1Ζι (8.28), Π — ортогональ- - Ν - - Ι Г - ный проектор (8.24), Π/(·) = £ /^(-), где fi = —— Ι /(χ)άμ(χ), i= l,...,N. Тогда необходимые и достаточные условия минимума в (8.30) следующие: Σ/°χ°(·) = π/(·), где J$ = {xeX,7(x)eVih 7ΐ = ^-)\7(χ)άμ(χ), <= ι λγ. Λ? Следующая рекуррентная процедура, полезная для уточнения приближений, получаемых в теоремах 8.3.1 и 8.3.3, в некоторых слу- чаях позволяет решать названную задачу. Пусть f{ ,...,/q — исходные векторы в (8.26), Αι',... ,Aq' — соответствующее оптимальное разбиение (8.27), F^ — оператор наилучшего приближе-
204 Гл. 8. Морфологический анализ цветных изображений ния и р[ 0) /(•)-^(1)/(·) невязка. Воспользовавшись теоре- ι0) id) мой 8.3.1, определим для найденного разбиения А\ ),..., А\) оптималь- -(2) -.(2) ные векторы: f{ ,..., fq . Согласно выражению (8.24), -(2) /г = Ы7(х 1 ' л(1) )άμ(χ), г= 1,...,ς, и соответствующий оператор наилучшего приближения Д(1) (8.24) обеспечит не менее точное приближение /(·), чем F^: /(·) — Π(ι)/(·) ^ р^. Выберем теперь в теореме 8.3.3 f{ = -(2) = fi , г = 1,...,(7, определим соответствующее оптимальное разбиение и построим оператор наилучшего приближения F^. Тогда ,« = — 1,2 f(.)-F^f(-)\\ < /(.)-Πθ/(·) <„<·>. На следующем шаге по разбиению A\\...,Aq' строим -(3) —(3) /! ,..., f q и оператор П(3) и т. д. О В заключение этого пункта вернемся к вопросу о построении исчерпывающего а(/(-))-измеримого разбиения X, отвечающего заданной функции /(·) е С? х. Выберем произвольно попарно различные векторы /ι,...,/g из Q^(X) и построим по формуле (8.28) разбиение П1: Х>(9) = {V^\...,Vqq)}. Для каждого q = 1,2,... образуем разбиение S^N^ пространства ΊΖ1, элементы которого £J ^ с 7Z1, j = 1,..., N(q), образованы всеми попарно различными пересечениями Χ>·1) П£>Р} П...П# множеств из £>(1\ ... ,D^). Построим последова- тельность соответствующих разбиений AN^ = {А{ ,..., Л^^} поля зрения X, состоящую из множеств А"(в) = {х € X, 7(x)E^N{g))}, i=l,...,N(q), g=l,2,.... Каждое из множеств Ai ^ , г = 1,..., N(q), q = 1,2,..., принадлежит алгебре σ(/(·)), а Д^^1) является продолжением AN^q\ q= 1,2,.... Следовательно, AN^q\ q= 1,2,..., — исчерпывающая последовательность. 1) Этот процесс, разумеется, не обязан сходиться к решению задачи (8.30).
8.3. Аппроксимация формы цветных изображений 205 8.3.6. Приближение цветного изображения изображениями, цвет которых постоянен на заданных подмножествах разбиения {Aj} поля зрения X. Для практики, как уже было отмечено, большой интерес представляет класс изображений, цвет которых не изменяется в пределах некоторых подмножеств поля зрения, и задачи аппроксимации произвольных изображений изображениями такого класса. Запишем такие изображения в виде ~9{Х) = Σ 7г9г(х)Хг(х), X € X, (8.31) г=1 ГАе f J = Σ <*ijPj, i = 1,...,N. Пусть A\,...,An — заданное разбиение поля зрения X, Xj(-) — индикаторная функция Aiy г = 1,..., N. Рассмотрим задачу наилучшего в С2 t(X) приближения изображения /(·) изображениями (8.31): Г — N — 2 S= min { \\f(x)-^27igi(x)Xi(x)\\ άμ(χ)\. (8.32) Ui-Qil·)} l" t=l '" Речь идет о задаче аппроксимации произвольного изображения /(·) изображениями, у которых яркость может быть любой функцией из С2tl{X), в то время как цвет должен сохранять постоянное значение на каждом из заданных подмножеств A\,...,An поля зрения X (см. лемму 8.2.1). Так как N г=\ N 5 = Σ \\f(x)-fi9i(x) ад At (8.33) = Σ} [|?Н|* -2(7и. л)г</^) + р|^2(*)] то минимум S в (8.33) по <?*(·) достигается при άμ(χ), и равен #0*0 = N Σ t=l Λ4 l/i Ι/(χ) χ € Л<, г = 1,...,ЛГ, „2 (/(*),/«)? l/i άμ(χ). (8.34) (8.35)
206 Гл. 8. Морфологический анализ цветных изображений Задача (8.32) тем самым сведена к задаче J* А{ \\Ji\\l '}· max<| J w ^""* άμ(χ)}, г = 1 ЛГ. (8.36) В связи с последней задачей рассмотрим самосопряженный неотрицательно определенный оператор Ф; € (ΊΖι -^ΊΖι): ФгУ = [ 7(х)(/(х), υ)ι άμ(χ), У е П1. (8.37) Максимум (неотрицательной) квадратичной формы (2/, Фг 2/)/ на сфере || 2/1| = 1 в ΊΖ\ как известно (см., например, [42]), достигается на собственном векторе У г оператора Ф;, отвечающем максимальному собственному значению pi > 0, $г~Уг=рг~Уг, У\ € П1, (8.38) и равен pit т.е. max (У, Ф;2/)/ = (У ;,Φ;2/ i)i = Рг· Следовательно, 1|7||=1 максимум в (8.36) равен pi и достигается, например, при f i = Уi, г= 1,...,АГ. Теорема 8.3.4. Пусть A\,...,AN — заданное измеримое разбиение X, причем μ(Αί) > 0, г = 1,...,7V. Решением задачи (8.32) наилучшего приближения изображения /(·) Ε £^ ДХ) изображениями 9{·) € £^ ДХ) (8.31) является изображение п7(д?) = Х>7(*Ы*) - Σ /-(/(x):/i)/Xi(:g), χ ex. (8.39) *=1 i=l II/ill? Операторы Ц: # -> 7^, i = 1,..., AT, и П: £^(Х) -> £J^(X) - нелинейные (зависящие от /(·) € С2 ι(Χ)) проекторы: IU проецирует в ΊΖ1 векторы }'(х) е ΊΖι, χ е Ai, на линейное подпространство 7Z1, натянутое на собственный вектор f{ оператора Ф; (8.37), отвечающий наибольшему собственному значению pi. iu7(x)= fi(f№'fa9 xeAi, i= 1 ЛГ. (8.40) II f II2 II/ill/ Оператор П проецирует в С2 t(X) изображение /(·) е £2μ1(Χ) на минимальное линейное подпространство €2μ1(Χ), содержащее все
8.3. Аппроксимация формы цветных изображений 207 изображения /г<7г(-)Хг(")> 5«(-) € £2μ(Αί), г = l,...,N. Невязка наилучшего приближения равна Ν Г и- - l|2 f м- м2 Ν 5 = Σ \\ί(χ)-τΐϊί(χ)\\άμ(χ)= \\f(x)\\άμ{χ)-ΣΡί. (8.41) Доказательство. Равенство (8.39) и выражение для Пг следуют из (8.31), (8.34) и решения задачи на собственные значения для оператора Фг (8.37). Поскольку Фг — самосопряженный неотрицательно определенный оператор, то задача на собственные значения (8.37) разрешима, все собственные значения Фг неотрицательны и среди них pi — наибольшее. Для доказательства свойств операторов Пг, г = 1,..., N, и Π введем обозначения, указывающие на зависимость от /(·): Пг^п/, П^ПЛ (8.42) Покажем, что для операторов Пг, г = 1,..., Ν, и Π выполнены равенства Пг · Пг = Пг и Π · Π = Π, или, более подробно, П?',/-д77(х) = Ц/7(х), xeAi, <= 1 JV; ^ пп7 .n7J(x) = n7J(x). Эти равенства, показывающие, что результат двукратного действия операторов Пг, г = l,...,iV, и Π (8.42) не отличается от результата однократного их действия, позволяют считать операторы (8.42) проекторами. Пусть /{ — собственный вектор оператора Фг, отвечающий его п77 максимальному собственному значению pi. Чтобы определить П^г , следует решить задачу на собственные значения для оператора Фг, определенного для любого цветного изображения У соотношением Фг'у = ί uj(x)(uj(x)9 V)i άμ(χ), у е ΊΖι. Ai Поскольку гапкФг = 1, Фг имеет единственное положительное собственное значение, которое, как нетрудно проверить, равно рг, и ему соответствует единственный собственный вектор /г. Поэтому ПгП/ f · Π/ ~]{х) = П/ · П/ J(x) = Π/ /(χ), хеАг, г = 1,..., N. Отсюда, в свою очередь, следует равенство (8.43) для П(у(.)). ■
208 Гл. 8. Морфологический анализ цветных изображений Напомним, что в разделе 8.1 символом СЕ1 был обозначен класс изображений из £?μ ν удовлетворяющих условию физической реализуемости. Справедливо следующее утверждение. Лемма 8.3.2. Для любого изображения f e СЕ1 решение (8.39) задачи (8.32) наилучшего приближения единственно и является элементом СЕ t. Доказательство. Достаточно доказать, что единственный (с точностью до положительного множителя) собственный вектор f i оператора (8.37), отвечающий максимальному собственному значению pi, можно выбрать так, чтобы (/(я), f{)i ^ 0 для μ-почти всех χ € Aiy г = 1,...,7V, поскольку в таком случае из f(x) € К ε будет следовать включение Ilif(x) е Ке, г = l,...,iV, которое в свою очередь влечет П/(х) е Ке, что и составляет содержание леммы. Здесь К ε — конус в ΊΖ1, выделяемый условиями физической реализуемости излучения, см. параграф 8.1. Действительно, если (f(x), fi)i ^ 0, χ G Ai (modμ), то согласно (8.37) Φ;/; = pifiE Κ ε, г = 1,...,7V, поскольку включение /(·) е СЕ1 означает, что f(x) е К ε для μ-почти всех χ е Х\ отсюда и из (8.40) получим, что Ylifix) е Ке, χ Ε X (modμ), г = l,...,iV, а поэтому и в (8.39) П/(х) е К ε и χ е X (mod μ). Убедимся в неотрицательности (/(#), Д)г ^ 0, хеХ (ηκχΐμ). В ортонормированном базисе ei,...,en, в котором (/(#), е»)г ^0 является выходным сигналом г-го детектора в точке χ е X, г = 1,..., / (см. параграф 8.1), задача на собственные значения (8.38) имеет вид ι ^2(^i)Pqyq = \г)УР,Р= l,...,i, где q=\ №i)Pq= \(ί(χ)>'ερ)ι(ί(χ)>'ες)ιάμ(χ), УР = (2/, "ер)«, ρ, q = 1,..., Ι. лг Так как матрица {{^i)Pq} — симметрическая и неотрицательно определенная, она имеет I неотрицательных собственных значений \г)\ ^ \г)2 ^ ··· ^ \г)1 ^ 0> которым соответствуют I ортонормирован- ных собственных векторов 2/βι,..., 2/«г, s= 1,...,/, а поскольку матричные элементы (Фг)рд ^ 0, р,q = 1,...,/, то согласно теореме Фро- бениуса-Перрона максимальное собственное значение λ(^ι = pi — алгебраически простое (некратное), а соответствующий собственный вектор можно выбирать неотрицательным: fu = у\\ ^ 0, ...,/^ = у и ^ 0.
8.3. Аппроксимация формы цветных изображений 209 Следовательно, вектор f i определен с точностью до положительного множителя и -> -> 1 -> (7(х), д)/ = 5^(7(х), ^р)/(л, ^р) ^ о, χ е χ р=1 Замечание 8.3.5. Если /(#) = Σ fi9i(x)Xi(x)> х € -X"» т-е- если г=1 аппроксимируемое изображение на множествах того же разбиения {Аг} имеет постоянный цвет, то в теореме 8.3.4 fi = ffit Ί'ξ\{9[{χ)Ϋάμ{χ), I,...,N. Α, Наоборот, если Π,/(χ) = /(χ), χ € At, г = 1, ...,7V, то 7(*) = 7i(7(*).7i)i/ii/iii?. ^4 г = 1,..., Ν, т. е. /(·) определяется выражением (8.31), в котором 9i(-) = (7(x)Ji)i/\\7i\\l г=1,...,АГ. Итак, пусть в изображении д(·) (8.31) все векторы /р..., /# попарно не коллинеарны, т.е. цвета на всех подмножествах Α ι,... ,Αν попарно различны. Тогда форма в широком смысле V(#(·)) = {/(·) -< 9(·)} изображения (8.31) есть множество решений уравнения П(7(>))7(ж) = 7(*). ^1 (mod μ), (8.44) где Π(7())7(ζ) = Σ (7i(7(xUi)i/\\7i\\i)xi(x\ xexJt- соб- ственный вектор оператора Φ;: Фг/; — J ί(χ)(ί(χ)ιίΐ)ιάμ(χ), от- вечающий максимальному собственному значению piy г = l,...,iV . В данном случае /(·) -<: #(·), если и только если выполнено равенство (8.44). Оператор Π (8.39), дающий решение задачи наилучшего приближения ~ ~ ω{||7(·) - 7(·)ΙΙ Ι 7(·) е v(g(·))} = ||7(·) - π?(·)ΙΙ. естественно отождествить с формой в широком смысле изображения #(·), приведенного в (8.31).
210 Гл. 8. Морфологический анализ цветных изображений 8.3.7. Приближение цветного изображения изображением с заданным набором значений вектора цвета. Рассмотрим следующую задачу наилучшего в €2μ1 приближения изображения /(•)е/£(: г .._> 9 _^ ..2 \\f(x)-^9i(^)^iXi(m άμ(χ) = = min (V ί \\7(χ)~οί(χ)φί\\2άμ(χ)\. (8.45) »=ι <"'* Рассмотрим вначале задачу (8.45), не требуя дополнительно неотрицательности яркости Qi(x) ^ 0, χ е Ai (mod μ), г = Ι,.,.,ρ. Так как для любого измеримого Ai с X rmjn \\/(χ)-9ί(χ)φί\\2ιάμ(χ) II {*(·)} ||7w-(/(!!,yi)l?ill ф(д) (8.46) 11 ll(£,|l2 Wu и достигается на 9i(x) = i/Mi^ili, ж € Ai> (8.47) INI? то, как нетрудно убедиться, L IIViH? Il^llf J (8.48) где звездочка * означает то же самое, что и в равенстве (8.27): точки Cf(x) ψ)ΐ (У(х) Ψ )l χ € Χ, в которых выполняется равенство ν ν_;'—— = ν VJ'—^-, W\i Ш1 могут быть произвольно отнесены к одному из множеств Ai или Aj. Пусть 7гг = V\ U £>2 U ... U Vq — разбиение П\ Т>{ Π Vj = 0, г ^ j, г, j = 1,... ,<?, в котором 1 ll^illi ll^jlli j (8.49)
8.3. Аппроксимация формы цветных изображений 211 a F: ΊΖι —> ΊΖ1 — оператор, определенный условием * / = — для j ет>г (8.50) Ρ tlli Тогда решение задачи (8.45) можно представить в виде (8.51) »=1 iVillf где Xi(-) — индикаторная функция множества Ai (8.48), г = 1,...,<?. Оператор, определенный в (8.51), действует из С2 ι в С2 1у а определенный формулой (8.50), действует из ΊΖ1 в ΊΖ1. В соответствии с договоренностью, обсужденной в п. 8.2.2, сохраним для этих операторов одно и то же обозначение F. Нетрудно убедиться, что задача на минимум (8.46) с условием физичности Qi{x) ^ 0, χ € Ai, г = 1,... , ς, mm \\f(x) -0i(s)Pi||z άμ{χ) = Ai имеет решение /ω U{y)Ui)t Ai iVill? ν, άμ{χ) (8.52) Λ(ι)_ί/Μ_< llVill? (f(x),fi)i HUH? o, a; € Л,. если (/(a;),Vi)i^0, если (f(x),<Pi)i <0, (8.53) Соответственно решение задачи (8.45) с условием физичности име- 6ТВИД - q (/(*), Ρ<),+Χ<+(*)?< *■+/(*) = £■ же Χ, (8.54) i=i HViHf где χ*(·) — индикаторная функция множества At = {* еХ:Щ^>Щ*£. i*i. j=l,..,q}\ \ы \<Pi (8.55)
212 Гл. 8. Морфологический анализ цветных изображений В ряде случаев для построения решения задачи (8.45) с ограничениями Qi{x) ^ 0, χ € Ai, г = \,...,q, полезно определить оператор F+: ΊΖι -^ΊΖι, действующий согласно формуле F+J(x) = J2{f(x)lPf'Pi, если7(*)е2?+ (8.56) i=i l|Vi||? где ъ.к^шаМъЩМ. i^-ι Л*. I \\V-W2 \\Ψ·\\2 ) 4 WriWi \\ψ3\\ι J так, что _^ АУ = {хеХ, 7(χ) е Vth i = 1,...,ς. (8.57) Подытожим сказанное. Теорема 8.3.5. Решение задачи (8.45) наилучшего в £2μ1 приближения изображения /(·) е С2 1 изображениями на искомых множествах A\,...,Aq разбиения X, заданных цветами Ψ\,...,Ψ4 соответственно, дается равенством (8.51), искомое разбиение А\,... ,Aq определено в (8.48). Требование физичности наилучшего приближения приводит к решению (8.54) и определяет искомое разбиение формулами (8.55). Решение (8.51) инвариантно относительно любого, а (8.54) — относительно любого, сохраняющего физичность, преобразования, не изменяющего его цвет. Формой в широком смысле изображения, имеющего заданный набор цветов Ψ\,...,Ψ(1 на некоторых множествах положительной меры A\,...,Aq разбиения поля зрения, можно назвать оператор F: £?μ1 —> £?μ1, определенный в (8.51); формой такого изображения является оператор F+, определенный в (8.56). Всякое такое изображение #(·), удовлетворяющее условиям физичности (неотрицательности яркостей), удовлетворяет уравнению F+ 9 (·) = #(·); те из них, у которых все μ(Α{) > О, г = 1,... ,q, изоморфны, остальные имеют более простую форму. Замечание 8.3.6. Пусть Ψ\,..., Ψ ν € К ε — исходный набор цветов, /(·) е £j;ι, Α\,...,Αν — соответствующее оптимальное разбиение X, найденное в теореме 8.3.5, и F/(.) = £ (/(О. У*)**(-)У* е С2^ (8>58) г=1 Н^г||г
8.3. Аппроксимация формы цветных изображений 213 — наилучшее приближение /(·). Тогда в равенстве (8.39) П/(·) = V М·)'·^)'*^·)^ = pj(-), (8.59) ll/ill? если ^i,..., An — исходное разбиение X в теореме 8.3.4. Наоборот, если А\,... ,Αν — заданное в теореме 8.3.4 разбиение X и f{,..., /^ — собственные векторы операторов Φ\,...,ΦΝ (8.37) соответственно, отвечающие максимальным собственным значениям, то /ь ..., f N е if^ и будет выполнено равенство (8.39), если в (8.58) определить Ψΐ как цвет /i в (8.39), г = 1,...,АГ. Проверка этого замечания не представляет затруднения. 8.3.8. Приближение цветного изображения изображением с конечным числом значений вектора цвета. Теоремы 8.3.4 и 8.3.5 позволяют сформулировать необходимые и достаточные условия наилучшего приближения изображения /(·) изображениями (8.31), при котором должны быть найдены /Р, дР(·) и А*}, г= 1,...,А/", такие, что Ν Ν mm /о - Σ /ift(-M·) = /(·)- Σ ^(Ш-) /г>5г(),Хг() г=1 г= 1 Теорема 8.3.6. Для заданного изображения /(·) определим множества Α\,...,Αν равенствами (8.48), оператор Π — равенством (8.39), #;(·)> ··· >9ν(·) — равенствами (8.34). Тогда множество *? = {* еХ: (/?JW)u(/gJW)i 11/г11г ll/fcllz определено равенством (8.48), β котором /f = /Р — собственный вектор оператора Ф; (8.37), отвечающий наибольшему собственному значению, причем в (8.37) Л* = ЛР; #Р(·) будет дано равенством (8.34), в котором ft = /Ρ, г = 1,...,ЛГ, где /Ρ — соб- ственный вектор оператора фР· = J f(x)(f(x), ·)ι άμ(χ), отвечаю- л°г щий наибольшему собственному значению pi, г = 1,... ,ЛГ; наконец, до{х) = (/?._/(*))* t д.е л°, < = 1,...,TV. II f°l|2 ll/illi
214 Гл. 8. Морфологический анализ цветных изображений Замечание 8.3.7. Следующая итерационная процедура полезна при отыскании {/?, #?(·). ^?}: для изображения /(·) зададим f^\...t /^ и по теореме 8.3.5 найдем А\ \...УА]^ и д[ \...,gN\ затем по теореме 8.3.4, используя А?\...,А%\ найдем 7ί2),...,/^ ид[2\...,д^\ После этого вновь воспользуемся теоремой 8.3.4 и по f\ ,---> fN найдем а\\...,А}/ и д\ \--,gN и т.д. Построенная таким обра- —► N —► зом последовательность изображений f^k\·) = Σ f\ 9i (')Xi (·)» k = 1,2,..., очевидно обладает тем свойством, что числовая последовательность ||/(·) — /^(·)||, fc = 1,2,..., монотонно не возрастает и, следовательно, сходится. К сожалению, ничего определенного нельзя сказать о сходимости последовательности {/^(')}· 8.3.9. Форма изображения с заданным распределением цвета ф(х), χ Ε X. Рассмотрим понятие формы изображения, заданного с точностью до произвольного, удовлетворяющего условиям физично- сти, преобразования яркости. Речь идет о форме изображения /(·) = — /(*)^(')> заданного распределением цвета ψ{χ), χ € X, при произвольном (физичном) распределении яркости, например, f(x) ^ 0, χ е X (modμ). Для определения формы /(·) рассмотрим задачу наилучшего в £2μ1 приближения изображения д(-) е £}μ1 такими изображениями: 5(-)-/(-Й-)Ц2= min {\\\ί(χ)-/(χ)φ(χ)\\2ιάμ(χ)\. /(•)>о I J J (8.60) Теорема 8.3.7. Решение /*(·)Ψ(·) задачи (8.60) дается равенством /•(•)g(-)=^M,?w-(?w;%fw· «*· »«') в котором /*(х) = -—-—— , где , (9,Ψ)ι, если (9,φ)ι > 0, 0, если {9,ψ)ι <0.
8.3. Аппроксимация формы цветных изображений 215 Невязка приближения S(9(·)) = \\9(·) — /(·)^(')ΙΙ2 равна sis™ = f fιι?(χ)ΐι? - (1м1ш!т) Мх)> х е Xt (8.62) {^ Ι|ν(χ)||? / Определение 8.5. Формой изображения, заданного распределением цвета φ(χ), χ € X, назовем выпуклый замкнутый конус изображений у(Я)) = {/(-М-)е4,г, /(·)><>}, или проектор Ft, на V(<£(·)), определенный формулой (8.61). Всякое изображение #(·), распределение цвета которого на поле зрения X дается функцией <£(·), и только такое изображение, содержится в ν(φ(·)) и является неподвижной точкой оператора Ft : Ft ?(·) = ?(·)- (8.63) (*(·)) (*(■)) Поскольку на самом деле детали сцены, передаваемые распределением цвета <£(·), не представлены на изображении /(·) = /(·)ψ(·) в той области поля зрения, в которой яркость f(x) = О, χ е X, будем считать, что Ft — форма любого изображения f (х) = f(x)<p(x), f(x) > О, χ е X (modμ), все такие изображения изоморфны, а форма всякого изображения #(·), удовлетворяющего уравнению (8.63), не сложнее, чем форма /(·). 8.3.10. Случай, когда допускаются небольшие изменения цвета в пределах каждого А^, г = 1,..., N. Разумеется, условие постоянства цвета на множествах Aiy г = 1,..., N, на практике может выполняться лишь с определенной точностью. Последнюю можно повысить как путем перехода к более мелкому разбиению {А?}, так и допустив некоторые изменения цвета в пределах каждого Aiy г = 1,...,ΛΓ, например, выбрав вместо (8.31) класс изображений Σ*(*)Σ^-(*)· хеХ> (8·64) i=l j=l в котором max ki < I.
216 Гл. 8. Морфологический анализ цветных изображений Поскольку в задаче наилучшего приближения /(·) изображениями вида (8.64) предстоит найти ζ f ij9ij(x)> x € X, г = Ι,.-.,Ν, векторы /гь···' fiki ПРИ любом г = 1,...,ΛΓ, можно считать ортогональными, определив д.^х) = Ш^1Ш9 xeAi, j = l,...,fci, г = 1,...,ЛГ, (8.65) II Г-Н2 lu г.? II/ из условия минимума невязки по {gij(·)}. После этого для каждого г = 1,... ,7V векторы fi{t..., /ifc. должны быть определены из условия 2 г^~ ' d^(x) ~ max (8.66) II f II2 / 7 II J ijul / J *o при дополнительном условии ортогональности (/^, /ip)/ = 0, j φ ρ, j,p = 1,..., ki. Решение этой задачи дается в следующей лемме. Лемма 8.3.3. Пусть У и, У и,..., У и ортогональные собственные векторы оператора Ф; (8.39), упорядоченные по убыванию собственных значений: ФхУхк = PikVik, k= 1,...,/, pi\ ^ pi\ ^ ... ^ рц(^ 0). Тогда решение задачи (8.66) дается равенствами /^ = У^, j = = 1,..., к{. Доказательство. Заметим, что поскольку Ф; — самосопряженный неотрицательно определенный оператор, его собственные значения неотрицательны, а его собственные векторы всегда можно выбрать так, чтобы они образовали ортогональный базис в ΊΖ1. Пусть Pi ортогонально проецирует в ΊΖ1 на линейную оболочку С^ = £(/^,..., fik.) собственных векторов /^,...,/^г и [Р^Ф^Р;] — сужение оператора РгФгРг на С^. Тогда левая часть (8.65) равна следу оператора [Р^гД]· где pj(Q) — j-e собственное значение оператора Q е (С^ —> С^) (см., например, [42]). ПуСТЬ Р1([РгФгРф ^ /92([Р<Ф<Р<]) ^ ... ^ pki ([«*·«]). ТОГДЗ С0ГЛЗС- но теореме Пуанкаре [42] #, = ^(Φ;) ^ /з,([Р»Ф»Р»]), j = 1,...,*;», откуда следует утверждаемое в лемме.
8.3. Аппроксимация формы цветных изображений 217 Воспользовавшись выражениями (8.65) и леммой 8.3.3, найдем, что в рассматриваемом случае имеет место утверждение, аналогичное теореме 8.3.4. Теорема 8.3.8. Наилучшее приближение любого изображения /(·) изображениями (8.64) имеет вид — N — uj(x) = YtuJ(x)Xi(x)9 хех, где Hi G (1Zl —> 1Zl) — ортогональный проектор на линейную оболочку С^ = C(f ц,..., fikt) собственных векторов задачи *t/ij = Pijfij* 3 = Ι,···,η, pi\ ^ pi2 ^ ... ^ pii, г= I iV. Невязка наилучшего приближения равна N к \7(χ)\\2ιάμ(χ)-ΣΈ^' Для практики представляет интерес случай, в котором класс изображений (8.64) определяется значением N = I. Речь идет о представлении цветного изображения в виде «векторной комбинации полутоновых изображений» Σ /·&(·). (8.67) i=l в которой при заданном к ^ I требуется определить векторы f \>··· > f к ^К1 и «полутоновые изображения» 5ί(·), ...,^(·) G £^(Х) так, чтобы среднеквадратичная невязка приближения цветного изображения /(·) изображениями (8.67) s = г=\ l (8.68) была минимальна. Поскольку векторы /ι,·..,/&, очевидно, можно считать ортонормированными, минимум невязки (8.68) по ^ £ С^(Х)У г = 1,..., к, достигается на 9г = (/(·)- /*(·))«. »= 1,...,*:. (8.69)
218 Гл. 8. Морфологический анализ цветных изображений В свою очередь, используя (8.69) и применяя лемму 8.3.3, найдем, что искомые векторы /i,...,/fc суть к ортонормированных собственных векторов следующей задачи на собственные значения: *fi = Pifi> в которой ФгУ = 1.....I, Р\ >Р\ >·..^ρι>0, (8.70) f{x){f{x\y)dp{x), У еП1. (8.71) Соответственно минимальное значение невязки (8.68) дается равенством |2 _ к I \Υ(χ)\\Ζιάμ(χ)-^2ρί= Σ Ρ*' i=k+\ (8.72) г=1 Лемма 8.3.4. При каждом фиксированном k ^ / невязка (8.68) приближения цветного изображения /(·) изображениями (8.67) достигает минимального значения (8.72) при #г(0> г = l,...,fc, определенных равенствами (8.69), в которых /ι,-..,/jfc — ортонор- мированные собственные векторы задачи на собственные значения (8.70) для оператора (8.71). Эти результаты позволяют определить эффективную (цветовую) размерность цветного изображения. Пусть Ck — fc-мерное линейное подпространство ΊΖ1, к ^ /, /(·) — цветное изображение и /^(0 — ортогональная в ΊΖ1 проекция /(·) на £ь точнее, /^(я) — ортогональная в 1Z1 проекция f(x) на Ck при каждом χ е X. Изображение /(fc)(") ~~ наилучшая в С? { аппроксимация /(·) изображениями, принимающими значения в Ck'. S(f(-)Xk) \f(x)~ f (k)(x)\\i dp>(x) inf < tf χ i|2 f(x) - 0(aO||, άμ(χ)\9(·) G C%h 9(x) G £b χ G XV. (8.73) Для каждого фиксированного А; = 0,1,...,/ определим наименьшую ошибку аппроксимации /(·) его fc-мерной ортогональной проекцией ^(/(■)) = inf{ί(7(0. Α): А С К1}. (8.74)
8.3. Аппроксимация формы цветных изображений 219 Определение 8.6. Эффективной размерностью цветного изображения /(·) назовем функцию &(·): [0,оо) —> {0, 1,...,/}: к(е) = min{/c | £*(/(·)) < ε}, 0 < ε ζ οο. (8.75) Если точная нижняя грань в (8.74) достигается на £{£, то ортогональная в 1Ζ1 проекция /це)(·) изображения /(·) на С°к приближает /(·) в С? { со среднеквадратичной ошибкой £&(/(·)), не превосходящей среднеквадратическую ошибку аппроксимации изображения /(·) любой его fc-мерной ортогональной проекцией /fc(-)> а Λ(ε) — минимальная размерность ортогональной составляющей изображения /(·), приближающей его со среднеквадратичной ошибкой, не превосходящей ε. Теорема 8.3.9. Точная нижняя грань в (8.74) достигается на линейной оболочке C°k = C(f {,..., f к) собственных векторов задачи (8.70), к = 1,...,/. Эффективная размерность к(-) цветного изображения /(·) равна *(е)=(1Ып{*1^1«<4 если η* ε, Q ^ £ < ^ ( /, если ρι > ε, где р\ ^ р2 ^ ... ^ pi — собственные значения (8.70). Соответственно ~~i II f II2 г Σ гш*).лк 2 j=fc(e) + ljt II/j lli 2 d^(x) ^ ε, причем для всякого ε ^ 0 размерность к (ε) ортогональной составля- юцей /fc(e)(·) = Σ (/(·)» /j)«ll/jlli /j. приближающей в €2μ1 изоб- ражение /(·) со среднеквадоратичной ошибкой, не превосходящей ε, Доказательство теоремы легко извлекается из леммы 8.3.4. В заключение этого раздела сделаем замечание, важное для практики. Замечание 8.8. Так как f(x) = (/ι(χ),..., fi(x))> где fi(x) — выходной сигнал г-го детектора в точке χ е X, причем fi(x) ^ 0, г = 1,...,/, и, следовательно, цвет φ(χ) = (φ\(χ),..., φι(χ)) реальных изображений
220 Гл. 8. Морфологический анализ цветных изображений непременно имеет неотрицательные координаты φ\(χ),... ,φι(χ), то для реальных изображений fix) = <p(x)f(x), x e X, условия f(x) ^ 0, χ е X и fi(x) ^ 0 , ψϊ{χ) ^ 0, χ е X, г = 1,...,/, эквивалентны. Если же для некоторого г е {1,...,/} ψχ{χ) = 0, то условие f(x) ^ 0 не влечет fi(x) ^ 0. Заметим также, что для изображений #(·), удовлетворяющих условию Qi(x) ^ 0, χ е X, г = 1,...,/, всегда (9(х), Ψ(χ))ϊ ^ 0, χ G X. Например, для спектрозональных изображений характерна ситуация, при которой к детекторов регистрируют рассеянную объектами солнечную радиацию в диапазоне видимого света, а остальные I — к регистрируют собственное тепловое излучение объектов (в инфракрасном диапазоне). В таком случае любое изображение можно представить разложением 1{х) = Ψ ι (x)fi (x) + Ψ2{χ)ί2{χ), ^1, (8.76) в котором ^ι(-) = (^ιι(-) ^ifc(-).0 0), ^2(·) = (0 0,^2fc+l(·) ^2ΐ(·)). (<Ρ\(·),Ψ2(·))ι = 0, χ е Χ. Если инфракрасной (ИК) составляющей солнечного излучения можно пренебречь по сравнению с собственным излучением объектов, то представляет интерес задача приближения изображениями /(·), в которых /ι(·) — любая неотрицательная функция из £^, Ψ\(·) — фиксированное векторное поле цвета, /2(·) — термояркость, Ч>2(·) — термоцвет в точке χ е X. Форма Π - видимой компоненты /(·) (8.76) определяется как оператор наилучшего приближения в задаче min ||?(·) - £,(·)/.(·) - ν2(·)/2(·)|| = Ρ(·) - Ι\ 7?(·) - £2(·)/2(·)||. в данном случае Ψΐ(χ)(9(χ),φί(χ))ι Π -?(*) = ^UW^iWl[ χ e χ vJ \\Ψι(χ)\\ί причем П - действует фактически только на «видимую компоненту» #(·), обращая «невидимую, ИК, компоненту» д(·) в ноль. Форма ИК компоненты /(·) может быть определена лишь тогда, когда известно множество возможных преобразований ^гОЖ*)·
8.4. Форма цветного изображения 221 8.4. Форма цветного изображения как оператор наилучшего приближения в чебышевской метрике В некоторых задачах анализа изображений расстояние р(д(·), /(·)) между цветными изображениями д(·) и /(·) естественно определять не в топологии С2 г, а путем их «поточечного сравнения», например, полагая _^ _^ Р(5(·)- /(·)) = sup \\g(x) - f(x)\\l (8.77) хех Рассмотрим вопрос о представлении формы цветного изображения как оператора наилучшего приближения в этом случае [79, 80]. Под цветным изображением далее будем понимать произвольную ограниченную функцию, определенную на X и принимающую значения в 1Z1, т.е. /(·): X —> ΊΖ\ sup ||/(#)||^ < оо. Класс всех цветных изображений хех обозначим М(Х) = М. Пусть F — класс всех функций F(·): ΊΖ1 —> ΊΖ1. Отношение «-<» определим следующим образом: д(-) -< /(·), если д(х) = F(/(#)), χ е X, для некоторой функции F(·): ΊΖ1 —> ΊΖ1. При таком определении изображение д(·) сохраняет на некотором подмножестве поля зрения X постоянные яркость и цвет, если на этом подмножестве имеет постоянные яркость и цвет изображение /(·). В этом смысле форма д(·) не сложнее, чем форма /(·). Соответственно форму V(/(·)) изображения /(·) определим равенством V(7(·)) = {0(·) е Μ: ?(·) -< /(.)} = {η7(·))>П) е f}, /(•)еД (8.78) согласно которому представление формы /(·) посредством оператора наилучшего приближения Р- следует определить как решение задачи на минимум: Р(5(·). (Р7. .)?(·)) = sup \\-g(x) - (Р7 -д)(х)\\* = = minsup||?(x)-F(7(x))||?f ? G Μ (8.79) причем, поскольку решение задачи (8.79), вообще говоря, не единственно, необходимо уточнить, что будем понимать под изображением (Р7 ?)(*), *ех.
222 Гл. 8. Морфологический анализ цветных изображений Так как для любого изображения 9 (·) е Μ mnsup||?(x)-F(7(x))||2 = FeFxeX = min sup sup \\7(x)-F(7)\\2l^ 7eQ7(X)xey~\7) ^ sup min sup \\g(x) - F(?)||?, (8.80) reQ7(X)FeFxeJ-\7) где Q^(X) = {f(x),x e X} С ΊΖ1 — множество значений /(·): Χ —> 7£г, и /_1(г) — {χ ^ ^> f(x) — г} ~~ полный прообраз г е Q^(X), то решение F*(·) задачи min sup ||^Ы-F("r)||? = fgf --ι _ "G/ (Г) = sup \\~9(x)-F,(7)\\l ~9{-)eM, (8.81) xe] (7) найденное для каждого ~г е Q-(X), даст и решение задачи (8.79), ибо sup \\~д(х) - F(7(x))||? ^ min sup \\~д(х) - F(7(*))||? = = sup sup ||?(x) - F*(?)||? = sup ||?(x) - F,(7(x))||f, где последнее неравенство — следствие (8.80). Ниже будет показано, что задача (8.81) для любых /(·), д(·) е е Μ имеет единственное решение, что дает возможность определить оператор Р- . Поэтому формой изображения /(·) е Μ назовем оператор Р- : Μ —> Μ наилучшего приближения (Р- ^)(х) = F*(/(:r)), же!, где Ρ*(7) — решение задачи (8.81), дающий решение задачи (8.79), ~r e g Qy(X). Заметим, что поскольку F — класс всех функций F(·): ΊΖ1 —> 7£г, задача (8.81) эквивалентна задаче d(r, /г) = sup \\9(х) — h\\2 ~ хе7 (7) ~ min , в которой левая часть в точке минимума имеет простую
8.4. Форма цветного изображения 223 геометрическую интерпретацию: d(r, h*) = min d(r, fo) есть радиус _^ lien1 минимального шара в ΊΖ1 с центром в h* ΕΊΖ1, содержащего множество _j _j С(г) = ?(/ (г)) = {?(*),* е 7 (г)} = = {?(*) g тгг, χ g х, 7(») = ~г}> ? ^ q-(x). В задаче (8.81) требуется найти центр /г* = h(9(·), r) минимального шара, содержащего G(r), указав функцию F*(·): 7£г —> 7£г, такую что ft* = F*(r). Если задача (8.81) решена, то, выбрав χ е X и положив ~r = fix), найдем решение задачи (8.79): (Ру(ш)~9)(х) = Л(?(·), 7(*)), * € X, (8.82) и форму Р- изображения /(·). Рассмотрим вопрос о существовании и единственности решения задачи (8.81). Лемма 8.4.1. Пусть #(·): Χ ^ ΊΖ1 — ограниченная функция. Тогда при любом г е Q^(X) задача (8.81) имеет единственное решение ft = h(9(-)t~r). Доказательство. Покажем, что при любом фиксированном г е е Q^(X) d(r, ft), /ι Ε^, — сильно выпуклая непрерывная функция. Легко проверить, что для любых χ е Χ, /ιι,/ΐ2^^ и aG [0,1] \\9(х) - ah\ - (1 - a)h2\\2i = = а\\9(х) - ft ι||? + (1 - а)\\9(х) - ft2||? - «(1 - а)||ft i - ~h2\\l т.е. при любом χ е X функция \\9(х) - ft||?, ft G ΊΖ\ сильно выпукла. Далее: d(r,ah\ +(1 -a)h2) = sup \\9(x) - ah\ + (1 -aOft2||? ^ xej (7) ^ a sup \\9(x) - fti||?+ + (1 - a) sup ||?(ж) - ft2||? -a(\- a)\\hi - ft2||? = *e7 (7) = ad(7, ft i) + (1 - a)d(r, ft2) - ol{\ - a)|| ft ι - ft2||f, ^ e Qj(x)>
224 Гл. 8. Морфологический анализ цветных изображений следовательно, d(r,h), h Ell1, — сильно выпуклая функция при любом г* е Q^(X). Наконец, так как 0(х) ~ ΛιΙΙ? < \\9(х) ~ Л2||? + 2||?(ж)||?||Л1 - Л2||? + ||Λι||? - ||Л2||?, то (d(r, Л ι) - d(r, ϊ2))2 < 2 sup ||?(ж)||?|| Λι - Лг||? + II Λι II? - IIfoil?, и, следовательно, функция d(r,ft), h £ 7£г, непрерывна при любом фиксированном г е Q-(X). Теперь осталось отметить, что для непрерывной сильно выпуклой функции d(r, ft), ft G 7£г, задача (8.81), как известно [8], разрешима и ее решение единственно. Форма (8.78) цветного изображения /(·) в чебышевской метрике представляется оператором наилучшего приближения (8.82). 8.5. Задачи морфологического анализа цветных изображений Рассмотрим вначале задачи идентификации сцен по их изображениям, неискаженным поворотами, изменениями масштаба и другими геометрическими преобразованиями. Ограничимся задачами, в которых предъявляемые для анализа изображения получены при изменяющихся и неконтролируемых условиях освещения и при неизвестных и, вообще говоря, различных оптических характеристиках сцены. 8.5.1. Задачи идентификации при произвольно меняющейся интенсивности освещения. Пусть заданы изображения /(·) и д(-) и требуется ответить на следующий вопрос: можно ли считать /(·) и д(·) изображениями одной и той же сцены, возможно, отличающимися лишь распределениями яркости, например, наличием теней? В простейшем случае /(·) и д(·) можно считать изображениями одной и той же сцены, если существует распределение цвета φ(χ) е ΊΙι, χ е X, для которого V(<£>(·)) содержит /(·) и д(·). Если Xl7 = {X,f(X) Ф0,9{х)ф0} и ^ = fg
8.5. Задачи морфологического анализа цветных изображений 225 для всех χ е Х~ _, то, очевидно, существует ψ(χ), χ 6 X, при котором 7(х) € е ν(φ(-)), 7 (χ) е ν(φ(·)), а именно, ψ{χ) = γττ = Щ, х G G Х7~, Ψ(χ) = 4т4, если f(x) ф 0, Ψ(χ) = ^ή-, если g(x) φ О, *,g J\x) 9\x) и, наконец, φ {χ) произвольно, если g(x) = f(x) = 0. На практике удобнее использовать другой подход, позволяющий одновременно решать задачи совмещения изображений и выделения объектов. На вопрос, можно ли считать #(·) изображением сцены, представленной изображением /(·), следует дать утвердительный ответ, если 6(H-))=\\-9(-)-F+{.)H.)\f = хех, f(x)>o |5(aO-F+()?(aO||*cMz)~0. Здесь φ{·) — распределение цвета на изображении /(·), символ «~ 0» означает, что значение δ(9(·)) можно объяснить наличием шума, каких-либо других погрешностей или, наконец, наличием или, наоборот, отсутствием объектов, объясняющим несовпадение g (·) и /(·) с точностью до преобразования распределения яркостей. Такие объекты, изменившие распределение цвета #(·) по сравнению с распределением цвета /(·), представлены в изображении (#(·) — F+- #(·)). 8.5.2. Задачи совмещения изображений и поиска фрагмента. Пусть /(·) — заданное изображение, А с X — подмножество поля зрения, ха(·) — его индикатор, \a(-)/(·) назовем фрагментом изображения /(·) на подмножестве А, представляющем выделенный фрагмент сцены, изображенной на /(·). Пусть д (-) — изображение той же сцены, полученное при других условиях, в частности, например, сдвинутое, повернутое, т.е. геометрически искаженное по сравнению с /(·). Задача состоит в том, чтобы указать на д (·) фрагмент изображения, представляющий на /(·) фрагмент сцены, и совместить его с ХлШ(-). Ограничимся случаем, когда упомянутые геометрические искажения можно моделировать группой Г преобразований ΊΖ2 —> ΊΖ2. Обозначим Га множество преобразований из Г, для которых ηΑ с X, 8 Ю. П. Пытьев, А. И. Чуличков
226 Гл. 8. Морфологический анализ цветных изображений и преобразование изображения 9 —> η 9: η9 ух) = < X G Л, I О, 7"W*> назовем сдвигом #(·) на 7, 7 £ ΓΆ. Здесь Q(7), 7 £ ΓΆ, — оператор, действующий из ΊΖ1 в 1Z1. В задаче выделения и совмещения фрагмента рассмотрим фрагмент сдвинутого на 7 ^ Г^ изображения д(-) в «окне» А* Q(7)s(7~4xa(*), хеХ. (8.83) Если, кроме цвета, #(·) может отличаться от /(·), скажем, произвольным преобразованием распределения яркости при неизменном распределении цвета и F+((x^(-)^(*))) — форма фрагмента /(·), то задача выделения и совмещения фрагмента сводится к следующей задаче на минимум: = min [ ||F+ уЛ(х)7?(х) - χΑ(χ)ΊΊΪ(χ)\\ΐ<1μ(χ). (8.84) A При этом считается, что фрагмент изображения #(·), соответствующий фрагменту χλ(·)/(·), будет помещен в «окно» Л путем соответствующего сдвига 7 = 7*» совпадает с χλ(·)/(·) с точностью до некоторого преобразования распределения яркости на нем. Это означает, что F+ (^(Ύα{')ί'9{·) = Χα{')ί'9{'), Χα{·)Ψ{·) т.е. в (8.84) при 7 — 7* достигается минимум. 8.5.3. Задача анализа спектрозональных изображений. Пусть требуется выделить объекты, которые «видны», скажем, в первом канале и «не видны» в остальных. Рассмотрим два изображения: /(1)(·) = (/β,(·).0,.·.,0) И 7(2)(·) = (0,/β2(·),-,/β!(·))· Определим форму в широком смысле как множество всех линейных -(2) -(2) _(2) преобразований / (·): £(/ (·)) = {Af (·), А е (П1 -> П1)}, т.е.
8.5. Задачи морфологического анализа цветных изображений 227 А — линейный оператор, не зависящий от χ е X. Для определения -(2) проектора на £(/ (·)) рассмотрим задачу на минимум: Г-0) -(2) / (x)-Af (χ)\\{άμ(χ) = Χ = mm Ae(nl-+nl) J χ / -(1) 0 -(2) -(1) (II/ (x)||?-2(A/ (x\f (*)),+ -(2) -(2) + Пусть в e(nl -* тг*), б? = (Af (x),Af (χ))ήάμ(χ). (8.85) ρ _>(2) -(2) / (x)(f (ж), 9)ιάμ(χ), 9 G ftL, тогда задача на минимум (8.85) эквивалентна следующей: tiA*AS-2tiAB~ min Ae(nl-+nl) Ее решение имеет вид А = B*S~, где В*= I I . I (0,/ea(x),...,/ei(x))dM(x) = χ V о у X /О /«(*) о о \о о /е,(*)\ О о 7 άμ(χ), χ ( о \ /е2(^) \fe,(x) J (0,fe2(x),...,fei(x)) άμ(χ) /О χ О О \ О fe2(x)fe2(x) ·.. fe2(x)fei(x)0 \0 fei(x)fe2(x) ..· fei(x)fei(x) ) άμ(χ).
Часть V ПРИКЛАДНЫЕ ЗАДАЧИ Глава 9 ПРИМЕРЫ РЕШЕНИЯ ЗАДАЧ МОРФОЛОГИЧЕСКОГО АНАЛИЗА ИЗОБРАЖЕНИЙ Морфологические методы нашли широкое применение на практике. В этой главе приводятся примеры решения задач, в которых понятие формы изображения играет основную роль. 9.1. Морфологическое подавление случайного шума Одной из важнейших проблем анализа сигналов, наблюдаемых в шуме, является проблема фильтрации, т.е. отделения сигнала от шума. Широко распространены методы фильтрации на основе информации о распределениях полезного сигнала и шума или об их моментах, однако в ситуациях, когда речь идет об изображениях тех или иных объектов, такой подход не всегда оказывается адекватным, поскольку как изображения объектов, так и фона не имеют стохастической природы. Кроме того, если говорить об оптимальной фильтрации типа винеровской [44], то поскольку в шуме, как и в сигнале, как правило, присутствуют высокочастотные составляющие, то они в результате фильтрации так или иначе подавляются, и отфильтрованное изображение теряет резкость. Морфологический подход к этой проблеме позволяет предложить алгоритм фильтрации шума, не ухудшающий резкости изображения. Опишем этот алгоритм, основываясь на работе [47]. 9.1.1. Подавление шума на кусочно постоянном изображении. Рассмотрим кусочно постоянное изображение N q(x) = ^2cjXj(x)1 xeX, (9.1)
9.1. Морфологическое подавление случайного шума 229 заданное на дискретном поле зрения X = {х\,... ,хп}. Изображение q(·) имеет постоянную яркость Cj на каждом из множеств Aj, μ{Α^) > > О, j = 1,..., Ν, образующих разбиение поля зрения X С 1Ζ2: X = N = (J Aj, Aj Π Ak = 0, Cj Φ с*;, если j'φ к; j, k = l,..., N. Мера μ(Α^) множества Aj равна числу точек поля зрения, содержащихся в Aj, Пусть предъявлено изображение fOzi) = q(xi) + v(xi), XiEX, z=l,...,n, (9.2) где ζ/ = (ζ/(χι),..., ν (χ η)) = (у\,..., ζ/η) G ΊΖη — случайный вектор погрешности с нулевым математическим ожиданием и ковариационным оператором σ2/, и требуется отфильтровать изображение q e ΊΖη от шумового сигнала и. Наилучшей оценкой изображения q в (9.2) является средняя яркость изображения ξ по областям Aj, j = l,... ,7V. Если априори множества Aj, j = Ι,...,Ν, неизвестны, то оценка яркости qixi) изображения q(-) в каждой точке Х{ е X, г = I,... ,п, может быть получена усреднением яркости изображения ξ по области H(xi) с X, содержащей точку xit если во всех точках H(xi) математическое ожидание яркости изображения ξ не зависит от χ е H(xi), т.е. если множество H(xi) целиком содержится в некотором Aj. Эффективно подавить шум можно, если для каждой точки Xi e X выбрать такую область H(xi) на основании наблюдения изображения £(·), г = I,...,п. Пусть известна область Η С 7^2, которую для каждого Xi e X, г= 1,...,п, можно сдвинуть так, чтобы, с одной стороны, она содержала точку χ^ е Aj с X и, с другой стороны, целиком помещалась в области Aj. Любую такую область, имеющую максимальную меру μ(Η), назовем подвижным шаблоном и рассмотрим следующий алгоритм шумоподавления: 1. Для точки Xi e X отмечаются все положения подвижного шаблона Η на поле зрения X, при которых он остается в пределах X и содержит Xi, г = 1,... ,п. 2. Для каждого отмеченного положения Η вычисляются средняя яркость с(Н) изображения ξ (9.2) по Я и среднеквадратичная погрешность δ(Η) = Σ — /rr\ » где М^О — число точек области Η (будем считать для простоты, что сдвиги не изменяют меру μ(Η) > 0). 3. Среди отмеченных выбирается то положение шаблона Η на X, при котором δ(Η) принимает минимальное значение, и точке Xi e G X приписывается яркость с(Н), соответствующая выбранному положению Н.
230 Гл. 9. Примеры решения задач морфологического анализа Если такой процедуре шумоподавления подвергнуть кусочно постоянное изображение <?(·), то результат совпадет с исходным изображением q(·). Если фильтруется изображение £, сформированное согласно схеме (9.2), искаженное небольшим по сравнению с min|Q — Cj\ шу- мом, то при тех положениях подвижного шаблона Я, при которых Я целиком помещается в области Aj Э Х{, невязка δ(Η) скорее всего окажется меньше, чем для положений Я, при которых Я имеет непустое пересечение с несколькими областями А^,,..., Ajm. Поясним сказанное на примере. На рис. 9.1 приведено положение фрагмента Я на изображении, имеющем три уровня яркости. В ситуации, изображенной на рис. 9.1, а, усреднение яркости изображения q по фрагменту Я приведет к тому, что средняя яркость фрагмента будет равна сз, она в точности равна яркости всех точек Я и, в частности, яркости точки х. Если сдвинуть множество Я так, чтобы оно по-прежнему содержала точку ху но не помещалась бы целиком в область поля зрения яркости сз, как это показано на рис. 9.1, б, то средняя яркость q, вычисленная по Я, отлична от всех яркостей изображения q на Я. Следовательно, алгоритм припишет точке χ то усредненное по Я значение яркости q, которое соответствует рис. 9.1. Добавление небольшого шума к изображению q приведет к тому, что средние яркости фрагментов Я изменятся на среднюю величину случайной составляющей и решение останется прежним, если усредненный шум по модулю меньше абсолютной величины перепадов яркостей \а — Cj|, г, j = 1, 2, 3, г φ j. Дадим формальное описание этого алгоритма. Рис. 9.1. Различные положения подвижного фрагмента на поле зрения X Зафиксируем некоторое подмножество Я с X, выберем класс G преобразований плоскости ΊΖ2 и обозначим Gh подмножество преобразований из G, не выводящих множество Я за пределы X: GH = {7e G, ΊΗ С X}. N Пусть X = (J Aj, Aj Π Ak = 0, jyk = 1,..., А/", а класс преобразо- ваний G плоскости ΊΖ2 и подмножество Я с ΊΖ2 таковы, что для всякой
9.1. Морфологическое подавление случайного шума 231 точки χ е Aj найдется такое преобразование 7 £ £?#, для которого выполнены соотношения χ е ηΗ С Aj, j = 1,..., TV. Это условие назовем условием согласованности шаблона Η и разбиения А\,..., Ду, или коротко, условием согласованности. Рассмотрим изображение ΨΊΛχ) = с*7#(я), х е X. Это изображение равно константе с на подвижном фрагменте jH поля зрения X и равно нулю всюду вне его. Зафиксируем точку χ е X и обозначим G(x) = {7 £ С?я, # £ 7^} множество преобразований 7 из Ся, которые так преобразуют подмножество Я, что точка χ покрывается преобразованным шаблоном ηΗ. Это множество не пусто в силу условия согласованности. Усредним яркость изображения q по множеству ηΗ, 7 £ £?(ж), и минимизируем отличие этой усредненной яркости от q(x) выбором преобразования 7 £ С?(ж), для чего решим задачу на минимум: mi{\\XlH(q - фъс)\\ \сеП\ je G(x)}. (9.3) Обозначим ψχ(-) = ψΊ,ο{') = cXjh(·) решение задачи (9.3) и определим оператор Ф, действующий на каждое изображение ξ = (fi,...,£n) = = (ξ(χ{),...,ξ(χη)) е ΊΙη по формуле Щ(х) = ψχ(χ), χ е X. Тогда если выполнены (9.1) и условия согласованности, то Фд(дг) = = q(x)y χ Ε X, т. е. фильтрация ς —> Φ ς не искажает изображение q. Идея фильтрации с помощью оператора Φ изображения £ = q + ζ/ может быть пояснена следующим образом. Если фильтруемое изображение ξ е ΊΖη представляет собой искаженное шумом изображение вида (9.2), то яркость Ф£(#) каждой точки отфильтрованного изображения Ф£ е ΊΖη представляет собой среднее значение зашумленного изображения £(·) по случайному множеству Н(х), на котором достигается наилучшая аппроксимация изображения Рис. 9.2. Не искаженный шумом сигнал
232 Гл. 9, Примеры решения задач но фологического анализа ,. .,. „ +. т._ ^.- ί 4 ' 3 2 1 О -1 2 -3 4 О 1 1 I 'ill .!...,..} .1 5 6 7 8 9 10 1 12 13 14 15 16 17 18 Η Γ I I -2 -3 ' -4 0 61 4 3 1 0 1 2 -3 4 ■ » ■ ■ ■ I ■ ■ ■ ρ ■ ■ ■ ρ ■ ■ ■ I ■ ■ ■ ρ ■ ' Щ ' ■ ■ 1 ' ' ■ Ρ" 'Г ^ 2 3 4 5 6 7 8 9 О 11 12 13 14 5 16 17 18 I I ■ I 1 I I '■I 0 1 2 3 4 о 6 7 8 9 10 1 12 13 1 15 16 17 18 Рис. 9.3. Результаты фильтрации, а — скользящее среднее, б — медианная фильтрация, в — мо фологическая фильтрация. Размер окна равен 5 уел, ед. ша ло оси абсцисс — 0,01 усл. ед.
9.1. Морфологическое подавление случайного шума 233 £(·) изображением постоянной яркости. Ясно, что если на некотором множестве Н(х) функция q(·) принимает значение, равное константе, то вероятность достичь минимума в задаче аппроксимации на этом множестве выше, чем на множестве Н(х), на котором функция q(-) может принимать несколько разных значений. В этом случае при усреднении по множеству Н(х) шум в точке χ на изображении Ф£(·) будет подавлен по сравнению с шумом изображения £(·) в этой же точке. На рисунках 9.2-9.3 приведен пример морфологической фильтрации зашумленного изображения, заданного на одномерном поле зрения, представляющем собой отрезок длиной 18,5 усл. ед., размер пикселя равен 0,01 усл. ед. Исходный кусочно-постоянный сигнал изображен на рис. 9.2, он равен нулю всюду, кроме участка от 5 до 10 усл. ед., на котором его значение равно 2 усл. ед., в результате регистрации он искажен шумом с дисперсией, равной 5 (усл. ед)2; результат регистрации изображен на рис. 9.3 линией серого цвета. Результаты фильтрации изображены линией черного цвета. На рис. 9.3, а, приведен результат фильтрации методом скользящего среднего, на рис. 9.3, б, — методом медианной фильтрации, на рис. 9.3, в, — морфологическим методом фильтрации. Размер окна всюду равнялся 5 усл. ед. 9.1.2. Подавление шума на произвольных изображениях. Если известно распределение шума ζ/, искажающего изображение q при регистрации (9.2), то описанный в п. 9.1.1 метод можно усилить, если в качестве областей Н(х)> по которым происходит усреднение яркости изображения £, использовать наибольшую (по включению) подобласть X, обладающую следующим свойством: надежность гипотезы о том, что исходное незашумленное изображение q почти всюду на этой области равно константе: q(x) — const, χ e Η (χ), не меньше αο· Опишем этот алгоритм формально. Пусть изображение сцены регистрируется согласно схеме ξ(χί) = qixi) + v(xi), ΧΐβΧ, г=1,...,п. (9.4) Здесь изображение q, заданное набором значений в η узлах Х{, г = 1,... ,п, поля зрения X, рассматривается как вектор евклидова пространства ΊΙη, априори произвольный. О шуме ν е ΊΙη будем полагать, что он имеет нормальное распределение с нулевым математическим ожиданием и ковариационным оператором Σ = σ2Ι\ ν ~Λ/"(0, σ2Ι). Наиболее эффективное подавление шума в точке χ е X произойдет в том случае, когда выбирается максимальное (по числу точек) множество Нх, на котором изображение q(·) равно константе, и яркость отфильтрованного изображения в точке χ (или, в другом варианте, на всем множестве Нх) полагается равной средней яркости изображения ξ
234 Гл. 9. Примеры решения задач морфологического анализа по области Нх. Если в (9.4) ν = О, то в результате такой процедуры шумоподавления получается изображение qe ΊΖη: q(xj) = q(xj). Для выбора множества Нх для каждого узла Xj е X, j = 1,...,п, поступим следующим образом. Для некоторого непустого подмножества Нх. С X, содержащего точку Xj е X, рассмотрим задачу проверки статистической гипотезы о том, что идеальное изображение q(-) на подмножестве HXj равно константе, а в остальных точках произвольно: q{x)=cX]XHxj{x) + {\-XHX]{x))<p{x), <р(-)еПп. (9.5) Альтернатива состоит в том, что яркость изображения q(·) на подмножестве HXj отлична от константы. Опишем симметрию сформулированной задачи. Рассмотрим ортогональный проектор П#х е (ΊΖη —>1Ζη), который каждому изображению / G ΊΖη ставит в соответствие изображение χπχ. (·)/(*): uHXjf(x) = XHXj(x)f(x), χ еХ = {χ\,...,χη}· Пространство значений этого оператора обозначим £#х. с Пп. Кроме того, определим ортогональный проектор Рнх. в 1Ζη на вектор χ#χ е е 1Ζη, действующий на любой вектор q e ΊΖη по формуле (я. Хнх.) Н^Ч= \\уи \\2ХН^' WA^xj II Гипотеза и альтернатива инвариантны по отношению к преобразованиям математического ожидания Εξ = q e 1Zn вектора ξ вида 7(<?) = Unx.q + Ь,нх , где Uhx. — ортогональное преобразование, оставляющее инвариантным пространство Снх. и такое, что UhxXhx. = Хнх., a h e Cjjx . Воспользовавшись подходами, описанными в приложении, п. 5.5, построим наиболее мощный инвариантный критерий проверки представленной гипотезы и вычислим ее надежность: «я., (0 = 1- nkj (а-2||(Пя,. - PHxj )ξ\\2) , (9.6) где число kj степеней свободы распределения Пирсона равно kj = = μ(ΗΧ5) — 1, μ{ΗΧ;}) — число точек множества HXj. Надежность анх (ζ) при верной гипотезе имеет равномерное на [0,1] распределение, а при верной альтернативе — распределение с плотностью, неограниченной в нуле. Множество HXj строится, начиная с точки Xj, последовательным присоединением соседних точек дискретного поля зрения до тех пор, пока надежность (9.6) не упадет ниже выбранного порогового уровня.
9.1. Морфологическое подавление случайного шума 235 Оценка яркости изображения q(xj) для выбранного множества Нх. вычисляется по формуле ^ _ (д. хнх.) Qxj " Hyw II2' Итак, алгоритм шумоподавления состоит в том, чтобы для каждой точки Xj е X выбрать содержащее точку Xj e X случайное множество Нх максимального размера, для которого надежность предположения о том, что средняя яркость изображения ξ во всех точках Нх. одинакова, не меньше, чем ао, и в качестве оценки яркости q(xj) выбрать среднюю яркость изображения ξ на области Нх.. В более быстром алгоритме яркость qXj приписывается всем точкам множества HXj, однако в этом случае результат фильтрации будет зависеть от последовательности выбора начальных точек, из которых начинается построение множеств Н^.у Рассмотрим примеры применения обсуждаемых здесь алгоритмов. Были построены два варианта процедуры шумоподавления. В первом в качестве начального множества Но,х берется первая, еще не отнесенная к областям постоянства, точка из X и это множество расширяется до тех пор, пока не будет найдена область постоянной яркости HXj. Значение отфильтрованного сигнала ξ на всем множестве Нх принимается равным среднему по HXj значению: 1 kj здесь kj — количество точек в найденном множестве Нх.. Операция повторяется, пока все точки поля зрения X не будут исчерпаны. Исходный зашумленный сигнал и результат его фильтрации описанным здесь методом приведен на рис. 9.4. «Идеальный» незашум- ленный сигнал кусочно постоянен, число отрезков, на которых он принимает значения, равные константе, равно 5. Дисперсия шума равна 5,25 (усл. ед.)2, одна условная единица равна длине одного деления на оси ординат. По оси абсцисс отложен номер пикселя. Во втором варианте фильтрации яркость оценивается в каждой точке поля зрения. Начальное множество HotXjt содержащее точку Xj, в которой вычисляется оценка яркости, имеет размер μ(Η$ιΧ.) = fco.j, выбранный из априорных предположений о форме изображения q e ΊΖη\ расположение множества HotXj на поле зрения выбирается так, чтобы максимизировать надежность (9.6), т.е. так, как описано в п. 9.1.1. В случае одномерного сигнала HoiXj — отрезок длины fco.j, для изображения эту область можно выбрать, например, в форме квадрата. Затем эта область расширяется до тех пор, пока надежность не упадет до
236 Гл. 9. Примеры решения задач морфологического анализа 11 9 7 5 3 1 - _ L | У L -ι 1 1 1 1 1 1 1 1 _| 1 1 1 1 1 1 1 I I 1 11 9 7 5 3 1 _ ι ι ι —ι 1 1 1 1 1 1 1 1 1 I I I I I 1 - _ - - " О 10 20 30 40 50 60 70 80 90100 0 10 20 30 40 50 60 70 80 90100 О 10 20 30 40 50 60 70 80 90100 0 10 20 30 40 50 60 70 80 90100 11 9 7 5 3 1 - - i I 1 I 1 I 1 в • ι I 1 I I 1 I I 1 \ у - - О 10 20 30 40 50 60 70 80 90100 О 10 20 30 40 50 60 70 80 90100 Рис. 9.4. Незашумленный сигнал (а), Рис. 9.5. Незашумленный сигнал (а), результат его регистрации (б) и ре- результат его регистрации (б) и результат его фильтрации первым вари- зультат его фильтрации вторым вариантом метода (в) антом метода (в) некоторого значения fcamax, где 0 < к < 1 — некоторая постоянная, значение которой подбирается в зависимости от конкретной задачи (в приведенных ниже примерах значение к выбиралось равным 0,5), a «max — надежность гипотезы, соответствующей выбранному начальному множеству HoiXj. Результат фильтрации для описанного здесь варианта метода для одномерного сигнала приведен на рис. 9.5. Сигнал, не искаженный шумом, изображен на левом фрагменте, здесь он такой же, как и в предыдущем случае, изображенном на рис. 9.4, дисперсия шума
9.2. Выделение неизвестного объекта 237 равна 4 (ус о. ед,)2. Резул тат ремстраши, искаже н й шумом, и е- ден на гра ике в центре, результат фильтрации — справа. Морфологическая Морфологи еская фильтрация φι льт ация σ/Αξ =* ОД σ Δξ - О, Морфологическая Морфологи* еская φ чьт ция фильт ция σ Αζ - 0,3 σ Δξ = G 3 Морфологическая Морфологи 1еская фи ьтрация φ льт аци Λξ - 0 5 σ Δξ = Ϊ.5 Рю. 9.6. Искаже н е шумои шображе и (сева) и результа их фмыраци! (справа) для различного отношения с ал/шум В не оторых ел у аях, например, при подавлении шума на «о - ражен няхФ содержат χ текст, размеры областей постоянной яркости символов те с а достаточно малы. В подобных случаях первый вариант шумоподавления дает лучшие результаты, см. ис.9.6. 9.2. Выделение неизвестного объекта на фоне, форма изображения которого известна 9.2.1. Морфологический метод. Рассмотрим π иложение метода, изложенного в параг афе 9.1, к задаче обна ужения неизвестного об екта по изобра *ению, на ко орог> объект изображен на оне с известной формой его эталонного изображения. Пусть известны эталонное изображение /(■) некоторой исходной сцены и изображение (-) с ены, о ученной \з сходной излене- нием условий освещенности и добавлением новых объектов. Обозна чим А С X область поля з ения X, не содержащую на изображении q{) φ агментов, соответствующих добавленн м объектам, а ха{) — дикаторную функ ию множест а А Проб cn а состоит в том, чтоб построить оценку множества Л, основываясь на данных изображениях /(О и q(l В глЛ, 1Л.6Д описан метод успе но решающ F задачу обнару- же и я неизвестных объектов на известном фоне, в котором в качестве отличия формы предъявленного изображения q от ормы V сходного
238 a. 9. Примеры решения задач морфологического анализа изображения предлагается использовать изображение q — Pvq. От л ι4 ι6 фо м изображения q от формы / в точке χ е X в этом случае дает значение функции Q(x) = (φ) - Pvq(x))\ х eX, а если требуется оценить подмножество точек по я зрения X, я кость кото ых зображает новый объек , то в качестве оценки ее индикаторной функции можно использовать унк ию { 1, если Q(x) > δ, где S — выбранное значение порога. Проблема выбора порога обсуж дается ниже. Однако, наприме t случае, гриведенном на рис. 9.7, по мо фологической разности Q(-) можно дос а очно надежно утвер- жда ь, что в сцене π исутствует об ект, искажающий фо му его изображения, однако достаточно τ удно оценить об асть поля зре- н я, зан маемую нзображе ием об екта. Мо фологическая разность я(х) - v<l(x} изображена на рис. 9,8 слева, а вдикато ая фу к ия множества, в каждой точке χ которого квадрат морфологической разно- с и Q(x) π евышае еко орый порог морфологической разности, — на рис. 9.8 справа; здесь JV — форма изображения, приведенного в левой части рис. 9.8. Pic. 9,7, Изображе ие исходной сцены (слева) и изображен е то ι же сцены с новым объектом (справа) Заметим, что обычное вычитание изображений / ι q дру из друга также не поз оляет удовлетвори ельно оценить ни наличие новых объек ов на сцене, ни подм ожест о то ек по я зрен я X, я кость кото ых изображает новый объект, если в качестве оценки его ин дикаторно* фун и в тб ать (9.7), где Q(x) = \f{x) — g(x)\t x G X, см. рис. 9.9. Для преодоле ия возникших трудностей в работе [95] предложен метод, позволяющий при дос аточно общих пред оложен 1я о модели формирования изображения, предъявляемого для анализа проверить ги отезу о наличии на зображе но (по отно е ю к э а онно-
9.2. Выделение неизвестного объекта 239 Рис, 9.8. Результат работ ι алгоритма, основанного на методах морфологического анализа изображений Слева: функция Q(x) = (q{x) — P\>q{x))2* χ e Χ, — невязка аппро ct мац зобра ен я q{) изобра е ием Pvq(*)* ри- надлежащим форме q{). Справа: множество А™ (выделено белым цветом) — оценка мн жества Л, основанная а <Э(+) не. 9.9. Модуль разности эображений исходной сцены и сцены с новыми объектами (слева) и о е ка м ожест а А, полу е на а основа и з аче w d(x) = \fc(x) — f(x)\, x € X (справа) му изображению) объектов, и оценить их геометрическое положение на поле з ен я. Этот метод сравнивается и с другими методами выделения объектов на поле з ения. Приведем здесь кратко основные результаты этой работ ь 9.2.2. Локальный морфологический алгоритм. Пусть зада о изображение /(«) € С^{Х) « невозмущенной* сцены (т.е. сцены, на которой отсутствуют неизвестные объекты) Формой изображения f(-)t в соответствии с определениями гл.2, назовем замкнутое вы у лое но ее во V, = { h() € СЦХ): ft(-) = FoJ{.), F e F/}. где F/ — класс монотонно неубывающих функций, таких, что F о / £ Ε £?μ{Χ) ля всех F £ F/, и обозначим Pf е {£%{Х) -> £2μ{Χ)) one a- тор проец ова *ия в С2 (X) на это множество Так же, как в .9Л.1, зафикси уем неко орое ι од множество Η С X вь берем класс G 1реобразований плоскости 7£2, акой, что μ(^Η) = μ(Η) для всех 7 £ Q* и обозн чим Си подм ожество преоб-
240 Гл. 9. Примеры решения задач морфологического анализа разований из G, не выводящих множество Η за пределы Х\ GH = {je G, ΊΗ с X}. Для фиксированной точки χ G X обозначим Gh(x) множество преобразований из Gh, для которых χ е ηΗ. Выберем G таким, что для каждого χ G X множество Gh(x) непусто. Назовем сужением функции /(·) G Γ?μ(Χ) на множество ηΗ С X, 7 £ Gh, функцию /7я(·)> определенную следующим образом: f ( \ _ / f(x)> если х е 7Я' Ьн[х)-\ α если xGX\7#. Обозначим PfiH оператор проецирования в С2 (X) на форму изображения /7Я: VflH = { Λ(·) G 4(Χ): Λ(·) = Fo /7Я(.), F G F/7H}. Пусть для анализа предъявлено изображение q(-) G £2μ(Χ) исходной сцены, на которой добавлены новые объекты. Для каждого преобразования q G Gh плоскости определим значение d(j, <?(·)) функционала d(·, ·): \\д7н - Ρ/ίΗ4ίη\ \ρ/ίη<1ίΗ - Ρο,ίη4ίη\ d(7. «о) = „Dm:„ гят," 112- (9·8) где Ρο,7# ~~ оператор проецирования на множество F = {с«х7я(*)> ce1Z] } с £μ (X), и для каждого χ е X найдем такое положение ί(χ)Η множества Η на поле зрения Χ, η G Ся(#). при котором %(*). «(·))= j?f ЛЪ <?(·))· (9.9) Условия, при которых это равенство возможно, приведены в работе [95]. Согласно определению, чем меньше величина d(j, <?(·))> тем больше отличная от константы составляющая изображения q1n, принадлежащая форме VflHy по сравнению с величиной составляющей шумового изображения q1n — PflHq1H, не зависящего от формы flH. Если точная нижняя грань в (9.9) достаточно велика, то это означает, что точка χ G X изображает «новый» объект, искажающий форму изображения сцены. В качестве оценки индикаторной функции ха(') подмножества А поля зрения, где на предъявленном изображении q(-) отсутствуют неизвестные объекты, будем использовать функцию ν(η(χ), <?(·)). х е X,
9,2. Выделение неизвестного объек а 241 опреле енную следующим образом: где 6 > 0 — некоторое пороговое значен Ае Вопрос о выборе этого зна ения обсуждается ниже. Результаты работы описанного здесь локального мо фологического метода в деления объекта пр шедены на рис.9Л0. Рис. 9Л 0, Результат фимене 1ялс ального морфологическо о ал оритма Сле- в : функц я d[·) — поле невязок, построен юе с использованием лок ль юго морфологического алгоритма. Справа: множество, выделенное белым цветом — оценка множества А, осно ан ая на d[*) В следующих двух пунктах задача выделения неизвестного объекта а известном оне решается с помощью ло ального корре цио ного метода и локального метода ранговой корреляции [95). 9.2.3. Ло альны" корреляцио ны" метод. Б этом мето е вместо фун ции d(7> <?(-))* ° пределен ной (9 8), будем использовать фун - цию ic{7)* Ся —* *R? * заданную для каждого 7 £ &н следующим образом: \\Ιίη - *ЪлнЛ\\\Очн - Лз,7//<?1! Зададим функцию dc(x): X —+ 7?1 для каждого χ Ε Χ: ά(Ί{χ))= sup (dc(7))· В качестве оценки множества А будем использовать множество АССХ\ Ас = {х£Х : ά€{Ί{χ)) > й}, где δ Ε 7l{ — пороговое значение. Рисунок 9.11 иллюстрирует применен е давно о метода в си уаци ι, описанной в ι. 9 * 1. К недос аткам данного метода следует отнести тот фак , что изменения условий освещенности сцены, принадлежащие некоторому классу, приводят ν η€ο6χολϊ мости изменения значения по ога 6 В самом
242 Гл. 9. Примеры решения задач морфологического анализа Рис. 9Л - Результат вменения локального кор реляционного алгоритма Сле- а: функция dc{-) — *поле невязок* для оценивания множества А, построенное с ^пользованием значений корреляции фрагментов изображений {■) /о()- Справа: множество Ас ( ыделе о белым ветом) — оцен а ножества А, основанная на <f {■) деле, етрудно и е ь что значен *я ункционала d(-) не ih ариан ь\ по от .ошению к η еобразованиям вида /(*) —> F(f{-))t где функция F(): ΊΪ —► fl[ — произвольная монотонно возрастающая из класса F . 9.2.4. Локальный метод ранговой корреляции [24, 5 ,95]- Для каждого χ Ε X, произволь .ого изображения /(·) е €?μ{Χ) и всех у £ е Сн{%) зададим функ ию %)(*>7) = /*({» € ΊΗ: f(y) < /(*)}}. Определи функц ю d{x): Χ -> 71[ следующим образом: <f{x) = ^mf |dj(.}(ar,7) - ^()(я,7)l· где, как и прежде /(·) — известнее изображение исходной с ень, q(-) — предъявленное для ана иза изображен\ е этоГ сцены, содержащее, возможно, еизвестные объекть . Б качестве оценки м .ожества А бу ем использе ать м .ожес во Ат С X, заданное как Ат = {хеХ:<Г(х) <5}, где δ £ 7V — пороговое значение. Соответствующая и л люстрах ия с »е- зультатом работы алгоритма приведена на рис. 9.12, Как недостаток данного ал оритма следует отметить его н зкую помехозащищен ость. Даже небольшой шум на изоб жжении не позволяет с дос а о ной точностью оценить множест о Л. 9 2.5. Сра не е а гори о . уст л ожество А с X звестно. Тогда будем счи ать, что оце ка А\ ,е хуже оценки А%, если выполняется соотношение \\хл -хл!12< \\ха2-ха\\2,
9.2. Выделение неизвестного объект 243 Рис. 9.12. Результат применения локального алгоритма ранговой корреляции Слева; фу кци <Г(*) — «поле невязок* Сттра а: м ожество ЛГ (выделе о белым цветом) — сценка множества А, основанная на ίΓ(-) где хл(-) — индикаторная фу жция множества А Будем интерпрети ровать зна е е ||χ^, - хд||2 = μ(ΑΑΑγ) как по е ность оценки Αχ множества А. Качество работы всех алгоритмов, описанных выше, параметрически зависит от поро о ого значения 6. Для каждо о ал гор тма ,аче- с ве порогового зна1 ения бу ем с ользовать δ* = arg{\\XA^ - \а\\ = in \\xas-Xa\\}* о где Ад С X — оценка множества А С Xt полученная данным алгоритмом при значении порога δ. Конечно, η и решении задач множество А неизвестно, так что такая процедура определен я «оптимального^ для дан ого алго и ма значен орога ι имен ма лиш д я сравнен я ре- зуль атов работы алгоритмов на модельн χ данных либо для сравнения в ситуации, когда есть возможность привлечь экс ерта для построения наиболее точной версии множества А. На рактике пороговые значения можно выбирать, руководс вуясь опытом ι риме ения алгоритма к а ньш, редъяв яем η дд ан лиза, рог^е того, ассмот ен ые алгоритм до ускают вычисление пороговьх значений, исходя из требуемых границ для вероятности ошибожого отнесения точки χ Ε Χ к множеству А или к множеству Х\А в случае, есл \ множество X конечно, На рис+9+ 3 едставлен графики зависимостей пог ешност* оце- нива я ιν о ест а А от порого ого з аче я δ д я ка* до о и рассмо - ренных алгоритмов. Как видно, наиболее глубокий минимум достига ется на г афике d)t соответствующем локальному морфологическому алгоритму. Само значение μ(ΛΔΛ), приблизительно равное 0J, говорит об удовлетворительном согласии с действительностью модели фор- ν ро а изображе и , использован о д я построен я алго итма
244 Гл. 9. Примеры решения задач морфологического анализа 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 ι ■ г τ ι г а - 5^ " \ \ ^^^^"^' \^^^^^ - 1 1 1 1 1 50 100 150 200 250 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 ( 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 од ) - - —ι— 1 10 1 1 ■\ ] ^^__J ^^ ^^^ \ - - I I I I I I 1 30 40 50 60 70 80 Ι Ι Ι Ι ι ι ι ι ι г ι Л \ \ \ ^ \ 4 """ 1 \ 1 1 1 11 1 1 1, , 1 0,2 0,4 0,6 0,8 -ι 1 г- Рис. 9.13. Зависимости погрешности оценивания множества А от порогового значения δ для каждого из рассмотренных алгоритмов: (а) для разности ά*(χ) = \f(x) — /о(ж)|; (б) для морфологического алгоритма и функции dm(·); (в) для локального корреляционного алгоритма и функции dc(-)\ (г) для алгоритма ранговой корреляции и функции dr{-)\ (д) для локального морфологического алгоритма и функции d(·) 9.3. Аппроксимация формы текстурнозначного изображения Вернемся к ситуации, когда поле зрения представляет собой конечный набор точек X = {х\,... ,хп}, а изображение, заданное на X, рассматривается как элемент евклидова пространства 1Zn. Под тек- стурнозначным изображением /(·) е 1Zn будем понимать функцию,
9.3. Аппроксимация формы текстурнозначного изображения 245 преде авимую б виде N f{x) = ^tj(x)xj{x), χ еХ, (9Л0) где ti(-) 6 7£/\ i = I N, суть случайные поля [31]. Заметим, что в этом случае /(·} также является случайным полем, причем ее статистические характеристики на каж ом из множеств А{ с X совпа ают с характеристикам соответствующего поля i(-)t г = 1, .♦., N. Здесь, ак и режде, множес ва А{,„.,А& представляют собой разбиение поля зрения X на непересекающиеся множества ненулевой меры: N X = (J j4j, a xj{-) — инд ка ор л ножест а A,, j = \f...fN> ι:.·. ' ь ,* . ■ .* гп ι * ■ * * * # »*■ "»α И * « . * ι -ι». * · 1 L * ,.W; :>; г *■ .■ *· ■ я\*' - - ■ - ■ .1 L ι !j t ι Ζ mj ш Ι Рис.9. . римеры текстурнозначных изображений. Слева: текстуры внутри π юмоугольника и вне его определяются случайным а полями с независ шыми значениями, имеющими нормаль ое распределе не с нулевым математическим ожиданием и дисперсией 0,1 внутри прямоугольника и 2,0 вне его. Справа: е стур у ри π моуголь ика и вне его определяются случайными полям с независимыми значениями, имеющими биномиальные распределения с параметрами 0,2 0,05 соответственно На рис. 9.14 приведен пример, когда N = 2, множество А\ ее ь прямоугольная область внутри поля зре и я Xt а А% =Х\А\. Изображение слева соответст ует ситу а ц iHs когда случайнь е величины tj(x)1 χ £ Xt имеют нормальное распределение λί(0 σ|) и независимы в совокупности, j = 1,2. Значения σ\ и о\ вьбраны равными 0,1 и 2,0 соотве ственно. Справа приведено изображение, соответствующее си туации, когда случай ,ые вел ич инь tj(x)t τ £ X, имеют бином и а ьное рас ределение с параметром pj и независимы в совокупности, j = 1,2. 3 ачен я гаралетра pj для j = I,9 выбраны равны 0,2 и 0 05 соответствен о. Пред по ожим, что задано множество S и случайные поля j(-) j = = 1, ..., ΛΓ, принадлежат параметрическому семейству Τ: T = {ts(-)enn:seS}.
246 Гл.J?. Примеры решения задач морфологического анализа Для текстурнозначного изображения /(·) с кусочно-постоянными свойствами текстуры следует считать, что в каждой точке χ поля зрения X определена функция s(·), характеризующая текстурные свойства изображения /(·) в окрестности точки х, определяемые совокупностью статистических характеристик случайного поля t(x). Эта функция, определенная на X, на каждом из подмножеств Aj принимает одно и то же значение s(x) = Sj, x e Aj, j = 1,..., iV. В примерах, приведенных выше, случайные поля параметризуются значением единственного параметра функции распределения своих (независимых) значений: дисперсии σ2 в первом примере и вероятности ρ во втором. Форму текстурнозначного изображения (9.10) зададим как множество изображений N vf = {ψ = Σ8*χΐ* 8зе 5}' J = l форма V/ представляет собой множество кусочно постоянных функций, заданных на X и принимающих значения в 5; в каждой точке множества Aj свойство текстуры s изображения, имеющего форму V/, постоянно и равно Sjy j = 1,..., Ν. Пусть задано текстурнозначное изображение N q(x) = ^2ь(х)хз(х)^ х е х> имеющее форму V/. Задача аппроксимации формы V/ состоит в том, чтобы на основании предъявленного изображения q найти такое изображение N φ(χ) = ^^SjXj(x), xeX, Sj e 5, j = 1,... ,7V, J = l форма которого в определенном смысле близка к V/. Будем считать, как и в параграфе 9.1, что задано подмножество Η поля зрения X, состоящее из пн точек поля зрения X, и определено множество Gh преобразований плоскости 1Z2 D X, таких, что ηΗ с X для любого 7 £ Gh· Число точек множества ηΗ равно пн для любого 7 £ Он- Рассмотрим процедуру оценивания, которая ставит в соответствие изображению <?7я(*) Ε Ипн — сужению q(-) e ΊΖη на множество 7# — значение £7(<?7я(·)) £ £» которое будем интерпретировать как оценку параметра s случайного поля ts(·) e Т. Эту оценку обозначим β7(·) : Ппн -> 5. Пусть свойство s e S текстуры в каждой точке множества ηΗ постоянно и ps(x\y t\y ..., хпн, tnH) — плотность совместного распре-
9.3. Аппроксимация формы текстурнозначного изображения 247 деления для пн сечений случайного поля ts(-): X —> 1Z1 (в точках Xi е ηΗ, г = I, ..., пн) для каждого s е S. Тогда для каждого у е Gh оценка s7(·): 7£Пн —> S может быть построена, например, как оценка максимального правдоподобия: Sj(qlH(')) = arg maxpa(x\, q(x\), ..., хпн, q{xnH)), {x\, ..., хпн} = jH. Определим качество ά{η, ц1н) оценивания свойства s Ε S на множестве 7#> 7 £ ^я- Конкретный вид функционала d(·,·) зависит от решаемой задачи. В работе [95] этот функционал выбран из следующих соображений. Пусть d(·, ·) — функционал, определяющий качество решения задачи оценивания свойства s e S изображения q(-) на подмножестве уН, 7 £ Gh (например, точность оценивания параметров распределения). Для каждой точки χ е X обозначим Gh(x) множество преобразований из Ся, таких, что ηΗ Э χ. В соответствии с [95] запишем результат фильтрации предъявленного текстурнозначного изображения в виде φ(χ) = sl{x)(ql{x)H(-))y xeX, (9.11) где η(χ) е Gh(x) — решение задачи на минимум: ά(η{χ\ q(·)) = min{d(7, q(·)) | 7 G GH(x)}. Полученная оценка φ{-): Χ —> S поля значений свойства текстуры изображения q{-) является изображением, форму которого будем интерпретировать как оценку формы текстурнозначного изображения q(-). Анализ того, какими свойствами должны обладать множество Я и функционал d(·, ·) для успешного решения задачи оценивания формы текстурнозначного изображения, проведен в работе [95]. Для иллюстрации оценки формы текстурнозначного изображения рассмотрим случай, когда случайные величины U(x), χ е X, имеют распределения Пуассона с параметрами λ^, г— 1,...,п, и независимы в совокупности. На рис. 9.15 слева вверху приведено изображение ψ(·) Ε 1Ζη, форма которого определяет форму текстурнозначного изображения q(-) e ΊΖη, приведенного на рис.9.15 справа вверху. На последнем изображении каждая из текстур определяется случайным полем, имеющим распределение Пуассона, причем параметр распределения Х(х) равен яркости ф{х) изображения ψ, χ е X. На рис. 9.15 внизу слева приведен результат восстановления «идеального» изображения при помощи алгоритма, описанного в настоящем разделе. Для оценивания параметра λ распределения Пуассона использовалась оценка максимального правдоподобия, а в качестве значений функционала
248 Γα. 9. Примеры решения задач морфологического анализа 50 100 15 20( 250 30 50 10 150 200 250 30 100 200 300 100 100 200 300 400 4 12 10 8 6 4 2 14 2 10 8 6 4 2 50 10] 15 20] 250 300 50 1 0 150 20 •>50 300 00 - 00 200 300 200 300 1 0,8 0,6 0,4 0,2 0 00 15 10 5 0 10 Рис, 9 15. Слева направо, сверху вниз: ^идеальное* изображение (а), предъ- я ленное для анализа (б), и да восстан ленн χ ьз б ia е v я модель ой сцены (в, г) d(- *) вычислялись невязки приближения эмпирической функцией рас- преде 1ен я фу кции распределе ι я Пуассона с параметром А*, рав ым значению оце ки. Для того ггобы оценить эффективность работы предложен юго ал о итма, был реализова также другой алгоритм восс ановления « деа ь ого» изображе ф(-), основа шы" ш вь числении свертки исходно о зображения <?(-} с так м ядром, пр^ ко ором результирующее изображение представ яет собо? с лаже* нук> версию исходно о. Результат рабо ы этого алгоритма представлен на рис. 9.15 справа вни 50 00 50 200 250 300 00 20 30 400 10 8 6 2 η 50 1 0 150 200 250 300 ' 10 » ■ 6 5 4 3 2 1 200 300 400 Рис, 9 Л 6, Невязка меч<ду «идеальным* и осе а ков, еч ым изобра .ением модельной сцены для метода морфологической фильтрации (слева) и алгоритма со сверткой (справа)
Я& Аппроксимация формы текстурнозначного изображения 249 зу. Для сравнения работы алгоритмов вычисле ы поля невязок между значениями яркостей «идеального* и «восстановленных* изображение. Соо ветствую пне иллюстраци приведены на рис. 9Л6 для предложенного алгоритма морфологической фильт >аци \ (слева) и для π остой оценки с помощью свер ки (справа). Стоит отмети ьФ что интегральная невяз а ля г^етода гюрфоло ичес о" φ л трац и оказ пзается ниже, чем для алгоритма со сверткой, 50 100 150 200 250 50 100 150 200 25 100 100 200 30 200 300 14 12 Ш 8 6 4 2 1 12 10 8 6 4 2 50 100 150 2 0 250 50 100 150 200 250 1 j 100 200 300 100 200 300 08 0,6 0' 0,2 0 15 10 5 0 Рис. 9.17. Слева направо, сверху вниз: *идеал ное* изображе ие предъявленное для анализа и два восстановленных изображения реальной сцены 8 50 00 50 200 25С ^ 100 200 300 10 8 6 4 12 0 50 100 150 2 ) 250 100 200 300 7 6 5 4 3 2 0 Рис. 9. 8. Невязка между «идеальным и восстановленн ]м изображением реальной сиены для метода морфолог оческой фильтрац и (слева) и алгоритма со све тко (с рава) На рис, 9Л приведены « еа. ьное\ предъявленное для анализа, два восстановленных изображения реальной сцен ι (в той же после-
250 Гл. 9. Примеры решения задач морфологического анализа довательности, что и на рис. 9.15. На рис. 9.18 приведены изображения поля невязок для алгоритма морфологической фильтрации и для алгоритма со сверткой. На изображении реальной сцены преимущество алгоритма морфологической фильтрации не столь заметно на глаз, однако интегральное значение невязки для предлагаемого алгоритма оказывается ниже, чем для алгоритма со сверткой. 9.4. Морфологический метод сжатия изображений текста Под сжатием данных будем понимать построение описания, позволяющего точно (или с некоторой погрешностью) восстановить исходные данные, но требующего меньшего количества байт для хранения. В этом пункте предлагается метод сжатия полутоновых изображений текстов [57]. Такие изображения могут быть получены со сканера, факса и других подобных устройств. Алгоритмы сжатия данных делятся на два класса. К первому классу относятся алгоритмы, безошибочно восстанавливающие исходные данные по построенному описанию (сжатие без потерь). Алгоритмы из второго класса сжимают без потерь только наиболее важную (в некотором смысле) часть исходных данных. В результате восстановленные данные отличаются от исходных. Выбор наиболее важной части зависит от природы данных. Например, при сжатии изображений можно «затрубить» информацию о цвете, но сохранить без потерь информацию о яркости [12]. Наиболее распространенные алгоритмы сжатия без потерь, применяемые для хранения изображений — RLE (Run Length Encoding) и LZW (Lempel, Zw, Welch). Алгоритм RLE применяется в формате хранения изображений PCX. Алгоритм LZW используется в форматах GIF и TIFF. Оба алгоритма имеют среднюю степень сжатия до 3-4-х раз. Более высокие степени сжатия позволяют получить алгоритмы сжатия с потерями, разработанные специально для хранения изображений и плохо применимые для сжатия других типов данных. Наиболее популярным из таких алгоритмов является широко используемый в настоящее время алгоритм JPEG (разработан Joint Photographic Expert Group) [87]. Ему свойственна очень высокая степень сжатия (до двухсот раз), но при этом в восстановленных изображениях наблюдаются характерные эффекты внутриблочного сглаживания, снижающие контраст мелких деталей, и заметные скачки яркости и цвета на границах блоков. Эти особенности приводят к тому, что при сжатии изображений текстов происходит искажение границ символов и восстановленное
9.4. Морфологический метод сжатия изображений текста 251 изображение плохо воспринимается читателем. Кроме того, алгоритм JPEG существенно менее эффективен при сжатии нецветных изображений. Существуют еще более специализированные алгоритмы сжатия данных. Они могут быть использованы только для узкого класса изображений, но позволяют достичь очень высоких степеней сжатия. В качестве примера можно привести алгоритм CCITT4, используемый при передаче изображений через факс. CCITT4 применим лишь для черно- белых (двухуровневых) изображений, но позволяет сильно сжать (до ста раз) исходное изображение без потери читаемости изображенного текста. Однако надо отметить, что на восстановленном изображении возникают характерные дефекты, выражающиеся в «пилообразности» границ символов. Для изображений текстов можно достичь еще более высоких степеней сжатия (порядка 1000 раз) при использовании алгоритмов, основанных на идее распознавания встречающихся на изображении букв. Однако тот факт, что такие алгоритмы могут работать только с некоторым предопределенным набором символов, сильно сужает область их применения. Описываемый в данной работе метод сжатия полутоновых изображений текстов сочетает высокую степень сжатия, читаемость текста в восстановленном изображении и сохранение вида изображения как целого. Достигаемая при его применении степень сжатия — 100-170 раз. 9.4.1. Математическая модель и форма изображения текста. Под изображением текста будем понимать изображение страницы, заполненное фрагментами, изображающими символы текста. Изображение fm(') каждого символа является изображением с конечным носителем D(fm) = {χ е X: fmix) φ 0}, мера пт = μϋ(/πι) которого (число точек носителя) много меньше числа η точек поля зрения. Основная идея предлагаемого метода сжатия — хранить повторяющиеся фрагменты исходного изображения лишь в одном экземпляре и указывать координаты фрагментов на поле зрения X, определяющие место, в которое следует поместить данный фрагмент при восстановлении изображения. Изображения, полученные при использовании факсов, сканеров и тому подобных устройств, как правило, искажаются шумом; кроме того, могут отличаться яркостью и контрастом. Поэтому имеет смысл сравнивать форму изображения каждого символа с формой изображения из «банка эталонов», пополняющегося по мере последовательного анализа символов текста.
252 Гл. 9. Примеры решения задач морфологического анализа Рассмотрим модель формирования изображения текста /(·) е 1Zn, предъявляемого для сжатия, в виде м ξ(χ) = Ιο(χ) + Σ W*) + "№> хеХ> (9Л2) т=\ где /о(·) е ΊΙη — изображение фона, /т(·) е 11п, т = 1,...,М, Μ < < оо,— изображения символов (их число Μ априори не известно), а ϊ/(·) е ΊΖη — случайное изображение, моделирующее шум, накладывающийся на изображение в процессе его регистрации. Будем считать, что изображение фона имеет нулевую яркость в точках множества м D\ — I) D(/m), постоянную яркость в точках множества Do = X\D\ т=\ и задается равенством h(x) = coxd0(x)> ^ G X, где со G Т^1 — константа, равная яркости фона. Будем предполагать, что значения яркости ν(χ)> χ Ε Χ, суть реализации попарно независимых случайных величин, имеющих нулевое математическое ожидание и конечную дисперсию, равную σ2. Каждый символ определяется своим написанием, поэтому будем считать, что символ s задан, если задано его эталонное изображение es(·) e ΊΖη. Множество всех символов обозначим S, будем считать все его элементы пронумерованными, а число элементов конечным. Формой символа s e S будем называть форму V6s его эталонного изображения ев(·), определенную, например, как множество изображений Ves = {<?(.) = Foes(.)> FeF}, где F — класс линейных функций: F(·) e F представима в виде F(z) = olz + β для любого ζ е ΊΖ1. Форма Ves, таким образом, является множеством изображений, отличающихся от эталона es яркостью и контрастом. Носитель изображения символа естественно считать связным множеством. Для дискретного поля зрения это понятие нуждается в уточнении. Для этого для каждого узла прямоугольной сетки точек поля зрения определим, какие точки являются соседними (например, четыре ближайших слева, справа, снизу и сверху), и односвязным будем считать такое множество, для любых двух точек которого может быть построена соединяющая их последовательность точек, являющихся соседними друг с другом. Пусть /(·) G ΊΖη — некоторое изображение символа. Будем говорить, что /(·) по форме не сложнее, чем символ s e S, если {PeJ){x) = fix), χ е Х\ здесь Pes — проектор на форму Ves, определенный в п. 1.2.5. Символы, представленные на исходном изображении £(·), обозначим Sk Ε S, к = 1,..., Κ < оо, где К априори неизвестно.
9.4. Морфологический метод сжатия изображений текста 253 Пусть G — группа трансляций (сдвигов) плоскости ΊΖ2 и Я С X — некоторое множество ненулевой меры. Обозначим, как и прежде, Gh множество преобразований η £ G, для которых ηΗ С X (здесь ηΗ = {χ е Χ: η~χχ е Η}). Под 7/, /(·) £ Τίη, будем понимать изображение, заданное по правилу /(7-1#), если η~ιχ е X, О, если η~χχ£Χ, 7/0*0 = S Л _ _! ^ ^1, 7^я. Множество преобразований 7» порожденных всеми трансляциями из Ся, обозначим G. Пусть s e S — некоторый символ, /(·) е 7£п — его изображение, отличающееся от е3(-) сдвигом, яркостью и контрастом, a j e G — трансляция, определяемая условием jD(f) — D(es). В этом случае изображение 7/(0 по форме не сложнее символа s. Учитывая этот факт, можем представить /(·) в виде fix) = 7/(7*) = (РелЛЫ) = αβ8(Ίχ)+β, хеХ, (9.13) где Pes — форма символа s, а а е ΊΖ1 и β е ΊΖ1 определяются равенствами (1.43) гл. 1. Пусть каждому изображению символа /т(·), т= 1,...,М, поставлен в соответствие элемент Sk(m) множества S с порядковым номером к(т). Также положим, что известно эталонное изображение е8к(-) каждого символа, представленного на изображении страницы £(·), к = \,...,К. Тогда, используя выражение (9.13) для представления каждого изображения /т(·) через эталонное изображение eSfe(m)(·) соответствующего символа 5цт), т= Ι,.,.,Μ, можем записать £(·) в виде м Ых) + 0т)+и(х), хеХ, (9.14) т=\ где 7т £ бн — трансляция, определяемая условием 7m-D(/m) = = B(e.fc(m)). m= Ι,.,.,Μ. Таким образом, изображение £(·) можно получить с точностью до шума ζ/(·), зная яркость фона со, значение к(т) яркости изображения eSfe(m)(·) в точках множества D(eSfe(m)), трансляцию 7т и значения констант аш и /?т, т= Ι,.,.,Μ. Для хранения перечисленной информации требуется значительно меньший объем памяти, чем для хранения яркостей изображения £(·) во всех точках поля зрения X. Представление исходного изображения £(·) в виде (9.14) лежит в основе предлагаемого метода сжатия изображений текстов. На практике часто встречается случай, когда все изображения символов на £(·) имеют одинаковые яркость и контраст. Тогда константы
254 Гл. 9. Примеры решения задач морфологического анализа ост и βγη в выражении (9.14) равны 1 для любого га — Ι,.,.,Μ, и возможно применение упрощенного представления исходного изображения £(·): м ξ(χ) = coxDo(x) + J^ eSfe(m)(7m^) + v(x), xeX. Представленное таким образом изображение £(·) требует еще меньшего объема памяти для своего хранения, по сравнению с представлением (9.14). 9.4.2. Алгоритм морфологического сжатия изображения текста. Алгоритм приведения исходного изображения текста £(·) к виду (9.14) состоит из двух этапов. На первом этапе найдем изображения символов /т(·) и их расположения D(fm) на поле зрения X, т= Ι,.,.,Μ, где Μ — априори неизвестное число изображений символов, представленных на £(·). Будем считать, что изображения £(·) и /m(·), га = Ι,.,.,Μ, удовлетворяют следующим условиям: 1. Яркость каждого из изображений символов меньше яркости фона в любой точке поля зрения X: fm{x) < со, χ G X, т= 1,..., М. 2. D(/m), m = Ι,.,.,Μ, — связные подмножества поля зрения. 3. Множества D(fm) \J D(fk), тфк, т, к = Ι,.,.,Μ, не являются связными. Пусть q(·) е ΊΖη — некоторое изображение. Через (Uq)(·) G ΊΖη будем обозначать изображение \\Q-poq\\ где Ро· 7£п —> 7£п — оператор проецирования на однородное поле зрения: (Род)(х) = тр—ϊϊτΧχ(χ)ι # G X. Тогда для любого изображе- \\Хх\\ ния ςο(·) G 7£n и изображения q(x) = aqo(x) + /?, χ G Χ, 0 < а < оо, —оо < /? < оо, отличающегося от ςο(·) яркостью и контрастом, выполняется равенство ([/<?)(*) = (Uqo)(x), xeX. (9.16) Другими словами, результат преобразования /7, определяемого выражением (9.15), не зависит от яркости и контраста преобразуемого изображения. Если дисперсия шума ζ/(·) равна нулю, учитывая требования, наложенные на изображения £(·) и /m, га — Ι,.,.,Μ, можно найти множество D\ с X простым сравнением яркости изображения £(·) в точках
9.4. Морфологический метод сжатия изображений текста 255 поля зрения с некоторым пороговым значением δ е К1, удовлетворяющим условию max \ max fm(x) | т = 1,..., Μ > < δ < со: Dx ={χβΧ:ξ(χ) <δ}. Заметим, что пороговое значение δ зависит от яркости и контраста исходного изображения, и должно быть найдено отдельно для каждой их вариации. Свойство (9.16) преобразования U позволяет избавиться от этого недостатка. Определим множество D\(S) следующим образом: Dx(S) = {xeX: (ϋξ)(χ) <δ}. Экспериментально найдем значение δ* Ε ΊΖ\ при котором множество D\(6*) наиболее точно приближает истинное множество D\: μ(Ζ?ι(ί*)ΔΖ?ι) = πιίημ(Ζ?ι(ί)ΔΖ?ι). Sen1 Тогда согласно выражению (9.16) значение δ* не зависит от яркости и контраста исходного изображения и может быть использовано при любой их вариации. Определяемое найденным значением δ* множество D\(S*) будем считать искомым множеством D\. Множество Do положим равным X\D\, а величину со, учитывая, что изображение фона имеет вид 1о(х) = со\е>0(х), χ е X, положим равной ——- 2^ £(х)· ОпиРаясь на требования 2 и 3 условий, наложенных на изображения символов, найдем множества D(fm), m= 1,...,М, разделив множество D\ на минимально возможное количество связных подмножеств. Значение Μ будем считать равным количеству найденных подмножеств. Искомые изображения символов найдем по правилу: fm(x) = XD(fm)€(x)> ж Ε X, m= Ι,.,.,Μ. В том случае, когда дисперсия σ2 шума ζ/(·) не равна нулю, множество D\, а, значит, и D(fm) и /т(·), т= 1,...,М, будут найдены с некоторой погрешностью. Эта погрешность тем больше, чем больше σ2. В связи с этим следующий этап работы рассматриваемого алгоритма устроен так, чтобы результат его работы как можно меньше зависел от возможных погрешностей на первом этапе. На втором этапе находятся все представленные на £(·) символы, а также правило к(т), сопоставляющее каждому изображению символа fm(') £ Ип тот символ Sfc(m) G S, изображением которого является /т(·). т= 1,..·,Λί. Пусть /(·) е ΊΖη и q(·) е ΊΖη — некоторые изображения. Определим функционал
256 Гл. 9. Примеры решения задач морфологического анализа где Р/ — проектор, определяемый выражением (1.43), и рассмотрим зависимость его значений от /(·) и q(>): 1. Форма изображения q(-) не сравнима с формой изображения /(·). В этом случае числитель и знаменатель функционала (9.17) отличны от нуля и d(/, q) > 0. 2. Форма изображения q(-) не сложнее, чем форма изображения /(·), и изображение q(·) не является изображением равномерно освещенного поля зрения. Числитель равен 0, знаменатель отличен от 0, следовательно, d(f,q) = 0. 3. q(-) — изображение равномерно освещенного поля зрения. Числитель и знаменатель равны 0, значение d(/, q) не определено. При наличии на изображении q(·) шума функционал d(f,q) определен в (9.17) с вероятностью 1; его значение на изображении q(·) можно рассматривать как меру близости q(-) к изображению /(·) по форме. Чем меньше значение d(f,q), тем больше изображение q(·) похоже на изображение /(·) по форме. Заметим, что значение d(f,q) не зависит от яркости и контраста изображения <?(·). Используем функционал (9.17) в итеративной процедуре нахождения представленных на £(·) символов и правила &(·). Пусть на шаге ρ рассматриваемой процедуры уже найдены К(р) символов, и построено правило к(-) для М(р) изображений символов. Рассмотрим изображение символа /m(·)» W тп = М(р) + 1. Пусть к ^ К(р) и j e G — решение задачи на минимум: d(ee~,7/m) = = min inf{d(eSfe,7/m)|7: D(yfm) Π D(eSk) φ 0, Dtffm) С χ}, k=\,...,K(p) I J где eSk — эталонное изображение символа s/ь, к = 1,..., К(р). Тогда если d(es~,7/m) ^ W> где W пороговое значение, то к(т) положим равным fc, a 7m — преобразованию 7· В том случае, если d(es~,7/m) > W, будем считать, что /т(·) — изображение нового символа sk(p)+i, эталонное изображение eSK(p)+1 (·) е ΊΖη которого определим как изображение символа_/т(·), к(т) положим равным К(р) + 1, a jm — элементу множества G, определяющему тождественное преобразование изображения (или нулевой сдвиг j плоскости). Выбор порогового значения W осуществляется экспериментально и зависит только от дисперсии σ2 шума ζ/(·). Учитывая (9.13), получим значения аш и /?т, т = 1,... ,М, из равенств (1.43). Данная процедура для каждого из изображений символов находит тот из символов, к которому данное изображение ближе всего по форме. В том случае, когда рассматриваемое изображение не близко по форме ни к одному из найденных символов,
9.4. Морфологический метод сжатия изображ ний текста 257 создается новый символ с рассмат и Баемым изображением в качестве эталонного. Таким об азом, мы олуч ^ли все необходимые составляю ие для представления изображения текста £(■) в виде (9 14). U- Л!( и ■ н (н Х.% о чад joii '.) - ( ι- - -), С ) .,~>π[η ι с Λ ВыС ерем л ρ зи ц .X ) ( |,-.-,Л| я (га V ), облалаюи ) = *Ь, , „· { я{ ..., (н) индексов = \. Вы iep ι η ии.шол Рис. 9.19. Изображение текста до сжатия (слева) и после сжатия морфолог ческим алгоритмом (справа) Рис. 9.20. Фрагмент изображе ият сжатого ал оритмами (сверху вн з): исходное изображение; JPEG, сжатие в 57 раз; CCITT , с атие в 10 рз; морфоло ически метод, сжатие в 4 раза; морфологический метод с атие в 58 раз; морфологический метод, сжатие в 83 раза; морфологический метод, ежа ие в 150 раз Для повышения степени сжатия возможно использование мень т- го коли ества уро ней яркостей N чем редставлено на исходном Азображен ι и (обыч ,о 256). Эксперименталь ая прове а оказала, что испол зован ie 16-т ι уровней яркости для представления исходного Азображения £{-) прак ически не ухудшает его качес во и читаемость. Экспериментальные сравнения предлагаемого морфологическо1 о ме тода с алгоритмами JPEG и СС1ТТ4 показали, что морфологический ме од позволяет получать болы ие степени сжат я при лучшем 9 Ю. П. Пытьев, А. 1.Чул j4kob
258 Гл. 9. Примеры решения задач морфологического анализа качестве восстановленного изображения. На рис. 9.19 приведены фрагменты изображения до сжатия предлагаемым методом и после восстановления. Как можно видеть, читаемость изображенного на восстановленном изображении текста не ухудшилась по сравнению с исходным изображением. На рис. 9.20 приведен один и тот же фрагмент изображений, восстановленных после сжатия различными алгоритмами. Видно, что при примерно одинаковых степенях сжатия качество изображения, обработанного предлагаемым нами алгоритмом, существенно выше, чем у изображений, обработанных алгоритмами JPEG и CCITT4. Более того, даже при максимальном сжатии морфологический алгоритм не дает эффектов, ухудшающих читаемость изображенного текста и свойственных JPEG и CCITT4. 9.5. Фильтрация гладкого фона Одной из задач, часто встречающихся на практике, является задача отделения сигнала от фона, представляющего собой «гладкую» функцию. Эта задача часто называется фильтрацией фона. Основой решения задачи фильтрации фона является математическая модель, описывающая фон и полезный сигнал и позволяющая отличать одно от другого. 9.5.1. Математическая модель и форма изображения фона и сигнала. Рассмотрим изображение /(·), заданное на дискретном поле зрения X, состоящем из η узлов, и принимающее конечные числовые значения. Будем считать, что изображение / е 1Ζη может быть представлено в виде суммы «гладкой функции» s(·): X —> 1Z\ называемой фоном, и «полезного сигнала» Λ(·): Χ —> 1Z\ имеющего носитель Del. Регистрация изображения /(·) сопровождается случайной погрешностью (шумом) ζ/(·): X —> 1Ζ1. Каждое из изображений £, /, s, h и ν будем рассматривать как вектор евклидова пространства 1Zn. Схему наблюдения такого изображения представим в виде £=<* + /г + гл (9.18) Опишем математическую модель схемы (9.18). Будем считать, что изображение s имеет форму, заданную в виде множества всевозможных «гладких» изображений, представимых, например, в виде линейных комбинаций Ns «гладких» изображений ei(·),... ,едг5(·): Ns V* = {<?(') = Σα^"(")· ^ е ι"00'00)' 3 = 1, ■·.,#*}. (9.19)
9.5. Фильтрация гладкого фона 259 Например, в качестве Vs можно использовать линейное подпространство полиномов степени, не выше m(s), линейное подпространство функций с финитным спектром и др. Будем предполагать, что носитель D с X изображения Л(·) имеет меру μ(Ό), существенно меньшую, чем мера μ(Χ) поля зрения X (формально это выражается в ограничении μΌ ^ коп, где η = μ(Χ)). Расположение множества D на поле зрения X неизвестно. Погрешность ν е ΊΖη будем считать случайным вектором, контролируемым нормальным распределением λί(α,σ2Ι). 9.5.2. Постановка и решение задачи фильтрации фона. Задача фильтрации фона состоит в том, чтобы по наблюдению изображения ξ и заданной математической модели определить расположение множества D на поле зрения X и оценить значение сигнала h на D, а также охарактеризовать адекватность модели, используемой для оценки. Согласно сформулированной модели вне области D на поле зрения изображение ξ представляет собой случайный вектор с математическим ожиданием, координаты которого равны значениям функции s(-) e Vs в соответствующих точках множества X\D. Речь, таким образом, идет об определении максимального количества точек поля зрения, в которых значения функции £(·) не противоречат сформулированному предположению. Опишем формально следующие гипотезу и альтернативу. Рассмотрим сужения £d(*)> /£>(')> sd(·), ^d(-) и vd(·) на область D = X\D функций £(·), /(·), s(·), ft(·) и ϊ/(·) соответственно. Эти сужения будем рассматривать как векторы пространства 7ZK(D\ размерность K(D) = η — μ(Ό) которого равна числу точек поля зрения, не вошедших в область D. Обозначим VSyo множество «гладких» функций, заданных на D; это множество является формой изображения фона на D и является подпространством ΊΖΚ^°Κ Ортогональный проектор в 1ZK(D^ на VSyo обозначим Ps,d- Если множество D выбрано в соответствии с описанной выше моделью формирования (9.18), то справедлива гипотеза Я : ξΌ~ Я {α, σ2/), a G Va,D% (9.20) если же область D выбрана неверно, то справедлива альтернатива К: £~ΛΓ(6,σ2/), b(£Vs,D. (9.21) Пользуясь методами, описанными в приложении, п. А.5.5, найдем надежность гипотезы (9.20) при альтернативе (9.21): αΒ(ξ) = 1 - nk(D)(\\(I- Ρβ,Ώ)ξο\\2/σ2), (9.22) где k(D) — размерность ортогонального дополнения V^D в 1ZR(D\ 9*
260 Гл. 9. Примеры решения задач морфологического анализа Среди всех подобластей D поля зрения X, меры которых не превосходят коп, а надежность (9.22) не меньше, чем некоторый уровень с*о, выберем подобласть наибольшей меры (если таких множеств несколько — выберем одно из них произвольно). Обозначим это множество Ό(ξ, αο). На дополнении D(£, с*о) к этому множеству с надежностью, не меньшей с*о, можно считать выполненной гипотезу (9.20) и использовать изображение £d(£,<*o) для оценивания фона ^(ξ,αο) выбором коэффициентов разложения в формуле (9.19) по заданным «гладким» функциям еь...,едг5, минимизирующим невязку Ns ζθ(ξ,α0) ~Σα. Ο^ϋ(ξ,αο) J=l mm olj G (-00,00), 3 — 1 ,...,NS Зная эти коэффициенты, получим оценку h изображения h в (9.18): Ns h{x) = ξ(χ) - ^2азез(х)> χ e D(£,ao), i=i гарантированной надежности ао. На рис. 9.21 приведен результат применения описанного здесь метода отделения сигнала от гладкого фона. Графики исходных сигналов изображены на рис. 9.21, α и в, сплошной линией. На рис. 9.21, б и г, пунктиром показан выделенный гладкий фон. 123456789 10 123456789 10 123456789 10 123456789 10 Рис. 9.21. Два варианта исходных сигналов (а и в) и результаты выделения гладкого фона (б и г)
9,6. Поиск области инт рлейсинеа 261 20 О 60 № 100 20 40 60 80 100 Рис. 9.22. Исходное изображение (слева) и результат фильтрации (справа) Рисунок 9.22 демонст ирует применение этого же метода к двумерному 13ображению. На рис. 9,22 слева график яркости ана изирует^о- го изображения приведен θ виде двумерной поверхнос и Видно, то поверх ость можно описать как три $ вертикальных горных хребта» и три хребта в форме буквы ew&, расположеннь χ на гладком фоне. Требуется от ильтровать все особенности из Сражения, от. ичаю ие его от гла к г на вер ьал н χ реб об, пр 1чем он фетная рыл ^зация гладко о фона и вертикальных хреб он неизвестна. На рис. 9.22 справа π и веден результат выделения w-образных хребтов. Че н м цветом показаны «ложбинки» между хребтами. 9.6. Поиск области интерлейсинга В целом ряде устройств формирования изображений принят стандарт, в котором кадр формируе ся в два этапа: сначала создаю ся нечетнье стро и кадра а по ом — е ные, ели характерное время измене ия изоб ажаемых сце мно ό больше времени формирова шя кадра, это не оказывает заметного влияния на качество снимка. Иное де о, ,огда в сцене фисутс вуе быс двр жущ ^ся объе ν : огда нечетные строки иксирую положение объекта в момент време и t, а четные — в момент времени + tc/2 где tc — время фо мирования кадра; в результате четь ые строки соде жат зображение объекта, сдвинутое относите л но соседних нечетн χ и изобр же е объекта выгляди «полосатыми, civ , ρ tc* 9.23, вверху слева. Если время форм и рования с роки много mci ьгие характерного времени измени ия сцены, то способ бо ьбы с такими искажениями состоит в поиске φ агментов изображения, на которых соседн ie четные и нече ные с рок сдвину ь одна о носитель о другой, и с последующим сдвигом л ι6ο заменой етных с рок на не е ные. Такие фрагме! ты будем ъ азывать «областью интерлейсинга*. В этом 1унк е редлагается морфоло ичес ,ий метод поиска фра г ментов * зображен iflt на вторых чет ые строки сдвинуты от юситель- xl)1 100 100
262 Гл. 9. Примеры решения задач морфологического анализа I 1 1 Рис. 9.23, Вверху: слева — зображение искаженное интерлеисингом спра- в — изображеие Ч?я{\ ♦), on *еделе! из , в (9,24). Б изу: еле а — ι е е ая область интерлейсинга (после морфологической фильтраци), справа — результат коррекции интерлейсинга но нечетных. I дея метода сое оит в том, что обычно на изоб ажениях соседние строки мало о личаются одна от другой по форме; если же речь идет об областях искажений, то похожими оказываются не соседние стро и, а расположение через о ну, в то в ем д к стро а, находяща ся между ними, не похожа ни на верхнюю, н на ^жнюю 9-6Л, Модель изображения, искаженного интерлейсингом. Пусть изображение q G 7Ϊ/1 задано на поле зрения X, состоящем из N строк; каждая строка пре ставляет собой множество точек X = {Xi е 7£1, г = Ι,.^,η}- Зна ение qj(xi) изображения в то ке χΊ строки j поля зрения X вляется яркостью изображения в точке {xuj) поля зрения X, Xi € X, j = I TV, i = 1 п. Строку q^} с юмером j изображения q будем рассматривать как вектор евклидова пространства 1Zn, Следуя аботе [3 , математи ескую мо е ib области интер 1ейсин а на изображении q сформулируем следующим образом. Зафиксируем номер строки j поля зрения, 1 < j < Nt выберем точку х$ е Xt при надлежащую этой строке вместе с ^которой окрестностью Δ(χϊ) £ X, сое оящей из к точек множества X. Рассмотрим окрестность Δ{χι) выбранной точки χ на стро ах с номерами j— 1, j и j+L На э ой окрестности определен фра ме τ i-i(-)i q3(-) <fr+i(") зоб а е- ния q. Так как окрестность Δ(χ-} состоит из к точек, то вь бранные фрагменты рассматриваются как векторы ^-мерного евклидова про странства 72.*. По аналогии с (1.22) зададим класс F преобразова шй яркости изображения, опреде им операцию сравнения по форме
9.6. Поиск области интерлейсинга 263 изображений-строк <^(·) и <fr+i(·) на подмножестве Δ(χϊ) С X, считая, что форма изображения qj(·) не сложнее, чем форма <fr+i(·) (qj(-) -< -<9j+i('))> если Qj(') = (F ° Qj+i)XA(Xi)(') + <р(-)Хх\А(хг)(') Для некоторого преобразования F e F; F — класс всех монотонных функций. Форму изображения-строки на подмножестве Δ(χ{) С X строки поля зрения X определим как множество изображений Vq*™ = {henM: h = (Foq)XA{xi) + + ΨΧχ\Α(Χί)^Ε¥}^Ζ^. (9.23) Будем считать, что точка Х{ е X относится к области, искаженной интерлейсингом, если изображения qj-i(-) и <fr+i(·) сравнимы по форме на Δ(χ{), а изображение <^(·) не сравнимо по форме на Δ(χ{) ни с одним из изображений qj-i(-) и <?j+i(·)· На практике, однако, не искаженные интерлейсингом строки изображения с номерами j — 1 и j + 1, строго говоря, не будут сравнимы по форме, так как они могут отображать разные части объектов сцены. Поэтому будем относить точку Х{ Ε Χ к области поля зрения, искаженной интерлейсингом, если предположение о том, что изображения qj-\(·) и <fr+i(·) сравнимы по форме на Δ(χ), а <^(·) не сравнимо по форме на Δ(χ) ни с одним из изображений qj-i(-) и ^+ι(·), более правдоподобно, чем предположение о том, что qj(-) сравнимо по форме хотя бы с одним из qj-i(-) и ς^+ι(·). 9.6.2. Морфологический метод поиска области интерлейсинга. Для определения меры сравнимости по форме изображений строк на подмножестве Δ(^) рассмотрим операторы P^t Pj' и Р.*у проецирования в 1Zk н