Математические методы распознавания образов: Курс лекций. Лепский А.Е., Броневич А.Г. Таганрог: Изд-во ТТИ ЮФУ, 2009. 155 с. ISBN 978-5-8327-0306-0
Оглавление
Основные обозначения
Предисловие
Часть I. Детерминистский подход в теории распознавания образов
1.2. Типы характеристик образов
1.3. Типы систем распознавания
1.4. Математическая постановка задач распознавания. Распознавание как некорректная задача
2. Классификация с помощью решающих функций
2.3. Общий подход к нахождению линейных решающих функций. Алгоритм Хо-Кашьяпа
2.5. Задача понижения размерности
2.5.1. Метод главных компонент
2.5.1.1. Корреляционный подход в методе главных компонент
2.5.1.2. Алгебраический подход в методе главных компонент
2.5.2. Линейный дискриминант Фишера
3. Классификация с помощью функций расстояния
3.2. Способы измерения расстояний между векторами признаков
3.3. Способы определения расстояния между вектором-образом и классом
4.1. Постановка задачи кластеризации
4.3. Алгоритмы расстановки центров кластеров
4.3.1. Алгоритм простейшей расстановки центров кластеров
4.3.2. Алгоритм, основанный на методе просеивания
4.3.3. Алгоритм максиминного расстояния
4.4. Алгоритм FOREL
5.1. Линейно разделимый случай
5.2. Линейно неразделимый случай
6. Нейронные сети и проблемы распознавания
6.1.1. Алгоритм обучения персептрона
6.1.2. Сходимость алгоритма персептрона
6.1.3. Алгоритм обучения слоя персептронов разделению нескольких классов
6.2. Идеология нейроинформатики
6.3. Элементы нейронных сетей
6.4. Архитектуры нейронных сетей
6.5. Математические возможности нейронных сетей
6.6. Базовые математические задачи, решаемые нейронными сетями
6.7. Основные алгоритмы обучения нейронных сетей
6.7.1. Алгоритмы обучения одного нейрона
6.7.1.1. Алгоритм обучения Хебба
6.7.1.2. Персептронный метод обучения
6.7.1.3. Адаптивное обучение нейрона. Формула Уидроу
6.7.2. Обучение многослойной нейронной сети методом обратного распространения ошибки
6.7.3. Алгоритм и сеть Кохонена
6.7.4. Сети ассоциативной памяти
6.7.4.1. Алгоритм и сеть Хопфилда
6.7.4.2. Алгоритм и сеть Хэмминга
7. Метод потенциальных функций
Часть II. Статистический подход в теории распознавания образов
2. Байесовский классификатор
2.2. Наивный байесовский классификатор
2.3. Отклонение величины средней ошибки неправильной классификации от наименьшей при небайесовской классификации
2.4. Обобщенный байесовский классификатор
3. Минимаксный критерий классификации
4. Критерий Неймана-Пирсона
5. Критерии классификации в случае нормального распределения признаков в каждом классе
5.1.1. Байесовская классификация
5.1.2. Минимаксный классификатор
5.1.3. Классификатор Неймана-Пирсона
5.2. Классификация в случае многомерного нормального распределения признаков в классах
5.2.1. Многомерное нормальное распределение
5.2.2. Байесовский классификатор для нормального многомерного распределения признаков в классах
5.2.3. Вероятности ошибок неправильной классификации в случае нормального распределения признаков в классах
6. Статистическое оценивание вероятностных характеристик
6.1.1. Метод максимального правдоподобия
6.1.2. Метод моментов
6.2. Непараметрические методы оценивания
6.2.1. Гистограммный метод оценивания
6.2.2. Адаптивный гистограммный метод оценивания
6.2.3. Методы локального оценивания
6.2.3.1. Метод парзеновского окна
6.2.3.2. Метод kN ближайших соседей
6.2.3.3. Решающее правило, основанное на методе kN ближайших соседей
6.2.4. Метод оценивания с помощью аппроксимации функции плотности
Заключение
Библиографический список
Приложения
Приложение 2. Нахождения дискриминантной функции по прецедентам методом потенциальных функций
Приложение 3. Построение байесовского классификатора по выборке двумерных нормально распределенных векторов
Приложение 4. Построение гистограмм функций плотности распределения
Приложение 5. Построение байесовского классификатора по прецедентам
Предметный указатель
Text
                    МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ
РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
Технологический институт
Федерального государственного образовательного
учреждения высшего профессионального образования
«Южный федеральный университет»


А.Е. Лепский, А.Г. Броневич


МАТЕМАТИЧЕСКИЕ МЕТОДЫ
РАСПОЗНАВАНИЯ ОБРАЗОВ


Курс лекций


Таганрог 2009




Оглавление  ОГЛАВЛЕНИЕ.............. нии ини ини иене ини нии нии нии тьньньнив ОСНОВНЫЕ ОБОЗНАЧЕНИЯ................... ини иииииниии нии ни нининии нии ннннннние ПРЕДИСЛОВИЕ .................... ети нии  ЧАСТЬ IL. ДЕТЕРМИНИСТСКИЙ ПОДХОД В ТЕОРИИ РАСПОЗНАВАНИЯ ОБРАЗОВ ................ ини иининииииинининиии нити нии ни нининнннние 1. Предмет распознавания образов................ ии нинниннининининининнннннннии 1.1. Основные задачи теории распознавания образов.............. иене 1.2. Типы характеристик образов............. ини 1.3. Типы систем распознавания ........... ини ининии нии нинниннинининнинннь 1.4. Математическая постановка задач распознавания. Распознавание как некорректная задача .................. линии ииннинииненненнне 2. Классификация с помощью решающих функций........... и нининииииининнннниния 2.1. Понятие решающих функциИй.......... ини ииининининнннннь 2.2. Линейные решающие функции (ЛРФ).................. инь 2.3. Общий подход к нахождению линейных решающих функций. Алгоритм Хо-Кашьяпа............ ини нинининннния 2.4. Обобщенные решающие функции (ОРФ).................... иене 2.5. Задача понижения размерности............ ини нии инниннинининнннннь 2.5.1. Метод главных КОМПОНенНТ............ ини иниииииини ян иниинининии 2.5.1.1. Корреляционный подход в методе главных компонент ............. 2.5.1.2. Алгебраический подход в методе главных компонент.............. 2.5.2. Линейный дискриминант Фишера.............. ни нинининииининниннннининининнние 3. Классификация с помощью функций расстояния.......... ини иииииининия 3.1. Способы стандартизации признаков.............. и ииииииниииинииининннниье, 3.2. Способы измерения расстояний между векторами признаков............. 3.3. Способы определения расстояния между вектором-образом и классом ........ ине инииииииии ини нии ии ни нии ини нии 4. Алгоритмы кластеризации (векторного квантования) ............... и ьььньниние, 4.1. Постановка задачи кластеризации............. ини иинининининннние 4.2. Алгоритм К-внутригрупповых средних (К-теап$)...............еееииииньнннии, 4.3. Алгоритмы расстановки центров кластеров............... и ининниининининининни, 4.3.1. Алгоритм простейшей расстановки центров кластеров.................. 4.3.2. Алгоритм, основанный на методе просеивания...................лннининнинь. 4.3.3. Алгоритм максиминного расстояния.............. линии иининнинининининнинь, 4.4. Алгоритм ЕОКЕТ. ............. иен ении ини ении нии 4.5. Алгоритм MCOMAY] SODATA)....... ce eececccccceceeecccceeceecccccccceeccseeeeeeeees 5. Машина (метод) опорных векторов........... ини нииининии нии нининининии 5.1. Линейно разделимый случай .............. линии ние ининининининнннь 5.2. Линейно неразделимый случай ............. +... иене ининининнниннннь 6. Нейронные сети и проблемы распознавания ............... и. нинининининининннннннннии 6.1. Понятие персептрона ............. линии ини 6.1.1. Алгоритм обучения персептрона............... и иинининининининннннннннияннннннннии 
6.1.2. Сходимость алгоритма TICPCCMTPOHA..........ccceccccccccsessssesesceeccceceeaeeeeees 55 6.1.3. Алгоритм обучения слоя персептронов разделению нескольких  КЛассов ...... иене нение ини ини нии нии ини нии ии ии нии нии ини инь нити 56 6.2. Идеология нейроинформатики............. и инииииииининииииииининнин нии инниннин няни 57 6.3. Элементы нейронных сетей................ нии иининининниннниннннниннининии 58 6.4. Архитектуры нейронных сетей ............. ини нннннннинининии 59 6.5. Математические возможности нейронных сетей ..................иьииининии 60 6.6. Базовые математические задачи, решаемые нейронными сетями ....... 62 6.7. Основные алгоритмы обучения нейронных сетей .................ешеиининии 63 6.7.1. Алгоритмы обучения одного нейрона.................ининннииинииинининии 63 6.7.1.1. Алгоритм обучения Хебба................... и иииииннииининиинииинниннннь 63 6.7.1.2. Персептронный метод обучения ............ ини ииииииниииининиинииннь 65 6.7.1.3. Адаптивное обучение нейрона. Формула Уидроу..................... 65 6.7.2. Обучение многослойной нейронной сети методом обратного распространения ошибки .................. ини иининииииини ии нинининининини янь 66 6.7.3. Алгоритм и сеть Кохонена.............. нии иниииииниинннининининии 68 6.7.4. Сети ассоциативной памяти............. и иинииииииинининииииинннниннниянннннннинннннни 69 6.7.4.1. Алгоритм и сеть Хопфилда ............ нии иииииииининиинииия 69 6.7.4.2. Алгоритм и сеть ХэЭмминГа................. ии ииииииннииииининиинининниииннь 72 7. Метод потенциальных ФУНКЦИЙ .......... иен нииииии нии нинининияниннииннни 73 ЧАСТЬ П. СТАТИСТИЧЕСКИЙ ПОДХОД В ТЕОРИИ РАСПОЗНАВАНИЯ ОБРАЗОВ.............. нии иииииииииининининииининнинининннннининннни 80 1. Вероятностные характеристики среды распознавания и основные задачи статистической теории распознавания образов............... и ььиинининии 80 2. Байесовский классификатор............ нии ини ини нии ини ининиинииия 82 2.1. Постановка задачи байесовской классификации............... и нннининининни 82 2.2. Наивный байесовский классификатор ..........ccsccccccccccsssssesesceceeeeeeeseeeeees 82 2.3. Отклонение величины средней ошибки неправильной классификации от наименьшей при небайесовской классификации.......... 83 2.4. Обобщенный байесовский классификатор ............ и ннининииинининининининннии 84 3. Минимаксный критерий классификации ............ ини нии 86 4. Критерий Неймана-Пирсона.............. ини ииннннинниннн 88 5. Критерии классификации в случае нормального распределения признаков в каждом классе ................ ин еиниинининин нение ннии ии енениини 89 5.1. Критерии классификации в случае нормального одномерного распределения признаков ................ и ььениинининининининниннини ни ини ни ннененинннни, 89 5.1.1. Байесовская классификация...............нинииииинининииииинннннннини нити 89 5.1.2. Минимаксный классификатор ........... ии иинининнинниниинннннннини нити 90 5.1.3. Классификатор Неймана-Пирсона................ + ииининннннининнинининннни 95 5.2. Классификация в случае многомерного нормального распределения признаков в классах.............. «нии 96 5.2.1. Многомерное нормальное распределение................. не инииеьиньнинннин 96  5.2.2. Байесовский классификатор для нормального многомерного распределения признаков в классах ............... ии 98 
5.2.3. Вероятности ошибок неправильной классификации в случае  нормального распределения признаков в классах.............. и иннниннинининии 101 6. Статистическое оценивание вероятностных характеристик................... 103 6.1. Параметрическое оценивание вероятностного распределения .......... 103 6.1.1. Метод максимального правдоподобия ............... ини нии иннинниннинннинннни 104 6.1.2. Метод моментов............. и иииииииииинининиинии ини ини нии ини нии ния ни ни ниннннн 108 6.2. Непараметрические методы оценивания .................. неее 109 6.2.1. Гистограммный метод оценивания............... и ининннннннининннннннизнннннии 109 6.2.2. Адаптивный гистограммный метод оценивания .................инииининии 111 6.2.3. Методы локального оценивания................. чи иниинининннининннннннннияннннннии 113 6.2.3.1. Метод парзеновского окна .............. и иинииииииииинниининининннинннни 116 6.2.3.2. Метод Км ближайших соседей............. ини низининиианивьнине, 117 6.2.3.3. Решающее правило, основанное на методе Км ближайших СОСедДеЙ................. и иииинининиииинннинини нии ни иен еиииииии янь 119 6.2.4. Метод оценивания с помощью аппроксимации функции ПЛОТНОСТИ ........ ини еининнннии 120 ЗАКЛЮЧЕНИЕ............... ини нии иииии нии ии нии ини нии ини ини нннннии 124 БИБЛИОГРАФИЧЕСКИЙ СПИСОК ........... лилии 125 ПРИЛОЖЕНИЕ 1. КЛАСТЕРИЗАЦИЯ ДАННЫХ АЛГОРИТМОМ НОКЕГ .......... ини иииии нии нии нии нии инте 127  ПРИЛОЖЕНИЕ 2. НАХОЖДЕНИЯ ДИСКРИМИНАНТНОЙ ФУНКЦИИ ПО ПРЕЦЕДЕНТАМ МЕТОДОМ ПОТЕНЦИАЛЬНЫХ ФУНКЦИИ ................ нии ини ееиииииннни 131  ПРИЛОЖЕНИЕ 3. ПОСТРОЕНИЕ БАЙЕСОВСКОГО КЛАССИФИКАТОРА ПО ВЫБОРКЕ ДВУМЕРНЫХ НОРМАЛЬНО  РАСПРЕДЕЛЕННЫХ ВЕКТОРОВ................... инь нинииииининннниинини нити 136 ПРИЛОЖЕНИЕ 4. ПОСТРОЕНИЕ ГИСТОГРАММ ФУНКЦИЙ ПЛОТНОСТИ РАСПРЕДЕЛЕНИЯ................... нение 140 ПРИЛОЖЕНИЕ 5. ПОСТРОЕНИЕ БАЙЕСОВСКОГО КЛАССИФИКАТОРА ПО ПРЕЦЕДЕНТАМ................... нии иииииееиеиииииинии 147  ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ.......... „и ииииииииииинилилилитинилилиитииинитинитиииииннния 153 
и  а  С, d(x) d(x,y)  d, (x.y) =|x—yl], d,(xy) =|x-y\, d (x,y) = lx 7 У|;- а, (x,y) d(x,@) d(@,,,) I F(w) МГ т № n (7) sgn(t) u(x,y)  T У  Ww =(w,)  Основные обозначения  — мощность множества А;  — статистическая оценка параметра а распреде- ления случайной величины; — центр класса @ (кластера Х,); — решающая (дискриминантная) функция; — метрика (функция расстояния) между векто- рами хиу; — метрика Минковского (1< р<о);  — метрика Евклида; — метрика Махалонобиса;  — метрика Канберра; — расстояние между вектором х и классом @); — расстояние между классами @) и @;; — единичная матрица; — функция критерия (функционал ошибки); — оператор математического ожидания;  — количество классов, — количество элементов обучающего множества  — размерность пространства признаков К”; — платежная матрица; — функция знака (сигнум); — потенциальная функция; — транспонирование вектора у; _ вектор весов дискриминантной функции; — область предпочтения класса &,; — образ; _ вектор-столбец признаков образа х; — 1-й признак образа х; — 1-й прецедент; — множество меток классов; — полная ортогональная система функций; — функция Хэвисайда; — множество классов; — 1-Й класс; — обучающее множество (выборка);  — множество прецедентов,  9 
Предисловие  В данной книге изложен материал основной части семестрового курса лекций по математическим методам искусственного интеллекта, читаемый студентам специальности «Прикладная математика и информатика» Техно- логического института Южного федерального университета в г. Таганроге. Методы распознавания образов представляют собой наиболее математи- зированный раздел теории искусственного интеллекта, в котором решаются задачи, связанные с классификацией объектов произвольной природы. Распо- знавание образов одна из тех задач, которые постоянно решаются «естест- венным» интеллектом. Поэтому усилия ученых уже на протяжении полувека направлены на разработку методов и алгоритмов «автоматического» решения этой задачи. Распознавание образов в той или иной конкретной ситуации свя- зано с учетом неопределенностей различной природы. В простейшем случае, когда образы однозначно определяются конечным набором признаков, гра- ницы классов точно описываются, а сами классы не пересекаются, степень неопределенности можно считать минимальной, и задачу классификации можно решать, не учитывая неопределенность данных. Такой подход услов- но назовем детерминистским и ему посвящена первая часть книги. Кроме то- го, в этой части рассмотрены основные задачи теории распознавания образов и основные пути их решения. Одной из основных задач теории распознава- ния образов является задача оптимального выбора системы признаков, наи- более информативно описывающей образы. Другая важная задача — описание классов (в том числе и задача кластеризации), построение решающих (дис- криминантных) функций, с помощью которых тот или иной образ можно от- нести одному из классов. В теории распознавания образов существует не- сколько, как правило, взаимосвязанных подходов к построению решающих функций. Эти подходы появились в результате применения разнообразного математического аппарата и моделирования аналогичных механизмов распо- знавания в живой и неживой природе. Вариативность различных подходов к распознаванию нашла отражение в структуре первой части курса лекций. В первой главе определяется предмет распознавания образов, формулируются основные задачи теории, и рассматривается общая математическая постанов- ка задачи распознавания. Во второй главе вводится понятие решающей (дис- криминантной) функции, формулируется общий оптимизационный подход к нахождению таких функций, а также исследуются две важные двойственные задачи — задача вложения пространства признаков в пространство большей размерности, в котором первоначально линейно неразделимые классы будут линейно разделимыми, и задача понижения размерности. В третьей главе рассматривается классификация образов с помощью определения функции расстояния между образом и классом. В четвертой главе исследуются раз- личные подходы к решению задачи кластеризации данных, т.е. такого раз- биения множества данных на непересекающиеся подмножества, при котором оптимизируется некоторый функционал качества разбиения. В пятой главе рассматривается так называемая машина опорных векторов, служащая для 
нахождения оптимальных в некотором смысле решающих функций. Этот ме- тод появился в 60-80-е годы прошлого века в работах В. Вапника и стал ос- новой разработанной им статистической теории обучения. В настоящем кур- се лекций сама статистическая теория обучения [37], вопросы оценки качест- ва алгоритмов нахождения решающих функций (алгоритмов обучения) не обсуждаются. В шестой главе рассматривается нейросетевой подход к реше- нию ряда задач распознавания. В этом подходе моделируются некоторые ме- ханизмы мозга, а именно механизмы формирования путем обучения таких связей между нейронами сети, которые позволили бы решать множеству нейронов определенные задачи. Причем эти связи можно формировать путем обучения — «поощрения» при правильной работе и «наказания» при непра- вильной. Нейросетевой подход (нейроинформатика) появился в 50-60-е годы прошлого века, но долгое время не имел строгого математического обосно- вания, что и привело в конце 60-х годов, когда С. Пейперт и М. Минский [22] показали ограниченность возможностей существовавших в то время нейро- сетевых устройств — персептронов, к кризису в нейроинформатике. За по- следние 20 лет были строго математически исследованы возможности ней- ронных сетей [6], что нашло отражение и в данном курсе лекций. Наконец в седьмой главе первой части рассматривается еще один подход к построению дискриминантных функций — метод потенциальных функций. Этот подход представляет собой некоторое обобщение других методов описания классов по множеству прецедентов. Вторая часть книги посвящена решению задач распознавания в условиях неопределенности. Неопределенность может проявиться и на этапе выбора информативных признаков, и на этапе описания — определения границ клас- сов, а следовательно, и на этапе классификации — отнесения образа одному из классов, и на этапе принятия решения. Неопределенности можно по разному описывать. И хотя существуют разные подходы к описанию неопределенно- стей [34], в курсе лекций рассматривается только традиционный способ опи- сания неопределенностей — вероятностный. В этом случае предполагается, что система распознавания работает в некоторой внешней среде, вероятност- ные характеристики которой либо известны, либо могут быть оценены по обучающей выборке. Основные вероятностные характеристики среды рас- сматриваются в первой главе второй части. С учетом вероятностных характе- ристик среды задача классификации формулируется как задача нахождения такого решающего правила — правила отнесения образа тому или иному клас- су, для которого минимизируется средняя ошибка неправильной классифи- кации. Такой подход лежит в основе классического байесовского правила классификации и рассматривается во второй главе второй части. При недос- татке априорной информации о вероятностных характеристиках среды или величине потерь при неправильной классификации вместо байесовского классификатора могут быть использованы так называемый минимаксный и Неймана-Пирсона критерии классификации, которые исследуются в третьей и четвертой главах второй части. В пятой главе основные критерии класси- фикации рассматриваются в случае нормального (одномерного и многомер- 
ного) распределения признаков в классах. Наконец в последней шестой главе обсуждаются способы статистического оценивания вероятностных характе- ристик по обучающей выборке. Поскольку данный курс лекций, прежде всего, адресован студентам спе- циальности «Прикладная математика и информатика», то в первую очередь обращается внимание на математический аспект того или иного метода. В частности, авторы стремились продемонстрировать единый функционально- оптимизационный подход к нахождению решающих функций и кластериза- ции данных. С другой стороны, далеко не все рассуждения в книге отлича- ются законченной математической строгостью и полнотой. Кроме того, неко- торые разделы теории распознавания образов оказались за рамками книги. Это объясняется, прежде всего, тем, что по объему излагаемого материала авторы пытались уложиться примерно в 25-30 лекций семестрового курса. Авторы также старались сделать книгу как можно более конкретной (в смыс- ле кнутовской «конкретной математики»). Поэтому читатель не найдет здесь абстрактных обобщений в духе книг Э. Патрика [25] или У. Гренандера [3]. По соотношениям строгость-конкретность-наглядность курс ближе всего к классическим книгам Р. Дуды, П. Харта [9] (или к обновленной версии этой книги [33]) и Дж. Ту, Р. Гонсалеса [28]. Практически для всех рассмотренных в курсе методов и алгоритмов разобраны примеры их применения. Кроме то- го, в приложениях приведены примеры типовых расчетов некоторых базовых алгоритмов, выполненных с помощью пакета для научных и инженерных расчетов Ма@Са4. Эти расчеты могут быть взяты за основу при разработке лабораторных работ по данному курсу. Курс лекций может быть также полезен студентам и аспирантам других специальностей, которые хотят познакомиться с теорией распознавания об- разов. Все пожелания и замечания по курсу лекций просьба отправлять по электронному адресу айех 1ерзК1у @ та! .сот. 
Часть [. Детерминистский подход в теории распознавания образов  1. Предмет распознавания образов  Распознавание образов -— это наука о методах и алгоритмах классифика- ции объектов различной природы. С задачей распознавания любой человек сталкивается ежеминутно. Например, мы узнаем людей и предметы, распо- знаем буквы и цифры, понимаем речь, распознаем с разной степенью успеш- ности опасные ситуации. Можно сказать, что живые организмы вынуждены в процессе своей жизнедеятельности постоянно решать задачи распознавания. От успешности решения этих задач зависит успешность функционирования и даже жизнь биологического организма. Любая здоровая биологическая особь обладает чрезвычайно развитыми способностями к распознаванию образов. Решение задач распознавания — это необходимый атрибут взаимодействия живого организма с внешней средой. В последние десятилетия различные за- дачи распознавания все чаще решают с помощью средств вычислительной техники. Более того, с развитием средств вычислительной техники появились возможности для решения тех задач распознавания, которые ранее не могли быть решены. Можно выделить следующие наиболее важные направления развития интеллектуальных систем (т.е. систем, решающих задачи, традиционно отно- симые к интеллектуальной сфере), в которых широко используются методы распознавания образов: ® распознавание символов (печатного и рукописного текстов, банковских чеков и денежных купюр и т.д.); ® распознавание изображений, полученных в различных частотных диа- пазонах (оптическом, инфракрасном, радиочастотном, звуковом) и ана- лиз сцен; распознавание речи; медицинская диагностика; системы безопасности; классификация, кластеризация и поиск в базах данных и знаний (в том числе ив Интернет-ресурсах).  1.1. Основные задачи теории распознавания образов  Рассмотрим основные задачи теории распознавания образов на примере работы технической системы, осуществляющей распознавание символов — цифр, букв и т.д. Такая система была разработана в США в начале 60-х годов прошлого века и долгое время использовалась для распознавания конвертных символов. Предположим, что на вход системы распознавания поступает некоторый символ х, написанный на бумажной ленте и который необходимо распо- знать. Объекты, подлежащие распознаванию, называют образами («райегп»). Техническая система имеет считывающую головку, которая, передвигаясь 
слева направо, измеряет скорость х(Г) изменения площади зачерненной по- верхности в зависимости от времени 1 (рис. 1.1). Говорят, что функция х(Е)  является представлением образа-символа х. Можно измерить сигнал в дис- кретные моменты времени — получим другое представление символа х в виде некоторого вектора х. Саму функцию х(Г) также можно  считать вектором — элементом в пространстве функций. Переход от одного представления к другому, как правило, сопровождается умень- шением количества информации 06 образе. Puc. 1.1 Будем считать, что входной образ-символ х может принадлежать некоторому классу из множества всех классов  Q={0,,....0,,} - каждый класс соответствует некоторому символу (букве, цифре и т.д.). Предполагается, что классы являются непересекающимися.  Рис. 1.2  Общая схема системы распознавания образов показана на рис. 1.2. Зада- ча распознавания образов состоит в соотнесении исходного образа х одному из классов @,. Правила соотнесения образа одному из классов называются  классификатором и реализуются в блоке классификации. Если образам соот- ветствуют векторы — элементы метрического пространства, то соотнесение образа классу можно осуществить, например, с помощью вычисления рас- стояния между вектором и классом. На выходе классификатора мы должны получить тот класс (номер класса), которому принадлежит входной образ с указанием степени достоверности классификации или получить информацию о том, что входной образ не принадлежит ни одному из классов. Между блоком преобразования образа в векторную форму и классифи- катором может быть блок выбора небольшого числа наиболее информатив- ных в данной задаче распознавания признаков образа (например, это может быть преобразование аналогового сигнала х(Р) в вектор х). Наличие этого  блока позволяет уменьшить размерность векторов и повысить тем самым бы- стродействие системы распознавания. В общей системе распознавания может быть блок обучения. Этот блок по выборке так называемых обучающих образов, принадлежность которых классам известна, позволяет сформировать правила классификации в той или иной форме. Кроме этого, по обучающим образам могут быть выработаны правила выбора наиболее информативных признаков. 
Анализируя вышерассмотренный пример и схему распознавания (рис. 1.2), можно выделить следующие основные задачи теории распознава- ния образов: 1. Математическое описание образов. Наиболее удобным математиче- ским описанием считается векторное описание образов. В этом случае каж-  ws T дому образу х ставится в соответствие некоторый вектор х = (х,,х,,...) при- знаков х, этого образа — элемент векторного пространства Х. Такое вектор-  ное пространство называется пространством признаков. Как правило, это пространство является конечномерным и метрическим. Если признаки такого пространства являются вещественными величинами, то такое пространство изоморфно метрическому пространству А”, п — размерность пространства признаков. Требование метричности пространства существенно, поскольку многие процедуры построения классификаторов связаны с необходимостью вычислять расстояния между векторами, соответствующих образам. В некоторых задачах распознавания (например, при распознавании изо- бражений) векторы признаков могут иметь разные длины. Кроме векторных возможны и другие представления образов, например, матричное при распо- знавании изображений. 2. Выбор наиболее информативных признаков, описывающих данный образ. Это одна из основных и важных задач в теории распознавания образов — найти минимальное количество признаков, наиболее информативно описы- вающих образы в данной системе (или задаче) распознавания. Полный набор выбранных для распознавания признаков называют алфа- витом признаков. Минимальный же набор признаков, достаточный для ре- шения данного класса задач распознавания, называют словарем признаков. Заметим, что словарь признаков не обязательно является подмножеством ал- фавита признаков — он может содержать и некоторые функции от элементов алфавита признаков. В общем случае система должна сама определить сло- варь признаков. От степени удачности выбора алфавита признаков и нахож- дения словаря признаков зависит эффективность работы системы распозна- вания. 3. Описание классов распознаваемых образов. Эта задача сводится к определению границ классов. Границы классов могут быть заданы явно на этапе разработки системы распознавания или система сама должна их найти в процессе своей работы. 4. Нахождение оптимальных решающих процедур (методов класси- фикации), т.е. методов соотнесения вектора признаков образа некоторому классу. 5. Оценка достоверности классификации образов. Эта оценка необ- ходима, чтобы лицо, принимающее решение (это может быть и техническая система), связанное с отнесением образа тому или иному классу, могло оце- нить величину потерь, связанных с неправильной классификацией. 
1.2. Типы характеристик образов  Выделяют три основных типа характеристик-признаков: 1. Физические характеристики, например, показания, снятые с различ- ных датчиков. Физические характеристики могут быть детерминированными и вероятностными. Лучше всего физические характеристики описывать с по- мощью векторов и обрабатывать как элементы векторного пространства. 2. Качественные характеристики. Примерами качественных характери- стик являются понятия «темный», «светлый», «высокий» и т.д. Такие харак- теристики могут быть описаны с помощью так называемых лингвистических переменных методами теории нечетких множеств. 3. Структурные характеристики. Эти характеристики употребительны для описания изображений сложных объектов (рис. 1.3) или сцен. При опи- сании структурных характеристик используется некоторый формальный язык (например, теория графов (рис. 1.4)). 4. Логические характеристики — это высказывания, о которых имеет смысл говорить истины они или ложны.  Рис. 1.3 Рис. 1.4  1.3. Типы систем распознавания  Можно выделить несколько критериев классификации систем распозна- вания. Один из таких критериев — по характеру информации о признаках: детерминистские; вероятностные; логические; структурные; комбинированные. Другой критерий — по количеству априорной информации о распозна- ваемых объектах. Различают три основных типа систем распознавания. 1. Системы без обучения. Количество априорной информации доста- точно для определения алфавита признаков (полного набора признаков), формирования словаря признаков (т.е. определения минимального набора признаков, достаточного для решения задач распознавания) и определения границ классов. В этом случае в системе распознавания (рис. 1.2) отсутствует блок «обучение». 2. Системы, основанные на обучении с учителем. Количества априор- ной информации достаточно только для выбора алфавита признаков и фор- 
мирования словаря признаков, но не для определения границ между класса- ми. Системе распознавания предъявляется некоторое множество объектов я ={х,,....х»}, которое называется обучающим множеством (обучающей вы- боркой), с указанием, к каким классам эти объекты принадлежат. Система сама должна настроить параметры правил классификации таким образом, чтобы выполнялось условие минимальности ошибки неправильной класси- фикации. Например, (рис. 1.5) множество объектов обучающей выборки можно разделить двумя прямыми так, что объекты х,,х,,х, попадут в первый класс @,, объекты х,,х.,х, — во второй класс @,, а объекты х.,х, — в третий класс @,. С помощью процедуры обучения может быть также решена задача уменьшения словаря признаков.  = ome a, ne 1 4 }  == ыы м тн oer a amet! gag tl RE - s 1 # 4 % 2 4 a Ye | } XY 1 ao on Ps ra } : 5 6} 7 - 3 ty 4 4 { \ г ett ape ya’ Е № ` ‘ i ‘ i о  Рис. 1.5 Рис. 1.6 Рис. 1.7  3. Системы, основанные на самообучении (на объяснении). Количе- ства априорной информации недостаточно даже для формирования словаря признаков. В этом случае в систему распознавания образов вводится список правил, объясняющий задачи распознавания образов. Этот список правил вырабатывается, как правило, экспертами — специалистами в данной области знаний, такие системы называют экспертными (интеллектуальными). Систе- ма распознавания, исходя из этого набора правил, должна сама сформировать словарь признаков и определить границы классов. При этом, как правило, используются логико-лингвистические методы обработки данных. В такой системе процесс поиска классификационного решения называют логическим выводом или выводом на знаниях. Типичной областью применения таких систем является медицинская диагностика. Например, система распознавания для кардиологов (рис. 1.6, 1.7). Здесь а(Г) - изменение амплитуды сердце-  биений в зависимости от времени, r(t) — изменение расстояния между двумя максимумами амплитуды а(!).  1.4. Математическая постановка задач распознавания. Распознавание как некорректная задача  Пусть И — множество образов в данной задаче распознавания. Отдель- ный образ из этого множества будем обозначать символом х. Каждый образ хЕЙ может характеризоваться бесконечным (и даже несчетным) числом признаков. На этапе формирования алфавита признаков мы должны выбрать 
некоторое подмножество признаков (как правило, конечное), которое назы- вают пространством признаков. Это множество будем обозначать через Х. Как правило, множество Х снабжено линейной или метрической структура- ми. Чаще всего Х -— конечномерное метрическое (Х = А") или линейное про- странство. Пусть х — элемент пространства Х , соответствующий образу xeU,aP:U 4X - оператор, отображающий х в х. Заметим, что оператор  Р является оператором проектирования, т.е. P? =P. Kpome toro, X =P(U).  Предположим, что во множестве образов И в данной задаче распознавания нас интересуют некоторые подмножества — классы. В классической задаче классификации считается, что множество классов Q={@,...,@,} ABMAeTCA  конечным, и классы образуют полную группу подмножеств из U (разбиение пространства образов U ), т.е. LU" a, =U u @,00,=6 ona seex i#j. B  общем случае классов может быть и бесконечно много и они могут не со- ставлять полную группу множеств. Задачу классификации в этом случае на- зывают обобщенной и в данном курсе она не рассматривается. Классифицировать образ хе по классам @.....@, — это значит найти  т  так называемую индикаторную функцию 8:0 У, У={у,....у„}, которая ставит в соответствие образу хе метку у, Е У того класса &@., которому он принадлежит, т.е. 8(х) = у,, если хЕС..  Реально мы имеем дело не со всем множеством образов (0, а только с проекцией Х =Р(И) -— пространством признаков. Тогда требуется найти та-  кую функцию #:Х > У, которая ставила бы в соответствие каждому векто- ру х= РхеЕ Х метку у, е У того класса &,, которому принадлежит соответст- вующий образ, т.е. 8(х) = у,, если х=Рх, хе @.. Такая функция называется решающей. Заметим, что множество Р\"'х, хе Х может не быть одноэлементным, поэтому оно может иметь непустые пересечения с разными классами @..  Следовательно, функция g(x) будет неоднозначной. В этом смысле задача  классификации (распознавания) является некорректной задачей. В соответ- ствии с общим подходом решения некорректных задач (см. [28]), из много- значной функции $(х) можно выделить однозначную ветвь, если потребо-  вать, чтобы она удовлетворяла определенным условиям оптимальности. В качестве такого критерия оптимальности может выступать минимальность ошибки неправильной классификации. Такой подход, в случае, когда ошибка неправильной классификации имеет вероятностный характер, подробно рас- смотрен во второй части курса. В пространстве признаков Х множеству классов © ={@.....@,} соот-  ~ ~  ветствует некоторое, вообще говоря, покрытие Х,,..,Х»„ пространства X :  т  ~  Х, ={х = Рх:хЕ@}, 1=1.....т. Множества Х.,....Х„ могут, вообще говоря,  пересекаться. Поэтому вместо покрытия Х,,....Х„ будем рассматривать раз- 
биение X,,....X, пространства Х такое, что Х, < Х,. Такое разбиение будет определяться неоднозначно. Чем «правильнее» выделены наиболее информа- тивные признаки, тем «степень неоднозначности» выбора разбиения Х,,...Х„ будет меньше. Области Х, будем называть областями предпочте-  ния классов @,. Как правило, на этапе обучения системе распознавания доступна ин- формация о классах в виде некоторого множества пар (х,,у,), 7=1...., М ‚ где  х, =Рх,, у, =8(х,)Е У. Множество © ={х,,...ху} называют обучающей вы- боркой, а пару (х»У,) — прецедентом. По множеству прецедентов (=,У)= {(x,,y,): /=1,...,№} требуется найти решающее правило — функцию g(x),  которая осуществляла бы классификацию элементов обучающей выборки с наименьшим числом ошибок. В некоторых задачах (например, при кластеризации данных) множество меток У неизвестно. В этом случае система распознавания сама должна раз- бить обучающую выборку на классы, исходя из некоторых критериев опти- мальности.  2. Классификация с помощью решающих функций  2.1. Понятие решающих функций  Одной из основных задач распознавания образов является задача описа- ния классов. Предположим, что имеется некоторое (конечное) множество классов © = {@.....@,}. Каждый образ х опи- сывается некоторым набором признаков в про- t CTpaHCTBe признаков — вектором х. Все про- У странство признаков Х разбивается на т+1 } ан попарно несовместных множеств (полную м группу множеств) Ху,Х,,..., Хи: X,AX, =O  yw ra  a #  а цы,  А для всех 1%], /”,Х,=Х таким образом, что у ХЕ @, если хе Х,. Если же хе Х,, то будем считать, что образ х попал в область «неопре- Рис. 2.1 деленности» и в этом случае его классифици- ровать не будем. Говорят, что множество Х, является множеством предпоч- тения класса @ в пространстве Х (рис. 2.1). Таким образом, границами классов распознаваемых образов будем считать границы областей Х, (1=0,1.....т). Автоматическое нахождение границ классов — одна из основ- ных задач теории распознавания образов. Границы классов распознаваемых  объектов можно определять по-разному, например, с помощью понятия ре- шающей функции. Будем считать, что пространство признаков является п-  мерным метрическим пространством А”. В этом случае предполагается, что п существует т+1 функция 4,(х), хе К’ (решающие или дискриминантные 
функции) такие, что Х,={хе К" :4,(х)>0}. Поверхность 5,={хе К": а,(х)=0} называется разделяющей. Можно считать, что образ х принадле- жит классу @, если выполняются неравенства 4,(х)<0О для всех ] +1 и d,(x)>0.  2.2. Линейные решающие функции (ЛРФ) Так называются решающие (дискриминантные) функции вида A(X) = d(X,,X5,...,X,) = WX, +...+ wx, +w,,, =(W,X), ге \=(%,...и,.и.) - вектор весовых коэффициентов ЛРФ, х=(х,...х.,1)” -— вектор признаков образа. Разде- ляющая поверхность 5 ={хЕ А":4(х) =0} пред- < ставляет собой гиперплоскость в пространстве | ^^“. с  К". Рассмотрим частный случай линейной ре- ``. шающей функции на плоскости. Она имеет вид „С  4(х)=А(х,х,) =тх+и,х, +и,=0. — Предполо- a <” > жим, что образы расположены так, как показано | на рис. 2.2, где d(x)=x,+x,-2, w=(1,1,—2). To- Рис. 2.2 гда xEO,, если 4(х) >05 х+х,-2>0 И ХЕ С,, если  d(x)<0@x,+x,-2<0. Заметим, что не любые два множества векторов можно разделить с по- мощью линейной функции. В этом случае классы называют линейно нераз- делимыми, а задачу распознавания называют линейно неразрешимой. Теорема 2.1 (условия линейной разделимости классов). 1) Два множе- ства векторов линейно разделимы тогда и только тогда, когда их выпуклые  оболочки не пересекаются; 2) линейно независимая система векторов в К" линейно разделима на любые два класса. Доказательство. 1) следует из теоремы Хана-Банаха [17. С.134].  2) Пусть векторы х,....х„ линейно независимы в К”. Тогда т<п. Pac- < Т смотрим случай, когда т=п. Матрица У =[х,,...,х,] , составленная из век- торов х,......х„, будет невырожденной, т.е. деКУ) 0. Следовательно, для лю-  Т бого вектора у=(у,,....у,) существует решение матричного уравнения Т > Ум=у, где м=(и,...и,) - некоторый вектор весов. Пусть векторы  х,...ХЕХ, их „ХЕ Х,. Выберем у, >0,....у,>0, у. <0,,..., у, <0.  5+1) **  Пусть \=У у. Тогда 
Следовательно, (\,х,)>0, 1=1....,5 и (м,х,) <0, 1=5+1....п. То есть классы &, и ©, ‚ соответствующие областям Х, и Х,, линейно разделимы. В случае т <п линейно независимую систему векторов х,.....х,„ можно дополнить до линейно независимой системы в №” и повторить предыдущие рассуждения. № Заметим, что на практике вторая часть теоремы 2.1 редко бывает полез- ной. Как правило, число векторов, которые необходимо разделить на классы,  значительно больше размерности пространства признаков.  Если имеется множество прецедентов (=,У)= {(x,, y ›: ]1=1...,М№} двух 1, хЕ@,,  -1,x,€D,, то пункт 1) теоремы 2.1  классов @ и @,, где метки классов У; -|  можно переформулировать следующим образом. Теорема 2.1’. Bexmopoi Oeyx Kiaccoé {X,,...,.X,} CO, u {X,,,5...Xy}CO, 6 К" не разделимы никакой гиперплоскостью тогда и только тогда, когда вы-  М пуклая оболочка векторов { Ух} содержит начало координат.  веет  toy oa bot yg a  Puc. 2.3 Puc. 2.4  Предположим теперь, что имеются образы нескольких классов, причем любые два класса линейно разделимы. При разделении нескольких классов с помощью линейных решающих функций возможны следующие случаи:  1. Каждый класс отделяется от всех остальных классов одной линей- ной решающей функцией (рис. 2.3). В этом случае вектор хеХ,, если а,(х) > 0 и а, (х) <0 для всех ] +1.  Пример 1. Пусть 4(х)=-х+х,-2, а,(х)=х, а. (х)=-х, +1. Будем считать, что класс @, отделяется от классов @, и @, с помощью прямой 4 (х)=0, класс @, отделяется от классов @ и @, с помощью прямой 4,(х)=0, класс @, отделяется от классов @ и @, с помощью прямой а.(х)=0 (рис. 2.4). Тогда образ хе @., если 4,(х)>0, А,(х)<0О для всех 11. Поэтому каждая область предпочтения Х,, соответствующая классу @,, описывается системой неравенств 
d,(x) > 0, d,(x) <0, d,(x) <0, ii 9 d,(x) <0, X,: 4d,(x)>0, X,: 34, (®)<0, а, (х) < 0, а. (х) < 0, а. (х) > 0. При такой линейной классификации имеются большие области неопределен-  ности (области, не имеющие штриховку на рис. 2.4), т.е. такое множество Ху, что если хе Х., то нельзя однозначно определить принадлежность об-  Х  раза х одному из классов.  2. Каждые два класса можно разделить одной линейной разделяющей поверхностью. В этом случае любой класс отделяется от всех других классов с помощью не более (т-1-й разделяющих поверхностей, где т — число  классов. Для разделения всех классов требуется не более чем т(т-1)/2 ЛРФ. Линейные решающие функции имеют вид d,(X) = (WX), причем образ хе @,, если 4,(х)>0 для всех j #i. Пример 2. Пусть а,(х)=-х+х,-2, | 43(х)=-х,, 4:(х)=-х, +1. Будем считать, что аи класс @, отделяется от классов @, и @, с по- ЙЕ: мощью прямых 4,(х)=0и 4. (х)=0, класс @, Msi  отделяется от классов @, и @, с помощью пря- сш I  MBIX d,,(x)=0 u d,,(x)=0, knacc @, oTyemaeTca >  от классов @ и @, с помощью прямых хх Е d,,(x) =0 u d,,(x) =0 (puc. 2.5). | Если считать, что 4,(х)=-а„(х), то облас-  Рис. 2.5  ти принадлежности классам могут быть заданы следующими системами не- равенств  х. d,,(x) > 0, х. d,,(x) >0, х. d,,(x) > 0, 1 d,,(x)>0, ~ * d,,(x)>0, °° d,,(x) >0. В этом случае область неопределенности значительно меньше - неза- штрихованный треугольник на рис. 2.5. 3. Любой из т классов отделяется от всех остальных классов с помо- щью т решающих функций: 4,(х), 1=1,2,...К. Будем считать, что образ хе @,, если d,(x) > d (x) для всех J #1. Случай 3 является частным случаем 2. Если d,(x)=d,(x)—d,(x), To Ha- бор решающих функций будет удовлетворять случаю 2: образ хе @,, если а, (х) > 0 для всех 17]. 
Замечания. 1. Наиболее общим случаем линейной классификации является случай 2, который реализуется, если только любые два класса можно разделить одной ЛРФ. 2. Случай 2 показывает, что для линейной разделимости т классов тре- буется не более т(т-1)/2 ЛРФ.  3. С точки зрения эффективности классификации более предпочтитель- ны случаи 1 и 3. 4. Выбор того или иного случая классификации определяется сложно- стью системы распознавания и выбранным алгоритмом нахождения решаю- щих функций. 5. Основная задача — научить систему автоматически находить решаю- щие функции.  2.3. Общий подход к нахождению линейных решающих функций. Алгоритм Хо-Кашьяпа  Как следует из предыдущего раздела, для нахождения линейных ре- шающих (дискриминантных) функций необходимо найти какое-либо реше- ние системы линейных неравенств. Например, предположим, что нам нужно найти линейную решающую функцию, разделяющую образы двух классов ©, и @,. Пусть (=,У) — множество прецедентов, где = = {х,,...х»} — обу- чающая выборка, У ={у,,....у,} — множество меток двух классов. Тогда ли- нейная решающая функция ищется в виде 4(х) = (\,х), причем вектор весов \ должен быть таким, чтобы (\,х) > 0, если хЕ @ и (\,х)<0, если хЕ @..  х, хе 0,  р  Вводя унифицированные векторы xX = ‚ для выборки —х, хЕ ©,  ,  (x]  = {x',....Xy} задачу можно переформулировать так: необходимо найти та- кой вектор весов \, чтобы (м,х,)>0 для всех #=1,...,М№ (2.1)  или, в матричном виде Vw >0, (2.1) где V =[x\,....X,]° — MaTpuua, cocTaBieHHad 13 yHH@YUMpOBaHHbIX BeKTOPOB обучающей выборки. Эта задача, если система неравенств совместна, будет иметь множество решений. Наиболее общим подходом к нахождению како- го-либо решения системы неравенств является подход, использующий про- цедуры градиентных методов. В этом случае вводится так называемая функ- ция критерия Е(\) и ищется вектор \, минимизирующий функцию Е(м). Минимум функции Р(\) можно найти методом градиентного спуска с по- мощью следующей итерационной процедуры:  ww") =w” —h grad(F(w™)), k =1,2,..., 
rye h, — итерационный шаг.  Функцию критерия можно вводить разными способами. Важно, чтобы минимум этой функции достигался для того вектора м, для которого выпол- няется условие (2.1). Кроме того, эта функция должна удовлетворять опреде- ленным требованиям, гарантирующим сходимость итерационной процедуры.  Например, в качестве функции критерия можно взять Ё(\) = -> нев (WX) ,  где Е(\) — подмножество векторов обучающей выборки, которые для векто- ра \ классифицируются неправильно, т.е. (\,х”)<0.  Заметим, что нахождение вектора у, удовлетворяющего матричному неравенству (2.1'’), равносильно нахождению решения матричного уравнения  Ум =у для некоторого вектора у с положительными координатами. Эта система  уравнений, как правило, является переопределенной, т.е. число уравнений превышает число неизвестных. Кроме того, существует произвол в выборе вектора у. Такая постановка задачи является некорректной [28]. Искомый  вектор \ можно интерпретировать только как "исевдорешение" или "обоб- щеённое решение" системы, т.е. как вектор, минимизирующий функционал  >“ 2 квадрата среднеквадратичной ошибки Е(\,у)= 4 Vw - У| ‚. Поскольку  Е(\,у) - неотрицательно определенный квадратичный функционал в выпук-  лой области, то существует единственное решение поставленной задачи, ко- торое можно найти методом градиентного спуска. «Спуск» будет осуществ- ляться по поверхности критерия < =Р(\,у) против направления градиентов  grad,,F u grad, F . Wmeem  grad, F = vi (Vw-y), grad, F =—(Vw —y).  Поскольку на вектор м в отличие от вектора у не налагается никаких огра- ничений, он должен удовлетворять необходимому условию существования экстремума, т.е. отаа „Е =0 => V' Vw-y)=0@w=(V'V) V’y, (2.2)  если матрица viv невырожденная. Матрица v® = (УГУ) УТ называется псевдообратной к матрице У, а решение (2.2) — псевдорешением. Вектор у находится методом градиентного спуска, как вектор, обеспечивающий ми- нимум функционалу Р(\,у), по формуле:  ye) ay —h,grad, (F(w y®)) = y® +h, (Vw® -y)*, k=1,2,...,. (2.3) re u* =(u",...,uy)’, uy =untu,), i=l...,N, ecom u=(u,,....uy), W(t) — PyHK-  ция Хэвисайда. При этом вектор \ находится как псевдорешение по итера- ционной формуле  wD =У®у +0 к =1,2..... (2.4) 
Показано, что если классы являются линейно разделимыми, то алгоритм вы- числения весового вектора \ по формулам (2.3) и (2.4) сходится. Такой под- ход к нахождению решающей функции называется алгоритмом наименьшей среднеквадратичной ошибки (НСКО-алгоритмом) или алгоритмом Хо- Кашьяпа (Но Y.C., Kashayp R.L.).  НСКО-алгоритм 1. Выбирается произвольный вектор у®° с № положительными координата-  (0) у®, (0)  ми, вычисляется \ у`’ и полагается К =0.  k 2. Проверяется условие останова Уж“) >0. Если оно выполняется, то алго- ритм завершает работу, в противном случае — переход к пункту 3.  (k+1) И м (+0  3. Вычисляются векторы у по формулам (2.3) и (2.4), наращива-  ется К. Переход к пункту 2.  НСКО-алгоритм обладает одним интересным свойством: если на каком- k k либо k-m mare alropuTma oKaxeTca, ¥To Bce ommOKH (Vw? —y“)* =0, Ho  (k)  Vw? -y F# 0 ‚ то это означает, что классы не являются линейно разделимы-  МИ.  Пример. Предположим, что заданы двумерные образы — векторы х, = (1,2), х, = (0,2) Е Х, и х, = (1,3)', х, =(3,2)' Е Х,, принадлежащие об- ластям предпочтения Х, и Х, двух классов. Требуется найти линейную ре-  шающую функцию с помощью НСКО-алгоритма. Решение. Для того чтобы учесть смещение, добавим «единичку» в тре-  тью координату векторов и унифицируем векторы, получим: х, = (1,2,1)', x, =(0,2,1)’, x, =(-1,-3,-1)’, х, = (-3,-2,-1)'. Составим матрицу У и вы- числим псевдообратную матрицу У°:  10 -1 1 -1 -4 0 >-5 v’=|2 2 -3 -2], У’ =14 -5 -6 -14 3 1 1 -1 -l 16 22 28 —  Пусть у®=(,1,1,07. Тогда w® =v°y =1(-5,-11,31)". Так как  Vw =1(4,9,7,6)" — вектор с положительными координатами, то алгоритм  завершает свою работу и 4(х) =-5х, — 1х, +31 — решающая функция.  В случае, когда классы не являются линейно разде- лимыми, можно поставить другую задачу: найти такую линейную решающую функцию, чтобы ошибка непра- вильной классификации была минимальной (рис. 2.6). Такой подход реализует важное свойство хорошей сис- темы распознавания — свойство обобщения, которое  р 26 предполагает, что система распознавания должна уметь ИС. 2. 
классифицировать элементы «похожие» на элементы обучающей выборки. Например, на рис. 2.6 объекты нельзя разделить на два класса @, и @, одной  прямой. Вместе с тем, существует такая прямая, для которой ошибка непра- вильной классификации будет наименьшей. Можно предложить различные критерии ошибки неправильной классификации. Например, критерий  F(w)=|E(w)|= >) (Cw, x)  численно равен количеству неправильно классифицируемых векторов, а кри- терий  F(W)= Dero (WX) = У „ИС, хи, х)’  квадрату среднеквадратичной ошибки неправильной классификации, если BEKTOp W=(W,,...,.W,,W,,;) TaKOH, TO w, +...t we =1. Если координаты векторов признаков являются случайными величина- ми, то и ошибка неправильной классификации будет случайным событием. Тогда задача построения решающей функции сводится к нахождению такой функции, которая минимизировала бы вероятность неправильной классифи- кации. Такой подход будет подробно рассмотрен во второй части курса.  2.4. Обобщенные решающие функции (ОРФ)  Если классы нельзя разделить с помощью ЛРФ в пространстве А”, то следует вложить эти  классы в пространство К' большей размерности [>п с помощью некоторого отображения  ф: В" +R’. Причем это отображение должно  быть таким, чтобы классы в А можно было ли-  нейно разделить. Рис. 2.7  Пример. Предположим, что даны одномер- ные образы х,Е К' (1=1,2,3), причем {х,х,}Е @ их, Е @. Если на числовой прямой (рис. 2.7) эти классы линейно неразделимы, то можно осуществить  такое отображение этих образов в пространство Е”, в котором образы x}, X>, X, будут линейно разделимыми.  * wv Пространство образов х =Ф(х), хе К", в котором классы будут линей- но разделимы, называется спрямляющим пространством, а отображение ф -—  спрямляющим отображением. Для построения спрямляющего отображения можно использовать обобщенные решающие функции (ОРФ) вида  А(х) = и} (х)+... + «и,  где f,(x) — скалярные функции в А”. Тогда спрямляющее отображение ф будет иметь вид  ф:х— (Г (), Г, (х),...Л(%)) =X ER, He), 
roe f(x) =1. Torga d(X )=W,X, +..+ Wx), + =(м,х ). Частным случаем ОРФ являются квадратичные функции, которые в А” име- ют вид 2 2 d(X) =d(x,,X,) =W,X, + их, + хх, + их чих, + и». * 2 2 Используя обозначение х’=(х,х,хх,,х,х,,)’, эту функцию можно запи- * сать в виде d(x) =(w,x ). В общем случае в А” квадратичная решающая функция имеет вид п п п А(х)=а(х,,....х,)= УУ‘мхх, + У их +W,,, i=] 1 i=l При этом число компонент функции будет равно /[=С*^., (докажите!).  Обобщением квадратичных функций являются полиномиальные ре-  шающие функции, состоящие из компонент вида Хх: .....Х", 5 +...+5, — степень монома. С помощью  таких функций можно описывать очень сложные классы. Например, на рис. 2.8 изображены объекты х,...., Хх, кото-  рые можно отнести к разным классам @, и @,, разделив их с помощью обобщенной решающей функции а(х) = (х —1)° +(х, -3)-2=х +х = 2х — 6х, +8 ИЛИ d(x')=1-x, +1-x,+ 0-x,-2-x,-6-x,+8-1.  Puc. 2.8  Теорема 2.2. Любые т-+1 векторов могут быть разделены на любые два класса с помощью мономиального отображения степени не больше т. Доказательство. Докажем возможность разделения на любые два клас- са с помощью мономиального отображения множества двумерных векторов. Предположим, что на плоскости расположены т+1 точка-вектор х.....,х  т-1 ?  часть из которых соответствует образам, принадлежащим классу @/, а часть @,. Возможно два случая. 1) Все абсциссы точек-векторов х,,....х„., различны. Тогда через эти  7“ m+1 точки можно провести одну и только одну кривую порядка не больше т (3a- дача интерполяции), т.е. если х, = (х,,у,), 1=1,....т+1, то существует алгеб- раическая функция у=ф(х)=ах" +ах"" +...+а,„ такая, что y,=@(x,), р р ‚ |Уу +6, если х,е @,, 1=1,...т+1. Выберем новые точки х; =(х,,у;), где у, = у, - 2, если х, Е (,, =>0 и проведем алгебраическую кривую через эти новые точки. Тогда эта кривая будет правильно разделять все точки на классы &7, и @,.  2) Если абсциссы некоторых векторов-точек совпадают, то всегда можно повернуть исходную систему координат на некоторый угол @ с ПОМОЩЬЮ 
x=x cosat+y sing, преобразования координат ‚. , так, чтобы абсциссы всех y=-x sin@+ ycosa@ точек стали различными. При этом правильное разделение на два класса бу-  дет осуществляться с помощью алгебраической кривой порядка не больше т.м  Следствие. Существует мономиальное вложение пространства К" в  т n+m?  | > пространство К, [=С’.„, при котором образы любых т+1 точек линейно разделяются на любые два класса.  Доказательство. Число С”  п+т  равно количеству всех мономов вида ХИ +... Хи, +5, +...+5, < т. № Спрямляющее пространство имеет большую размерность, чем исходное пространство, что усложняет построение системы распознавания образов. Наблюдается известный парадокс: чтобы точнее описать образ нужно ис- пользовать векторы большой размерности. С другой стороны, временные за- траты при обработке таких векторов в системе распознавания становятся весьма значительными. Известный американский математик Р. Беллман' на- звал этот парадокс «проклятием размерности» (сигзе оЁ 4ппепзюопаШу). По- этому пытаются выбирать так ОРФ, чтобы размерность спрямляющего про- странства была наименьшей. Эта задача называется задачей понижения раз- мерности.  2.5. Задача понижения размерности  Задачу понижения размерности можно рассматривать как задачу выбора наиболее информативных признаков образов. Точнее, по заданной выборке векторов, принадлежащих разным линейно разделимым классам, требуется  найти такое подпространство К? исходного пространства А”, р<п, чтобы  после вычисления проекций х’ = ргхе Е? векторов хе К" на это подпро-  странство проекции классов оставались линейно разделимыми. Причем, же- лательно, чтобы проекции классов как можно «дальше» располагались друг от друга. Направление проектирования можно найти, анализируя корреляцию признаков в классах или дисперсии распределения признаков в классах. На- хождение направления проекции с помощью анализа корреляций признаков реализуется в так называемом методе главных компонент (в англоязычной литературе — Ряпсфе Сотропеп! Апа[у515) — одном из центральных методов факторного анализа. В литературе такой подход называют также разложе- нием Карунена-Лоэва (работы 40-х годов ХХ века) или преобразованием Хо- теллинга (работы 30-х годов ХХ века), хотя пионерской в методе главных  1 .. Беллман Ричард Эрнест (ВеЙтап В.Е.) (1920 - 1984) — американский математик. Ис- следования относятся к теории дифференциальных уравнений, теории оптимального управления. Разработал метод динамического программирования. 
компонент следует считать работу К. Пирсона' 1901 г. Анализ дисперсий признаков для нахождения направления проектирования осуществляется в дискриминантном анализе.  2.5.1. Метод главных компонент  Существует несколько интерпретаций и обоснований метода главных компонент. Рассмотрим корреляционную и алгебраическую постановки и обоснования метода.  2.5.1.1. Корреляционный подход в методе главных компонент  В этом случае рассматривается корреляция между признаками векторов- образов х обучающей выборки. Для решения задачи понижения размерности находятся такие линейные комбинации признаков, которые являются слабо коррелированными друг с другом на векторах обучающей выборки. Если векторы обучающей выборки являются центрированными (т.е. вся выборка имеет нулевое математическое ожидание), то проанализировать корреляцию признаков можно с помощью, так называемой, автокорреляционной матрицы К(х)=хх' (здесь и далее считаем, что х -— вектор-столбец). Если матрица К(х) является диагональной, то это означает, что корреляции между отдель- ными признаками этого образа нет. Аналогично можно рассмотреть автокор- реляционную матрицу векторов-образов в классе @,: К, Та, К(х), где  Од — число образов в классе @, и автокорреляционную матрицу всей обу-  ww 1 т ww чающей выборки А=т» КЮ. , где т - число классов. Тогда требуется найти т i=l  такое подпространство (например, прямую), чтобы автокорреляционная мат- рица А’ проекций векторов-образов на него была диагональной. Будем ис- кать проекции х’в виде х =5х, где 5 — матрица проецирования на подпро- странство. Тогда  R=+>R=— > Ух" РУ У бб" =SRS". xe, M j=1 ©;  хе  Матрица К является симметричной и неотрицательно определенной. Поэто- му она будет иметь неотрицательные собственные значения. Из курса линей- ной алгебры известно, что матрица К будет иметь диагональный вид, если матрицу перехода 5 составить из собственных векторов матрицы А. Чтобы векторы Хх’ имели меньшую размерность, необходимо матрицу перехода 5 составить из собственных векторов матрицы К, соответствующих наиболь- шим собственным значениям. Такой выбор собственных векторов будет га- рантировать наименьшую среднеквадратичную невязку между векторами выборки и их проекциями на выбранное подпространство, если вся выборка будет иметь нулевое математическое ожидание.  Пирсон Карл (Реагзоп К.) (1857 — 1936) — английский математик, биолог, статистик, фи- лософ. Разработал теорию корреляции. 
Пример. Проиллюстрируем схему метода глав- ных компонент на следующем примере. Предполо- жим, что заданы двумерные образы - векторы  x, = (/3/2,0)", x,=(0,0)", x,=(,)’eX, и x, = (-/3/2,0)", x; =(-1,-1)’ € X, (puc. 2.9), npunaz- лежащие областям предпочтения Х, и Х, двух клас-  сов. Требуется понизить размерность этих образов, Рис. 2.9  т.е. найти такое одномерное подпространство К’, проекции образов на которое остаются отделимыми, а классы — разделимы- ми. Заметим, что центр рассеяния элементов обучающей выборки находится в начале координат. Найдем автокорреляционные матрицы образов в клас- сах:  1 1/(3/2 0 о 11 1/5 2 вк чка ых [ о) (6 о [| =: >}  1 1((3/2 0) (1 1))_1(5 2 R= 50%, +x2x2)=3} (*f о (1 ea >]  и автокорреляционную матрицу всей выборки  _1 _5(5 2 R=5(K + R= 5 >) Найдем собственные значения и собственные векторы матрицы R: A, =5/4, e, =+(2,1)", A, =5/24, e, =+(-1,2)’.  В методе главных компонент проектирование необходимо осуществлять на то подпространство, которое «натянуто» на собственные векторы, соот- ветствующие наибольшим собственным значениям. Выполняя проектирова- ние на подпространство, «натянутое» на вектор е,, получим «новые» одно-  мерные векторы: х=5х, где S= (e7 ): х, = 30/5, x,=0, x; = 3/20/10, x, =- 30/5, x, =-3V20/10 (puc. 2.9). 2.5.1.2. Алгебраический подход в методе главных компонент'!  1. Постановка задачи. Дано множество # ={х,,....х„} векторов обучающей выбор-  ки пространства К". Необходимо найти р-мерное линейное многообразие М, (р<п),  которое минимизирует сумму квадратов расстояний от всех точек множества = до мно- гообразия М, (рис. 2.10), т.е.  О(М „=>. 4*(х»М „) > пи, (2.5)  1 > Этот параграф носит поясняющии характер и может быть рекомендован для самостоя- тельного изучения. 
где 4(х,М „) - расстояние от точки хе К" до многообразия М ,. Такое многообразие бу- дем называть (=, р) -оптимальным. Линейное р-мерное многообразие М, в евкли-  довом пространстве К" можно задать как множество  #  ‘ а векторов вида Pp u=s,+>a@8,,@,ER, j=l,...,p, (2.6) - jal * я В" { р - где $, Е _ вектор сдвига, 1$, ja 7 ортонормирован- а ная система векторов В В". Тогда и" ` d(x,M ,)= d(x,u) =|x-u , | | — евклидова норма, а Рис. 2.10 векттэр иЕМ, такой, что x-uls,, ]=1...р  (рис. 2.11). Из последнего условия, учитывая ортого-  Р нальность векторов {s,} a? получим: j=  ee в  № \ _ _ P _ 8 0=(5х-и) =(5,х-5%-.7_ 045, |=6,х-5)-а,, 1=1,...р. Следовательно, a, =(s,;,X-S)), ]=1,..,Рр. Тогда  2  .. d?(x,M,)=|x-ul =|x-s, => 6 »х-50)5,  в  Ix —5|| ~ 200 (6х5. + ХВ (S;,X—S))°  , | Рис. 2.11 [К-во Di BjX-8p) поскольку |5; |=1, 71=1,...р.  Таким образом, задача (2.5) равносильна следующей задаче квадратичного програм-  > Р мирования: необходимо наити такое множество векторов {s,} <0 с А" ‚ ЧТо j=  0(°,5,,...5,)= (Iss ya (s,.x-8,)°| — min (2.7) И ВЫПОЛНЯЮТСЯ УСЛОВИЯ | |5; =1, 7=Ъ...р; (2.8) (s,,8,)=0,i# j,i, jal... p- (2.9)  2. Нахождение вектора сдвига линейного многообразия. Для нахождения вектора сдвига $, Е А" линейного многообразия М ,, заметим, что частным случаем задачи (2.7)-  (2.9) является задача нахождения (=, 0) -оптимального многообразия Му: требуется найти  такой вектор $, Е А”, чтобы М O(s,) = > |x, -s,| > min. (2.10) i=l  N Так как gradQ(s,)=-2)) (x,—S,), TO pemennem 3agauu (2.10) aBaaeTCH WeHTp TAxKECTU  = N BeEKTOPOB MHOxKecTBAa © ={X,,...,Xy}: So =+ 0%: Покажем, что и в общем случае при 
решении задачи (2.7)-(2.9) вектор сдвига $, должен быть центром тяжести множества то-  чек = Лемма 2.1. Решением задачи (2.7)-(2.9) является некоторое множество векторов  п {$} 0 с А’, в котором $, =ty>" ‚Х,. Доказательство. Так как  grad, O(S,,S8,,....8,) =— 2> (x -s,) +20. X; —S))S,  i=] j=l i=l N Pp N то grad, O(S),S,,....8,)=0@ У (x, —S,) = Si (6, (x, -s,)} . Последнее равенство М 1 N выполняется, если У (x,-s,)=OSS, = х.. Можно показать (покажите!), что  найденное значение $, соответствует минимуму функционала О .№ 3. Нахождение ортонормированной системы векторов линейного многообразия.  . N v Ilyctb v, =x,—S,, i=1,...,N , где $; =>), х,. Тогда критерий О в (2.7) примет вид  O(s,,....8,) = > (lia? -¥"s;,¥,)"}  u Q(S,,...,8,) > Min B TOM и только том случае, когда  O(65,,...8,)= >." вру =>" IVs, > max, (2.11)  rye V=(v,,...Vy) (здесь и далее векторы пространства К” отождествляем с вектор-  столбцами). Таким образом, задача (2.7)-(2.9) равносильна задаче (2.8), (2.9), (2.11). Лемма 2.2. Решением задачи (2.7), (2.8), (2.10) является множество из р собствен-  ных векторов автокорреляционной матрицы УТУ, соответствующих р ее наибольшим собственным значениям. Доказательство. Найдем решение задачи (2.8), (2.11) и покажем, что это решение  будет удовлетворять и условию (2.9). Составим функцию Лагранжа для задачи (2.10), (2.11):  ~ р 2 148,58 А А) = бб) Ay [| 1). Так как grad, L= 2. (s,,V,)V, -2A;s, = 2(V'Vs, -As,) , j=l... p, to grad, L=0, j=l....,p, ecam {s iy ‚ - собственные векторы автокорреляционной матри- J j=  цы У'У. Поскольку УТУ - симметричная и неотрицательно определенная матрица, то  Р Р векторы {s ib будут удовлетворять условию (2.9). Кроме того, если {s ib — собствен-  ные векторы матрицы УТУ ‚ то из (2.1 ay следует, что  -\? (vtve Ve = 06.8) =D) Msif =D j(¥5;) Vs; = D5(VVs,) 8; = р P 2 р =>, ‚48,8, = x ls, =>, . ~ р Поэтому наибольшее значение QO(S,,...,S р) достигается на множестве {s i} ‚ - собствен- j=  ных векторов матрицы УТУ ‚ соответствующих р ее наибольшим собственным значени-  ям. № 
Замечание. Автокорреляционную матрицу УТУ можно записать в виде УУ =». xx’. хе“ Из лемм 2.1 и 2.2 следует справедливость теоремы.  —  Теорема 2.3. Для произвольной системы векторов & ={x,,...X )} CR" M p<n  — ¥ N р (=, р) -оптимальное линейное многообразие имеет вид (2.6), где $, =1 > АХ, > {s i} , = je  T Т собственные векторы матрицы У'У, У=(х -5%...., Ху -8) , соответствующие р ее наи- большим собственным значениям. Преобразование 5 = ($,,...,$ >) называют преобразованием Карунена-Лозва.  2.5.2. Линейный дискриминант Фишера  В методе главных компонент находится такое многообразие меньшей размерности, которое минимизирует среднеквадратичное расстояние от всех точек обучающей выборки до этого многообразия. Однако, ес-  .@ ли требуется понизить размерность пространтсва признаков $ так, чтобы веторы двух классов оставались линейно раздели- 7 -+-32 . мыми, то необходимо учитывать другие важные характеристи-  ки, например, дисперсии проекций векторов в классах. Напри- мер, для векторов обучающей выборки двух классов, изобра- женных на рис. 2.12, прямой проектирования, найденной ме- тодом главных компонент, будет ось ординат. При этом хоро- шо видно, что проекции классов будут пересекаться, а диспер- сии этих проекций будут большими. В то же время нетрудно видеть, что су- ществует такая прямая, что проекции векторов обучающей выборки на нее не будут пересекаться, а дисперсии этих проекций будут небольшими. Рассмот- рим одну из схем понижения размерности пространства признаков, в которой анализируются дисперсии классов. Предположим, что имеется два класса O,  и @, в пространстве признаков, размерность которого надо понизить. Будем искать проекции векторов на прямую с направляющим вектором м, | w| =1.  Причем прямая, на которую осуществляется проецирование выборочных векторов, должна быть такой, чтобы расстояние между средними значениями проекций классов было максимальным, а полный разброс спроецированных выборочных значений был минимальным. Прямая проецирования, удовле- творяющая этим требованиям, называется линейным дискриминантом Фише- ра. Впервые такой подход к построению прямой проектирования был рас- смотрен в классической работе Рональда Фишера' (1936), которая положила начало так называемому дискриминантному анализу данных. Р.Э. Переход к новой системе координат, связанной с прямой проецирова-  ния, будет осуществляться по формуле х’=у’х. Для нахождения прямой  1 2 . > Ld Фишер Рональд Эйлмер (Е13Бег К.А.) (1890 -— 1962) - английский математик, генетик и статистик. Работал в университетах Англии и Австралии. Исследования по прикладной статистике. 
проецирования — линейного дискриминанта, Р.Фишер предложил использо- вать следующую функцию критерия  о’ — п’ 2 1 2 f(w) =——-> Ss; +S,  где ш, И о х’ - выборочные математические ожидания проекций век- . . n , 4\2 торов {—го класса, 1=1,2, 5, =) 0 (х -т,)° - разброс спроецированных  > . . 72 #2 выборочных значений внутри {—го класса, 1=1,2. Величину 5 +5, назы-  вают полным разбросом спроецированных выборочных значений. Функция f(w) будет тем больше, чем больше расстояние между средними значения-  ми проекций векторов в классах и чем меньше полный разброс спроециро- ванных выборочных значений. Таким образом, ставится задача нахождения вектора у, максимизирующего функцию критерия f(w).  Упростим функцию критерия. Средние значения проекций векторов в классах будут равны  о ох’, i=1,2. i] xe@, i  xe@; Квадрат расстояния между проекциями средних значений будет вычисляться по формуле  , 2 |2 T 2 T T T lm; —m;| =|w (m, —m,) =Ww (m,—-m,)(m,-m,) w=w S,w,  T где 5 „ =(m,—-m,)(m,—m,) — матрица разброса между классами. Средние выборочные дисперсии проекций векторов в классах будут (с точностью до нормирующего множителя) равны  s? = (x -m))’ = > (Ww (x-m,)) = > Ww" (x-m,)(x-m,)’ w= Ww’ Sw,  xe@; xe; xe; T . где 5, => eo (х-т,)(х-ш,) , 1=1,2, — так называемые матрицы разброса векторов в классах. Пусть 5 =5, +5, — матрица разброса векторов всей вы-  борки. Тогда 5? + 5, = \'5\ и функция критерия примет вид  w S_w м) =“. Pw) w Sw  Можно показать, что точка максимума функции }(\) должна удовлетворять уравнению Sw =ASw (2.12) (докажите!). Решением этого уравнения будут собственные векторы матри- цы 5 '5, (если 5 - невырожденная матрица). Но так как 5,„\ = (т, —т,), где К = (т, —m,)'w, то из (2.12) следует, что в качестве вектора \ можно  взять вектор, равный м=5 ‘(т —т.). Если матрица 5 — вырожденная, то 
можно решить обобщенную задачу на собственные значения (2.12): сначала необходимо решить обобщенное — характеристическое — уравнение 4ек5„ —15)=0, а затем, для найденных значений A, решить матричное  уравнение (2.12). Пример. Пусть заданы двумерные образы - векторы х,=(0,2)', х, = (0,1), х, =(1,0)'ЕХ, и х,=(-1,0)', х, =(0,-3) Е Х, (рис. 2.12), при- надлежащие областям предпочтения Х, и Х, двух классов. > Torna m, = (1/3,1)’, m, = (-1/2,-3/2)’ u  ger Ш -3 —1f(1 -3) с_ _1( 7 -15 р 7 33 с) = [3 a 555.15 0  . 8115 7]6\3) 4\3)  ис. 2.13 Следовательно, x, =15/2, x,=15/4, x,=35/4, x,=-35/4,  х. =—-45/4. Видно, что в этом случае проекции векторов  wi  классов будут лучше разделены и локализованы (рис. 2.13).  3. Классификация с помощью функций расстояния  Этот способ предполагает определение функции, оценивающей меру принадлежности предъявленного для классификации образа х классу @, , т.е. некоторой функции 4(х,@.), которая удовлетворяла бы условию хе @,, если 4(х,@.) < А(х,@,) для всех ]=1 (рис. 3.1). Чтобы определить меру принадлежно- ‚ сти образа x классу @ нужно выбрать спо- CF So FF 396 определения меры близости между дву- О ` мя образами, между образом и классом и, | наконец, между двумя классами. Так как ка- 7 `` 17. ждый образ x характеризуется некоторым т“ вектором признаков х, то меру близости о | — между образами х и у можно задать с по- Рис. 3.1 мощью меры близости d(x,y) между векто- рами-образами х и у их признаков. В качестве такой меры близости чаще всего используют метрику, т.е. такую неотрицательную функцию d:R" XR" —> К, , которая удовлетворяет условиям (аксиомам метрики): 1) ас,у)=а(у,х) (симметричность); 2) d(x,x)=0; 3) а(х,у) =0 < х=у (определенность); 4) а(х,у)<а(х,2) + а(#,у) (неравенство треугольника). Пространство А” с введенной метрикой называют метрическим пространст- BOM. 
Если функция 4(х,у) удовлетворяет только первым двум условиям, то  она называется функцией расстояния. Векторы признаков, между которыми измеряется расстояние, могут иметь разную размерность, разные порядки величин, различные приоритеты. Поэтому прежде, чем использовать метрики, желательно нормализовать и стандартизировать значения признаков.  3.1. Способы стандартизации признаков Предположим, что имеется выборка из векторов = = {х,,....х»„}. Каждый  Т вектор х, = (х/,...х,) состоит из отдельных координат — признаков (генов по другой терминологии) х,. Процедура стандартизации позволяет привести  все признаки к единому масштабу. Существует несколько способов стандар- тизации признаков. Например, она может быть выполнена по формуле  x, — т. Жо,  i  N ~ . ~ 4 где т — среднее выборочное значение 1-и координаты, т, = У Хх ›  М 0, = 4 > ‚(Хи -т,) - выборочное среднеквадратичное отклонение. Дру-  гой способ стандартизации — следующий: Xj, — MUN Xi,  max x, — min x,  Замечание. Ряд методов построения решающих функций (например, рассматриваемый дальше метод опорных векторов) чувствительны к проце- дурам стандартизации и нормализации.  3.2. Способы измерения расстояний между векторами признаков  Если рассматривать образы как элементы метрического пространства, то в качестве функции расстояния можно использовать метрику этого простран- ства. Чаще всего используют следующие метрики:  а) метрику Евклида 4,(х,у) = |x _ У] = f(x —y, )’ +...+ (x, —y, )’ ; 6) манхаттановскую метрику 4 (х,у) = |x _ У] Ех — у, 1+..+1х, - у, | (метрику 4, рассматриваемую на множестве биполярных векторов х = (х,), х.Е {-—1,1} ‚ называют метрикой Хэмминга');  в) равномерную метрику 4..(х,у)= |x _ У]. = тах | х, — у, |;  l<i<n  ' Хэмминг Ричард Весли (Наши? К.) (1915 - 1998) - американский ученый, специа- лист по теории информации, заложил основы теории кодирования. 
P  r) merpuky Muuxoscxoro' d,(x,y)=|x—- y|, = al, —y,|” (p21); 1. д) метрику Махаланобиса? 4, (XY) = К — У|;- — С — У “Y= (oa (x; — У)55 (х) 7 У °  где 5 = (5,) — ковариационная матрица векторов обучающей выборки.  В том случае, когда признаки имеют разные порядки величин, наряду с их предварительной стандартизацией, используют нормализованные (взве- шенные) функции расстояния. Например, весовая метрика Минковского бу- дет иметь вид  ry d\(xy) =n [x — 4)?  сов Ц=(7,) определяют исходя из априорной информации о величинах и  ‚ Где вектор положительных ве-  приоритетах признаков. Если такой информации недостаточно для определе- ния вектора Ч= (7,), то применяют метрики, которые нормируют измеряе-  мые величины, например, метрику Канберра  [> х|+1, |"  Упражнение. Докажите, что функция 4,(х,у) удовлетворяет всем ак-  сиомам метрики. Заметим, что метрика Канберра, в отличие от ранее рассмотренных мет- рик, является неинвариантной относительно сдвига векторов.  ‚ если х=0 или у=0.  е) 4, (х,у)= я  3.3. Способы определения расстояния между вектором-образом и классом  После выбора метрики, измеряющей расстояние между образами, необ- ходимо решить проблему измерения расстояния между образом и классом. Причем в случае распознавания с обучением нам известны только прецеден- ты, т.е. элементы обучающей выборки = = {х......х»„} с метками принадлеж-  ности их тем или иным классам. Можно выделить несколько способов реше- ния этой проблемы. Первый способ — определение расстояния до центра класса. Этот способ применяется в том случае, когда класс «хорошо описывается» одним эталонным образом — центром класса (качество такого описания может быть измерено величиной дисперсии элементов класса), а цена ошибки непра- вильной классификации не очень велика. Этот способ согласуется с так на- зываемым «принципом компактности» в распознавании образов, согласно  `'Минковский Г ерман (МшКоу$ у С.) (1864 —1909) — немецкий математик и физик. Ос- новные работы посвящены теории чисел, геометрии, математической физике. ? Махалонобис Прасанта Чандра (МаБаопо $ Р.СВ.) (1893 - 1972) — индийский специа- лист по прикладной статистике. 
которому векторы-образы одного класса должны быть «компактно» распо- ложены в пространстве признаков. В этом случае процедура определения расстояния состоит из следующих шагов. а) Определяются центры с, классов @.:  1 C= LX  хе,  То есть центры классов — это среднее арифметическое точек-векторов класса. Если рассматривать распознавание с обучением, то в вышеприведенной фор- муле суммируются те элементы обучающей выборки, которые достоверно принадлежат данному классу.  6) Расстояние между образом х и классом @, определяется как расстоя- ние между этим образом и центром с, класса @,: d(x,@,)=d(x,c,). Напри- мер, для х=(х,х,), с=(с,с.) и евклидовой метрики d(x,@,) =|x—¢,|, =  Vy, -¢)? +, -6,) = Кх-ех-©.  Рассмотрим некоторые частные случаи. 1) Классификация по двум классам @, и @,. Предположим, что есть обу-  чающая выборка = = {х,....., ху}, часть элементов которой принадлежит клас- су @, а часть — классу @,. Будем считать, что хе @, ‚ если кс, | < |x —c,|, . Поэтому в качестве решающей функции можно взять функцию 4(х)=|к-с |, -|х-с,|‚ или d(x)=|x- с | —|x —e,| . Тогда  ая е ие = -е,х-е)-и-ех-е)=  =x° —2¢,-x+¢) —x’ + 2c, -x-c} =2(c, -¢,)-(x-4(e, +¢,)).  Таким образом, решающая функция будет линейной, а разделяющая поверхность, задаваемая уравнением 4(х)=0, будет представлять собой и Г прямую, являющуюся серединным перпендикуля- | ` а: ром к отрезку, соединяющему центры классов - о daa  (puc. 3.2). о Упражнение. Найдите разделяющую по- т. ра верхность для двух классов в манхаттоновской м. метрике | | и в равномерной метрике | |. Рис. 3.2  2) Классификация по трем классам (см. . рис. 3.3). При таком измерении расстояний гра- : ‹. a 7 ницы классов — это серединные перпендикуляры ‘(^^ между центрами классов. Точка пересечения этих перпендикуляров — центр окружности, опи- | | _ санной вокруг центров классов. в о 
В общем случае, с помощью функции расстояния все пространство при- знаков с заданными в нем центрами классов с,,....с„ разбивается на отдель-  ные области Х,,...,Х „, такие, что 4(х,с,) < (х,с,) для любой точки хЕХ, и  всех {+ }. Такие области называются клетками Вороного', а множество всех  клеток Вороного — диаграммой Вороного. В евклидовой метрике границами клеток Вороного всегда являются некоторые выпуклые многогранники. Диа- грамму Вороного в евклидовой метрике на плос- кости можно построить с помощью процедуры, известной в вычислительной геометрии, как триангуляция Делоне”. Триангуляция Делоне — это планарный граф, удовлетворяющий услови- ям: 1) все его внутренние области являются тре- угольниками; 2) минимальный многоугольник, охватывающий все треугольники, является вы- пуклым; 3) внутрь окружности, описанной во- круг любого треугольника, не попадает ни одна точка триангуляции. Триангуляция Делоне и диаграмма Вороного являются двойственными понятиями — по диаграмме Вороного легко строится триан- гуляция Делоне и наоборот (рис. 3.4). Трудоемкость построения триангуля- ции Делоне составляет О(М№10о= М), где М№ - количество точек [27]. На  Рис. 3.4  рис. 3.5 а, б и в приведены примеры клеток Вороного в метриках Евклида, манхаттановской и Канберра соответственно.  а б в Рис. 3.5  Второй способ — метод ближайшего соседа. В этом способе расстояние определяется в соответствии со следующим алгоритмом: а) Определяется тот элемент х, обучающей выборки, который ближе  всего к предъявленному образу х, то есть |х-х, |= пип{|х-х,|:1=1,...,№}. 6) Проверяется условие: если х, Е @,, то считается что и хЕ @,. В этом  случае функция расстояния определяется по формуле: 4(х,@,) = пт |x - x, |.  ХЕ,  Вороной Георгий Феодосьевич (1868 — 1908) — российский математик. Работал в уни- верситете Варшавы. Исследования по алгебре и геометрии. ? Делоне Борис Николаевич (1890 — 1980) - русский математик и альпинист, ученик Г.Ф. Вороного. Работал в области алгебры, вычислительной геометрии и математической кристаллографии. 
Этот способ применяют в том случае, когда цена ошибки неправильной классификации является большой, а ошибки в данных невелики. Основным недостатком метода ближайшего соседа является его чувствительность к зна- чениям отдельных (может быть ошибочных) данных.  Если А,....А, непересекающиеся области в А”, то все пространство  признаков А” можно разбить на отдельные области Х,,...,Х„, Х j ={xe К": d(x,A,) <d(x,A,) Vit i} , J=l....,.m, d(x, A) =inf d(x,y). Такие области назы- ye  вают областями Вороного (или областями Дирихле по другой терминоло- ГИИ). Третий способ — определение расстояния до эталонного образа. Этот способ применяется в том случае, когда класс плохо описывается одним эта- лонным образом — центром класса. Признаком такой ситуации является большое значение дисперсии элементов класса. Но можно предположить, что элементы класса будут «хорошо группироваться» вокруг нескольких эталон- ных образов. Другими словами, каждый класс описывается не одним, а не- сколькими эталонными образами. В этом случае расстояние между вектором- образом х и классом @, сводится к вычислению расстояния между этим век-  тором и ближайшим к нему эталонным образом данного класса: d(x,@,) = шт|х-—с, |, где с„ — К-й эталонный вектор-образ класса @,. k  Задача нахождения эталонных образов класса решается путем выделе- ния регулярных структур в данном классе и нахождения их центров. Регу- лярные структуры представляют собой множество векторов, удовлетворяю- щих определенным критериям регулярности. Такие структуры называют кла- стерами, а задачу нахождения таких структур — задачей кластеризации. Подробнее решение этой задачи будет рассмотрено ниже. Замечания. В некоторых задачах необходимо вычислять расстояние 4(@,,@,) между классами @, и @,. Это расстояние можно определять по  разному, в зависимости от цели, от структуры классов и цены неправильного решения. Чаще всего рассматривают следующие способы измерения рас- стояний между классами: 1) минимальное расстояние между двумя элементами, каждый из кото- рых принадлежит своему классу 4, (@,,@,)= min d(x,y);  ХЕ, ‚уе, 2) среднее расстояние между всеми парами элементов, каждый из кото- — 1 _ - рых принадлежит своему классу 4, (@,,@,) = 5) Disco, se0,4 (x,y), S, — множе  ство всех пар элементов между классами @, и @ 2  3) максимальное расстояние между парами элементов, каждый из кото- рых принадлежит своему классу 4.(@,,@,)= max d(x,y);  хе, УЕ, 4) расстояние между центрами классов 4,(@,,&,) =А(с,,с,), с,,с, — WeH-  тры классов @; и @, соответственно. 
Упражнение. Найдите, как связаны между собой метрики d,, i=1,...,4, между классами.  4. Алгоритмы кластеризации (векторного квантования)  4.1. Постановка задачи кластеризации  Идея векторного квантования состоит в разбиении обучающей выборки =H ={X,,....X,)} на непересекающиеся подмножества-кластеры Х,,..., Хи: Хо... Х,=Я, Х, ПХ, =9 для всех 1+ ], таким образом, чтобы все точ- ки одного кластера состояли из «похожих» элементов, а точки разных кла- стеров существенно отличались. Эта задача является очень неопределенной, так как ее решение зависит от нескольких факторов — параметров кластери-  зации: 1) выбранного критерия «похожести» элементов О; 2) от используе-  мой метрики 4 (критерии похожести, как правило, зависят от выбранной метрики, измеряющей расстояние между векторами-образами); 3)от уста- новленного (или оцениваемого) числа кластеров. Выбор параметров кластеризации, как правило, неоднозначен, зачастую субъективен, но этот выбор должен быть согласован с целями кластеризации. Среди основных целей кластеризации могут быть следующие: 1) кластеризация проводится для нахождения групп схожих элементов с целью дальнейшей независимой их обработки. В этом случае параметры кла- стеризации должны обеспечивать минимальность числа кластеров; 2) кластеризация осуществляется с целью получения новой небольшой выборки, состоящей из эталонных элементов — типичных представителей кластеров. Здесь важно, чтобы параметры кластеризации обеспечивали фор- мирование кластеров с высокой степенью однородности входящих в них эле- ментов; 3) кластеризация проводится с целью нахождения нетипичных элемен- тов, т.е. элементов, не попадающих ни в один из кластеров, при этом сами кластеры должны быть небольшими; 4) кластеризация осуществляется с целью формирования иерархической структуры выборки (так называемая задача таксономии). В этом случае на каждом иерархическом уровне количество кластеров должно быть неболь- шим. В общем случае задачу кластеризации можно сформулировать следую-  =  щим образом. Дана обучающая выборка © = {X,,...,.X,}. TpeOyetca Haiitu Ta- кую функцию кластеризации {, которая каждой точке хех ставила бы в однозначное соответствие некоторый элемент — метку уЕТ из множества меток У={у,.....у,„} (каждая метка у, соответствует некоторому кластеру Х,;). В задаче кластеризации множество меток У неизвестно (и даже неиз- вестна мощность этого множества: т = ly | <N ). Если множество У известно, то задача кластеризации вырождается в задачу классификации. 
Множество меток У необходимо искать среди множества Ч допусти- мых меток для данной задачи кластеризации, которое определяется целями кластеризации. Тогда задача кластеризации сводится к нахождению такого множества меток У и функции кластеризации }, чтобы  У, =arg min O(Y. f),  rye Q(Y, f) - выбранный критерий качества (оптимальности) кластеризации (если оптимальность соответствует минимуму критерия О). Среди критериев оптимальности (качества) кластеризации выделяют следующие: 1) среднее внутрикластерное расстояние О® = > нех d(x,y) > min;  2) среднее межкластерное расстояние О“ = Doi Duk (x,y) > max; УЕХ,  3) суммарная выборочная дисперсия разброса элементов относительно центров кластеров О“ =У то 94° (5,6) > min, где с, ах Х центр кластера Х.. Заметим, что для использования последнего критерия оптимальности необходимо, чтобы пространство признаков было не только метрическим, но и линейным (т.е. в этом пространстве можно было осуществлять сложение и умножение на число векторов-признаков). Если пространство не является  линейным, то вычислительная сложность алгоритмов кластеризации значи- тельно увеличивается. Действительно, для вычисления центра с кластера xX  в линейном пространстве требуется O(|X |) операций, а в метрическом про- странстве (здесь В качестве центра можно ВЗЯТЬ точку . 2 c=ar ши У, d(x - o(|xf). 5 xe X yeX ( ‚у)) На практике вместо одного критерия оптимальности используется не-  сколько критериев. Например, критерий О” /О‘’ —› шт, учитывающий как межкластерные, так и внутрикластерные расстояния.  4.2. Алгоритм К-внутригрупповых средних (К-теап$) Рассмотрим один из популярных алгоритмов кластеризации, основан- ный на минимизации функционала суммарной выборочной дисперсии раз- броса элементов относительно центров тяжести кластеров О=О®. Этот ал-  горитм представляет собой пошаговое (итерационное) нахождение центров тяжести кластеров и разбиение обучающей выборки на кластеры до тех пор, пока функционал О не перестанет уменьшаться.  Алгоритм К-теап$ 1. Выделяются некоторые образы из обучающей выборки - начальные цен-  тры кластеров ©°,...,с© и полагается К =0.  “т  2. Вся обучающая выборка разбивается на т кластеров (клеток Вороного) по 
методу ближайшего соседа — получаются некоторые кластеры Х,..,Х®. 3. Рассчитываются новые центры — центры тяжести кластеров по формуле  (k+1) 1 С. та xX. 1 xi xe X{")  4. Проверяется выполнение условия останова: с“*? =с@®  i  для всех К=|....,тТ. В противном случае — переход к пункту 2.  Теорема 4.1. Алгоритм К-теапу минимизирует функционал суммарной выборочной дисперсии О® и сходится за конечное число шагов. Доказательство. Покажем, что в процессе выполнения шагов алгоритма  (3)  минимизируется функционал О = О`”. Действительно, сначала (пункт 2 алго-  ритма) он минимизируется при фиксированном положении центров тяжести кластеров путем оптимизации разбиения обучающей выборки на кластеры l | . . ХЕ Х,, если |x—e; ‘|< k-e?| для всех j #i. Покажем, что в пункте 3 алгоритма осуществляется минимизация функцио- нала О за счет пересчета центров тяжести кластеров при фиксированном разбиении обучающей выборки на кластеры  (1+1) 1 ¢ = Ух (0 IX!  xe X{)  Для этого рассмотрим функцию разброса К(с,) выборочных значений в 1-м классе относительно некоторой точки с, (не обязательно центра класса):  Re) => _, |x —¢,|| =) > (x’-2x-c,+¢7). Исследуем на минимум эту  функцию методом дифференциального исчисления. Имеем  у  = De Dae сиу | =2> 0% -в,) (CD =0.  xeX, k=l xe X;  — _l Откуда с, нех, x, Следовательно, минимум функции К(с,) достигает-  — _1 ся при с; жк Х . Таким образом, на каждой итерации значение О не увеличивается, т.е. О,2О.,2.... Имеем невозрастающую последовательность О’, ограничен-  ную снизу нулем, поэтому эта последовательность имеет предел. Так как число элементов обучающей выборки, а, следовательно, и число различных разбиений, конечно, то этот предел достигается за конечное число итера- ций. № Замечания. 1. Алгоритм К-теап$ осуществляет локальную, но не глобальную мини- мизацию функционала О. Поэтому гарантии «хорошей» кластеризации этот  алгоритм не дает. 
2. Существует много алгоритмов векторного квантования, похожих на (- means, но обучающихся быстрее. Правда качество такого обучения может быть хуже, чем в К-теапз. 3. Процедура К-теап$ относится к алгоритмам обучения без учителя (с самообучением). 4. Векторное квантование очень чувствительно к размерности простран- ства признаков: требуемое количество центров кластеров экспоненциально растет с ростом размерности. Поэтому, если удается избавиться от признака, мало влияющего на классификацию, то векторное квантование начинает ра- ботать быстрее и лучше. 5. Рассматриваются и невекторные методы квантования. В этих мето- дах осуществляется квантование не образов — отдельных векторов, а орбит — образов относительно некоторой группы преобразований, не влияющих на кластеризацию (например, сдвиги, растяжения, небольшие искажения букв,  цифр). Пример. Предположим, что на плоскости Е? за- даны векторы-образы х, = (1,1), х, = (0,0), х, = (2,0), х, = (4,4), х. =(5,5), x,=(5,3) (рис. 4.1). Найдем кластеризацию этих образов по двум классам. Для этого выполним последовательно шаги рассмотрен-  ного алгоритма. 1. В качестве начальных центров кластеров выберем 0 0 образы с” =х и с”’=х,. Тогда, разбивая выборку {х,...Ж} на два подмножества по методу ближайше- Рис. 4.1 ro соседа, получим начальные кластеры (0) _ (0) _ Хх ={X,,X3,K4,X,,X,} HX, ={x,}. 2. Вычисляем новые центры — центры тяжести кластеров  со -3{* хи +++ }- = [38] Muy -(0): 5 х+х,+х,+х,+х,) 5(1+0+4+5+3) (13/5)? 2? ~? \O 3. Cpapnupaem: c #¢.” uc =". [IpoxomKaem BEInmomHeHHe aroprtMa. 4. Разбиваем выборку {х......х,} на два подмножества с новыми центрами по методу ближайшего соседа, получим кластеры Х®={х,,х.,х} и  (1) X, ={х,,х,,х.}. 5. Вновь вычисляем центры тяжести кластеров  al q+ 5, +X, )_ 1(44+545)_ (14/3 1 3 Xyp tsp $%_) 3444543) 4 4 7 Mal Xp +X + |_1 1+0+2)\ /( 1 2 З\х,+х,+х,) 311+0+0) (1/3)  1 2 1 2 6. Сравниваем: с? #¢)” u eS? 4c. IpoxomKaem BEInomHeHve алгоритма. 
7. Разбиваем выборку {х,,....х‹} на два подмножества с новыми центрами по методу ближайшего соседа, получим кластеры Х®={х.,х..х.} и  Хх? ={х,х,,х.}.  (3) (2) (2)  3 8. Вновь вычисляем центры тяжести кластеров сб) =c, ec? =e”. OctraHoBKa 1 1 2 2  алгоритма.  При практической реализации алгоритма возникают следующие про- блемы: 1) необходимо задать число кластеров; 2) качество работы алгоритма зависит от начальной расстановки центров кластеров. Для решения этих проблем рекомендуется осуществить несколько кла- стеризаций при разных начальных расстановках центров кластеров и различ- ных значений числа кластеров. После чего необходимо выбрать ту кластери-  зацию, которая доставляет минимум функционалу О”.  4.3. Алгоритмы расстановки центров кластеров  Для первоначальной расстановки центров кластеров применяются сле- дующие алгоритмы, которые можно рассматривать и как самостоятельные алгоритмы кластеризации.  4.3.1. Алгоритм простейшей расстановки центров кластеров Вводится некоторый порог Й > 0, в качестве первого центра кластера на- значается первый элемент выборки с, =Х,. Предположим, что уже выбраны К центров кластеров. Тогда в качестве очередного А +1-го центра кластера выбирается такой элемент выборки х,,  что минимальное расстояние от х, до центров с,, 1=1....,к, будет больше й.  4.3.2. Алгоритм, основанный на методе просеивания В этом алгоритме рассматривается некоторая неотрицательная функция Г (<), называемая плотностью распределения элементов обучающей выбор- ки и принимающая тем большее значение, чем ближе элемент х расположен к точке сгущения элементов выборки. Например, в качестве Г(х) можно  взять следующую функцию: год = ==. | > (n? -|x-x,|'), E|[x—x;,|<h  где й> 0 - некоторое пороговое значение. Затем осуществляется упорядочи- вание элементов обучающей выборки таким образом, чтобы 1“) > 7 (х,)> }(х,)>.... Далее осуществляется алгоритм простейшей рас- становки центров кластеров, в котором в первую очередь в качестве новых 
центров кластеров выбираются те элементы обучающей выборки, в которых значение плотности будет наибольшим.  4.3.3. Алгоритм максиминного расстояния  Этот алгоритм состоит из следующих шагов.  Максиминный алгоритм 1. В качестве первого центра кластера выбирается элемент c, =X,-  2. В качестве второго центра кластера выбирается тот элемент с, =х,,, кото-  рый находится на наибольшем расстоянии OT с ‚ Т.е. |, — C, | = мах |x — С. | . xe=  3. Предположим, что выбраны К центров С“ = {с,,....е,} кластеров. В каче- стве очередного (К+!-го центра кластера выбирается тот элемент х,_, который нахо-  дится на наибольшем расстоянии от бли- жайшего из центров ¢,,...,c, (рис. 4.2), т.е.  n —¢| = max min Ix—el. сЕС xE=\C сЕС Рис. 42  4. Проверяется условие останова.  Л  Условием останова алгоритма может быть выполнение неравенства О /Qu) >у, где УЕ (0,1) - некоторое пороговое значение, близкое к еди-  НИЦЕ. Выполнение последнего условия означает, что при появлении нового центра кластера дисперсия меняется незначительно.  4.4. Алгоритм ГКОВЕГ,  Этот алгоритм был предложен Н.Г. Загоруйко и В.Н. Ёлкиной в 1967 го- ду. В алгоритме FOREL (FORmal ELement), Tak же как и в алгоритме k- теап$, вычисляются центры тяжести кластеров. Но, в отличие от К-теапз, в качестве кластера рассматриваются не все ближайшие к данному центру эле- менты, а все элементы, находящиеся внутри сферы заданного радиуса г с  центром в данной точке. Для фиксированного значения г>0 и некоторого 1 > > 2 элемента х=е” обучающей выборки вычисляется формальный элемент е®  — центр тяжести всех векторов обучающей выборки =, находящихся внутри круга В‚(е”) с центром в точке х, и радиусом г. Затем вычисляется центр  2 = тяжести е” всех элементов множества В,(е”)п= и тд. Можно показать  (докажите!), что таким образом построенная последовательность формаль- ных элементов е”,е®,... является сходящейся. Предел е этой последова- тельности объявляется центром первого кластера. Далее из обучающей вы-  борки = удаляются все элементы, находящиеся внутри сферы В, (е) и анало- гично находится центр следующего кластера и т.д.  Алгоритм ЕОВЕГ 1. Выбирается некоторый элемент хе = обучающей выборки, e” =x. 
ы —  2. Вычисляется центр тяжести е® =». _, «®_=Х: Выполнение пунк-  в, (eY AE  ) ©(2)  та 2 повторяется до тех пор, пока последовательность е*,е”,... не стаби- лизируется в точке е.  3. Полагаем = := =. \ В,(е) и переходим к пункту 1. Условием останова алго-  ритма является = =@©.  Результаты работы алгоритма НОКЕГ. для трех разных значений г пока- заны на рис. 4.3. Здесь незакрашенные кружочки — элементы обучающей вы- борки, черные точки — формальные элементы.  В Приложении 1 приведен расчет кластеризации данных алгоритмом НОКЕГ, выполненный с помощью пакета Ма Сад. Результат работы алгоритма РОКЕГ, может существенно зависеть от вы- бора начальных точек — формальных элементов. Единственный параметр ал- горитма — величина г подбирается исходя из задач кластеризации: если не- обходимо получить большие кластеры, то г следует увеличить, если же нуж- но описать структуру самих кластеров, то г следует уменьшить и кластери- зовать «мелкие» кластеры. В этом случае алгоритм ЕОКЕГ, можно рассмат- ривать как алгоритм предварительной кластеризации. Различные модифика- ции алгоритма FOREL и его применение подробно рассмотрены в [11].  4.5. Алгоритм ИСОМАД (ГЗОРАТА)  Алгоритм ИСОМАД - Итеративный СамоОрганизующийся Метод Ана- лиза Данных (ЗОРАТА -— Iterative Self-Organizing Data Analysis Techniques) был разработан в 1965 году Бэллом (ВаП (.) и Хэллом (НаП О.). Этот алго- ритм является разновидностью алгоритма К -внутригрупповых средних и от- личается от него введением некоторых эвристических процедур. С помощью таких процедур можно объединять два кластера в один, разделять один кла- стер на два и т.д.Хэлл Д. Рассмотрим основные процедуры изменения числа кластеров. 1. Удаление кластеров. Если кластер содержит мало элементов |X ‘| <q,  (4, - параметр алгоритма ЗОРАТА), то он удаляется, т.е. его элементы рас- 
пределяются по другим кластерам, а центр кластера с, удаляется из списка  центров кластеров. 2. Разделение кластеров. Если разброс элементов от центра кластера достаточно большой, или, другими словами, если дисперсия {-го кластера р, > а»›, то 1-й кластер разделяется на два кластера. Для разделения кластера  вычисляются покомпонентные дисперсии: 1 2 р, [К] У. Ix, -c,| ‚ К=|....,П. i| x ;EX;  1  Далее выбирается та [-я компонента, для которой О, >), для всех 5*[, и  осуществляется разделение #{-го кластера по [-й компоненте. При этом пере- считываются новые центры кластеров с’ и с”. Другой, более точный, способ деления кластеров состоит в вычислении «направления» в пространстве А”, вдоль которого дисперсия кластера мак- симальна. Далее кластер разделяется на два гиперплоскостью, проходящей через центр кластера и перпендикулярной вычисленному направлению. 3. Слияние кластеров. Если расстояние между двумя какими-то цен- трами кластеров достаточно мало, то эти кластеры следует объединить в один кластер. Для реализации этой процедуры вычисляется расстояние меж- ду двумя центрами кластеров:  1, =|c, -c,| для всех {=}. Если окажется, что 1, <а4., то кластеры Х; и Х ; следует объединить. Новый ¢,|X,|+e,|X,| НХ Алгоритм ГЗОРАТА может содержать и другие процедуры, регулирую- щие число кластеров.  центр кластера вычисляется по формуле с =  5. Машина (метод) опорных векторов  Машина (метод) опорных векторов (ЗУМ, $ирроп Уесюг Маспте) поя- вился в ряде работ В. Вапника' и др. в 60-80-е годы. Этот метод относится к методам обучения с учителем и предназначен для нахождения оптимальных в некотором смысле решающих функций. Наиболее эффективна машина опорных векторов при разделении двух классов. По скорости разделения двух классов ЗУМ считается наилучшим методом. с, =х,.  5.1. Линейно разделимый случай  Рассмотрим задачу нахождения наилучшего в некотором смысле линей- ного разделения множества векторов на два класса. Пусть имеется множество  1 Ld “ Вапник Владимир Наумович (р. 1935) — российский математик. Работал в ИПУ РАН, с 1990 г. живет и работает в Англии. Работы по прикладной статистике, автор статистиче- ской теории обучения. 
прецедентов (=,У), где = = {х,,...х,} — обучающая выборка, а У =(у,,..., уу) — множество меток двух классов @ и @,. Требуется по обучающей выборке построить линейную решающую функции, т.е. такую линейную функцию Г (х) ‚ которая удовлетворяла бы условию (> 0 для всех х, Е @, Г(х,) <0 для всех х,Е @&. Без ограничения общности можно считать, что метки классов равны y = K€ OD, —-1,x,E0,. Тогда поставленную выше задачу можно переформулировать следующим образом. Требуется найти линейную решающую функцию Г}(х), которая бы удовлетворяла условию y,f (x,) >O mia Bcex x,e &. (5.1) Умножая, если нужно функцию { на некоторое положительное число не- трудно видеть, что система неравенств (5.1) равносильна системе у, 1 (х,) >1 для всех хе. Кроме того, так как Ё(х) — линейная функция, то последняя система нера- венств примет вид y,((w,x,)+b)21, i=1,...,N, (5.2) где \ - вектор весовых коэффициентов, Р — некоторое число. Тогда разде- ляющей два класса гиперплоскостью будет (\,х)+Ь=0. Нетрудно видеть, что и все гиперплоскости вида (\,х) +Р’=0, где РЕ (Ь-1,Ь +1) также будут разделяющими (рис. 5.1). Расстояние между  граничными гиперплоскостями (w,x)+b-1=0 un (\,х)+Ь+1=0 равно  2/||\|. Действительно, (4w,x] + (В —1)=0  Iw И (5, x + wy? +1) =0 — нормальные урав-  нения этих гиперплоскостей. Тогда Рис. 5.1 р = py 2 -)u p= py +1) - расстояния от  этих гиперплоскостей до начала координат. Тогда р, — р, = 2/ || — расстоя- ние между гиперплоскостями. На самих граничных плоскостях может нахо- диться некоторое число (не меньше двух) обучающих векторов. Эти векторы называются опорными. Для надежного разделения классов необходимо чтобы расстояние между разделяющими гиперплоскостями было как можно большим, т.е. | w|| была как можно меньше. Таким образом, ставится задача нахождения минимума квадратичного функционала 1(\,\) (коэффициент 1/2 вводится для удобст- ва дифференцирования) в выпуклом многограннике, задаваемым системой 
неравенств (5.2). В выпуклом множестве квадратичный функционал всегда имеет единственный минимум (если это множество не пусто). Из теоремы Куна-Таккера [5. С.92] следует, что решение этой оптимизационной задачи равносильно поиску седловой точки лагранжиана  N L(w,b,d) =4(w,w) - > 2,(y,((w,x,) +b) -1) > min max i=l “, в ортанте по множителям Лагранжа 1,>0 (1=1,...,М) , при условии, что A, (y,((w,x,)+b)-1)=0, i=1,...,N. Последнее условие равносильно тому, что Я, =0 или у,((\,х,)+Ь)-1=0, 1=1....,М№. (5.3)  Из необходимых условий существования седловой точки (полагая х, = (х,^.>,...Х„)) имеем  ЭГ, x , 0 - Ow, =, ~ LA 1=Ъ...П, _oL_< 0 = Ob = LAY Откуда следует, что вектор м следует искать в виде № м=>. Дух, , (5.4) i=l причем М У ду, =0. (5.5) i=]  В силу (5.3) в сумму (5.4) с ненулевыми коэффициентами 1, входят только те векторы, для которых у,((\,х,) +Ь)-1=0. Такие векторы называют опорны-  ми, так как это именно те векторы, через которые будут проходить гранич- ные гиперплоскости, разделяющие классы. Для найденного весового вектора  —1 у смещение В можно вычислить как Б=у, —(\,х,) для любого опорного вектора х, .  Найдем значения множителей Лагранжа как критических точек лагран- жиана. Для этого подставим (5.4) и (5.5) в лагранжиан, получим  L(w,b,d) = 5 (Ww, Ww) YAO, ((w,x,) +8) -D = 1 м ~ 1 => (м, У) -{ nw =A }- LA — 5 (Ww, Ww) =  N 1 N N 1 N = Ул -5 2. АА, (хьх,) = Ул 5 У дух, i=l i=l  i, j=l i=l  2 
Таким образом, задача сводится к нахождению критических точек функции  N У. Ay 1х; i=l  Так как эта функция представляет собой разность линейной и квадра- тичной функций, причем квадратичная функция отрицательно определена, то требуется найти наибольшее значение функции Ф(А) при условии  2  Ф0)=У4 -5 (5.6)  м У 4, =0 в области Я, >20 (1=1,...,М№М). Существует много алгоритмов (в теории оптимизации) решения этой задачи (например, градиентные методы, метод покоординатного спуска и т.д.).  Замечания. 1. Суммирования в (5.6) осуществляются не по всем векторам, а только по опорным, которых может быть гораздо меньше, чем обучающих. 2. Линейная решающая функция в результате имеет вид  (к) = >, Лу(кьх + - >, Ау(хьх,),  где Я, зависят только от у; и значений скалярного произведения (х,,х,), причем суммирования осуществляются только по опорным векторам. 3. После того, как решающая функция /(х) вычислена, вектор х следу- ет относить классу @ ‚если Г(х)> 0 и классу @,, если }(х)<0. Вероятность неправильной классификации можно оценить с помощью некоторой непре- рывно убывающей функции $(Г), удовлетворяющей условиям: $(0)=1/2, g(t) 0 при Е > ©. Тогда вероятность р(х) неправильной классификации вектора x будет равна @(p(x,L,)), если хеб@ (i=1,2), где Г. :(\,х)+Ь+$21(“-—1)=0, 1<а<2. То есть  (ух) + (6+ 5в1(а-7) } если ХЕ @ (1=1,2).  ред =  4. В такой постановке алгоритм линейный классификации был разрабо- тан В. Вапником в 1963 году.  Пример. Методом опорных векторов разделите классы @ ={х} и o, ={x,,x,}, ecm x, =(1,1)", x, =(1,2)’, x, =(2,3)’. Решение. Положим у, =1, у, =-1, у, =-1. Тогда функция Ф(/.) будет  иметь вид 3  3 (0) = 4-5 DAA, Y,9/(K,X,)=  =A, +A, +4,-42A7 +52; +1322 —64,A, -10/,A, +164,4,), mpuyem A, -A,-A,=0>4,=4,-A.. Torna Ф(4,4,)=24-34, - 4, +34..  Составим и решим нормальную систему для функции Ф(Й,/.): 
ab ‘*=0 dA’: (2-54, 4+34,=0, (4, =4, ЕЛЕ =  Следовательно, Я, =4, 4, =6, 1, =-2. Так как 4, <0, то исследуем функцию Ф(^.) на границе области 1,20 (1=1,2,3) при условии A, =A, -A,. Если А =0,то 4,=-A,> A =0 (1=1,2,3)> Ф(®)=0. Пусть 2, =0. Тогда 4, =A, =A u ®(A)=21-317’, Ф(4)=0 при 4 =2/5. Следовательно, 4 = 4 =2/5, Д® =0 и Ф(.?)= 2/5. Если же A,=0, To A=A=A 4 @(A) =2A-12’, (A) =0 при Я =2. Следова- tenbHo, A? =A =2, AP =0 un OCA) =2. Таким образом, наибольшее значение функ- uuu P(A) в области 1, >0 (1=1,2,3) при условии A, =А-1, достигается в точке 2° =(2,2,0)'. B этом случае,  Рис. 5.2  ° 1 1 0 м = › Дух, =2х, -2х = )-2[ )-( ) > MAN AL 2) (2  b= y,' —(w,x,)=1-(0- 2) =3. Таким образом, f(x)=(w,x)+b=-2x,+3 u }(х)=0<>х, =3/2. Ширина разделяющей полосы будет равна h= 2/ №] =2/2=1, а прямые f(x)+1=06 х, =2 и }(х)-1=0<> х, =1 будут ее границами (рис. 5.2).  5.2. Линейно неразделимый случай  В 1992 году в работе Бернарда Бозера (Возег В.), Изабелл Гийон (Спуоп 1.) и Владимира Вапника был предложен способ адаптации машины опорных векторов для нелинейного разделения классов. В этом случае (см.  разд. 2.4) нужно вложить пространство признаков А” в пространство Н большей размерности с помощью отображения ф: А” > Н. Будем считать,  что Н - пространство со скалярным произведением. Тогда, рассматривая ал- горитм опорных векторов для образов Ф(х,) обучающей выборки, сведем  решение задачи к линейно разделимому случаю, т.е. разделяющую функцию будем искать в виде  f(x) =(W.9@)+b, w= Di Ay,(x,),  где коэффициенты 1, зависят от у, и от значения (9(x,), P(x )). Таким обра-  зом, для нахождения решающей функции нужно знать значения скалярных 
произведений (Ф(х,),ф(х,)). Для этого исследуем свойства функции  К (x,y) =((x), P(y)), которая называется ядром. Следующая теорема, из-  вестная в теории интегральных операторов и доказанная Джеймсом Мерсе- ром' в 1909 году, полностью характеризует ядро. . Теорема 5.1 [2. С.325]. Функция К(х,‚у) является ядром тогда и только  тогда, когда она удовлетворяет условиям: 1) К(х‚,у)=К(у,х) (симметричность); 2) K(x,y) неотрицательно определена, т.е. матрица К=(К i 5), К, =К(х»х,) является неотрицательно определенной для любых векторов  х,,....Х  Упражнение. Докажите, что следующие функции являются ядрами: 1) K(x,y)=(% y); 2) K(x y) = 9x) Oly); 3) К (ху) =С>0. Теорема 5.2. Справедливы следующие свойства ядер: 1) сумма ядер - ядро; 2) произведение ядер - ядро; 3) сумма равномерно сходящегося ряда ядер - ядро; 4) композиция ядра и любого отображения (т.е. K(W(x),W(y)) ) — 20po.  Следствие. 1) многочлен с положительными коэффициентами от ядра - ядро; 2) экспонента от ядра - ядро; НУР  3) функция е — ядро. Доказательство. Утверждения | и 2 следуют из пунктов 1, 2 и 3 теоре- ху? (ху мы. Справедливость утверждения 3 вытекает из того, что #7 =е ‘“-”. , enn) —(x,-y;)?  ‚ а симметричность и положительная определенность функций  е проверяется непосредственно. №  В силу теоремы 2.2 любые т-+1 векторов могут быть разделены на лю- бые два класса с помощью мономиального отображения степени не больше  т. Поэтому, если ф:х {xi xi, 1 +...+1 <т такое отображение, то ядро,  соответствующее этому отображению, можно искать в виде  K(x,y) =(9(x), @(y)) =((xy) +1)”.  Таким образом, это ядро гарантирует разделение любых т+1 векторов на любые два класса. В этом случае нахождение разделяющих функций осуще- ствляется следующим образом: 1) находим наибольшее значение функции  Мерсер Джеймс (Мегсег 1.) (1883 - 1932) — английский математик. Работы по математи- ческой физике. 
O(A)=> А AA,y,y ,K(%;,.X;) при условии >, Ay, =0 в области Я, >0 (1=1,...,М№), получим вектор А®° = (A... A);  2) разделяющую функцию находим в виде  F(X) =(w, 90) +b =(S0" A°y,0(x,), 900) +b =  =>"" Ay, (@(x,), PX) + ¥7' — Yo" APy, (9CK,), PCK,)) = =y 4 YK (x%;,x) + у, -y aA РУК(хьх,).  Преимущества и недостатки ЗУМ: 1) это наиболее быстрый метод нахождения решающих функций; 2) метод сводится к решению задачи квадратичного программирования в выпуклой области, которая всегда имеет единственное решение; 3) метод находит разделяющую полосу максимальной ширины, что по- зволяет в дальнейшем осуществлять более уверенную классификацию; 4) метод чувствителен к шумам и стандартизации данных; 5) не существует общего подхода к автоматическому выбору ядра (и по- строению спрямляющего подпространства в целом) в случае линейной не- разделимости классов.  Пример. Методом опорных векторов разделите классы @ ={х,,х,} и o,={x,}, если х=(0,0), х,=(2,0)', х, = (1,0)' (рис. 5.3). Решение. Так как количество векторов обучающей выборки равно трем, то т=2 ив | качестве ядра возьмем функцию К (х,у) = ((х,у)+ 1)*. Тогда  Ф()=д +4 +4, -1(4? +2542 +44. +244.-244-1844,)=| A, + A, =A, |= =2A, + 2A, -4A) +112; -102,A,).  Составим нормальную систему  Рис. 5.3  ЭФ (0) ——=0, Я, = 94 ° [2-34 +54, =0, _ 1 = a _. [2-14 +5А=0  ал, № ’=6  Можно показать, что в точке А® будет достигаться наибольшее значе- ние функции P(A) при условии 1+4, =А, в области 1,20 (1=1,2,3). Сле- довательно, 1) =4К(х,х)+2К(х,,х)-—6К(х,,х)-+1—  —(4K(x,,x,) + 2K(x,,x,) —6K(x,,x,)) = 4-1+ 2(2x, +1)° -6(x, +1? +1- 
—(4+2-6)=2х, —4х +1. . Таким образом, f(x)=2x,-4x,+1 и iy 4 од =0% х =1+ 2/2,  о. ое : “ fis) = f(x) +1=(4,-D’, f, (x) = f(x) -1= А 2х(х-2). Тогда f(x)=0e x, =1,  wo - < О в (о. | Г. ‹ /(®=0=>х=0 или х=2. Если рассмот- | И : реть вложение двумерного пространства при- | знаков В трехмерное по правилу Ни, (х,х,) > (х,х,, у) и проекцию последнего на о” плоскость хОу, то можно проиллюстриро- Рис. 5.4  вать разделение элементов обучающей вы- борки графиками функций у= f(x,), y= 1 (х) (=1,2) (см. рис. 5.4).  6. Нейронные сети и проблемы распознавания  6.1. Понятие персептрона  Понятие «персептрон» впервые ввел американский нейрофизиолог Френк Розенблатт' в 1957 году. Персептрон является некоторым классом моделей мозга или отдельной его системы (например, зрительной). Схематично его устройство показано на рис. 6.1. Здесь 5 — набор чувстви- тельных сенсорных элементов (сетчатка), А — набор ассоциирующих элемен- тов (нейронов), К — реагирующий элемент (т.е. нейрон, передающий сигнал управле- зяемснты ния мышцам или железам). Нейрон имеет м много входов и один выход. Входы в ней- Te рон подразделяются на тормозящие и воз- `` `` А-276МАИГ буждающие. Сенсорные элементы возбу- с ох тт ждаются, если в результате воздействия , раздражителя (например, света) величина оо входного сигнала окажется больше неко- be - торого порогового значения. 5 -элементы случайным образом связаны с А- Вик. 6.1 нейронами. При этом, если число возбуж- дающих сигналов больше числа тормозя- щих, то А-нейрон возбуждается и посылает сигнал на реагирующий элемент. В отличие от А-нейронов сигналы, поступающие на реагирующий элемент, суммируются с некоторыми весами. Реагирующий элемент выбирает некото- рое действие, если  ts Rd Rate Ra fa LY TST we SHEE MHD bt  ' Розенблатт Френк (Козеп ай F.) (1928 — 1969) — американский нейрофизиолог и мате- матик. Работал в Корнельском университете (США). 
R(x) = > wx, =(w,x)>0,  i=0 где W=(W,,W,,--.W,), х=(,х,...х,), х, — сигнал, поступающий на реаги- рующий элемент от 1-го нейрона (№ =1- сигнал смещения).  С помощью персептрона можно осуществлять классификацию образов по двум классам, считая, что хе @, если К(х)>0, и хе @, - в противном  случае. В этом случае К(х) — линейная решающая функция, а (w,x)=0 -  разделяющая гиперплоскость в №".  6.1.1. Алгоритм обучения персептрона  Предположим, что имеется некоторая обучающая выборка = = {х,,..., Ху} векторов двух классов @, и @,. Требуется построить линейную решающую функцию В(х)=(\,х), которая бы правильно разделяла элементы обучаю- щей выборки, т.е.  (w,x,)>0, если хе @, (6.1) (м,х,)<0, если х,Е @.. Реализуем построение такой ЛРФ с помощью итерационного алгоритма. Для этого предварительно обучающую выборку запишем в виде бесконечной  циклической последовательности #, = {хХ,,...,Ху,Х,,.-›Хн,...}.  Алгоритм обучения персептрона  1. Инициируется начальное значение у“)  весового вектора персептрона. 2. Персептрону предъявляется очередной вектор X, из обучающей выборки я , И осуществляется коррекция весового вектора по правилу:  м“, если (w,x,)>0 u x,€0,,  м, если (%®,х )<0 их Е@,, (k+1) — k k 2 (6 2) w+x,, eco (w”,x,)<0 1 x,€@,,  (k)  м -х,, если (w”,x,)20 4 x,€0,.  3. Проверяется условие останова для найденного весового вектора: алгоритм завершает свою работу, если он № раз подряд правильно классифицирует элементы обучающей выборки. В противном случае переходим к пункту 2.  Формула (6.2) показывает, что весовой вектор не меняется, если «предъ- явленный» вектор классифицируется правильно и увеличивается или умень- шается на х, при неправильной классификации.  Для упрощения алгоритма обучения персептрона вместо обучающей выборки = = {х,.....ху} рассмотрим выборку =’ = {х,,...х,}, где х,=х,, если хХЕ@, их =-х,, если х. Е @,. Тогда вместо системы (6.1) искомый вектор \ должен удовлетворять системе 
(w,x,)>0 ga Bcex i=1,...,N. (6.3)  Коррекцию весового вектора в алгоритме персептрона в этом случае можно осуществлять по следующей упрощенной формуле  (k) (k) ) (ket) _ Ww, если (w , > 0,  Ww (6.4)  x, w+x,, ecm (w,x; )<0. Пример. Обучить персептрон разделять образы на два класса &, и @,, если известно, что {Xx,,x,}C@, wu {x,,x,}C@,, rae x,=(1,0,1,0)’, х, = (1,1,1,0)', х, = (0,0,1,1)', х, = (1,1,0,0)' (с помощью таких бинарных век- торов можно кодировать, например, бинарные изображения). Решение. Процедуру обучения персептрона отразим в табл.1.  Таблица 1 Homep marak | 0 1 2 3 4 5 6 7 8 9 | 10 | 11 | 12) 13 Векторы Хх! X2 X3 X4 Xj X2 X3 X4 Xj X2 X3 X4 Xj X2 0 1 1 1 0 1 1 1 0 1 2 2 1 1 0 0 0 -1} -1] -1] -1] -2] -2] -1] -14| -2] -2 м (© 0 1 1 0 0 1 1 0 0 1 2 1 1 1 0 0 01 -1| -1| -1| -1| -2| -2| -2]| -2| -3| -3| -3 (w,x,) Oo; 2/ 1] 1] Of 1} OF OF O| OF Of} 1] 2] O Коррекции + ++ +++ +++ | - |+  Номер шага | 14 | 15 | 16 | 17 | 18 | 19 Векторы x3 | X4 | X1 | Xo | X3 | X4  (© 2{ 2) 2} 2] 2| 2 -3| -3| -3| -3| -3| -3 (w,x,) -1} 1] 3] 1] -1] -1 Коррекции + |  В этой таблице в ячейках первой строки указывается шаг итерации. Во второй строке перечисляются элементы обучающей выборки, в следующих четырех строках записаны коэффициенты весового вектора м“), в предпо- следней строке — результаты вычислений скалярных произведений, в послед- ней строке знак «+» означает, что вектор классифицировался неправильно и нужно производить коррекцию коэффициентов, а знак «-—» означает, что век- тор классифицировался правильно и коррекцию делать не нужно. После че- тырех подряд идущих правильных классификаций алгоритм завершает рабо- ту, в результате получается весовой вектор \ = (0,-1,2,-3)'. Заметим, что в  данном примере мы получим разделяющую гиперплоскость в четырехмер- ном пространстве, проходящую через начало координат. В общем случае для нахождения разделяющей гиперплоскости (если она существует) в п-мерном пространстве необходимо вводить смещение: рассматривать (п-+1)-мерные 
векторы х=(Ьх,...х,) и искать (п+Ш-мерный вектор весов  Т м = (и, и,...и,).  6.1.2. Сходимость алгоритма персептрона  В 1962 году американский математик А. Новиков (Моу1соЁ А.) получил простое доказательство для оценки числа коррекций в алгоритме персептро- на. Теорема 6.1. Пусть результирующий весовой вектор \’ удовлетворяет  системе (6.3) и имеет единичную длину, т.е. |w"| =1. Если \® =0 и  (w’,x’) > p>0, i=1....,N, тах |, | =а.  1<i<N  - 2 2 то число коррекции весов не превышает значения а /р .  Доказательство. Оценим длину wit), Предположим, что на 1+1-м ша-  ге итерации произошла коррекция веса по формуле (6.4)  . 2 . . . . +) 12 2 „112 = м) = (мб +х2+2(\9,х) < |w| +|x/] < |w| +d’.  №  Если за т итераций произошло К коррекций весового вектора, то будем иметь следующую оценку  2 “at 2 _ {12 2 2 2 [№] <|w” »| 4 lly’ < |w >| + |x’ + ly’ <...<|w®| + kd?.  Tax kak w” =0, то получим оценку сверху  lw] <ka?. (6.5)  2 Найдем оценку снизу для lw | . Пусть на {+1-м шаге итерации произошла коррекция веса, т.е.  (1+1)  wh) =wO +x’, (w,x’) <0.  <“ * Умножим последнее равенство скалярно на результирующий вектор м ‚ по- лучим  (wi? w") = ( © w')+(w’x’) > (w,w")+ р.  Если за т итераций произошло К коррекций весового вектора, то будем иметь следующую оценку  (м) > (м, м" )+р>...> (м, м’) +Ер=Ер. Таким образом, кр<(м”, м"). Используя теперь неравенство Коши- Буняковского, получим р < (м, )<|м"| м" |= м”. Откуда следует оценка |w | >К°р’. (Сравнивая ее с неравенством (6.5), получим  кр? <|м "|| < 42, откуда & 34? / р? 
6.1.3. Алгоритм обучения слоя персептронов разделению нескольких классов  Существует три случая линейной разделимости т классов (см. раздел 2.1). Случай 1. Для каждого класса @, существует линейная решающая функция 4, (х) = (w,.x) ‚ отделяющая этот класс от всех остальных классов. В этом случае задача нахождения ЛРФ 4, сводится к разделению двух классов: у я @’ и @”= (©... ,@.,...@„}. Случай 2. Любой класс &, отделяется от любого другого класса @, с  помощью одной ЛРФ вида а, (x)= (w,,,x). Использование алгоритма персеп-  трона сводится к разделению двух классов. Из обучающей выборки нужно выбрать только те элементы, которые принадлежат классам @, и ©.  Случай 3. Для разделения т классов используется т-1 линейная ре- шающая функция 4,(х) = (м,,х), причем  хе @, если 4,(х) >0 и 4,(х) <0 для всех ] #1.  Алгоритм нахождения системы линейных решающих функций в третьем случае может быть реализован на слое из т персептронов. Такие модели на- зывают обобщенными персептронами. На входы всех персептронов подает- ся вектор х. Если вектор хе @., то выходное значение {1-го персептрона  должно быть положительным, а для всех остальных персептронов — отрица- тельным. Для обучения такого слоя из т персептронов будем использовать сле- дующий алгоритм.  Алгоритм обучения слоя персептронов (0) (0)  1. Инициируются начальные значения W, ,...,W,, весовых векторов всех  персептронов. 2. Обобщенному персептрону предъявляется очередной вектор хеЕЯ., из  обучающей выборки и осуществляется коррекция весовых векторов по пра- вилу:  м, если (w,”,x, ) >Ou х, Е @, (w,”,x, ) <Ои Х, € ©, (k+l) — ; =  м +х,, ecm(w,,x,)<SOux, €@,, м -х,, если (\,®,х, }>0их, Е @..  U  WwW  3. Проверяется условие останова для найденных весовых векторов: алгоритм завершает свою работу, если он № раз подряд правильно классифицирует элементы обучающей выборки. В противном случае — переход к пункту 2.  Замечания. После появления персептронов (в том числе и обобщенных) наблюдался значительный интерес к исследованиям в этой области. Изуча- лась сходимость алгоритма обучения персептрона (А. Новиков), исследова- 
лись возможности таких систем, рассматривались различные обобщения мо- дели персептрона, открывались новые области их применения. Однако дол- гое время не было строгого математического обоснования их работы. Поэто- му первые неудачи, когда не удавалось обучить персептрон решению неко- торых простых задач, не воспринимались фатально. Ситуация кардинально изменилась после появления книги Марвина Минского (Мтзву М.) и Сей- мера Пейперта (Рареп 5.) «Персептроны» в 1969 году, в которой авторы, с одной стороны, математически описали работу персептронов, с другой сто- роны, указали границы их применения. Эти ограничения в основном связаны с линейным характером тех задач, которые могут решаться персептронами и экспоненциальным ростом сложности персептронов при возрастании раз- мерности решаемых задач. В нейроинформатике начался затяжной, более чем десятилетний, кризис, который закончился только в 1982 году, когда появились первые работы по обучению многослойных нейронных сетей, спо- собных решать задачи нелинейного характера.  6.2. Идеология нейроинформатики  В основе нейроинформатики (раздела искусственного интеллекта, кото- рый занимается исследованием нейронных сетей (НС)) лежит два представ- ления: о строении мозга и о процессах обучения. При рассмотрении строения мозга ключевым элементом является понятие простейшего элемента, кирпи- чика мозга — «нейрона». Второе представление базируется на возможности, по аналогии с живыми организмами, формировать путем обучения такие свя- зи между нейронами, чтобы множество нейронов (нейронная сеть) могло ре- шать определенную задачу. Простейшей НС является персептрон. НС допускают как прямое программирование, т.е. формирование связей по явным правилам (существует большой класс задач, для которых связи формируются по явным формулам), так и неявную настройку НС на решение определенных задач. Этот процесс и называют обучением. Обучение обычно строится по принципу «поощрение-наказание»: сис- теме предъявляется набор примеров с заданными ответами. Нейроны преоб- разуют входные сигналы, выдают ответ — также набор сигналов. Отклонение от правильного ответа штрафуется путем изменения внутренней настройки сети. Обучение состоит в минимизации отклонения желаемого результата от действительного. Можно выделить следующие отличия между нейрокомпьютерами, соз- данными на основе НС и обычными «фон-неймановскими» компьютерами: 1) нейрокомпьютер способен решать не одну, а целый класс задач; 2) особенно эффективно с помощью НС решаются задачи «искусствен- ного интеллекта» — распознавания, узнавания, чтения и т.д. 3) нейрокомпьютер имеет однородную аппаратную реализацию, т.е. конструируется из однотипных элементов — нейронов; 4) нейросетевая архитектура обладает высокой степенью распараллели- вания вычислений; 
5) нейрокомпьютер достаточно просто позволяет осуществлять измене- ние конфигурации вычислительной системы; 6) НС, как правило, не программируется, а обучается на решение какой- либо задачи, в отличие от обычного компьютера; 7) НС обладают высокой надежностью и устойчивостью к небольшим изменениям или повреждениям сети.  6.3. Элементы нейронных сетей  Первая модель кибернетического нейрона была предложена в 1943 году в статье известного нейрофизиолога Уоренна МакКаллока (McCulloch W.S.) МакКаллок У. и его ученика, в то время студента Уолтера Питтса (Риз УК.) «Исчисление идей, имманентных нервной активности». Формальный нейрон моделирует естественный нейрон. Известно, что в коре головного мозга че- ловека порядка 10" нейронов, каждый из которых связан с 10° -10* другими нейронами. Естественный нейрон имеет множество отростков — дендритов, по которым нервные импульсы поступают в нейрон, и одно длинное волокно — аксон, по которому нервный импульс от данного нейрона передается на другие нейроны. Аксон данного нейрона соединяется с дендритами других нейронов с помощью так называемых синапсов. Если величина суммарного заряда, поступившего в клетку, превышает некоторое пороговое значение, то нейрон возбуждается и передает импульс через аксон и синапсы на другие нейроны. В настоящее время нейрофизиологам известны около 50 разных типов нейронов. Поэтому предложенная МакКаллоком и Питтсом схема формального нейрона является сильно упрощенной, и не раз подвергалась справедливой критике со стороны нейрофизиологов. Тем не менее она позво- ляет успешно моделировать некоторые механизмы работы мозга. Стандартный формальный нейрон состоит из входного сумматора, не- линейного преобразователя и точки ветвления на выходе. Наиболее важный элемент нейрона — это адаптивный сумма- тор, который вычисляет скалярное произве- дение вектора входного сигнала х (по анало- гии с нейрофизиологией вход нейрона назы- вают дендритом) на вектор настраиваемых параметров У (рис. 6.2). Далее сигнал по- ступает на нелинейный преобразователь, на- зываемый функцией активации. Он преобра-  зует скалярный входной сигнал #= (w,x) в сигнал 0(1) (выход нейрона назы-  Рис. 6.2  вают аксоном). Чаще всего в качестве функций активации используются сле- дующие:  оф Ховисайда (р =” (70° кция Хэвисайда = . ume ла 7] 0, ¢<O  1) #>0, ,  2 кция знака (сигн sen(t) = ; ) функц (сигнум) $5п(1) 1 1<0 
3) тождественная функция P(t) =; 4) гиперболический тангенс (1);  5) гауссовская функция г";  6) логарифмическая функция ш(#+\/Ё +1); 7) сигмоидная функция (1+е")". Заметим, что сигмоидная функция и функция гиперболического танген- са являются гладкими аппроксимациями функций Хэвисайда и знака соот- ветственно. Точка ветвления служит для рассылки одного сигнала по нескольким адресам. Линейная связь (синапс) отдельно от сумматора не встречается. Синапс умножает входной сигнал х на «вес синапса» У.  6.4. Архитектуры нейронных сетей  Среди множества НС можно выделить две базовые архитектуры -— слои- стые и полносвязные сети.  Рис. 6.3 Рис. 6.4  В слоистых сетях нейроны расположены в нескольких слоях (рис. 6.3). Нейроны первого слоя принимают входные сигналы, преобразуют их и через точки ветвления передают нейронам второго слоя. Далее срабатывает второй слой и т.д. до р-го слоя, который выдает выходные сигналы. Если не огово- рено противное, то каждый выходной сигнал 1-го слоя подается на входы всех нейронов (1+1)-го слоя. Число нейронов в каждом слое может быть лю- бым и никак заранее не связано с количеством нейронов в других слоях. Ча- ще всего встречаются двух- и трехслойные НС. Все слои многослойной сети, кроме последнего, называют скрытыми, так как при обучении такой сети, как правило, остаются непонятными зако- номерности формирования связей на ее внутренних слоях. В полносвязных сетях каждый нейрон передает свой выходной сигнал остальным нейронам, включая самого себя (рис. 6.4). Выходными сигналами сети могут быть все или некоторые выходные сигналы нейронов после не- скольких тактов функционирования сети. Все входные сигналы передаются всем нейронам. НС могут быть реализованы аппаратно. В этом случае достигается эф- фективное распараллеливание вычислительного процесса. С другой стороны, 
вычислительные процедуры НС могут быть реализованы на обычных после- довательных компьютерах.  6.5. Математические возможности нейронных сетей  НС могут вычислять линейные функции, нелинейные функции одного переменного, а также всевозможные суперпозиции — функции от функций, получаемые при каскадном соединении сетей. Совокупность этих операций позволяет вычислять широкий класс функций, множество которых описыва- ется следующими теоремами. Первая теорема была доказана (в разных вари- антах) в 1954-1956 годах А.Н. Колмогоровым' и его учеником, тогда студен- том В.И. Арнольдом". Эта теорема, по сути, является решением 13-й пробле- мы Гильберта: можно ли непрерывную функцию многих переменных полу- чить с помощью арифметических операций и суперпозиции из непрерывных функций двух переменных? Теорема 6.2. Каждая непрерывная функция Г(х), хе [0,1]” представи- ма ввиде  2ntl  = Ув | Ув, | j=l k=  где в (Г) — непрерывные функции, й,,(х,) — непрерывные функции, не завися-  щие от функции [. Теорема 6.2 говорит о точном представлении непрерывной функции с помощью суперпозиции функций одной переменной. Вычисление функции Л можно было бы реализовать с помощью НС, но так как функции 8, зави-  CAT OT функции У ‚ ТО С ПОМОЩЬЮ такой сети можно реализовать вычисление  только одной заданной функции. На практике, однако, как правило, нет необходимости добиваться точно- го представления при вычислении функций. Достаточно уметь вычислять функции приближенно с заданной степенью точности. Поэтому важным яв- ляется вопрос об аппроксимации функций. Фундаментальной здесь является следующая теорема Вейерштрасса. Теорема 6.3. Любая непрерывная функция Г(х) на любом компактном  множестве К < К" может быть равномерно приближена многочленами, т.е. для любого Е>0 существует многочлен P(x) такой что sup| f(x) — P(x)|<e. xe K Эта теорема имеет ряд сильных обобщений, связанных с идеологией нейронных сетей. Одним из таких обобщений является следующая теорема,  ! Колмогоров Андрей Николаевич (1903 — 1987) - выдающийся российский математик. Труды по теории функций, теории вероятностей, топологии, механике. 2 Арнольд Владимир Игоревич (р. 1937) —- выдающийся российский математик. Иссле- дования по теории функций, дифференциальным уравнениям, функциональному анализу. 
доказанная Стоуном' в 1948 году. Пусть К компактное множество и C(K) — множество непрерывных на К вещественных функций. Тогда С(К) - алгеб-  ра (т.е. линейное пространство, замкнутое относительно операции произве- дения функций и удовлетворяющее аксиомам ассоциативности по умноже- нию и дистрибутивности). Теорема 6.4. Если замкнутая (по равномерной норме) подалгебра Ес С(К) содержит единицу и разделяет точки из К (т.е. для любых двух  различных точек х‚уЕК существует такая функция рЕЁ, что  P(x) # p(y)), mo E=C(K). Если в качестве Е взять множество всех многочленов, то получим ут- верждение классической теоремы Вейерштрасса. Однако в качестве Е мож- но взять и множество тригонометрических многочленов, и множество экспо- нент и т.д. И вообще достаточно взять любой набор функций, разделяющий точки, построить из них кольцо многочленов и мы получим плотное в С(К)  множество функций. Формальный стандартный нейрон может вычислять линейную функцию многих переменных и нелинейную функцию одного переменного. Поэтому с точки зрения конструирования нейронных сетей представляет интерес во- прос об аппроксимации функций многих переменных суперпозициями функ- ций одной переменной и линейных комбинаций многих переменных. Этот вопрос был положительно решен А.Н. Горбанем’ в 1998 году. Теорема 6.5. Пусть С(К) - линейное пространство, а Е — замкнутое  линейное подпространство в С(К), содержащее единицу, разделяющее точ- ки из К и замкнутое относительно нелинейной унарной операции ЙЕ С(К). Тогда Е=С(К). Из теоремы 6.5 следует теорема 6.4, если в качестве унарной операции взять Й(Р)=ЁР. Тогда из равенства {№ = 1(( ftey—-f’- 8?) следует, что  замкнутость Е относительно функции (Г) =Г равносильна замкнутости от-  носительно произведения функций и, следовательно, равносильна тому, что Е будет кольцом (подалгеброй). Теорема 6.5 утверждает, что с помощью нейронной сети, в которой ис- пользуется любая нелинейная функция активации, можно организовать вы- числение значений любой непрерывной функции с любой степенью точно- сти. Однако эта теорема не говорит о сложности такой сети — количестве сло- ев, числе нейронов в слоях.  Стоун Маршалл Харви (5{0ип М.Н.) (1903 — 1989) — американский математик. Труды по функциональному анализу, топологии, алгебре. Г орбань Александр Николаевич (р. 1952) — математик, биофизик, специалист по ней- роинформатике и математическому моделированию. Работает в Красноярском ГТУ. 
6.6. Базовые математические задачи, решаемые нейронными сетями 1. Базовые задачи, решаемые одним нейроном. С помощью одного нейрона можно реализовать вычисление скалярного произведения входного вектора хе К" и вектора синаптических связей \: 5=(\,х), а также функ- ции от такого скалярного произведения: #= Ф(5) = Ф((\,х)).  С помощью одного нейрона, по аналогии с персептроном, можно найти линейную решающую функцию, точно разделяющую (если это возможно) обучающие векторы двух классов. 2. Базовые задачи, решаемые слоем из т нейронов. Если имеется т нейронов с синаптическими связями-векторами \,, 1=1.....т, на каждый из  которых подается входной вектор х, то на выходе такой сети мы получим т значений 5=(\,,х), 1=1,...т. Эти т значений образуют вектор Т № $ = (5, ,...5„). Таким образом, НС из т нейронов может вычислять произве- Т дение матрицы И =[Мм......,\„| на вектор х: $=У/Х. В частности, после однократного прохождения вектора х через слой из т нейронов с синапсами \,, 1=1....т, на выходе мы получим вектор $=ИХх, И =[\,,...м,|Г, численно равный градиенту квадратичной формы K(x) =3(x,Wx): gradK (x) = Wx. 3. Базовые задачи, решаемые полносвязной сетью. С помощью пол- носвязной сети можно осуществлять более сложные вычисления.  а) Вычисление минимума квадрики. Найдем минимум квадрики (квадрикой в линейной алгебре называют сумму квадратичной формы, линейной формы и константы) P(x) =4(x,Wx) + (b,x). Umeem тааР(х)=Ух+Ъ. Тогда для нахождения ми- нимума функции P(x) воспользуемся методом градиентного спуска: ХО = х® — их +Ъ), k=1,2,... wom x“? =(1 -hW)x —1Ь, где Г - еди- ничная матрица. Последнюю итерационную процедуру можно реализовать на полносвязной сети: каждый ]-й нейрон связан с 1-м нейроном (1=]) с помощью синаптического веса —йЙу,, с самим собой — с помощью веса  1-— Йу’,. Кроме того, единичный сигнал на вход /)-й нейрона подается с весом —hb,.  6) Решение СЛАУ. Численное решение СЛАУ Ах=ф можно найти путем минимизации  квадрики = P(x) = (Ax —b, Ax—b) = 4 (x, A’ Ax) —(A’b,x)—+(b,b). — Имеем стааР(х) = А'(Ах-Ъ). Вычисление такого градиента можно осуществить с  помощью двухслойной НС. На первом слое будет вычисляться Ах-Б, а на втором - результат вычисления первого слоя будет умножаться на матрицу АГ. Минимизация квадрики, а, следовательно, и вычисление решения СЛАУ 
осуществляется далее в итерационном процессе по формуле x“) =x _ hgradP(x), k =1,2.....  6.7. Основные алгоритмы обучения нейронных сетей  Обучение НС основано на следующей процедуре. НС последовательно (или в случайном порядке — такое обучение называют методом стохастиче- ского градиента) предъявляются элементы обучающей выборки и вычисляет- ся величина ошибки, т.е. отклонения результата работы сети на предъявлен- ном обучающем элементе от ожидаемого отклика. Синаптические связи НС корректируются пропорционально величине этого отклонения. Далее предъ- является следующий образ и т.д. Процедуры обучения, таким образом, реа- лизуют нахождения минимума некоторого функционала ошибки методом градиентного спуска. Отличаются эти процедуры друг от друга выбранным функционалом ошибки и реализацией метода градиентного спуска.  6.7.1. Алгоритмы обучения одного нейрона 6.7.1.1. Алгоритм обучения Хебба  В 1949 году Дональд Хебб', исследуя механизмы функционирования центральной нервной системы, предположил, что обучение нервных клеток мозга происходит путем усиления связей между теми нейронами, которые синхронно возбуждаются. Другими словами, между одновременно активиро- ванными нейронами сети пороги синаптических связей снижаются. В резуль- тате образуются «нейронные ансамбли», которые все быстрее активируются при каждом очередном повторении входа. Это наблюдение легло в основу одного из первых правил обучения нейронной сети, известного как правило Хебба. И хотя в биологических системах этот механизм не всегда выполняет- ся, при обучении искусственных нейронных сетей он оказался очень эффек- THBHBIM. Предположим, что требуется настроить один нейрон на распознавание образов двух классов. Другими словами, для заданного множества векторов обучающей выборки + = {х,,....х„}, часть из которых принадлежит первому  классу @,, а часть — второму &, ‚ требуется так настроить синапсы этого ней-  рона, чтобы он давал на выходе правильные отклики при предъявлении сети векторов обучающей выборки. Эталонным выходом сети должно быть зна- чение у, =1, если хЕ@ и у =-1, если х, е @,. Таким образом, имеем мно-  жество У ={у,,..., У/} эталонных откликов нейрона. Будем считать, что вход- ные сигналы являются биполярными, т.е. х, = (х,), х, Е {-—1,1}, а в качестве функции активации нейронов используется функция сигнум sgn(t). IIpume- нительно к обучению одного нейрона правило Хебба формулируется сле-  ' Хебб Дональд Олдинг (НебЬ Р.О.) (1904 — 1985) —- канадский физиолог и нейропсихо- лог. 
дующим образом: если нейрон правильно классифицирует вектор, то порог синаптических связей снижается пропорционально этому вектору.  Алгоритм Хебба обучения одного нейрона 1. Инициируются начальные значения весового вектора — вектора синапсов: w”, 2. Для всех пар (х,,у,), хе, у, Е У выполняется коррекция весового векто-  (k+1)  — © ра по формуле м’ =м +х,у..  3. Проверяется условие останова для найденного весового вектора W, a именно, для каждой пары (х,,у,), хех, уеЕТ вычисляются значения 5; ЕР П((\,Х,)). Если 5, = у, для всех 1=1...., М , то алгоритм прекращает свою работу, в противном случае — переход к пункту 2.  Пример. Пусть x,=(1,1-1)’, x,=(,-1,-1)’, x,=(-1,-1,-1’, x, =(-1,1,1)’ . [Ipwuem x,,x,€@,, a x,,X,€@,. Требуется обучить нейрон пра-  вильно распознавать эти векторы. Решение. Имеем у, = у, =1, у, = у, =-1. Выполним шаги алгоритма:  мб =0; 2) м? ="Ф+ху=х; 3) w? =w + X,Y, =X, +X, = (2,0,-2)' ; 4) w =w™ +x,y, =(2,0,-2)" — x, = (3,1,-1)’; 5) w = wo +x,y, = GL=DT =x, =(4,0,-2)"; 6) проверяем условие останова: (\®,х)=6>0, (w,x,)=6>0, (м®,х,)=-2<0, (м®,х,) =-6 <0. Условие останова выполняется.  Нейрон обучен, м“ = (4,0,-2)' — результирующий вектор синапсов.  Заметим, что в общем случае, также как и в алгоритме обучения персеп- трона, для нахождения разделяющей гиперплоскости (если она существует) в п-мерном пространстве необходимо вводить смещение: рассматривать (п-+0-мерные векторы х= (фхь...,Х,)Т и искать (п+1-мерный вектор весов я = (Wo, Wi, +255 Wp) Возникает вопрос, минимизации какого функционала соответствует ал- горитм обучения Хебба? Рассмотрим функционал  F(w)=— >) sen((w,x,))y, - ХЕ Понятно, что минимальное значение функционала F(w) будет достигаться  на том векторе м, который соответствует линейной решающей функции, правильно разделяющей элементы обучающей выборки = на два класса. И это минимальное значение будет равно —т. В функционале Е(\) использу-  ется недифференцируемая функция $21(Г). Заменим эту функцию ее «глад- 
кой аппроксимацией» — функцией гиперболического TanreHca th(t), MomyauM  функционал F(w)= ->) .-th((w,x;)) у,. Тогда oF /dw, = -». ий’ ((м,х,)) ух, и gradF = -». ch” ((w,x,))y,X, .  ХЕХ XjE=  3ametum, uto th’(t)=ch(t)>0. Tosromy Ha 3HaK rpaquenta эта функция не влияет и минимизацию функционала Р(\) методом градиентного спуска  k+1 k можно осуществлять по формуле м“? ="? +». __ ух, или, реализуя метод  (k+l) _ цу  стохастического градиента, по формуле \ + ух,, что и дает алго-  ритм обучения Хебба.  Замечание. По аналогии с алгоритмом обучения слоя из т персептро- нов линейно разделять выборку на т классов (см. пункт 6.1.3), можно обу- чить алгоритмом Хебба слой из т нейронов правильно классифицировать выборку по т классам.  6.7.1.2. Персептронный метод обучения  В алгоритме обучения персептрона для унифицированных векторов обу- чающей выборки Я’ = {ху,...х,} (т.е. х.=х,, если хЕ@ и х,=-х,, если  хе @,) минимизируется функционал ошибки Е (w)=-) (w,x), rue  ‘E E(w) Е(\) — подмножество векторов обучающей выборки, которые классифици- руются неправильно для данного вектора \, т.е. (\,х)<0. Тогда  ЭЕ/9м =). к(и) № и ата (Е) => их = их ИСХ), где п -  функция Хэвисайда. Таким образом, величина коррекции пропорциональна векторной сумме неправильно классифицированных векторов. На практике при обучении персептрона коррекцию осуществляют после обнаружения очередного неправильно классифицированного вектора и на величину этого вектора. Такая вариация метода градиентного спуска делает его частично стохастичным, что улучшает сходимость алгоритма обучения.  6.7.1.3. Адаптивное обучение нейрона. Формула Уидроу  Алгоритм обучения персептрона можно обобщить на случай двух ли- нейно неразделимых классов и, вообще, на решение следующей общей зада- чи, рассмотренной Уидроу и Хоффом (\!19дгом В., НоЁ М.Е.) в 1960 году. Предположим, что имеется множество прецедентов в виде обучающей вы- борки = = {х,,....х„} и множества правильных откликов у....., У»: при предъ-  явлении вектора х, правильным откликом нейрона должен быть сигнал у,. Цель обучения нейрона состоит в нахождении такого множества весов \, чтобы среднеквадратичная ошибка неправильной классификации была ми- нимальной, т.е.  F(w)= > (Ф(\,х,))- у,) — min.  x,E= 
Заметим, что если функция активации (т!) =, то эта задача равносильна задаче линейной регрессии. Имеем  F / С =2 (инк) 9х,  втааР (м) =2>` (Ф((ч,х,)) — у, )@'(ч,х,))х, . Последняя формула в теории обучения называется формулой Уидроу. Тогда обучение нейрона осуществляется по формуле  мВ = м — hgrad(F(w™)), k =1,2,...,  где й>0 — шаг обучения. В отличие от персептронного алгоритма обучения здесь величина коррекции пропорциональна величине невязки между выход- ным значением нейрона и эталонным. Поэтому этот метод называют мето- дом адаптивного обучения. На практике, реализуя метод стохастического градиента, вместо вычисления суммы в формуле Уидроу итерационный шаг делают сразу после предъявления очередного обучающего вектора х, по  правилу wht) — wh _ h(o(w,x, )-y, ow ,x, ))x,, k =1,2,....  6.7.2. Обучение многослойной нейронной сети методом обратного распространения ошибки  Метод обратного распространения ошибки (error back propagation) Obi предложен Румельхартом, Хинтоном и Уильямсом (Rumelhart D.E., Hinton G.E., Williams R.J.) B 1986 roay u NpeqHa3HayeH для обучения много- слойной сети. Предположим, что имеется сеть, состоящая из М слоев, обу- чающая выборка = = {х,.....х„}, а также множество правильных откликов сети у......Ум, где у; - вектор значений, кото- рый должен быть получен на последнем слое при поступлении на первый слой се- ти вектора х, (рис. 6.5). Пусть между 1-м  нейроном п-1-го слоя и ]-м нейроном п-го слоя существует синаптическая Рис. 6.5 CBA3b wi”, x” — вектор на выходе п-го  слоя, п=|,...М (х“) — вектор на выходе последнего слоя и всей сети в це-  лом). Цель обучения М -слойной сети состоит в нахождении такого множе-  ства весовых матриц \“” =(и”), п=2.....,М ‚ чтобы среднеквадратичная  у  ошибка неправильной классификации была минимальной, Т.е.  О yf =D (x""— y,)? min  xe= xe= ] 
Минимизацию этого функционала ошибки осуществляют методом гра- диентного спуска, путем коррекции весов каждого слоя. Преобразование входного сигнала в ]-м нейроне п-го слоя осуществляется по формуле  1) a (2) = (yy) x; =GP(s;""), THe s;” =(w." x), @ - выбранная функция активации. На п-м  (n)  слое коррекция веса Wi производится на величину  ar __, ar axl” as” awit ax ds aw =  у  Aw, =—h —hd\"x;”, (6.6)  (n) OF 4x, (n) (n) ox ds’,  нейроне. Рассмотрим, как меняется величина ошибки д.” при переходе с п-  где a” = . Величина a” имеет смысл ошибки на п-м слое в }-м  го слоя на и+1-й слой. Имеем  (п) (n+1) (n+l) (n) (n) (п) _ OF dx; > OF dx, Os, дх, У 5M (n+1) dx; j 1 1 1 ik ’ Ayo gsi = | Lego gs axle [as = Wm yas  k  (n+)  так как 5 (0 = =w*,”. Takum o6pa30M, HMeeM итерационную формулу для вы- x J числения коэффициентов J”: dx” On” =| VIP wh? |—_, n=M -1,M —2....,1. (6.7) j Wik ds” k 5; На последнем слое имеем dx™? (M) 7M) j 0) = (3; ING (My (6.8) 5)  Заметим, что производные 4х“ / 4” =ф'(5”) — это производные функций  активации ф. Вычисление величин д’” по формулам (6.7) и (6.8) можно ин-  терпретировать как обратное распространение ошибки от последнего слоя к первому.  Алгоритм обучения НС методом обратного распространения ошибки 1. Инициируются начальные значения весовых матриц <? ..., w™,  2. На вход первого слоя сети подается очередной обучающий вектор х. В обычном режиме функционирования вычисляются все значения  (п) (n-1),, (n) _ - 5; =>. х Wi > n=1,..,.M, j=1,...,N. 3. По формуле (6.7) (или (6.8) для последнего слоя) вычисляются значение ошибок 9”. 4. По формуле (6.6) осуществляется коррекция веса на данном слое.  5. Аналогично, выполняя обратное распространение ошибки по формуле (6.7), корректируем веса на других слоях. 
6. Проверяем условие останова — стабилизацию критерия минимизации F  k+1 k (re. FY? =Е®): если Е стабилизировался, то алгоритм завершает работу, в противном случае — переход к пункту 2.  6.7.3. Алгоритм и сеть Кохонена  В 1984 году финский специалист в области нейроинформатики Тойво Кохонен (Копопеп Т.) предложил использовать НС для кластерного анализа данных. Пусть имеется множество векторов — выборка = = {х,,....ху} в про-  странстве признаков А”. Требуется разбить эту выборку на т классов, выде- лив т эталонных образов — центров классов %.....\,„ (которые называют  ядрами обучающей выборки) таким образом, чтобы минимизировался функ- ционал  F(w,,....W,,) =-» У. |x -w,|[ —> min,  i=l xeX; где X, — MHO2KECTBO OOBEKTOB i -FO класса, т.е. множество тех векторов вы- борки = ‚ KOTOPBIe «ближе» к ядру У; . Это постановка задачи кластеризации.  Предположим, что в записи функционала F используется евклидова метрика. Тогда  oF =-)> (x, -w,) И зтаа,Е=-» (х-м,).  xe X; ХЕХ,  Поэтому минимизацию функционала Г относительно ядра м, методом гра- диентного спуска можно осуществить по итерационной формуле (+0 — дк (® (k) Ww, =W; +h ey (х-у; ) или, реализуя метод стохастического градиен-  (k+1)  та, по dopmyne w'*? = w+ h(x—w’). Cmpicn stoi формулы следующий:  если вектор х относится к кластеру Х,, то центр этого кластера смещается в сторону этого вектора (остальные центры - не сдвигаются).  Заметим, что рассмотренный итерационный процесс будет сходящимся, так как отображение Ф(м)=м + й(х у) является сжимающим:  cw”) — &(w’)| = (1- A) ||w” — w’ если О<й<1. Следовательно, Ф имеет неподвижную точку, к которой и сходится итерационный процесс. Сеть Кохонена для нахождения т кластеров состоит из т нейронов, причем 1-й нейрон вычисляет меру близости входного вектора-образа х к ядру \,.  <|w’-w  9  Алгоритм Кохонена  1. Устанавливаются начальные значения ядер м”  ‚1=1.,...т, полагаем А =0. 2. На вход сети подается очередной вектор х обучающей выборки.  3. Вычисляются расстояния а, между вектором х и всеми ядрами wi, 
(kK)  i=l,...,m: а, = | x(. Определяется тот ]-й нейрон, для которого рас-  стояние а, — минимально.  (k)  4. Осуществляется коррекция весового вектора \, jj -ro HeiipoHa 110 dopMy-  ne WO") =w" +h(x—w').  k+1 k . 5. Проверяется условие стабилизации ядер: \“*? =\(? для всех #=1,....т. Если ядра стабилизировались, то алгоритм завершает свою работу. В про-  тивном случае — переход к пункту 2.  Шаг обучения Й рекомендуется в процессе обучения уменьшать. Особенно эффективно реализуется алгоритм Кохонена для биполярных векторов. В этом случае квадрат евклидова расстояния между вектором х и  2 ядром \ будет равен 4” = [м - х| = (м, м) + (х,х) — 2(\,х) = 2(п- (м,х)). По- этому на третьем шаге алгоритма минимальное расстояние будет достигаться для того ядра \,, для которого произведение (м,х) — максимально. Скаляр-  ные произведения между вектором х и всеми ядрами \,, 1=1.....т, можно  вычислить с помощью слоя из т нейронов. А найти номер того нейрона, для которого это произведение максимально можно с помощью дополнительной сети Махпеф, которая будет рассмотрена ниже в пункте 6.7.4.2. Сеть Кохоне- на для биполярных векторов называют сферической сетью Кохонена.  6.7.4. Сети ассоциативной памяти  Сетями ассоциативной памяти называют нейронные сети, которые ре- шают следующую задачу. В синаптических связях этих сетей «зашивается» и хранится информация о некоторых эталонных образах е,,...‚е„. При поступ-  лении на вход сети вектора признаков х сеть должна «вспомнить» тот эта- лонный образ, который «ближе» всего в заданной метрике к входному векто- рух. Если считать, что на вход сети подается искаженный или зашумленный вектор, то такая сеть действует как некий фильтр, на выходе которой исход- ный вектор должен быть «очищен» от зашумления.  6.7.4.1. Алгоритм и сеть Хопфилда  Нейронная сеть Хопфилда решает задачу ассоциативного «узнавания» в евклидовой метрике. Эта сеть была разработана в 1982 году американским физиком Джоном Хопфилдом', который реализовал в ней некоторые физиче- ские механизмы «запоминания», присущие, например, ферромагнетикам. По- сле появления работы Хопфилда, с одной стороны, возродился интерес к нейронным сетям (и соответственно возродилось финансирование работ по нейроинформатике), угасший после выхода книги Минского и Пейперта. С другой стороны, работа Хопфилда стимулировала массовое использование физических аналогий в нейроинформатике.  ' Хопфилд Джон Джозеф (НорНе]4 7...) (р. 1933) — американский физик, специалист в об- ласти физики твердого тела и биомолекулярной физики. 
Входной вектор такой сети должен быть биполярным, т.е. x, € {-1,1}.  Нейронная сеть Хопфилда для каждого предъявленного биполярного вектора х находит наиболее близкий к нему образ-эталон и выдает его на выходе. Информация об образах-эталонах «зашита» в синаптических связях самой НС. Так как векторы биполярны, то квадрат евклидова расстояния между  2 2 2 вектором х и эталонным вектором е, будет равен |x-e ‚| = |x| +le „| _ 2(x,e,) = 2n — 2(x,e р) ‚ если х, ее К”. Тогда расстояние |x—e „| будет ми- нимальным в том и только том случае, когда скалярное произведение (х,е р)  максимально. В основе функционирования сети Хопфилда лежит идея мини- мизации так называемого функционала энергии (функции Ляпунова)  в =>. ке,)' +4. (2-11, a>0. (6.9)  Первое слагаемое в выражении (6.9) будет минимальным в том случае, если вектор х будет близок к одному (или нескольким) из эталонных векто- ров, а второе слагаемое будет минимальным в том случае, когда координаты вектора х будут близки к биполярным значениям. Коэффициент &@ > 0 регу- лирует приоритетность этих двух критериев. Рекомендуется в процессе функционирования сети его постепенно увеличивать. Минимизацию функ- ционала Е(х) можно осуществить методом градиентного спуска по формуле  x“) =x _ heradF(x™)),  где К - номер итерации; h — градиентный шаг. Для вычисления координат вектора градиента найдем частные производные:  OF == —» (хе) +49: —0х,=-») > хе Е, +40? —1х, = ' р P\ i  — os Lene Cn Xj + 4a(x; — Их, = -». WX; + 4a(x; —1)x, , Jj  где и, =, ее» (здесь р — номер эталона). Второе слагаемое непосредст-  венно вычисляется при 1-м нейроне без участия сети. Вес связи между 1-м и ]- м нейронами равен у. Таким образом, минимизация функционала энергии  осуществляется по формуле xD =O 4 nw x  Wi x; или, в матричном виде, по формуле x") = (7+ hW)x® =Ox™, (6.10) где [Г - единичная матрица, О= (4;) =1+р1\’ Здесь \=ЕЕ", где  Е=[©,....е„| - матрица, составленная из вектор-столбцов е „ координат эта- 
лонных векторов. Матрица И имеет размер ихи, и значения ее элементов не превосходят по модулю числа т. Поэтому |W <ит и итерационный про-  цесс (6.10) будет сходиться, если 0<h<1/(nm). Сеть Хопфилда является однослойной, полносвязной и имеет структуру, показанную на рис. 6.6. Количество нейронов в слое равно размерности век- торов.  Алгоритм Хопфилда  1. На вход сети подается вектор х и полагается у°® =х, k =0.  (k)  ws (k+1) _ 2. Рассчитываются новые состояния нейронов по формуле 5,” ’ = >. ‚4; У,  и новые значения аксонов (функции активации) по формуле У =5921(5“*?) , где 321({) — сигнум-функция. 3. Проверяется условие стабилизации аксонов: если аксоны стабилизирова- лись (т.е. у“? =у®), то алгоритм завершает работу, в противном случае -  переход к пункту 2.  Замечание. Иногда сеть Хопфилда не может провести правильное рас- познавание и выдает на выходе несуществующий образ. Чтобы сеть уверенно распознавала образы, необходимо, чтобы они слабо коррелировали друг с другом, а их ко- личество т было не больше чем 0,14и, где п — размер- ность векторов.  Пример. Пусть имеется два 6-мерных эталонных BexTopa e, =(1,1,1,-1,1,-1)’ u e, =(-1,-1,-1,1,1,1)’ . Tpe6y- Puc. 6.6 ется построить сеть Хопфилда для этих векторов и классифицировать вектор x =(1,1,1,-1,1,1)’ . Решение. Заметим, что условие устойчивости распознавания т < 0,14п  в этом примере не выполняется, так как т=2, п=6. Построим матрицу си- наптических связей О =1-+ У’ для #й=1/2. Имеем  1 -1 2 1 1-10 -1 1 -1 12 1-10 -1 _ ая 2-0 Е =[е,е,]=| 1 1}; 9=1+3ЕЁЕ =| | 1 то | 1 1 000 02 0 1 1 1-1-1102  Тогда при предъявлении вектора х = (1,1, 1,-1,1,1)’ на выходе сети после пер- вой итерации получим вектор-столбец 5 =ОХ = (4,4,4,-3,2, ~2)', а после  применения функции активации $21({) — вектор-столбец У = (1,1,1,-1,1,-1)’ . Таким образом, уже после первой итерации вектор х будет отнесен к первому классу. 
6.7.4.2. Алгоритм и сеть Хэмминга  Сеть Хэмминга решает задачу ассоциативного «узнавания» относитель- но метрики Хэмминга. В этой сети используется свойство расстояния Хэм- минга для биполярных векторов, которое в 40-х годах ХХ века было исполь- зовано Ричардом Хэммингом для конструирования кодов, корректирующих ошибки. Если имеется два биполярных вектора х=(х) и у=(у),  х,, у, Е [-1,1}, то расстояние Хэмминга между векторами х и у будет равно |x — y|| = Ух _ y, = 2d(x,y), rae d(x,y) — число различных компонент этих векторов. Кроме того, если а(х,у) — число совпадающих компонент векторов х иу, ап - размерность этих векторов, то  а(х,у)+4(х,у)=п; = (xy) = > x,y, = a(x, y)—d(x,y) = 2a(x,y)—n. Тогда мера близости а(х,у) между двумя биполярными векторами будет  п | равна а(х,у) =—+—»ху,. Если имеется т эталонных векторов, то мера 2 2 i 1/1  близости между входным вектором х и эталонным вектором е р будет равна  1 a(x,e,) =a ta en):  Таким образом, если синапсом p-ro нейрона является вектор п  У, =(w,, ) где у» =n/2, и, = e,,/2 (p=l,...,.m), то после поступления на  вход нейрона вектора Х = (1,х,,...,х,) на выходе этого нейрона получим зна-  чение меры близости данного вектора к р-му вектору-эталону. НС Хэмминга имеет два слоя. В первом слое расположено т нейронов (по числу эталонов), на каждый из которых по- ступают все компоненты входного вектора Х. Каждый р-й нейрон этого слоя вычисляет зна- чение меры близости а, вектора х к эталонно-  му вектору е,. Во втором слое (так называемая  сеть Махпе) вектор мер близости a=(d,,..,d,) преобразуется в вектор  Puc. 6.7 (У,»...› Ут ),B котором будет только одна нену- ИС. 0. левая компонента. Номер этой компоненты  должен быть равен номеру того эталона, к которому наиболее близок (в смысле метрики Хэмминга) входной вектор х. Сеть Махпе! является полно- связной и однослойной, состоящей из т нейронов. Выходные сигналы каж- дого нейрона поступают на входы всех нейронов сети. Сеть функционирует в итерационном режиме до тех пор, пока значения выходных нейронов не ста- билизируются. Схема сети Хэмминга показана на рис. 6.7. 
Алгоритм Хэмминга ~ T 1. На вход первого слоя подается вектор х = (1,х,,....х,) и вычисляется век-  тор а = (а,,...а„)’ мер близостей (а, =(м „,Х)). Полагаем у’ =а и =0.  <“ k 2. На вход каждого р-го нейрона второго слоя поступает вектор у“. Рас-  (k)  iv) k+l считываются новые состояния нейронов по формуле 5' =>, 4, ; > Tae  l, i=j, 4; -| Е . | 0 <=< Уп . Вычисляются новые значения аксонов (функции —ё, 1 ’ t, t20, 0, t<0O.  3. Проверяется условие стабилизации аксонов: если аксоны стабилизирова- (k+1)  активации) у“ =6(5("?), где Q(t) -|  =у“), то алгоритм завершает работу, в противном случае — переход к пункту 2.  лись (т.е. у  Пример. Пусть имеется два 6-мерных эталонных вектора е, = (1,1,1,1,—1,1)` ие, = (-1,1,-1,1,1,10)". Требуется с помощью сети Хэмминга найти номер эталонного вектора, к которому наиболее близок вектор х = (1,1,1,1,-1,-1)”. Решение. Вычислим значения мер близости между х и эталонными век- торами: а=$+1(е,х)=3+1.4=5, а, =$+1(е,,х)=3+1.(-2)=2. Далее с помощью сети Махпе! выделим из вектора мер близостей а=у“ = (5,2) максимальную компоненту. Так как матрица синаптических связей О сети  6\-1 6  пота Зи  2 _ 7a __1 (161 2) _ 62) 63) _ pea __1 (952 @y_ 1 (952 $ 9 5 29,8 9 16-72 226 0 )  Таким образом, алгоритм Хэмминга относит вектор х к классу первого эталона.  Махпе равна О = i 6 3) , TO  7. Метод потенциальных функций  Этот подход был развит в 1962-1965 годах в работах советских матема- тиков М.А. Айзермана, Э.М. Браверманна, Л.И. Розоноэра и др. И. Э.М. В этом методе для построения по множеству прецедентов решающей функции А(х), разделяющей точки двух классов, используется следующая физическая  аналогия. Каждая точка обучающей выборки отождествляется с единичным гравитационным зарядом. Множество таких зарядов создает гравитационное поле. Если имеются несколько множеств точечных зарядов, соответствую- щих разным классам, то пробный заряд «притянется» к тому классу, который в данной точке пространства создает больший потенциал. 
Предположим, что имеется множество прецедентов, т.е. обучающая вы- борка =={х,,...х,} в пространстве признаков и множество меток  У ={у....., У„} принадлежности классам. Рассмотрим случай двух классов @ и @,. Через Х, и Х, обозначим их области предпочтения, а через < и =, — прецеденты первого и второго классов соответственно. Требуется найти та- кую функцию 4(х), чтобы 4(х)>0 для всех хех, и а4(х)<0 для всех .хЕЯ,,  = =1,...,N, TO TpeOyeTca HaliTu Ta- -1,x,E&,,  xe &,. Ec CunTaTb, 4TO y, -|  кую функцию 4(х), чтобы у(х,)>0 для всех хеЕЯ. Метод потенциальных функций связан с определением так называемой потенциальной функции и(х,у), т.е. некоторой положительной функцией, принимающей тем большие значения, чем «ближе» точки х и у друг к дру-  гу. Если векторы признаков рассматриваются в метрическом пространстве, то в качестве потенциальной функции и(х,у) можно выбрать функцию вида  u(x,y)=u(d(x,y)), где d(x,y) — некоторая метрика, а й(!) положительная  монотонно убывающая функция. Например, й(г) = ‚и =е“, а>0.  1+ 0 По аналогии с физическими потенциальными полями, системы точек, принадлежащих множествам =,, 1=1,2, будут создавать в точке х простран-  ства признаков потенциалы, равные u(x) = ig M%GY), 1=1,2. Если потенциал и, (х)>и,(х), то хЕ Х,. Если же и, (х) > и,(х), то хЕХ.,. Та- N v ким образом, функция d(x) =u,(x)—u,(x)= У. tel у,и(х,х,) будет решающей  (дискриминантной) функцией. На самом деле, решающая функция может и не содержать всех N слагаемых и будет иметь вид  d(x) =У ниж ибьх,), (1.1) где х, Е = - множеству векторов обучающей выборки, у, — неизвестные ко- эффициенты. Функцию (7.1) можно записать с помощью скалярного произ- ведения: 4(х) = (\,ч(х)), где м =(и,), и(х) = (и(х,х,)). В методе потенциальных функций дискриминантная функция 4(х) на- ходится по обучающей выборке # = {х......х„} путем коррекции К-й аппрок- симирующей функции 4,(х) с помощью следующей рекуррентной процеду- ры: d, (x) =d, (x) +7,,u(x,xX,,,), d(x) =0, (7.2) где {и} — некоторая последовательность, которая должна быть такой, чтобы  гарантировалась сходимость в некотором смысле 4,(х) к а(х) при К -—> <.  Второе слагаемое в итерационной формуле (7.2) осуществляет коррекцию дискриминантной функции в том случае, если очередной предъявленный 
элемент обучающей выборки классифицируется неправильно. Исследуем, как при этом необходимо осуществлять выбор коэффициентов и. В начале  работы алгоритма полагаем, что 4 (х)=0. При предъявлении вектора х, в соответствии с формулой (7.2) найдем 4 (х)=ти(х,х,). Потребуем, чтобы 4 (х,)>0, если хЕХ, и 4(х,)<0, если хЕХ, (т.е. у4(х,)>0). Так как и(х,х,)>0, то необходимо, чтобы и >0, если хЕХ, и г<0, если хЕХ.. Далее проверим, правильно ли классифицируется вектор х, функцией 4(х). Если вектор х, классифицируется правильно, т.е. 4 (х,)>0 и х,ЕХ, или 4,(х,)<0 их,ЕХ, (другими словами, у,4,(х,)>0), то функция 4(х) не корректируется (полагаем г =0 и 4,(х) =а(х)). Если же вектор х, класси- фицируется неправильно, то функцию 4,(х) необходимо подкорректировать по формуле (7.2). При этом ь>0, если а (х,)<0, х.ЕХ, и к <0, если 4,(х,)>0, х,ЕХ, и т.д. Такая коррекция дискриминантной функции анало-  гично схеме коррекции весового вектора в алгоритме персептрона. Существуют два подхода к выбору потенциальной функции. Первый подход предполагает, что выбирается некоторая базовая функция и(х,у), удовлетворяющая вышеприведенным «условиям потенциальности». Функция 4(х) имеет вид (7.1) и находится путем рекуррентной коррекции коэффици-  eHTOB w,, j=l,...,N или, другими словами, коррекции К-й аппроксимирую-  щей функции 4, (x) =(w® u(x) = wu(x,x,). B coorpercrsua c форму-  (k j системе очередного прецедента (х,.,,у,.,) следующим образом:  лой (7.2) коррекция коэффициентов и“) осуществляется при предъявлении  и, k+1# j, we? = tk) J . и =0, 1=1....М, К =0.1...., (7.3) и, +h kK +1=), где 0, У id, (X, ‚)>0, Ин = "dx, (7.4) m |. Very (x,,,) <0.  Пример 1. Предположим, что заданы векторы-образы x, = (0,0)’, х, = (1,0)', х, =(0,1)', х, =(-1,0)`, х, =(0,-10', принадлежащие областям предпочтения двух классов: хе Х, и х,,х.,х,,х.Е Х,. Требуется найти ре- шающую функцию методом потенциальных функций. Решение. Выберем в качестве базовой потенциальную функцию  1 W(X.) =  +k-y| симирующих функций 4, (х) = (№, а(х)) по формулам (7.3) и (7.4) отразим в табл.2. (которая аналогична табл.1 из пункта 6.1.1).  | — евклидова норма. Результаты вычислений аппрок- 
Таблица 2  Номер шага А 0 1 2 3 4 5 6 7 Векторы Х! X2 X3 X4 X5 Хх! Х> X3 0 1 1 1 1 1 2 2 0 0 -1 -1 -1 -1 -1 -1 0 0 0 -1 -1 -1 -1 -1 w) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 а, (Хи) 0 $ $ — 30 — 30 0 3 3 Коррекции + + + - - + - - Номер шага А 8 9 10 11 12 13 14 15 Векторы X4 X5 Xj X2 X3 Х4 X5 Хх! 2 2 2 3 3 3 3 3 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 w? 0 -1 -1 -1 -1 -1 -1 -1 0 0 -1 -1 -1 -1 -1 -1 а, (Ху) 15 Е 0 —30 —30 -% -% 1 Коррекции + + + - - - - -  Таким образом, решающая функция будет иметь вид  5 3 1 d(x) =——_, - ). —_—_; : 1+ | 21+|к-х, | На рис. 7.1 изображен график разделяющей поверхности и элементы обу- чающей выборки. На рис. 7.2 изображен график разделяющей поверхности для той же выборки, полученный методом потенциальных функций, если в  мт) КГ.  качестве базовой взять функцию и(х,у) =  Рис. 7.1 Рис. 7.2 Другой подход к выбору потенциальной функции состоит в представле- нии ее в виде ряда по некоторой системе {ф.(х)} базисных, как правило, ор-  тогональных функций: u(x,y) = У. #7Ф(х)Ф(У), где А, — такие положитель-  =|" i  ные числа, что У _4 = со, 4 < со. Тогда из (7.2) следует, что искомая 
функция 4(х) будет представима в виде ряда А(х) = У сФ (х) и ее можно найти путем рекуррентной коррекции коэффициентов с, или, другими сло-  вами, коррекции К-й аппроксимирующей функции 4,(®=Усф(®. В (k)  соответствии с формулой (7.2) коррекция коэффициентов Cc; осуществляет- ся при предъявлении системе очередного прецедента (X,,,,y,,,) следующим  образом:  (НО (k) 2 О :— _ co =e +74, A O(x,.,), ¢ =0, 1=1,2,..., К =0,1,...,  1  где коэффициенты 7, вычисляются по формуле (7.4). Функции 4,(х) можно  записать с помощью скалярного произведения в виде а, (х) = (с, Ф(х,.,)),  _ (© — (0 где Ф(х,.) м (ФР. (Х, )) ‚ с > (с; ) ° В качестве системы базисных функций, как правило, выбираются орто- гональные функции, т.е. функции, удовлетворяющие следующему условию:  |. у(х)ф.(х)ф,(х)ах =Ьд, , 6, — символ Кронекера, В, >0. Здесь у(х) - неко-  торая неотрицательная весовая функция. Наиболее популярными из ортого- нальных функций являются многочлены Лежандра, Чебышева, Эрмита, Ла- гранжа, Лагерра и т.п. Подробнее об ортогональных многочленах см. [23].  Пример 2. Многочлены Лежандра. В случае Ё' это ортогональные мно- гочлены, определенные на отрезке [-1,1]. Их можно получить путем ортого- нализации Шмидта тейлоровских многочленов на отрезке [-1,1] с единичным 1, хЕ [-1,1], О, хе [-1,1].  рекуррентным образом: Р(х)=х, Р\(х)=1, В. (х)= (2 + 1)xP, (x) -  весом у(х) -| Многочлены Лежандра можно задать (покажите!)  КР. (х)}. Например, Р,(х)=3х’-1, Р(х)=5х-3х. Можно показать (по-  1 2 кажите!), что В, =| ‚В (х)ах =52т, k =0,1,2.... Пример 3. Многочлены Эрмита. Эти многочлены удобно использовать в том случае, если известно, что функция плотности }Ё(х) подобна нормаль- ному распределению. Многочлены Эрмита ортогональны на А' с весом  2 v(x) = are Py определяются следующим образом:  [4/2] r а x/2 2/2 (k) _ k-2r _ Clk! H,(x)=(-lve (e — didnt то г! (К 2)!  или с помощью рекуррентной формулы A, (%) =4*H,(x)—kH, (x), H,(x)=1, H,(x)=x, К=12,,.... Нормирующие коэффициенты В, =К!, К =0,1,... (докажите!). Функции вида у(х)Н,(х) называют функциями Эрмита. 
Следующая теорема (докажите ее самостоятельно!) показывает, как строится из полной системы «одномерных» ортогональных функций {e,(x)} ,  хЕ К' полная система ортогональных функций в п-мерном пространстве признаков.  Теорема 7.1. Если {Ф(х)} полная ортогональная система функций 0д- ной переменной на интервале Г с весом v(x), то 19... (х)}, Ф. ‚®=Ф (х,)...ф, (х,) — полная ортогональная система функций п пере- менных на декартовом произведении 1" с весом у(х) =у(х,)..у(х,).  В Приложении 2 приведен расчет нахождения дискриминантной функ- ции по прецедентам методом потенциальных функций. Вычисления выпол- нены с использованием пакета для инженерных и математических расчетов Ма@Саа. Исходные данные (прецеденты) считываются (пункт 1) из графиче- ского файла, в котором хранится изображение точек — двумерных векторов. В первой части расчета (пункт 2) для нахождения дискриминантной функции используется стандартная потенциальная функция. В частности, приведены 1  —— В 1+|x—y|  результаты вычислений для потенциальной функции и(х,у) =  второй части расчета (пункт 3) - для нахождения решающей функции ис- пользуется система базисных функций. В частности, приведены результаты, когда потенциальная функция задана системой многочленов Лежандра. По- скольку многочлены Лежандра определены на отрезке [-1,1], то предвари- тельно осуществляется нормирование исходных данных (пункт 3.2).  Возникает вопрос о сходимости последовательности аппроксимирую- щих функций 4,(х) в каком либо смысле к дискриминантной функции d(x).  Ответ на этот вопрос дает следующая теорема.  Теорема 7.2. Пусть (=) - множество прецедентов, причем х={х,,х,,...} — последовательность независимых одинаково распределенных  случайных векторов, У = {у,,у,,...} — множество меток ( у,Е {-—1,1} ), {Ф.(х)} — некоторая система базисных функций, а функции а (x)= >) ¢,9,(x),  u(x,y) = У _ 1 Ф()Ф(у) такие, что: 1) у.4(х,) > = для любого прецедента (х,, у,) и некоторого = >0;  оо 2 oo oo 2) V/A) <0, YAH, Ya <e. Тогда последовательность функций а,(х), определяемая формулами (7.2),  (7.4) сходится к а(х) в среднем, т.е. lim M | |sen(d, (x))- sgn(d(x))| | =0 (M[-]  — оператор математического ожидания). 
Оценивая в целом метод потенциальных функций, можно сказать, что он представляет собой некоторый обобщающий подход к нахождению дискри- минантной функции — многие другие методы решения этой задачи (напри- мер, алгоритм обучения персептрона) представляют собой итерационную процедуру вида (7.2) и отличаются друг от друга выбором потенциальной  функции. 
Часть П. Статистический подход в теории распознавания образов  1. Вероятностные характеристики среды распознавания и основные задачи статистической теории распознавания образов  Если рассматривать векторное представление образов, то в общем слу- чае, вектор признаков состоит из компонент-признаков, каждый из которых и их совокупность в целом характеризуют образ с той или иной степенью не- определенности. Эта неопределенность может, в частности, носить и вероят- ностный характер, хотя далеко и не исчерпывается этим случаем. Другими словами, каждый вектор признаков образа представляет собой многомерную случайную величину &. Появление того или иного образа является случай-  ным событием и вероятность этого события можно описать с помощью зако- на распределения вероятностей этой многомерной случайной величины в той или иной форме, например, в форме плотности распределения вероятностей. Вид и параметры функции плотности определяются конкретной средой, в ко- торой работает система распознавания. Зная элементы обучающей выборки — статистическую выборку + = {х,.....х„}, можно восстановить вероятностные  характеристики этой среды. Основными вероятностными характеристиками среды являются: функция плотности распределения вероятностей появления образа f(x); условные вероятности принадлежности некоторого образа заданным клас- о). сам р(@. 1х); вероятности появления классов р, = р(@.); функции условных плотностей распределения вероятностей образов внут- ри классов f;(x)= f,(xl@;,). Указанные вероятностные характеристики среды связаны следующими соотношениями. Будем предполагать, что классы &, образуют полную группу событий (являются гипотезами), т.е. @, [\@ ‚= O для всех 1], p(@,)+  р(@,)+...+р(@„)=1. Тогда справедливы формулы f(x) = У. р, Л. (х) - формула полной вероятности, (1.1)  р,Л.(х) <)  Пример. Предположим, что необходимо построить классификатор, рас- познающий печатные буквы русского алфавита. В этом случае система долж- на отнести символ одному из 33 классов букв русского языка или указать на то, что символ не является буквой русского языка. Для построения системы  р(@. 1х) = — формула Байеса.. (1.2)  ' Байес Томас (Вауе$ Т.) (1702 - 1761) - английский математик и пресвитерианский свя- щенник. 
распознавания определим некоторую систему признаков. Так как символ может быть набран тем или иным шрифтом, то существует большая неопре- деленность описания образа вектором признаков. При наличии большой ста- тистики © ={X,,...,.X,} (большого числа разных шрифтов) эту неопределен-  ность можно описать с помощью статистической оценки плотности }(х)  распределения признаков в классе той или иной буквы. Такая задача называ- ется задачей непараметрического оценивания, и некоторые подходы к ее ре- шению будут рассмотрены ниже. Если ограничиться построением классифи- катора, распознающего отсканированные буквы одного шрифта, то в этом случае неопределенность описания символа, прежде всего, будет обусловле- на наличием шума сканирования. Если шум сканирования имеет вероятност- ную природу, то общий вид его закона распределения вероятностей заранее известен и требуется только по выборке определить параметры этого закона. Такая задача называется задачей параметрического оценивания и некоторые способы ее решения, известные в статистике, также будут рассмотрены ниже. Например, плотность распределения вероятностей признаков 1-й буквы мо-  1 > Ono? 20 , i=1,...,33, (Tak Ha3bIBaemoe c@epu- NO ческое нормальное многомерное распределение, для соответствующего слу- чайного вектора & будем использовать обозначение & - №(т,,с”)). Здесь т, — математическое ожидание - центр рассеивания вектора признаков #-й бук-  жет иметь вид f,(x) =  вы (т.е. это вектор признаков незашумленной буквы), О” — дисперсия шума. По обучающей выборке = ={х,,....х,} можно получить оценки Ш, и б” па-  раметров шт, и О’ функции }(х) методом максимального правдоподобия (см. раздел 6.1.1), и они полу равны:  >, х,, F =]  X,E@;  2 2 IK. — mI  X,EQ;  “Fy  где |O.| — ancno элементов обучающей выборки, принадлежащих классу @.. 1 1  Вероятность появления той или иной буквы-класса можно оценить по фор- муле p@,)=|0,|/N ‚ где № - общее число элементов выборки. Далее по  формулам (1.1) и (1.2) можно найти и оценки других характеристик среды. После нахождения оценок вероятностных характеристик среды необхо- димо будет решить задачу построения классификатора, т.е. задачу определе- ния правил классификации в том или ином виде, например, в виде решающих функций. При этом решающие функции должны быть такими, чтобы вероят- ность неправильной классификации была минимальной. В зависимости от количества априорной информации о вероятностных характеристиках среды и о цене неправильной классификации, вероятность такой классификации может определяться по-разному. Ниже будут рассмотрены основные способы и подходы построения статистических классификаторов. 
2. Байесовский классификатор  2.1. Постановка задачи байесовской классификации  Предположим, что полностью известны вероятностные характеристики среды в данной задаче распознавания. Кроме того, задано разбиение про- странства признаков на области предпочтения. Возникает вопрос, каким об- разом может быть вычислена в этом случае ошибка неправильной классифи- кации, соответствующая данному разбиению? Рассмотрим сначала для простоты случай двух классов {@7 ‚@,}. Задано  некоторое разбиение пространства признаков А” на две области X, u Х.: 1 2  X, AX, =O, X,UX, =R". Причем, будем считать, что область Х, является областью предпочтения класса @., 1=1,2, т.е. образ хе @, ,‚ если хе Х,. Тогда вероятность неправильной классификации можно вычислить по формуле  O=| p@,|x)f(x)dx+ | p@,|x)f@adx. (2.1)  Первое слагаемое в формуле (2.1) равно вероятности отнесения вектора х классу @., если на самом деле он принадлежит классу @, (так называемая  вероятность О, ошибки второго рода). Второе слагаемое - вероятность О,  ошибки первого рода. Величина (2.1) — средняя ошибка неправильной клас- сификации. Отсюда следует, что задача построения наилучшего классификатора эк-  вивалентна такому разбиению пространства А” на непересекающиеся части Х, и Х,,, которое минимизировало бы среднюю ошибку неправильной клас-  сификации О. Эта задача обобщается для случая т классов. Требуется разбить про- странство А” на такие непересекающиеся области Х,,....Х„, чтобы средняя ошибка неправильной классификации  0=> | релюлодах  была минимальной.  2.2. Наивный байесовский классификатор  Решение поставленной в предыдущем пункте задачи дает следующая теорема.  Теорема 2.1. Выражение (2.1) будет минимальным, если Х, = [хе К": р(@ 1х) > p@, 1х)}, X,:=R"\ X,={xe R": p(@,|x) > p@,|x)}.- (2.2)  Доказательство. Имеем 
o-o+a-[ +f =f -f |rf -  Xo К" Хх,  [ p@, 1x) fax - | {p@,|x)- p@, |x} f wax.  A  p(B) Из последнего выражения видно, что значение О будет минимальнныыымм, если вычитаемое будет максимальным, а это возможно, если область Х, co-  стоит из тех хе К", для которых р(@, |х) > р(@, 1х) и теорема доказана. №  По формуле Байеса неравенство р(@ 1х) > р(@,|х) равносильно нера- Pf, (x) > Py f(x) F(x) f(x)  Следствие. Средняя ошибка неправильной классификации О будет mu-  венству <=> р. Л(Х)> р,/,(х) , откуда вытекает следствие.  нимальной, если Х, = [хе R": p, f(x) > р. № (|, Х, = В" \Х, ={хе R": p, f,(x) > pf}. (2.3)  Условия (2.2) или (2.3) легко обобщаются на случай произвольного чис- ла классов: хе @,, если р(@, [х) > р(@,|х) для всех ] +1 или  xe @,, ecm p, f(x) > р,Л,(х) для всех ] +1.  Пример. Пусть условные плотности распределения признака внутри  —ах  классов @., 1=1,2, имеют вид }(х)=ае“ upu x20, a, >0, i=1,2, a, #a,  (так называемое показательное распределение). Тогда в соответствии с пра- вилом байесовской классификации хе @, если  a,P,  aP,  a  - - 1 ae ““p,>a,e "p, = x > ——In при a, >a, а. а,  1 а или х<— Ш “22 при а, <а.. a, ~ a, QP  2.3. Отклонение величины средней ошибки неправильной классификации от наименьшей при небайесовской классификации  Подчеркнем еще раз, что байесовская классификация является наилуч- шей в том смысле, что доставляет наименьшее значение средней ошибки не- правильной классификации. Найдем величину отклонения средней ошибки неправильной классификации от наименьшей (байесовской) средней ошибки, если все же будет выбрана небайесовская классификация. Пусть  № =ХЫХ,, Х, ПХ, =© - байесовское разбиение пространства признаков 
и R"=X,UX,, X,;AX,=O — HeOaiiecopcxaa knaccupuKkayna. Torna cpequne ошибки этих двух классификаций будут соответственно равны  О= р | ах + р, | Ь(®ах И O=p,| Лдах+ р, | дах.  Отклонение AO =O-Q будет равно  AQ = p, | ах + р, | (ах - р; | f,(x)dx— p, | fy(x)dx = = [ (2,400 - p,fO)dx — | (p,f,00 - Pf, 000d.  ~  Возможны четыре случая взаимного расположения областей X, u X,: 1) X,\X,=@; 2) X,\X,=@; 3) X,ANX,=@G; 4) X,\X,4#0, X,\X,4@, X,AX,#@. Kpome toro, p,f,(x)—p,f,(x)2>0 для всех хЕХ и рр (х)- р, ,(х) < 0 для всех хе Х, . Поэтому в первом случае ХС Хх, и AQ= | (р-р. Ьод)ак= | [ро - р ох.  Хх \Х, X\X,  Во втором случае Х СХ, и  AO= | (p,f,0)-p,f~)dx= | [р.б - р бок.  В третьем случае ДО = | | р (х)- р.Л, (x))|dx. В четвертом —  X,UX,  AQ= | |P.AC@-p.f,@lax+ | [PLO - pf, lax. X,\X, ХХ, Все эти четыре случая можно записать единообразно, получим до= | [р ®- р), ХХ, где А - операция симметрической разности множеств: АДВ =(А\В)(В\А). Таким образом доказана следующая теорема.  Теорема 2.2. Ecau {X,,X,}, {X,,X,} — байесовское и небайесовское  разбиения пространства признаков, то отклонение средней ошибки непра- вильной классификации от наименьшего значения будет равно  д0= | [р р, «4.  X,AX,  2.4. Обобщенный байесовский классификатор  Рассмотренный ранее байесовский классификатор можно обобщить, ес- ли предположить, что потери, возникающие при неправильной классифика- ции, неравнозначны. Эти потери можно описать с помощью, так называемой 
платежной матрицы (7,). Здесь г, - цена потерь при отнесении образа хе ©, , если на самом деле хе @..  Элементы матрицы и, , расположенные на главной диагонали платежной матрицы и соответствующие правильной классификации, равны либо нулю, либо будут отрицательными. В последнем случае г, характеризуют выигрыш при правильной классификации. Если же 1 ], то к, >0. Обобщенный байесовский классификатор строится как классификатор,  минимизирующий средние потери. Для их вычисления определим сначала условные средние потери  К(@ 1х) = У г, р(@.1х), i=l  которые численно равны математическому ожиданию потерь, при отнесении вектора х классу @,. Тогда средние потери для фиксированного разбиения  пространства К” на т непересекающихся областей Х,,....Х„ равны  т R=" [| к@ 1х) у дах. j=l x, Согласно постановке задачи байесовской классификации необходимо найти такое разбиение пространства признаков К” на т непересекающихся областей Х.,....Х„, чтобы средние потери К неправильной классификации  были минимальны. Можно показать, что решением этой задачи будет раз-  биение К” на области Х.,..., Х„, где  X,={xe R":R@,|x)<R@,|x) МИ.  Рассмотрим более подробно обобщенный байесовский классификатор для двух классов. Тогда  пр. (х) + т, р> Л, (К) f (x)  Ko Pi Si (X) + yp Po fa (X) f(x)  R@, |x) =7,,p(@,|x)+7,p@, |x) =  R@, |x) =17,, p(@,|x) +7, p(@, |x) =  Поэтому К(@ |х) < К(@, |х), если п. р. Л (х) + р. (х) < пр, Л (Хх) + "р, Л, (Х)  WIM X)_ 4-4 л® > Tn Po (2.4) №) тб Pi так как и, < г, при 1* 7. Условие (2.4) определяет область предпочтения Х, первого класса @,. Если ©, -®, = к, — п, (такие потери называют симметрич-  ными), классификатор (2.4) совпадает с классическим байесовским класси- фикатором. 
Средние потери К неправильной классификации в случае двух классов будут равны  R= | R@, |x) f (x)dx+ | R@, |x) f (x)dx =  = | (iP ACO+nPf0O)dx+ | (PLO +t ьь р, (ах.  В частности, если и, =, =0, то R=" Pp, | дах + т.р! | f,(x)dx. x, Х› Если же при этом г, =и, =1, то средние потери К будут равны средней ошибке неправильной классификации О. В теории распознавания образов функция }(х), рассматриваемая как функция класса &,, называется правдоподобием при данном Xx, a f,(x)/ f,(x) называется отношением правдоподобия. Пример. Пусть действительные значения признаков в классах @,,  а;  1=1,2, распределены по показательным законам }(х)=ае“” при х>0,  а, >0,1=1,2, а жа, . Тогда неравенство (2.4) примет вид  Gy gla-a)x > Py ГР Pa ay No" Pi Тогда область предпочтения Х, первого класса @, будет определяться нера- венством  г.г. а (a, ада. 2B) Koh, GAP,  3. Минимаксный критерий классификации  Байесовская классификация является наилучшей со статистической точ- ки зрения. Однако она не всегда применима. Например, она неприменима, когда вероятности р, неизвестны. Распишем средние потери от неправиль-  ной классификации А=Ср, [, f,(x)dx +c, P|, р, (ках, где C,=%, Cy =h)- Пусть с, f,(x)dx 2 с, [| Л, (ках. Тогда R<(p,+ Pade] f,(x)dx = с] сах. Если же с, I, сах < с, [| f,(x)dx , To  R<(p,+ p,)e, |. f, (x)dx = of, (сах.  Таким образом, 
Rsmaxyc, | f,(x)dx, c, | Л, (х)ах  Хх, X Поэтому, если априорные вероятности появления классов неизвестны, то в качестве классификационной стратегии может быть выбрана стратегия тако- го разбиения пространства признаков К” на непересекающиеся области Х, и Х,, при котором минимизировались бы максимально возможные средние потери от неправильной классификации, т.е.  К(Х,Х,) = шах с, | A@Odx,c, | f,00dx — min. Хх, Хх, Такой критерий называется минимаксным. В случае классификации по т классам требуется найти такое разбиение пространства признаков А” на непересекающиеся области Х,,...,Х„, при ко- тором  R(X 5-0 Xq) = тах >, | fdas — min. 7 i=l xX,  J 3 d десь Уи f,(x)dx — средние потери при отнесении вектора х ]-му классу, когда на самом деле он ему не принадлежит.  Пример. Пусть условные плотности распределения признака внутри  —ах  классов @, (1=1,2) имеют вид f,(x)=ae при  х>0, а,>0, 1=1,2 (так называемое показательное распределение). Будем искать область Х, сначала в  Xo - _ виде X,={x<x,}. Toraa К, = | a,e “°"“dx=1-e””, _ > —ах _ „-алм >“ К, = |. ae "ах=е "®. Найдем точку минимума  функции К, (ж) = шах{се-“®,с,1-е`“*)}. Нетрудно Рис. 3.1  видеть (см. рис. 3.1), что эта точка (обозначим ее через х) является корнем  = а = ах  уравнения се “" =с,(1-е “”), который можно найти численно. Средние по-  р —@1%  тери от неправильной классификации будут равны А (х)=се “®. Если же  искать область Х, в виде Х. ={х>х}, то В, (х) = шах] с.е “® ‚с (1-е “®)| и 1 1 0 20 2 1  точка минимума функции R,(x,) (o603HadHM ee 4epe3 X,) является корнем  —а —ах  уравнения се “^ =с (1-е “”). Средние потери от неправильной классифика-  ции будут в этом случае равны К, (х„) = се “®. Окончательно выберем тот случай, когда средние потери от неправильной классификации будут наи-  меньшими. В частности, если а=а, =а, то в первом случае, получим 
1 C, +c 1 Cc +c 5 5 СС xo =—In| +— |, a Bo Bropom — x, =—In| +— | uw А (ж)= В, (2%) =— 2. a C5 a с с + с,  Т.е. в этом случае потери от неправильной классификации будут равными.  4. Критерий Неймана-Пирсона Этот критерий применяется, как правило, в тех случаях, когда неизвест- ны не только априорные вероятности появления классов р,, но и платежная  матрица. Рассмотрим классификацию по двум классам. В этом случае фикси- руется некоторая малая положительная величина ©, которая называется уров- нем значимости, численно равная вероятности ошибки первого рода  a= I, 1 Сах (вероятность отнесения х к классу &, ‚ когда на самом деле х 2  принадлежит классу @,). При фиксированном значении © разбиение призна-  кового пространства №" на непересекающиеся области Х, и Х, осуществля-  ется в соответствии с критерием Неймана-—Пирсона [31. С.62] таким образом, чтобы минимизировать так называемую вероятность ошибки второго рода  О, = | f,(x)dx > min.  x,  Теорема 4.1 (Неймана'-Пирсона). Вероятность ошибки второго рода О› будет минимальной, если  Хх, = хе А": 1 (х)/ 0 > 1}, Х, = {хе В": (®/,(х) < 1], где пороговая величина й определяется из следующих соотношений:  a= | одах, Х,®)={хе В": f,(0)/fy(x) <h}.  Х› (в)  Заметим, что критерий Неймана—Пирсона является наиболее общим критерием классификации. Из него следуют другие критерии классификации, в частности, байесовский классификатор получается, если й=р,/р,.  Пример. Пусть условные плотности распределения признаков внутри классов @, (1=1,2) имеют вид показательного распределения }(х)=ае “" при х>0, а, >0 (1=1,2). Если а, >а,, то область  X= {5 H(0/fe)> A= fx em" > hh в]  2 a,  Величину Й определим из уравнения & = |. te Be при условии, что 2  2  X,(h) ={x: (5) /Ь(х) < й} = [4]  а,  'Нейман Ежи (Neyman J.) (1894 — 1981) - американский статистик польского происхож- дения. 
а-а _ а a,h aa Тогда @ = | ae “dx =exp| ——In| —— ||, otkyga h=— a" xu a, — a, 1 a,  n ша Х =\х: ———›.В учае Х, =‹х: = р. \ |. х< a, общем случае \ {x х< а  Подчеркнем, что поскольку обучающая выборка является случайной, то тот или иной критерий классификации тоже является случайным и никогда не гарантирует нам стопроцентной уверенности в правильной классифика- ЦИИ.  5. Критерии классификации в случае нормального распределения признаков в каждом классе  5.1. Критерии классификации в случае нормального одномерного распределения признаков  Рассмотрим построение различных классификаторов в случае одномер- ного нормального распределения признаков в двух классах. Условная плот- ность распределения признаков в {-м классе будет равна  ie -т)' ло) = ° , 1=1,2, (5.1)  Tina"  где т, — среднее значение признака в классе @., о, — среднеквадратическое отклонение значения признака х от среднего значения т,. Если дана обу- чающая выборка такая, что =, ={x,...x,}€0,, Я, ={х..м Е @,, то можно по-  лучить статистические точечные оценки этих параметров (см. раздел 6.1.1): 1 п 1 ~ 1 = 1 ~ \2 =2 1 , ~ m=AS x, m=TYX, = LMG, -wy, = Yo п 1g п" Г 1-14  5.1.1. Байесовская классификация  т —  В соответствии с байесовской классификацией образ следует отнести классу @,, если признак х, характеризующий этот образ, удовлетворяет не-  равенству и)? oi m) со" m) s Pr PO, или после логарифмирования последнего неравенства 2 1 oO =(x—m,) -—;(x-—m,) >In Po Si} (5.2) 20; 20; Py 0,  Если 9, = д, то неравенство (5.2) будет квадратичным. Геометрически  на числовой прямой К' область Х,, соответствующая классу &@, будет пред- 
ставлять собой либо интервал, либо совокупность двух непересекающихся полубесконечных промежутков. Если же ©, =0д, = д, то неравенство (5.2) будет линейным  т +т т, Oy Po  x> ’ 2 m-m Pp  а область Х,, соответствующая классу @,, будет полубесконечным проме- жутком.  5.1.2. Минимаксный классификатор  В соответствии с правилом минимаксной классификации необходимо найти такое разбиения числовой прямой Е' на области Х,, Х,, чтобы Хх 0Х, =В', Х, ПХ, =© и максимальная ошибка неправильной классифи- кации  О(Х,Х,) = шах | додах, | Водах  была минимальной. Сложность нахождения минимума максимальной ошибки О(Х.,Х,) за- висит от вида областей Х,, Х, (или, другими словами, от способа разбиения R'). Одноточечное разбиение прямой. Предположим, что граница областей Х, и Х, состоит из одной точки (т.е. К' разбивается одной точкой). В этом случае область Х, может иметь вид Х/(а)={х:-®=<х<а} или Х, (а) ={х:а<х<оэ}. В первом случае вероятность ошибки второго рода бу- дет равна  = (х- =т,  с. dx =  х-а Пусть 2 =1 О:  (а) = 2 (a)= J feoaes j—_ leer  fa |  где Ф(2) = > fie” 4! — функция Лапласа. С другой стороны, для вероят-  е- 22 dt= “=” , о,  ности ошибки первого рода имеем (ит  0 _ _ ^ 20? (а) = „| ода т dx  х-т = |IIycts ——+ =t О. 
ат со  "= тк og =) =1-— | eMart  Tag Leos age tae | a]  m,—a =|т.к. Ф(-) =1-Ф(<)= of 4)  Следовательно, минимаксная классификация В этом случае сводится к нахо-  ждению такого значения ае Ю', чтобы значение максимальной ошибки не- правильной классификации  A (р (1) _ am, та О°(а) = тах{0°(а), 0 (а)} = max < 5 )®  2 0;  1 1 было наименьшим. Рассмотрим функции О‘’(а), ОТ(а). Так как функция Лапласа — монотонно возрастающая, а линейная функция (т, -а)/0, — моно- тонно убывающая, то функция О(а) будет монотонно убывающей (как су-  перпозиция монотонно возрастающей и монотонно убывающей функций). Причем эта функция будет принимать все значения из интервала (0,1). Ана-  логично функция О.(а) будет монотонно возрастать и принимать все значе- ния из интервала (0,1). Поэтому  min Q” (a) = Q;” (a,) = <"  0, 1 1 v где а, — единственный корень уравнения О! (а) = О (а). Найдем а. Так как функция Лапласа — монотонно возрастающая, то имеем а_а-т, _ _mo,+m,o,  0" (a) =O" (a) “=  «= 0, о, +0, (1 т -т Причем, в этом случае О’ =Ф| ——? |. +0, Если область Х, искать в виде Х, ={х:а<х< о}, то в этом случае по- лучим следующее значение максимальной ошибки неправильной классифи-  кации О“ = of am)  О +0.  Таким образом, при разбиении К' одной точкой minQ” = i=1,2  т, — т -— |, причем Х, ={х:-©<х<а}, если т <т И 0o.+o 1 0 1 2 1 2 Х, ={х:а <х<о} в противном случае.  В частности, если: 
т, + т, A) — lm, = т, ——— Hw min ——_ |. 2 #12 Q 20 °  2) m,=m, =m, To q,=m wu minQ” =0(0 )=1/2.  1) 0, =0,=0,T0a,=  x | Двухточечное разбиение прямой . Несколько сложнее будет решаться задача по- строения минимаксного классификатора для двухточечного разбиения прямой Д'. В этом случае будем искать область Х, в виде, например, X,(a,b)={x:asx<b} (unm  X,(a,b) ={x:xSa,x2b}), rye а<Ь. Тогда в первом случае вероятность ошибки второго рода равна  1 2 оз" — — X,(a,b) “oot 0, 0,  Вероятность ошибки первого рода  sor owen у  (a,b) = f, (dx = 263 ax 2 dx = J, | aoe |e -0f $27 )41-0[ 2") 0; 0; Tak kak вероятности ошибок О? и < имеют разный характер монотонности по пере-  менным а и, то  0°° = шах[0°(а,Б), О (a,b)} = 08 (a,b)|  b: QO. (a,b)=08 (a,b) |  Рассмотрим уравнение О“ (а,Ь) = О® (а,Ь).. Это уравнение определяет неявную функцию  b=y(a) WM его можно записать в виде ф(Ь) = ф(а) +1, где отв [т ".) 1 0.  Функция ф(Г) является дифференцируемой монотонно возрастающей и принимающей все значения в интервале (0,2). Следовательно, она имеет однозначную дифференцируемую  обратную функцию Ф' и \(а)=ф '(Ф(а)+1, а<ф '@®. Причем функция у является  монотонно возрастающей и у (а) = Lo (докажите!). Тогда p (y(a)) min QO” = min Q” (a,y(a)) = min | [worm _Ф [=> | : " “ 2 0,  Исследуем функцию F(a) =Q%”(a,y(a)) Ha наименьшее значение с помощью производ-  пои 0, о, 0,  ной. Имеем  1 Этот раздел может быть рекомендован для самостоятельного изучения. 
1%. 4-т pos 1 @’ у(а)-т, | 9 0; 0, O2 _Ф' 9" с, с, 1 [и , 1 o( Mom) co, II 0; 0; 0, 0, Тогда Е\а)=0 > о. м "1 = от a = me >  0, 0; 0; oO,  > y(a)—m, | а-т, Г у(а)-т, | а-т, ; д, 0, 0, о. }'  Последнее уравнение можно записать в виде  7 (у (а)) = (а), (5.3)  2 2 t—m t—m . где | 7 -| с - . Функция 7(1) является квадратичной, если 0 +040, либо 2 1  линейной в противном случае. Исследуем эти два случая. Если (1) — линейная функция (0, =0, =0)), то уравнение (5.3) равносильно урав-  нению \(а)=а<> $(а)+1=9(а), которое решений не имеет. В этом случае функция Е(а) = (a,y(a)) является монотонно возрастающей при т, < т, ‚ либо монотонно убы-  вающей при т > т, (докажите!). Если т < т, , то  min Q” — lim O°” (a,w(a)) — ша [ т) = [7 о-® .  Oo “| b-m, b-m, m, +m, Причем Б=ф (1) & Y(b) =1e& B| —— ]+0| —— |=l1eb=———~ u oO oO 2 minQ” =@| -2—"1 J, a,b g 20  При т > т, имеем  -] _ min” =min F(a)= lim Q(a,y(a)) = j-9{ 2am) ap a а>$' (1) с  _o( mie А) с 20  Таким образом, в случае линейной функции 7(1) задача сводится к одноточечному раз- биению. Пусть теперь ©, + 0.. Тогда (1) квадратичная функция. Стационарной точкой этой 2 2 Oo, Mm, —O,mM,  2  5 . Tak kak PyHKuHA 77(t) YeTHa OTHOCHTENBHO TOUKH О —oO. 1 2  функции является точка & =  t), То уравнение (5.3) сводится к решению уравнения YW(a)=21,-a@ Ф(а)+1= (2% -а). В силу монотонности функции Ф последнее уравнение имеет единст- венный корень, который обозначим через а,. Таким образом, а, — единственная стацио-  нарная точка функции ЁР. Заметим, что хорошим приближением значения а является 
YMCHO a, ~ ty — (докажите, оцените погрешность приближения). Определим ха-  1 / 29 (ty) pakTep стационарной ТОЧКИ a, . Для этого нам понадобится следующая лемма, которую предлагаем доказать самостоятельно.  Лемма 5.1. Справедливо равенство  e* (w(a)—a) ‚ _ on), 20/039 (a) 2a (a; — 0; )(a+y(a)— 21)  где с - некоторое промежуточное значение.  Е(а)=  Так как у(а)>а для всех допустимых а и функция а+у(а)-2 меняет знак с «—» на «+» при переходе через точку а, (докажите!), то при 9, >06, точка а, будет точкой  минимума, а при ©, < д - точкой максимума.  Рассмотрим оба эти случая подробнее. 1. Пусть о, < 6,. Тогда а, — точкой максимума функции F u min 9° = пил Е(а) = шёл Е(-°), Е(ф"(1)}}. Обозначим через а, =Ф '(1). Так как а =ф ' (1) <> G(a,)=1E > o(% =m, нот) “le 3 [= -0( "=a > 0; 0. 0; 0,  a,—m т. -а mo, +m,0, 0 1 2 Omg = 12 21  д, в, ° G, +0, u W(-%) = g"'(1) =a), To  rem) Mom) 9 4) of = 0. 0, 0, +0,  рта От gf mae) gf ma) gf m=) О.  2 0> oO, 0, +90,  [ть  | ‚ причем разбиение R' na области О. +0,  Поэтому при 0, < 0, имеем шт О“ = ° a,b и ©, будет одноточечным.  2. Пусть д, > 0. Тогда а, — точка минимума функции ЕЁ и  пуп Q” = min F(a) = F(a,) = о [259 an }o[ 2st. , 2 X,={x:a,<xS2t,-a}, где а, - корень уравнения P(a)+1= —(2t, —a). Рассмотрим частный случай, когда т = т, =т. Тогда & =а, =т и корень а дол- жен удовлетворять уравнению ф(2т-а)-ф(а)=1. Кроме того, ф(2т-а)+ф(а)=2 (докажите!). Решая систему из двух последних уравнений, получим ф(а,) =0.5 > а, =ф '(0.5). Таким образом,  Х, ={х:ф (0.5) <х<2т-ф '(0.5)| 
и (докажите!)  шт О® =1-2Ф Ф 0.5)-т = %® Ф (0.5)-т , ab о, 0;  Аналогично исследуется случай, когда область Х,(а,Ь) ={х:х<а,х>Ь}.  5.1.3. Классификатор Неймана-Пирсона  Зафиксируем некоторое малое значение уровня значимости @ - вероят- ности ошибки первого рода. Тогда & = | » Ff (~)dx, rae X4(  Х, (в) ={х: 1 (х)/ (< 1} =| ат <]  2 2 тии (9) 0] 0. 9 0 9 O, 0, 0?  Рассмотрим частные случаи.  1. Ilycts 0, =o, =o. Torga  X,(h) =f: (m, тук < (т -m2) +07 Inn}  и пороговое значение h найдем из уравнения |, —m,|  ] 1 5" (20Ф`' (а) -+|т -т,|} a= | одета ott In || ohm 20  X,(h) ~ m,|  Поэтому X, ={x: f,(x)/ f(x) > h} ={x:(m, — m,)(x-m,) > o|m, — m,|@"(a@}. Тогда X,=(m,+0b"(@);+0) npu m>m, u X,=(-~;m,-ob"'(a@)) при m,<m,.  2. Ilyctb 6,>0,. Torga X,(h) =(b_(h);b,(h)), rae Ь, (№) - корни квадрат- ного трехчлена, т.е.  _ то? фто? + 0,0, \/2(02 — о?) (о в/с) (т, — m,)° b,(h) = а 1 2  Пороговое значение Й найдем из уравнения a= | f,(x)dx = of 2am =m) =т am ; 0; 0; X4(h) которое всегда имеет единственное решение (докажите!). Пусть h, — KopeHb этого уравнения. Тогда Х, = (—э;Б_(й,)) \(Ь, (й); ео). 
3. Ilycts 0, <o,. Torna (qoKaxutTe!) X, =(b,(h,);b_(h,)).  5.2. Классификация в случае многомерного нормального распределения признаков в классах  5.2.1. Многомерное нормальное распределение  uw us T Говорят, что случайный вектор &=(&,&.,...&) имеет нормальное не- вырожденное — распределение с вектором средних значений Т <“ шт = (7%,7,,....т,) и ковариационной матрицей 5 ‚ если его функция плотно-  сти вероятности имеет вид  — Цк-ш fem, 8) =e (5.4) (2л)"? |5 где $ =(К,); jal — Невырожденная (|S|#0), положительно определенная и 2 _ Те-1 симметричная ковариационная матрица, |x — m| и. =(х-щ) 5 (х-ш)  (|vI, =v’ Av -— метрика Махаланобиса, соответствующая симметричной по- ложительно определенной матрице А). Элементами ковариационной матри- цы 5 являются числа К, =М | _ т, (с, —m | — ковариационные моменты,  причем К, =М [< - m,) "|= д’ ‚ Если 5 ' =(b, ) _› ТО выражение  ij  (x—m)’ S"'(x—m) = 5b, (x —m,) + У у Ь, (х, — т‚)(х, —т,)  i=l j=i+l  представляет собой положительно определенную квадратичную форму. В случае п=1 функция (5.4) вырождается в функцию плотности одно- мерного нормального закона (5.1).  Рассмотрим частные случаи многомерного нормального распределения.  1. Признаки являются независимыми нормально распределенными случайными величинами. Тогда ковариационная матрица S будет диаго-  > . . 2 . нальной, так как К, =0 для всех {*] и К,=о0; для всех 1=1....п. Поэтому  (х—т)' 5 (х-т)= У (а — т,)* и плотность распределения такой систе-  мы равна _ би-т,? 20? А: (х ш, 5) = [[-— Г“ 2. Сферическое нормальное распределение: 0, =...=0,=0, К, =0  для всех {+ }. Тогда 5=о"Ги 
Е ыы  . | - евклидова норма.  f.(x|m, S) =  где I  3. Каноническое нормальное распределение: 5 = Г. Тогда f.(xim,D= tee Pr  Если случайные величины-признаки являются зависимыми между со- бой, то можно осуществить линейное преобразование, переводящее множе- ство исходных признаков во множество независимых признаков. Для этого  рассмотрим преобразование случайного вектора &=(&,&,...&)'  Ц=А' (&—ю) и соответствующее преобразование координат y=A'(x-m), (5.5)  где А - так называемая матрица перехода к новому базису. Для построения матрицы А нужно: 1) найти собственные числа матрицы 5": Д,..., Я, ; 2) найти собственные векторы У,,У.,....У,, соответствующие этим соб- ственным числам, тогда 5 'у =ЯуУ; 3) матрица А формируется из координат собственных векторов у,, за- писанных по столбцам. Матрица А является ортогональной, т.е. обратная матрица к матрице А совпадает с транспонированной матрицей А"'=А`'. В частности, на плоско- сти (при п=2) действие преобразования, соответствующего матрице А, рав- носильно преобразованию поворота и отражению относительно координат- ных осей. Из курса линейной алгебры известно, что собственные значения самосопряженного положительного оператора будут положительными. Тогда с помощью матрицы перехода А матрица 5' приводится к диагональному виду A'S'A=D, rue  д 0!0 D=|0 410  | —----+-=  0014,  Можно показать, что 4её 5 =4е р =4А....Я,. В результате преобразования (5.5) квадратичная форма будет иметь вид  (х- т)" 5 (х-ш) = у'А"5 Ау =у’ру=|У] ,  где |У] >= \/ » A, уг . Из курса теории вероятностей [13. С.34 1] известно, что  случайный вектор | будет распределен по нормальному закону с плотностью 
JAA, НН т fA, -tay? fy(y 0.0) = alo 1] se (5.6) i=l  Т Теорема 5.1. Если вектор &=(&,&,...&.) имеет многомерное нор- мальное невырожденное распределение со средним вектором T y y T m=(m,,...,.m,) , Ko6apuayuonHou матрицеи 5, то вектор П=(П,....П,) = Т А (&—т) будет состоять из независимых нормально распределенных слу- чайных величин с нулевым математическим ожиданием и ковариационной матрицей Р=(4,), где A=[V,,...,V,] — матрица перехода, составленная из —1 собственных векторов У, оператора 5’, А; — собственные значения, соот- ветствующие собственным векторам у..  Следствие. Функция плотности распределения вектора | имеет вид (5.6).  5.2.2. Байесовский классификатор для нормального многомерного распределения признаков в классах  Рассмотрим сначала задачу построения байесовского классификатора для двух классов. Пусть заданы априорные вероятности появления классов р. = Р(@!), р, = р(@.,) и плотности распределения признаков в классах  1. (), 1=1,2. Тогда хЕ @, если р Л (х) > р, Л, (Хх). (5.7) Пусть вектор признаков & нормально распределен в классах @,, @, и имеет условные многомерные плотности нормального распределения:  - Ик 2-1 f(x) = окт, бе" 1,2. (21) |S; Подставим выражения для }(х) (1=1,2) в неравенство (5.7), получим ИтР к-т, 2-1 ХЕ, если P, е 3m р к-т |. [5] |S,  Прологарифмируем последнее неравенство и положим  d,(x)=In р, — М5, |- [к - м, [5+ › ©=12,  где У. =v’ Av -— метрика Махаланобиса, соответствующая симметричной положительно определенной матрице А. Тогда xe @,, ecum d,(x) >d,(x). Аналогичный результат справедлив при построении байесовского клас- сификатора для разделения т классов: ХЕ @, ‚ если 4,(х) > а,(х) для всех ] #1. (5.8) 
Заметим, что 4,(х) — квадратичная функция.  Таким образом, можно сделать следующий вывод: в случае многомерно- го нормального невырожденного распределения признаков в классах эти классы можно разделить с помощью квадратичной решающей функции.  Рассмотрим некоторые частные случаи. 1. Пусть 5, =...=5„=о5 (все ковариационные матрицы -— одинаковы). Тогда из (5.8) следует, что хе @, если In p, -+(x—m,)" S'(x—m,) >In p, -$(x-m,)'S'(x-m,). Упростим последнее неравенство с учетом того, YTO mS 'm, =m) Sm, WA симметричной матрицы 5`', получим —1 —1 In(p,/p,)+4(x-m,)’ S'(x-m,)-4(x-m,)’ S'(x-m,)>0, _ T ol tlm! C-ley _ mT eo! (m, —m,)" S'x+In(p,/p,)+4(m7S"'m, —m/S“'m, )>0. Таким образом, хе @,,‚ если а,(х)> 0 для всех j #1, где а, (х)= (v, x) +b;,  y?  v, =(m, -m,)'S, b, =In(p,/p,)+4(m7 Sm, -m7 Sm, ). (5.9)  ij Заметим, что 4, (х) = (v,,.x) +b, — линейная решающая функция. Таким образом, можно сделать следующий вывод: в случае одинаковых ковариационных матриц распределения признаков в классах эти классы можно отделить друг от друга с помощью линейных решающих функций. 2. Пусть 5, =...=5,.=5, р(@,)=...= р(@,)=Ит. Из (5.8) следует, что образ хе @,, если  [хм | < | -m,| a Bcex j#i.  3. Пусть 5, =...=5„=Г (единичная матрица), р(@,)=...= р(@,)=Ит.  Тогда к -щ || =||x-m,| — евклидова метрика. Следовательно, хе @,, если  |x-m,|<|x-m,| для всех J #1.  Рассмотрим также обобщенный байесовский классификатор в случае сферического нормального распределения признаков в двух классах, т.е.  1 = ак AX ) = ———— @ Fix) (2107)?  . _ 2 ‚ 1=1,2. Пусть R=(7,); _, — WiaTexHaa matpuua.  Тогда неравенство (2.4) примет вид 
2 2 [x-m,|| -|x-m,] 2  г, Г > 22 Р>  9 72-1 Р  ехр 29  откуда  |x-m,|’ -|x—m, |’ > 20°tn{ =n. Py ) Ka Thy P,  2 2 2 2 Так как хм, | —||x—m,| = 2(m, —m,,x)+|m,| —|m, ‚ то область пред-  почтения Х, первого класса &, будет определяться неравенством , (т, — пвх) > 1 (ша в, +07 in ие 2) hati Py (5.10)  В частности, в одномерном случае условие (5. 10) примет вид  т +т с гк x>—t + и 21 22 22 при 2 1  2 m —m „п, P m,>m,, m+m о? К х< > 2 + n( 2 222) npn m—m, Noh) Р Рис. 5.1 т, <т..  Пример 1. Пусть признаки в двух классах распределены по нормальным законам со средними векторами т, = (0,0)', та, = (1,0) и ковариационными 12 52 .. .. .. матрицами 5, -(3 5]. S, -(3 i}. Постройте байесовский классификатор  в случае одинаковых априорных вероятностей появления классов. Решение. Область предпочтения первого класса будет определяться не- равенством  1 2 1 2 от SL atm (5.11) |5 | |5, | Vimeem |S,|=|S,|=1, s'=( 3 7 1). 5." = (_ ; — 5] Тогда (5.11) равносиль-  но неравенству |х-—та | 5 <к-ш,| =, где | |.. - метрика Махаланобиса.  sz'? Для вектора и= (и,и,)’ значения квадратов метрик Махаланобиса будут со- ответственно равны lal. = 5u, —4u,u, +u, [9]. =u; —4u,u, + 5u5. Следова- тельно,  1 5x -4x,x, +45 <(x,-1) -4(x,-lx, +55 0  [ша | <|k-m,], 
a 16(% +0,25)° _ 16(x, + 0,5)’ ‹ 9 9 Таким образом, область Х, предпочтения первого класса ограничена гипер-  1.  болой (рис. 5.1). Пример 2. Пусть признаки в классах @, и @, имеют нормальные сфе- рические распределения №М@м.,3) и №(т,,3) соответственно, где па, = (1,1),  т, = (2,4)'. Найти области предпочтения классов, исходя из байесовского -1 2 правила классификации, если платежная матрица равна то’ а априор-  ные вероятности классов — р, =2/5, р, =3/5.  2 2 Решение. Пусть x=(x,x,)'. Так как |ш| =2, |ш,| =20, (т -т,,х)=-х -3х,, то из неравенства (5.10) получим, что область Х,  предпочтения первого класса будет определяться HepaBeHCTBOM х, +3х, <9+3Щ3.  5.2.3. Вероятности ошибок неправильной классификации в случае нор- мального распределения признаков в классах  Найдем вероятность ошибки неправильной классификации в случае нормального распределенния случайных векторов признаков. Отнесение об- раза х классу @,, если на самом деле он принадлежит классу @,, является  ошибкой первого рода, вероятность которой равна О, =|. f,(x)dx. Hatizem 2  эту ошибку в предположении, что рассматривается классификация по двум классам и 5, =5, =5. Тогда из предыдущего пункта (см. (5.9)) следует, что  ХЕ, ‚ если 4(х) < 0, где функция 4(х) = (у,х)-+Ь, v=(m, -m,)’S™, b=In(4)+1(m{S“m, -m/S"'m, ). Следовательно, вероятность ошибки первого рода равна О, = P{E: d(E) <0}. Пусть & — случайный вектор признаков в классе @,. Введем в рассмотрение  случайную величину 7=4(&) = (у,)+Ь. Нам понадобится следующая лем- ма.  Лемма 5.2. Если вектор §=(€,,6,,...€, ) имеет многомерное нормаль- ное невырожденное распределение со средним вектором т = (т,,....т,)', ко- вариационной матрицей 5, вектор У= (у...) Е В" и Е К', то случайная величина У=(у,5)+Ь будет распределена по нормальному закону с мате-  “ 2 T матическим ожиданием а =(у,т)-+Ь и дисперсией 0” =У'5У. 
Доказательство. Нормальность случайной величины 7 следует из того, что У является линейной комбинацией нормально распределенных случай- ных величин — компонент вектора & = (6,,6,,.56,) . Тогда  ем мт) +ь]=м[буз)}+ь=м| эм а +5= = Хим [&]+ь= Sm, +b= (ужи) В, смо м [в адм -  =м (лифт) |= м [Ури -тф, -m) |= = iu YM , —т, (5, -т,) |= У. miu je VK jv,=V SV  и лемма доказана. №  Таким образом, из леммы 5.2 следует, что случайная величина Y= а(&) = (у,5)+Ь будет распределена по нормальному закону, и иметь число-  вые характеристики равные М[7]= (у, т, )+Ь и д’=у'’5у. Учитывая, что тб Чи, =ш'5 Ча, для симметричной матрицы 5`', получим 2 1-1 2 д тр триц » получ _ _ T a-l р 1 Те-1 T g-l _ M[y|=(v,m,)+b=(m,-m,) S m, +In()-1(m/s m, -m;S~'m, ) = 2 1 Р! $m, -m, |], +In(2), rye Н ‹. - метрика Махаланобиса. Аналогично, дисперсия с” случайной ве- личины 7 будет равна 2 _ «т _ Т е-тгес-1 _ 2 o =v’ Sv=(m,—m,) SSS (m,—m,)=|m,-m,|_.  Тогда  ОР) Е. [° des = (9-2 - In(p,/P,) Ари | 5  где P(z) — функция Лапласа. Аналогично, вероятность попадания образа х в класс @,, когда на самом деле он принадлежит классу @, (вероятность ошибки второго рода), равна  In(p,/P,) }  |m, —m, |  о,- [бок o(- sm, —m, |. - 
В частности, если р, =р,, то О, =О, = Ф(- +, —т, | 5 }.  6. Статистическое оценивание вероятностных характеристик  Для того чтобы построить тот или иной вероятностный классификатор, необходимо знать вероятностные характеристики среды, а именно априорные вероятности появления классов р(@) и законы распределения вероятностей  признаков в каждом классе }.(х|@). Как правило, изначально нам может  быть известна только некоторая обучающая выборка = ={х,....х„} значений  признаков данного класса @. Будем считать элементы выборки я ={х,,...х у} независимыми случайными величинами, распределенными по  _  закону /.(х!0@). Требуется по выборке = ={х,,...х„} оценить плотность (10). В зависимости от полноты имеющейся априорной информации о  виде вероятностных распределений различают две задачи статистического оценивания: 1. Известен общий вид функции плотности распределения случайного вектора &. Точный вид функции плотности распределения вероятностей пол-  ностью определяется некоторым набором параметров. Требуется оценить вектор значений параметров этой функции плотности. В этом случае, как правило, используют методы параметрического оценивания. 2. Общий вид функции плотности распределения неизвестен. Могут быть только известны некоторые общие аналитические свойства плотности, такие как непрерывность, дифференцируемость, наличие ограниченного но- сителя и т.д. Для оценки плотности распределения в этом случае, как прави- ло, используют непараметрические методы оценивания.  6.1. Параметрическое оценивание вероятностного распределения Предположим, что известен общий вид функции распределения }, (ха)  случайного вектора &, которая зависит от векторного параметра ае А'. Кро-  | oo |  ме того, имеется обучающая выборка = ={х,.....х,} значений случайного  вектора &. Требуется, используя элементы выборки #, оценить (получить приближенные значения) компоненты вектора а. Эта оценка, которую будем обозначать через а, зависит от элементов обучающей выборки, которые сами являются случайными — величинами. Следовательно, и — оценка а=а(=) =а(х......х,„) является случайной величиной. Предположим, что a имеет функцию распределения плотности Й(х). Тогда можно найти теорети- ческие значения начальных и центральных моментов т-го порядка (те N,, № =М№\ {0} ) случайного вектора а:  M[a™]= | x™h(x)dx, M[(a—a)™]= | (x —a)™A(x)dx,  R' В! 
где а" =@" ..... 0", если в=(@,...@), M=(m,,...,m,) . Параметры вероятностного распределения можно вычислять и оцени- вать по-разному. «Хорошие» оценки параметров должны удовлетворять не- которым свойствам, среди которых выделяют следующие. 1. Статистическая оценка а называется несмещенной (асимптотически несмещенной), если М[а]=а (Пи М [аСх,...,Хн )|=а).  2. Говорят, что оценка а’является более эффективной, чем оценка А”,  если М [|a’—a  ‘| <M | |a”-al | , me №. Можно сказать, что более эффек-  тивная оценка в среднем является более точной. В качестве меры эффектив- ности статистической оценки а можно использовать величину  ет, (в) =м [4-а[ ]/м|  эффективной (асимптотически эффективной), если еЙ..(а)<1 для всевоз-  — * 2 ~ a -а| | Оценка вектора параметров а называется  можных оценок А” вектора параметров а (йт М aC, ..¥ ya а| | =0); Neco  3. Статистическая оценка а называется состоятельной, если lim P{|fa(x,.....Xy) —al >=] =0 для любого =>0. №М—юо 2  Числовые характеристики также являются параметрами распределения. В курсе математической статистики доказано, что несмещенной, состоятель- ной и эффективной оценкой т математического ожидания т является сред-  М ХЕ. Существует три основных подхода к нахождению оценок а вектора па- раметра а: метод максимального правдоподобия, метод моментов, метод  байесовского оценивания. Рассмотрим первые два из них.  нее арифметическое выборочных значений Mm = +  6.1.1. Метод максимального правдоподобия  В методе максимального правдоподобия, который был предложен Р. Фишером, для получения оценок а параметров плотности распределения вероятностей Л. (ха) случайного вектора & используют функцию правдопо-  добия Г.(а|=), которая строится по элементам обучающей выборки  = = N E={x,,....X,} cuenyrouum o6pasom: L,(alE)=[]_ f(x, !a). Предположим, что элементы выборки Я ={х,,...х,} получены независимо друг от друга и  являются независимыми случайными величинами. Тогда метод максималь- ного правдоподобия предполагает нахождение такой оценки а, в которой эта функция достигает максимума Г,(а|=) = тах Г, (а| =). Вероятностный смысл а  этого метода заключается в следующем: в качестве искомого вектора пара- метров а выбирается тот вектор, при котором вероятность того, что  П/Р =х, |а} — максимальна. Если плотность }(х|!а) дифференцируема 
по компонентам вектора а, то для нахождения оценки а методом макси- мального правдоподобия можно использовать дифференциальное исчисле- ние. В этом случае удобней вместо функции правдоподобия  Г. (а! =) = IL. f,(x,la) рассматривать логарифм этой функции 1. (а1 =) = № Г, (а! =) = У № iP (х,!а), который также называют функцией  правдоподобия. Тогда оценку а можно найти из решения системы  _ x 1 Of (x, la) ста (1 (а1=)) =0 > D srad(In f(x, !a))= = Та) a =0,  ]=1.....[, где огад — оператор градиента. В курсе математической статистики [18. С.513] известно неравенство Pao—Kpamepa, которое дает нижнюю оценку дисперсии несмещенной оценки а. Приведем формулировку этого неравенства. Через Г,(а|=)=  М за (о (а| =] обозначим так называемую информацию Фишера.  Теорема 6.1 (неравенство Pao—Kpamepa'). Пусть функция правдоподо- бия Г.(а|1=) удовлетворяет условиям регулярности:  1) L,(al&) > 0 и существует grad(J,(al=)) для всех а; 2) существет 1: (а |=) <<; 3) вгаа, ( [| a(2)L,(al2)dz] = I, a(=)grad, (L,(al@))dz для любой оценки а(=). Тогда для любой несмещенной оценки а=а(+)=а(х,,....х,) вектора пара- метров а нижняя граница дисперсии этой оценки равна  M la) -al| | > Iz'(al3). (6.1) Причем равенство в (6.1) выполняется только, если отаа (1. (а!=)) = (&(=)-а)ф(а) для всех а, (6.2) где Ф(а) — функция, независящая от =  Из этого неравенства можно сделать два вывода. Следствие 1. Любая несмещенная оценка, для которой выполняется ра- венство в неравенстве (6.1), является эффективной. Действительно, неравенство (6.1) говорит, что дисперсию оценки в этом случае нельзя уменьшить. Следствие 2. Если существует эффективная оценка вектора парамет- ров а, то она будет оценкой максимального правдоподобия.  'Рао Калиампуди Раджакришна (Као С.К.) (р. 1920) —- индийский статистик. Крамер Карл Харальд (Сгатег К.Н.) (1893 - 1985) — шведский математик и статистик. 
Действительно, для эффективной оценки должно выполняться равенство (6.2). Пусть а=а„(=) — оценка, полученная по методу максимального прав-  доподобия. Тогда grad (J, (а, (=) =)) =0—>а(=)=а„(=) (ф(а„(=))=0 невоз- можно, так как Ф не зависит от = ). Пример. Найдем методом максимального правдоподобия параметры  сферического нормального распределения. Предположим, что случайный вектор & имеет нормальное сферическое распределение, т.е.  1 ош = ее“ =n Тогда * 1 М -зч-тр 1, (т, 015) = [4 (к, шь о) = Je 3 k=l (2л)"? д") k=l И  1. (т, 01) = 1 1, (т, 01) =  2 ш|.  Воспользуемся необходимым условием существования экстремума функции многих переменных:  вгаа (1 (ит, о1=)) = (х, -m)= Ух» == =0, (6.3) k=]  О ia  откуда найдем оценку Ш вектора параметров т: вт  Из выражения (6.3) для grad(J,(m,o1=)) и условия (6.2) следует, что полу- ченная оценка т будет эффективной. Из уравнения  dl. (m,a| =) N N( 1x met) _ ВУ - ml? тих шо" 0 6.4)  найдем оценку б” параметра O°:  М 6 =)" x, - mal ——— к _ . nN =  dl, (m,o |=) Из выражения (6.4) для — 56 # условия (6.2) следует, что полученная  ~? <“ wu оценка Об’ будет эффективной. Можно показать (докажите!), что для най- денных оценок выполняются и достаточные условия существования экстре-  мума. 
B общем случае для несферического нормального распределения с плот-  - Цх- 7 (х- ностью (жи, 5) = Ре zoom) Sem) оценка параметров по методу (27)"" 5 максимума правдоподобия дает следующий результат: ~~, 1 m = (7i,) == DX, k=l  — оценка вектора средних значений,  ~  >, 1 ~ ar lo or eer S =(K,) = —in)(x, —m)’ = Wy Dake —mm k=1 k=l — оценка ковариационной матрицы или в координатной форме:  N N п =Т Ух К = У хх т.т i ik ? ij То Пу М = N  k=1  Замечание. Обучающая выборка = ={x,,...,.X,} может состоять из  большого числа векторов. Более того, эта выборка может пополняться новы- ми векторами. Поэтому важно не хранить все обучающие вектора в памяти ЭВМ, что может потребовать большого объема памяти, а обрабатывать дан- ные «на лету», по мере их поступления, путем коррекции ранее найденных значений. Покажем, как это можно сделать при вычислении оценок вектора средних значений и оценки ковариационной матрицы. — Пусть  (№) =и{х,,.... ху}, 5(№)=5{х,,...ху} — оценки вектора средних значений ковариационной матрицы соответственно по выборке =, ={X,,....Xy}, a Xyyy — новое выборочное значение. Тогда (докажите!)  ~ 1 ~ m(N +1)= (Nm) + X ya), = М (< N S(N + р = Was) + ХХ ) + (N 4 1) (пути. + X yy + ИХ |,  причем (1) =х,, 5 10) =0.  В Приложении 3 приведен расчет байесовского классификатора -— по- строения решающей функции для двух классов по выборке нормально рас- пределенных в каждом классе двумерных векторов. Вычисления выполнены с использованием пакета для инженерных и математических расчетов Ма®- Сад. Сначала генерируются два множества нормально распределенных дву- мерных векторов — выборочных значений в каждом классе. Затем по этим выборкам и вышеприведенным формулам вычисляются оценки числовых ха- рактеристик — центры рассеяния и ковариационные матрицы нормально рас- пределенных двумерных векторов. Наконец строятся решающие функции исходя из правил байесовской классификации для нормально распределен- ных случайных векторов (см. раздел 5.2.2), выполняется прорисовка разде- 
ляющей кривой. В рассмотренном примере разделяющая кривая представля- ет собой гиперболу.  6.1.2. Метод моментов В методе моментов используют то, что вектор параметров а функции плотности распределения /.(х!а) случайного вектора & зависит от началь-  ных моментов т-го порядка М[Е"](а)=| х"’ | (х!а)ах. По обучающей вы- В" 5  борке = = [х,,...Х vy можно найти оценки моментов ~ 1 & m m МЕБ 1= ys j=l  m п = T _ T где &" =" ..... 6", если &=(&,..,&) ‚ ш=(т,...т,). Тогда в методе мо- ментов вектор оценок а находят из системы уравнений:  M[§"\(a)=M[E"] > | x" f,(xla)dx = M[E"],  где выбирается [ (число компонент вектора параметров а) различных значе- ний ш, для которой М[&" (а) *0. Можно показать, что если зависимость  М[5”](а) от а является непрерывной, то оценка а вектора параметров, по- лученная методом моментов будет состоятельной. Пример. Найдем по обучающей выборке Я ={х,,...х„} методом момен-  тов оценки параметров а и Ь распределения Коши — распределения непре- рывной случайной величины &, плотность которой равна  а b >, =5-ч(3° | f(x) = b +X 2a  b 0 x|>b-tg| — |. ы 52а Так как плотность является четной функцией, то ненулевыми будут только  моменты четнои степени. Пусть a, = Ly , inj — оценки начальных моментов j=  К -го порядка. Имеем  2 2 _ ax'dx _ b \_ »» MIé*\(a,b)= | Fag =2ab e( 2 b’,  4 4 _ ах Ах _ 3. р 1 2 р _ 4 M[E*](a,b) = J sry or = 2ab (2.5% [> Г |  Составим систему 
2ab-tg[ 3) 6" = Gi,  3 b \i 1, of b 4_ ~ 2ab (2) Fe (2) 1} +b =а.,  решив которую найдем, что ~ 4 p2y3 Е, 12(a,b° + G,) ~ ~ 2 ~ G, +b’ ,| bV3./a,b + a, Я 3tg?| “NONE Ts 1.b* +a ~ 2\3 | a,b’ + a, (a, +b°) Последнее уравнение можно решить численно — найти БР ‚ подставить най- денное значение в первое уравнение системы и найти а.  6.2. Непараметрические методы оценивания  Параметрические методы оценивания плотности распределения приме- нимы лишь в простых случаях, если известен общий вид функции плотности распределения и если элементы обучающей выборки независимы друг от друга. Если же вид функции плотности распределения неизвестен, то приме- няют менее точные, но более общие методы непараметрического оценивания. Задача оценивания функции плотности },(х) в этом случае заключается в построении некоторой функции Д(х), которая аппроксимировала бы функцию Д.(х) в некотором смысле. Обычно, в качестве критериев аппрок- симации рассматриваются: 1) сходимость по вероятности в точке х - оценка }.(х) должна быть 5  состоятельной в этой точке, T.e. lim Pilhe (x1X,,...Xy)— <) > =] =0 для лю- NoO2  бого =>0; 2) среднеквадратичная сходимость в точке х -— оценка должна быть  асимптотически несмещенной в точке х, т.е. Нш М[ fe(XIX,,..,Xy = 0) и Nc  асимптотически эффективной в точке х, т.е.  шим | [К сих,ижн)- 6%] |=0.  №М—>о  6.2.1. Гистограммный метод оценивания  В этом методе в качестве оценки плотности распределения вероятностей используется гистограмма, построенная по обучающей выборке =. Построе- ние гистограммы основано на следующих рассуждениях. Если случайный вектор & имеет плотность распределения вероятностей ], (х), то вероятность  попадания вектора & в область р равна Р(р)= I, f,(x)dx. To ecTb Bemuanny 
Р можно рассматривать как усредненное значение в Р плотности f,(x). Ec-  ли имеется выборка = ={х,,....х,} независимых значений случайного векто- ра &, то вероятность попадания К значений из этой выборки в область О равна (вероятность Бернулли того, что случайная величина Х»„ примет зна-  чение, равное К) р, =Р{Х, == (К Р’а- Ру". Причем М [Х,|=  №.Р(р). Следовательно, Р(р)=М [Хх „|/М =К/М№. Так как из теоремы о среднем следует, что Р(О)= I, («ах = СУ (О), где хе - некоторое  «среднее» значение, У(Р) - мера области О, то f(x,) = . Поэтому в  А N-V(D)  качестве оценки /.(х) плотности f,(x) в области Р используют постоянное  значение авное ————-. >P N-V(D) Для построения гистограммы определим ограниченную область А про-  странства А”, содержащую все векторы обучающей выборки =, и разобьем А на непересекающиеся области-ячейки А,,..,А,: A=A,U..UA,  r  A, A, =O, ecm i# j. Ilycts k; — komwuecTBo aeMeHToB Oby4atomjel BEIOOp- ки =, принадлежащих А,. Тогда  ~ ~ k. ЖЕ) = Л(х!х,,.- Ху) = уд’ ХЕА,, (6.5)  где У(А,) — мера области А,. Заметим, что |. (х1 =) ах =1.  В математической статистике доказано, что таким образом построенная оценочная функция будет состоятельной, если правильно выбирать области A,. B простейшем случае область А разбивается на «большое» число одина-  ковых ячеек. Понятие «большое» будет ниже уточнено.  Пример. Рассмотрим обучающую выборку +=, состоящую из N =50 To- чек плоскости, расположенных так, как показано на рис. 6.1. Выделим об- ласть А, содержащую все векторы обучающей выборки — прямоугольник 115х173. Разобъем его на шесть одинаковых областей-прямоугольников А, (1=1,...6) и построим гистограмму в соответствии с формулой (6.5). График этой гистограммы показан на рис. 6.2. 
Puc. 6.1 Puc. 6.2  Основным преимуществом этого метода оценивания является его про- стота. К недостаткам метода можно отнести его невысокую точность, по- скольку аппроксимация осуществляется кусочно-постоянными функциями. Кроме того, он требует задания всей обучающей выборки и не допускает об- работки данных «на лету», по мере их поступления, путем коррекции ранее найденной функции. И, самое главное, пока остается открытым вопрос о та- ком автоматическом выборе системой распознавания областей А,, чтобы по-  лученная оценка плотности была состоятельной. Оценка плотности будет существенно зависеть от способа разбиения области А на подобласти. На- пример, на рис. 6.3 показано разбиение рассмотренной выше области А на 9 подобластей, на рис. 6.4 показана соответствующая гистограмма.  )  Рис. 6.3 Рис. 6.4  Видно, что результат существенно отличается от предыдущего разбиения. Ниже будет рассмотрен один из подходов к адаптивному разбиению области. Сравните этот подход с алгоритмами кластеризации.  6.2.2. Адаптивный гистограммный метод оценивания  Этот метод аналогичен предыдущему, только разбиение ограниченной области Ас К" на непересекающиеся области-ячейки А,....А, осуществля- ется с учетом характера распределения векторов обучающей выборки в про- 
странстве. В методе адаптивного гистограммного оценивания последова- тельно рассматриваются элементы обучающей выборки Я ={х,,...,х,}. В за-  висимости от того, насколько «далеко» расположен новый анализируемый элемент от центров ранее определенных ячеек, принимается решение, будет ли отнесен этот элемент к той или иной ячейки, либо этот элемент станет центром новой ячейки. Под ячейками в этом методе будем понимать области  =  Дирихле, построенные по разбиению обучающей выборки Я ={х......ху„} на  подмножества вида 3х. ,....х. г. Пусть имеется т ячеек А....., А_, в которых i iy 1 m  содержатся ранее проанализированные элементы обучающей выборки. Каж- дая ячейка А, характеризуется центром а, — среднеарифметическим значени-  ем содержащихся в ней элементов, вектором покоординатных дисперсий в’ и числом векторов обучающей выборки А, находящихся в ячейке. При предъявлении очередного элемента х обучающей выборки вычисляются рас- стояния между вектором х и центрами а, ячеек А, (1=1,...,т) в метрике п _ 2 ака) = р, т, о,  у где о’ = max{o; (0),6;} ‚ 0,(0) - некоторое минимальное значение диспер-  сии, д?  „ - оценка дисперсии по выборке. Определяется ячейка А,, ближай-  шая к xX, те. находится тот центр ячейки a,, для которого а (x,a,) = mind (х,а,). Тогда элемент х классифицируется следующим обра-  30M: 1) ecnm d(x,a,)<h,, To xe A,; 2) ecuu d(x,a,)>h,, TO co3qaeTCaA HOBaA T4eHKa C ICHTPOM B TOUKE X; 3) если й <а(х,а, ) < Й, ‚ то элемент х не классифицируется. Здесь Й, Й, — два положительных параметра, определяемые эвристиче-  ски. Таким образом, в этом методе разбиение по ячейкам осуществляется способом нахождения ближайшего соседа относительно взвешенной евкли- довой метрики. Причем, если элемент х находится на одинаковом расстоя- нии от центров двух ячеек, то он скорее будет отнесен к той ячейки, где раз- брос элементов больше. Если вектор х попадает в какую-либо ячейку, то в этом случае пересчи- тывается ее центр и дисперсия. При построении гистограммы эту процедуру применяют в следующем порядке: 1) первый вектор х, назначается центром первой ячейки;  2) следующие векторы классифицируются по приведенному выше пра- вилу; 3) векторы, которые не были классифицированы, распределяются по ближайшим ячейкам. 
После того как будет определено разбиение пространства А” на непере- секающиеся области-ячейки А,,..,А,, строится оценка плотности распреде-  ления вероятностей вектора признаков в классе по формуле (6.5). Этот метод адаптирует размеры и количество ячеек к выборке. Однако  он содержит несколько эвристических параметров: h,, h,, о’ (0).  Пример. Рассмотрим обучающую выборку = из примера пункта 6.2.2, состоящую из М№М=50 точек плоскости, расположенных так, как показано на рис. 6.1. Выделим область А, содержащую все векторы обучающей выборки — прямоугольник 115х173. Результат работы процедуру разбиения этого пря- моугольника на области Дирихле в соответствии с описанным алгоритмом и  параметрами о, (0)=30, # =10, Й, =20 показан на рис. 6.5. На рис. 6.6 пока-  зан график гистограммы, построенной по выборке = на ячейках, полученных в результате адаптивного разбиения =. В Приложении 4 приведен расчет простейшей (с регулярными ячейка- ми) и адаптивной гистограмм функции плотности распределения, выполнен- ный с помощью пакета МаСад. В Приложении 5 приведен расчет построения байесовского классифика- тора по прецедентам. На первом этапе этого расчета по прецедентам двух классов с помощью адаптивного гистограммного метода вычисляются оцен- ки плотностей распределения признаков в двух классов. После чего строится байесовский классификатор.  i BaP eres cae eee ео ЕН  Puc. 6.5 Puc. 6.6  6.2.3. Методы локального оценивания  В ряде задач распознавания образов необходимо знать оценку функции плотности распределения не во всех точках пространства признаков, а только в отдельных точках или в окрестностях отдельных точек. Например, при по- строении байесовского классификатора для классификации образов необхо- димо знать оценки плотностей распределения признаков в классах в той точ- ке, которая соответствует классифицируемому образу. В этом случае для ре- шения задачи оценивания плотности распределения можно использовать ме- тоды локального оценивания. Основной вопрос, который необходимо при 
этом решить — следующий: если мы хотим получить по выборке = оценку <=) плотности распределения вектора признаков ],(х) в точке ху, то ка-  кую при этом следует выбрать окрестность д(х,)? Оценка плотности {, (х)  по формуле (6.5) представляет собой усреднение истинного значения плот- ности /.(х) в некоторой окрестности О, содержащей точку х. Поэтому, что-  бы получить более точную оценку необходимо выбирать такую окрестность р, которая имела бы меньшую меру У(О). С другой стороны, если при фик-  сированной величине выборки № уменьшать У(р), то, начиная с некоторого значения, число выборочных значений К, попавших в О, будет равна нулю. И, следовательно, для этих Р получим }(х)=0. Пусть имеется последова- тельность выборок независимых случайных векторов Х„ ={х,,....ху}, Оу - последовательность областей, содержащих точку х, А„ — число выборочных ws ~- oN значений выборки = „, попавших в область О», f, (x) — оценка плотности распределения в точке х, полученная по выборке =, с помощью формулы (6.5). Теорема 6.2. Если функция }(х) непрерывна в точке ху, все области D, (М=1,2,...) содержат точку ху и удовлетворяют условиям: 1) hmV(D,,) =9; 2) im N -V(D,) =, (6.6) N00 N00 № J N -V(D,) ски эффективной и состоятельной оценкой плотности f,(X) 6 MOUKE Xo.  - . то функция Л. (х)= хЕД,, будет несмещенной, асимптотиче-  Доказательство. Для доказательства представим абсолютную частоту К, попадания выборочных значений в область О» в виде 1хЕД  м ky =>) Pw (X,); i=l N?  rae Py (xX) = 0x¢D.~ характеристическая функция области О„. Тогда ’ N  Л =-- Vo. WV LP (6.7)  причем все случайные величины Ф,(х,) имеют одно и то же распределение случайной величины PY, (€). Поэтому  М [6 (@)] _ M| fe |=. Vo. TVD LM oes WIV = “VD, Tow! 2,4694 = | J Сам. 
По теореме о среднем существует такая точка x,E€D,, что  I, _Se(v)dv = f.(,). Takum oOpa3som, M | f fe |= С»). Если для по-  vi, yep следовательности областей Д„ справедливо условие 1), то  lim M | fe" |= lim f,&y) = feo).  Ne Следовательно, функция fe будет несмещенной оценкой функции f . Оце-  М ним дисперсию оценки /. . Имеем  1 3 _ >? _ o*| fe’ |= aD) L® [ey (x) ]= ре У) [9 (8)]  i=]  2  J f(v)dv—-| | f(v)dv few)  = м-н»)  о |  Следовательно, если выполняются условия (6.6), то Пт o| fe | =0 и функ- N00  ЦИЯ fe будет асимптотически эффективной оценкой функции /.. Покажем,  что эта оценка будет и состоятельной, если выполняются условия (6.6). Заме- тим, что по центральной предельной теореме теории вероятностей для боль- ших значений № оценку fe можно считать нормально распределенной слу-  чайной величиной. Тогда, учитывая найденные значения математического ожидания и дисперсии этой величины, для любого = > 0 имеем  PLAY) - fel%o)| > =] =1- P{ f." (x) < f, (Xp) + =] + P{ f.” (x) < f,(%&)— =] =  —|-Ф (fF, (Xo) + E— „ИМ. V(D,) g| Fs %o) = E— SeXy VN - V(D,,) J f%(I-V OF K)) iG (1-V(D, Gy)  Так как выполняются условия (6.6) и lim Сб) = ЕС), то  lim P}| f." (x) — Ё(Х)]> Е: =0. Следовательно, оценка К” будет состоятель- N00 5 570 5 у ной и теорема доказана. №  Однако для конечной выборки теорема не дает ответа на вопрос, какой следует выбрать окрестность точки, чтобы полученная оценка плотности распределения была «наилучшей», т.е. доставляла для данной величины вы- борки № наименьшее значение среднеквадратичной ошибки и вероятности отклонения оценки от плотности. Существует два основных подхода к получению последовательности об- ластей О, , удовлетворяющих условиям (6.6) теоремы 6.2. В первом подходе  рассматриваются регулярные области (гипершары, гиперкубы и т.д.) и вы- числяются размеры этих регулярных областей, исходя из условий (6.6). По- 
сле чего определяется число точек обучающей выборки, попавших внутрь этой области, и вычисляется оценка плотности по формуле (6.5). Во втором подходе (методе К, ближайших соседей) фиксируется некоторая точка X,,  задается число К», и вычисляются размеры наименьшей регулярной области, содержащей К, ближайших к х, точек. После чего вычисляется оценка плот- ности по формуле (6.5). При этом чтобы выполнялись условия (6.6), числа К, должны также удовлетворять определенным условиям. 6.2.3.1. Метод парзеновского окна Е. Парзен' в 1962 году обобщил основную идею локального оценивания,  изложенную в предыдущем разделе, так что стало возможным конструиро-  вать оценки плотностей распределения на всем пространстве признаков К”. Обобщение Е. Парзена касалось формулы (6.7). Во-первых, он предложил рассматривать регулярные области О‚ (гипершары, гиперкубы и т.д.), удов-  летворяющие условиям (6.6). Например, в качестве Ру можно рассматривать  области д(х.,Е„) ={xe К": Ix -—х, | < 2} — гипершары с центром в точке X,  и радиусом &„,. Во-вторых, Парзен предложил использовать понятие оконной функции, которая строится следующим образом. Пусть Ф(У) - характеристи- ческая функция единичного гипершара с центром в начале координат, т.е.  1, У], <1, х-у)_ 1, У-х.|, < Ех, о, >1. "ОГИ of Ey ) 0, ly —x, |, > ey  lv) = uo k(X),€)) =  N X, — X. _ м : — число элементов выборки м, Попавших в &,-окрестность N  точки Хх. В соответствии с формулой (6.7) в качестве оценки функции плот- ности распределения вероятностей можно рассматривать функцию  м 1 ww {x-x, a fe у. ры ).xer’ (6.8)  Нетрудно видеть, что Я (x)>0u |. fe. (х)ах =1. Кроме того, если меры У,  удовлетворяют условиям (6.6), то оценка (6.8) будет асимптотически несме- щенной, асимптотически эффективной и асимптотически состоятельной. То- гда нетрудно доказать следующую теорему.  Теорема 6.3. Если функция /(х) непрерывна, последовательность &„ удовлетворяет условиям:  1) lime, =0; 2) lim Ne" =,  NO №М—со  то функция (6.8) будет несмещенной, асимптотически эффективной и со- стоятельной оценкой функции плотности [(х).  1 .. Парзен Эммануил (Раг2еп Е.) (р. 1929) — американский статистик польского происхож- дения. 
Доказательство этой теоремы немедленно следует из теоремы преды- дущего раздела, если учесть, что объем (мера) У, гипершара радиуса €, Oy- 2"?  дет равен У =C(n)é,,, rye C(n) = ГО) ,  Г(&) = | е ‘41° '4! — гамма функция Эйлера. № Заметим, что условия теоремы будут заведомо выполняться, если — №”, где -Ип<7<0 или =, =В/ш(М +1, где параметры а,Б > 0. xX — Функцию of = 8  N  ) принимающую единичное значение только в том  случае, если &е д(х,=„), называют оконной функцией. Поэтому вычисление оценки плотности по формуле (6.8) называют методом парзеновского окна. Оконная функция удовлетворяет условиям: Ф(х)> 0 и |. ф(х)ах =1. Нетруд- но видеть, что этих условий достаточно для того, чтобы построенная по фор- муле (6.8) функция была плотностью вероятностного распределения. Поэто-  му в качестве оконной функции можно использовать функцию плотности любого вероятностного распределения. Однако чтобы полученная с помо-  щью такой оконной функции оценка плотности распределения fe’ (х) сходи- лась по вероятности и в среднеквадратичном к плотности }(х), необходимо наложить на Ф(х) некоторые дополнительные, но необременительные усло- вия (найдите эти условия!). 6.2.3.2. Метод Км ближайших соседей В этом методе фиксируется число точек К,. Затем для произвольной точки х, вычисляется радиус Е, наименьшей окрестности д(х,,=„), содер- жащей А, ближайших соседей точки ху. После чего по формуле  ky -1 N-V(Ey)”  вычисляется значение оценочной функции в окрестности 0(х.,2„). Далее  XE O(X,,€y)  fe (x)= КО, )= =  выбирается следующая точка х, и т.д.  Теорема 6.4. Если функция }.(х) непрерывна в точке х, и последова- тельность {К„} удовлетворяет условиям: 1) limk, 2) limk, /N =0, (6.6’)  N-eoo Noo kyl N-V(Ey)’ чески несмещенной и состоятельной оценкой функции плотности f,(X) 6  то функция fe (x)= f.(xlZ,)= xe 0(X,,€,), Gydem асимптоти-  точке Ху. 
Доказательство. Покажем состоятельность оценки. Для любого =>0 имеем  PALF () — f.%0)| >} = PLAY (> feo) +E} + PL RY < д =] =  ky —1 ky —1 PRS у. > ful) +e} + PR у. < ()- e}. Здесь У, - случайная величина, равная наименьшей мере (объему) гиперша-  ра с центром в точке х,, содержащему ровно К», точек выборки =». Пусть  л,(@) - такая перестановка множества {1,2,...,N}, что  X20 —Xol, < x  (но —Ж |, Для всех 1=1....№М-1. Тогда У, =С@ р, (о), где  2”? . С(п) ==, р (х) - случайная величина, равная наименьшему радиусу пГ(п/2) Гы гипершара с центром в точке X,, содержащего А, ближайших соседей точки  х.. Пусть а* = ky —1 0 NNN Ky) EEC  Ро - £.%)|>e}= Pp, (%)<ay}+ P{p, (x,)24,}=  «Перо, <} Пери -ж, >] = i=l izky - J fess :[- | fess .  V (ay) V (ay)  . Тогда  По теореме о среднем для непрерывной функции существуют такие векторы  + + + + К, —1 ху, что | f,(x)dx = (хи У (ах). Кроме того, Van) = NK) Ee) По- V(ay) g\4o) —  этому  "сд од} of т “  МС) +=) М) =) (хе ХК, —1 ° МЕ) №(1-К,/М№) © при М. Кроме того, в силу непрерывности ©),  Ау) — Л) при № >>. Поэтому  При выполнении условий (6.6’) У(а’) 0 >0, N-k,=  о — IN +] _ lim P{| fe" (х)— (> =] = ыч- lim Nf) =) |-0 
Асимптотическую несмещенность оценки докажите самостоятельно. Тео- рема доказана. № В качестве значений К, удовлетворяющих условиям (6.6'), можно взять числа, равные аМ№’”, 0<7<1 или Бш(М№М +1. Заметим, что в качестве центров х, окрестностей О(х,,Е»), как правило, выбирают центры кластеров. 6.2.3.3. Решающее правило, основанное на методе Кх ближайших соседей Пусть имеется обучающая выборка #„ ={х,,...ху}, в которой М, эле- мент принадлежит классу @\, а №, = М - М, элементов - классу @,. Предпо- ложим, что нужно классифицировать новый вектор х, исходя из правила байесовской классификации. Найдем оценки Д(х) и 1,(х) плотностей рас- пределения векторов-признаков в каждом классе с помощью метода К», бли- жайших соседей. Для этого найдем К, ближайших соседей к точке х. Пред- положим, что К, из них принадлежат классу @\, а К, =К,-К - классу @,. Тогда к -1 К, —1 NV’ NV ’ где У -— наименьший объем того гипершара с центром в точке х, который содержит все К, ближайших соседей этой точки. Кроме того, в качестве оце-  = f(x) =  нок априорных вероятностей появления классов можно взять относительные частоты принадлежности выборочных элементов классам, т.е. р, =М, / М,  1=1,2. Теперь, используя правило байесовской классификации, имеем  xE@,, ecu Р.Д (х)> р. (Х). Откуда после упрощения получим, что ХЕ ©, ‚ если К, > К..  Таким образом, правило классификации, основанное на методе К, ближай-  ших соседей, является очень простым: образ х нужно отнрсить к тому клас- су, который содержит больше ближайших соседей. Однако это правило тре- бует хранения в памяти всей обучающей выборки. Правило классификации, основанное на методе К, ближайших соседей,  легко распространяется на случай нескольких классов. Предположим, что элементы обучающей выборки = „ ={х,.....х„} принадлежат т классам. Най- дем К, ближайших соседей к классифицируемому вектору х. Предположим, что К из них принадлежат классу @, К, - классу @,, ..., К, — классу @„, k,+..+k, =k, . Тогда образ х следует отнести тому классу, которому соот- ветствует тах(К,,...,К„), т.е. хе @,, где 1 = аго тах(К,....К„). 
6.2.4. Метод оценивания с помощью аппроксимации функции плотности  Для аппроксимации функции Д(х) выбирается некоторая система ба-  зисных функций 19,00} и аппроксимирующая функция ищется в виде  AO = Ley. (6.9)  Будем рассматривать только разложение по действительным базисным функ- циям. Коэффициенты с, разложения функции f(x) mo базисным функциям  ф, выбираются таким образом, чтобы погрешность аппроксимации была ми-  нимальной, т.е. [509-16 |-> па. (6.10) Как правило, в качестве базисных функций выбираются ортогональные функции, т.е. функции, удовлетворяющие следующему условию: |. у(х)ф,(х)ф‚(х)ах = bo, , 6, — символ Кронекера, В, >0. Здесь у(х) - неко-  торая неотрицательная весовая функция. Тогда (6.10) можно записать в виде 2 ~ 2 = S=|f,~-A00] = | и дао - Sea | dx > min. R" j=l Найдем минимум квадрата среднеквадратичной ошибки аппроксимации S:  5. = 2| из дея _ See] (-9,(%))dx =0=>  = | v009, @AWWdK= | VOY 6,9, 009, OAK = cb,  Поэтому  с, = =. | у(х)ф, (х) 1. (х)ах.  Но |. F (x) f,(x)dx = M[F(x)|= У где #={х,,...х„}- обучающая выборка, №, — количество тех векторов обучающей выборки = = {х,,...,х»}, для которых Р(х,) *0. Следовательно, с, =ъх- м. У УФ, (х)), где М, - ко- личество тех векторов обучающей выборки = ={х,,...х»}, для которых  V(X, )P, (X,) #0. Реально вместо ряда (6.9) ограничиваются рассмотрением конечной суммы, удерживая только первые [/ членов. При этом среднеквадратичная ошибка будет равна 
=f veal с <] dx= be  i=1+1 i=/4+1  F)— 2 6P:%)  Если >. “Pl с’ —>0 при [—>°, то систему базисных функций {2,60} j= можно использовать для аппроксимации плотности }(х).  В качестве ортогональных многочленов ф, (х), как правило, используют многочлены Лежандра, Чебышева, Эрмита, Лагранжа, Лагерра и т.п. (см. [23]). Выбор того или иного типа многочленов определяется либо из имею- щейся априорной информации о виде плотности распределения /.(х), харак- тером распределения выборочных значений, либо из соображений простоты. Заметим, что использование аппроксимирующих функций позволяет ор- ганизовать обработку данных «на лету», корректируя ранее найденные зна- чения коэффициентов аппроксимации с, при поступлении новых векторов обучающей выборки. Пусть c,(N) — значение аппроксимирующего коэффи-  циента, найденное по выборке = ={х,,....х,} объемом М. Тогда  _ 1 (и Ф, (Ху) c,(N +1) age Man ee) 5 rae 7,(¥) = one c, (1) = v(x, ) 9, (x,)/b, (ecm v(x,)p, (x,) #0).  Например, в случае, если одномерные элементы обучающей выборки ={х,...х„} принадлежат отрезку [-1,1], то для аппроксимации плотности  (x)  можно использовать многочлены МЛежандра: Р(х)=1, Р(х)=Ех,  P(x) = {2k + I)xP, (x) — kP_,(x)}. Tax Kak b, =[ P2(x)dx =524, k =0,1,2... TO f(x) = Ув оСьВ (>), THE C;, => а. 1,1] F,(x;).  Если же известно, что функция плотности }(х) подобна нормальному  распределению, то лучше использовать многочлены Эрмита: A, (x) = xH,(x)—-kH,_(x), Hy(x)=1, H,(x) =x, k =1,2,...,  x?/2  1 | которые ортогональны на А' с весом у(х)= е и имеют норми - V2  щие множители В, =К!, К=0,1,... (докажите!). Вместо аппроксимации плот- HOCTH f(x) удобней аппроксимировать функцию Р(х)= f.(x)/v(x). Тогда  коэффициенты аппроксимации с, можно найти по формуле  aah Jy VDF OH, (dx= 2, | f,C)H,(dx=5M[A,®]. 
Так как математическое ожидание М [Н ke (é)] может быть оценено по обу-  чающей выборке = ={x,,...,x,}, kak M[H,(6)] =+>_A, (x,), TO  ce = EL MaCa) WHC) = PD HDL MAC):  где / — порядок аппроксимации.  Пример. Дана обучающая выборка #={х,...ху}: х,=(0,-0’, Т Т Т Т Т Т x, =(0,0)', x,=(0,1), x,=(,-D’, x,=0,0), x,=d,3), x, =(2,2), x, = (2,3), x,=(3,1)", x, =(2,0)’ (рис. 6.7). Известно, что векторы =, ={x,,....X,} принадлежат первому классу, а векторы Я, ={хь,...хо} при- надлежат второму классу. Требуется по обучающей выборке с помощью функций Эрмита двух переменных найти оценки плотностей распределения признаков в классах и построить байесовский классификатор. Будем рас- сматривать многочлены Эрмита двух переменных только до второго порядка включительно (см. главу 7 части 1), т.е. вида  A, (x) =A, (%.%,) =H, (%))A (x), K+ 7 82.  Имеем Ноо(х) =A, (x,)H,(x,)=1, Н,о(х) = A(x), (x) =x,  H, (x) =H, (x) A,(x,) =x,, H, (x) = H,(x,)Hy(x,) =x, -1, H, (x) = H,(x,)H,(x,) =x; -1, H,,(x) = A(x) H,(x,) = x.  Тогда условные плотности распределения признаков в классах могут быть оценены по формулам: Н,,(х)  fco=" ия 2 Нь,®, 1=1,2,  i k+ss2 xe,  где №, - количество элементов обучающей выборки, принадлежащих i -My классу (в примере №, = М, =5). После вычислений получим, что  1) = f(x) = ее a =) (1.52 — x5 —x,x, + 2x, -x, +7,5),  ~ ~ - (2+2 f(x) = (а, х,) = ее > (8,52 +9 + жх, +2х +х, 12,5).  На рис. 6.8 приведены графики оценок плотностей f(x) И fy (х), а также от-  =  мечены векторы обучающих выборок =, и #,. Построим решающую функ- цию с помощью байесовского классификатора, считая, что  xe @,, ecnm 4(х) = р. Л (х)- р. Ь(х)>0 и хЕ@, , если 4(х)<0. Пусть р, = p, =1/2. Torna а(х) =а(х,х,)=10х2 +102 +2жх, +2х, —20. 
Решающая функция определяет разделяющую линию 4(х,х,)=0 — эллипс (найдите каноническое уравнение этого эллипса в новой системе коор-  динат и запишите его параметрическое уравнение) (рис. 6.7). 4  Puc. 6.7 Puc. 6.8 
Заключение  Учащиеся, которые в дальнейшем захотят углубить свои знания по теме «распознавание образов» или преподаватели, предполагающие использовать настоящий курс лекций в своей работе, должны учитывать следующие мо- менты. 1. Дисциплина «Распознавание образов» является подразделом более общей дисциплины «Машинное обучение» (Масбте Геаги), изучающей методы построения алгоритмов, способных обучаться по прецедентам. Часто термины распознавание образов, машинное обучение и обучение по преце- дентам считают синонимами. 2. В настоящее время в российских вузах нет единой программы курса «Распознавание образов» (или «Машинное обучение»). Как правило, матери- ал этого курса распределен по другим курсам, таким как «Прикладной стати- стический анализ», «Системы искусственного интеллекта» и др. 3. Курс «Распознавание образов» может быть ориентирован как на ин- женеров, так и на специалистов-исследователей. В первом случае материал должен иметь практическую направленность, а во втором случае курс дол- жен быть сильно математизирован. Настоящий курс можно рассматривать как вводный для специалистов-исследователей. 4. Для приобретения навыков использования методов машинного обуче- ния в практических целях необходимо, чтобы учащиеся провели ряд экспе- риментов на модельных или реальных данных, подтверждающих практиче- скую работоспособность методов. Данные для таких исследований могут быть взяты из существующих (в том числе и в открытом доступе) библиотек баз и генераторов данных. В [35] приведена ссылка на одну из таких баз. 5. За пределами этого курса оказались многие другие, в частности, тео- ретико-вероятностные и статистические подходы в теории распознавания о0б- разов. Например, методы оценивания плотности как смеси параметрических плотностей, скрытые марковские цепи, байесовские сети и др. 
Библиографический список  1. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. Сто- хастические проблемы обучения. - М.: Наука, 1974. 2. Владимиров В.С. Уравнения математической физики. — М.: Наука, 1988. 3. Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В. Прохорова. — М.: Большая российская энциклопедия, 2003. 4. Воронцов К.В. Математические методы обучения по прецедентам. Курс лекций (ФУПМ, МФТИ). — у\м/\у.ссаз.га/уогопЛеасЬт?.Вит]. 5. Гилл Ф., Мюррей У., Райт М. Практическая оптимизация. — М.: Мир, 1985. 6. Горбань А.Н., Россиев Д.А., Кирдин А.Н. Нейроинформатика. — Ново- сибирск: Наука, 1998. 7. Горелик А.Л., Скрипкин В.А. Методы распознавания: Учебное посо- бие. — М.: Высшая школа, 1984. 8. Гренандер У. Лекции по теории образов. Т.1 - 3. - М.: Мир, 1979 — 1983. 9. ДудаР., Харт П. Распознавание образов и анализ сцен. - М.: Мир, 1976. 10. Ежов А.А., Шумский С.А. Нейрокомпьютинг и его применения в экономике и бизнесе. — М, 1998. 11. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. — Но- восибирск: ИМ СОРАН, 1999. 12. Закревский А.Д. Логика распознавания. — Минск: Наука и техника, 1988. 13. Золотых Н.Ю. Машинное обучение. Курс лекций (ВМиК Нижего- poyickoro rocyHuBepcnuteta). — http://www.uic.nnov.ru/~zny/ml. 14. Журавлёв Ю.И., Рязанов В.В., Сенько О.В. «Распознавание». Мате- матические методы. Программная система. Практические применения. -— М.: ФАЗИС, 2006. 15. Искусственный интеллект. -— В 3 кн. Кн. 2. Модели и методы: Спра- вочник// Под ред. Д.А. Поспелова. — М.: Радио и связь, 1990. 16. Кобзарь А.И. Прикладная математическая статистика. Для инжене- ров и научных работников. — М.: Физматлит, 2006. 17. Колмогоров А.Н., Фомин С.В. Элементы теории функций и функ- ционального анализа. — М.: Наука, 1976. 18. Крамер Г. Математические методы статистики. -— М.: Мир, 1975. 19. Кузин Л.Т. Основы кибернетики. В 2-х томах. Т.2. Основы киберне- тических моделей: Учебное пособие для вузов. — М.: Энергия, 1979. 20. Лифшиц Ю. Современные задачи теоретической информатики. ИТ- MO. — 2005. http://teormin.ifmo.ru/education/modern. 21. Местецкий Л.М. Математические методы распознавания образов. Курс лекций (ВМиК МГУ, кафедра ММП). — 
www.ccas.ru/frc/papers/mestetskii04course.pdf. 22. Минский М., Пайперт С. Персептроны. - М.: Мир, 1971. 23. Никифоров А.Ф., Уваров В.Б. Специальные функции математиче- ской физики. — М.: Наука, 1984. 24. Николенко С. Машинное обучение и вероятностное обучение. Курс лекций (СПОГУ ИТМО), 2006-2007. — Бир:/Кеогтит то .га/едисайоп/тасЬше- learning. 25. Патрик Э. Основы теории распознавания образов. — М.: Сов. радио, 1980. 26. Прикладная статистика: Классификация и снижение размерности: Справ. изд. / Под. ред. С.А. Айвазяна. — М.: Финансы и статистика, 1989. 27. Скворцов А.В. Триангуляция Делоне и ее применение. — Томск: Изд- во Том. ун-та, 2002. 28. Тихонов А.Н., Арсенин В.Я. Методы решения некорректных задач. — М.: Наука, 1986. 29. Ту Дж., Гонсалес Р. Принципы распознавания образов. — М.: Мур, 1978. 30. Фу К. Структурные методы в распознавании объектов. — М.: Мир, 1977. 31. Фукунага К. Введение в статистическую теорию распознавания об- разов. - М.: Наука, 1979. 32. Шурыгин А.М. Прикладная стохастика: робастность, оценивание, прогноз. — М.: Финансы и статистика, 2000. 33. Duda R.O., Hart P.E., Stork D.G. Pattern Classification and Scene Analy- sis: Part I Pattern Classification. — John Wiley & Sons, 1998. 34. Devroye L., Gyorfi L., Lugosi G. A Probabilistic Theory of Pattern Rec- ognition. — Springer-Verlag, New York, 1996. 35. http://mlearn.ics.uci.edu/MLRepository.html — O6uOmMoTeka 6a3 u reHepa- торов данных, предназначенных для экспериментального анализа алгоритмов машинного обучения. 36. http://www.machinelearning.ru — профессиональный информационно- аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных. 37. Vapnik V.N. The nature of statistical leaning theory. — Springer-Verlag, New York, 2000. 
Приложение 1. Кластеризация данных алгоритмом ЕКОВЕГ,  1. Считывание точечных данных из файла в матрицу А и формирование массива точек (X,Y)  А := КЕАОВМИ"Р:/р3')  А  рошА) :=  к 0 for ie 0..rows(A) — 1 for je 0..cols(A) — 1 if Aj,j = 0 Xk <i Yk J ke k+1 for ke O.. length{X) — 2 if (Xka1— Xk)? + (Ye —- Yuri)? < 3 Хк< -1 Ук = -1 $<0 Гог КЕ О0.. [еп КХ) - 1 Ш Хк = -1 Х 15 < Хк У1; < Ук  $ =— $+ |  (=,  функция формирования из матрицы изображения то- чечных данных А массива точек (Х,У) 
Х := pointsA)g  У := рош 5 А)1  x! =  ут  2. Функции алгоритма FOREL  d(C,S) = (Со 50)? + (C1 — $1)  cent(F,X,Y,r) :=  cic (0 oy! п 0  Гог 1Е 0..1еп2КХ) — 1  Cie (Xj yi)" if d(Cj,F) < nen+l Cle C1+C;  Cl  функция определения центра масс точек массива (Х,У), со- держащихся внутри круга с центром в точке Е и радиусом г 
ext(F,X,Y,r) := | for ie 0.. lengthX) — 1 функция удаления из массива (Х,У) точек, со-  Cie (х; y;)" держащихся внутри кру- 2 га с центром в точке Е и if d(Ci,F) >г радиусом г C1l<¢ Cj break  for ie 0.. length(X) — 1 T С; = (х; У;  Cle augment C1 ‚С if d(C;,F) > ra С; = С1  Cl foreKX,Y,1) := | FO ( Yo)" OrekaA, 141) = Хо Yo функция вычисления Fe FO формальных элементов массива точек (X,Y) all- К < lengtl{X) горитмом ЕОВЕЕГ. с па- while k > 0 раметром т  Fl < cent(FO,X,Y,r) while d(FO,F1) > 0.1 FO + Fl Е1 < cent(F1l,X,Y,r) Е < аиотеп(сЕ ‚Е1)  \  Х1 = (КЕ ХУ. if ext(Fl,X,Y,r) #0  break otherwise  У1 <= (ке ху)"  Хх Xl У < У1  if ext(Fl,X,Y,r) #0  FO <— (Xo Yo)’ k lengthX) F submatriXF,0,1,1,cols(F) — 1) F 
3. Результаты работы алгоритма FOREL  г := 10  E := fore(X, Y,r)  <0) Е.  CX:  x(t,i) := Fo 4+ r-cos(t)  F  TD  CY =\F  y(t,i) = Fy 4+ r-sin(t)  se ena tern anu tet gin tent tnt mee a gn eee seus cent tage cnet ait atin cnet it stn eee ent cuore it umn tern i aunt mtn ite bt a tnt ene a tt cents atta ene | # м. 3 i } | : ` | i ‚ | : 5 { | i yg ; 1 t 1 f I g t | i 4 i | ait пе ae } | | ИИ ae a Mt ee we ‘ * ao tes, J > +, ec tag, hoo ws, “ i == с : | ere Say ee 4 Se oo “hay | a ` 3 Mae ra ва 3 i #7 $ | ’ я wy me | : ‚ f 54 rs 3 Е 4 cen ne mt = С | # \ # wy * i *y ee Fo “hy ; ‹ ! ( a , é ” `- i \ ~ Zé 4 i ” ? “in : \ г В ё к ты В a # ра : 2 ty 1: к > 3 at ¢ f м т’ ee a a i р | : sah, гк ae я i | = on лоне .. # : boo | as el & ft - " | aN 7 i fd h 3 } i .- i { ~ ~ ff 4 р I ON а Я ‘ ` i } | 4 ‘ | pid ¢ | | BS . К <.’ vif . 1 | AA я | : # i г ‘ Г“ Уи и a } к 5 | у vi A 4 | м ah ey a wt | i oy el - vl | м Ft a 1 2} | a ; ea we а, `. a 4 a Sak , “ey, ‘- и ae А | Ma, Fhe, wo & 3 } eo пы ры ы : | rat Ye . м types оз he инь | i ee wn i | Na et : a L | 2 } + ый i i | | z t } | i | } | g | i Е | i a 4 i 1 ! | | ‚ 4 | ; § ; i \ i | ge tnt ть 1 i ce + 1 : we ‘ b 1 } } оны ic | ; = By, i | ‘+. ты 1 t % ae } | y | и ъ ыы ar t | ve Pan aie SY | . ‚ 4 Sy 3 i Е ` 4 м | | } i ‘ A | | i die FF } 4 1 | Peas 7 | i ws $ 4 } ‘ | 1 ‘ j ~ i 4 ; i § Е { 4 | 4 т =. | ! 1 | i 1 рн че ми | i i | ann | i itl, ‘ i . у oe by, м i | | re We | =" -\ } vb a 4 } i “| #1 и“ see i | # % # 1 Е # м > # } } г wan \, $ | оо м Suan А и t | # а о, т = i ' i \ a 3 } i a " : | i eh a т + } ыы te eee | а us i р } y of | | 4 i | | % Е | , oe f } | ub : | 4 | } i “ey, - | , |. | | ae т a : ан aan nen | b 1 у } i | i i | 1 ООО ee ee ee ee eat ae ne ee ee ae ne ee ta ee nae ee ee ee ee od  X,CX,x(t,0), x(t, 1),x(t,2),x(t,3),x(t,4),x(t,5), x(t, 6), x(t, 7), x(t, 8), x(t, 9) 
Приложение 2. Нахождения дискриминантной функции по пре- цедентам методом потенциальных функций  1. Формирование множества прецедентов по изображению точечных данных 1.1. Считывание точечных данных из файла  А = КЕАРВМИЕ`"Ъвыборка_пот_2" )  1.2. Выделение точек из матрицы изображения, формирование массива точечных данных Х  quanfA,a,b) := |$<0 for 1€ 0..rows(A) — 1 for je 0.. cols(A) — 1 if (a < Ai, j) (Ai, j < b)  x oa jy"  S@s+1 XxX 9 15 27 45 71 - множество векторов X1 := quanfA,0, 50) Х1 = р 41 10 72 8 51 первого класса 29 35 42 - множество векторов X2 := quanfA, 50, 200) X2 = ( ) P 40 27 38 второго класса Ss := 0..cols(X1) —1 k = 0.. cols(X2) — 1 81 (xa) - изображение eoe.,. точечных данных (xa) массива Х ООО 0 0 38.5 77 
1.3. Определение множества прецедентов predA,b) := $ < 0 Гог 1Е 0..го\5(А) — 1 for jE 0..colgA) — 1 if Ajj # 255 Хе (ри ИА Ь  Хх — (1 j -1)! otherwise  Sstl continue Хх 9 1527 29 35 42 45 71 Х := ргебА ‚49 Х = | 41 10 72 40 27 38 8 51 прецедентов  1 1 1 -1 -1 -1 «1~«421  2. Вычисление дискриминантной функции методом потенциальных функций  2.1. Задание метрики и потенциальной функции  d(x, y) ‘= J (x0 - yo)" + (м- у)" u(x, y) = > 1+ 9(х,у)  2.2. Вычисление дискриминантной функции potentiaK) := |p<0 for jE 0..colgX) — 1 aj — 0 while p < colgX) p<o for ke -1..colgX) —2  cols(X)-1 Xo . »k+1 Xo, j if | X2 kt: aj: ( | ] < 0 >. Xi kt) \X,j  j=0  ак+1 < аки + 1'Х>, к+1  ро  p<p+1 otherwise 
а := potential(X)  al =(100-1001 0) - вектор коэффициентов решающей функции с01$(Х)—1 Xo j D(y) := aj: ‚| | ] - решающая функция 2 ms  2.3. Визуализация решающей функции и прецедентов  i:=0..cols(A) — 1 j := 0..rows(A) — 1 i i Di,j:= |D |. if Di}. 20 J J 0 otherwise cols(X)-1 . \2 2 Bj; := | 0.000001 if >. | (Xo, 5) + (X,, 5-3) < 3| s=0 0 otherwise D,B  3. Вычисление дискриминантной функции путем представления потенциальной с помощью системы базисных функций  3.1. Задание системы базисных функций H(x,i, j) := Leg(i, xo) Leg(j,x1) - многочлены Лежандра  3.2.Нормирование исходных данных  Хо := (xr) XI := (г) 
xo" = (9 15 27 29 35 42 45 71) max0 := max(X0) minO:= minlX0) x1 = (41 10 72 40 27 38 8 51) тах! := max(X1) min] := min(X1)  normal(X) := | for ke 0..cols(X) — 1 (Xo, — min) < A max0 — minO (х, ‚к min}) (max1 — min)  ХХ. к< X2,k  ХХо,к  XX] к=  XX XX := normal(X)  0 0.097 0.29 0.323 0.419 0.532 0581 1 ХХ =| 0.516 0.031 1 0.5 0.297 0.469 0 0.672 1 1 1 = 1 1  - нормированное множество прецедентов  3.3. Вычисление дискриминантной функции (т - порядок аппроксимации)  potentialAX,m) := | p<o for i¢ 0..m-1 Юг ]Е0..Ш-1 ci,j< 0 while p < cols(X) p<o for ke —1..cols(X) — 2  a Xojkt1 |) — if Xk" > > с1, -Н ‚1,1 | <0 : . Xy k+1 | 1=0 j=0  Юг 1ЕО..Ш-1  Юг ]Е0..т-1  x ao] | 2,k+1° ‚1, Xo k+1  (i+ 1)-Gt+  Ci,j— Si, jt  p<0  p<p+t1 otherwise 
m := 3 c := potential[XX, m)  т 3 —2.056 3.065 - матрица 1.756 0.09 —0.478 решающей функции -1 m-1 DN(y) := У. > cj, ; H(y.i.j) - нормированная ешающая функция i=0 j=0 p щая функц Yo — minO maxQ- minO D2(y) := DN - денормированная yi — min1 решающая функция  (max 1— min) 3.4. Визуализация решающей функции и прецедентов  1:=0..со15 А) —1 ]:=0..го\/5(А) —1  но)  0 otherwise  cols(X)-1 Bj, | := | 0.000001if У. (Xo,5-i)°+(X1,5-j)’ < 3| s=0  0 otherwise  D2,B 
Приложение 3. Построение байесовского классификатора по выборке двумерных нормально распределенных векторов  1. Априорные вероятности появления классов  pl = 0.4 p2 = 0.6  2. Генерирование двумерных обучающих векторов, распределенных по нормальному закону  2.1. Задание параметров нормального сферического распределения  шх1 = О myl=0 oxl = 2 су1 = 1 - параметры нормального распределения в первом классе  mx2=4 my2= 3 Ox2 = 2 су2 = 1 - параметры нормального распределения во втором классе  2.2. Генерирование центрированных нормально распределенных значений - координат случайных векторов  М = 50 - размер выборки Xl = rnorm N ,0,0x1) X2 = rnorm{ N ,0,0x2) У1 = rnormN ,0,oy1) Y2 = rnorm{N ,0,oy2)  2.3. Поворот и смещение нормально распределенных векторов  al = * a2 = 27 - углы поворота эллипсов рассеяние 6 6 1= 0..М-1 XX1j = X1j-cos(al) + Y1;-sm(al) + mx1 XX2; = X2;-cos(a2) + Y2;-sin(a2) + mx2  YY1; = —X1;-smn(al) + Y1j-cos(al) + myl YY2; = —X2;-sin(a2) + Y2;-cos(a2) + my2 
ХХ , XX2  3. Вычисление оценок числовых характеристик распределений векторов в классах  3.1. Вычисление оценки центра рассеяния в первом классе  ] М1 1 N-1 мх! =... XXk МУ! = =») YY]; N N  i=0 i=0 МХ1 M1 := MxX1 = —0.083 MY1= 0.019 МУ!  3.2. Вычисление оценки центра рассеяния во втором классе  М1 N-1 1 1 MX2 := —. ХХХ MY2:= —- YY 2 wd, XX4 MY2= 4° YY YA i=0 i=0 MX2 = 4.58 MY2 = 3.037  3.3. Вычисление оценок элементов ковариационной матрицы в первом классе  _ KXX1 =~) (xx4-Mx1)? KYY1 = » (Yy,-MyY1)? i=0 =0  М1 N-1 i N .  —_ 
Z  —1  1 KXY1 = =. (ххи- мх|.(УУв- МУ!) i=0 KXX1 KXY1 2.388 —1.122 $1 т Sl = KXY1 KYY1 -1.122 1.762  3.4. Вычисление оценок элементов ковариационной матрицы во втором классе  N-1 —1 1 2 1 2 KXX2 = —. XX2;-— MX2 KYY2 = —. УУ2: — МУ2 М > (XX ) N >. (УУ2 ) 1=0 1=0 1 М-1 КХУ2 := —. XX2; —MX2)-( YY2; --MY2 >, (XX4-Mx2).(¥Y3- My?) i=0 KXX2 KXY2 3.878 1.235 - оценки = = ковариационных KXY2 KYY2 1.235 1.445 матриц  4 (ore een о! [95 oo) - обратные к  Sl = ковариационным 0.381 0.81 —0.303 0.951 матрицы  4. Вычисление решающих функций, определяемых байесовским классификатором  4.1. Определение метрик Махалонобиса в каждом классе  2  Масв_ Кх,у) = (sim), ox + 2511) 1ху+ (sim),  Mach_x,y) = (so- ox + 2.(97 9 peyt (so 115  4.2. Определение решающих функций dk 1(x,y) = In(p1) — 0.5-In( |S1|) — 0.5-Mach_1(x - MX1,y— MY1)  dk2(x,y) := ш(р2) - 0.5-In( |S2| ) — 0.5-Mach_4x — MX2,y— MY2)  d(x,y) = dk1(x,y) — dk2(x,y) 
5. Прорисовка линии разделения двух классов  n := 10000 k =0..n-1  + k-(b — a)  n  Xk =a  yOo:=-4 y= root( d( xx, y0) ,y0)  XX1 , XX2, x 
Приложение 4. Построение гистограмм функций  плотности распределения  1. Простейшая гистограмма с регулярными ячейками  1.1. Считывание точечных данных из файла и формирование вектора данных Х  А :== КЕАОВМР(Т:/выборка" )  quant(A) :=  173  115.33 ($)  eco 57.67  0 0  $ = 0  Х := quant(A)  Гог 1Е 0..го\(А) — 1  $ :=0.. с015(Х) — 1  for ] Е 0.. со15( А) —1  if Aj,j = 0 Хер  S@st1l  38.33 76.67 115 (x!)  1.2. Вычисление гистограммы с т*п регулярными ячейками  his(X,m,n) :=  for i¢0..m-1 Гог ]Е 0..п-1 Hj, j< 0 Гог 1Е 0..Ш-1 Гог ]Е 0..п-1  Гог se 0..cols(X) - 1  m  R2e | А < (x‘) n  RI = | А < (X°), |] (X°), р ‚|6, -  Н;,; < Ну+т if R1-R2  mn  Н: (cols(X) — 1)-(rows(A) — 1)-(cols(A) — 1)  m  rows(A)-(i+ 1) |  cols(A)-(j + 1)  n 
Н := his({X,3,3)  ны 6.694% 10> 1.912X10 > 2.869x 10 > “") H=| 5.737% 1075 6.694% 10> 4.781xX 10>  | 4.781X 10> 8.606X10 > 4.781X10 >  Nk ane eM вое во а ee ыы enn een eeemteaed  H 2. Вычисление гистограммы с нерегулярными ячейками 2.1. Определение взвешенной евклидовой 4 и евклидовой 4е метрик а(х,В,К) = (о Вок). + (x1 Bi, k) de (x,y) = (xo— yo)’ + (x1 - yi)”  Bok Вз,к  2.2. Определение квадрата расстояния от точки х до границы матрицы изображения А  db(x,A) = (ши(ж ж гочз(А) -х соА) -ж))”  2.3. Функция распределения основного массива данных по ячейкам  Входные данные массив Х - в каждом 1-м столбце - координаты 1-го вектора данных; $0 - значение минимальной дисперсии; Б1 - максимальное расстояние во взвешенной метрике от текущего центра до векгора данных, при котором он будет отнесен к данному классу; В2 - минимальное расстояние во взвешенной метрике от вектора данных до всех центров классов, при котором вектор станет центром нового класса.  Выходные данные массив В - массив классов, в каждом К-м столбце записаны координаты центра К-го класса, покоординатные дисперсии и количество элементов в классе; массив Х - в каждом 1-м столбце - координаты 1-го вектора данных и номер класса, к которому он относится. 
distr(X,sO,h1,h2) := |X. 9< 1  B — (Xp. X;,9 sO sO for i€ 1..cols(X) — 1 $<0 рф 0  while s < cols(B) —1  if а(х® в, 3) < hl  Xj St 1 Во, $ = +1 В, = +1  В? ‚5 < ma 0 Вз, 5 < my 0  Bais М+1  break  p< pti if a(x?  s@st1l if p = cols(B)  Х>, 1 $+1 вх) DISTR := distr(X, 30, 10,20) B := ОБТ X := DISTR,  23.143 43.8 46.667 75.556 89.167 99.4 33.143 158.8 73.333 20.667 122.333 68.8 37.343 178.7 84.5 123.028 72.867 33.133 48.476 62.2 129.75 61.25 45.467 58.075 7 5 9 9 6 5  (m0 ml sl s2 №) В  1)!  (ЭТ  (N-m0+ Xo, i)  (N-m1+ Xj)  Mavs 4 (m0, |  N N+1  N N+1  B,s) > h2  B < augment B, (Xo j Х!,; $0 50 1)"]  - массив центров кластеров, дисперсий и количества элементов в кластерах 
173 тт ~~ = в — TOT STO 7 aes : Ty ' ae зе ae t ag, es a : : as Е & Ро e *@3 * Sage, . ge wd эй м a ; * i a a8 : os ie * ae * i Co ‘ig? | 0 0 575 115 (s)} xX о’ Bp, j  2.4. Функция распределения оставшихся нераспределенных элементов по классам методом ближайшего соседа  дора15(В ,Х) := | for se 0.. cols(X) - 1 if X75 = 0 for je 0..cols(B) — 1 тб; < 100000000 for i€ 0.. cols(X) — 1 Re (ma, > de(x'? x'*)).(x> ; = j+1) maj — de(x? x‘) if R mn 100000000 for re 0..cols(B) — 1 if md, < mn mn< md, ker Х2, 5 < К+1  В4,к < В4,к+ 1 
D := dopdistr(B, X)  B = Do X= D, 23.143 43.8 46.667 75.556 89.167 994 - итоговый массив 33.143 158.8 73.333 20.667 122.333 68.8 центров кластеров, В 37.343 1787 84.5 123.028 72.867 33.133 дисперсии и > , ‘ , ° " " количества элементов в 48.476 62.2 129.75 6125 45.467 58.075 кластерах 7 7 10 10 8 7 - массив элементов с указанием номера X=  кластера, к которому элемент относится  2.5. Функция построения областей Дирихле и вычисления их площадей  Входные данные: массив Х- массив векторов данных, массив В - массив классов, массив А - массив с исходной картинкой  Выходные данные: массив В - массив классов, в который добавлена строка с площадями областей Дирихле, соответствующих своим классам; массив АА - массив, в каждой точке которого записан номер класса, к которому эта точка принадлежит. 
square(A,B, X) :=  for ke 0.. colgB) -1 Bs k <0 for 1€ 0.. rows(A) — 1 for j€ 0..colgA) — 1 Гог КЕ 0.. с0о1$ В) —1 mn < 10000000  Гог $Е 0.. с01$Х) —1  нед noe ()]  019 < 10000000 Гог КЕ 0.. с01$ В) —1  if mm < md  md< my  pek+i  AAj,j< 0 if [| ^ < md J  otherwise AAi,j<— P Bs | p-1 — В5,р-1 + 1  (В AA)!  G = square(A,B,X) B:=G AA = G;  Итоговый массив центров кластеров с добавленной строкой площадей областей Дирихле  23.143 33.143 37.343 48.476 7  43.8 46.667 75.556 89.167 99.4 158.8 73.333 20.667 122.333 68.8 178.7 84.5 123.028 72.867 33.133 62.2 129.75 61.25 45.467 58.075 7 10 10 8 7  1.403Х 103 2.314х 10° 3.54Х 103 2.067Х 1 2.484х 103 1.704K 10° 
2.6. Функция "нанесения" точек на изображение областей Дирихле  for se 0..cols(X) —1  for ke 0..2-p-1  for le 0..2:p-1  <— 253  $ —p+l  э  АА 0,s—ptk, X)  point(AA , X, p)  point(AA,, X, 2)  AX  (AX + 259-70  2.7. Функция вычисления адаптивной гистограммы  for ke 0..cols(B) — 1  for ie 0..rows(A) — 1  Юг j€ 0..cols(A) - 1  if AA; j=k+1  k  Baik Bs.  cols(X)  AAi, j<—  hist AA, B, X)  hist( AA, B, X)  AA  te es at te pee tres Tan  precepts arm atone pre ро дня  ETS nes nan  ИЕР ЧЕ ЩИ де  Jere tere eM кл  cick потолки Anklet alt er ARTE eat ob 
Приложение 5. Построение байесовского классификатора по прецедентам  1. Формирование обучающей выборки по изображению точечньданных  1.1. Считывание точечных данных из файла  A := READBMP("d:\zniGopxa_2")  1.2. Выделение точек из матрицы изображения, формирование массива точечных данных Х quant(A,a,b) = |s<0O for ie 0.. rows(A) — 1 for je 0..cols(A) — 1 if (a < Ai, j) (Ai, j < b)  ef)  $ =— $+ 1  X1 := диапКА, 0,50) Х1 =  Х2 := фапКА, 50,200) X2=  s = 0..cols(X1) - 1 k = 0.. cols(X2) — 1 ms тесто пут к. ' = 1 a my . | Ay oe MO St | = _* ty .. 7 a 1 ; tO a № _ : Фет [oa Sele Owe ! бое Sees и ae | - изображение точечных данных Peet вене" массива Х ! & : eg з зе „ e | i @ ge » 3, & ‚ *® ” @ “о? a & 4b |  " 1 О 
2. Вычисление гистограмм с нерегулярными ячейками  2.1. Распределение основного массива данных по ячейкам в соответствии со взвешенной метр икой, нахождение центров классов и дисперсий (см. Приложение 2)  DISTR1 := dist(X1,10,8,25) Bl := ОЗТКЮ X1 := DISTR]  12.5 7 46.2 44.333 66.333 73.571  32.25 51 46.6 28.667 6 41.429 - массив центров . кластер ов, дисперсии и В1=| 31.318 11.75 19.2 15.083 29.083 26.952 количества элементов в 141.295 10 13.675 49.333 13 36.952 кластерах для первого класса 12 3 5 3 3 7 DISTR2:== dist(X2,10,8,25) B2:= DISTR Х2 = DISTR 13 36.909 67.143 64.4 - массив центров 70.75 58.091 79.143 47 кластер ов, диспер сий и _ количества элементов в B2 =| 10.667 28.391 36.81 10 кластерах для второго 14.917 40.491 21.476 29 класса 4 11 7 5  . | alli 2 ey \ acl . _ oy в ‚ А. my * ey = yy За ео ‘ -, У в ` ny = a . me gal , а ae? Bet г а a iva 1 atc wa © ge! Sead a Pag Oe - ~ i  a & 2 * а ae * ® . a aa agi a) о а 
2.3. Распределения оставшихся HepaciipeyeJIeHHbIX 3IEMEHTOB по кластерам методом ближайшего соседа (см. Приложение 2)  D1 := dopdistr (B1, X1)  125 7 32.25 51 В1=| 31.318 11.75 141.295 10 15 7 Xl =  D2 := dopdistr (B2, X2)  46.2 46.6 19.2 13.675 8  Bl:=Dlp Xl:=DI, 44.333 66.333 73.571 28.667 6 41.429 15.083 29.083 26.952 49.333 13 36.952 12 6 10 B2:=D% X2:=D2;  13 36.909 67.143 64.4  70.75 58.091 79.143  В2 = | 10.667 28.391 14.917 40.491 21.476 9 И X2 =  36.81  10  - итоговый массив ценгров кластеров, дисперсий и количества элементов в кластерах для первого класса  - массив элементов первого класса с указанием номера кластера, к которому элеменг относится  - итоговый массив пенгров кластеров, дисперсий и количества элементов в кластерах для второго класса  - массив элементов второго класса с указанием номера кластера, к которому элеменг относится  2.4. Построения областей Дирихле и вычисления их площадей (см. Приложение 2)  С1 := square(A,B1,X1, [ 125 7 32.25 51 31.318 11.75 В1 = 141.295 10 15 7 \ 920 534  8)  46.2 46.6 19.2 13.675 8 563  Bl = Glo  44.333 66.333 73.571 ) 28.667 6 41.429 15.083 29.083 26.952  49.333 13 36.952 12 6 10 925 430 804 }  AAI := Gly  - итоговый массив центров кластеров первого класса с добавленной строкой площадей областей Дирихле 
G2 = square(A, B2, X2,8) B2 = G20 AA2 = G2;  ( 13 36.909 67.143 64.4)  - итоговый массив 70.75 58.091 79.143 47 центров кластеров 10.667 28391 3681 10 и обв класса В? — дооавленнои строкои 14.917 40.491 21.476 29 площадей областей 9 17 0 12 Дирихле \ 751 1.17x10° 737 728)  2.5. "Нанесение" точек на изображение областей Дирихле  АХ1 = point(AAI , X1, 1) AX2 = point(AA2 , X2,0)  Области Дирихле первого и второго классов 
2.6. Вычисления адаптивных гистограмм в классах (см. Приложение 2)  AA1 == his(AA1,B1, X1) AA2 := his(AA2, B2, X2)  - адаптивные гистогр аммы плотностей распр еделения признаков в классах  РЕНН рвота ни  Bees repay pie a  AA1,AA2  3. Построение байесовского классификатора по гистограммам распределения признаков в клаасах  3.1. Задание априорных вероятностей появления классов р и 1-р  р := 0.5  3.2. Функция вычисления областей предпочтения байесовской классификации  bayes(Al,A2,p) := | for ie 0..rows(Al1) —1 for je 0..cols(Al) — 1 AAj,;< 100 if A2j, j= 0  . Ali,j. 1l-p AAj,;< 100 и —— > otherwise  A2,j р  AA  BB := bayes(AA1, AA2,0.5) 
3.3. Функция нахождения границы разделения областей предпочтения  solve_curve(BB) := [k — 0 for i¢€ 1..rows(BB) — 2 for je 1..cols(BB) — 2 В1 < (ВВЕ1, 1 = 0) + (ВВ; #0) + (ВВ, ния 0) R2< (BB;, ;-1 # 0) + (BB), j41 0} + (ВВ, 1 # 0) R3 — (BBy1,; # 0) + (BBy1, 41 # 0) if | (BB), ; = 0)-(R1+ R2+ R3)| CX, ¢ 1 СУк < ] К К+1  (СХ СУ) C := solve_curve(BB) CX := Co CY :=C] s := Q..cols(X1) — 1 k := 0..cols(X2) — 1 j := 0..rows(CX) — 1  Граница разделения областей предпочтения  SES Bey 2 = а oak . . =e ghia 8 ава й вла ee aay all * т 2 bbe 8 oy hab a te a > а it зе У . i : = #8 | at 2 Е Mo PHS aah Be 7 де ae a & Би 3° я a ef 58 at ве - , all я я 2 go ae ' te at be вал = ‘ Se RUD } Гы 4 ie ь Ча oo +, = Е - Е Че . 5 a cy - ве ae Looe roy ae Е ~ ` ~ mu & та , 1 ae Be - f 5 ть вы a | a eee = hh RE ES Po oe B i t у = `. \ ФЕ a К° ef “a 7} at 7 ‘ } ‚ i * А nt Kee 7 - . 4 ae s a a к addy : . & ca - a { a ~ Be = а Jf Ч я _ & д “а , S . my oho > ae a 1 ” ^ a & ll fa he ка 1 a a & . te ae 8 4 3) is а оон + OE 5 ~ ah & Ge Ges A gp we ‘ 3 8 = - `` № ой a "8 О * aa et? & ь 4 FER s rekeda tagagh St к = = в rn q i " a at ie ® . * в a в я “ at a a Е а ae aah * a Ea ed в iF 
Предметный указатель  Айзерман М.А., 75 Аксон, 59 Алгоритм — FOREL, 44 — ISODATA, 45 — k-means, 40 — максиминный, 43 — HCKO (Хо-Кашьяпа), 22 — простейшей расстановки центров кластеров, 43 Алгоритм обучения — адаптивный нейрона, 67 — Кохонена, 70 — методом обратного распространения ошибки, 68 — персептрона, 54, 66 — слоя персептронов, 56 — Хебба, 65 — Хопфилда, 72 — Хэмминга, 74 Алфавит признаков, 12 Арнольд В.И., 61 Байес Т. (Вауез Т.), 80 Benaman P. (Bellman R.E.), 25 Бозер Б. (Boser B.), 50 Браверманн Э.М., 15 Бэлл Г. (Вай (.), 45 Вапник В.Н., 46 Вектор опорный, 47 Вероятность — ошибки второго рода, 82 — ошибки первого рода, 82 Вороной Г.Ф., 36 Выборка обучающая, 14, 16 Tuuon H. (Guyon I.), 50 Горбань А.Н., 62 Делоне Б.Н., 36 Дендрит, 59 Диаграмма Вороного, 36 Ёлкина В.Н., 44 Загоруйко Н.Г., 44 Задача понижения размерности, 26 Информация Фишера, 105 Кашьяп Р. (КазВаур В.), 22 Классификатор, 11 — байесовский наивный, 83 — байесовский обобщенный, 85 — минимаксный, 87 — Неймана-Пирсона, 88 Классы распознаваемых образов, 15  Кластеризации — задача, 38 _ критерий, 39 _ цель, 39 Клетка Вороного, 36 Колмогоров A.H., 61 Koxonen T. (Kohonen T.), 69 Крамер К.Х. (Сгатег К.Н.), 106 Линейный дискриминант Фишера, 31 МакКаллок У. (МеСиПось У\\.5.), 59 Матрица — автокорреляционная, 26 — ковариационная, 96 — платежная, 85 — псевдообратная, 22 Махалонобис П.Ч. (Мапа!опо$ Р.СВ.), 34 Машина опорных векторов (Зиррой Vector Machine), 46 Mepcep Jor. (Mercer J.), 51 Метка класса, 15 Метод — Ку ближайших соседей, 118 — адаптивного гистограммного оценивания, 112 — адаптивного обучения, 67 — гистограммного оценивания, 110 — главных компонент (Рипс1ре Component Analysis), 26 — градиентного спуска, 21 — локального оценивания, 114 — максимального правдоподобия, 105 — моментов, 108 — обратного распространения ошибки (error back propagation), 68 — оценивания аппроксимативный, 120 — парзеновского окна, 117 — потенциальных функций, 75 Методы — непараметрического оценивания, 103 — параметрического оценивания, 103 Метрика, 33 — Канберра, 35 — манхаттановская, 34 — Махаланобиса, 34 — Минковского, 34 — Хэмминга, 34 Метрики аксиомы, 33 Munxoecxuu I’. (Minkovskiy G.), 34 Muncxuu M. (Minskiy M.), 58 Многообразие (=, р) -оптимальное, 28 
Многочлены — Лежандра, 79 — Эрмита, 79 Нейман Е. (№еутап ..), 88 Нейрон стандартный формальный (МакКаллока-Питса), 59 Нейрона — адаптивный сумматор, 59 _ линейная связь (синапс), 60 — точка ветвления, 60 — функция активации, 59 Нейронная сеть — Maxnet, 74 — ассоциативной памяти, 70 — Кохонена, 70 — полносвязная, 60 — слоистая, 60 — Хопфилда, 71 — Хэмминга, 73 Неравенство Рао-Крамера, 105 Hoeuxoe A. (Novicoff A.), 55 Область — Вороного, 37 — Дирихле, 37 — предпочтения, 16 Образ, 10 Ортогональная система функций, 78 Отношение правдоподобия, 86 Отображение спрямляющее, 24 Оценка статистическая, 104 — асимптотически несмещенная, 104 — несмещенная, 104 — состоятельная, 104 — эффективная, 104 Ошибка средняя неправильной классификации, 82 Tlap3en 2. (Parzen E.), 116 ITeunepm C. (Papert S.), 58 Персептрон, 53 — обобщенный, 57 Пирсон К. (Реагзоп К.), 26 Питтс Y. (Pitts W.), 59 Поверхность решающая, 17 Потери средние неправильной классификации, 85 Правило Хебба, 64 Преобразование Хоттелинга, 26 Прецедент, 16 Принцип компактности, 35 Пространство — признаков, 12, 15 — спрямляющее, 24  Псевдорешение, 22 Разложение Карунена-Лоэва, 26 Pao K.P. (Rao C.R.), 106 Распределение — каноническое нормальное, 97 — многомерное нормальное, 96 — сферическое нормальное, 97 Розенблатт Ф. (Козеп аи Е.), 53 Розоноэр Л.И., 15 Румельхарт J. (Rumelhart D.E.), 67 Синапс, 59, 60 Словарь признаков, 12 Стоун М.Л. (Зюип М.Н.), 62 Сходимость — по вероятности, 110 — среднеквадратичная, 110 Теорема — аппроксимативная Вейерштрасса, 61 — аппроксимативная Горбаня, 62 — аппроксимативная Стоуна, 62 _ Неймана-Пирсона, 88 — о байесовской классификациии, 83 _ о локальном оценивании, 114 — о полной ортогональной системе функций, 79 — о представлении непрерывной функции многих переменных (Колмогорова-Арнольда), 61 — о преобразовании системы нормальных случайных величин, 98 — о размере парзеновского окна, 117 — о сходимости алгоритма обучения персептрона (Новикова), 56 — о сходимости метода потенциальных функций, 80 — о числе ближайших соседей, 118 — о ядре (Мерсера), 51 — об ошибке небайесовской классификации, 84 Триангуляция Делоне, 36 Yuopoy B. (Widrow B.), 66 Yunvamc P. (Williams R.J.), 67 Фишер Р.Э. (Fisher R.A.), 31 Формула — Байеса, 80 — полной вероятности, 80 — Уидроу, 67 Функционал энергии, 71 Функция — активации нейрона, 59 — индикаторная, 15 — оконная, 117 
— потенциальная, 75 Xo LO. (Ho Y.C.), 22  — правдоподобия, 86 Хопфилд Дж. (НорНе4 J.J.), 71 — расстояния, 33 ХофФ М. (Hoff M.E.), 66 — решающая (дискриминантная), 15, 17 Xan J. (Hall D.), 45 — — линейная, 17 Хэмминг Р. (Наттише R.), 34 — — обобщенная, 23 Ядро — - полиномиальная, 24 — обучающей выборки, 69 Xe66 J{.O. (Hebb D.O.), 64 — функциональное, 50  Хинтон I. (Hinton G.E.), 67  Лепский Александр Евгеньевич Броневич Андрей Георгиевич  Математические методы распознавания образов  Курс лекций Ответственный за выпуск Лепский А.Е. Редактор Надточий З.И. Корректоры Селезнева Н.И., Чиканенко Л.В. ЛР № от23.06.1997 г. Подписано к печати Формат 60х84 1/16. Бумага офсетная. Офсетная печать. Усл. п. л. - 9,5. Уч.-изд. л. — 9,3. Заказ № Тираж 100 экз. “С?  Издательство Технологического института Южного федерального университета ГСП 17 А, Таганрог, 28, Некрасовский, 44 Типография Технологического института Южного федерального университета ГСП 17 А, Таганрог, 28, Энгельса, 1 
УДК 007.51:611.81(07.07)+518.5(07.07) Рецензенты:  доктор физико-математических наук, профессор, заведующий кафедрой ма- тематического анализа Таганрогского государственного педагогического ин- ститута А.А. Илюхин;  кандидат технических наук, доцент кафедры математики и информатики Та- ганрогского института управления и экономики С.В. Скороход.  Лепский А.Е., Броневич А.Г. Математические методы распознавания обра- зов: Курс лекций. — Таганрог: Изд-во ТТИ ЮФУ, 2009. - 155 с.  ISBN 978-5-8327-0306-0  Курс лекций «Математические методы распознавания образов» предна- значен для студентов специальности 010500 «Прикладная математика и ин- форматика». В работе рассмотрены основные подходы, методы и алгоритмы описания классов, нахождения решающих функций, выбора информативной системы признаков в случае малой неопределенности исходных данных (де- терминистский подход) и в случае большой неопределенности исходных данных вероятностного характера (статистический подход). Данный курс лекций может быть также полезен студентам и аспирантам других специальностей, которые хотят познакомиться с теорией распознава- ния образов. Для активного усвоения курса от читателя требуется знание ос- нов линейной алгебры, элементов функционального анализа, теории вероят- ностей и математической статистики, методов оптимизации.  Табл. 2. Ил. 50. Библиогр.: 36 назв.  ISBN 978-5-8327-0306-0  © ТТИ ЮФУ, 2009 © Лепский А.Е., 2009 © Броневич А.Г., 2009