Text
                    4 I
ОПТ) НАДЕЖНОСТЬ И КАЧЕСТВО
Межиздательская серия
И.А.Биргер
Техническая
диагностика
Москва «Машиностроение »1978


УДК 62.19 6П5.1 Б64 Рецензент д-р техн. ни у к проф. В. С. Стреляев Биргер И. А. Б64 Техническая диагностика. — М.: «Машиностроение», 1978.—240^с, ил. — (Надежность и качество). В пер. 1 р. 20 к* Книга посвящена теоретическим основам технической диагностики. В ней изложены статистические методы распознавания и разделения в про- пространстве признаков, метрические и логические методы диагностики. Значи- Значительное внимание уделено теории информации и ее приложению к задачам диагностики. Книга предназначена для инженеров, занимающихся проблемами надеж- надежности и технической диагностики, а также может оказаться полезной сту- студентам старших курсов и аспирантам, изучающим эти проблемы. Табл. 13, ил. 78, список лит 66 назв. 31301-020 Б 038@1)-78 2°-78 6П51 © Издательство «Машиностроение», 1978 г.
ПРЕДИСЛОВИЕ Техническая диагностика — молодая наука, возник- возникшая в последние два десятилетия в связи с потребно- потребностями современной техники. Все возрастающее значение сложных и дорогостоящих технических систем, осо- особенно в машиностроении и радиоэлектронике, требова- требования безопасности, безотказности и долговечности де- делают весьма важной оценку состояния системы, ее надежности. Техническая диагностика — наука о рас- распознавании состояния технической системы, включаю- включающая широкий круг проблем, связанных с получением и оценкой диагностической информации. Книга посвящена главным образом теоретическим, основам технической диагностики. Изучение общих методов распознавания и математической теории диаг- диагностики дает возможность более обоснованного выбора конкретных способов диагностики и соответствующих им правил решения. При изложении теории диагностики особых требований к математической подготовке инже- инженеров не предъявляется, хотя некоторые моменты могут показаться трудными при первоначальном ознакомле- ознакомлении. Математизация инженерных знаний является неиз- неизбежным процессом, связанным с развитием техники, однако следует всегда помнить, что цель расчета не число, а понимание. Изложение математических вопросов теории диаг- диагностики дано на инженерном уровне строгости, что позволяет во многих случаях сделать изложение более простым и ясным. Инженерные вопросы технической з
диагностики кратко рассмотрены в первой и последней главах. Более подробный разбор вопросов техниче- технического обеспечения требует отдельного рассмотрения. Книга ориентирована на проблемы диагностики механических систем (двигателей, машин и т. д.), поэтому теоретические проблемы, связанные с автома- автоматизированным контролем и поиском неисправностей, структурой диагностического процесса и диагностиче- диагностических тестов, весьма важных для радиоэлектронных устройств, в книге опущены. Указанный пробел воспол- восполняется весьма обширной литературой по технической диагностике, в которой разбираются вопросы контроле- способности.
Глава 1 ОСНОВЫ ТЕХНИЧЕСКОЙ ДИАГНОСТИКИ Вводные замечания. Эта глава является вводной. В ней кратко излагаются основные направления и задачи технической диаг- диагностики. В отличие от обычного изложения, задачи технической диаг- диагностики рассматриваются в широком плане и связываются с об- общей проблемой распознавания. § 1. ОСНОВНЫЕ НАПРАВЛЕНИЯ ТЕХНИЧЕСКОЙ ДИАГНОСТИКИ Определения. Термин «диагностика» происходит от греческого слова «диагнозис», что означает распознавание, определение. В процессе диагностики устанавливается диагноз, т. е. опре- определяется состояние больного (медицинская диагностика; или состояние технической системы (техническая диагностика). Технической диагностикой называется наука о распознавании состояния технической системы. Цели технической диагностики. Рассмотрим кратко основное содержание технической диагностики. Техническая диагностика изучает методы получения и оценки диагностической информации, диагностические модели и алгоритмы принятия решений. Целью технической диагностики является повышение надежности и де- сурса технических, систем. Как известно, наиболее важным показателем надежности яв- является отсутствие отказов во время функционирования (работы) технической системы. Отказ авиационного двигателя в полетных условиях, судовых механизмов во время плавания корабля, энергетических установок в работе под нагрузкой может привести к тяжелым последствиям. Техническая диагностика благодаря раннему обнаружению дефектов и неисправностей позволяет устранить подобные отказы в процессе технического обслуживания, что повышает надежность и эффективность эксплуатации, а также дает возможность эксплуа- эксплуатации технических систем ответственного назначения по состоянию.
В практике ресурс таких систем определяется по наиболее «слабым» экземплярам изделий. При эксплуатации по состоянию каждый экземпляр эксплуатируется до предельного состояния в соответствии с рекомендациями системы технической диагно- диагностики. Эксплуатация по техническому состоянию может принести выгоду, эквивалентную стоимости 30% общего парка машин. Основные задачи технической диагностики. Техническая диагностика решает обширный круг задач, многие из которых являются смежными с задачами других научных дисциплин. Ос- Основной задачей технической диагностики является распознавание состояния технической системы в условиях ограниченной инфор- информации. Техническую диагностику иногда называют безразборной диагностикой, т. е. диагностикой, осуществляемой без разборки изделия. Анализ состояния проводится в условиях эксплуатации, при которых получение информации крайне затруднено. Часто не представляется возможным по имеющейся информации сделать однозначное заключение и приходится использовать статистиче- статистические методы. Теоретическим фундаментом для решения основной задачи тех- технической диагностики следует считать общую теорию распозна- распознавания образцов. Эта теория, составляющая важный раздел тех- технической кибернетики, занимается распознаванием образов любой природы (геометрических, звуковых и т. п.), машинным распозна» ванием речи, печатного и рукописного текстов и т. д. Техническая диагностика изучает алгоритмы расаознавания применительно к задачам диагностики, которые обычно могут рассматриваться как задачи классификации. Алгоритмы распознавания в технической диагностике частично основываются на диагностических моделях, устанавливающих связь между состояниями технической системы и их отображе- отображениями в пространстве диагностических сигналов. Важной частью проблемы распознавания являются правила принятия решений (решающие правила). Решение диагностической задачи (отнесение изделия к исправ- исправным или неисправным) всегда связано с риском ложной тревоги или пропуска цели. Для принятия обоснованного решения целе- целесообразно привлекать методы теории статистических решений, разработанные впервые в радиолокации. Решение задач технической диагностики всегда связано с про- гнозированием надежности на ближайший период эксплуатации (до следующего технического осмотра). Здесь решения должны основываться на моделях отказов, изучаемых в теории надеж- надежности. Вторым важным направлением технической диагностики является теория контролеспособности. Контролеспособностью на- называется свойство изделия обеспечивать достоверную оценку его 6
технического состояния и раннее обнаружение неисправностей й отказов. Контролеспособность создается конструкцией изделия и принятой системой технической диагностики. Крупной задачей теории контролеспособности является изу- изучение средств и методов получения диагностической информации. В сложных технических системах используется автоматизирован- автоматизированный контроль 'состояния, которым предусматривается обработка диагностической информации и формирование управляющих сиг- сигналов. Методы проектирования автоматизированных систем конт- контроля составляют одно из направлений теории контролеспособ- контролеспособности. Наконец, очень важные задачи теории контролеспособ- контролеспособности связаны с разработкой алгоритмов поиска неисправностей, разработкой диагностических тестов, минимизацией процесса установления диагноза. В связи с тем, что техническая диагностика развивалась пер- первоначально только для радиоэлектронных систем, многие авторы отождествляют теорию технической диагностики с теорией кон- контролеспособности (поиском и контролем неисправностей), что, конечно, ограничивает область приложения технической диаг- диагностики. Структура технической диагностики. На рис. 1 показана струк- структура технической диагностики. Она характеризуется двумя взаимо- взаимопроникающими и взаимосвязанными направлениями: теорией распознавания и теорией контролеспособности. Теория распозна- распознавания содержит разделы, связанные с построением алгоритмов распознавания, решающих правил и диагностических моделей. Теория контролеспособности включает разработку средств и методов получения диагностической информации, автоматизи- автоматизированный контроль и поиск неисправностей. Техническую диаг- диагностику следует рассматривать как раздел общей теории надеж- надежности. Техническая диагностика Теория распознавания Теория контролеспо- контролеспособности Алгоритмы распозна- распознавания Правила решения Диагности- Диагностические модели Диагности- Диагностическая информация Контроль состояния Поиск неисправ- неисправностей Рис. 1. Структура технической диагностики
§ 2. ПОСТАНОВКА ЗАДАЧ ТЕХНИЧЕСКОЙ ДИАГНОСТИКИ Вводные замечания. Пусть требуется определить состояние шлицевого соединения валов редуктора в эксплуатационных усло- условиях. При большом износе шлицев появляются перекосы и устало- усталостные разрушения. Непосредственный осмотр шлицев невозможен, так как требует разборки редуктора, т. е. прекращения эксплуата- эксплуатации. Неисправность шлицевого соединения может повлиять на спектр колебаний корпуса редуктора, акустические колебания, содержание железа в масле и другие параметры. Задача технической диагностики состоит в определении сте- степени износа шлицев (глубины разрушенного поверхностного слоя) по данным измерений ряда косвенных параметров. Как указы- указывалось, одной из важных особенностей технической диагностики является распознавание в условиях ограниченной информации, когда требуется руководствоваться определенными приемами и правилами для принятия обоснованного решения. Состояние системы описывается совокупностью (множеством) определяющих ее параметров (признаков). Разумеется, что мно- множество определяющих параметров (признаков) может быть раз- различным, в первую очередь, в связи с самой задачей распознава- распознавания. Например, для распознавания состояния шлицевого соеди- соединения двигателя достаточна некоторая группа параметров, но она должна быть дополнена, если проводится диагностика и других деталей. Распознавание состояния системы — отнесение состояния си- системы к одному из возможных классов (диагнозов). Число диагно- диагнозов (классов, типичных состояний, эталонов) зависит от особенно- особенностей задачи и целей исследования. Часто требуется провести выбор одного из двух диагнозов (дифференциальная диагностика или дихотомия); например, «исправное состояние» и «неисправное состояние». В других слу- случаях необходимо более подробно охарактеризовать неисправное состояние, например повышенный износ шлицев, возрастание вибра- вибраций лопаток и т. п. В большинстве задач технической диагностики диагнозы (классы) устанавливаются заранее, и в этих условиях задачу распознавания часто называют задачей классифи- классификации. Так как техническая диагностика связана с обработкой боль- большого объема информации, то принятие решений (распознавание) часто осуществляется с помощью электронных вычислительных машин (ЭВМ). Совокупность последовательных действий в процессе распоз- распознавания называется алгоритмом распознавания. Существенной частью процесса распознавания является выбор параметров, описывающих состояние системы. Они должны быть достаточно информативны (см. гл. 8), чтобы при выбранном числе диагнозов процесс разделения (распознавания) мог быть осуществлен.
Математическая постановка задачи. В задачах диагностики состояние системы часто описывается с помощью комплекса приз- признаков К^(К *»¦•¦. */...-, *v). B-1) где k4 — признак* имеющий т, разрядов. Пусть, например, признак kj представляет собой трехразряд- трехразрядный признак (trij = 3), характеризующий величину температуры газа за турбиной: пониженная, нормальная, повышенная. Каждый разряд (интервал,) признака k} обозначается /^s, например по- повышенная температура за турбиной kj3. Фактически наблюдаемое состояние соответствует определенной реализации признака, что отмечается верхним индексом *. Например, при повышенной температуре реализация признака k* = kf.6. В общем случае каждый экземпляр системы соответствует некоторой реализации комплекса признаков: /г-(*,*, *2\..., *;,_..., К). B.2) Во многих алгоритмах распознавания удобно характеризовать систему параметрами х-г образующими v-мерный вектор или точку в v-мерном пространстве: *-=(*!, Х2>..., X/f..., Xv). B.3) В большинстве случаев параметры х-г имеют непрерывное распределение. Например, пусть Xj — параметр, выражающий температуру за турбиной. Предположим, что соответствие между параметром Xj (°С) и трехразрядным признаком kj таково: <450 50—55 >500 / В данном случае с помощью признака kj получается дискрет- дискретное описание, тогда как параметр х}- дает непрерывное описание. Отметим, что при непрерывном описании обычно требуется зна- значительно больший объем предварительной информации, но опи- описание получается более точным. Если, однако, известны стати- статистические законы распределения параметра, то необходимый объем предварительной информации сокращается. Из предыдущего ясно, что принципиальных отличий при опи- описании системы с помощью признаков или параметров нет, и в даль- дальнейшем будут использованы оба вида описания. Как указывалось, в задачах технической, диагностики. воз- возможные состояния системы— диагнозы Dt — считаются -извест- -известными. Существуют два основных подхода к задаче распознавания: вероятностный и детерминистский. Постановка задачи при ве- вероятностных методах распознавания такова. Имеется система, которая находится в одном из п случайных состояний Д. Из- 9 < п 450—550 kj2
вестна совокупность признаков (параметров), каждый из которых с определенной вероятностью характеризует состояние системы. Требуется построить решающее правило, с помощью которого предъявленная (диагностируемая) совокупность признаков была бы отнесена к одному из возможных состояний (диагнозов). Жела- Желательно также оценить достоверность принятого решения и сте- степень риска ошибочного решения. При детерминистских методах распознавания удобно форму- формулировать задачу на геометрическом языке. Если система харак- характеризуется v-мерным вектором X, то любое состояние системы представляет собой точку в v-мерном пространстве параметров (признаков). Предполагается, что диагноз Д соответствует не- некоторой области рассматриваемого пространства признаков. Тре- Требуется найти решающее правило, в соответствии с которым предъ- предъявленный вектор X* (диагностируемый объект) будет отнесен к определенной области диагноза. Таким образом задача сводится к разделению пространства признаков на области диагнозов. При детерминистском подходе области диагнозов обычно счи- считаются «непересекающимися», т. е. вероятность одного диагноза (в область которого попадает точка) равна единице, вероятность других равна нулю. Подобным образом предполагается, что и каждый признак либо встречается при данном диагнозе, либо отсутствует. Вероятностный и детерминистский подходы не имеют прин- принципиальных различий. Более общими являются вероятностные методы, но они часто требуют и значительно большего объема предварительной информации. Детерминистские подходы более кратко описывают существенные стороны процесса распозна- распознавания, меньше зависят от избыточной, малоценной информации, больше соответствуют логике мышления человека. В последующих главах излагаются основные алгоритмы рас- распознавания в задачах технической диагностики. 1:)
Глава 2 СТАТИСТИЧЕСКИЕ МЕТОДЫ РАСПОЗНАВАНИЯ Вводные замечания. Основное преимущество статистических методов распознавания состоит в возможности одновременного учета признаков различной физической природы, так как они характеризуются безразмерными величинами — вероятностями их появления при различных состояниях системы. В этой главе содержится подробное изложение метода Байеса и метода после- последовательного анализа. Теория статистических решений, состав- составляющая особый раздел статистических методов, рассматривается в следующей главе. § 3. МЕТОД БАЙЕСА Среди методов технической диагностики метод, основанный на обобщенной формуле Байеса, занимает особое место благо- благодаря простоте и эффективности. Разумеется, метод Байеса имеет недостатки: большой объем предварительной информации, «угнетение» редко встречающихся диагнозов и др. Однако в случаях, когда объем статистических данных позволяет применить метод Байеса, его целесообразно использовать как один из наиболее надежных и эффективных методов. Основы метода. Метод основан на простой формуле Байеса, [19, 22]. Если имеется диагноз Dt и простой признак Лу, встре- встречающийся при этом диагнозе, то вероятность совместного появ- появления событий (наличие у объекта состояния Д и признака kj) j) = Р (D,) P (kj/Dt) = Р (к,) Р (ВД7). C.1) Из этого равенства вытекает формула Байеса (см. гл. 11) РфМЛ-Рр,)-?^-. C.2) Очень важно определить точный смысл всех входящих в эту формулу величин. 11
Р (Д)— вероятность диагноза Д, определяемая по стати- статистическим данным (априорная вероятность диагноза). Так, если предварительно обследовано N объектов и у W,- объектов имелось состояние Д, то P(Di) = Nl/N. C.3) Р (kj/Di) — вероятность появления признака kl у объектов с со- состоянием Д. Если среди Nt объектов, имеющих диагноз Д, у Ntj проявился признак Лу, то P(k,/Dt)=JljL. C.4) Р (kj) — вероятность появления признака k} во всех объектах независимо от состояния (диагноза) объекта. Пусть из общего числа N объектов признак kj был обнаружен у N- объектов, тогда P(ki) = NjIN. C.5) Для установления диагноза специальное вычисление Р (kj) не требуется. Как будет ясно из дальнейшего, значения Р (Д) и Р (kj/Di), известные для всех возможных состояний, опреде- определяют величину Р (kj). В равенстве C.2) Р (Djkj) — вероятность диагноза Д после того, как стало известно наличие у рассматриваемого объекта признака kj (апостериорная вероятность диагноза). Обобщенная формула Байеса. Эта формула относится к слу- случаю, когда обследование проводится по комплексу признаков АГ, включающему признаки Л1э А2, ..., kv. Каждый из признаков к} имеет mt разрядов (kjly ?/2, ..., kis, ..., kjm). В результате обсле- обследования становится известной реализация признака k* = kjs C.6) и всего комплекса признаков /С*. Индекс *, как и раньше, озна- означает конкретное значение (реализацию) признака. Формула Байеса для комплекса признаков имеет вид Р (DJK*) = Р (Д) Р (K*/Dt)/P (К*) (i = 1, 2, .. ., л), C.7) где Р (Di/K*) — вероятность диагноза Д после того, как стали известны результаты обследования по комплексу признаков /С, Р (Д) — предварительная вероятность диагноза Д (по пред- предшествующей статистике). Формула C.7) относится к любому из п возможных состояний (диагнозов) системы. Предполагается, что система находится только в одном из указанных состояний и потому ?я(О,)=1. C.8) s=l 12
В практических задачах нередко допускается возможность суще- существования нескольких состояний Аъ ..., Лг, причем некоторые из них могут встретиться в комбинации друг с другом. Тогда в качестве различных диагнозов DL следует рассматривать от- отдельные состояния Di = Ах,..., Dr = Аг и их комбинации Dr+i = 41 Л А%* ... и т. п. Перейдем к определению Р (K*lDi). Если комплекс признаков состоит из v признаков, то Р (K*lDi) = Р (kWt) P (kllkiDt) ...Р (**/*?... A?*_i D,), C.9) где к* = kjs — разряд признака, выявившийся в результате обследования. Для диагностически независимых признаков . • .P(K/Di). C.10) В большинстве практических задач, особенно при большом числе признаков, можно принимать условие независимости признаков даже при наличии существенных корреляционных связей между ними. Вероятность появления комплекса признаков /С* t(s)(s) C.11) s=l Обобщенная формула Байеса может быть записана так: C.12) ? Р (Ds) P (K*/Ds) s=l где Р (K*lDi) определяется равенством C.9) или C.10). Из соотношения C.12) вытекает ^Р(Д.//Г)=1, C.13) что, разумеется, и должно быть, так как один из диагнозов обя- обязательно реализуется, а реализация одновременно двух диагно- диагнозов невозможна. Следует обратить внимание на то, что знаменатель формулы Байеса для всех диагнозов одинаков. Это позволяет сначала опре- определить вероятности совместного появления 1-го диагноза и дан- данной реализации комплекса признаков Р (DtK*) - Р (Д) Р (К*/Од C.14) и затем апостериорную вероятность диагноза ^ ? P(D8K*). C.15) 13
Отметим, что иногда целесообразно использовать предвари- предварительное логарифмирование формулы C.12), так как выраже- выражение C.10) содержит произведения малых величин. Если реализация некоторого комплекса признаков К* яв- является детерминирующей для диагноза Dp, то этот комплекс не встречается при других диагнозах: 0 при s Ф р; Ф 0 при s = p. Тогда, в силу равенства C.12) 0 при s ф р; P(DJK*) = 1 при s = р. C.16) Таким образом, детерминистская логика установления диагноза является частным случаем вероятностной логики. Формула Байеса может использоваться и в том случае, когда часть признаков имеет дискретное распределение, а другая часть — непрерывное. Для непрерывного распределения используются плотности рас- распределения. Однако в расчетном плане указанное различие приз- признаков несущественно, если задание непрерывной кривой осуще- осуществляется с помощью совокупности дискретных значений. Диагностическая матрица. Для определения вероятности диаг- диагнозов по методу Байеса необходимо составить диагностическую матрицу (табл. 1), которая формируется на основе предвари- предварительного статистического материала. В этой таблице содержатся вероятности разрядов признаков при различных диагнозах. Если ч Таблица 1 Диагноз Диагностическая матрица в методе Байеса Признак к: Q гН 0,8 0,1 *Г а. 0,2 0,7 Q ft. 0 0,2 Q -fti о. 0,1 0 Q S3 •ее 0,1 0 ft, 0,6 0,3 *? ft, 0,2 0,7 Q ео Он 0,2 0,1 3 сГ «4 ео •fti ft. 0,8 0,9 р тл 0,3 0,1 14
признаки двухразрядные (простые признаки «да—нет»), то в таб- таблице достаточно указать вероятность появления признака р (kj/Dd- Вероятность отсутствия признака Р (&;/Д) = 1 — (ty) Однако более удобно использовать единообразную форму, полагая, например, для двухразрядного признака Р (kf/Di) = - Р (кц/Di); Р (kj/Dd = P (kjjDi). т{ Отметим, что ^j P(kjs/Dt) = 1, где my- — число разрядов при- s=l знака kj. Сумма вероятностей всех возможных реализаций при- признака равна единице. В диагностическую матрицу включены априорные вероят- вероятности диагнозов. Процесс обучения в методе. Байеса состоит в формировании диагностической матрицы. Важно предусмотреть возможность уточнения таблицы в процессе диагностики. Для этого в памяти ЭВМ следует хранить не только значения Р (&ys/Dt), но и следующие величины: N — общее число объектов, исполь- использованных для составления диагностической матрицы; Nt — число объектов с диагнозом Д; Ntj — число объектов с диагнозом Dt, обследованных по признаку кг Если поступает новый объект с диагнозом ?)д, то проводится корректировка прежних априор- априорных вероятностей диагнозов следующим образом: л/ . 1 C.17) N,L + 1 л/ 1 N+\ { ^ N + 1 "Г W + 1 ' l r ' Далее вводятся поправки к вероятностям признаков. Пусть у нового объекта с диагнозом D^ выявлен разряд г признака kj. Тогда для дальнейшей диагностики принимаются новые значения вероятности интервалов признака L при диагнозе D^'. C.18) Условные вероятности признаков при других диагнозах коррек- корректировки не требуют. Пример. Поясним метод Байеса. Пусть при наблюдении за газотурбинным Двигателем проверяются два признака: kx — повышение температуры газа за. турбиной более.чем на 50°С и k2 — увеличение времени выхода на^максимальную частоту вращения более чем на 5 с. Предположим, что для данного типа двига- двигателей появление этих признаков связано либо с неисправностью топливного регу- регулятора (состояние Dx)y либо с увеличением радиального зазора в турбине (со- \5
При нормальном состоянии двигателя (состояние D3) признак kx не наблю- наблюдается, а признак k2 наблюдается в 5% случаев. На основании статистических данных известно, что 80% двигателей вырабатывают ресурс в нормальном состоя- состоянии, 5% двигателей имеют состояние D1 и 15% — состояние D2. Известно также, что признак kx встречается при состоянии Dx в 20%, а при состоянии D2 в 40% слу- случаев; признак к2 при состоянии Dx встречается в 30%, а при состоянии D2 — в 50% случаев. Сведем эти данные в диагностическую таблицу (табл. 2). Найдем сначала вероятности состояний двигателя, когда обнаружены оба признака kx и k2. Для этого, считая признаки независимыми, применим фор- формулу C.12). Вероятность состояния P(D1lk1kt) = 0,05-0,2.0,3 0,05-0,2-0,3 + 0,15-0,4-0,5 + 0,8-0-0,05 = 0,09. Аналогично получим Р (DJkxk^ = 0,91; Р (О3/Л1ЛЯ) = 0. Определим вероятность состояний двигателя, если обследование показало, что повышение температуры не наблюдается (признак kx отсутствует), но увели- увеличивается время выхода на максимальную частоту вращения (признак k2 наблю- наблюдается). Отсутствие признака kr есть признак наличия kx (противоположное со- событие), причем Р (kJDi) = 1 — Р (kJDt). Для расчета применяют также формулу C.12), но значение Р (kJDj) в диагно- диагностической таблице заменяют на Р (kJDi). В этом случае Р {DJkxk2) = = 0,05-0,8-0,3 0,05-0,8-0,3 + 0,15-0,6-0,5 + 0,8-1.0,05 и аналогично Р (D2/kxk2) = 0,46; Р (DJkxk2) = 0,41. Вычислим вероятности состояний в том случае, когда оба признака отсутствуют. Аналогично преды- предыдущему получим 0,05-0,8-0,7 + 0,15-0,6-0,5 + 0,8-1 -0,15 = °'°3; Р (D2/k±k2) = 0,05; Р (D3/M) = 0,92. Отметим, что вероятности состояний D1wD2 отличны от нуля, так как рассматри- рассматриваемые признаки не являются для них детерминирующими. Из проведенных расчетов можно установить, что при наличии признаков k± и k2 в двигателе с ве- вероятностью 0,91 имеется состояние Dlt т. е. увеличение радиального зазора. При отсутствии обоих признаков наиболее вероятно нормальное состояние (вероят- (вероятность 0,92). При отсутствии признака kx и наличии признака k2 вероятности со- состояний D2nD3 примерно одинаковы @,46 и 0,41) и для уточнения состояния дви- двигателя требуется проведение дополнительных обследований Таблица 2 Вероятности- признаков и априорные вероятности состояний Dt P (hlDi) 0,2 0,4 0,0 p (k2/Di) 0,3 0,5 0,05 p (Di) 0,05 0,15 0,80 16
Решающее правило — правило, в соответствии с которым при- принимается решение о диагнозе. В^методе^айес.а объект с комплек- комплексом признаков /С* относится к диагнозу' с наибольшей (апосте- (апостериорной) вероятностью K*eDl9 если P(Di/K*)>P(Dj/fC) (/-1, 2,..., /i; i + /). C.19) Символ ? , применяемый в функциональном анализе, означает принадлежность множеству. Условие C.19) указывает, что объект, обладающий данной реализацией комплекса признаков Л** или, короче, реализация /С* принадлежит диагнозу (состоянию) Д. Правило C.19) обычно^ уточняется введением порогового значе- значения для вероятности диагноза: P(Dl/K*)>Pl9 C.20) где Pi — заранее выбранный уровень распознавания для диаг- диагноза Д. При этом вероятность ближайшего конкурирующего диагноза не выше 1 — Pt. Обычно принимается Pt > 0,9. При условии P{DJK*)<Pi C.21) решение о диагнозе в&^Я№ШМ2?Х?& (отказ от распознавания) и требуется поступление дополнительной информации. Процесс принятия решения в методе Байеса при расчете на ЭВМ происходит достаточно быстро. Например, постановка диаг- диагноза для 24 состояний при 80 многоразрядных признаках занимает на ЭВМ с быстродействием 10—20 тысяч операций в секунду всего несколько минут. Как указывалось, методу Байеса присущи некоторые недо- недостатки, например погрешности при распознавании редких диаг- диагнозов. При практических расчетах целесообразно провести диаг- диагностику и для случая равновероятностных диагнозов, положив Р(Д)-1/я. C.22) Тогда наибольшим значением апостериорной вероятности будет обладать диагноз Д, для которого Р {K*IDL) максимальна: /С 6 А, если Р (K*/Dt) > Р (КЩ) (/ = 1, 2,.. ., /i; i =f /). C.23) Иными словами, устанавливается диагноз Д, если данная сово- совокупность признаков чаще встречается при диагнозе Д, чем при Других диагнозах. Такое решающее правило соответствует ме- методу максимального правдоподобия. Из предыдущего вытекает, что этот метод является частным случаем метода Байеса при оди- одинаковых априорных вероятностях диагнозов. В методе макси- максимального правдоподобия «частые» и «редкие» диагнозы равно- равноправны. 17
Для надежности распознавания условие C.23) должно быть дополнено пороговым значением Я(/С*/Д)>Л, C.24) где Pt — заранее выбранный уровень распознавания для диаг- диагноза Д. § 4. МЕТОД ПОСЛЕДОВАТЕЛЬНОГО АНАЛИЗА Метод последовательного анализа, предложенный Вальдом, применяется для дифференциальной диагностики (распознавания двух состояний). В отличие от метода Байеса, число обследова- обследований заранее не устанавливается, их проводится столько, сколько необходимо для принятия решения с определенной степенью риска. Основы метода. При использовании метода Байеса для распоз- распознавания состояний Dx и D2 следует составить отношение (для независимых признаков) Р (Р2//С*) ^ Р (Р2) Р (*\/Р2) - р Если ИЛИ Р № Р(Рг) и ov то принимается решение /f* ? D2- В методе последовательного анализа рассматриваемые отно- отношения вероятностей признаков (отношения правдоподобия) со- составляются не сразу, а в последовательном порядке; поэтому, как правило, требуется меньшее число обследований. Поясним сущность метода на следующем примере. Пример. Пусть при диагнозе Da простой признак kx встречается с вероят- вероятностью Р (kJDi) и отсутствует с вероятностью Р (kJD^), для диагноза Р2 соот- соответственно Р (k1/D2) и Р (kJDz). Если у объекта К* наблюдается признак kx и при диагнозе Р2 он встречается значительно чаще, чем при Dlt то можно сде- сделать вывод в пользу диагноза Р2: D-4) где А — верхняя граница принятия решения. 1$
В противоположном случае, когда признак kx значительно чаще встречается при диагнозе Dx, принимается решение в пользу диагноза Dx: при Р(№) < к € Dlt D-5) где В — нижняя граница принятия решения. Если отношение вероятностей, которое часто называется отношением правдоподобия, то для решения требуется поступление дополнительной информации. Тогда проводится обследование по признаку k2 и пусть, например, у диагностируемого объекта этот признак отсутствует. Составляется произведение двух отношений правдоподобия и принимается решение об отнесении объекта к диагнозу D2. Подобным образом учитывается нижняя граница принятия решения. Если признаки зависимые, то используется отношение Р \k2lkxD2)lP {h^k-fi^, в котором учитывается вероятность отсутствия признака k2, при условии, что признак kx имеется. Дополнительные обследования проводятся до тех пор, пока при выбранных границах А и В можно принять определенное решение. Часто оказывается удобным рассматривать не отношение правдоподобия, а натуральный логарифм этого отношения. Тогда условие D.7) будет таким: In (Р (kx/D2)/P (VAl)) + I" (P (k2/D2)/P fo/^i)) > Подобная форма применяется при нормальном распределении количественных признаков. Общая процедура метода. Будем для краткости считать, что признаки являются независимыми. Пусть проведено v — 1 обсле- обследований, которые еще не дали возможности принятия решения, в а < Р (КЮХ) Р но после v-ro обследования 'р(Л>1)> ( } Тогда принимается решение об отнесении объекта к диагнозу D2'. Л** (Е D2. Если после v-ro обследования то объект относится к диагнозу Dv Для сокращения объема об- обследований следует вначале проводить обследование по наибо- наиболее информативным признакам (см. гл. 7, 8). 19
300 200 100 400 -200 Неисправное i i ь-*** °1* 1 < i -—55? г з v 5 ff^ 1 J^TI i Продолжение испытаний -^J | Исправное ? / f /7 Рис. 2. Применение последовательного анализа для оценки состояния двигателя по результатам тензометрирования Отметим, что метод пригоден и для непрерывно распределен- распределенных диагностических параметров, хъ х2, но вместо вероятностей признаков в отношения D.8), D.9) и D.10) входят плотности вероятностей параметров. Связь границ принятия решения с вероятностями ошибок пер- первого и второго рода При распознавании могут быть ошибки двоя- двоякого рода. Ошибка относящаяся к диагнозу D± (принимается решение о наличии диагноза D2, когда в действительности объект принадлежит диагнозу Dx), называется ошибкой первого рода. Ошибка, относящаяся к диагнозу D2 (принимается решение в пользу диагноза Dlf когда справедлив диагноз D2), называется ошибкой второго рода. Считая состояние Dx исправным, а состояние D2 дефектным, легко понять, что ошибка первого рода является «ложной тре- тревогой», а ошибка второго рода «пропуском дефекта». Обозначим вероятность ошибки первого рода а, второго рода р. Допустим, что имеются условия D.8) и D.9) и принимается ре- решение в пользу диагноза D2. Вероятность того, что это решение будет справедливым, равна 1 — р. Вероятность принадлежности объекта с данной реализацией признаков к диагнозу Dx состав- составляет а. С другой стороны, в силу соотношения D.9), вероятность диагноза ?>2, по крайней мере, в А раз больше, чем диа- диагноза Dly т. е. 1-Р А. D.11) Подобным образом можно получить и следующую оценку: — а D.12) В практических расчетах часто принимают а = В = 0,05 или а р 0Ю Пример. В исправном газотурбинном двигателе среднее значение перемен- переменного напряжения составляет xlt в дефектном двигателе это значение существенно выше х2, но дисперсии практически мало отличаются of = g§ = а. Дна гностика осуществляется с помощью измерения переменных напряжений в лопатках. Закон распределения напряжений по отдельным лопаткам принимается нор- нормальным. 20
Сначала проводится измерение в первой лопатке и составляется отношение = : =г-г«- =- е~ е 2сг2 После проведения я-го обследования (т. е. измерения напряжений в лопатках 1, 2, ..., п) логарифм отношения п *iJ- Х2 + Х! Если для решения об исправном или неисправном состоянии двигателя нет до- достаточных оснований, то отношение D.13) лежит в пределах ,„ в Из последнего условия вытекает п Ь1-\-ап< ^ л-(/} < b2 -|- an, D.14) где GSU-ln-r-?—; 62=- . q2_ In -i-=^A; a = ^2 — ^1 Условие D.14) при различном числе испытаний п соответствует области между двумя параллельными линиями (рис. 2). Если V хц) находится внутри линий, ис- испытания продолжаются, если она выходит из «коридора», то принимается решение о диагнозе. о Отметим, что Ьг < 0, так как —г— < 1. Ширина «коридора» тем больше, 1 — a чем меньше величины а и р, чем меньше разность средних значений и чем выше Дисперсия. Все эти обстоятельства с очевидностью соответствуют интуитивным представлениям о процессе распознавания. Из рис. 2 видно, что после испытания восьмой лопатки было принято решение о неисправном состоянии двигателя. Отметим, что такая же процедура может использоваться для анализа напряжений в различные моменты времени.
Глава 3 МЕТОДЫ СТАТИСТИЧЕСКИХ РЕШЕНИЙ Вводные замечания. Рассматриваемые в этой главе методы также относятся к статистическим. Однако они отличаются от изложенных в гл. 2 правилами принятия решения. В методах статистических решений решающее правило выбирается исходя из некоторых условий оптимальности, например из условия мини- минимума риска. Возникшие в математической статистике как методы проверки статистических гипотез (работы Неймана и Пирсона), рассматриваемые методы нашли широкое применение в радио- радиолокации (обнаружение сигналов на фоне помех), радиотехнике, общей теории связи и других областях. Методы статистических решений успешно используются в задачах технической диагно- диагностики [10, 24]. Ниже излагаются основы теории статистических решений, более подробное изложение можно найти в работах [15, 60, 62]. Рассмотрим сначала процесс распознавания при наличии одного диагностического параметра. § 5. СТАТИСТИЧЕСКИЕ РЕШЕНИЯ ДЛЯ ОДНОГО ДИАГНОСТИЧЕСКОГО ПАРАМЕТРА Правило решения. Пусть производится диагностика состояния газотурбинного двигателя по содержанию железа в масле (пара- (параметр х). Задача состоит в выборе значения х0 параметра х таким образом, что при ^х > хь следует принимать решение о снятии двигателя с эксплуатации, а при х < ^ допускать дальнейшую работу. Так как состояние системы характеризуется одним пара- параметром, то система имеет одномерное пространство признаков. Разделение производится на два класса (дифференциальная диаг- диагностика или дихотомия). Условимся считать: D1 — исправное состояние и D2 — наличие дефекта. Тогда указанное правило решения состоит в следующем: при x<jc0 x(zD{, при х>х0 x?D2. E.1) 22
рис 3. Статистические рас- распределения плотности веро- ^ ятности диагностического па- ffx/n) f X ^^ f(x/D) раметра х для исправного -мЛ/-?/// / \ у^ ^v У * ' *' р1 и дефектного D2 со- состояний ^ Содержание железа в масле неоднозначно характеризует состояние подшипника (в масло попадают железные частицы от других трущихся деталей: шестерен, шлиц и т. д.). В зависимо- зависимости от ряда факторов распределение х для дефектных и исправ- исправных подшипников показано на рис. 3. Существенно, что области исправного Dx и дефектного D2 состояний пересекаются и потому принципиально невозможно выбрать значение х0, при котором правило E.1) не давало бы ошибочных решений. Задача состоит в том, чтобы выбор х0 был в некотором смысле оптимальным, например давал наименьшее число ошибочных решений. Рассмотрим сначала возможные ошибки при принятии решения. Ложная тревога и пропуск цели (дефекта). Эти встречавшиеся ранее термины явно связаны с радиолокационной техникой, но они легко интерпретируются в задачах диагностики. Ложной тревогой называется случай, когда принимается ре- решение о наличии дефекта, но в действительности система нахо- находится в исправном состоянии (вместо D± принимается D2). Пропуск цели {дефекта) — принятие решения об исправном состоянии, тогда как система содержит дефект (вместо D2 при- принимается Dx). В теории контроля эти ошибки называются риском постав- поставщика и риском заказчика. Очевидно, что эти даоякого рода ощибки могут иметь разлцчные последствия или различнее цеды. Обозначим Hfj (i, j = 1,2) возможные решения по правилу E.1) (первый нижний индекс соответствует индексу принятого диаг- диагноза, второй — индексу действительного состояния). Тогда Н12 — пропуск дефекта и Н21 — ложная тревога (Dt — исправное со- состояние, D2 — дефектное состояние); Н1г и Я22 — правильные решения. Рассмотрим вероятность ложной тревоги Р (Я21) при исполь- использовании правила E.1) (случай, когда при х > х0 объект является исправным, но по правилу E.1) рассматривается как дефектный). Площадь под кривой плотности вероятности исправного состояния, соответствующая х > х0, выражает условную вероятность си- ситуации^ х > х0 для исправных изделий оо p(*>*o/?>i)= \f(x/Dl)dx. E.2) 23
Вероятность ложной тревоги равна вероятности произведения двух событий: наличие исправного состояния и значения х > х0. Тогда оо Р (Я21) - Р (Dx) P(x> xJDx) - /\ J / (x/DJ dx, E.3) Хо где Рг = Р (DJ —априорная вероятность диагноза Dx (счи- (считается известной на основании предварительных статистических данных). Подобным образом находится вероятность пропуска дефекта Р (Н12) - Р (D8) Р (х < xJD2) = Р2 J / (x/D2) dx. E.4) — оо Средний риск. Вероятность принятия ошибочного решения сла- слагается из вероятностей ложной тревоги и пропуска дефекта. Если приписать «цены» этим ошибкам, то получим выражение для сред- среднего риска 00 Хо R = С21Р1 J / (x/DJ dx -f CnP2 J / (x/D2) dx. E.5) Разумеется, цена ошибки имеет условное значение, но она должна учесть предполагаемые последствия ложной тревоги и пропуска дефекта. В задачах надежности стоимость пропуска дефекта обычно существенно больше стоимости ложной тревоги (C*i2 3> С21). Иногда вводится цена правильных решений Н1Х и Я22, которая для сравнения со стоимостью потерь (ошибок) принимается отрицательной. В общем случае средний риск (ожи- (ожидаемая величина потери) выражается равенством о R = СпРг J f (jc/Di) dx + C2lP1 \ f (x/DJ dx + — oo Xo X0 oo + Cl2P2 J / (x/D2) dx ± C22P2 J / (x/D2) dx. E.6) Величина х, предъявляемая для распознавания, является случайной и потому равенства E.5) и E.6) представляют собой среднее значение (математическое ожидание) риска. Метод минимального риска. Найдем граничное значение х() в правиле E.1) из условия минимума среднего риска. Дифферец- 24
рис. 4. Точки экстремума среднего риска ошибоч- ошибочных решений цируя E.6) по х0 и приравнивая производную нулю, получим сначала условие экстремума -C22P2f(x0/D2)^0 или fiXp/Di) _ (C12-C22)P2 f{xjD2) E.7) E.8) Это условие часто определяет два значения л:0, из которых одно соответствует минимуму, второе — максимуму риска (рис. 4). Соотношение E.8) является необходимым, но недостаточным условием минимума. Для существования минимума R в точке х = х0 вторая производная должна быть положительной —т-=- > ах0 > 0, что приводит к следующему условию относительно произ- производных плотностей распределений: !' (С12-С22)Р2 Г(Х0/02) E.9) Если распределения f{xlDx) и f(xlD2) являются, как обычно, одномодальными (т. е. содержат не более одной точки максимума), то при *1<*0<*2 E10) условие E.9) выполняется. Действительно, в правой части ра- равенства стоит положительная величина, а при х > xL производ- производная /' (x/DJ < 0, тогда как при х < х2 значение /' (x/D2) > 0. Для «двугорбых» распределений (рис. 5) условие E.9) должно проверяться в каждой точке экстремума. Рис. 5. Точки экстремума для двугорбых распределе- распределений 25
В дальнейшем под х0 будем понимать граничное значение диагностического параметра, обеспечивающее по правилу E.1) минимум среднего риска. Будем также считать распределения f(xlD^j и f(x/D2) одномодальными («одногорбыми») (см. рис. 3). Из условия E.8) следует, что решение об отнесении объекта х к состоянию Dx или D2 можно связать с величиной отношения правдоподобия. Напомним, что отношение плотностей вероятно- вероятностей распределения х при двух состояниях называется отноше- отношением правдоподобия. В соответствии с правилом E.1) по методу минимального риска принимается следующее решение о состоянии объекта, имеющего данное значение параметра х: ran ее ни f{x/Dl) X^Uly если f(x/D2) ^ (C21- //^ С \ P f{x,D2) ^ (C2l-Cn)Pl Эти условия вытекают из соотношений E.1) и E.8). Условие E.11) соответствует х < х0, условие E.12) х > х0. Величина к = -77^—п , п2 представляет собой пороговое зна- (С21 — Lu) Гг чение для отношения правдоподобия. Напомним, что диагноз Dx соответствует исправному состоянию, D2 — дефектному состоя- состоянию объекта; С21 — цена ложной тревоги, С12 — цена пропуска цели (первые индекс — принятое состояние, второй — действи- действительное); Сц < О, С22 <0 — цены правильных решений (ус- (условные выигрыши). В большинстве практических задач условные выигрыши (доощрения) для правильных решен-цд не вводятся и тогда X = C12PjCnP1. E.13) Существенно, что правило решения E.1) выражается теперь с по- помощью отношения правдоподобия и для принятия решения даже не требуется определение критического значения параметра х0. Это справедливо при некоторых ограничениях, например, для достаточно плавных («одногорбых») распределений. Часто оказывается удобным рассматривать не отношение правдоподобия, а логарифм этого отношения. Это не изменяет результата, так как логарифмическая функция возрастает моно- монотонно вместе со своим аргументом. Расчет для нормального и некоторых других распределений при использовании логарифма отношения правдоподобия оказывается несколько проще. Условие минимума риска можно получить из других соображений, которые окажутся важными в дальнейшем. 26
Запишем выражение для R в такой форме: 00 ОО Я = СпРг | / (x/DJ dx + (С21 - Сп) Л J / (*/Dx) dx + — со *, ОО ОО + СпРг \ f (x/D2) dx + (С22 - С12) Р2 | / (x/D2) djf. E.14) — оо Х0 ОО Или, учитывая очевидные равенства J / (xlD^ dx = 1, —со во J / (x/D2) dx = 1, получим 00 Я = СиЛ + С12Р2 + J [(С21 - Сп) PJ (x/DJ - ~(C1%-Cn)Pl(xlDj\dx. E.15) Так как первые два слагаемые постоянные, то зависимость R от х0 определяется величиной интеграла. При малых х0 (см. рис. 3) подынтегральное выражение положительно (распределе- (распределение/ (x/Dx) лежит левее/ (x/D2)), при больших х оно отрицательно. Для того чтобы выбрать хо> соответствующее минимальному значению /?, следует начать интегрирование с сечения х = xOi в котором подынтегральное выражение отрицательно при х > х0. Изменение знака подынтегрального выражения происходит в сечении xOi причем (С21 — С±1) Рг {xJD^j — (С12 — -C22)P2f(x0/D2) = 0, или (С12-С22)Р2 .- lfi. _ (С12-С22 Правило решения остается прежним [уравнение E.1)] и остаются в силе условия E.8). Пример. Рассмотрим случай, когда параметр х имеет нормальное распре- распределение при исправном Dx и неисправном D2 состояниях. Рассеяние параметра (величина среднеквадратичного отклонения) принимается одинаковым. В рассматриваемом случае плотности распределений /(/Dl)= e ; а V 2я (х-х2)* f(x/D2) = * е 2а2 . oV2n Внося эти соотношения в равенство E.8), получаем после логарифмирования 1 1, _ 1П JlEliZl^sIf!. ~ ~№ [2JC« (JC* - *i> + *i ~ X21 - In (С21-Си)Р, ¦ 27
Из этого уравнения 1__ а2/р2 q С \ хо — ~к~ (х\ + *г) - =- ( l'1 ~5 г 1П ~р -р ) • z х2 — ati V ^1 C2i — си / При х < Хо х ? Ог; при л: > хо л: ? D2. Метод минимального числа ошибочных решений. Вероятность ошибочного решения для решающего правила E.1) х. E.17) Из условия экстремума этой вероятности получаем -—^ = — /у (xc/°i) -f ^2/ (V°2) — 0. E.18) Условие минимума дает ^ш - — Рх/' (jto/DJ + PJ' (xo/D2) > 0 E.19) или /' (xjD^lF {xo/D2) < P2/Pv E.20) Как указывалось, для одномодальных распределений при условии E.10) неравенство E.20) выполняется и минимум вероят- вероятности ошибочного решения получается из соотношения E.18): / (х /D )/f (х ID ) = Р /Р E21) где, как и раньше, Рх = Р (Dx), Р2 = Р (D2) — априорные вероятности диагнозов. Решение х ? Dx принимается при f(x/D1)/f(x/D2)>P2/Pl E.22) и х ? D2 при f(x/D1)/f(x/D2)<P2/Pv E.23) Очевидно, что соотношения E.21)—E.23) являются частным случаем условия минимального риска, если стоимости решений одинаковы. Условие выбора граничного значения E.21) часто называется условием Зигерта— Котельщгкова (условием идеаль- идеального наблюдателя). К этому условию приводит также метод Байеса (см. гл. 2). Действительно, вероятности диагнозов D± и D2 для данного значения х (апостериорные вероятности) Р {DJx) = = P(D1)f (x/DJ/f (*); Р (DJx) = Р (D2)f {xlD2)lf (x). Решение x ? Di принимается при Р {DJx) >P(D2/x) или f(x/D1)/f(x/D2)>P2/Ply E.24) что совпадает с равенством E.22). 28
В задачах надежности рассматриваемый метод часто дает «неосторожные решения», так как последствия ошибочных реше- решений существенно различаются между собой. Обычно цена про- пропуска дефекта существенно выше цены ложной тревоги. Если указанные стоимости приблизительно одинаковы (для дефектов с ограниченными последствиями, для некоторых задач контроля и др.), то применение метода вполне оправдано. Метод минимакса предназначен для ситуации, когда отсут- отсутствуют предварительные статистические сведения о вероятности ддаиюзав Dx и D2. Рассматривается «наихудший случай», т. е. "наименее благоприятные значения Рг и Р2, приводящие к наи- наибольшему значению (максимуму) риска. Будем считать, что величина риска зависит теперь от х0 и Рг (вероятность второго диагноза Р2 — 1 —Рг). Из соотношения E.6) вытекает R (х0, PJ = СпРг \ / (x/DJ dx + С21Р, J / (x/Dt) их + —00 Хо Х0 во + Си A - PJ \ 1 (x/D.) dx + С22 A - Л) | / (JC/D.) dx. E.25) —оо Хо Для нахождения экстремума приравняем нулю частные произ- производные по х0 и Рг. Условие 1 1 =° дает f(xo/D2) Из соотношения E-26) E.27) E.28) получаем dx + Cn J fix/DJdx^ — oo oo = C12 J / (x/D2) dx + C22 J f (x/D2) dx. E.29) Теперь требуется определить значения х0 и Pl9 удовлетво- удовлетворяющие уравнениям E.27) и E.29). Если хо и Р* являются кор- корнями указанных уравнений, то точка R (лго, Р\) является экс- экстремальной. 29
Можно показать для одномодальных распределений, что вели- величина риска становится минимаксной (т. е. минимальной среди максимальных значений, вызванных «неблагоприятной» величи- величиной Pi). Отметим, что при Р1 = 0 и Рх = 1 риск принятия оши- ошибочного решения отсутствует, так как ситуация не имеет неопре- неопределенности. При Рх = 0 (все изделия неисправны) из условия E.8) вытекает х0 —* — оо и все объекты действительно признаются неисправными; при Рг = 1 и Р2 = 0 х0 —>оо ив соответствии с имеющейся ситуацией все объекты классифицируются как исправные. Для промежуточных значений 0 < Рг < 1 риск возрастает и при Pi = РГ становится максимальным. Рассматриваемым методом выбирают величину х0 таким образом, чтобы при наименее благоприятных значениях Р± потери, связанные с ошибочными решениями, были бы минимальными. Рассмотрим процедуру решения уравнений E.27) и E.29). Сначала из уравнения E.29) найдем значение Хо, что можно сде- сделать следующим образом. Представим уравнение E.29) в виде Ф(*о)=*О, E.30) где во Хо Ф (хо) = (Си - Сц) J / (x/DJ dx - (Clt - С22) J / (x/D2) dx+Cu-Cn. Хо — во E.31) Последнее равенство можно записать с помощью функций рас- распределения Ф (*о) = (Си - Сц) [1 - F (хо/DJ] - (Са - С22) F (VAJ + Cu - С22; Х0 Хо /?(V^>i)= J fix/DJdx; F(xo/D2)= J f(x/D2)dx. E.32) — oo —oo Уравнение E.30) решаем по методу Ньютона, связывающему исходные Хо(П_1) и последующие Хо{п) приближения: v v Ф (Х0 (tt-1)) /С ОО\ ^0 (л) = ^0 (л-1) Щ • @.66) Значение производной ^ - (Си - С22)/(хо (*-i)/D2). E.34) В качестве первого приближения можно принять *0<1) = (х{ + г), где xl9 х2 — средние значения х для распределения / (xlDx) и / (x/D2). При достаточной близости хо{п) и хО(П~\) при- принимаем Хо = д^о(л). Далее из равенства E.27) находим наименее 30
рис. 6. Определение гра- граничного значения диагно- диагностического параметра по методу минимакса L благоприятное значение вероятностей исправного Р* и неисправ- неисправного Р| состояний />?=• С12 (C2l - Cn)f (xS/D2) PI == 1 - Pf. E.35) Величину риска определяем по равенству E.25) при значе- значениях Xq = Xq, Р\ = Р\. Отметим некоторые случаи, в которых решение становится достаточно наглядным. Положим, что ус- условные выигрыши отсутствуют Сц = С22 — 0» а цены ошибок одинаковы С12 = С21. Тогда из уравнения E.29) вытекает \f(x/Di)dx= \f(x/Dt)dx F (xJD^) и F (xo/D2) — соответствующие функции распределе- распределения. Последнее соотношение показывает равенство условных вероятностей ошибочных решений. На рис. 6 для этого случая площади Рлт и Рп<д равны. В об- общем случае x или +F(xo/D2) = 1, где / \dx f (x/D2) dx C12 _ цена пропуска дефекта C2i цена ложной тревоги E.36) Зависимость E.36) выражает равенство условных рисков ошибоч- ошибочных решений. С помощью функций распределения она записы- записывается в виде = ¦§*-• E.37) Метод Неймана—Пирсона. Как уже указывалось, оценки стои- стоимости ошибок часто неизвестны и их достоверное определение связано с большими трудностями. Вместе с тем ясно, что во всех случаях желательно при определенном (допустимом) уровне одной из ошибок минимизировать значение другой. Здесь центр проб- проблемы переносится на обоснованный выбор допустимого уровня 31
ошибок. с._помощью предыдущегоv опыта или интуитивных сооб- соображений. По методу Неймана—Пирсона минимизируется вероятность пропуска цели при заданном допустимом уровне вероятности ложной тревоги. Таким образом, вероятность ложной тревоги f(x/D1)dx<A, E.38) где А — заданный допустимый уровень вероятности ложной тревоги; Рг — вероятность исправного состояния. Отметим, что обычно условие E.38) относят к условной ве- вероятности ложной тревоги (множитель Рг отсутствует). В задачах технической диагностики значения Рг и Р2 в большинстве слу- случаев известны по статистическим данным. Из рис. 3 видно, что увеличение ошибки ложной тревоги (се- (сечение х0 перемещается влево) величина ошибки пропуска дефекта уменьшается. Ее наименьшее значение будет соответствовать знаку равенства в условии E.38): оо ^i J [(х/Ог)с1х = А. E.39) Теперь условие E.38) однозначно определяет величину xQ и значение риска [уравнение E.6)]. Остановимся на выборе значения А — допустимого уровня ложной тревоги (риска поставщика). Пример. При эксплуатации было установлено, что у 2—3% двигателей встре- встречаются поломки в результате повышенных динамических нагрузок при увеличен- увеличенном флан&е шестерни редуктора. В дефектных редукторах наблюдается повышен- повышенная виброперегрузка при частоте, соответствующей частоте зацепления. Было проведено измерение вибраций всего парка двигателей и назначена норма, при повышении которой двигатель направляется на разборку и дефектацию. При выборе нормы исходили из двух соображений: число снимаемых с эксплуатации двигателей должно существенно превышать ожидаемое число дефектных двига- двигателей; принимаемое значение ложной тревоги не должно нарушать нормальную эксплуатацию или приводить к чрезмерным экономическим потерям. Этим условиям удовлетворяла норма, приводящая к снятию с эксплуатации при- примерно 10% двигателей. В практических задачах можно принимать А = kP2, E.40) где k — коэффициент избыточности, зависящий от разрешающей способности диагностических средств, опасности дефекта, эко- экономических затрат и других обстоятельств. При дефектах с ограниченными последствиями можно прини- принимать k = 1~3. При опасных дефектах k = З-т-10. Для редко встречающихся (Р2 < 0,01), но крайне опасных дефектов коэф- коэффициент избыточности может достигать и больших значений. 32
В задачах технической диагностики можно использовать и другой подход: определить, градичное значение х0, исход»- из забранной вероятности пропуска дефекта. В этом случае dx^B, E.41) где В — заданное значение вероятности пропуска дефекта. Трудно указать общие правила для назначения величины 5, она должна выбираться с учетом указанных ранее соображений. Если дефект крайне нежелателен даже на единичном изделии, можно принимать где N — общее число изделий, находящихся в эксплуатации; k — коэффициент избыточности A < k < 10). Во всех случаях, для реализации принципа невозможности маловероятных собы- событий, величина В должна быть малой (В < 0,01). В методе Ней- Неймана—Пирсона граничное значение х0 находится из уравнения E.39) или E.41). При практическом решении подобных уравнений целесооб- целесообразно использовать метод Ньютона [соотношение E.33)], пола- полагая, например, Ф (*о) = Pi\ f (xo/Dr) dx - Л; Ф' (хо) = - PJ (Xo/DJ. E.43) Метод наибольшего правдоподобия можно рассматривать как частный случай метода минимального риска. Правило решения принимается следующим: x?Dl9 если j|g>l; E.44) где х — значение параметра для диагностируемого объекта. Граничное значение находится из условия f(*o/Di)-/(V#2). E.45) Сопоставляя условия E.8) и E.45), легко установить, что они совпадают, если положить i?i2 — С22) Р2 1 И. Л. Биргср 33
Рис. 7. Плотности рас- распределения содержания железа в граммах на 1 т масла для исправных Dx и неисправных D2 дви- двигателей (номера линий соответствуют табл. 3) 20 X В большинстве практических случаев используется усло- условие E.13), и тогда для метода наибольшего правдоподобия следует считать ¦ =1. E.47) Для задач надежности вероятность неисправного состояния обычно представляет собой малую величину, но цена пропуска дефекта значительно больше цены ложной тревоги (С12 > С21). Тогда условие E.47) дает решение, не требующее знания точных значений стоимости ошибок и качественно отражающее указан- указанные обстоятельства (Р2 С ^i» C12 > С21). Пример. Диагностика состояния трансмиссии газотурбинного двигателя осуществляется по содержанию железа в масле. Для исправного состояния сред- среднее значение составляет хг = 5 E г железа на 1 т масла) и среднеквадратичное отклонение ох = 2. При наличии дефекта подшипников и других деталей (не- (неисправное состояние) эти значения равны х2 = 12, а2 = 3. Распределения пред- предполагаются нормальными. Требуется определить предельное содержание железа в масле, выше кото- которого двигатель подлежит снятию с эксплуатации и разборке (во избежание опас- опасных последствий). По статистическим данным, неисправное состояние трансмис- трансмиссий наблюдается у 10% двигателей. Проведем решение различными методами. Метод минимального риска. Примем, что отношение стоимостей пропуска Q цели и ложной тревоги -^- = 20, и откажемся от «вознаграждения» правильных решений (С1Х = С22 = 0). Из условия E.8) получаем { ^^}\ = 20-^тг = 2>22- Плотности распределения f 1 = т=г е 2-2* 1 = —т=г е jc—12)» 2-3* 3]/я лучаем после логарифмирования . Внося эти значения в предыдущее равенство, по- 8 (*о -12J 18 = In 2-2,22 Это уравнение имеет положительный корень *о = 7,456. На рис. 7 даны плотности распределения f(xJDx) и f(x/D2) и граничное значение хо. 34
По методу минимального числа ошибочных решений уравнение для определе- определения хо будет таким: (*о-5J (*0-12J /_2__М -~"~ 8 h 18 \ 3 9 ) Положительный корень этого уравнения хо — 9,79. Метод минимакса. Граничное значение хо вычисляется из уравнения E.32): С21 [1 —Fixo/Di)] — C12F (xo/D2) - 0. Для нормального распределения функции распределения выражаются с по- помощью функций Лапласа _1_ 2 - JL j <ъ I хо — : 2 где Ф (х) = Расчет проводится по формуле E.33). Первое приближение хо A) = ft + *«>/2 = E + 12)/2 = 8,5. Второе приближение *0 B) = *0 A) - Ф (*0 A))/Ф' N A))' Ф (*о A)) = С21 [ 1 - F (х0 A)/Ох)] - C12F (x0 Ф# (*о A)) = ~ С21/ (х0 {l)/Dx) - Cl2f (x0 Значения С21 = 1, С12 = 20. Расчеты дают а:0 B^ = 6,79. При расчете использо- использовались таблицы для нормального распределения. Последующие приближения дали: #0C) = 5,91; х0 D) = 5,72; лг0 E) = 5,71. При С21=1, С12 = 1 получено дг0A^ = 8,5; дг0 ^2) = 7,79; л:0 ^3) = 7,80. Значения наиболее неблагоприятных ве- вероятностей состояний при х*0 = 5,71 Р\ = 0,61; PJ = 0,39; при a:J = 7,80 Р\ = = 0,93; р; = 0,07. По методу Неймана—Пирсона принимаем Л = kP2- Считая последствия де- дефекта ограниченными (для контроля состояния трансмиссии используются также показания вибродатчиков), принимаем k = 1, что дает А = 0,1. Полагая первое приближение х0 A) = (хг +^2)/^ = 8,5, находим второе приближение по фор- формулам E.33) и E.43) х _ 0B)- Расчеты дают следующие значения приближений: xQ ^2) = 6,85; х0 ^ = 7,36; ^0 D) == 7,43; х0 ^ = 7,43. По методу наибольшего правдоподобия граничное значение находим из условия E.45), что дает *о = 8,14. Результаты расчета показаны на рис. 8 и сведены в табл. 3. Для каждого из граничных значений вычислены вероятности ложной тревоги и пропуска дефекта по формулам E.3) и E.4) при Рг = 0,90 и Р2 = 0,10 и величина риска по соотно- Шению E.5) при указанных значениях вероятностей состояний и при —^- = 20. C2i 2* 35
Таблица 3 Результаты расчета по методам статистических решений № п/п 1 2 3 4 5 6 Метод Метод минимального риска Метод минимального числа ошибок Метод мини- макса Cl2 — °о г С 21 ^12 1 Метод Неймана—Пирсона Метод наибольшего прав- правдоподобия Гранич- Граничное зна- значение 7,46 9,79 5,71 7,80 7,44 8,14 Вероят- Вероятность ложной тревоги 0,0984 0,0074 0,3235 0,0727 0,1000 0,0524 Вероят- Вероятность пропуска дефекта 0,0065 0,0229 0,0018 0,0081 0,0064 0,0098 Средний риск 0,229 0,467 0,360 0,234 0,230 0,249 Из сопоставления видно, что метод минимального числа ошибок дает неприемле- неприемлемое решение, так как цены ошибок существенно различны. Граничное значение по этому методу приводит к значительной вероятности пропуска дефекта. Метод минимакса в основном варианте ( *2 = 20 ) требует очень большого съема дви- \ ^21 / гателей с эксплуатации (примерно 32%), так как исходит из наименее благоприят- благоприятного случая (вероятность неисправного состояния Р2 = 0,39). Применение ме- метода может быть оправданным, если отсутствуют даже косвенные оценки вероят- вероятности неисправного состояния. В рассматриваемом примере удовлетворительные результаты получаются по методу минимального риска. § 6. СТАТИСТИЧЕСКИЕ РЕШЕНИЯ ПРИ НАЛИЧИИ ЗОНЫ НЕОПРЕДЕЛЕННОСТИ И ДРУГИЕ ОБОБЩЕНИЯ Правило решения при наличии зоны неопределенности. В неко- некоторых случаях, когда требуется высокая надежность распозна- распознавания (большая стоимость ошибок пропуска цели и ложной тре- тревоги), целесообразно ввести зону неопределенности (зону отказа от распознавания). Правило решения будет следующим (рис. 8): x<x& F.1) при при х > xb при отказ от распознавания. Разумеется, отказ от распознавания является нежелательным событием. Он свидетельствует, что имеющейся информации недо- недостаточно для принятия решения и нужны дополнительные све- сведения. 36
рис. 8. Статистические решения при наличии зоны неопределенности Определение среднего риска. Величина среднего риска при наличии зоны отказа от распознавания может быть выражена следующим равенством (см. § 5): R - СпРх J / (х/пг) dx + СпРг J / (x/Dx) dx -f ~°° хь + Ci2P2 J / (x/D2) dx + C22P2 J / (x/D2) dx + xb xb + Co J [PJ (x/DJ + PJ (x/D2)} dx, F.2) xa где Co — цена отказа от распознавания. Отметим, что Со > 0, иначе задача теряет смысл («вознаграж- («вознаграждение» за отказ от распознавания). Точно так же Сп < О, С22 <: О, так как правильные решения не должны «штрафоваться». Метод минимального риска при наличии зоны неопределенно- неопределенности. Определим границы области принятия решения, исходя из минимума среднего риска. Дифференцируя выражения F.2) по ха и хъ и приравнивая производные нулю, найдем дха ~uuri dR С12Р2/ (xa/D2) - J (xb/D2) Из этих уравнений получаем _ (С12-С0)Р2 . (Ct-dOP! ' __ (C0-C22)P2 F.3) F.4) F.5) F.6) 37
Равенства F.5) и F.6), выражающие необходимые условия экстре- экстремума, могут существовать, если их правые части положительны, Для этого необходимо, чтобы ^12 > О)» С21 > Со, F.7) т. е. стоимость ошибок должна быть больше стоимости отказа от распознавания. Если не поощрять правильные решения (С1Х = О, ^22 = 0) и не платить за отказ от распознавания (Со = 0), то область неопределенности будет занимать всю область изменения параметра. Для существования минимума функции двух переменных R (Ха> xb) ДОЛЖНО быТЬ от? / а»/? у ) >0 F-8) Вследствие равенства нулю смешанной производной, условия минимума таковы: ^ (С12-С0)Р2 . ,fi Q Г (xa/D2) ^ (С0-С11)Р1 ^ (Ср - С22) Р2 Можно показать для «одногорбых» распределений, что при ус- условии х1<ха<хь<х2 F.11) условия F.9) и F.10) выполняются и соотношения F.5) и F.6) дают значения ха и хь, соответствующие минимуму риска. Метод Неймана—Пирсона при наличии зоны неопределимости. Естественное обобщение метода состоит в том, что ха и хь опре- определяются из условий: ОО Pi J / F.12) где Л и Б — вероятности ложной тревоги и пропуска дефекта. Наличие зоны неопределенности дает возможность обеспе- обеспечить заданные уровни ошибок за счет отказа от распознавания в «сомнительных» случаях. Правило принятия решения F.1) может быть выражено через отношения правдоподобия: ПРИ f(x/D2) < (CQ f(x/D2) > (С21-С0)Рг ттпы (^12 — Ср) Р2 ^ f (Х/Рт) ^ (Со — С22) Р2 ПТ-.П9 пт ПЯРППЧНЯПЯНИЯ ПрИ (C0-Cu)Px < /(*/OJ < (СИ-С,)Л °ТКа3 °Т Распознавания- 38
рассмотрим случай, когда параметр х распределен по нор- нормальному закону при диагнозах Dx (исправное состояние) иО2 (неисправное состояние), причем среднеквадратичное отклонение з обоих случаях одинаково. Плотности распределений i = —-?=- е 2G2 202 В силу соотношений F.5) и F.6) будем иметь 1П (у /П \ 9rr2 l^^a V^2 Л1/ Г л I — ^2J — *" p Г ul ^ Г \Xa/L/2) zu *\ ^o — W о — ^2 ln / to/D) ~ ~~ 255-l2x"(X2 ~ Xl) + Xl ~ X2j = ln РГ Из последних равенств находим х2 — ^ = -o-l ч а2 Г, Р2 i I Q — ^ 1 При С1Х = С22 ==0 и Со —> 0 получаем ха —> —сх), хь —> сх>, т. е. зона неопределенности занимает всю область изменения параметра. Статистические решения для нескольких состояний. Выше были рассмотрены случаи, когда статистические решения принимались Для различения двух состояний (дихотомия). Принципиально такая процедура позволяет провести разделение на п состояний, каждый раз объединяя результаты для состояния D{ и Dt. Здесь под Dt понимаются любые состояния, соответствующие условию «не D,». Однако в некоторых случаях представляет интерес рас- рассмотреть вопрос и в прямой постановке — статистические реше- решения для классификации п состояний. Рассмотрим, как и раньше, системы с одним диагностическим параметром х. Вначале оста- остановимся на случае, когда проводится разделение на три состоя- состояния (рис. 9). Правило решения состоит в следующем: пРи —оо<х<л:1 x?D{, при хх<л:<х2 x?D2; ПРИ *2<л:<оо x?D3. F.14) 39
О х1 х2 х Рис. 9. Метод статистических решений для трех состояний Средний риск ? ? ? г\ — ^ll/l I / \X/*-S\) dX —р ^12^2 I / \X/J^2/ ^Х ~\~ ^13* 3 I ОО 00 00 х. хг х + CnPi\ f(x/D1)dx + C2iP,\ f(x/D2)dx + C23P3\ f(x/DB)dx + xt xt xt oo oo oo + C3lPLl fix/DJdx + CnPil f(x/D2)dx + C33P3\ f(x/D3)dx. F.15) x2 x2 x2 Величины Сij (IJ = 1, 2, 3) представляют собой элементы «пла- «платежной матрицы». Индекс i соответствует принимаемой гипотезе о состоянии объекта, индекс / — действительному состоянию. Например, С12 выражает стоимость штрафа в случае, когда по принятому правилу считается состояние Ъь тогда в действи- действительности объект (изделие, машина) находится в состоянии D2- Величины Сп < 0, так как они представляют собой поощрения за правильные решения. Три первых слагаемых равенства F.15) относятся к области первого состояния и т. д. Рассмотрим метод минимального риска. В этом методе гранич- граничные значения хг и х2 определяются из условия минимума R. Необходимые условия минимума (экстремума) OR 6R = 0 приводят к следующим равенствам: (Си - С2х) PJ (хЖ) + (Си - С22) PJ (Xi/D%) F.16) F.17) (С21 - С31) PJ ( (С22 - С32) PJ (x2/D2) = 0. F.18) Из уравнения F.17) находим значение хи из уравнения F.18)— х2. Для отыскания корней может быть использован метод Ньютона. 40
Для того чтобы значения хг и лг2, удовлетворяющие урав- уравнениям F.17) и F.18), соответствовали минимуму, необходимо й достаточно выполнение следующих условий: ? |? F.19) что дает (Сп - С21) PJ' (xJD,) + (С12 - С22) Л/ (Ai/Da) + + (С13 - С23) /У' (^/D8) > 0; F.20) (С81 - С81) Рх/' (x2/Dx) + (С22 - С32) /у' (x2/D2) + + (С23 - С33) PJ' (x2/D3) > 0. F.21) Если распределения f(xlD^, f(x/D2) и f (x/D3) являются одно- модальными («одногорбыми»), то последние условия выполняются при 3, F.22) где^1, х21 х3 — средние значения соответствующих распределений. Статистические решения для многомерных распределений. Выше рассматривались случаи, когда состояние системы (изделия) характеризовалось одним параметром х и соответствующим (од- (одномерным) распределением. Рассмотрим теперь системы, состоя- состояния которых описываются несколькими диагностическими пара- параметрами. Будем считать, что система может иметь только два состояния — исправное D1 и неисправное D2. Состояние системы характеризуется диагностическими параметрами х1у х2, ..., хп или вектором х: х=\хъ х2,...,хп]. F.23) Статистическое распределение диагностических параметров для состояния Dx f(x/D1) = f(xl9 x2,...,xn/D1). F.24) Если параметры хъ x2i ..., хп статистически независимы, то (см. гл. 11) / (xlDx) = f (xJDJ f {x2lDx) ...f (xJDx). F.25) Плотность распределения диагностических параметров для вто- второго состояния f(x/D2) = f(Xv x2,...,xJD2). F.26) На рис. 10 показаны статистические распределения для двух Диагностических параметров. Правило решения принимается следующим: если x?Sv то x^DL\ 2, то x?D%. F.27) 41
f(X/»,) /f\ ж /У / / щ / / L Ш) ^ h Si ^ Рис. 10. Статистические распределения для двух диагностиче- диагностических параметров Правило означает, что если точка, соответствующая вектору jc, находится в области Sl9 то объект относится к состоянию Dly и аналогично для области S2. Перейдем к определению среднего риска. Обобщая соотношение F.7), получим R = СпРг \ f (x/DJ dx + C2lP1 J / (x/DJ dx + Si S2 + Ci2P2 J / (x/D2) dx + C22P2 J / (x/D2) dx. F.28) В равенстве F.28) интегралы распространяются на многомер- многомерные области, причем под dx понимается элемент площади dx = dxx dx2... dxn. F.29) Учитывая, что плотности распределения для всей области удов- удовлетворяют равенствам dx-=l, F.30) где 5 = Sx -f S2 — область изменения параметров хи ..., хп9 представим равенство F.28) в форме E.15): R = СпР1 -\- С12Р2 ~\- J [(С21 — Сп) PJ -(C12-C22)P2f(x/D2)]dx. F.31) Рассмотрим теперь метод минимального риска. Если гранич- граничная линия L близка к центру первого распределения, то / (x/DJ > ^>f(x/D2) и подынтегральное выражение положительно. 42
Выберем положение границы L так чтобы вдоль границы подын- подынтегральное выражение обратилось в нуль: (Сп - Сп) PJ (xlDx) - (С12 - С22) P2fixlD2) - 0. F.32) Последнее уравнение представляет собой уравнение границы областей Sx и S2. Теперь область S2 выбрана таким образом, что интеграл в равенстве F.31) будет иметь наибольшее по ве- величине отрицательное значение. Это утверждение справедливо во всяком случае для достаточно плавных («одногорбых») рас- распределений. Для таких распределений подынтегральное выра- выражение в равенстве F.31) отрицательно во всех точках области (это условие является достаточным, но не необходимым). При указанном выборе граничной линии величина R будет минимальной. В результате правило F.27) можно представить в такой форме: ПРИ f(xlD f(x!D2) < Условия F.33) и F.34) являются непосредственным обобщением условий F.13) для одномерного случая. Существенно, что при многомерном распределении разделение (классификация) состоя- состояний по методу минимального риска может быть проведено по отношению правдоподобия, причем знание граничной линии областей не требуется. Условия F.33) и F.34) дают простое пра- правило принятия решения при произвольном числе диагностиче- диагностических параметров. Рассмотрим случай, когда параметры хь независимы и имеют нормальное распределение. Тогда, в соответствии с равен- равенством F.25) (xi-*i (I)J (*i-ti B)J 2а?B) ¦ F-35) B) гДе xi (I), xL B) — средние значения 1-го диагностического пара- параметра для состояний Di и D2\ oc <i), сг^ B> — их среднеквадратич- среднеквадратичные отклонения. Логарифмируя условие F.33), получим 17~^->ln^{lngl^ xeDv F.36) 43
Используя соотношения F.35), найдем n + ln с"-с" — S ln "^" JceDl' F'37) При изменении знака неравенства объект относится к состоя- состоянию D2. Если среднеквадратичные отклонения 1-го диагности- диагностического параметра для двух состояний одинаковы at (i) = at- B) = = a/? то правило решения упрощается: п — — + In Сс12 ~ Сс™ х ^ Dt\ F.38) ппн V ^B)-^A) Г 1 ,- ,- . ,г1^1пР»4- ПРИ / , г ~9~ vXi' С1) "Г" Xi B)/ — Xi \ 1П "р Г + In СГ12~С" x?D2. F.39) Правило классификации отражает физический смысл задачи: важной оказывается разность между значением параметра объ- объекта и средним значением; если средние значения параметров для двух состояний совпадают, то соответствующая координата не влияет на классификацию; при уменьшении среднеквадратичного отклонения (рассеяния) диагностическое значение параметра воз- возрастает. Обобщение результатов для одномерных систем на многомер- многомерные системы. В § 5 и частично в настоящем параграфе рассматри- рассматривались различные варианты метода статистических решений для одномерных систем (систем с одним диагностическим параметром). Приведенные решения [например, соотношения F.38) и F.39)] относились к системам с п диагностическими параметрами (мно- (многомерные системы). Можно указать простое общее правило обоб- обобщения результатов для одномерных систем на системы много- многомерные. Оно состоит в том, что одномерные плотности распре- распределения fix/DJ и f(x/D2) заменяются многомерными / (лг/Dj) и / (x/D2), а граничные точки — граничными линиями, одномер- одномерные области интегрирования —многомерными [уравнения E.11), 44
E.12) и соотношения (G.33), F.34)]. Например, для метода мини- минимального риска при наличии зоны неопределенности будем иметь ^ (С12-С0)Р2 (ft дг)\ (b.4U) f WD2) f (х/о2) > (с21 _ Со) Если указанные неравенства не выполняются, то происходит отказ от распознавания. Наиболее просто обобщаются на многомерные системы методы минимального риска и его частные случаи (метод минимального числа ошибочных решений, метод наибольшего правдоподобия). В случаях, когда в методе статистического решения требуется определение границ области принятия решения, расчетная сто- сторона задачи существенно осложняется (методы Неймана—Пир- Неймана—Пирсона и минимакса).
Глава 4 МЕТОДЫ РАЗДЕЛЕНИЯ В ПРОСТРАНСТВЕ ПРИЗНАКОВ Вводные замечания. Одними из наиболее важных методов диагностики являются методы разделения в пространстве призна- признаков. Эти методы основаны на естественной «гипотезе компакт- компактности», в соответствии с которой точки, отображающие одно и то же состояние (диагноз), группируются в одной области про- пространства признаков. Ниже излагаются линейные методы разделения, метод по- потенциальных функций и метод стохастической аппроксимации. Метрические методы разделения в пространстве признаков об- обсуждаются в гл. 5. § 7. ЛИНЕЙНЫЕ МЕТОДЫ РАЗДЕЛЕНИЯ Пространство признаков. Как уже указывалось, каждая кон- конкретная система (объект) может быть охарактеризована век- вектором х в многомерном пространстве признаков: х = {х1у х2У.. .,xN]. G.1) Компоненты вектора х могут быть дискретными или непре- непрерывными величинами. Дискретные величины обычно выражают разряды (интервалы) диагностических признаков (количественных или качественных), непрерывные величины —диагностические параметры системы (температуру, давление, вибрационные пере- перегрузки и т. п.). Часто оказывается удобным представить объект как точку многомерного пространства (конец вектора л:). Если система описывается с помощью простых (двухразрядных) признаков, то компоненты вектора выражаются двоичными числами. Тогда, естественно, каждый из объектов в пространстве простых призна- признаков является одной из вершин единичного W-мерного куба. На- Например, в трехмерном пространстве объект х @11) изображается точкой, показанной на рис. 11. 46
рис. И. Пространство простых двухразряд- двухразрядных признаков Во многих случаях удобно ис- использовать трехразрядные признаки, принимая 1 наличие признака; — 1 отсутствие признака; О не обследовано. х = Пространство признаков располагается по граням и вершинам W-мерного куба, сторона которого равна двум. Если точка (век- (вектор) л: относится к объекту (системе) с диагнозом Dh то это за- записывается так: G.2) Равенство G.2) одновременно означает, что точка (объект) х относится к области диагноза Dt в пространстве признаков. Областью диагноза Dt называется множество точек простран- пространства признаков (объектов), обладающих состоянием (диагнозом) Dt. Обычно Этакие области заполняют достаточно компактно часть пространства признаков. Условие компактности состоит в том, что число граничных точек мало по сравнению с общим числом точек области. Дискриминантные и разделяющие функции. Пусть в простран- пространстве признаков (параметров) содержатся точки, принадлежащие п различным диагнозам (состояниям) Dl9 ..., Dn. _ Дискриминантными функциями для этих диагнозов будем называть скалярные функции Д (л:) (I = 1, 2, ..., п), удовлетво- удовлетворяющие условию //(*)>/,(¦*) при x?Dt. G.3 (/-1, 2,...,n; i + i) Таким образом, функция Д- (л:) принимает для точек диаг- диагноза Di наибольшие значения по сравнению со всеми другими Дискриминантными функциями. Обозначение Д (л:) в краткой форме указывает зависимость функции от всех координат про- пространства хи ..., xN; Д (х) = Д (хг, х2, ..., xN). Пример линей- линейной дискриминантной функции для t-ro диагноза Н Ь N+V G.4) «весовые» коэффициенты. D Г^е ^/i, ..., %ч,м+1 — «весовые» коэффициенты. Если диагнозы Dt и D} в пространстве признаков имеют общую границу, то уравнение разделяющей поверхности будет таким: М*)-/,(*) = (). G.5) 47
*i\ Рис. 12. Разделяющая поверхность и раз- разделяющий слой в пространстве признаков Существенное практическое зна- значение имеет разделение на два диаг- диагноза (состояния) ?>! и D2 (например, исправное и неисправное). Этот слу- ^ чай часто называется дихотомией *1 или дифференциальной диагностикой. При распознавании двух состояний в качестве разделяющей функции можно принять разность соответствующих дискрими- нантных функций /W = /iW-M4 G.6) С помощью разделяющей функции можно указать следующее решающее правило: /(*)>0при x?D{, f(x)<0 при x?D2. G.7) Уравнение разделяющей поверхности / (х) = 0. Для повышения надежности распознавания применяют «по- «пороги чувствительности», и тогда решающее правило формули- формулируется следующим образом: при f(x) > ex?Di, при /(х) < — гх?D2; при — е << / (л:) <С 8 отказ от распознавания. G.8) В этих соотношениях е — достаточно малая положительная величина. При отказе от распознавания для принятия решения требуется поступление дополнительной информации. В рассматриваемом случае [условия G.8) ] имеется разделяю- разделяющий слой (рис. 12), толщина которого зависит от выбранных зна- значений порогов. Отметим, что поверхности, разделяющие области диагнозов в пространстве признаков, могут быть различными, так как выбор дискриминантных функций не является одно- однозначным. Линейные разделяющие функции. Один из важнейших классов разделяющих функций связан с линейными дискриминантными функциями. Тогда разделяющая функция при распознавании двух классов / (х) = h (х) - f2 (x) = Mi + V2 H h W + W G.9) ^• = 4-4- (/=1, 2,...,/V+l). G.10) Величины Xj называются весовыми коэффициентами. Методы распознавания с помощью линейных разделяющих функций назы- называются линейными методами разделения. Диагнозы, для которых возможно такое распознавание, считаются линейно-разделимыми. 48
Весовые коэффициенты Kj образуют весовой вектор с числом компонентов N + 1: Для удобства геометрической интерпретации дополним век- вектор х еще одним компонентом xN+i= I- G.12) Тогда дополненный вектор признаков G.13) Разделяющую функцию при диагностике на два состояния можно представить в виде скалярного произведения Условия разделения (решающее правило) f (xj ¦= ^ •-** > 0 при л:* ? ^i; /(^*) = ^-^*<0 при x^D2. G.14) G.15) Разделяющая поверхность является плоскостью в (N + 1)-мерном пространстве или гиперплоскостью. Уравнение разделяющей гиперплоскости Уравнение G.16) означает, что весовой вектор ^перпендикулярен разделяющей гиперплоскости (рис. 13). В дополненном про- пространстве признаков разделяющая гиперплоскость всегда про- проходит через начало координат. Пример. Пусть система определяется одним параметром и разделяющая функция в пространстве признаков / (х) = хг — 2. В соответствии с условием G.7) при хг > 2 точки принадлежат диагнозу ?>х, при хх < 2 — диагнозу D2. В дополненном пространстве признаков разделяющая функция / (х%) = Хх# = хг — 2х2- Весовой вектор имеет составляющие %(\, —2), условия разделения остаются прежними. Разделение в пространстве при- признаков и дополненном пространстве признаков для этого примера по- показано на рис. 14. Разделяющая плоскость 0 Рис. 13. Весовой вектор и разде- разделяющая плоскость 49
¦2 -1 <ГЧ 2 3 f 5 л, -2-1 Рис. 14. Разделение в пространстве признаков (а) и дополненном пространстве признаков (б) Линейная разделяющая функция в дополненном пространстве признаков имеет простой геометрический смысл / (х^) = %х* = = h, где h — проекции вектора х% на направление весового век- вектора X, что вытекает из смысла скалярного произведения. Абсо- Абсолютная величина h равна расстоянию точки х# до разделяющей плоскости Хх^ = 0. Значение h положительно, если точка х^ находится в полупространстве, векторы точек которого дают по- положительную проекцию на вектор к. Нахождение разделяющей гиперплоскости. Разделяющая ги- гиперплоскость проходит через начало координат (в дополненном пространстве признаков) и нормальна весовому вектору Я. Сле- Следовательно, вектор к однозначно определяет положение разделя- разделяющей плоскости в пространстве признаков и задача сводится к на- нахождению вектора к. Рассмотрим процедуру определения весового вектора с помощью обучающей последовательности [38]. Под обу- обучающей последовательностью понимается совокупность образцов с известным диагнозом (совокупность «верифицированных образ- образцов»). Эта последовательность используется для «обучения», в данном случае — нахождения весового вектора (разделяющей гиперплоскости). Пусть в пространстве признаков имеются две области диагно- диагнозов D! и D 2. Они изображены для трехмерного пространства при- признаков на рис. 15. Разделяющая плоскость должна удовлетворять условиям G.15), которые можно упростить, если ввести в рассмо- рассмотрение объединенную область диагнозов D\ и D%: D = Di\]Dl, где Dl — область диагноза D2, симметрично отображенная отно- относительно начала координат (рис. 16). Знак |J означает объединение множеств. Область D| получается из D2, если знак у векторов х ?D изменить на противоположный. Отметим, что области D\ и DI могут иметь общие точки. Теперь разделяющая функция вместо соотношений G.15) будет удовлетворять условию при G.17) 50
Рис. 15. Области диагнозов в простран- Рис. 16. Объединенная область диаг- стве признаков нозов Следовательно, объединенная область D должна располагаться по одну сторону от разделяющей гиперплоскости G.16) или, что равносильно, гиперплоскость не должна пересекать объединен- объединенную область диагноза. В дальнейшем придется часто рассматривать векторы в допол- дополненном пространстве (xN+1 = 1) признаков и для простоты опу- опустим индекс * у вектора х. Уравнение гиперплоскости запишем так: / \Х) = Л» • иГ = U. \1 Л О) При определении вектора к применяется процедура последова- последовательных приближений. Для обучения предъявляется первый образец лгA), относительно которого диагноз известен. В качестве первого приближения для вектора к принимается ЛA) = -*<1), ^СЛИ ЛГA) ?/Л, или к{г) = — ЛГA), если ЛГA) G.19) На рис. 17 показан случай, когда первый образец принадле- принадлежит области D2. Разделяющая плоскость для первого приближе- приближения описывается уравнением b{i)-x = 0, G.20) т- е. разделяющая плоскость перпендикулярна вектору первой точки. Далее предъявляется второй образец, описываемый век- вектором ЛГB). На рис. 17 этот образец относится к диагнозу Dx. Сначала проверяется правильность предыдущего приближения Для разделяющей плоскости. Если выполняется условие к^хщ > > 0, то весовой вектор не требует корректировки и во втором при- приближении принимается к{2) = к{Х). 51
•Xs Ли) Рис. 17. Процедура построения разделя- разделяющей плоскости Случай, когда во втором при- приближении не требуется внесения поправки, показан на рис. 17. Далее предъявляется третий обра- образец ЛГC) и проводится проверка предыдущего значения вес ового вектора. Если Х{2) -ЛГC) > 0, то исправления вектора не требуется и принимается Х(з> = к{2) (точки •* и>, ХB) у х{з) лежат по одну сторону от разделяющей плоско- плоскости). Если ^B)ЛГC) <0 (этот слу- случай показан на рис. 17), то условие разделения G.17) 'к-х>0 не выполняется и требуется скорректировать весовой вектор. Принимают теперь ХC) = А,B) + х@) и далее переходят к показу следующего образца. В общем виде описанную процедуру можно представить так: G.21) при При В последнем равенстве: 0, если *,( 1, если ^( — 1, если О, если и) D2 0, {n-i-i) <0. G.22) G.23) Иными словами, при неправильных ответах к вектору Х(п) до- добавляется вектор точки, относительно которой была совершена ошибка. Равенства G.22) и G.23) можно записать в более компакт- компактной форме, если воспользоваться разделяющей функцией f(x) = l-x G.24) и п-ы приближением для нее f(n) (X) = к(П)'Х. Тогда где 52 1 при ср>0; —1 при ф G.25) G.26) G.27)
Например, если показывается п + 1-й образец, принадлежа- принадлежащий диагнозу Df. x{n\\) ^Du f (x{n+i)) >0 и fin) (-*еи п) ^ к(п)-Х(П 11) > 0, G.28) т0 из равенства G.26) находим гп+1 = A — 1)/2 = 0, что и соот- соответствует первой строчке формулы G.22). Если -*(Л+1) G ^2; / (*(/н 1)) < 0, то при l{n)x{n+i) > 0; ^(я) (лГ(л-м)) > 0 получаем г„+1 = (—1 — 1)/2 = —1, что совпа- совпадает с равенством G.23). Теорема о сходимости алгоритма обучения за конечное число шагов. Ранее рассматривалась процедура построения весового вектора G.21), при которой после очередного показа образца из обучающей последовательности весовой вектор оставался прежним или «исправлялся». Покажем теперь, что построенный процесс последовательных приближений приводит к определению весового вектора за конечное число исправлений. Сформулируем следую- следующую теорему, принадлежащую Розенблатту и Новикову [3, 38, 51 ]. Пусть для диагнозов Dx и D2 существует строго разделяющая функция (> 8, если x^Dx\ f(x) = k.x = \^ ' G.29) К — е, если х ? и2, где 8 — положительное число и вектор признаков х ограничен по величине \х\<Ь. G.30) Тогда после конечного числа исправлений весовой вектор, получаемый из равенства G.21), осуществляет разделение G.29). Для доказательства рассмотрим векторы образцов, входящие в объединенную область диагноза D; векторам a:?D2 будем при- приписывать обратный знак, D^D^D*. Отмечая такие Еекторы верхним индексом 0, получим для у-го образца о •*(/) = •*</)> если Х(}) ?DiJ •*(/) = —•*(/)> если jc(/)?D2. G.31) Далее условимся рассматривать только такие образцы, которые приводят к исправлению весового вектора. Если произошло т исправлений, то соответствующий весовой вектор 0 ' t-° ]_ L v° A 19\ - ХB) -]-••• -j- Д-(т)» {(.oZ) Обозначим нижнюю границу разделяющей функции min(*,..*) = а >е. G.33) 53
Умножая скалярно обе части равенства G.32) на вектор к, по- получим Х-Х(т) = %-Х° По условию G.33) лучим Х-Х(т) = %-Х°{1) + ^-ДГB) + ' " " + П G33) G.34) Так как величина скалярного произведения I к*к I < I 5l 11 X I G 35} то находим II | -ч. I (m) I -^ ry, a /7 QA\ | ^(т) | -^ nr~i -^ Ш . . . . \ I .о\Э) | Л I | Л | Условие G.35), очевидное для обычного скалярного произведения, справедливо для многомерного пространства в силу неравенства Коши—Буняковского. Соотношение G.36) указывает нижнюю границу длины вектора. Найдем теперь его верхнюю границу. Из условия G.30) вытекает Однако можно получить существенно лучшую оценку, если учесть процесс образования Х(т). Пусть получен весовой вектор для /-го шага, тогда ^G+1) = Х(/) + -*G+D (/ = 0,1,2. ...) G.38) или Рассматриваются векторы, приводящие к «исправлению», k{j) -X°{I+i) < 0 И ПОТОМУ | ^(/41) |2 — I hj) I2 < I -^(/4-1) Г (/ = 0, 1, 2, ...). Отсюда получаем (| ^@> | = 0) ] i(i) |2 < | х°{\) |2, | к&) |2 < < | x°{i) |2 +1 х°{2) |2, и далее | \т) |2 < | х\Х) |2 +1 х°{2) |2 Н +1 х\т) Г- По соотношению G.30) \Хц) |2 < Ь2, и тогда Теперь из неравенств G.36) и G.39) вытекает jY^<\hm)\2<mb\ G.40) Отсюда получается следующая оценка для числа «исправлений»: G.41) Итак, если возможно разделение диагнозов D± и D2 с помощью линейной разделяющей функции G.29), то процедура G.21) осуществляет это разделение за конечное число исправлений. Пред- 54
положение о возможности разделения является весьма существен- существенным. После т исправлений предполагается, что получено значе- значение ^(ш) = ^ и, следовательно, для любого объекта из обучающей последовательности В действительности, надо снова проверить все точки обучающей последовательности, так как в процессе построения Х(т) их со- согласие с промежуточными значениями весового вектора могло на- нарушиться. Если диагнозы линейно неразделимы, то циклы, со- содержащие ограниченное число т исправлений, будут повторяться; при возможности разделения точное значение X будет найдено не более чем за т исправлений (при однократном последовательном переборе точек обучающей последовательности). Обобщенный алгоритм нахождения разделяющей гиперпло- гиперплоскости. Рассмотрим теперь обобщенный алгоритм нахождения весового вектора с помощью показа образцов из обучающей после- последовательности. Будем считать, что векторы объектов х принад- принадлежат объединенной области диагнозов, т. е. х° = х, если x^Dx\ х° - — х, если х ? D2. G.42) Используемая ранее процедура [равенство G.21)] для векто- векторов объединенной области имеет вид где A, если Л 0 Л G.44) О, если А,(л*>0 В обобщенном алгоритме используется прежняя процедура на- нахождения вектора X, но выбор скалярного корректирующего мно- множителя г подчинен другим условиям. Пусть построены вектор Х(п) и соответствующая разделяющая плоскость, но образец лГ(П+1) распознается неправильно: fk{n)x\n+\) < 0. Проведем корректировку вектора Х,(Л) так, чтобы новое поло- положение разделяющей плоскости давало правильное распознавание объекта лг^-и)- Тогда по соотношению G.43) ^(п-Н) 'X(nl-l) — k(n)-X(n±-l) + Гп]А |-*(/i+l) I > 0 G.45) или 55
Если же объект х\п\-\) распознается достоверно, то корректировки Х б 0 П \\) р р ррр вектора Х(л) не требуется и следует положить гп+1 = 0. Примем обобщенный алгоритм нахождения весового вектора в такой форме и) = ^(л) -|- гп\\Х(п \-\)у G.47) где ГпАА = | *(n)'x(n-+\) | л о ^n. ^/t+1 j—о 12 > еСЛП h(n)'X(n-\-\)<^V, О, если ^(A2)-JC(n-f-i) >0. G.48) Здесь с,1+1 — скалярный множитель, соответствующий (п + 1)-му приближению. Если положить Ч G-49) то получается указанный ранее алгоритм. Установим достаточное условие, обеспечивающее приближение к точному решению в про- процессе последовательных приближений. Пусть X представляет собой точное значение весового (разделяющего) вектора ^.д:0>0 для всех x°?Dx [} D*2. G.50) Вычитая из обеих частей равенства G.47) вектор к и умножая скалярно обе части равенства на себя, получим ^| + 2^4-1 (к(п) — к G.51) Последнее соотношение представим так: -A,|a + A G.52) Очевидно, что при А < 0 | ^(л+i) — ^ I < | ^(л) — ^ | и при воз- возрастании п (увеличении числа исправлений) процесс сходится к точному значению к{п) —> к. Таким образом, достаточное усло- условие сходимости Л<0. G.53) Остается выяснить, при каких условиях справедливо последнее неравенство. Достаточно рассмотреть случай, когда к(Пух\П4-\) < < 0, так как в противном случае (X(n+i) = к(п)) «исправление» не происходит. Учитывая верхнюю строчку неравенства G.48), соотношения G.51) hJ[G.52), найдем I л v0 I I I v° I2 Л — /Сп+1 j—-Q ~2 (Мп) — Л) Х{п + \) t Cn-\-l l| 56
или /9 2 \ 1 *(n)x(n+\) №и 611> j— A = — 2^/i-hl j—n jjf-Лв-(Н) № >jо1 \X(n\l)\ \X(nll)\ G.54) Первый член равенстваG.54)всегда отрицателен по условию G.50). Второй член становится отрицательным, если 2. G.55) Последнее условие составляет достаточное условие сходимости процесса. Обычно выбирается постоянное значение сп+1 = с и при условии G.55) получается сходящийся алгоритм. Как и ранее, предположение о возможности линейного разде- разделения является весьма существенным. Эвристические условия такого разделения рассмотрены ниже. Разделение при наличии нескольких диагнозов (состояний). В этом случае разделение на я диагнозов осуществляется с помощью линейных дискриминантных функций ft(x) = krx. G.56) По отношению к остальным функциям должно выполняться усло- условие h (х) > /,- (х) для х 6 Dt (j - 1, 2, 3, . . ., п\ j + i). G.57) Допустим, что в k-м приближении определены весовые векторы Ъ*1 (k) и предъявляется (k + 1)-й образец -*(&-» i>, принадлежащий диагнозу Dt. При этом могут возникнуть две ситуации. Если (/=1,2, . ..,л; \ + 0, G.58) то весовые векторы не требуют корректировки и принимается (/=1,2,..., П). Если некоторые дискриминантные функции fs (x) обнаружили значения большие,чем ft (х),т.е.fs(x{k+\))>fl U(*+i>), ^(/e-fi) G D» (s = 1, 2, . . ., /г; s ^= /), то принимается = К (k) ~ X(k+\). G.59) ^s </г-f-1) Таким образом, «усиливается» весовой вектор, соответствую- соответствующий t-й разделяющей функции и «ослабляются» другие весовые векторы, нарушившие условие G.57). у Приближенный метод построения разделяющей гиперплоско- гиперплоскости. Рассмотрим снова разделение на два диагноза линейной раз- разделяющей функцией G.14) f(je) = A,.AT. G.60) 57
x2 Рис. 18. Приближенный способ по- построения разделяющей плоскости (в в двухмерном пространстве признаков) Разделяющая плоскость Ранее разбиралась процедура нахождения весового вектора Я с помощью последовательного показа образцов, принадлежа- принадлежащих состояниям (диагнозам) Dx и D2. Укажем теперь пря- прямой способ приближенного оп- определения весового вектора. Пусть в обучающей последова- последовательности для первого диагноза Dx содержится Мг образцов и соответственно для второго диаг- диагноза ?J — М2 образцов. Введем «средние векторы» или эталоны для диагнозов Dx и D2: Mo G.62) Проведем разделяющую плоскость через середину отрезка, соеди- соединяющего концы средних векторов — эталонов (рис. 18), и перпен- перпендикулярно этому отрезку (вектору а2— #i)- Вектор, проходящий через середину отрезка, ао = а1 + + (а2 — аг)/2 = (а1 + а2)/2. Если вектор х лежит в разделяющей плоскости, то скалярное произведение (а2 — пг)(х — а0) = 0 или (а2 - ах) х - (а2 - аг) (а, + агI2 = 0. G.63) Уравнение G.63) в Af-мерном пространстве признаков имеет вид / (х) - (fl2i - аи) хг-\ h (<*2N - аш) xN + 1 (fl? - a\)l2 - 0. G.64) Сопоставляя с уравнением G.16) для разделяющей плоскости в дополненном пространстве признаков, получим значения соста- составляющих весового вектора ( l) G.65) Указанные значения могут быть выбраны как первые приближе- приближения, и относительно плоскости G.64) должны быть проверены все точки обучающей последовательности; при необходимости вносят исправления в соответствии с изложенными ранее алгоритмами. Задача линейного разделения как задача линейного програм- программирования. Математическая постановка задачи определения весо- весового вектора по данным обучающей последовательности (выборки) 58
представляется следующим образом. Имеется система строгих неравенств S4^ 0 (s=1, ...,Mi); G.66) 0 (P=L ••-. Л12). G.67) Составляющие вектора признаков с верхним индексом A) отно- относятся к диагнозу (состоянию) Dl9 составляющие с индексом B) — к диагнозу D2. Требуется найти N + 1 неизвестных значений К1у . . ., kN+1, удовлетворяющих М1 + М2 неравенствам G.66) и G.67). Подразумевается, что объем обучающей выборки больше размерности пространства признаков: М! + Л1а># + 1, G.68) так как иначе существует бесчисленное множество тривиальных решений. Математические методы более приспособлены для решения нестрогих неравенств и удобно ввести разделяющий слой е. Для сведения, к задачам линейного программирования, в которых ли- линейные неравенства представляют собой ограничения для линей- линейной минимизируемой функции, система неравенств G.66) и G.67) записывается так: (s=l Af,); (р=1, ...,М2), где v — дополнительная неизвестная величина. Очевидно, что при достаточно большом значении v неравенства G.69) будут удовлетворены, однако требуется найти такое решение, которое минимизирует^значение v. Подобная задача решается методами линейного программирования [23]. Теорема о линейном разделении. Рассмотрим условия, при ко- которых^ возможно разделение двух областей диагнозов с помощью линейной разделяющей функции (гиперплоскости). Эти условия относятся к структуре и взаимному расположению областей диаг- диагнозов (рис. 19). ч) Рис. 19. Условия линейной разделимости двух областей диагнозов 59
В практических задачах области диагнозов характеризуются обучающими последовательностями, т. е. некоторым числом объек- объектов с заранее установленным диагнозом. В связи с этим выполне- выполнение условий линейной разделимости проверяется по обучающей выборке. Однако формулируемые ниже условия, естественно, от- относятся ко всей области диагноза. Так как условия разделения носят детерминистский характер: при при f(x) = b-x<0 x?D2i G.70) то подобное разделение возможно, если области диагнозов не пере- пересекаются. Так как условия G.70) представляют собой строгие не- неравенства, то не допускается возможность касания областей. Огра- Ограничимся также рассмотрением односвязных областей диагнозов, которые характеризуются тем, что замкнутая поверхность внутри области с помощью непрерывного деформирования может быть стя- стянута в любую точку области. Если внутри области диагноза имеется полость или область состоит из двух замкнутых подобластей, то она не является односвязной. Достаточное условие линейной раз- разделимости двух непересекающихся областей диагноза состоит в следующем: области диагноза должны быть выпуклыми обла- областями (рис. 19, а). Напомним, что область называется выпуклой, если отрезок прямой, соединяющий две произвольные точки об- области, не^выходит за ее пределы. Указанное условие можно ос- ослабить, относя требование выпуклости только к части поверхности области, более «близкой» к другой области. Теорема о линейном разделении содержит необходимое и до- достаточное условие линейной разделимости. Эта теорема формули- формулируется следующим образом: линейное разделение областей воз- возможно, если существует хотя бы одно направление, проекции областей на которое не перекрываются. Проекцией области на на- направление называется геометрическое место проекций всех точек области на данное направление. Необходимость условия вытекает из следующих соображений. Допустим, что разделяющая плоскость существует (рис. 19, б). Тогда направление, нормальное гиперплоскости, и представляет собой направление, относительно которого проекции областей диа- диагнозов не перекрываются. Последнее вытекает из того, что условия G.70) являются строгими неравенствами. Достаточность условий доказывается возможностью построения разделительной плоско- плоскости, если существует указанное направление. Для этого достаточно построить нормальную гиперплоскость, проходящую через точку прямой между проекциями областей диагнозов. Если существует не одно, а несколько или бесчисленное мно- множество направлений, для которых проекции областей диагноза не перекрываются, то задача линейного разделения имеет соответ- соответствующее число решений. Во многих случаях линейное разделе- 60
ние невозможно (рис. 19, в). Дальнейшее обобщение решающих правил состоит в использовании кусочно-линейных дискрими- нантных функций. Кусочно-линейные дискриминантные функции. Ранее рассма- рассматривались линейные дискриминантные функции G.3) которые принимали наибольшие значения в области /-годиагноза. В общем случае вводится семейство таких функций для 1-го ди- диагноза: ffW^l^-x (s=l, ...,m), G.72) причем в качестве дискриминантной функции принимается /,.(*) = max (Ь(Л*) (s=l, ...,m). G.73) Более подробно структура кусочно-линейных решающих функ- функций рассматривается в гл. 5 в связи с метрическими методами распознавания. Естественно, что кусочно-линейные функции поз- позволяют построить разделяющие поверхности практически во всех случаях, когда односвязные области диагнозов не пересекаются. § 8. РАЗДЕЛЕНИЕ В ДИАГНОСТИЧЕСКОМ ПРОСТРАНСТВЕ Ранее рассматривались линейные разделяющие функции. Во многих случаях можно получить эффективное разделение (рас- (распознавание), используя разделяющие функции более сложного вида. Разделяющая функция общего вида и диагностическое про- пространство. Рассматривается распознавание образов двух классов (диагнозов D г и D 2) с помощью разделяющей функции общего вида f(X) = 2>;фЛ*), (8-1) 1=1 причем при/(л:)>0 x€Dx; при /(*)<0 x?D2, (8.2) где х — вектор, изображающий объект в пространстве признаков. В равенстве (8.1) скалярные функции векторного аргумента ф,- (л:) выбираются заранее, коэффициенты %t подлежат определению. Введем в рассмотрение диагностическое пространство размерно- размерности v, координаты точек которого 2< = Ф,(*) (*=1,2, ...,v). (8.3) В обычном пространстве признаков объект характеризуется век- вектором х \хъ х2, . . ., xN) или «расширенным» вектором х (хъ хъ . . ., xN, 1). В диагностическом пространстве объект описы- описывается вектором z = \гъ z2, . . ., zv\. Равенство (8.3) устанав- 61
Рис. 20. Разделение в пространстве признаков и диагностическом про- пространстве 3 Чг, ливает преобразование пространства признаков в диагностическое пространство. Такое преобразование целесообразно, если позволяет более просто осуществить разделение областей диагнозов. Пусть, например, объект характеризуется тремя бинарными (простыми) признаками хъ х2, х3\ в трехмерном пространстве при- признаков каждый из объектов соответствует одной из вершин трехмер- трехмерного единичного куба (рис. 20, а). Выберем пространство одно- одномерным, полагая ~ у? I у>2 I у 2 /Q Л \ *1 = Л\ -\- Л2 ~г~ 3# \~» V Тогда вершины куба отобразятся в четыре точки прямой гх (рис. 20, б). Если точки, отмеченные треугольником, относятся к диагнозу D2, а кружком — диагнозу Dl9 то разделяющая функ- функция в диагностическом пространстве имеет очень простой вид, например = Zi-3/2. (8.5) Отметим, что равенство (8.3) устанавливает однозначное пре- преобразование точек пространства признаков в точки диагностиче- диагностического пространства. Обратное преобразование, как ясно из при- приведенного примера, может быть не однозначным. Основная идея рассматриваемого метода — преобразование пространства призна- признаков в другое пространство, в котором возможно осуществить ли- линейное разделение диагнозов (классов). Отметим, что при достаточно большой размерности диагности- диагностического пространства такое разделение принципиально возможно, но для эффективности практической реализации важно найти преобразования (8.3) с конечным и небольшим числом членов ряда (8.1). Напомним, что размерность диагностического пространства соответствует числу членов ряда (8.1). Для достаточно «гладких» разделяющих функций этот ряд со- содержит конечное число членов; в других задачах диагностическое пространство будет бесконечномерным, и тогда для^сходящихся рядов, так как только в этом случае функция f(x) сохраняет смысл, 62
%. —> О при i — > оо. Разделяющая функция в диагностическом про- пространстве f(z) = b-z, (8.6) где весовой вектор Х=Н*1, К ...,М (8.7) и вектор * ~= i<Pi (¦*). Ф2 (¦*)• . • ., cpv (*)| = Ф И. (8.8) Если возможно представление разделяющей функции в виде ряда (8.1), то существует также линейное разделение в диагно- диагностическом пространстве. Построение разделяющей функции. Разделяющая функция будет построена, если определены коэффициенты К{. Эти коэффи- коэффициенты могут быть найдены в процессе обучения с помощью показа образцов из обучающей последовательности. Наиболее простой способ — использование алгоритмов для линейной разделяющей функции в диагностическом пространстве. Эти алгоритмы были указаны в предыдущем параграфе. После первого образца at(d или в диагностическом простран- пространстве образца Z(i) разделяющая функция в диагностическом про- пространстве '<•><*>-{-,<„.* привел (8-9) соответственно в пространстве признаков /<!)(*) = Ф(лГA))-ф(л:)- Для (/г+1)-го приближения /(rc-j-l) (X) - = f(n) (х)-\-Г(П+\) 2 i= V 2j Ф; \Х(\)) Ф; («^) *^(i) G ^1» 1=1 V - — 2j Ф^ (*^A) ) Ф/ (*^) *^A) G ^2 разделяющей функции можно j ф; (Х{п+\) ) (pi (X) (/2 = 0, 1,2 =1 (8. 10) записать > • • • ) (8 .11) где при x{n+l)(;Di 0, если /(„) (*(„+!))> 0; _(, /(„) ((„+!))> ; "+l~|l, если /(„,(*(«+„)<0. (ЬЛ2) принимается f—1, если /(п)(Л(п+1))>0; "+1== >П С / S ^А (8.13) I 0, если fo.)(*(«+!>)<0. v ; 6.3
Отметим, что /@> (х) = 0, а значения /(i) (л:) определяются равенством (8.10). Для коэффициентов разложения kt (компонен- (компонентов весового вектора) в равенстве (8.1) получаем следующие зна- значения в процессе последовательных приближений: = ^1 (Л) +^Л+1ф1(ДР(Л+1)), (8.14) причем при п = 0 Xi (o> = 0. Если существует линейное разделе- разделение в диагностическом пространстве (при конечном значении v) или представление (8.1) в пространстве признаков, то указанная процедура приводит к (конечному) вектору X. Из условия существо- существования конечного вектора следует v lim ^>?<oo. (8.15) V-»oo i = l Это ограничение существенно для бесконечномерного диагно- диагностического пространства (v = ос). Выбор функций ер, (л:). Функции ср[ (х) должны обеспечивать возможность представления в виде ряда (8.1) достаточно широкого класса функций, так как сама разделяющая функция заранее неизвестна. Естественно, что для разделяющих функций сложного вида число членов ряда (8.1) должно возрастать и в пределе диаг- диагностическое пространство будет бесконечным: f(*)=i>h<Pi(x). (8.16) В силу условия (8.15) kL ~» 0 при i —>оо. Для функций скаляр- скалярного аргумента х разложение (8.16) заведомо возможно для всех практически встречающихся функций /М=?*/Ф/(*). (8Л7) В этом случае в качестве функций {ср, (х)\ может быть выбрана какая-либо полная система ортогональных функций (например, разложение в ряд Фурье и т. п.). Для скалярных функций вектор- векторного аргумента возможно разложение по ортогональным функциям более сложной структуры. Однако в практических задачах исполь- использование ортогональных функций не обязательно, так как ряд (8.1) всегда должен иметь конечное число членов. Один из простейших способов образования функций cpt- (x) выражается равенством x] Ф, (х) = аихе + a2ix] -\ \- ат1х1?. (8.18) Если в правой части равенства (8.18) оставить только первый член, получаем обычную линейную разделяющую функцию. Можно использовать размерность диагностического пространства v боль- большую, чем размерность пространства признаков N. Тогда первая группа признаков представляет функции вида (8.18), вторая 64
группа содержит попарные комбинации двух признаков ij xt — Xj, xt Xj и их степени и т. п. Возможен и другой подход к выбору «координатных» функций, если принять N N ф1 (х) = ? ацх.р i TV N фЛ-К) = S Xi a2jkxjxk (8.19) y=l A:=l При удачном выборе функций ф/ (л:) размерность диагностиче- диагностического пространства может оказаться небольшой. Использование диагностических комплексов (симптомов). Один из важных способов преобразования пространства признаков в ди- диагностическое пространство — использование логических функ- функций. Очень часто диагностическое значение имеет не наличие или отсутствие какого-либо признака, а появление или непоявле- непоявление некоторого комплекса признаков. Предположим, объект ха- характеризуется тремя простыми признаками хъ х2У х3, причем наличию признаков соответствует 1, отсутствию— 1 @ означает отсутствие обследования). Предположим, для диагноза Dx характерно наличие первого или второго признака и отсутствие третьего. Тогда можно выбрать одномерное диагностическое пространство (см. гл. 6) z = ф (х) = (хг V х2) /\х3. (8.20) Разделяющая функция в этом случае будет чрезвычайно про- простой: при г > O^jc^Di, при, z <0 x?D2. При использовании диагностических комплексов диагностическое пространство обычно описывается простыми (бинарными) признаками (наличие, или отсутствие комплексов). В алгоритме обучения распознавания образов «Кора» используются комплексы простых признаков типа (8.20) — конъюнкции нескольких признаков. С помощью перебора различных конъюнкций (заранее выбран- выбранной размерности) для признаков объектов (примеров), входящих в обучающие последовательности, находят диагностически ценные комплексы признаков. Диагностически ценным считается признак, которым обладают некоторые объекты одного класса и ни один из объектов другого класса. Более ценным признается комплекс, который встречается в большем числе объектов обучающей после- последовательности данного класса (см. гл. 8). Если отобрано v наиболее значимых признаков, то можно построить линейную разделяющую функцию v f(?)= 2>а-, (8.21) где X; = 1 —для признаков первого состояния и К1 = —1 — Для признаков второго состояния. Эта разделяющая функция 3 И. А. Бирге р 65
относит объект к одному из двух состояний в зависимости от числа признаков данного состояния, которыми обладает объект. Если он имеет признаков первого состояния больше, чем второго, то объект относится к первому состоянию. Аналогично при / (z) > 0 z ? Dx; при / (z) < 0 z ? D2. Таким образом, алгоритм «Кора» может быть отнесен к алгоритмам с линейной разделяющей функцией в диагностическом простран- пространстве. Метод трубок, предложенный в работе [2], дает некоторые правила, с помощью которых можно образовать диагностически ценные комплексы признаков. Объект описывается простыми признаками хъ хъ . . ., хп и представляет собой одну из вершин я-мерного единичного куба, 1 —наличие признака, 0 — отсутствие признака. Различаются два состояния Dx и D2. Для образования характерного для каждого состояния комплекса признаков исполь- используются объекты из обучающих последовательностей. Если а;0 — некоторый объект (точка в пространстве призна- признаков), то трубкой Т (х19 . . ., xs\ л;0; г) с центром в точке л:0 и ради- радиусом г называется множество точек, для которых расстояние до центра P.(*,*°)=Sj*i-*?|<r. (8.22) Признаки считаются существенными, если частота их появле- появления а < б0 или а > бх. (8.23) В практических расчетах можно принимать б0 = 0,3 и бх = 0,7. Процесс распознавания состоит в построении трубок для эле- элементов (объектов) обучающих последовательностей D\ и D°. Для построения трубок Т используется итерационный алгоритм. Выбирается произвольный элемент из обучающей последователь- последовательности, например D?, находится радиус трубки г такой, для кото- которого разность v[Di(]T]—vU^n^] становится наибольшей (v [A] — число объектов, входящих в множество А). В трубке сохраняются только существенные признаки. Таким образом, в трубку могут входить объекты, имеющие комплекс определенных признаков, находящийся в «окрестности» центра трубки. Трубка называется чистой, если в нее входят некоторые из объектов данного состояния и не входят объекты другого состоя- состояния. Предъявленный для распознавания объект относится к со- состоянию Dl9 если он входит в трубки состояния Dx и не входит в трубки состояния D 2. Отметим, что используемый метод оценки существенности признаков [условие (8.23)] можно улучшить, если сопоставить частоты появления признаков при двух состоя- состояниях (см. гл. 8). Существенными следует признать признаки, ча- частоты встречаемости которых для двух состояний заметно разли- различаются. 66
В заключение отметим, что в настоящее время достаточно эффективные общие процедуры отыскания диагностически цен- ценных комплексов отсутствуют, однако часто инженерные и интуи- интуитивные соображения,"особенно в задачах технической и медицин- медицинской диагностики, помогают^найти диагностически ценные комп- комплексы и существенно снизить размерность диагностического про- пространства. Отметим также методы теории подобия, позволяющие образовывать безразмерные комплексы признаков. § 9. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ И МЕТОД ПОТЕНЦИАЛОВ Метод потенциальных функций [3] является развитием идеи преобразования пространства признаков. В настоящее время MexQiL потенциальны&4>ункций можно считать одним из наиболее разработанных и .математически обоснованных методов распоз- распознавания образов (классов, диагнозов, состояний). Метод потенци- потенциалов основывается на тех же первоначальных представлениях, что и метод потенциальных функций, но построение алгоритма распознавания проводится другим путем. Основы метода потенциальных функций и метода потенциалов. В качестве дискриминантных функций ft (х) для диагноза Dt в пространстве признаков в рассматриваемых методах выбираются функции, имеющие наибольшее значение для точек этой области и убывающие по мере удаления от нее. Подобным свойством обла- обладает потенциал точечного заряда, что и дало название методам. Если ввести расстояние между произвольной точкой х про- пространства признаков и некоторой характерной точкой xh при- принадлежащей диагнозу Д, Р(*, */)-=|•*-¦*/!, (9Л) то следует считать, что дискриминантная функция /,• (л:) должна быть убывающей функцией этого расстояния: fd*) = fi(p). (9.2) Так как р зависит от х и xi9 то можно записать fi{x) = K(x,xt), (9.3) где К (х9 xL) — потенциальная функция х, в которую входит xt как параметр. Точка х в многомерном пространстве признаков описывает состояние объекта. Метод потенциальных функций развит для разделения на два состояния (дифференциальная диагностика, дихотомия). В ука- указанном случае разделяющая функция /(*) - h (х) - /2 (х) -= К (х, х,) - К (*, х2). (9.4) Основное свойство разделяющей функции: /(¦*)>(), если x?Dx\ /(лг)<0,_если x?D2. (9.5) 3* 67
Диагнозы (классы) Dx и D2 считаются непересекающимися, т. е. точка х может входить только в один из указанных классов. Если известна потенциальная функция К (х, у), которую условно можно рассматривать как «потенциал» в точке х от источника в точке у, то при соответствующем выборе точек хх и х2 можно построить разделяющую функцию / (лг). Потенциальная функция зависит от расстояния между точками: К(х,у) = К(\х-у\). (9.6) Приведем несколько возможных выражений для потенциаль- потенциальной функции, учитывающих условия ограниченности функции при х = у: .) = е"" "-"т; (9.7) (т>0; а>0) где \х — у | = ] 2 (xi — усJ \ — расстояние между точками х и у. Метод потенциальных функций. Опишем наиболее простой алгоритм построения разделяющей функции / (л:) на основе по- потенциальной функции К (ху у) с помощью показа образцов из обучающей последовательности. После показа первого образца лгA) принимается (99) -К (х, x(i)), если хм € Dt. (У'У; Далее показывается второй образец х&) и возможны следующие ситуации: а) при лгB) ?Di f(i) (ЛГB)) > 0; б) при лгB) ?Di /A) (лгB)) < 0; в) при х{2) ?D2 /A) (ЛГB>) > 0; г) при х{2) ?DU fd, (лгB))<0. Для случаев а) и г) поправки не требуется; в случае б) при- принимается /B) (х) =f(i)(x) + К{ху ЛГB)); наконец, в случае в) /B) (X) = /A) (X) — К (X, ЛГB)). Построение дальнейших приближений очевидно. Допустим, что потенциальная функция может быть предста- представлена рядом *(*, у)=?а?Ф/(*)Ф/(у). (9.10) 68
где {ф; (л:)} — некоторая система функций; щ — числовые ко- коэффициенты. Рассмотрим преобразование пространства признаков х в диаг- диагностическое пространство, причем координаты точки в этом пространстве г i = <*.&№)* (9.11) где aL определяются как коэффициенты ряда (9.10). Тогда первое приближение для разделяющей функции в диагностическом про- пространстве в соответствии с равенствами (9.9)—(9.11) будет таким: z-Zn\, если Zt\\ ?Dlf -*•*<¦>, если *(I) dDa <9Л2> (9.13) или 00 Ж~Л 9 ), если лгA) /A) (*) = I i=\ , если Будем предполагать, что разделяющая функция может быть разложена в ряд по функциям <р, (л:): (9Л4) где ^ — коэффициенты разложения. Для практического применения метода знания коэффициентов %i не требуется, однако возможность представления разделяю- разделяющей функции в форме (9.14) является основной гипотезой метода потенциальных функций. Эта гипотеза эквивалентна предположе- предположению о возможности линейного разделения в диагностическом про- пространстве. Если такое разделение возможно, то существует (ко- (конечный) весовой вектор и потому должны существовать следую- следующие ограничения: <oo; (9.15) a/sf 0 ({=1,2,3, ...)• (9-16) Основное преимущество метода потенциальных функций со- состоит в том, что для построения алгоритма распознавания не тре- требуется знания (или подбора) функций ср; (л:), а достаточно выбрать Ж*. У) [уравнения (9.7), (9.8)]. 69
Алгоритмы распознавания в методе потенциальных функций. В общем виде рекуррентная процедура построения разделяющей функции 0 при x?D^ /(•*)<0 при x?D2 (9.17) дается следующим равенством: /(я+1) (х) = qn+ifw (х) + rn+\K(x, xin+\)), (9.18) где qn+ij rn+1—некоторые числовые последовательности, причем в практически реализованных процессах qn+1 = 1. Величина гп+1 может быть задана в виде гп+\ =Тл+1 [sign/(AT(«+i)) — sign/(w)(A:(n+i))], (9.19) где / (л:) — точное значение разделяющей функции, а /<„) (х) — ее /г-е приближение; уп+1 — числовой коэффициент («стягиваю- («стягивающий множитель»), причем S Т„ = оо. (9.20) /1=1 Смысл условия (9.20) состоит в том, что величина уп не должна убывать слишком быстро с тем, чтобы влияние обучающей последо- последовательности сказывалось в большей степени. Кроме указанного соотношения, последовательность уп должна удовлетворять од- одному из следующих условий: уп = const; (9.21) limYrt = 0; (9.22) St»<oo. (9.23) Например, в рассмотренном ранее алгоритме [равенство G.26) ] уЛ = 1/2 (/1=1,2,3, ...), (9.24) что удовлетворяло соотношениям (9.20), (9.21). Можно принять Уп=Ш, (9.25) что соответствует условиям (9.20), (9.22) и (9.23). Постоянные зна- значения 7я обеспечивают более быструю сходимость, убывающие значения способствуют увеличению помехоустойчивости алгоритма. Если существует представление (9.14), то процедуры (9.18), (9.19) являются сходящимися. 70
Аналогично теореме о конечном Числе исправлений, приведен* ной в § 7, при построении разделяющей функции справедлива следующая оценка числа исправлений [3]: (926) где sup l//C(jc, л:) — верхняя граница потенциальных функций для всех х\ inf|/(jc)| — нижняя граница разделяющей функции f(x). Из оценки (9.26) следует, что число исправлений уменьша- уменьшается, если точки диагнозов в большей степени удалены от разде- разделяющей поверхности (при этом возрастает величина inf \f (х)\). Выше указывался общий алгоритм построения разделяющей функции [уравнение (9.18)]. Для сопоставления с обычными ре- рекуррентными процедурами нахождения весового вектора X за- запишем алгоритм (9Л8) в другой форме. Учитывая, что f(n) (х) — оо = S ^'<«) Ф» (•*) = ^(л)-ф(.*), получим в силу соотношения (9.10) и (9Л8) (при qn = 1) h (n+i) = Я,,- (n) + Yn+i [sign/(jf(n+i)) — sign/(n) (x(n+ 1)Iа?ф,- (x(n+l)). (9.27) Применение метода потенциальных функций для распознава- распознавания нескольких диагнозов. Для распознавания п состояний си- системы (диагнозов Z)b D2, . . ., Dn) используется п дискриминант- ных функций // (л:), причем fi(x)>fj(x) при x?Dt (/= 1, 2 л; / + i). (9.28) Укажем алгоритм построения дискриминантных функций с по- помощью показа образцов из обучающей последовательности. Алго- Алгоритм строится на основе потенциальной функции К (х, у). Допу- Допустим, что в k-м приближении определены все функции ft {k) (x) и показывается (k + 1)-й образец, принадлежащий диагнозу Д-. Если для X(k+\) выполняется условие fnk)(X(k+i))>fnk)(X{k+\)) (/=1,2 /г; ] + i), (9.29) то дискриминантные функции остаются прежними //(*+i (•*) = //<*> И- В том случае, если одна или несколько дискриминантных функ- функций не удовлетворяют условию (9.28), например f8{k)(x{k+i))>fnk)(x{k+u) при x{k+i)€Dh (9.30) то производится корректировка функций. Принимается f (x) — ft {k) (x) + К (х, x{k+\)); (9.31) (x) - fs (k) (x) - К (x, x{k+ d). (9.32) 71
В результате усиливается потенциал функции ft (х) и ослабля- ослабляется потенциал функции fs(x). Подобная корректировка проводится для всех функций, нарушивших условие (9.28). Замечание о выборе потенциальной функции. Потенциальные функции могут быть представлены формулами (9.7) и (9.8). По- Потенциальная функция принимается зависящей от расстояния К(*,у) = К(р(х,у)). (9.33) Некоторые дальнейшие обобщения связаны с введением обоб- обобщенного расстояния . (9-34) При v = 1 обобщенное расстояние представляет собой расстоя- расстояние по Хеммингу, при v = 2 — расстояние в евклидовом простран- пространстве, при v —> оо расстояние определяется наибольшей разностью компонент векторов Р(•*! У) = max I** — Hi I (l<i<N). (9.35) Более подробно эти вопросы рассматриваются в гл. 5. Выра- Выражения для потенциальной функции будут такими: K{Xty)^e-°en(*>y); (9.36) *<*•»>- чЛ* ¦ (937) Они удовлетворяют условию конечности потенциальной функ- функции в точке х = у: К(х,х)<М. (9.38) Формулы (9.36) и (9.37) содержат три положительные кон- константы а, пу v, которые выбирают на основании опыта практиче- практической реализации алгоритма. Метод потенциалов. В этом методе [6] для построения дис- криминантных функций также используются потенциальные функ- функции К (ху у). Однако они получаются не в результате последова- последовательной (рекуррентной) процедуры, как в методе потенциальных функций, а строятся на основе имеющейся предварительной ин- информации. Алгоритм построения является не самообучающимся, как в методе потенциальных функций, а заранее выбранным, детерминированным. Однако простота метода делает его привле- привлекательным для практических приложений. Пусть имеется обучающая последовательность, содержащая mL образцов, принадлежащих диагнозу Д (i = 1, 2, . . ., п). Такая ситуация характерна для большинства задач технической и медицинской диагностики. Если xt представляет собой эталон- 72
ный вектор диагноза D, (типичный случай), то дискриминант- ными функциями могут быть соответствующие потенциальные функции Ji \r") A \X, Xi). уи.оУ) В качестве эталонного образца можно принять средний об- образец Xi= — S *\s). (9.40) mi s=\ По физическому смыслу ft (x) представляет собой потенциал в точке х от источника (заряда) в точке х?. Все дискриминантные функции положительны, так как потенциальные функции удовлет- удовлетворяют условию К (х, у) > 0. Очевидно, К (xh x?)>K(Xj, *i) (*» / = 1» 2, . . ., п\ i ф /), так как К (х, у) — убывающая функция расстояния. Другой метод образования дискриминантных функций состоит в использовании среднего значения потенциальной функции s=l (9.41) где К (х9 x{iS)) — потенциальная функция для образца, принад- принадлежащего диагнозу DL. Алгоритм распознавания является обычным при использовании дискриминантных функций. Предъявленный для распознавания объект х ? Dh если U (х) > /7 (х) (/=1,2,..., п\ j + i). (9.42) Очевидно, уверенность в правильной классификации будет больше, если функция /{- (х) существенно превышает остальные. Введем меру качества (надежности) процесса распознавания (9.43) В практических задачах решение о принадлежности объекта х к диагнозу Di можно принимать, если Ь(*)>?о. (9.44) где 10 — выбранный уровень качества. Если условие (9.44) не выполняется, то для принятия решения требуется дополнитель- дополнительная информация. 73
§ 10. МЕТОД СТОХАСТИЧЕСКОЙ АППРОКСИМАЦИИ Этот метод, развитый Я. 3. Цыпкиным 162, 63] примени- применительно к проблеме распознавания и ряду смежных проблем, поз- позволяет оптимизировать процесс разделения в пространстве приз- признаков. Постановка задачи. Ранее было показано, что разделение на два состояния (класса, диагноза) в пространстве признаков может быть сведено к построению разделяющей функции / (л:) и исполь- использованию правила решения х^Бъ если /(*)>0; x?D2, если /(*)<0. A0.1) В общем виде разделяющая функция f(*)=iK<Pt(x) = k-V. (Ю.2) где к— весовой вектор; <р (cpx (х)> . . ., cpv (x)) — вектор-функция. Построение разделяющей функции сводится к нахождению или выбору класса функций {ср,- (х)\ и определению коэффициентов разложения X,. Таким образом, одним из методов решения задачи | распознавания является метод аппроксимации. Будем считать, что класс функций |ср,- (х)} выбран надлежащим образом (см. § 8) и задача состоит в определении коэффициентов V Ранее были указаны рекуррентные процедуры для определе- определения к. Воспользуемся теперь общими методами аппроксимации, обеспечивающими минимум погрешности и, следовательно, оп- оптимизирующими процесс распознавания. Разделяющую^фудкцию в соответствии с равенством A0.2) будем обозначатьЩ-*Д}Р под- подчеркивая зависимость от вектора к. Если /* (л:) — точное значе- значение разделяющей функции, то погрешность аппроксимации можно определить как квадратичную погрешность '(*¦)= f ir(x)-f(*,Wdx, A0.3) где x?D означает, что интегрирование проводится по всей об- области изменения л:, a dx — элемент области. Однако в реальных задачах различные значения х (объекты, имеющие набор призна» ков л:) имеют разную вероятность появления и потому более эф- эффективным критерием точности будет среднеквадратичная погреш- погрешность У(Я,)= | lf*(x)-f(x,l)fp(x)dx, A0.4) x(ZD где р (х) — плотность совместного распределения параметров Xi, x2, . . ., xN. В дальнейшем погрешность будем записывать в более общей форме: J(k)= | F(x,X)p(x)dx, A0.5) 74
Где F (xy h) — функций потерь или Штрафная функция. Можно принять /Ч* *) = Ф[/*(*)-/(*Д)], (Ю.6) где Ф (и) — положительная, монотонно возрастающая функция разности точного и приближенного решений, обращающаяся в нуль при их совпадении. В частном случае, когда Ф(и)== и2, A0.7) функционалы A0.4) и A0.5) совпадают. В общем случае функция потерь должна обращаться в нуль при совпадении точного и при- приближенного решений и быть положительной при их несовпадении: 0 при /* = /; „рИ /V,. Можно усилить требования к функции потерь, считая, что она должна быть выпуклой (функцией с положительной кривизной). Построение разделяющей функции, минимизирующей погрешность приближенного решения, является оптимизацией процесса разделе- разделения в пространстве признаков. Однако применение метода мини- минимальной погрешности в его классической форме встречает серьез- серьезные затруднения. Часть из них связана с тем, что плотность рас- распределения р (х) обычно неизвестна и имеются только отдельные значения .*(/), входящие в обучающую последовательность. В такой ситуации оказывается целесообразным применение ме- метода стохастической аппроксимации. Основы метода стохастической аппроксимации. Рассмотрим функционал, представляющий собой среднее значение (математи- (математическое ожидание) некоторой случайной функции, зависящей от х = (хъ х2, . • ., xN) и вектора коэффициентов X = (Xlf X2J . . ., A) J(b)= J F(x,k)p(x)dx=MxlF(x,b)]> (Ю.9) где Mx [ ] — знак математического ожидания (усреднения по пространству признаков л:), р (х) — плотность вероятности зна- значений х в данной точке пространства. Предположим сначала, что величина р (х) является заданной и тогда условия экстремума функционала A0.9) будут такими: = 0 «=1,2 /V). Эти условия можно записать в векторной форме 75
Условие равенства нулю градиента функционала уравнений для определения значения вектора X, при достигает экстремума. Для пространства большой часто более эффективным является применение методов (методов последовательных приближений), равенство A0.10) в эквивалентной форме где || у |] — матрица скалярных которой отличен от нуля: Vn • • • • Yi/v коэффициентов, Ут дает систему котором </ (к) размерности итеративных Представим A0.11) детерминант A0.12) Форма записи A0.11) дает естественный алгоритм последова- последовательных приближений ]. A0.14) Алгоритм последовательных приближений A0.13) можно обоб- обобщить на случай, когда среднее значение (математическое ожида- ожидание) grad^F (xy Ц неизвестно, но известны отдельные его реали- реализации. Они используются как оценки среднего значения, что при- приводит к следующей процедуре: Ь(л)). A0.15) В последнем равенстве gradJ(l)= J В этом алгоритме для построения (п + 1)-го приближения вектора к необходимо знать предыдущее значение к и значение (реализацию) х на (п + 1)-м шаге. При некоторых условиях, на- накладываемых на матрицу «стягивающих коэффициентов» || у \\ и grad F, алгоритм A0.15) является сходящимся. В дальнейшем ограничимся рассмотрением случая, когда матрица стягивающих коэффициентов пропорциональна единичной матрице: = Уп4-1 10 0 0 0 10 0 0 0 1 В этом случае равенство A0.15) будет таким: V+ О = ^(л> — Уп+1 gradxF (Х(П+ о, V))> где 7^+1 — скалярный множитель. 76 A0.16) A0.17)
В некоторых случаях для улучшения сходимости итеративного процесса может оказаться целесообразным использование слож- сложной итерации [62]. Основной принцип сложной итерации состоит в том, что после- последующее приближение зависит не от одного, а от нескольких пре- предыдущих приближений. При сложной ите] ации алгоритм в общем виде будет таким: X ||i|«s(ns) Ъ lh|!/i+is X s=0 X grad^/7(||a2|n+i-s^n+i-> Г nV-An-s)), A0.18) где ||a!||, ||ос21| и ]|a3||—матрицы, осуществляющие линей- линейное преобразование векторов. В используемых алгоритмах матрицы имеют диагоналыый вид, причем сумма матриц равна единичной матрице1 t I «I Is + Ъ || сс2 |ki-s + S II «з In-, = E. A0.19) s=0 s=0 s=»0 В наиболее простом случае они представляют собой матрицы осреднения за несколько предыдущих шагов IIа Wn-s = yqpy ?; II «2 I|m+i-s = || a3 ||/z_s = -jr+T E' где ? — единичная матрица размерности N. Условия сходимости алгоритма последовательных прибли- приближений. Рассмотрим кратко условия сходимости алгоритма A0.17) при возрастании п (числа приближений или числа показов образ- образцов из обучающей последовательности). Если процесс последова- последовательных приближений сходится, то A0.20) и тогда из соотношения A0.17) следует необходимое условие схо- сходимости limYrt+i gradxF(^(«+i)^(»)) = 0. A0.21) П-»оо В общем случае экстремум функционала достигается при ра- равенстве нулю среднего значения градиента, а не его отдельных зна- значений, и потому из условия A0.21) вытекает НтТп==0. A0.22) ГС-»оо Во многих случаях, например при отсутствии существенных помех, значение grad^F при возрастании п стабилизируется и отдельные реализации мало отличаются от среднего значения. Тогда 0 A0.23) 11
и Yrt может быть постоянной Уп = У (Ю.24) или стремящейся к постоянной величине. Достаточные условия сходимости при выборе «плавных» функций F (л:, к) состоят в следующем [3, 63]: Тя>0; A0.25) оо Хт«=оо; (Ю.26) ?y«<<x>. A0.27) /1=1 Примером, когда выполняются все эти условия, является уп=1/п. A0.28) Поясним смысл приведенных условий. Величина уп должна быть положительной, чтобы осуществлялась коррекция вектора по знаку grad F. Второе условие связано с тем, что слишком быстрое уменьшение у может привести к тому, что только начало обучаю- обучающей последовательности окажет влияние на окончательный резуль- результат. Наконец, условие A0.27) должно устранить возможное вли- влияние погрешностей, шумов, которые налагаются и в том случае, когда вектор достаточно близок к точному значению. Отметим, что сходимость процесса рассматривается в вероятностном смысле (сходимость по вероятности): НтР[|Ь(я>-Ь|<в]=1. П->со Связь с процедурой Роббинса—Монро. Системой уравнений регрессии называется система следующих уравнений: AfjJG/(*Л)] = 0 (i=l,2, ...,m). A0.29) Так как вектор х = (jclf лг2, . .., xN) имеет случайные значе- значения, то уравнения A0.29) нельзя решить относительно к (къ ^2» • • •> km). Для случая, когда известны отдельные реализации величины х, т. е. значения x(\)f х&) - . ., Роббинс и Монро [3, 13, 63] предложили рекуррентную процедуру для определения вектора к. Составляющие вектора hi (n) + 7"-Ь iG* (X{n± 1)^(я>). A0.30) Достаточные условия сходимости процесса даются соотношениями A0.25)—A0.27) (при некоторых ограничениях относительно функ- функций Gt (л:, Ц, обеспечивающих их плавность). Условия экстремума (минимума) функционала / (к) (т. е. минимума погрешности при- приближения разделяющей функции к точному значению) имеют вид [уравнения A0.10) и A0.14)] grad У (X) = Mx[gradKF(xy Ц] = 0. A0.31) 78
Сопоставляя равенства A0.15) и A0.30), находим, что при условии **WL _Gi(x,b) A0.32) L = _Gi(x,b) процедура Роббинса—Монро совпадает с процедурой определения весового вектора к в методе стохастической аппроксимации. Структура алгоритма нахождения «весового вектора». Прибли- Приближенное значение разделяющей функции (Ю.зз) функция потерь считается зависящей от разности точного и при- приближенного решений F(x9b) = ®U*(x)-b-<f(x)). A0.34) Градиент по к функции потерь gradKF = ~Ф' (f*(х) -Ь.<{)(х))<((х), A0.35) где Ф' (и) = -1 производная функции Ф. Например, i'-я составляющая grad^F -^=-Ф'{Г(х)-Ъ..ч(х))чЛ*)- (Ю.36) В соответствии с алгоритмом A0.17) будем иметь W1) = Ь(п) + Уп+ \Ф' If* (Xin+ о) - ЧоФ (*<«+ о) Ф (*<Л+ !))• (Ю.37) В более общем случае, используя соотношение A0.8), получим следующий алгоритм: *ч«4 1) = Ь(п) - Т/г+i gra4* [/*(-*</.+1>), /(^(nf I), V))l- (Ю.38) Выбор функций потерь связан с существенными трудностями, так как в процессе обучения точное значение разделяющей функ- функции /* (х) обычно неизвестно. Знак функции /* (лг) всегда известен (принадлежность объекта обучающей последовательности к со- состоянию Dx или D2). Например, для естественной функции по- потерь в виде квадратичной погрешности Ф (и) - и212 - (/* (х) - Ц> (х)J/2 A0.39) получается алгоритм W 1) = hi) \'Уп\\ [/* (Х(п+ 1)) — ^(п)ф {Х{п+ 1)I ф (Х{п f- 1)), (Ю.40) который не может быть реализован в тех случаях, когда значение функции /* (лг(„+!)) неизвестно. Алгоритм A0.40) является частным случаем алгоритма A0.37). Подобные алгоритмы могут использоваться в тех методах распоз- Навания, в которых определяется значение разделяющей функции 79
(алгоритмы персептронов). Перейдем к более общей функции по- потерь. Построим алгоритм, выбирая функцию потерь следующим образом: ?(/*./)== (sign/-sign/*)/. A0.41) Если знаки приближенной функции разделения / и точной /* совпадают, т. е. погрешности распознавания отсутствуют, то функция потерь обращается в нуль. Если указанные знаки не совпадают, то, как легко проверить, функция потерь всегда поло- положительна. Таким образом, f\ r7fl A0-42) Принимая значение / (л:) из соотношения A0.33), находим Т = (sign (Щ - sign /* (х)) Ь • ф (х) и grad*, Y — (sign (hf) — sign /* (x)) ф (х). Теперь из равенства A0.38) вытекает — sign (Х(я)ф (х{п±1)))] Ф (*<„+1)). A0.43) Этот алгоритм соответствует методу потенциальных функций (см. § 9). Метод стохастической аппроксимации позволил устано- установить вид функции потерь [уравнение A0.41) ], по отношению к ко- которой минимизируется процесс разделения (распознавания) в ме- методе потенциальных функций. Разумеется, что только предвари- предварительное знание процедуры метода потенциальных функций поз- позволило принять функцию потерь в виде A0.41). Более общая структура алгоритмов метода стохастической аппроксимации. Рассматриваемое ранее условие оптимальности состояло в достижении минимума потерь J(K)= J F(x,b)p(x)dx A0.44) для различных реализаций комплексов признаков лг. Это условие недостаточно полно отражает процесс рапознавания, так как не учитывает состояния объектов, различную стоимость ошибочных решений. Введем вторую (дискретную) переменную у, описыва- описывающую состояние объекта, и будем считать [ух для состояния Dx\ у= _ A0.45) * [у2 для состояния D2. N Часто принимают уг = 1, у% = —1,
Как и раньше, будем использовать правило решения A0.1) и разделяющую функцию A0.2). Искомый весовой вектор к опре- определим из условия минимума функционала J(k)==s И F(x,y,b)p{x,y)dxdy, A0.46) где интеграл распространяется на всю область изменения пере- переменных, плотность вероятности по у представляет собой дельта- функцию. Функционал A0.46) можно записать в другой (экви- (эквивалентной) форме 2 1 (ц = 2 J F (•*- yt%)р ш р (*шАх- A0-47) l (!D Существенно, что функция потерь F (х, у, Ц считается зависящей от состояния объекта. Процедура нахождения весового вектора к сохраняет преж- прежний вид, так как изменение относится только к расширению об- области осреднения ^(л4-1) = ^(л) — Уп+\ gradx^C^nf 1)» У(п±о, ^(я))- A0.48) В зависимости от выбора функции потерь или штрафной функции F (х, у» Ц могут быть получены различные алгоритмы нахождения весового вектора. Выберем, например, функцию потерь следую- следующим образом: 0 при у = у19 О при у = у2, * * " п A0.49) при у = уъ 7 ™^п. v / В этом равенстве С21—стоимость ошибки первого рода (вместо действительного состояния Dx алгоритм указывает состояние D2); С12 — стоимость ошибки второго рода. Если Dx—исправное состояние, D2— наличие дефекта, то ошибка первого рода озна- означает ложную тревогу, ошибка второго рода — пропуск дефекта. Функция A0.49) обращается в нуль, если разделяющая функ- функция / = А,-ср дает правильное решение. При ошибочном решении потери оказываются пропорциональными величине разделяющей функции: о 1 > — правильные решения 00-50) — ошибочные решения. 81
Из соотношения A0.49) получаем 0 при y = ylf 0 при у = уг, —2С21ф (л:) при у = уъ 2С12ф (л:) при у = у2, A0.51) Напомним, что i-я составляющая градиента соответствует функ- функции ф, (X). Для построения весового вектора используется процедура A0.48), причем для (п + 1)-го образца (x{n\-i)> yei-u)) 0; 0; 0; 0. 0 при 0 при 2С21ф при 2С12ф при Если считать стоимости ошибок одинаковыми Cai = Cla=l, то приведенная процедура соответствует методу потенциальных функций.
Глава 5 МЕТРИЧЕСКИЕ МЕТОДЫ РАСПОЗНАВАНИЯ Вводные замечания. В большинстве методов распознавания делается естественное предположение, что^изобрджения^ объектов одн?г_о класса (образа) более близки друг другу, чем изображения разных классов. Метрические методы основаны на количественной оценке этой близости. В качестве изображения объекта принима- принимается точка в пространстве признаков, мерой близости считается расстояние между точками. §11. МЕТРИКА ПРОСТРАНСТВА ПРИЗНАКОВ Координаты пространства. Как известно, в пространстве признаков объект характеризуется Л^-мерным вектором x = (x1,x2,...,xN). A1.1) Координаты пространства Xj могут быть непрерывными или дис- дискретными величинами. В последнем случае xf представляет приз- признак kjy имеющий несколько диагностических разрядов. Часто используется кодирование признаков в бинарном коде. Тогда ко- координата х} выражается двоичным числом и может иметь значе- значения: Xjx = О, Xj^ — 1- При использовании унитарного (двоичного) кода возможные значения таковы: xfl = —1, xj2 = 1. В диагностическом пространстве объект описывается вектором, размерность которого может отличаться от размерности вектора в пространстве признаков. В качестве координат диагностического пространства принимаются функции 2/-=Ф/И. (Н.2) В дальнейшем для простоты рассматриваются метрические методы в пространстве признаков, но все результаты легко пере- переносятся на диагностическое пространство. 83
Евклидово расстояние между точками. Обычное расстояние между точками х и а пространства признаков , а) = \х - а\ = V(x± - axf+ •. ¦ + (** - а„J = Равенство A1.3) устанавливает метрику евклидова простран- пространства, причем основные метрические свойства этого пространства выражаются условиями: /(а, Ъ) = 1(Ь, а); /(а, &) > 0; /(а,а) = 0; /(а, с) </(а, &) + /(», с). A1.4) В задачах распознавания часто удобно в качестве меры рассто- расстояния принимать квадрат расстояния /"(*,*) ==2^*/-я,J. (Н.5) Величина /2 тесно связана с многомерным нормальным распре- распределением, более проста для вычислений, а неравенство k>U (П.6) влечет за собой более сильное неравенство >л>4 A1.7) Обобщенное расстояние порядка v j Как уже отмечалось, при v = 2 /(V) совпадает с обычным рас- расстоянием [равенство A1.3I, при v = 1 величина fa представляет собой расстояние по Хеммингу. При v —> оо /(v) = max | Xj — а}-1, т. е. расстояние равно наибольшему отклонению по какой-либо из координат. Пусть в трехмерном пространстве даны следующие разности составляющих векторов х и а: хх— ах = —1; х2 — а2 = 3; *з — аз = —2. Обобщенное расстояние l(V) = (| — 1 |v + | 3 |v + + | —2 |v) v . Значения /(V) при различных v следующие: v 1 2 3 4 5 10 оо /(v) 6,00 3,74 3,30 3,14 3,08 3,00 3,00 Если пространство признаков состоит из iV двухразрядных про- простых признаков (в бинарном коде 0 и 1), то /(V) = VNn% где Л^н — 84
число не совпадающих разрядов в Л/-разрядных двоичных числах, представляющих векторы объектов. Обобщенное расстояние удов- удовлетворяет метрическим свойствам A1.4) евклидова пространства. Диагностическая мера расстояния. Иногда оказывается целе- целесообразным использовать в качестве диагностической меры рас- расстояния некоторую степень расстояния N \ JLI/V SK-a/П • A1-9) В дальнейшем будем часто использовать квадратичное (ев- (евклидово) расстояние (v = 2) и вторую степень расстояния. Тогда диагностическая мера расстояния между точками х и а N L = /2= ? (xj-cijJ. A1.10) Метрика в неизотропном пространстве признаков. Предыдущие определения расстояния соответствовали однородному, изотроп- изотропному пространству признаков, координаты которого имеют об- общую единицу измерений. Такое пространство однородных приз- признаков используется в ряде задач распознавания Например, для акустической диагностики в качестве признаков могут применяться амплитуды соответствующих гармоник и т. п. Диагностика с помощью признаков в двоичном коде соответ- соответствует использованию изотропного, однородного пространства признаков. Однако во многих задачах диагностики пространство признаков является анизотропным, т. е. единицы измерения в раз- различных направлениях различны. Координатам xf могут соответ- соответствовать параметры различной физической природы (например, Xi — температура; х2 — давление и т. п.). Если ввести весовые коэффициенты Яу- по координате /, то квал рат расстояния между точками хна *Ч*. «)==§*}(*/-*/)'• A1.11) С помощью компонентов весового вектора 1 = (КЛ2,.-.Лм) A1.12) можно учесть различную диагностическую ценность признаков, придавая большее значение наиболее значимым признакам. Так как для диагностики важен относительный вес, то можно использовать условие нормирования в виде §^=1. A1.13) Введение весовых коэффициентов деформирует пространство признаков. Если поставить условие, чтобы при подобных дефор- 85
Мациях сохранился объем областей диагнозов, то условие норми- нормирования можно принять таким: N .^ = П Х1= 1. (П.14) Обобщенная метрика пространства признаков. Соотноше- Соотношение A1.11) устанавливает «неравноправие» отдельных координат в пространстве признаков, но оно не учитывает роль координаты л*у- для диагноза Д. Диагностическое значение признаков различно для различных диагнозов и расстояние точки х до точки ah при- принадлежащей диагнозу Dt. ' AM5) Часто оказывается целесообразным принять где Gif — среднеквадратичное отклонение признака (параметра) Xj для образцов с диагнозом Д. Величина А,;- в этом случае имеет ясный физический смысл: чем меньше рассеяние признака по объек- объектам, тем больше его диагностическое значение. В более общем случае можно положить Ч=с-Ал О1-17) где безразмерный коэффициент Сц характеризует диагностическую ценность признака. В гл. 8 будут даны зависимости, определяю- определяющие ценность признака (или параметра) для диагноза. Для дискретного параметра (признака) лг;., имеющего ту дискретных значений (хъ х]2, . . ., ), можно принять [формула B0.2) ] сч = ZDi (Xj) - J P (x/s'Di) 1о§2 (Р (Xis/Dd/P (xjs)). A1.18) Для непрерывно распределенных признаков х\ вероятность диск- дискретных значений заменяется плотностью вероятности, суммирова- суммирование— интегрированием по области значений х-г В тех случаях, когда отсутствуют статистические сведения, величины сч могут 1 быть назначены на основании экспертной оценки и т. п. В практи- ' ческих задачах величины \f подбирают с учетом опыта диагно- диагностики, причем принимают те значения, которые обеспечивают наибольшее число правильных ответов. 86
Условия нормирования при обобщенной метрике: ? Х/у= 1 (i = 1, 2,..., я) A1.19) или П^у=1 (i = 1,2,..., л). A1.20) Метрика, устанавливаемая равенством A1.15), весьма своеобразна. Она изменяется не только для различных направлений, но и для различных диагнозов. Замечание о классификации пространства признаков. В зави- зависимости от используемой метрики, будем различать три вида пространства признаков. Неизотропное, неоднородное пространство соответствует ме- метрике общего вида (Я/у- =f= 1). Если для всех диагнозов ХЧ = Х{ (?-=1,2 /г), A1.21) то пространство называется однородным, неизотропным. Нако- Наконец, при Х.. = %;= 1 (i= 1, 2,...,/г; /= 1, 2,..., N) A1.22) пространство считается однородным и изотропным. § 12. ДИАГНОСТИКА ПО РАССТОЯНИЮ В ПРОСТРАНСТВЕ ПРИЗНАКОВ Рассматриваемые методы подразделяются на две группы: диагностика по расстоянию до эталона и по расстоянию до мно- множества. Разберем сначала распознавание по методу эталонов. Выбор эталона. В методе эталонов отнесение предъявленного для распознавания объекта к одному из п диагнозов (состояний) совершается по наименьшему расстоянию до эталона. В качестве эталона для диагноза Д принимается типичный объект, имею- имеющий диагноз Д (рис. 21). Наиболее естественный выбор эталона состоит в использовании средних значений параметров в области диагноза. Если известны Mt объектов с диагнозом Д, то в каче- качестве эталона диагноза Д можно принять Mi где a\s) — объект с диагнозом (состоянием) Д (объект с верифи- верифицированным диагнозом). Равенство A2.1) определяет эталон как центр тяжести области диагноза. Координаты вектора а* 87
Рис. 21. Диагностика по расстоянию до эта» лона равны средним значениям координат векторов, входящих в обучающую последовательность. Алгоритм распознавания. Допу- Допустим, что в пространстве признаков используется диагностическая мера расстояния L и предъявлен для диаг- диагностики объект х. Для отнесения объекта х к одному из п диагнозов определяются расстояния L до эта- эталонных точек пи 02, . . ., пп Объект х относят к диагнозу Д, если мера расстояния между точками лг, а* минимальна: если LL = min, то x?Dl A2.2) или в другой форме x?Dh если Lt<:Lk (k= I, 2,..., n\ k =h i). A2.3) В некоторых случаях условие A2.3) принимается в более стро- строгой форме Lk-Li>B9 . A2.4) где е — порог распознавания (е > 0). Например, если в качестве диагностической меры принимается квадрат расстояния Lt = /?= ^j — а*уJ, то объект х отно- относят к диагнозу Di (x?DL) при условии A2.5) Если вводится дополнительный порог распознавания в виде не- некоторой области, окружающей точку эталона, то условия A2.2), A2.3), A2.5) являются только необходимыми. Дополнительным необходимым условием принимается следу- следующее: )], если |лг—-a*\<CPiy A2.6) где р, — радиус сферы, в которую должна входить точка для от- отнесения этой точки к диагнозу. Это условие используется для изотропного, однородного пространства признаков. Для неизотропного и неоднородного пространства признаков соответствующее ограничение A2.7)
где Ь\}\ b[f — границы области принятия решения для диагноза Dt и координаты xf. Условие A2.7) определяет Af-мерный паралле- параллелепипед, внутри которого должна находиться точка х для при- принятия решения xGDL. Эти области для различных диагнозов могут перекрываться. Их введение позволяет исключить случаи, когда расстояние Lb минимально, но точка х настолько удалена от области Dh что решение х ? Dt неправдоподобно. Если точка х выходит из области A2.7), то происходит отказ от распознавания, что нежелательно. В связи с этим границы A2.7) не следует выбирать слишком узкими, однако расширение области диагноза уменьшает надежность распознавания. В прак- практических задачах область A2.7) принимается такой, чтобы она с некоторым запасом включала все точки обучающей последо- последовательности, принадлежащие диагнозу Д. Надежность распознавания. Очевидно, что надежность распо- распознавания будет тем выше, чем меньше расстояние Lt по сравнению с другими расстояниями. Это можно охарактеризовать коэффи- коэффициентом распознавания У l/L, Величина %t играет роль, сходную с вероятностью диагноза так как ?&=1. A2.9) Распознавание в соответствии с условиями A2.2) или A2.3) признается надежным, если Б|>Ео, A2.10) где 5 о — заранее выбранный уровень распознавания. При диагностике с порогами распознавания характерным яв- является коэффициент помех r\i = Lt/Ll A2.11) где V; — диагональ граничной области диагноза D*. Например, N при квадратичной мере расстояния Lt = 2 ^?/ (*/ — я*/J; Ц = N 1 = Jj ^/(б[/} — б/}^2- Чем больше коэффициент помех, тем ближе к предельной, граничной области располагается объект, предъяв- предъявленный для распознавания. 89
Пример. Рассмотрим распознавание в пространстве простых признаков, кодируемых двоичными числами. Пусть имеется три эталона диагнозов в десяти- десятимерном пространстве ах = A011100011), а2 = @100110100), а3 = A011011111). Для распознавания предъявлен объект х = @100010100). В качестве меры расстояния примем сначала расстояние первого порядка (формула A1.8) при v = 1 (расстояние по Хеммингу). Это расстояние равно числу несовпадающих разрядов в двоичном коде к = hi) (х, аг) = 9; /2 = /A) (х, а2) = 1; /3 = /A) (х, а9) = 7. Коэффициенты распознавания 1 Ei = — — = 0,09; 12 = — ! — = 0,80; g3 = -9- + I+— ~9"+l + T" J_ 7 = 0,11. Предъявленный объект следует отнести к диагнозу D2 при уровне распознавания go = 0,8. Для сравнения используем теперь квадратичную меру расстояния, т. е. величины /f, /|, /|. Тогда получим Ь= j[ j "§2 Ь ^ + ~72" "92 Ь 1 + = 0,02. Из приведенного примера вытекает, что использование квадра- квадратичной меры расстояния более резко подчеркивает диагноз с наи- наименьшим расстоянием. Выбор меры расстояния зависит от осо- особенностей задачи и устанавливается в процессе обучения. Замечания о выборе метрики. При выборе показателя степени в равенстве A1.9) для диагностической меры следует учитывать, что увеличение v приводит к возрастанию роли наибольших откло- отклонений. Как указывалось, выбор диагностической меры расстоя- расстояния с большой степенью \i дает резкое выделение диагноза с наи- наименьшим расстоянием. Обоснованный выбор указанных величин можно сделать с помощью практического опыта в определенных классах задач. Сказанное относится и к выбору весовых коэффи- коэффициентов. Во многих задачах распознавания целесообразно использовать диагностическую меру расстояния ^ , A2.12) 90
рис. 22. Диагностика по угловому рас- расстоянию где a,j и а, у — среднее значение и среднеквадратичное отклонение координаты Xj объектов с диагно- диагнозом Д-. Оценку а*у и ai;- можно проводить на 8—10 образцах с установленным диагнозом. Для указанных величин можно ис- использовать интервальные оценки хг (см. гл. 11). Диагностика по угловому расстоянию. Близость вектора х к эталонному вектору at можно охарактеризовать с помощью угла между векторами (рис. 22). Более удобно ввести в рассмотрение косинус угла между векторами, определяя его с помощью скаляр- скалярного произведения cos 7/ = \x\\at A2.13) Как видно из равенства A2.13), преобразования масштаба не вли- влияют на угол между векторами. Скалярное произведение и норма векторов определяются также, как в обычном евклидовом про- пространстве: хаь = ? В развернутом виде равенство A2.13) будет таким: N cos yt = /( N "* ? A2.14) Если векторы хиа( ортогональны (у, = л/2), то ? xiail = 0. При диагностике по угловому расстоянию принимается решение х ? Д, если угол между векторами х и а* наименьший или -max. A2.15) Диагностика по угловому расстоянию (cos y() связана с корреля- корреляционными методами распознавания. Диагностика по расстоянию до множества. В этом методе оце- оценивается расстояние не от одной точки —эталона, а расстояния от точки х (объекта, предъявленного для распознавания) до всех 91
ч Рис. 23. Определение расстояния до мно- множества точек множества с данным диаг- диагнозом. Расстояние до множества оценивается как среднее расстоя- расстояние, но возможны и другие спо- способы этой оценки. Использование рассматриваемого метода предпо- - лагает, что для каждого диагноза имеется группа образцов (объек- (объектов) с установленным диагнозом. Пусть для диагноза Dt группа содержит Mt образцов. До- Допустим, что выбрана диагностическая мера расстояния, и тогда расстояние от точки х до точки a-s) (рис. 23), входящей в группу верифицированных образцов (при квадратичной мере), (х,- - A2.16) Можно определить среднее расстояние от точки х до точек обучающей последовательности, принадлежащей диагнозу Д: A2.17) При использовании обобщенной диагностической меры рас- расстояния 1 М; L 1 s=l l/= N l | */1 is)\v\ J A2.18) Алгоритм распознавания по методу среднего расстояния. Процедура диагностики остается такой же, как при определении расстояния до эталона. Принимается решение , если Lt<Lk (k= 1,2,...,/г, k + i)9 A2.19) A2.20) или, что эквивалентно, x?Dh если Lt = min. Возможно использование «порогов распознавания», как это было указано ранее. Сравнение с методом расстояний до эталонов. Рассмотрим метод минимума среднего расстояния при квадратичной диагностической мере расстояния ([г = 2). Введем «средний вектор» (эталон) диагноза Dt по обучающей последовательности л* — * V /*<s) /10 9П * ~М— LJ * ^IZ.Zl/ 92
и запишем среднее расстояние 1 М1 " о . S=:l /=1 - а%) - (а\? - a*)]2. A2.22) После преобразований находим U - | А, (х, - a%f + -±- ? ? **/ « - 4J' A2-23) /-1 ? S=\ /=sl Первый член равенства A2.23) соответствует расстоянию до эталона, второй дает положительную добавку, и потому среднее расстояние всегда больше расстояния до среднего элемента. Преоб* разуя второй член равенства A2.23), получим Lt=t tf/ (*/ - 4J + S ^у4' A2.24) где 1 s=l Величина а/;- представляет собой среднеквадратичное отклонение признака Xj для диагноза Di9 определенное по обучающей группе. Если выбрать весовые коэффициенты в виде ^7-1М;, A2.26) что во многих случаях оказывается целесообразным, то из ра- равенства A2.24) находим id /х а* \2 ( ' 2 Ч) + N. A2.27) Принимая в качестве новой меры расстояния L* = Lt — N, получим, что алгоритм распознавания совпадает с алгоритмом по расстоянию до эталона. Этот результат, разумеется, связан с выбором квадратичной диагностической, меры расстояния. При других условиях совпадения рассматриваемых методов не происходит, но результаты получаются практически близкими. Метод минимального расстояния до множества. Ранее исполь- использовалось «среднее расстояние» до точек диагноза. Возьмем теперь в качестве расстояния до множества минимальное расстояние среди всех расстояний от точки х до точек, входящих в группу диагноза Dt: ie). A2.28) 93
Алгоритм распознавания состоит в следующем. Определяется расстояние от точки х (объекта, предъявленного для диагностики) до всех точек, входящих в область данного диагноза (точки обу- обучающей группы) и «запоминается» минимальное расстояние. При- Принимается решение x?Dl если L, = min/minUs)\ (k = 1, 2,..., п\ k4 0» A2.29) ИЛИ Lt<Lk (k= 1, 2,..., я; k + i), A2.30) где LI = min L(ks) — минимальное расстояние до точек с диаг- нозом Dk. Таким образом, решение здесь принимается по близости к пре- прецеденту, а- не ко всей совокупности случаев с данным диагнозом. § 13. СВЯЗЬ МЕТРИЧЕСКИХ МЕТОДОВ С ДРУГИМИ МЕТОДАМИ РАСПОЗНАВАНИЯ Метрические методы и методы дискриминантных функций. В гл. 4 рассматривались методы, основанные на использовании дискриминантных функций ft (х). Принималось решение x?Dh если fi(x)-fk(x)>0 (Л= lf 2 л; k=f=i). A3.1) Таким образом, дискриминантная функция Д- (л:) имеет значения большие, чем остальные функции, для всех точек х, входящих в область диагноза Dt. Метрические методы определения минимального расстояния дают очевидную возможность следующего выбора дискриминантных функций U(x)=\ILt\ fk(x)=ULk. A3.2) Условие A3.1) примет такой вид: Однако выражения A3.2) для дискриминантных функций не единственные. Можно выбрать ft(x) = -W, fk(x) = -Lk, A3.4) что приводит к более простой структуре дискриминантной функ- функции. 94
рис. 24. Геометрическая иллюстрация для разделяющей функции f (x) — Рассмотрим теперь метод ми- минимального расстояния до эталона при использовании квадратичной диагностической меры расстояния а; №>Ъ | х - (х ¦<*?)(*-а?). A3.5) Дискриминантная функция в соответствии с равенством A3.4) Так как величина |л:|2 одинакова для всех дискриминантных функций, то можно принять в окончательном виде fi(x) = x-at-\ai\2/2. A3.7) Для диагностики двух состояний Dt и Dk разделяющая функция Пусть для простоты точки эталонов расположены на сфере одного радиуса \at\ = \ak\. Тогда f(x) = x-(a* — at)- A3.9) Для геометрической иллюстрации приведем двухмерное про- пространство признаков (рис. 24). Легко видеть, что для всех точек а\> расположенных вне дуги заштрихованного сектора, симмет- симметричного относительно вектора лг, скалярное произведение }(х) = х*(а* — а!)>0, A3.10) так как векторы х па* —at образуют острый угол (разделяющая функция относит х к диагнозу Д). Если эталонная точка диаг- диагноза at расположена в пределах дуги АВ, значение / (х) < 0, так как точка х ближе к точке at, чем к а*. На основании равенства A3.8) можно заключить, что метод минимального расстояния до эталона при квадратичной мере расстояния приводит к линейной разделяющей функции [см. равенства G.9)]: f f jk-\ ) v j ] у _j_ i^vlOi /1 ^ 1 1 \ где Л^-мерный весовой вектор Ь-al-al, A3.12) а весовой коэффициент у. /1 •»* |2 I л* |2\/О /1Q1Q\ В гл. 4 излагался метод, который давал возможность определения весового вектора путем показа образцов из обучающей последо- 95
вательности. В метрических методах процесс обучения состоит в формировании множества (группы) образцов с установленным диагнозом и определении эталонного (среднего) вектора для них. Рассмотрим теперь связь метода минимального расстояния до множества и метода дискриминантных функций. Если точка a*s) — одна из точек, входящих в область диагноза Dl9 то дискриминант- ная функция, соответствующая минимальному расстоянию до этой точки, fls) (х) = - L\s) = x-a\s) - | a\s) Г/2. A3.14) В качестве дискриминантной функции для диагноза D, следует выбрать ft (х) = max (xa\s) - | a<s) |2/2), A3.15) т. е. функцию ft (х)у имеющую наибольшее значение по сравнению с остальными функциями. Равенство A3.15) приводит к кусочно- линейным дискриминантным функциям. Метрические методы и методы максимального правдоподобия. В методах статистических решений для диагностики с помощью логарифма отношения правдоподобия используется следующее правило: при 1п^|^<1п8л:е^, A3.16) где In б — логарифмический порог распознавания. При условии, что все параметры объекта хг, х2, ..., xNy составляющие вектор лг, независимы и распределены по нормальному закону В соответствии с условием A3.16) / (x/Dk) 2 A3.18) Последнее соотношение можно записать так: при L* —L,>21n6 лг^Д-, A3.19) где Li -' Ь a?/ ' * " Ь о|/ ' Таким образом, метод максимального правдоподобия совпа- совпадает с методом эталонов, если используется квадратичная мера расстояния и весовые коэффициенты Хц = 1/а/;-. Порог распозна- распознавания в методе эталонов е = 21п6 [см. условие A2.4)]. 96
Глава 6 ЛОГИЧЕСКИЕ МЕТОДЫ РАСПОЗНАВАНИЯ И РАСПОЗНАВАНИЕ КРИВЫХ Вводные замечания. Эта глава заключает изложение методов распознавания и содержит краткие сведения по двум дополнитель- дополнительным проблемам: применение математической логики в диагно- диагностике состояний и использование методов распознавания для иден- идентификации кривых. Первая проблема является весьма важной в задачах контролеспособности, вторая — имеет существенное значение при реализации ресурсов по состоянию. § 14. ЛОГИЧЕСКИЕ МЕТОДЫ РАСПОЗНАВАНИЯ Общие замечания. Логические методы основаны на установ- установлении логических связей между признаками и состояниями объ- объектов, поэтому будут рассмотрены только простые (качественные) признаки, для которых возможны лишь два значения (например О и 1). Точно также и состояния технической системы (диагнозы) в рассматриваемых методах могут иметь только два значения (наличие и отсутствие). Два значения признака или состояния системы могут быть выражены любыми двумя символами («да» — «нет», «ложь» — «истина», 0—1). Переменные величины или функции, принимающие только два значения @ и 1), называются логическими или булевскими. Исследованием таких переменных и функций занимается ма- математическая логика, имеющая обширные приложения во многих технических проблемах (релейные системы, теория ЭВМ и авто- автоматов и др.). Применительно к задачам распознавания (диагно- (диагностике) методы математической логики стали использоваться после работ Р. Ледл^ [36]. Детерминистское описание с помощью двоичных переменных, характерное для логических методов рас- распознавания, является приближенной моделью реальной ситу- ситуации. Однако во многих задачах логические методы пригодны Для начальных этапов распознавания. Весьма перспективны ме- методы математической логики для второго направления техниче- технической диагностики — поиска и локализации неисправностей тех- технических систем. 4 И. А. Биргер 97
Основные понятия алгебры логики. Напомним вкратце некоторые необходимые сведения из булевой алгебры. Логической величи- величиной (или высказыванием) называется величина, которая может принимать только одно из двух значений: 0 или 1, «ложь» или «истина». Логические переменные обычно обозначаются заглав- заглавными буквами латинского алфавита. Логической суммой двух логических переменных А и В (или дизъюнкцией) называют логическую величину С: А\/В = С, A4.1) где V — знак логического сложения (дизъюнкции). Часто для логического сложения используется также знак +. Величина С является истинной (С = 1), если истинно хотя бы одно из высказываний А и В или оба вместе. Таким образом, для дизъюнкции 1V1=1 1+1=1 OV1=1 0+1=1 1vo=i i+o=i { } Логическое суммирование при словесном выражении соответ- соответствует союзу «или». Слово «или» может служить и обозначением операции дизъюнкции. Логическим произведением двух логических величин А к В (или конъюнкцией) называют логическую величину С: А Д В = С, A4.3) где Л — знак логического умножения (конъюнкции). Для логического умножения используются и обычные знаки умножения •, X. Величина С является истинной только в том случае, когда истинными оказываются высказывания А и В. Таким образом, для конъюнкции 1д1=1 1x1=1 0Д1=0 0x1=0 1Д0 = 0 1x0 = 0 0Д0=0 0x0=0 Логическое произведение в словесном выражении соответствует союзу «и». Слово «и» может служить и обозначением операции конъюнкции. В булевой алгебре часто используется операция отрицания высказывания А. Она обозначается А и читается «не Л». Естест- Естественно, что истинность и ложность высказываний А и А противо- противоположны. Операции «и», «или», и «не» (конъюнкция, дизъюнкция, отрицание) позволяют составить различные комбинации выска- 98
зываний, которые называются булевскими функциями и сами, разумеется, являются логическими величинами. Простейшие, наиболее употребительные булевские функции получили назва- название операций импликации и эквивалентности. Импликация двух высказываний обозначается следующим образом: А —В, A4.5) где —> — знак импликации (иногда используется знак zd). Соот- Соотношение A4.5) читается так: «Л влечет 5» или «если А, то 5». Импликация (следование) представляет собой операцию, ре- результат которой С является логической величиной: (Л->Я) = С. A4.6) Импликация может быть выражена с помощью двух основных операций в такой форме: А->B = A\J В. A4.7) Таким образом, импликация представляет собой простейшую булевскую функцию высказываний А и В. Если импликация [высказывание A4.5)] является истинной, то при истинном А должно быть истинным В (А влечет В). Если А оказывается лож- ложным, то при истинности импликации высказывание В может быть как истинным, так и ложным. Отметим, что из условия A4.5) не следует условие В —> Л, т. е. высказывания А и В — неравно- неравноправны. Рассмотрим еще эквивалентность (или тождественность) двух высказываний, обозначаемую так: А = В, A4.8) где = знак эквивалентности. Условие A4.8) представляет собой логическую величину С: (А = Я) = С, A4.9) которую можно выразить с помощью элементарных операций С=ЛДЯ\/^Л5 = Л.В+Л.В. A4.10) Следовательно, если эквивалентность истинна (С = 1), то вели- величины Л и В обе или истинны, или ложны. Истинность опе- рацийприведена в табл. 4. Таблица 4 Таблица истинности логических операций А 0 1 0 1 в 0 0 1 1 А V В 0 1 1 1 А ЛВ 0 0 0 1 А -> В 1 0 1 J A sB 1 0 0 1 99
Отметим еще некоторые простейшие булевские выражения, которые остаются истинными, независимо от истинности или лож- ложности входящих в них высказываний. Например, С = А \/ А, С = (А V А) V В. Такие выражения называются тавтологиями. Булевские функции. Булевской функцией называется логиче- кая величина, значение которой зависит от других логических величин: В,С... .)• A4.11) В этом равенстве Е является булевской функцией логических пе- переменных Л, Б, С, .... Как и для обычных функций, функцио- функциональная зависимость / выражает последовательность операций, совершаемых над переменными. Примерами булевских функций могут служить выражения F = A\JB/\C% F = AABAC. A4.12) В дальнейшем рассматриваются булевские функции, включа- включающие операции «или», «и» и «не». Во многих случаях для сокраще- сокращения записи и наглядности используется операция импликации. Например, выражение F^A\/Bf\C\JD A4.13) записывается в виде F =(A-*B)/\(C-> D). . A4.14) Пример. Составить булевскую функцию для следующих технических сведений о признаках и состояниях системы. 1. При диагнозе D2 появляется признак kx. 2. Если имеется диагноз D1yl отсутствует диагноз D2, то должен обнаружи- обнаруживаться признак k2. 3. Если появляется признак kx или k2 или оба вместе, то может быть диаг- диагноз Dx или D2 или оба вместе. __ Первое условие записывается в виде D2 -> kl9 второе —Dx A D2 -* /г2, третье — kx V k2^ DX\J D2. Так как эти условия справедливы одновременно, то булевская функция высказы- высказываний F = (D2 -> kx) A (D1 A D2 -> k2) A (kx \J k2^D1\j D2). В практических задачах часто приходится упрощать выражение булевских функций, пользуясь следующими правилами. Правила абсорбции: А + А = А\ А-А = А. A4.15) Правила коммутативности: Л + 5 = В + Л; А-В = В-А. A4.16) Правила ассоциативности: (Л + В) + С = Л + (Я + С) = Л + Я + С; A4.17) (А.В)-С = А-{В-С)=*А-В-С. A4.18) 100
Правило дистрибутивности умножения относительно сложения А-(В-\-С) = А.В + А.С. A4.19) Правило дистрибутивности сложения относительно умножения А + Б-С = (А + В) .(Л + С). Г04.20) Этого правила нет в обычной алгебре. Правила отрицания (правила Моргана): Правила поглощения: A4.21) A4.22) = Л. A4.23) Базис булевской функции и изображающие числа. Для задач диагностики целесообразно ввести некоторые понятия, связанные с булевскими функциями [36, 42]. Базисом булевской функции будем называть совокупность всех возможных значений ее аргументов (область задания функ- функции). Если булевская функция содержит п логических перемен- переменных, то базис состоит из 2п чисел @ или 1). Записать базис можно разными способами, но условимся придерживаться правил, ко- которые поясним примерами. Для функции трех аргументов /(Л, В, С) нормальный базис запишем в такой форме: Л 01 01 01 01 В 00 11 00 11 A4.24) С 00 00 11 И. Аргументы идут в порядке следования, в первой строке имеются перестановки чисел 0 и 1, во второй — перестановки пар чисел, в третьей — четверок чисел. Число одинаковых цифр в переста- перестановке равно 2i~1, где i — номер строки. Каждую строку базиса можно рассматривать как двоичное число, которое называется изображающим числом аргумента и обозначается знаком ф):. Каждый столбец базиса также представляет собой двоичное число, равное номеру столбца (от 0 до 7). Изображающее число переменной А в базисе (Л, 5, С) 4ф Л = 01010101. Для изображающих чисел справедливы операции «и», «или» и «не», совершаемые поразрядно. Например, #Л Д #? =@1010101) Л @0110011) = 03310031; # Л V #В = @1010101) V @0110011) = 01110111, 101
Изображающее число булевской функции образуется с помо- помощью соответствующих операций над изображающими числами аргументов. Например, если E = A\J В /\С = А + В-С, A4.25) то, учитывая A4.24), найдем #? = 01010101 V @0110011).@0001111) = 01010101 + + 00000011=01010111. Операция отрицания («не») для изображающего числа означает замену 0 на 1 и наоборот. Например, если #Л 01010101, то #Л 10101010. Метод изображающих чисел удобно использовать для проверки тождественности булевских функций. Например, выражение A4.25) в силу равенства A4.20) можно записать так: Е = Л V В Л С = (Л + В) • (А + С). Для изображающих чисел получим #?=# (А + В).#(А + С) = @1110111)@1011111) = 01010111. Проверим методом изображающих чисел тождества A4.23), пред- представляющие собой функции А и В, базис которых #Л0101 #50011. Далее имеем # (А-В) + # (Л -В) = 0001 + 0100 = 0101 = # Л; #Л + #(Л.Я)= 0101+0001 =0101 =# Л; что и доказывает соотношения A4.23). Использование булевских функций для построения диагно- диагностических устройств. Диагностические устройства представляют собой приборы, моделирующие связи признаков и состояний. Они позволяют автоматически вводить двоичные признаки вклю- включением тумблеров и получать сведения о возможных состояниях системы, например, с помощью световых сигналов (загорания лампочек). Связь признаков и состояний систем выражается бу- булевской функцией, которую будем называть булевской диагности- диагностической функцией. Диагностические устройства можно рассматривать как реали- реализацию условий истинности булевской диагностической функции. Разберем этот вопрос подробнее, 102
Пусть имеются простые (двоичные) признаки kl9 k2, k3y ..., с помощью которых различаются состояния системы. Наличие признака обозначается числом 1, отсутствие признака числом 0. Таким образом, A — наличие признака; 0 — отсутствие признака. Часто наличие или отсутствие признака kj будем обозначать следующим образом: наличие признака kj (kj = 1); отсутствие при- признака kj (kj = 0). Состояния системы обозначаются Dl9 D2, D3> •••» причем наличие состояния соответствует числу 1 и от- отсутствие числу 0: 1 — наличие 1-го состояния; О — отсутствие i-ro состояния. A4.27) Рассмотрим в качестве примера систему, имеющую два со- состояния: исправное Dx и неисправное D2. Пусть состояние системы в рассматриваемом случае описывается четырьмя признаками kx, k2, k3 и &4> причем неисправное состояние возникает при наборе признаков, указанных в табл. 5. Во всех остальных случаях система находится в исправном состоянии (Dx = 1). Булевская диагностическая функция з V **) = ?>1 Л о,. О4-28) Выражение в первой скобке соответствует первой строке таб- таблицы. Оно составлено в виде логической суммы событий, противо- противоположных тем, которые указаны в первой строке. Естественно, что скобка обращается в нуль только в том случае, когда появля- появляется набор признаков, содержащихся в первой строке таблицы. Но неисправность возникает в случае, если реализуется любой из трех наборов признаков, т. е. любая из строк таблицы. Поэтому выражения, соответствующие трем наборам признаков, соединены знаком логического умножения (конъюнкции). Так как любая часть равенства обращается в нуль при указанных в таблице наборах признаков, а во всех остальных случаях равна 1, то условие истинности F (F=l) со- соответствует исправному состоя- состоянию системы и отсутствию не- неисправного состояния^! Д D2). Булевская диагностическая функция легко реализуется в диагностических устройствах с помощью логических элемен- элементов типа «или» и «и». 103 Таблица 5 Пример кг 1 1 0 таблицы кг 0 1 0 неисправностей кг 0 0 0 к* 0 0 1
Использование булевских функций для задач распознавания. Метод сокращенного базиса. Задача распознавания при исполь- использовании булевских функций формулируется следующим образом: известны логические связи признаков и состояний в виде булев- булевской диагностической функции F (kl9 k2i ..., kmy Dx> D2, ..., Dn) и задана булевская функция признаков G (kly ..., kn). Тре- Требуется найти такую булевскую функцию состояний (диагнозов) f (Du ..., Dn), для которой выполняется условие G->/ A4.29) при F(kx, k»..., kmt Dl9 Da,..., DJ = 1. A4.30) Иными словами, по функции признаков следует определить функцию состояний при условии истинности диагностической функции. Пример. Пусть в случае двух признаков и двух состояний логические связи таковы: 1. При состоянии D± появляется признак kx. 2. Обнаружение признака k2 свидетельствует об отсутствии состояния Dv 3. При состоянии D2 появляются оба признака. На основании этих сведений булевская диагностическая функция F (kly k2y Dlt D2) = (D1 -> kx) Л (k2 -^ Dx) Л (D2 -> kx A k2). A4.31) ие при- приG = ^A^2. A4.32) Требуется найти булевскую функцию состояний. Воспользуемся общим методом отыскания булевской функции состояния — методом сокращенного базиса. Для этого сначала выписываем полный базис номер столбца 0123 4567 891011 12 13 14 15 k± 0101 0101 01 0 1 0 10 1 k2 ООП ООН 00 1 1 0 0 11 Dx 0000 1111 00 0 0 1 1 1 1 D2 0000 0000 11 1 1 1 1 1 1 Далее находим изображающее число для булевской диагностической функции D1->k} = 'D_1 \y k_x 1111 0101 1111 0101 k2-+Dx= k2 \j Dx 1111 1100 1111 1100 D2v№iA4 П11 1111 0001 0001 #F ПИ 0100 0001 0000 В изображающем числе для функции F, полученном в соответствии с форму- формулой A4.31), единицы стоят в столбцах, отражающих возможные (непротиворе- чащие F) сочетания признаков и диагнозов. По булевской функции признаков G kx = 1; k2 = 0. Такое сочетание признаков при F = 1 имеется только в столб- столбцах 1 и 5, для которых Dx = 0, D2 = 0 и Dx = 1, D2 = 0. Столбцы 9 и 13, имею- имеющие сочетание kx = 1, k2 = 0 [равенства A4.32)], исключаются из рассмотрения, так как в соответствующих столбцах F = 0 [они противоречат диагностической функции, т. е. условиям A4.31)]. Таким образом, булевская функция диагнозов (столбцы 1 и 5) Пусть при обследовании обнаружено наличие признака kx и отсутствие при- признака /г2* Тогда булевская функция признаков / = EХ Л А) V Pi А 5Я) = 5Я. A4.33) 104
Преобразование равенства A4.33) можно получить из формул поглощения A4.23), но его легко найти с помощью изображающих чисел. Так как рассмотрение относится к двум булевским величинам, то базис D20011. Далее находим \ Л Ъ2 1000 \ л52оюо # (Ъ± Л D2) V (?>i А 52) 1100 = #D2. Наличие признака kt и отсутствие признака k2 приводит к отрицанию диагноза D2 и не позволяет вывести заключение о состоянии D±. Рассмотренный пример позволяет достаточно ясно наметить процедуру отыскания булевской функции состояний. Логические методы позволяют выявить состояния, не противо- противоречащие имеющимся техническим сведениям о связях состояний и признаков. К числу логических методов распознавания могут быть отнесены методы теории графов [25, 37], лингвистические и другие методы, которые здесь не рассматриваются. В общем случае функциям G и F не противоречат несколько возможных состояний, поэтому имеющихся сведений недостаточно для однозначного решения. В подобной ситуации для выбора ре- решения используется метод Байеса или другие методы распозна- распознавания. § 15. РАСПОЗНАВАНИЕ КРИВЫХ Вводные замечания. Постановка задачи. Во многих случаях информация о состоянии системы (машины) содержится в виде записи значений диагностического параметра или его отклонений от нормального или первоначального уровня в различные моменты времени. Результаты представляются в виде непрерывных функ- функций х (кривых) или совокупности дискретных значений \х (^)|. Принципиальной разницы между этими двумя видами информа- информации нет и, ограничиваясь некоторой максимальной частотой пе- периодической составляющей, можно указать шаг квантования, при котором за период наблюдения Т непрерывная и дискретная формы записи эквивалентны. В других случаях дискретное пред- представление можно рассматривать как приближенное. Разберем сначала непрерывную запись диагностического па- параметра в виде кривой х (t) (например, запись вибраций по вре- времени). Наличие неисправности может проявиться в росте отдель- отдельных периодических составляющих в спектральном составе, в су- существенном изменении значений диагностического'параметра и т. п. Анализируя протекание кривой х (t), можно во многих слу- случаях сделать важные заключения о техническом состоянии си- системы (машины). Установление соответствия между состоянием 105
Рис. 25. Обнаружение систематических откло- отклонений по выборочным данным системы и протеканием отображающих функций х (t) будем назы- называть распознаванием (идентификацией) кривых. Для технической диагностики представляет интерес решение двух основных вопросов. 1. Являются ли наблюдаемые во время эксплуатации изме- изменения кривой х (t) следствием случайных, несущественных из- изменений в системе или они вызваны более серьезными причи- причинами. 2. Если отличия в протекании кривой являются значитель- значительными, то с какими из возможных состояний системы они связаны. При непрерывном слежении за параметрами системы вторая задача решается после первой, при выборочном наблюдении или анализе указанные задачи независимы. Основная идея методов распознавания кривых состоит в ото- отображении бесконечного многообразия значений функции в ко- конечномерное пространство признаков. Различные методы распознавания отличаются выбором системы признаков и способами разделения состояний в пространстве признаков. Обнаружение неслучайных отклонений по методу средних. Предположим, что ведется непрерывное наблюдение за парамет- параметром х и анализируются данные за два периода k и I (рис. 25). Сопоставляются совокупность nk значений параметра х (выборка \xk\) и совокупность tii значений за другой отрезок времени (вы- (выборка {xi}). Тем самым поведение кривой на двух участках опи- описывается конечным числом признаков — ординатами кривой. Обычно эти ординаты выбирают в виде последовательных, равно- равноотстоящих по времени значений х (t). Существует довольно боль- большое число способов оценки различия двух выборок. Одним из наиболее простых и эффективных является метод средних, в со- соответствии с которым определяется среднее значение и среднеквад- среднеквадратичное отклонение каждой из выборок: nk ni *k = У xk{i)\ */= У */(/>; A5.1) s* = ^гт XI (**«> - **)'; $ = -j^-г S <*< </> - йI- <15-2) 106
Далее оценивается достоверность различия с помощью критерия Стьюдента nk + ni — 2 \ пи щ ) Различие признается существенным (неслучайным), если \t\>tc(n,PJ, A5.4) где tc (n, Яд) — коэффициент Стьюдента для числа степеней сво- свободы л = ла + Л/-2 A5.5) и доверительной вероятности Рд. Значения коэффициента Стью- Стьюдента указаны в [19, 66]. Для оценки различия выборок иногда используется простой критерий Фишера (отношение дисперсий) F = s%/sj. A5.6) Однако его применение эффективно только в случаях, когда от- отличие выборок сказывается в нестабильности диагностического параметра при почти неизменном среднем значении. Оценка неслучайных отклонений по контрольным уровням. В практических задачах для оценки неслучайных отклонений при непрерывной записи параметров часто используются заранее назначаемые контрольные уровни. В сущности, большинство сиг- сигнализирующих устройств диагностического назначения выдают сигналы о достижении определенного (опасного) уровня. Дости- Достижение предельного уровня при единичном выбросе еще не служит достаточно обоснованным свидетельством^опасного состояния, так как возможны случайные помехи. Часто для повышения достоверности оценки^используется предупредительный уровень (отклонение Дх на рис.**26) и предель- предельный уровень (отклонение А2). Например, при достижении пара- параметром х (t) отклонения Ах сверх нормального уровня х0 загора- загорается сигнальная лампочка, после превышения х0 +А2 происхо- происходит автоматическое отключение системы. Уровни Ах и А2 опреде- определяются на основании специальных испытаний и анализа послед- *(t) Рис. 26. Оценка отклонений по предельным уровням t 107
ствий дефектов. Если учесть случайную нестабильность пара- параметра, то следует принимать Д1 > k±GXi A2 > k2ox, A5.7) где ох — среднеквадратичное отклонение параметра. При контроле технологических процессов производства часто принимают kx = 2\ k2 = 3. A5.8) Ограничение по контрольным уровням является более грубым, чем ограничение по методу средних, так как часто параметр не достигает предельного уровня, но его отклонения свидетельствуют о возникновении неисправности. Оценка текущего значения параметра. В практических случаях возникает задача оценки текущего значения измеряемого пара- параметра х (t). Требуется определить, является ли значение х (tn) одним из возможных, случайных отклонений или его нельзя согласовать с предыдущим течением процесса. Рассмотрим сово- совокупность п предыдущих значений параметра (рис. 27) в моменты времени tOi tlf ..., tn_x и обозначим их х0, хг, ..., хп_г. Пред- Предположим, что xt удовлетворяют нормальному распределению и воспользуемся для оценки толерантными коэффициентами [66]. Тогда при степени значимости q и с доверительной вероятно- вероятностью Рд x(tn)<xn+K(n,q,PJsn, A5.9) 1 где хп = -I" 2 х ft); sn = \-^-j ? [х (/,) - хп] л м (п— i 0 л .=0 Величина К (я, q, Рд) представляет собой односторонний толе- толерантный коэффициент, значения которого резко возрастают при малом объеме выборки. В связи с этим для эффективной оценки текущего значения х (t) необходимо знать не менее десяти его прежних значений. Если условие A5.9) нарушено, то значение х (tn) для приня- принятых степени значимости и доверительной вероятности не может быть согласовано с предыдущими значениями и свидетельствует о воздействии на процесс источника возмущения. Общая задача распознавания кривых, метод признаков. Выше рассматривались отклонения в протекании кривой х (t) и выяс- x(t) Рис. 27. Оценка наиболь- наибольшего отклонения 108
Рис. 28. Разложение функ- функции в ряд Фурье нялся их характер. Метод признаков предназначен для решения более общей задачи распознавания — установления связи между поведением кривой и состоянием системы. Пусть имеется некоторое число состояний системы Dt и пред- предполагается, что каждому состоянию соответствует определенный класс кривых xL (f). Предъявляется для распознавания кривая х (t) за период времени Т и требуется отнести ее к одному из ука- указанных классов. Для того чтобы свести эту задачу к изученной ранее проблеме распознавания, необходимо охарактеризовать все рассматриваемые кривые в единой системе признаков, т. е. отобразить кривые в конечно-мерном пространстве признаков. Формирование пространства признаков представляет собой наи- наиболее специфическую часть проблемы распознавания кривых. Формирование признаков с помощью разложения в ряд по орто- ортогональным функциям. В качестве признаков кривой х (t) на уча- участке t0 < t < tx можно принять коэффициенты разложения функции в ряд Фурье. Не ограничивая общности, будем считать t0 = 0 и tx = Т, где Т — длина участка по времени (рис. 28). На указанном участке функция A5.10) где коэффициенты Фурье т ak = -f-\x(t)<:os {k^-^jdt {k = 0, 1,2,...), A5.11) = A.jx(t) sin (k -^-) dt (k = 1, 2, 3,.. .)• A5.12) В соответствии с равенством A5.11) функция х (t) на участке про- протяженностью Т представлена в виде разложения в ряд по орто- ортогональным функциям A5.13) 109
Рис. 29. Кусочно-постоянные косинусные (а) и синусные (б) функции Напомним, что система функций {ф, (t)} называется ортогональной на участке (О, Т), если т Vi(t)<fk(t)dt = O Цфк). A5.14) Функция х (t) представлена в виде суммы элементарных перио- периодических кривых (тригонометрических функций). Обычно некото- некоторое число первых членов разложения дает удовлетворительное представление о поведении функции х (t). Ограничиваясь наиболь- наибольшей гармоникой (например k < 10), можно охарактеризовать кривую х (f) с помощью п признаков п = 2k + 1, причем признаками становятся величины а0, al9 blt ..., aki bk. Разложение в ряд по тригонометрическим функциям (ряд Фурье) является наиболее употребительным. Применяются также разложения по полиномам Эрмита, Лежандра, Чебышева и др. Для решения диагностических задач представляет интерес разло- разложение в ряд по ортогональным кусочно-линейным функциям. Рассмотрим ортогональную систему, представляющую собой «спрямляющие» функции для обычных тригонометрических функ- функций. Наиболее простая аппроксимация получается с помощью кусочно-постоянных функций (рис. 29). Будем называть косинусными и синусными функциями первой гармоники следующие функции: Т cos0 2nt 1 (Х/^-т-; A5.15) по
1 0<t<^-; sin°-^ = т A5.16) -1 ~Y<t^ • Эти функции можно записать в более компактной форме: cos0 -у- = sign I cos -jr- tj, sin0 -^- = sign (^sin -^- / J. Аналогично определяются функции для второй гармоники Диагностический параметр х (t) выражается теперь модифи- модифицированным рядом Фурье A5.17) где т ' ! = 0, 1,2, 3, ...); A5.18) = 1,2,3,...). A5.19) Функции cos0 (k —jr-ч > sin0 (—у") удовлетворяют условиям орто- ортогональности. Отметим, что cos0 @) = 1. Естественно, что ряд A5.17) пригоден только для функции х (t), но не дает приближения для производной *Jj ' . Вычисления по формулам A5.18) и A5.19) очень просты, так как содержат интегралы от функции х (t) на различных этапах времени^ Например, т о т 4 = 4- | x(t)dt- J х(/)Л+ | *@Л ; 4^ ' 1 т Т' т ¦4" J x{t)dt- \x{t)dt\, .... A5.20) 111
Такие вычисления легко реализуются в простейших приборных схемах и могут осуществляться в процессе диагностического на- наблюдения. Более точное описание дает система кусочно-линейных косинусных и синусных функций A5.21) график которых приведен на рис. 30. Модифицированный ряд Фурье для таких функций A5-22) k=l где ^Ldt (? = 0,1,2,...); ^dt (й=1,2,3, ...)• A5.23) A5.24) Система функций A5.21) —ортогональна, cos @) = 1. Модифицированный ряд Фурье A5.21) дает описание функции х (t) и ее первой производной -?- (t), но не пригоден для пред- представления старших производных. н=2 -1 Рис. 30. Кусочно-линейные косинусные (а) и синусные (б) функции 112
х(Щ Рис. 31. Характерные элементы функции х (t) (электрокардиограммы) Формирование признаков по методу элементов. В качестве признаков могут быть использованы характерные элементы кривой х (t): точки минимума, максимума и др. Значительный опыт рас- распознавания кривых по методу элементов имеется в медицинской диагностике. На рис. 31 изображена электрокардиограмма, в ко- которой типичными элементами считаются зубцы (экстремальные точки) Р, Q, /?, S, связанные со стадиями сердечной деятельности. Диагностическое значение имеют ординаты и абсциссы характер- характерных элементов, их взаимное положение и другие параметры. В задачах технической диагностики в качестве элементов часто используется значение амплитуды колебаний с некоторой частотой. В этом случае проводится предварительный анализ спектра ча- частот колебаний, возникающих при различных неисправностях и отказах. В работе [45] указаны значения частот колебаний (гармоник), которые возбуждаются при типичных неисправностях. Распознавание кривых по комплексу признаков. Если кривая на некотором участке представлена комплексом диагностических параметров (признаков) хг, х2, ..., хп, то процесс распознава- распознавания осуществляется статистическими методами, методами раз- разделения в пространстве признаков, метрическими и др. Задача распознавания облегчается тем, что обычно признаки х1 являются физически однородными параметрами (параметрами с одинаковой размерностью). Сглаживание кривых. Во многих случаях кривая изменения диагностического параметра существенно искажается за счет неизбежных ошибок измерений. Это свойственно параметрам, записываемым вручную по показаниям стрелочных приборов или при недостаточной точности измерений и т. п. В таких случаях целесообразно проводить анализ предварительно сглаженных кривых. Существуют два основных метода сглаживания: метод наименьших квадратов и метод преобразования. По методу наи- наименьших квадратов кривая х (t) на участке от tx до t2 заменяется полиномом *@~flo + fli*f а*Р 1 , A5.25) где а0, аъ ... — параметры, подлежащие определению. Не реко- рекомендуется применять полиномы степени выше третьей, что де- делает аппроксимацию слишком «жесткой», лучше уменьшить длину участка, в пределах которого осуществляется аппрокси- аппроксимация. В таком случае кривая х (t) заменяется полигональной кривой из отрезков прямых или парабол (метод сплайнов). 113
Допустим на рассматриваемом участке содержится N экспери- экспериментальных точек лгу, соответствующих моментам времени tr и требуется подобрать значения параметров а0, аи а2 (аппрокси- (аппроксимация дугами парабол). Эти параметры можно определить из условия минимума среднеквадратичной погрешности между поли- полиномом A5.25) и «полем экспериментальных значений» А - S [*/ - К + fli*/ + (кЩ* = min. A5.26) Из условий получаем систему трех линейных уравнений относительно неиз- неизвестных параметров. Для случая линейной аппроксимации х (f) = а0 -\- uxt система A5.27) будет такой: N ы I f A5-28) Ее решение имеет вид — ^Xjtj-Xt A5.29) do^x — aj, A5.30) где i = -дт- 2 '/f x = -дг ^j ^/ — средние значения ti и a:;- для поля экспериментальных точек. Отметим, что аппроксимирующая прямая проходит через «центр тяжести» экспериментальных точек [уравнение A5.30)]. Второй метод состоит в преобразовании исходных значений xi в другие «сглаженные» значения х-г Часто применяется метод скользящего среднего. По этому методу величина xf представляет собой среднее нескольких зна- значений, непосредственно примыкающих к измерению при tji A5.31) 114
Например, при п = 1 *1= ~Т (хм + */ + *'*+l); (!5-32) при п = 2 */= 4" Ф-* + */-* + xl + */+i + */+»)• A5.33) Практически осреднение проводится не более чем для 10 со- соседних значений параметра. Естественно, что в начале и конце общего интервала времени для п точек сглаженные значения по формуле A5.31) не могут быть получены. Это обстоятельство либо не принимается во вни- внимание, либо кривая сглаженных значений по касательной экстра- экстраполируется на граничные точки. Применяется способ повторного сглаживания, в результате которого находятся значения х*г Это эквивалентно тому, что в ра- равенство A5.31) значения х1 входят с другими весовыми коэффици- коэффициентами. Например, при п = 1 + 4" xhl + 4 Xj + -§- xj+1 + 4 */«• A5.34) Сопоставляя с формулой A5.33), находим, что по мере удаления от Xj весовые коэффициенты уменьшаются, что характерно для процесса релаксационного сглаживания. Сумма весовых коэффи- коэффициентов при релаксационном сглаживании всегда равна единице. Последнее очевидно, если применить формулу C4) для параметра, имеющего постоянное значение. Одна из простых процедур релаксационного сглаживания может быть получена по формуле Xj = aXj + A — a) Xj_u A5.35) где параметр релаксации 0 <а < 1. При а = 1 сглаживания не происходит, при а = 0 сглаженная функция получает посто- постоянное значение. В практических задачах используется 0,1 < <а <0,5. На величине xf по равенству A5.35) сказываются все преды- предыдущие значения параметров с весовыми коэффициентами. При- Применяя соотношение A5.35) для начального и последующих значе- значений, будем иметь 115
Можно заметить, что весовые коэффициенты, за исключением последнего, убывают по закону геометрической прогрессии со знаменателем q — 1 — а. Однако запоминания предыдущих зна- значений параметра в расчетной процедуре не требуется, достаточно хранить только предыдущее сглаженное значение, что упрощает машинную реализацию алгоритма. Выбор метода сглаживания и весовых^коэффициентов опреде- определяется особенностями поведения кривой х (t), характером случай- случайных отклонений, задачами диагностики и осуществляется на осно- основании практического опыта. Метод сглаживания должен исклю- исключить случайные погрешности, но сохранить общую тенденцию из- изменения параметра.
Глава 7 ОСНОВЫ ТЕОРИИ ИНФОРМАЦИИ Вводные замечания. В технической диагностике, особенно при построении оптимальных диагностических процессов, широко используется теория информации. Возникшая как математиче- математическая теория связи в трудах Винера и Шеннона, теория информа- информации получила применение и в других областях науки как общая теория связи статистических систем. В ^диагностике такими системами являются система состояний (диагнозов) и связанная с ней система признаков. Центральное место в теории информации занимает понятие энтропии системы. § 16. ЭНТРОПИЯ СИСТЕМЫ Определение энтропии. Энтропия характеризует степень неоп- неопределенности системы. ПуепГрасхматривается система Л, которая моЗсет иметь п случайных состояний Аг, Л2, ..., Ап с вероятно- вероятностями Р (Аг), Р (Л2), ..., Р (Ап). Если одно из состояний си- системы обязательно реализуется, а два состояния одновременно невозможны (полная группа несовместных событий), то x()=l. A6.1) Именно такие системы и рассматриваются в дальнейшем. Степень^цеол^еделеннрсти системы зависит от числа п, воз- возможных ^состояний. Например, при бросании игрального ку- кубика их может быть шесть, при бросании монеты — только два. Степень неопределенности, вообще говоря, возрастает с увеличе- увеличением п. Однако не только число возможных состояний определяет энтропию системы. Например, если система имеет шесть возмож- возможных состояний с вероятностями Р (Аг) = 0,95; Р (А2) = Р (А3) = = Р (Л4) = Р (Лб) = Р (Ле) = 0,01, то с большой достоверностью можно утверждать априори (заранее, до проведения опыта, об- обследования), что она находится в состоянии Аг\ неопределенность 117
такой системы невелика. Если же Р (Аг) = 1, а вероятности остальных состояний равны нулю, то система вовсе не обладает неопределенностью — энтропия такой системы равна нулю. В теории информации энтропия (степень неопределенности) системы Л, имеющей п возможных состояний с вероятностями Р(А±), Р(А2), ..., Р(Ап), A6.2) Можно показать [19, 34, 58, 65], что при выполнении некото- некоторых достаточно общих требований (непрерывности, неубывания энтропии при возрастании числа состояний, аддитивности) опре- определение энтропии согласно равенству A6.2) является единствен- единственным. Величина Н (Л), введенная Шенноном, называется энтропией системы. Обозначение Н (А) показывает, что энтропия относится к системе А, и его не следует понимать как обычное обозначение функциональной зависимости. Так как вероятности состояний системы 0 < Р (Ас) < 1, то энтропия представляет существенно положительную величину. В формуле A6.2) логарифм может быть взят при любом осно- основании — изменение основания приводит только к появлению множителя, т. е. к изменению единицы измерения. Исходя из соображений физической наглядности, будем вы- вычислять энтропию системы с помощью двоичных логарифмов, тогда i A6.3) Целесообразность использования двоичных логарифмов легко понять, вычисляя энтропию системы, имеющей два равновероят- равновероятных состояния. В этом случае Р (Аг) = Р (А2) = 0,5 и по фор- формуле A6.3) находим Н (А) = -Р (A,) log2 Р D) - Р (А2) log2 P (А2) = loglog L Таким образом, в качестве единицы энтропии (при выборе двоичных логарифмов) принимается степень неопределенности системы, имеющей два возможных, равновероятных состоя- состояния. Эта единица измерения называется двоичной-единицей, или бдадм.^Название бит происходит от английских слов binary digit — двоичная единица (взяты две начальные и конечная буквы). 118
Если принять при вычислении энтропии обычные десятичные логарифмы, то в качестве единицы использовалась бы неопреде- неопределенность системы, имеющей 10 равновероятных состояний (де- (десятичная единица). Не следует, однако, думать, что введенная величина энтропии полностью характеризует неопределенность систем различной физической природы. Она учитывает только вероятности состоя- состояний и их число, но не отражает таких существенных свойств, как относительная^ценность^ваарюссь) сосхряний, их Низость, что может иметь серьезное значение для оценки^ неопределенности системы. Но во многих задачах, где существенны именно стати- статистические свойства систем, использование энтропии как меры неопределенности вполне оправдано и целесообразно. Можно ввести также понятие «неопределенности» отдельного состояния системы H(Ai)^\og(l/P(Ai)). A6.4) Подобное определение использовалось Хартли A928 г.) за- задолго до возникновения теории информации. Энтропия системы представляет собой среднее значение энтро- энтропии отдельных состояний: H(A)=^P(Al)H(Ai). A6.5) Последнее равенство можно записать так: Н(А) = (Я (Д.)) = (-log, Я (Д-)), A6.6) рассматривая энтропию как математическое ожидание случайной величины Н {А) = —log2P (At). Такое определение подчерки- подчеркивает вероятностный характер понятия энтропии. Основные свойства энтропии. Покажем, прежде всего, что если система А имеет одно из возможных состояний Ak с вероят- вероятностью Р (Ak) = 1, то энтропия такой системы Н(А) = 0. A6.7) В самом деле, в сумме A6.3) будет слагаемое Р (Ak) log2P (Ak) = = 0, так как Р (Ak) = 1. Другие слагаемые имеют неопределен- неопределенное значение типа 0-оо, но можно показать, что lim В справедливости последнего равенства легко убедиться на следующем примере. Пусть Р (AL) = l/2m, где т — большое число. Тогда lim P (Л,) log2 P (Л,) - lim A/2*) log2 A/2*) = P(y4f.)-»0 m-»oo = —lim (m/2m) = 0. m-»oo 119
Условие A6.7) для рассматриваемой системы очевидно также из физических соображений, так как в системе нет никакой неоп- неопределенности. Вычислим энтропию системы, имеющей п равно- равновероятных состояний. Вероятность каждого состояния Р (Ai)==1/n. По формуле для энтропии системы находим H(A) = -tiP(Ai)\oe2P(Ai)^n-^\og2n = log2n. A6.8) Энтропия системы с одинаковыми вероятностями состояний равна логарифму числа состояний. Очевидно, что с увеличением числа состояний энтропия возрастает, но гораздо медленнее, чем число состояний. Важное свойство энтропии состоит в следую- следующем. Если система А имеет п возможных состояний, то энтропия будет максимальной в том случае, когда все состояния равноверо- равновероятны. Для доказательства найдем экстремум функции H = -tPi\og2Pt A6.9) при условии ? л-1. (шло) В равенствах A6.9) и A6.10) для краткости приняты обозна- обозначения Р (А() = Pif Я (А) = Я, которые иногда будут применяться в дальнейшем. В соответствии с методом Лагранжа ищем экстремум функции п ( п \ п переменных Pt Ф = — ? Рь log2 Pi + Я ? Pt — 1 , где Я — неопределенный множитель. Из условия -др— =0 (I = 1, 2, ..., п) получаем систему п уравнений log2P; - Я - log2e (i =1,2,..., п). A6.11) Величина Я может быть найдена из условия A6.10), но этого не требуется, так как из равенства A6.11) вытекает, что все Рс одинаковы и, следовательно, экстремум Н достигается при Pt = = 1/П' н* Так как —%* = Цгг- < ° ^ = ^ 2» •••» п)> то точка экстре- экстремума соответствует максимуму Я. Из доказанного свойства выте- вытекает следующая важная оценка энтропии произвольной системы: H(A)<\og2n, A6.12) где п — число возможных состояний системы. 120
Рис. 32. Зависимость энтропии бинарной системы от вероятно- вероятности первого состояния 0,5 О 0,5 Примеры определения энтропии различных систем. Пусть имеется система с двумя возможными состояниями (бинарная система). Вероятность первого со- состояния равна Р, второго 1 — Р. Энтропия бинарной системы Я == —Р log2 P — — A — Р) log2 A — Р). Она достигает максимума при Р =- 0,5, при этом Ятах — = 1 бит. Зависимость Я от Р показана на рис. 32. Разберем систему, состоящую из п элементов,, каждый из которых может иметь т состояний. Требуется определить максимально возможную энтропию си- системы. Для решения следует найти число возможных состояний системы N. Если каждый элемент может иметь т состояний и состояния одного элемента произ- произвольно сочетаются с состояниями других, то при двух элементах могут обра- образоваться mm = т2 различных состояний. В общем случае, при п элементах число состояний системы N = mn. A6.13) Для иллюстрации на рис. 33 приведены различные состояния системы из трех элементов, каждый из которых имеет два возможных состояния (общее число состояний равно восьми). Так как система имеет N состояний, то максимально возможная энтропия системы #max = log2 N = log2 mn = п log2 т. A6.14) Элемент 1 2 3 Код состояния элемента Состояние элемента V А 0 V V V Состояния системы и их коды 111 Д t^. 110 101 Л Л к? 100 011 0*0 001 000 Рис. 33. Состояние системы из трех элементов (я=3), каж- каждый из которых имеет два состояния (т = 2) 121
ПТ)\ Рис. 34. Система с непрерывным распределением состояний [состоя- [состояние определяется температурой Т с плотностью распреления / (Г)] Величина Яшах достигается при равной вероятности всех комбинаций (со- (состояний). Энтропия системы, имеющей непрерывное распределение со- состояний. Предположим, что в качестве системы рассматривается температура объекта, принимающая непрерывный ряд случайных значений в интервале от а до Ь (непрерывное распределение со- состояний) (рис. 34). Непрерывное распределение может быть за- заменено дискретным, если разбить область изменения на п одина- одинаковых интервалов AT. Тогда энтропия системы 1=1 A6.15) где Р (Т^ — вероятность температуры объекта в интервале со средним значением Ть. Так как Р (Т() = / (Ti) Д7\ A6.16) где / (Тд — плотность распределения температуры при Т = - Tif то = - ? / {Ti) log2 HTt) AT - log2 AT Перейдя к пределу при n —» оо, найдем выражение для энтро- энтропии системы с непрерывным распределением параметров H=*-\f(T)\ogtf(T)dT-\ogtbT. A6.17) а При выводе формулы A6.17) учитывалось следующее равен- равенство: Ь Нш = \f(T)dT= I, A6.18) вытекающее из определения плотности вероятности. Отметим принципиальную особенность определения энтропии непрерывной системы: она зависит от шага квантования AT. 122
Выбор шага квантования обусловлен требуемой точностью при аппроксимации непрерывного распределения ступенчатым (ди- (дискретным) распределением, но само существование шага кванто- квантования связано с физической сущностью непрерывного процесса. Достаточно отметить, что любое измерение является дискретным и квантование осуществляется уже в процессе измерения. В ра- равенстве A6.17) величину log2 AT можно рассматривать как начало отсчета энтропии и для многих задач оно оказывается несуществен- несущественным. В общем случае система с непрерывным распределением со- состояний характеризуется параметром х, изменяющимся в преде- пределах —оо < х < оо, и тогда A6.19) Последнее равенство можно записать в форме математического ожидания Я = (—log2 / (х)) - log2 Д*. A6.20) где (х) — математическое ожидание случайной величины х. Энтропия системы, состояния которой (значения л:) подчи- подчинены закону нормального распределения. Пусть плотность распределения х (рис. 35, а) Внося значение / (х) в формулу A6.20), найдем = (log, (a /2H")> + <^#L/ bg2 e - log2 Ax. Так как ((л; — л:J) = а2, то Н = log2 (а У2я) -f 4~ log2e — log2 Ax = log2 а V2, :яе A6.22) Существенно, что энтропия не зависит от среднего значения параметра х и определяется отношением а/Ах. а 3? Ь а) <>) Рис. 35. Системы с непрерывным распределением состояний 123
Можно показать, что при заданной дисперсии состояний а распределение по нормальному закону дает максимальное значе- значение энтропии. Таким образом, если / (х) удовлетворяет уравнению A6.21), то величина Н [формула A6.19)] имеет максимум при двух дополнительных условиях: оо -=o*\ J f{x)dx=\. Рассмотрим теперь энтропию непрерывной системы с равно- равновероятными состояниями на участке а < х < Ь (рис. 35, б). В этом случае -г а< х <Ь f(x)= ь~а A6.23) О у <^ пт х ^~ъ h Из формулы A6.19) получаем ь 1 h n Покажем, что рассматриваемое равновероятностное распреде- распределение обладает наибольшей энтропией. Требуется отыскать экст- оо ремум функции Н = — J f(x)\og2(f(x) Ax)dx при условии 00 оо J f(x)dx= 1. A6.25) — оо Для решения этой задачи, называемой в вариационном ис- исчислении изопериметрической, составляется функция F = = —/ (х) log 2 (/ (х) Ах) + Ц (х), где X — неопределенный мно- множитель Лагранжа. Из условия экстремума Щ- ^ —log2 (f (x) Ax) - log2e + X = О, откуда logj(*) = —logae + X - log2 Ax. A6.26) Из последнего равенства вытекает, что величина / (х) не за- зависит от х и является постоянной. Если параметр х может при- принимать значения только на отрезке а < х < Ь, то из условия A6.25) следует равенство A6.23). Вывод о том, что наибольшая энтропия свойственна равновероятностному распределению по всем возможным значениям параметра, согласуется с аналогичным 124
выводом для дискретных систем. Возникает вопрос: если пара- параметр х может принимать любые значения —оо—<х<оо, то какое распределение является самым «невыгодным» для распоз- распознавания? Естественно, что таким распределением (при одинако- одинаковом шаге квантования) будет распределение с наибольшей энтро- энтропией. В соответствии с равенством A6.26) таким распределением оказывается равновероятностное на бесконечном отрезке Ь — — а = / —> оо. Для него плотность вероятности /(*) = -}--О, A6'2?) но дисперсия распределения о« = -^—-оо. A6.28) Такое распределение не встречается в реальных процессах. Если считать дисперсию ограниченной, то возможный интервал изменения при равновероятностном распределении также будет ограниченным / = &-я = /Т2~а. A6.29) Как указывалось, для распределений с заданной величиной а наибольшее значение энтропии будет иметь нормальное распре- распределение. Если Нх—энтропия нормального распредеделения, Н2 — энтропия равновероятностного на отрезке / = Ь — а распреде- распределения, то в силу соотношений A6.22), A6.24) и A6.29) для одина- одинаковых значений а и шага квантования Ад: - logaor/l2 - log2 ]/iJ->0. § 17. ЭНТРОПИЯ СЛОЖНОЙ СИСТЕМЫ Определение энтропии сложной системы. Во многих случаях целесообразно рассматривать сложную систему, состоящую из нескольких отдельных систем. Допустим, что в качестве системы рассматривается зазор между втулкой и валиком. Втулка (си- (система А) может иметь п групп размеров (состояния Аг, ..., Ап) с вероятностями Р (Аг), ..., Р (Ап)\ соответственно валик (си- (система В) имеет т групп размеров (состояния Вг, ..., Вт) с вероят- вероятностями Р (Вх), ..., Р (Вт). Зазор между втулкой и валиком — объединенная система С = А В — определяется сочетанием со- состояний систем А и В- 125
Система АВ может находиться в одном из следующих тп возможных состояний: т столбцов Л А. ЛгВ2 АхВт A R A R A R П CTDOK J21' ^2D2> - • •» ^2ит ДА. А А, • • •• ЛпВт Состояние ALBj означает, что проведено сочленение втулки размером At с валиком размером В}. Приведенная матрица отображает все возможные сочетания размеров. Для вычисления энтропии системы А В следует составить сумму произведений вероятностей состояний на их логарифмы: i^ A7.1) Рассмотрим сначала случай, когда системы А и В независи- независимы, т. е. реализация одного из состояний системы А не влияет на вероятность возможного состояния системы В и наоборот. В этом случае P(AlBl) = P(Ai)P(Bj). A7.2) Энтропия сложной (объединенной) системы в соответствии с равенствами A7.1) и A7.2) п т Н (АВ) = - g S Р (А,) Р (В,) log2 [P (At) P (В,)] = = - g f P(At) Р (В/) [log,Р(Ад + log2P (В,)]. A7.3) Рассмотрим первую сумму п т т S Д Р (Ад Р (В,) log2 Р (Ад = Р (Ад log2 Р (Ад Д Р (В/) + т Так как для каждой из систем (втулка или валик находятся в одной группе по размерам и не могут одновременно входить в две группы) ?р(Ад=1, A7.4) т ?^E/)= 1, A7.5) то f ? P(AdP(Bt)\og2P(Ad = 2 P(Ad\ogtP(A,). 126
Применяя подобные вычисления для второй суммы, найдем из соотношения A7.3) п т Н (АВ) = —%Р (At) log2 P (At) - 2 /> Щ !о§2 Р (В/) или i-=i /=i Н(АВ) = Н(А) + Н(В). A7.6) Энтропия сложной системы, объединяющей две статистически независимые системы, равна сумме энтропии этих систем. Так как энтропия системы неотрицательная величина, то при объе- объединении систем энтропия возрастает или остается прежней. Энтропия сложной системы, объединяющей две статистиче- статистически зависимые системы. Теперь вероятность того или иного со- состояния системы В будет зависеть от состояния, в котором нахо- находится система А. Так как зависимость систем — свойство вза- взаимное, то подобное утверждение относится и к системе А. В рас- рассматриваемом примере это означает, что при сборке для сохранения постоянства зазора втулки больших размеров сочетаются с вали- валиками больших размеров, а не с валиками произвольных размеров, как в предыдущем случае. Такая сборка называется селективной. Энтропия системы, как и раньше, определяется равенством A7.1), но вместо соотношения A7.2) будем иметь j) = Р (At) Р (В;/А() = Р (Bj) P (Аг1В}). A7.7) В соответствии с зависимостями A7.1) и A7.7) -t tP(Ai)P(Bj/Ai)llog2P(Ai) + \og2P(BJ/Ai)]. A7.8) Первая сумма t 2 P(Ai)P(Bj/Ai)log2P(Ai) = S m)log2m), A7.9) 1=1 /=1 1=1 так как Равенство A7.10) является следствием того, что вне зависи- зависимости от реализации того или иного состояния At одно (и только одно!) из состояний Bj обязательно реализуется х. 1 В приведенном примере это означает, что для сочетания с втулкой из класса Л/ отобраны валики, которые могут, вообще говоря, относиться к различ- различным классам Bj. Величина Р (Bj/Ai) характеризует вероятность принадлеж- принадлежности валика из этой совокупности к классу Bj. Так как валик не может одновре- одновременно принадлежать двум разным классам по размерам и обязательно входит в один из классов, то выполняется условие A7.10). 127
Вторую сумму представим в следующем виде: п т т S S р (А) Р (В;/Ад log2 Р (Bj/At) = Я (At) X ^ (fi//^i) x X log2 P (Бу/Л^ + Р (А2) ^ Я (В//Л) log2 ^ (В/Ма) Н = 2j ^(^/) S p(Bl/Ai)log2P(Bi/Ai) . A7.11) i=i L/=i ; J Величина m Зу/Л4-) log2 P (Bj/At) = H (B/At) A7.12) представляет собой энтропию системы В при условии, что система А находится в состоянии At. Тогда равенство A7.11) можно запи- записать в следующей форме: f Р №) Н (B/At) = H (В/Л), A7.13) г*1 где Н (В/А) — условная энтропия системы В относительно си- системы А. Величина Н (В/А) в соответствии с равенством A7.13) представляет собой среднее (ожидаемое) значение энтропии си- системы В при различных возможных реализациях системы А. Учитывая соотношения A7.9) и A7.13), получаем важное равен- равенство Н{АВ) = Н(А) + Н (В/А). A7.14) Очевидно, что если использовать вторую форму представле- представления вероятности совместного события [соотношение A7.7)], то получим следующую зависимость: Н (АВ) = Н(В) + Н (А/В). A7.15) Условная энтропия. Рассмотрим более подробно понятие услов- условной энтропии. В соответствии с равенствами A7.12) и A7.13) средняя условная энтропия системы В относительно системы А п п т Н(В/А) = 2 т-)Я(В/Д.) = - X ? Р(Л/)Р(В//Л/Iоб8Я(В//Л/). 1=1 1=1 1=1 A7.16) где Н (B/Ai) — частная условная энтропия. Условная энтропия характеризует статистическую связь системы А и В. Если такая связь отсутствует, т. е. Р {BjlAL) = Р (В}) (I = 1, 2, ..., п), то из соотношений A7.4) и A7.16) получаем Н (В/А,) = Я (В/А) = Н (В). A7.17) В этом случае условная энтропия системы совпадает с ее независимой энтропией и соотношения A7.6) и A7.14) становятся одинаковыми. Противоположный случай — наличие детерми- 128
нированной связи состояний систем А и В. Это означает, что услов- условная вероятность может иметь только два значения P(BJ/Al)= 1 или 0 (/ = 1, 2, ..., т\ i= 1, 2, ..., п). Так как для обоих значений Р E//Л,-) log2 P (Bj/Ai) = 0, то для систем с детерминированной связью Н(В/А) = 0. A7.18) В общем случае для произвольной связи систем условная энтропия лежит в пределах О < Н (В/А) < Н (В). A7.19) Левая граница этого неравенства очевидна, так как энтропия, в силу соотношения A7.16), не может быть отрицательной. Со- Составим разность Н(В)-Н (В/А) = - 2 Р (Bj) log2 P (Bj) + + tx S P (A) P (Bj/Aij log2 P (B,/At). A7.20) Учитывая равенство t iBj)= t P(At)P(B,/At), A7.21) 1=1 t=l 1=1 запишем соотношение A7.20) в таком виде: Теперь оценим величину логарифма, используя известное неравенство х 1п*<*—1. A7.23) Кривые у = \пхиу~х— 1 показаны на рис. 36. Из условия A7.23) вытекает log2— > log2 [e(l — х)]. Или, обозначая —р !' 1 = — , X г \tS;) X > ^1 получим log2 р (Д ) > ^1 — р (В./Ал) 1о§ге- Далее будем иметь log8 Рр%*д > iP(B,/At) - РВД log, e и, суммируя по /, найдем ^^ 0. A7.24) 1 Используя разложение логарифма в ряд и обозначая х— 1 + 5» находим ^п A + 5) = 5 — ?а/г + ?3/з — • • • • Отбрасывая старшие члены этого знакопере- знакопеременного ряда, получим условие A7.23). 5 И. А. Биргер 129
=Lnx Рис. 36. Графическая интерпретация не- неравенства /п х <: х — 1 Если все положительные сла- слагаемые умножить на Р (At) и про- просуммировать, то получим Я (В) -Я (В/А) > 0, • A7.25) что и доказывает неравенство A7.19). Отметим, что частная условная энтропия Я (BIAt) может быть боль- больше Я (В), но среднее значение Я (В/А) всегда удовлетворяет неравенству A7.25). Аналогичными свойствами обладает услов- условная энтропия системы А относительно системы В т п = - S Ъ 1 1 A7.26) При условии статистической независимости систем А и В Н(А/В) = Н(А). A7.27) В общем случае О > Н (А/В) < Н (Л). A7.28) Выражения для условной энтропии часто будут использоваться в такой форме: п т н (в/А) = - g s A7.30) Н (А/В) = — t 2 ^ (^/) log2 Из таких зависимостей вытекает Н (А/В) - Н (В/А) = - t 2 Р (М) log2 [P (Л,)/Я E,)]. A7.31) Отметим, что при Я (А) =/= Н (В) условные энтропии Н (А/В) Ц= Ф Н (В/А), что следует из соотношений A7.14) и A7.15). Энтропия комплекса систем. В дальнейшем придется иметь дело со сложными системами, объединяющими комплексы отдель- отдельных систем. Для выявления структуры энтропии в этом случае 130
рассмотрим комплекс, состоящий из трех систем. В соответствии с общим определением энтропии Я (АВС) = - 2 2 jjP(AtBpk) loga P (A{BjCk). A7.32) Представляя Р (AtBjC^ = Р (Л,-) Р (В;СА/Л(), получим Н(АВС) = Н(А) + Н(ВС/А), A7.33) где Я (ВС/А) = 2 Р (Л,) Я (BC/Ai) = л m г = -222^ (At) P (B,Ck/Ai) log2 P (ВАШ. A7.34) ,=1 /=i ft=i J Если учесть равенство Р (БуСА/Л() = Р (BjlA) P (CkIA[Bj), то Я (ВС/Л) = Я (Б/Л) + Я (С/АВ), A7.35) где Я (С/ЛВ) = 22^ (Л) ^ (В,1А{) Я (Ck/Afii) = n m r = S S ^^ (^) Я (В;Щ Р (CjAfij) log2 Я (CjjAfi/i. A7.36) Из соотношений A7.33) и A7.35) вытекает Н (АВС) = Н(А) + Н (В/А) + Я (С/ЛЯ). A7.37) Таким образом, структура выражения для энтропии совпадает со структурой формул для вероятности совместного появления событий. При вычислении энтропии логарифм условной вероят- вероятности события суммируется по всем состояниям системы. Например, ==- S 2 ? P(AiBjCk)log2P(Ck/AiBJ)i i=\ /=1 k=l п т г . у* \* Vs ^э (АВС }\ой Р(АВ/С) t=l /=1 /5=1 У У п т г п Н(А) = - g S S^ (Мс*) 1о§2 ^ (^) = - S Я (^) log2 P (At). В соответствии со сказанным выражение для Н(АВС) можно записать и в других эквивалентных видах. б* 131
§ 18. ИЗМЕРЕНИЕ ИНФОРМАЦИИ Определение количества информации. Для того чтобы пояснить понятие информации, рассмотрим следующий пример. Допустим, что в данное время объект имеет равные вероятности быть в ис- исправном и неисправном состоянии. Если поступает сообщение от датчика температуры, что изменение температуры меньше 40° С, то объект с вероятностью 60% находится в исправном состоянии; при поступлении сообщения от датчика давления, что давление больше 0,15 МПа, можно гарантировать (с вероятностью единица!) исправное состояние объекта. Какое из этих сообщений несет больше информации? Очевидно, второе, так как оно полностью устраняет неопределенность состояния объекта. Подобные соображения позволяют определить величину ин- информации как разность неопределенностей (энтропии) системы до и после получения информации. Если начальная энтропия си- системы равна Н (А), а после получения информации она состав- составляет Н* (Л), то внесенная информация J= Н(А)-Н*(А). A8.1) В приведенном примере начальная энтропия системы Н (А) = = — (-^ '0§2-у + -g- 1°б2") = !• После получения сообщения от датчика давления вероятности состояния стали 1 и 0 и энтропия НЛА)= — A log2l + 0-log20) = 0. Внесенная информация J = = Н (А) — Н* (А) = 1 бит. Очень часто информация относительно системы А получается с помощью наблюдения за другой, связанной с ней системой В, Обычно эта вторая система (система сигналов) дает информацию о состоянии основной системы. Среднюю величину этой информа- информации, или информативность системы В относительно системы Л, можно определить из равенства JA(B) = H(A)-H(A/B). A8.2) В правой части последнего соотношения содержится разность первоначальной энтропии системы Л и ее энтропии после того, как стало известным состояние системы сигналов В. Так как системы Л и В являются связанными, то, в свою очередь, знание состояния системы Л изменит априорную вероятность состояний системы В. Например, если известно, что объект находится в неисправном состоянии, то вероятность поступления тех или иных сигналов также изменится. Средняя информация, содержащаяся в системе Л относительно системы 5, у JB(A) = H(B)-H(B/A). A8.3) В силу соотношений A7.14) и A7.15) Ja(B) = Jb(A). . A8.4) 132
Равенство A8.4) выражает важное свойство взаимности информа- информации. Так как Я (А/В) = Я (АВ) — Я (В), то из формулы A8.2) вытекает важное соотношение ]А (В) = # (Л) + Я (В) - Я (АВ). A8.5) Принимая во внимание зависимость A7.1), получим 1л№ = -ЪР (Л) log2 Р (А,) -?р (В,) log2 P (Bj) + 2 ^i^,) A8.6) Если учесть равенства A8.7) т !,), A8.8) то1 Ja (В) = - f | Р (AtB,) loga P (At) - - 2 S Р(Л,В )log2P(B/)+ t 2 ^, 1=1 /=1 1=1 /=1 В окончательном виде получаем симметричную формулу для информации, которую несет система сигналов В относительно состояния системы А: 22 i—1 /—1 Если системы А и В независимы, то Р (A^Bj) = P (At) P (В;) и тогда из соотношения A8.9) вытекает JA (В) = JB (А) = 0. С физической точки зрения этот результат очевиден: наблю- наблюдение над одной из систем не может дать информации относительно другой, если между состояниями этих систем нет связи. 1 Вместо равенств A8.7) и A8.8) при выводе можно использовать соотноше- т п ния 2} Р (Bj/Ai) = 11 5j P (Ai/Bj) = 1, домножая соответственно первую и вто- рую сумму в уравнении A8.6). 133
В.некоторых случаях формулу A8.9) удобно использовать в одном из следующих видов: Ja(B)=%IiP (А() Р (Bj/At) log2 [P (Bj/AMP (Bj)]\ A8.10) JA(B) = t 2 я^яад^пРВДРИ,)]. A8.11) i /i Информация относительно состояния системы. Величина JА (В) представляет собой ожидаемое значение информации, содержа- содержащееся в системе В относительно всех состояний системы Л. Если Jа. (В) — средняя информация, содержащаяся в системе В от- относительно состояния^,-, то естественно считать JA{B)= %Р(А(IА1(В). A8.12) 1=1 Сопоставляя равенства A8.10) и A8.12), можно записать т •Ч (В) = ? Р (Bj/At) log2 [P (B,/A,)/P (Bj)] A8.13) или в эквивалентной форме Ja. (В) = | Р (Bj/At) log2 [P (AJB,)IP (Л,)]. A8.14) Отметим, наконец, и такую форму, часто более удобную для вычислений: •Ч(В) = 2 Р(В//Л,.)log2 РР^{А1). A8.15) В силу условия A7.24) величина J'А (В) > 0. Соотношения A8.13) и A8.14) представляют ожидаемое (среднее) значение ин- информации, которую может дать система В относительно состоя- состояния At. Из связи систем А и В следует, что каждое из состояний системы В может содержать информацию относительно какого- либо состояния системы А (и наоборот, так как информативная связь является взаимной). Например, повышенные показатели датчика температуры делают более вероятным неисправное со- состояние объекта. Можно назвать информацией, которую дает состояние Bj относительно состояния Ah следующую величину: у - log2 [Р (АЩ)/Р (Л,)] = log2 /щрщ ^ A8.16) 134
Тогда Ja. (В) представляет собой усреднение этой информации по всем состояниям системы В при условии, что эта информа- информация относится к состоянию At\ т JAi (В) = %Р (B,/At) JA. (Bt). A8.17) Последнее равенство следует из соотношений A8.14) и A8.16). Величину Ja. (Bj) назовем элементарной информацией состоя- состояния Bj о состоянии AL. Она явилась последним звеном при по- постепенном расчленении общего понятия о взаимной информации систем. Величины Ja. (В) и JА (В) являются усреднением элемен- элементарной информации. Вместе с тем элементарная информация имеет ясный физический смысл. Пусть, для определенности, система В представляет собой систему сигналов (признаков), связанных с состояниями системы Л. Тогда, если сигнал Bf встречается оди- одинаково часто при наличии состояния А -ь и при любых других со- состояниях системы Л, т. е. Р (В;/Л,) = Р (Ву), то, очевидно, такой сигнал не несет информации о состоянии Ас. Из формулы A8.16) в этом случае вытекает Ja. (Bj) = 0. Если априорная вероят- вероятность состояния At равна Р (Л,), а после получения сигнала Bj она изменилась и стала Р (Л;ЛВ;), то знание состояния Bj дает некоторую информацию относительно Аь\ JAj (Bj) = log2 [P (AjBflP (Л,)]. A8.18) Но вероятность состояния AL после получения сигнала может стать больше или меньше первоначальной (априорной) вероятности в зависимости от характера связи этих состояний. Например, повышенные температуры могут уменьшать вероятность исправ- исправного состояния объекта. Таким образом, Jаь (Bj) может быть как положительной, так и отрицательной величиной, тогда как Jаь (В) и JA (В) всегда поло- положительны или равны нулю. Элементарная информация JAt (Bj) становится отрицательной, если вероятность состояния At после получения сигнала Bf уменьшается. В равенстве A8.12) величина JA (В) представлялась как ре- результат усреднения по информации, содержащейся в системе В относительно каждого из состояний системы Л. Но можно провести усреднение другим путем, вводя понятие об информации, которой обладает состояние Bf относительно системы Л. Тогда можно записать т JA(B)=%iP(B/)JA(Bl), A8.19) где в силу равенства A8.11) ja (Bj) = S P (AJBj) log2 [P (At/BjVP (Aft A8.20) 1=1 135
или (В,) = g P ШВ;) log2 P (AfltfP (A) P (В,). Отметим, что в общем случае A8.21) JA.(B). A8.22) Правило перестановки. Выше рассматривалась информация, содержащаяся в системе В или ее отдельных состояниях относи- относительно системы Л. Так как система А к В статистически зависи- зависимые, то знание состояний системы А дает информацию относи- относительно системы В. Исходя из равенств A8.4) аналогично A8.19) запишем t(A)=1?lP(Al)JB(Al), 1 = 1 A8.23) где JB (Ai) — информация, которой обладает состояние А-ь относи- относительно системы В. Из сопоставления равенств A8.12) и A8.23) следует JB(Ai) = JAt(B). A8.24) Легко проследить и другие подобные зависимости, вытекающие из свойства взаимности информации. Имеет место следующее пра- правило перестановки: •UP) = -W, A8.25) где а~и~ (J — либо системы, либо отдельные состояния систем. Следствием этого правила являются соотношения A8,4) и A8.23). Можно указать [см. зависимость A8.16)], что JA. (B-) = = JB. (At). Отметим, что неравенство A8.22) не противоречит условию A8.24), так как содержит перестановку различных эле- элементов. Пример вычисления количества информации. Пусть проводится диагностика состояния подшипника по определению содержания частиц железа в масле. Ис- Исследование проведено на 100 двигателях, среди которых 64 имели исправное со- состояние подшипника (состояние Ах), а остальные 36 — неисправное (состоя- (состояние Л2). Были рассмотрены три состояния, различающиеся содержанием железа в г/т масла (табл. 6). Таблицаб Распределение двигателей в зависимости от содержания железа в масле Содержание железа, г/т <4 4—8 >8 Состояние системы измерений в1 . в\ Состояние Аг 40 20 4 Состояние 0 6 30 136
Таблица 7 Вероятности Р [AiBj) в соответствии с табл. 6 X P(Bi) Bi Bt 0,40 0 0,40 вг 0,20 0,06 0,26 вг 0,04 0,30 0,34 р (Ai) 0,64 0,36 Значения вероятностей Р (AiBj)t P (AL) и Р (Bj), полученные на основании табл. 6, приведены в табл. 7. Например, из 100 двигателей 40 характеризовались принадлежностью к состояниям Аг и Вг одновременно (исправные двигатели с со- содержанием железа в 1 т масла 4 г), тогда Р (Alf Bt) = 0,4. Среди 100 двигателей (исправных и неисправных) состояние В3 имели 34, и потому Р (В3) = 0,34. Вычислим среднюю информацию о состоянии подшипников двигателя (си- (система Л), которая содержится в исследовании масла (система В). По формуле A8.9) находим P(Ai)P(Bj) ^ 0^40 + °'06 * ^26 0,30 Найдем величину информации относительно исправного состояния подшип- подшипника, которая содержится в исследовании масла: S ]г ё , 0.04 . 0,04 ¦"*" 064 8 0,64 ё 0,64-0,26 ¦"*" 0,64 8 0,64-0,34 " у При вычислении использовалась формула Р (Bj/Aj) = Р (АХВ:)/Р Подобная информация относительно неисправного состояния Ja2(B)= 2jP(Bi/A*)l0&- ¦ j),06 . 0,06 0,30 0,30 "^ 0,36 g 0,36-0,26+ 0,36 g 0,36-0,34 Выясним значение информации относительно состояния подшипника двига- двигателя, которая образуется после того, как становится известным содержание же- железа в масле. 137
Если содержание железа в 1 т масла < 4 г (состояние формулу A8.21), найдем 2 JA (Вх) = ' то используя 1 0,40 0,40 , 0 , Ig 2 L 0,40 & 0,64-0,40 ^ 0,40 Подобным образом находим 2 Р (AiE ЗЖ4О]=Щ 1 3,20 0,20 Р (At) P (В2) , 0,06 , 0,06 Ig2 L 0,26 & 0,64-0,26^ 0,26 2 1 0,36-0,26 3,04 0,04 0,30 0,30 - 0,05; 1 = 0,85. Ig2 L 0,34 s 0,64-0,34^ 0,34 б 0,36-0,34 Естественно, что наибольшей информацией обладают состояния Вх и В3. В заключение вычислим величину информации, содержащейся в состоя- состоянии Bj относительно состояния Л;: 1 Р (AiBj) Эти значения приведены в табл. 8. Как видно из таблицы, наибольшее зна- значение имеет Ja2 (#i), что соответствует интуитивным представлениям о ценности информации (при содержании железа в 1 т масла < 4 г можно с большой уверен" ностью утверждать, что подшипники двигателя не могут находиться в неисправ- неисправном состоянии). Заключительное замечание. В теории информации предпола- предполагается, что значения вероятностей состояний систем точно из- известны. В действительности, эти вероятности определяются на основании статистических данных, и потому представляют собой случайные величины. Только при бесконечно большом объеме выборок их значения можно считать точными. Приводимые расчетные соотношения относятся к средним зна- значениям, интервальные оценки могут быть установлены с помощью общих методов математической статистики. Таблица 8 Значения информации Jj\. {Bj) по данным табл. 7 А1 Bi 0,64 —оо в2 0,26 —0,64 В* -^2,45 1,29
Глава 8 ДИАГНОСТИЧЕСКАЯ ЦЕННОСТЬ ПРИЗНАКОВ Вводные замечания. В технической диагностике очень важное значение имеет описание объекта в системе признаков, обладаю- обладающих большой диагностической ценностью. Использование не- неинформативных признаков не только оказывается бесполезным, но и снижает эффективность самого процесса диагностики, соз- создавая помехи при распознавании. Количественное определение диагностической ценности при- признаков и комплексов признаков может быть проведено на основе теории информации. Главный принцип, используемый в дальней- дальнейшем изложении, состоит в следующем: 5{шгл^т(г^^^_й^.^^.6 признака определяется информацией, которая вносится^п'ризна- состояний. § 19. ПРОСТЫЕ И СЛОЖНЫЕ ПРИЗНАКИ И ИХ ДИАГНОСТИЧЕСКИЕ ВЕСА Простые и сложные признаки. Пусть имеется система D, кото- которая находится в одном из п возможных состояний D/ (i = 1, 2, . . ., /г). Условимся теперь называть эту систему «системой диагнозов», а каждое из состояний — диагнозом. В большинстве случаев непрерывные различные состояния системы представ- представляются еовокупностью эталонов (диагнозов), причем выбор числа диагнозов часто определяется задачами исследования. Распозна- Распознавание состояний системы D осуществляется путем наблюдения за другой, связанной с ней системой, — системой признаков. Будем называть простым признаком результат обследования, который может быть выражен одним из двух символов или двоич- двоичным числом (например, 1 и 0; «да» и «нет»; + и — и т. п.). С точки зрения теории информации простой признак можно рассматрирать как систему, имеющую одно из двух возможных состояний.) Если kj — простой признак, то два его состояния бу- будем обозначать: kj — наличие признака; kj — отсутствие при- признака. Простой признак может означать наличие или отсутствие 139
измеряемого параметра в определенном интервале; ой может иметь и качественный характер (например, положительный или отри- отрицательный результат испытания и т. п.). Для целей диагностики область возможных значений измеряе- измеряемого параметра часто разбивается на интервалы и характерным является наличие параметра в данном интервале. В связи с этим результат количественного обследования может рассматриваться как признак, принимающий несколько возможных состояний. Условимся называть сложным признаком (разряда т) результат наблюдения (обследования), который может быть выражен од- одним из т символов. Если, как обычно, в качестве символов из- избрать цифры, то сложный признак (разряда т) может быть выра- выражен m-разрядным числом (например, сложный признак 8-го разряда выражается восьмиричным числом). Сложный признак может быть связан и с обследованием качественного характера, если оценка содержит несколько градаций [например, шум (уве- (увеличенный, нормальный, слабый) — трехразрядный признак]. Разряды признака часто будем называть диагностическими ин- интервалами. Разберем некоторые признаки. Одноразрядный признак (т = 1) имеет только одно возмож- возможное состояние. Такой признак не несет какой-либо диагностиче- диагностической информации и его следует исключить из рассмотрения. Двухразрядный признак (т = 2) обладает двумя возможными состояниями. Состояния двухразрядного признака kj можно обозначить kfl и kj2. Пусть, например, признак kj относится к измерению параметра х, для которого установлено два диагно- диагностических интервала: х < 10 и х > 10. Тогда kjX соответствует х < 10, a kj2 обозначает х > 10. Эти состояния альтернативны, так как реализуется только одно из них. Очевидно, что двухразрядный признак может быть заменен простым признаком ?у, если положить kjX = kl и kJ2 = = kj. Этот простой признак можно сформулировать так: пони- пониженное значение параметра х. Трехразрядный признак (т = 3) имеет три возможные значе- значения: kjl9 kJ2i kjZ. Пусть, например, для параметра,* приняты три диагностических интервала: <5; 5—15; >15. Тогда для гфизнака kn характеризующего этот параметр, возможны три значения: kj± kj2 kj3 , HV , т-разрядный признак kj имеет т возможных состояний: &;1, Kj2i • • м #/т* Диагностические веса признаков. Если в результате обследо- обследования выявлено, что признак kj имеет для данного объекта зна- чение kjs$ то это значение будем называть реализацией при- знака kj. Обозначая ее k*-9 будем иметь k* = kIs. 140
В качестве диагностического веса реализации признака для диагноза Д примем A9.1) где Р (Di/k}S) — вероятность диагноза Д при условии, что при- признак kf получил значение kjs\ P (Д) — априорная вероятность диагноза. Величина ZDi (kJS) встречалась в ряде работ по теории ин- информации. А. А. Харкевич [61 ] называет эту величину ценностью информации. С точки зрения теории информации величина Z>Dt (kjS) представляет собой информацию о состоянии Д, ко- которой обладает состояние признака kjs (см. гл. 7).т. Если вероятность состояния Д после того, как стало известно, что признак kj имеет реализацию в интервале s, увеличилась [Р {DJkjs) > P (Д) ], то ZD. (kjs) > 0, т. е. диагностический вес данного интервала признака для данного диагноза положи- положителен. Если наличие параметра в интервале s не изменяет вероят- вероятности диагноза, то ZD. (kjs) = 0, так как Р (Д/&/5) = Р (Д). Наконец, диагностический вес интервала s признака kf по отношению к диагнозу Д может быть отрицательным (отрицание диагноза). Диагностический вес наличия признака kf в интервале s можно записать в виде, более удобном для конкретных вычисле- вычислений: A9.2) где Р (kJS/Di) — вероятность появления интервала s признака kf Аля объектов с диагнозом Д; Р (kjs) — вероятность появления этого интервала у всех объектов с различными диагнозами. Эквивалентность равенств A9.1) и A9.2) вытекает из следую- следующего тождества: Р (kjs) P {Dtlkjs) = Р (Д) Р (VA) - Р (kJaPi). Пример. Пусть на основании статистических данных получены следующие данные о вибрационной перегрузке для исправного Dx и неисправного D2 состоя- состояний объекта (табл. 9). Таблица 9 Вероятности появления перегрузок, % D D2 Р (*/s) 60 0 48 A,5 + 2,5) g 30 30 30 > 2,5g 10 70 22 р (Dd 80 20 141
Из таблицы следует, например, что 10% исправных двигателей имеют пере- перегрузку свыше 2,5 g. На основании статистических данных 80% объектов имеют исправное состоя- состояние (для рассматриваемого ресурса) и 20% — неисправное. Величина перегрузки составляет признак &.-, имеющий три интервала. Например, Р (k/3) = Р (D*) X X Р (kjJDj) + P (D2) P (kj3/D2) = 0,8-0,1 + 0,2-0,7 = 0,22. Диагностические веса интервалов признака будут такими: ^ -|о8'w - °'32; г"' <*'¦> =|0& Р (?/i/?2) 0 р Zd2 (kn) = log2 p = log2 ^g- = - oo; Zd2 (kj2) = log2 0 3 P (k;JD2) о 7 = l0& "P- = 0; ^ (*„) = log2 4|^ = Iog2 ^ = 1,67. Отметим, что диагностический вес второго интервала равен нулю. Это ясно из физических соображений: из условия, что вибрационная перегрузка находится в пределах от 1,5 до 2,5g, нельзя сделать вывод о состоянии объекта. Диагностический вес первого интервала для неисправного состояния ра- равен —оо, что отрицает (по статистическим данным) возможность неисправного состояния. Связь диагностических весов реализаций простого признака. Простой признак kj может иметь две реализации: kjX = kfy kj2 = = kj. В связи с этим можно говорить о наличии или отсутствии признака kj. Диагностический вес наличия признака kf для диагноза Dt ZDi (kf) - log2 [P (kj/D]/P (ft,)]. A9.3) Диагностический вес отсутствия признака Zot (*/) = log2 [P (k,IDt)lP (k,)}. A9.4) Так как существуют очевидные соотношения P(?.)=l_P(fc.); A9.5) Р (k,/Dt) = 1 - Р (k,/D,), A9.6) то Из формулы A9.7) вытекает, что ZD. (kj) и ZD. (kj) всегда имеют разные знаки. Отметим, что если признак к. является случайным для дан- данного диагноза [Р (kjlDi) = Р (&у)], то оба диагностических веса равны нулю. 142
Условный и независимый диагностические веса. Равенства A9.1) и A9.2) определяют независимый диагностический вес данной реализации признака для диагноза Dt. Он характерен для ситуации, в которой обследование по признаку k} прово- проводится первым или когда результаты обследования по другим при- признакам еще неизвестны (например, при одновременном обследо- обследовании по нескольким признакам). Он также характерен для слу- случая, когда вероятность появления данной реализации признака не зависит от результатов предыдущих обследований. Однако известно, что диагностическое значение реализации признака во многих случаях зависит от того, какие реализации признаков получились в предыдущих обследованиях. Бывает, что сам по себе признак не имеет существенного значения, но его появление после некоторого другого позволяет однозначно поста- поставить диагноз (установить состояние системы). Пусть проводится обследование сначала по признаку къ а затем по признаку k2. При обследовании объекта по признаку кг была получена реализация klsi и требуется определить диагно- диагностический вес реализации k2p признака k2 для диагноза Д. В соответствии с определением диагностического веса Формула A9.8) определяет условный диагностический вес реализации признака. Независимый диагностический вес этой реализации Zdc (k2p) = log2 [Р (k^JDt)IP (k2p)]. A9.9) Если признаки kx uk2 являются независимыми для всей сово- совокупности объектов с различными диагнозами A9.10) и условно независимыми для объектов с диагнозом Dt ls), A9.11) то условный и независимый диагностические веса реализации совпадают. Пример определения условного и независимого диагностического веса. Рассматривается обследование по двум простым признакам кг и k2. Для получе. ния статистических данных выбрано по 15 объектов с диагнозами DxuD2 (табл. 10). Считаем, что приводится последовательное обследование (сначала по признаку kx, затем по признаку k2). Из табл. 10 устанавливаем: Р (?2ADA) = 3/10; Р (kt/D2kt) - 4/6; Р №«/*>&) = 4/5; Р (*2/ВД = 7/9; Dfa) = 7/10; Р (k2lD2kx) = 2/6; Dfa) = 1/5; Р (k2/D2kx) - 2/9. 143
Таблица 10 Значения признаков кх и k2 для объектов с состояниями Dx и D2 s 1 2 3 4 5 6 7 8 L кг 1 0 кг l 0 0 0 1 0 0 ? кг 0 0 1 0 1 0 1 1 кг 0 0 0 «0 о 9 10 11 12 13 14 15 L кг 1 0 0 1 1 0 0 kt 1 1 0 0 0 1 1 L kx 0 0 0 0 1 0 1 )t кг ( ) Например, величина Р (k2/D1k1) подсчитывается следующим образом. Из 15 объектов с состоянием Dx признак кл встретился у 10; из этих 10 объектов признак k2 наблюдался в трех случаях. Для того чтобы найти частоту появления признаков для всей совокупности объектов, необходимо знать вероятности состоя- состояний Dx и D2. Предположим, что Р (DJ = 0,6; Р (D2) = 0,4. Тогда = P (DJ P (kt/Dxkd + P (D2) P {k2lD2kx) = 0,6 + 0,4 -i- = о,45. Аналогично Р (k2fkx) = 0,79; Р (kjkx) = 0,55; Р {k2lkx) = 0,21. Условный диагностический вес реализаций признака k2: = log2-??- = -0,58; 0,8 = 0,02; = log2 441- =-0,02. W = log2 Подобным образом находим Zdx (^2/^i) = °»35; Zdx (^2/^1) = —0,70; Zd2 (№) = -0,72; Zd2 (^J = 0,08. Для определения независимого диагностического веса реализаций при- признака k2 находим 75 ; р ( = ТВ" и р = P + P (Da) P (ft,/D2) = 0,6 -jV + 0,4 4r = 0.06. ID 10 Независимый диагностический вес реализаций признака k2: ZDl (k2) = log2 P{p2JkD)l) = 3,03; Zd2 (k2) = log2 P{p2JfR2) = 3,68; v /п 1 rt P_^»/5l) лйо. 7 /fc\ i^ P &/Dl) - 1 Я9 Z?)- («л) == lOgo ~ —U,O^, ^>D9 \^2) == ^Ь2 = — — 1,OZ. p (^2) p (fc2) 144
Диагностический вес реализации комплекса признаков. Рас- Рассмотрим диагностический вес реализаций комплекса признаков /С, состоящего из признака k1 с реализациями kls и признака k2 с реализациями &2р. Возможны два варианта проведения обсле- обследования по комплексу признаков: последовательный и параллель- параллельный. При последовательном (поэтапном) обследовании сначала по признаку А?! и затем по признаку k2будем иметь диагностические веса реализаций для диагноза Д: ZDi (kls) = log2 [P (kJD^lP (Л1я)]; A9.12) l- 09.13) Диагностический вес комплекса признаков при поэтапном обследовании ZDi (М*) = ZDt (ku) + ZDl (k2f)/kls). A9.14) При параллельном (одновременном) обследовании по комплексу признаков кг и k2 диагностический вес реализации Zdl (klsk2p) = log2 [P (kJ^)IDt)lP (klsk2p)]. A9.15) Учитывая равенства р (?lsVA) - р №М) р (VDAs); A9.16) , A9.17) получим, что соотношения A9.15) и A9.14) совпадают. Диагностический вес реализации комплекса признаков не зависит от порядка проведения обследования. Аналогичные ре- результаты справедливы и для двух (или нескольких) комплексов признаков. Если проводится обследование по комплексу признаков К(|А) после проведения обследования по комплексу/f(Tl), то диагности- диагностический вес реализации комплекса К^) для диагноза Dt ZD. (КМ/К™) - log2 [P (KM/DiKW/P (Kl^/КП A9.18) Диагностический вес реализации двух комплексов ZDi (Ki^K™) - ZD. (#oo) + ZD. (KWKM) не зависит от порядка обследования по двум комплексам. Отметим, что понятие диагностического веса реализации при- признака применимо только по отношению к данному диагнозу, как степень его подтверждения или отрицания. Усреднение диагно- диагностического веса по всем реализациям признака и по всем диагнозам приводит к понятию информативной или диагностической цен- ценности обследования. 145
§ 20. ДИАГНОСТИЧЕСКАЯ ЦЕННОСТЬ ОБСЛЕДОВАНИЯ Частная диагностическая ценность обследования. Диагно- Диагностический вес той или иной реализации признака еще не дает представления о диагностической ценности обследования по дан- данному признаку. Например, при обследовании по простому при- признаку может оказаться, что его наличие не имеет диагностического веса, тогда как его отсутствие чрезвычайно важно для установ- установления диагноза. Условимся считать диагностической ценностью обследования по признаку kj для диагноза Dt величину информации, вносимую всеми реализациями признака kj в установление диагноза Д. Для m-разрядного признака ZDi(kj)= ^P{kisIDt)ZDi{kjs). B0.1) s=l Диагностическая ценность обследования учитывает все воз- возможные реализации признака и представляет собой математиче- математическое ожидание величины информации, вносимой отдельными ре- реализациями. Так как величина ZuL (kj) относится только к одному диагнозу Di9 то будем называть ее частной диагностической цен- ценностью обследования по признаку kj, """"" Следует также отметить, что ZD. (kj) определяет независимую диагностическую ценность обследования. Она характерна для случая, когда обследование проводится первым или когда резуль- результаты других обследований неизвестны. Величина ZD. (kj) может быть записана в трех эквивалентных формах: ZDi (kj) = Д Р (kjJD,) log2 [P (kjJDt)/P (kjs)]; B0.2) ZDi (к}) =%Р (VA) 1о§2 [P(Dt/kJS)/P (D,)]; B0.3) s=l m ZDi (kj) = ^ P (kjs/Dd log2 [P (Dtkjs)lP (Д.) Р (kjs)]. B0.4) Диагностическая ценность обследования для простого при- признака ZD. (kj) = P (k,/Dt) log2 [P (kj/ + P (kt/Dt) log2 [P (kjlDt)lP (Щ = P (k,/Dt) log2 [P (kj/D,)/P (k,)\ + [1 - P (kj/Dt)] log2 V-pff' 146
4, / г,0/ "/ \\ \ /1 " / / vf M / \ w и Ш ш АУ\А, т п Ml f Ш ш щ ш щ Х0,8 1. P(kj/1 W г Щ) 0,2 0# 0,6 0,8 1,0 Рис. 37. Зависимость диагности- диагностической ценности простого признака от Р (kj/Dt) и Р (k) Если признак kj является случайным для диагноза Di% Р (kj/Di) т. е. p,k* = 1, то обсле- обследование по такому признаку не имеет диагностической ценности (?/>,(*,-)=0). Зави- Зависимость диагностической цен- ценности простого признака от Р (kj/Di) и Р {kj) пока- показана на рис. 37. Наибольшую диагностиче- диагностическую ценность имеют обсле- обследования по признакам, ко- которые часто встречаются при данном диагнозе, а вообще редко и, наоборот, по признакам, встречающимся при данном диагнозе редко, а вообще — часто. При совпадении Р (&/Д) и Р (kf) обследование не имеет никакой диагностической ценности. Эти выводы совпадают с интуитив- интуитивными правилами, используемыми на практике, но теперь эти правила получают точную количественную оценку. Диагностическая ценность обследования вычисляется в еди- единицах информации (двоичных единицах или битах) и не может быть отрицательной величиной. Последнее понятно из логических соображений: информация, полученная при обследовании, не может «ухудшить» процесс распознавания действительного со- состояния. Выбор величины диагностических интервалов. Величина ZD. (kj) может быть использована не только для оценки эффективности обследования, но и для целесообразного выбора величины диа- диагностических интервалов (числа разрядов). Очевидно, что для упрощения анализа удобно уменьшать число диагностических интервалов, однако это может привести к уменьшению диагности- диагностической ценности обследования. Пример. Пусть измеряется параметр х, возможные значения которого лежат в пределах 0 <: х <: 1. Обследование большого числа объектов показало, что все значения х в указанном диапазоне равновероятны, но для объектов с диагно- диагнозом Dx они лежат в пределах от 0,5 до 0,75 .Требуется найти целесообразное раз- разбиение диапазона х на равные диагностические интервалы, причем результаты обследования должны обладать наибольшей диагностической ценностью для уста- установления диагноза. Рассмотрим несколько способов. Пусть диапазон х разбивается на два интервала: 0—0,5 и 0,5—1. Если обследование по параметру х образует признак klf то наличие х в первом интервале составляет признак &n,j3O втором интервале &12. 147
Легко видеть, что Р (&п) = 0,5; Р (kxlID^ = 0; Р (k12) = 0,5; Р (?12/?>i) = 1. 2 По формуле B0.2) находим Zdx (kx) = ? р (^is/^i) log2 [P {klsIDx)IP (?ls)] = = 0+1 log2 A/0,5) = 1. При разбиении на четыре диагностических интервала @—0,25; 0,25—0,5; 0,5-0,75; 0,75-1) получаем ZD± (kx) = ? Р (kls!Dx) log2 [P (k^/DjyP (kls)]= = 0 + 0+1 log2 A/0,25) +0 = 2. При разбиении на восемь интервалов @—0,125; 0,125—0,25 и т. д.) найдем 8 */>i (*i) = 2 Р QislDi) log2 [Р (kls!Dj)IP (kls)} -- s=l = 0 + 0 + 0 + 0 + 0,5 log2 @,5/0,125) + 0,5 log2 @,5/0,125) + 0 + 0 = 2. В рассмотренном примере диагностическая ценность обследо- обследования возросла вдвое при переходе от двух диагностических ин- интервалов к четырем, а дальнейшее увеличение уже не привело к возрастанию ZDl (kx). Этот результат имеет общий характер. С увеличением числа диагностических интервалов диагностиче- диагностическая ценность признака возрастает или остается прежней, но анализ результатов становится более трудоемким. Следует иметь в виду, что увеличение числа диагностических интервалов часто требует привлечения дополнительного статистического материала для получения необходимой достоверности значения вероятно- вероятностей интервалов. Общая диагностическая ценность обследования. Известно, что обследование, обладающее небольшой диагностической цен- ценностью для одного диагноза, может иметь значительную ценность для другого. Введем понятие общей диагностической ценности обследования по признаку kj для всей системы диагнозов D> опре- определив ее как количество информации, вносимое обследованием в систему диагнозов: = g g P (A) P (k}s/Dd l0& IP (kis/Dd/P (kj.)]. B0.6) Величина Zd (kj) представляет собой ожидаемое (среднее) значение информации, которое может быть внесено обследованием в установление неизвестного заранее диагноза, принадлежащего рассматриваемой системе (совокупности) диагнозов. В другой форме = 2 2 Р <°М1о^ ЩТ s=l 148 2 Р <°
Внесенная информация, как известно, равна разности энтропии системы диагнозов ZD (kf) = H(D)-H (D/kt), B0.8) где = - t Р (Д) bg2 P (D,) - B0.9) первоначальная (априорная) энтропия диагнозов; т Н (D/k,) -= ? P (kjs) H (Djkjs) - B0.10) Sl S=l ожидаемое значение энтропии диагнозов после проведения обсле- обследования по признаку kj\ Н (D/kjs) = - t P (DJk!9) log2 P (Dtlki%) - B0.11) ;=i энтропия системы диагнозов после реализации kjs признака kj. В некоторых случаях представляет интерес определение ди- диагностической ценности реализации признака для всей системы диагнозов. Представляя равенство B0.7) в виде ZD (к,) = Л Р (kJt) ZD (kls), B0.12) получаем Zd (kiS) = tt P ФА.) log2 IP (DilkjJP (A-)]- B0.13) Казалось бы, что возможно и другое определение диагности- диагностической ценности реализации признака = - 2 Р (Д) log2 P (D,) +%P (D,/kJt) log2 P {Djkjs), B0.14) i=l t=l которое дает для всех реализаций, обладающих диагностической ценностью Р (Di/kjs) =f= P (Di)> вообще говоря, несколько иной результат. В силу равенств B0.8), B0.10), B0.12) среднее зна- значение ZD (kjs) и ZD (kjs) одинаково: т т sS P (*„) ZD (kjs) = Sx P (*/,) %d (kjs) = ZD (kj). B0.15) Однако величина ZD (kJS) не является строго положительной и ее использование может привести к противоречиям. Отметим, что формула B0.6) диагностической ценности обследования для всей системы диагнозов может быть использована и для оптималь- оптимального выбора числа разрядов признака. 149
§ 21. ДИАГНОСТИЧЕСКАЯ ЦЕННОСТЬ ОДНОВРЕМЕННОГО ОБСЛЕДОВАНИЯ ПО КОМПЛЕКСУ ПРИЗНАКОВ Общая диагностическая ценность. Рассмотрим сначала случай, когда комплекс признаков А" состоит из двух признаков к1 и&2, имеющих m-i и т2 разрядов. Будем сначала считать, что резуль- результаты обследования по признаку к г заранее неизвестны и требуется определить диагностическую ценность одновременного обследо- обследования по признакам кг и к2. Диагностическая ценность обследования по этому комплексу признаков для всей системы диагнозов измеряется количеством информации, вносимой системами кх и k2 в систему D: ZD {k,k2) = H(D)-H (О/к±к%), B1.1) где H (D) — априорная энтропия системы диагнозов; Н (D/k1k2) — ожидаемая энтропия системы диагнозов после обследования по признакам кх и к2. У я + Учитывая равенства (Dkjtz) = — ^J ? 2j ^ (A^ls^2p) I°g2 ^ ( j = l S=l ps=l Я to//)) + Я (*,/!)*!) = Я (*2) 4. Я (k2/t получим zD ZD \KiK2) == ^ (^) + " (A?i) + " (^2/^1) — " Далее найдем (fc^) = _ 2 Я (Di) log2 P (D,) — 2 P (У t=l s=l /Til /П2 ^J Yj P (^ls) ^ (^2p/^ls) 1°§2 ^ (^2p/^ls) + s=l p=l Diklsk2p) = H(D) Ьг) + Н(О/кгк2), (Dktk2). ku) log2 P (^s) — + B1 B1 .2) .3) /l Ш\ Ш2 Я Mi ТП2 + S 2 2 P(Diklskip)\og2P(Diklsk2P)- SSS l l Pl t=l S=al p==l BL4) Полученное равенство можно представить в следующем виде: ZD(k1k2)^ZD(k1) + ZD(k2/k1), B1.5) где log2 [P (VA)//» (*i,)] - B1-6) t==l S=l диагностическая ценность обследования по признаку klt П Ш\ ТП,2 S P(Diklsk2p)\og2lP(k2p/Dikls)/P(k2p/kls)]- B1.7) ()^i S Б t=l S=l P=l 150
ожидаемая диагностическая ценность обследования по при- признаку к 2 при условии, что обследование по признаку кг прове- проведено, но конкретная реализация неизвестна. Равенство B1.5) означает, что для средних (ожидаемых) зна- значений диагностических ценностей порядок проведения обследо- обследований безразличен. Установим следующее важное равенство: ZD (kjkt) = Н (D/кг) - Я (DKkJcij B1.8) Если представить зависимость B1.7) в виде 1=1 S=l p=:l и учесть соотношения i=l s=l p=l = SS^ (*iAP) H (D/ftlsk2p) = Я (D/MJi B1.10) s=l p=l -i I' i^ 1 l = 2 P (ku) H (D/ku) = H (D/кг), B1.11) S==l то из равенства B1.9) вытекает формула B1.8). Отметим, что Н (D/kJ представляет собой ожидаемое значе- значение энтропии системы диагнозов после проведения обследования по признаку k!, причем знания конкретной реализации признака кх не требуется. Величина ZD(k2lk^) выражает разность «средних» значений энтропии системы после обследования по признаку кх и после обследования по комплексу признаков кг и к2- Если к равенству B1.8) добавить известную зависимость ZD(k1) = H(D)-H(D/k1)f B1.12) то условие B1.5) переходит в B1.1). Частная диагностическая ценность. Определим частную диаг- диагностическую ценность обследования по комплексу признаков кг и к2 для диагноза Д. Представим равенство B1.4) в такой форме: 2 i (*!*•)• B1.13) 1=1 В соответствии с этим равенством частная диагностическая ценность B1.14) s=l p=l 151
Подобно соотношению B1.5) ZD. (ktk2) = ZD. (кх) + ZD. (kjk^ B1.15) где Zot (*0 = ? Я (VA) log2 [P (kJD,)lP (kls)V, B1.16) /711 /Tig Zo. (*^) = SS^ (*iAP/A) lo§2 [^ (fhfJDtk^/P (k2p/kls)]. B1.17) * s=l p=l Как и раньше, будем считать признаки kx и k2 независимыми при P(k2p/kls) = P(k2()) B1.18) и условно независимыми для диагноза Dc при Если признаки kx и k2 удовлетворяют условиям B1.18) и B1.19) одновременно (диагностически независимые признаки), то = 2D/(fta) B1.20) и тогда Zd. {kxk2) = ZD. (Ьх) + ZD. (*,). B1.21) Отметим, что условия B1.18) и B1.19) для полной системы диагнозов не являются независимыми в силу тождества |х JDt) P (VW B1.22) В связи с этим для общей диагностической ценности комплекса признаков условие, подобное B1.21), справедливо только в не- некоторых частных случаях, например если Р (&2р/Д) = Р (&гр)> т. е. если признак k2 не имеет диагностического веса. Общий случай. Выше рассматривался комплекс двух призна- признаков. Для комплекса v признаков Zj li 2j ••• Ip{D^• -k^log2 1=1 S=l p=al 0=1 = ZD B1.23) 152
Аналогичные соотношения справедливы и для частной диагно- диагностической ценности комплекса признаков zD. (k,k2... *v) = S S • • • S ^ (*iA> • • • KoiDd x 1 s=l p=a a=l X log2[P(^AP.. .k^lDt)IP(kJ^.. .Mb B1.24) § 22. ДИАГНОСТИЧЕСКАЯ ЦЕННОСТЬ ПРИ ПОСЛЕДОВАТЕЛЬНОМ ПРОВЕДЕНИИ ОБСЛЕДОВАНИЯ Общая диагностическая ценность. Рассмотрим диагностиче- диагностическую ценность обследования по признаку к2 при условии, что результаты обследования по признаку кх известны (признак к± получил реализацию kls). Диагностическая ценность такого об- обследования с учетом всех возможных реализаций признака кх определялась по формуле B1.8), которую можно записать в виде ZD (k2/ki) = Ц Р (ku) ZD (fta/ftis), B2.1) s=l где условная диагностическая ценность обследования k2 в со- соответствии с равенствами B1.10), B1.11) ZD (кя/ки) = Н (D/ku) ~ H {Dlklsk2). B2.2) В последнем соотношении Н (D/kls) = -%Р (DJku) log2 P {DLlku); B2.3) H (DlkM = - S S P (V*J P (Di/bJhJ bg2 P ФAAP) = = ЪР ihtJhs) H (D/klsk2p). B2.4) p=l В другой форме уравнение B2.2) будет таким: = S S p (Dik2p/kls) log2 [P (DJklsk2p)/P (Dilku)\ = i=i p=i Частная диагностическая ценность. Теперь можно записать выражение для частной условной диагностической ценности об- обследования по признаку к 2 для диагноза Д-. Представляя ра- равенство B2.5) в виде ZD (k2/kls) = ? Р (Df/ftis) ZD| (*2/ftls)f B2.6) 153
m2 ZDt (kjkis) = Ъ Р найдем p__i Если признаки к2икг диагностически независимы (для дан- данной реализации признака к* = k\s) ТО Zlh lb \ 7 (Ъ \ (99 Я\ D \ 2* Is/ — D' \*^2/* \4i?*.\jj Общий случай. Подобные результаты легко обобщаются в слу- случае, когда обследование проводится после того, как стали из- известны результаты обследования по комплексу признаков /Г, включающему признаки к± и кг. Для нового обследования по признаку к3 будем иметь i=lr=l Р 2 Р B2.9) Zd- (кв/К*) = aj P (k3r/Diklsk2()) log2 [P (kQr/Diklsk2p)/P {k3r/klsk2p)], 1 r=l B2.10) где klsk2Q = /С* — реализация комплекса признаков /С. Если проведено обследование по комплексу признаков /С(т° и требуется выбрать новый комплекс признаков для одновремен- одновременного обследования /С(й) с наибольшей диагностической ценностью, то следует исходить из величины Zo (KW/К1:') - ZD (Ш™) + ZD {УК™кг) + ™ .^_i). B2.11) Пример определения' диагностических весов признаков и диагностической ценности обследования. Исследуются три различных состояния объекта (диаг- (диагнозы Dl9 D2> D3) с помощью обследования по девяти простым (двухразрядным) признакам. Из 36 обследованных объектов в первом состоянии оказалось 10, во втором 12, в третьем 14; результаты обследования по признакам указаны в табл. 11. Отметим, что первый диагноз характеризуется наличием не менее двух заштрихо- заштрихованных квадратов (единиц) в первой строке и не менее двух белых квадратов (ну- (нулей) в остальных строках и т. п. Частота встречаемости признака принимается в качестве его вероятности. Например, для первого признака (наличие при- признака klt отсутствие kx): Р (kJDJ = Jq= 0,800; Р (kjD2) = ^- = 0,250; Р (kJD3) = jf = 0,357; Р (*i) = "Л = 0,444. 154
Статистические данные Таблица 11 Признак ki kt kA k k, k9 Геометрические иллюстрации 1 4 7 2 5 В Ni % J 5 9 П 'A V/ /// N, N2 Ш Y/< I I 1 1 1 YY Далее определяется независимый диагностический вес реализаций признаков по формуле A9.1) и независимая диагностическая ценность обследования по ра- равенству B0.3). Результаты расчета приведены в табл. 12. Отметим, что для диагноза Dx наи- наибольшую диагностическую ценность имеет обследование по признакам 1, 2, 3; Для диагноза D2 — по признакам 4, 5, 6 и для диагноза Д3 — по признакам 7, 8, 9. Для всей системы диагнозов значения диагностических ценностей обследований изменяются не столь значительно. В табл. 13 указаны значения условной диагно- диагностической ценности обследований после проведения обследования по первому при- признаку. Из таблицы видно существенное изменение диагностической ценности об- обследований q связи q той, иуш иной реализацией первого признака, 155
Признак ч 1 2 3 4 5 6 7 8 9 Вероятности, диагностические веса реализаций Г а б л [ и диагностические ценности различных признаков Диагноз Dj Dt а. 0,800 0,800 0,800 0,400 0,300 0,300 0,300 0,300 0,400 Р (Dt) Q N 0,848 0,848 0,678 —0,322 —0,737 —0,654 —0,737 —0,737 —0,400 = 0,278 ¦—, N —1,475 —1,475 —1,322 0,263 0,486 0,408 0,486 0,486 0,346 ? N 0,383 0,383 0,278 0,029 0,119 0,089 0,119 0,119 0,047 D2 Р (Dt) =i 0,333 о, 0,250 0,333 0,417 0,750 0,833 0,833 0,333 0,333 0,333 Q N —0,830 —0,415 —0,263 0,585 0,737 0,820 —0,585 —0,585 —0,662 N 0,443 0,263 0,222 —1,000 —1,585 —1,653 0,415 0,415 0,498 •-¦» Q N 0,117 0,037 0,020 0,189 0,350 0,408 0,082 0,082 0,111 со 0,357 0,286 0,357 0,357 0,357 0,286 0,786 0,786 0,786 Р (?>з) с» —0,315 —0,635 —0,486 —0,486 —0,486 —0,723 0,652 0,652 0,575 =i 0,389 о» Q N 0,210 0,362 0,363 0,363 0,363 0,437 —1,225 —1,225 —1,141 и Q N 0,023 0,017 0,059 0,059 0,059 0,106 0,251 0,251 0,208 р (k \ 0,444 0,444 0,500 0,500 0,500 0,473 0,500 0,500 0,528 и ц а 12 0,154 0,149 0,107 0,094 0,173 0,179 0,158 0,158 0,141 Приз- Признак kt / 2 3 4 5 6 7 8 ? Z X х (kj/ki) 0,420 0,420 0,011 0,051 0,109 0,109 0,189 Z X X (*/>!) 1,000 0,737 0,863 0,029 0,000 0,007 0,000 Условные z > X (k./k 0,678 0,678 0,830 1,415 1,193 0,033 0,082 диагностические Диагноз Di D2 l) Z X x(W 0,009 0,006 0,136 0,102 0,235 0,137 0,235 ценности обследования D* z x X ЙЛ) 0,678 0,678 0,077 0,103 0,004 0,398 0,278 X Z X 0,009 0,006 0,041 0,071 0,235 0,163 0,235 ZD {k.jk 0,606 0,606 0,310 0,526 0,430 0,196 0,188 Та блица 13 Zt\ (k */^i) 0,284 0,209 0,301 0,070 0,170 0,111 0,170
§ 23. ПОСТРОЕНИЕ ОПТИМАЛЬНОГО ДИАГНОСТИЧЕСКОГО ПРОЦЕССА Необходимый объем информации. В задачах диагностики чрезвычайно существенным оказывается выбор наиболее инфор- информативных признаков для описания объекта. Во многих случаях это связано с трудностью получения самой информации (число датчиков, характеризующих рабочий процесс машины, по необхо- необходимости весьма ограничено). В других случаях имеют значение время и стоимость диагностического обследования и т. п. С теоретической точки зрения процесс диагностического об- обследования можно представить следующим образом. Имеется система, которая может находиться с некоторой вероятностью в одном из состояний, заранее неизвестном. Если априорные вероятности состояний Р (Д) могут быть получены из статисти- статистических данных, то энтропия системы Я (D) = - tx P (Pi) l°g2 P Ш B3.1) В результате полного диагностического обследования по ком- комплексу признаков К состояние системы становится известным (например, выясняется, что система находится в состоянии Dl9 тогда Р (Dx) = 1, Р (Д) = 0 (i = 2, . . ., п). После проведения полного диагностического обследования энтропия (неопределен- (неопределенность) системы H(D/K) = 0. B3.2) Внесенная информация, содержащаяся в диагностическом обследовании, или диагностическая ценность обследования JD (К) = ZD (К) = H{D)-H (D/K) = Я (D). B3.3) В действительности, условие B3.2) удается выполнить да- далеко не всегда. Во многих случаях распознавание носит стати- статистический характер и необходимо знать, что вероятность одного из состояний достаточно высока [например, P(D1) = 0,95]. Для подобных ситуаций «остаточная» энтропия системы Н (D/K)=h * 0. В практических случаях необходимая диагностическая цен- ценность обследования ZD (К) = IH (D), B3.4) где I— коэффициент полноты обследования, 0 < ? < 1. Коэффициент I зависит от надежности распознавания и для реальных диагностических процессов должен быть близок еди- единице. Если априорные вероятности состояний системы неизвестны, то всегда можно дать верхнюю оценку энтропии системы Н (D) < log2 n, B3.5) где п — число состояний системы. 157
Из условия B3.4) вытекает, что объем информации, которую необходимо получить при диагностическом обследовании, яв- является заданным и требуется построить оптимальный процесс его накопления. ^ Условия оптимальности. При построении диагностического процесса следует учесть сложность получения соответствующей информации. Назовем коэффициентом оптимальности диагности- диагностического обследования по признаку kf для диагноза Dt величину biJ = ZDi(kJ)/ciI, B3.6) где ZD. (kj) — диагностическая ценность обследования по при- признаку kj для диагноза Д. В общем случае Zd. (kj) определяется с учетом результатов предыдущих обследований; Сц — коэффи- коэффициент сложности обследования по признаку kf для диагноза Д, характеризующий трудоемкость и стоимость обследования, его достоверность, длительность и другие факторы. Предполагается, что Сц не зависит от проведенных ранее обследований. Коэффициент оптимальности обследования для всей системы диагнозов h =%P (Dd ZD. (k}) I t P (А) оц = ZD. (kj)/Cj. B3.7) При вычислении Xj проводится осреднение информации и сложности обследования по всем диагнозам. Пусть проводится обследование по комплексу признаков kx и к2- Коэффициент оптимальности при одновременном обследо- обследовании Я = [ZD (kx) + ZD (kJkMCi + С,]. B3.8) При обследовании по признаку k2 после того, как известны ре- результаты обследования по признаку къ Я = [ZD (ki) + ZD (*a/*f)]/[Ci + C2]. B3.9) Если коэффициенты оптимальности первого и второго обсле- обследования *кг = ZD (k^lCx\ X2 = Zd (Aj2/^is)/^2» to коэффициент оптимальности для комплекса признаков имеет промежуточное значение: (*i, Unm < * < (**. **)ш«- B3.10) Подобный результат справедлив для обследования по произ- произвольному комплексу признаков. Если проведено обследование по комплексу v признаков с коэффициентом оптимальности A,<v) и добавляется обследование по (v + 1)-му признаку с коэффи- коэффициентом оптимальности Xv+lt то для суммарного обследования коэффициент оптимальности возрастает при A,V+1>X(V) и умень- уменьшается при hv+x WV) 158
Для обследования по комплексу К из v признаков коэффициент оптимальности tfj, B3.11) где Zd (K{v)) — диагностическая ценность обследования по ком- комплексу признаков. Если обследования имеют одинаковую сложность Сх = = С2 = * * = Cv = ^о» то X^ZD(K{v))/(vCo). B3.12) Коэффициент оптимальности будет наибольшим, если необ- необходимая величина диагностической ценности получается при наи- наименьшем числе отдельных обследований. В общем случае опти- оптимальный диагностический процесс должен обеспечить получение наибольшего значения коэффициента оптимальности всего обсле- обследования (условие оптимальности диагностического обследования). Построение оптимального процесса. Если были проведены испытания в последовательном порядке по признакам ?а, А?р, то для оптимального плана процесса должна быть максимальной величина . ZD (»«) + ZD (У»«) + ZD (V»«»;) + • - m , Ъ K = v+--- ' B3ЛЗ) где fta, k$ — реализации признаков ka, k$ (значения признаков, полученные в результате испытания). Однако при построении оптимального процесса имеются прин- принципиальные трудности: реализации признаков заранее неизвестны и решение задачи на каждом этапе имеет вероятностный характер. Выбор диагностического комплекса из общего числа признаков и первоначальный план обследования намечаются из условия максимума: 1 _ ZD Са) + ZD (У*«) + ZD к В числитель этого выражения входят математические ожидания диагностических ценностей обследований. Первым в планируемой очередности проводится обследование по признаку с наибольшим частным коэффициентом оптимальности и т. д. Условие максимума B3.11) остается в силе для комплекса одновременных обследований, когда результаты отдельных об- обследований становятся известными лишь после проведения всего комплекса или когда требуется заранее наметить состав этого комплекса. 159
План дальнейших обследований, составленный после получе- получения результатов первого, должен исходить из максимума и т. д. Очевидно, что построение такого процесса требует рас- рассмотрения очень большого числа вариантов, что затрудняет его использование. В практических задачах может быть использовано построе- построение процесса, близкого к оптимальному с «предсказанием» на несколько шагов. Например, для наиболее простого одношагового процесса в качестве первого обследования принимается обследо- обследование с наибольшим коэффициентом оптимальности X = Zz>(?a)/Ca. B3.16) Вторым назначается обследование, дающее максимум . B3.17) и т. д. Для двухшагового процесса соответственно исходим из величин х- МЦ+МУ*») . B3.18) ?> МУ*«) + МУ *«*»). {23л9) Двухшаговый процесс по сравнению с одношаговым позволяет более обоснованно выбрать очередность обследований, ибо он учитывает не только ценность изолированного обследования, но и прогнозируемую эффективность его сочетания с последую- последующим. Если в результате первых обследований установлено, что наиболее вероятным является диагноз Д и дальнейшие обследо- обследования необходимы для подтверждения диагноза, то при определе- определении коэффициентов оптимальности целесообразно исходить из диагностических ценностей для данного диагноза (или группы диагнозов).
Глава 9 ВВЕДЕНИЕ В АНАЛИЗ СЛУЧАЙНЫХ ПРОЦЕССОВ Вводные замечания. Во многих случаях информация о состоя- состоянии машины поступает в виде случайной функции, т. е. функции, значения которой в различные моменты времени заранее неизве- неизвестны. Подобная ситуация характерна, в первую очередь, для за- задач вибрационной и акустической диагностики [40, 45]. При вибрационной диагностике проводится запись динами- динамических смещений или скоростей с помощью вибродатчиков, уста- установленных на корпусе машины. Вибросмещения корпуса пред- представляют собой случайные колебания, состоящие из множества отдельных колебаний со случайными амплитудами и частотами. Это связано с тем, что вибрации появляются в результате наложе- наложения большого числа разнообразных динамических воздействий, возникающих в элементах машины (собственные и вынужденные колебания, соударения, воздействия рабочей и внешней среды и т. п.). Среди воздействий, носящих хаотический, случайный характер могут быть и «полезные сигналы», несущие диагности- диагностическую информацию о конкретном дефекте. При акустической ди- диагностике записывается шум, вызываемый движением и колеба- колебаниями частей машины и воздействием рабочего процесса на ок- окружающую атмосферу (например, выхлопных газов, реактивной струи и т. п.). Так же как и в задачах вибрационной диагностики, акустические колебания представляют собой случайный процесс, содержащий диагностическую информацию. При анализе случайных процессов в технической диагностике используются два основных метода. Первый метод состоит в изучении общей структуры случай- случайного процесса. Изменение статистических характеристик слу- случайного процесса связывается с появлением неисправностей или других отклонений от нормального состояния машины. Доста- Достаточно напомнить, что опытный механик по изменению шума двига- двигателя часто может определить возникновение дефекта. Второй метод — выделение полезного сигнала на фоне по- помех — состоит в изучении отдельных составляющих случайного 6 И. А. Биргер 161
процесса (например, выявление ошибок зацепления в зубьях шестерен по появлению периодических импульсов с частотой соударений и т. п.). Два указанных направления дополняют друг друга и базиру- базируются на теории случайных процессов. Рассмотрим вкратце основ- основные сведения из математической теории случайных процессов, необходимые для решения задач технической диагностики. § 24. СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ФУНКЦИЙ Общие сведения. Случайной функцией называется функция, значения которой при каждом значении аргумента имеет случай- случайное распределение. В дальнейшем, за редким исключением, рас- рассматриваются случайные функции времени t. Допустим, что тре- требуется определить вибросмещения корпуса двигателя (в пло- плоскости опоры) как показатель состояния двигателя. Для каждого двигателя, например t-ro, вибродатчиком записывается колеба- колебательное смещение xt (t) (при определенной частоте вращения и за определенное время). Очевидно, что кривые xt (t) будут отличаться друг от друга даже в однородной партии двигателей из-за случайных отклоне- отклонений. Вместе с тем функции xt (f) имеют общие черты, и поэтому для данной партии двигателей удобно рассматривать вибросме- вибросмещение как случайный процесс, представляемый одной случайной функцией х (f). Тогда каждая функция xt (t) является конкрет- конкретным проявлением (реализацией) случайной функции, а совокуп- совокупность всех возможных реализаций образует случайную функ- функцию х (f). Нельзя указать заранее, какую именно реализацию, какие значения получит случайная функция х (f)> но можно установить некоторые общие свойства случайной функции. Например, можно определить среднее значение (математическое ожидание) случай- случайной функции и с определенной вероятностью полосу, в которой окажутся реализации случайной функции (рис. 38). Случайная функция является количественным описанием случайного про- процесса, порождающего случайное поведение во времени t пара- параметра х. Случайная функция представляет собой матема- математическую модель случайного x./t) ^rf^^^^> процесса. Часто термины i / ^ъи^^^^у^ «случайная функция» и «слу- «случайный процесс» считают совпадающими, отождествляя \к(ь)> математическую модель и о -. t Рис. 38. Случайная функция 162
Рис. 39. Распределение случайной функции в различные моменты вре- времени Рис. 40. Одномерная плотность распределения и среднее значе- значение случайной функции само явление. Изучение физических механизмов случайных про- процессов обычно невозможно или нецелесообразно и потому в дальнейшем используется статистическая модель процесса в виде случайной функции. Статистические характеристики слу- случайного процесса (случайной функции) выявляются с помощью наблюдения за ее конкретными реализациями. Плотность распределения случайных функций и среднее зна- значение. Будем рассматривать непрерывные случайные функции. В каждый момент времени случайная функция представляет собой случайную величину, имеющую непрерывное распределение. Плотность распределения случайной функции в данный момент времени будем обозначать / (я; t). В такой записи отмечается, что время t рассматривается как параметр. Плотность распреде- распределения позволяет определить среднее значение (математическое ожидание) случайной функции оо = \xf{x\t)dx. B4.1) Среднему значению случайной функции можно дать статистиче- статистическую оценку с помощью наблюдений за различными реализациями случайной функции. На рис. 39 показаны экспериментально опре- определенные реализации случайной функции х (/). Среднее значение в момент времени tx — п x(t ) — — V, г (t \ (9A 9\ П 1 = 1 Совокупность средних значений в различные моменты времени образует х (t). Существенно, что среднее значение случайной функ-( ции (х (f)) не является случайной функцией. Если известна плотность распределения случайной функции в каждом сечении, то х (t) = mx (f) — детерминированная функция времени. На рис. 40 показаны плотность распределения и среднее значение 6* 163
Рис. 41. Различное поведение случайных функций при одинаковых средних зна- значениях случайной функции. В каждом сечении можно найти дисперсию случайной функции оо АД0= \ [x(t) — x(t)]*f(x; t)dx 'У" , B4.3) 00 и среднеквадратичное отклонение t). B4.4) Величина ах (f) практически определяет границы полосы слу- случайной функции, они отстоят от среднего значения х (t) не далее C-5) ах (t). Двухмерная плотность распределения. Плотность распределе- распределения / (я; /) позволяет найти среднее значение случайной функции и ее дисперсию, но не содержит информации о поведении случай- случайного процесса. На рис. 41 показаны две случайные функции, обладающие одинаковыми средними значениями, но одна из них описывает плавный процесс (рис. 41, а), а вторая — сильно перемешанный (рис. 41, б). Значения случайной функции при времени tx и t2 обозначим = *i; x(t2) = B4.5) и будем рассматривать их как связанные случайные величины. Для совокупности двух случайных величин (см. гл. 11) можно ввести плотность совместного распределения /2 \ХЪ B4.6) Величина /2 называется двухмерной плотностью распределения случайной функции. Она показывает, насколько связаны между собой значения случайной функции при двух различных моментах времени. Количественная оценка этой связи дается с помощью автокорреляционной функции. 164
Автокорреляционная функция. Корреляционная функция или корреляционный момент для значений случайной функции в мо- момент времени t± и t2 ОО 00 Кх У» t2) = J J (*i — *i) (*2 — x2) f2 (xv x2, tx, t2) dx± dx2. B4.7) OO OO Величины хг и х2 относятся к одной и той же реализации процесса, а интегрирование (суммирование) проводится по множеству реализаций. Если рассматриваются значения одной и той же слу- случайной функции, но в различные моменты времени, то функция Кх (*и '2) называется' автокорреляционной или просто корреля- корреляционной." Если значения tx и t2 совпадают, то корреляционная функция становится равной дисперсии случайной функции: ОО ОО Кх Vv *i) = J J (xi — xiJf2 (xv x2\ tv t2) dxL dx2 = OO 'OO 00 = J {xi - *iJ / (xi; h) dxi = Dx (h) = ol (/,). B4.8) Из определения корреляционной функции вытекает свойство сим- симметрии .Kx(h, U = Kx{t» h). B4.9) Часто оказывается удобным воспользоваться нормированной авто- автокорреляционной функцией b«»»-?$ZW- B4Л0) Величина рл (tly t2) представляет собой коэффициент корреля- корреляции для значений случайной функции в сечениях tx и t2. В соот- соответствии с равенством B4.8) P,('i. ti)-Px^ t2)=l. B4.11) Так как всегда \Kx(tv Ш<охУ1)<ух&), B4.12) то |Р,&. «|<1- B4.13) Нормированная автокорреляционная функция также обладает свойством симметрии: P*('i, tt) = px(t2, Ъ). B4.14) Если к случайной функции х (t) добавляется неслучайная (де- (детерминированная) функция ф @,то величины Кх{гъ /2), px(tlt t2), (^I ox (t2) остаются без изменения. Последнее вытекает из 165
равенства_B4.6), так как одна и та же величина ф (t) прибавляется к х (t) и х (t). В связи с этим к любой случайной функции можно добавить детерминированную так, что математическое ожидание случайной функции окажется равным нулю, а корреляционная функция и дисперсия^ останутся прежними. Для этого достаточно положить ф (/) = —х (t). Случайные функции с нулевым мате- математическим ожиданием (средним значением) Ч @ = x(t) — x(t) B4.15) называют центрированными или флуктуационными. Если случайная функция умножается на детерминированную, то для **@ = Ф@*@ B4.16) получим Кх* (tu t2) = Ф (h) Ф (t2) Kx (h, t2)\ B4.17) Р**(*ь t2) = px(tu k). B4.18) Из последнего соотношения вытекает, что нормированная авто- автокорреляционная функция не зависит от масштаба измерений, даже переменного во времени. Пример. Измеряемый параметр представляет собой детерминированную функцию времени, на которую накладываются колебания со случайными ампли- амплитудами, но с постоянной частотой х (/) = ф (/) + и cos (со/) + v sin (со/), где a, v — случайные величины, не зависящие от времени, с известными плот- плотностями распределений. Требуется определить статистические характеристики (среднее значение и корреляционную функцию) случайной функции х (/). Среднее значение случайной функции х (/) = ср (/) + «"cos (со/) + ITsin(co/). ОО ОО Автокорреляционная функция [равенство B3.6)] Кх (h, /2) = | | [(и —и) X ОО ОО X cos (со/х) + (v —~v) sin (co/i)] [(и —~п) cos (co/2) + (v —г7) sin (co/2)] / (и, v) dudv, где f (u> v) — совместная плотность распределения случайных величин и и v. Далее находим Кх (tv /2) = о2и cos (co/j) cos (co/2) + q\ sin (co/j) sin (co/2) -f- oo oo + Kuv [cos (co/j) sin (co/2) + sin (со/х) cos (co/2)], где Kuv = J J (u — u) (u — v) X 00 OO X / (ut v) dudv — корреляционный момент случайных величин и и v. Для независимых случайных амплитуд и и v Kx (tv /2) = о2и cos (co/j) X X cos (co/2) + Qy sin (co/j) sin (co/2). Наконец, если ou= ov= а, то Kx (*i» /2) — °2 cos t00 ih — ^i)l ~ a2 cos C00^» где т = /2 — /x — разность сечений по времени. Для независимых случайных амплитуд и и v с одинаковыми среднеквадратичными отклонениями автокорреляционная функция является гармонической функцией расстояния по времени. Нормированная автокорреляционная функция для не- независимых и и v о\ cos (co/j) cos (co/2) + о\ sin (co/^ sin (co/2) ]/>2 COS2 (СО/!) + (^ Sin2 (©ty] [о* COS2 (О)/,) + a^ Sin2(^2)] # При Ол = av = а р^ (/х, /2) = cos (сот). 166
Автокорреляционная функция характеризует главным обра- образом тесноту линейной связи значений случайной функции в двух сечениях. Если значения х (^) и х (t2) независимы (процесс с сильным перемешиванием), то корреляционная функция обра- обращается в нуль. Обратное утверждение имеет ограниченную силу. Из условия Кх (^i> t2) = 0 вытекает, что линейная связь между величинами х (гг) и х (t2) отсутствует или что х (f) представляет собой детерминированную функцию. При наличии линейной связи х (t2) = а0 + агх Цг) или х2 = а0-[-а1х1 B4.19) найдем следующее значение корреляционной функции: оо оо tf*(*i> ^)= J J (xi — xi)(x2 — x2)f2(xi, х2\ tu t2)dxldx2 = aio2x(ti). 00 ОО B4.20) При линейной связи значение корреляционной функции будет наибольшим, что вытекает из неравенства B4.12), которое в дан- данном случае превращается в равенство. Еще более показательным становится величина нормированной автокорреляционной функ- функции при условии B4.19) При линейной связи значений случайной функции в двух сече- сечениях | р* (tl9 t2) | = 1. Можно говорить о положительной и отри- отрицательной корреляции. Если большим значениям х (t^ соответ- соответствуют большие значения х (t2), то корреляция положительна и наоборот. Взаимная корреляционная функция и корреляционное отно- отношение. В практических задачах часто оказывается необходимым установить наличие или отсутствие связи двух случайных про- процессов (например, пульсации давления в потоке газа и перемен- переменных напряжений в конструкции). Если х (f) и у (t) — две случай-' ные функции и рассматриваются их значения в моменты вре- времени tx и t2, то взаимный корреляционный момент оо оо KxvVi, У = J | I*(к) ~ х&)] [у(t2) - у{Щ h(x, у; tlt t2) dxdy, — 00 ОО B4.22) гДе /2 (x, y\ tl9 t2) — плотность вероятности совместного распре- распределения случайных величин х (fj и у (t2). В частном случае мо- 167
y(t2) Рис. 42. Определение корреляцион- корреляционного отношения менты времени могут быть одинаковыми. Существенно, что величины х и у относятся к од- одной и той же реализации дву- двумерного случайного процесса, к одному объекту (пульсация и напряжения в корпусе дан- данного двигателя). Величина Кху (*i> ^2) называется взаимной кор- корреляционной функцией. Нормированная функция взаимной кор- корреляции Рху(h '.) = Кху Vi, Wox (У °у &)]• B4.23) При наличии линейной связи у (t2) = ао + агх (tt) нормирован- нормированная функция I fli>0; _l а±<0. Важной характеристикой зависимости случайных функций у (t) и х (t) является корреляционное отношение. Если ух — среднее значение у при данном х (рис. 42), то корреляционное отношение У (tj к х (*х) {оо J i) dx\ = -Jl, B4.24) где / {х\ tx) — плотность распределения случайной величины х (^); У (U)y ay—среднее значение и среднеквадратичное отклонение случайной величины у (t2). По физическому смыслу о*у представ- представляет собой среднеквадратичное отклонение для случая, когда у (t2) является функцией х (t^, т. е. при наличии строгой кор- корреляции между указанными величинами. В этом случае о^=оу и r\y/x(tu Ь)=1. B4.25) Например, при наличии линейной связи_ у (t2) = а0 + ахх (/х) получим ух = а0 + ахх (^); у = а0 + ахх (/х); оу = \а1\ох и равенства B4.23) и B4.24) совпадают. Аналогичным образом определяется корреляционное отношение х к у: ^ г\х/у Г оо j 2 * (h, /2) = -^ J (ху (h) - х(/1)J/ (у; t2) dy\ = ^. При линейной связи х (tx) и у (t2) r\xjy (tly t2) = 1, что совпадает с равенством B4.25). 168
S 25. СТАЦИОНАРНЫЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ о Общие замечания. Стационарными случайными процессами называются установившиеся процессы, для которых начало от- отсчета времени несущественно. Подобные процессы: часто встре- встречаются в задачах технической диагностики и соответствуют ста- стадии постепенного развития дефекта (различного рода установив- установившиеся колебания, стационарные шумы и т. п.). Наиболее ярким необходимым признаком стационарности процесса является по- постоянство его статистических характеристик (среднего значения и среднеквадратичного отклонения) в любой момент времени. Пусть рассматриваемый процесс описывается стационарной слу- случайной функцией х (/). В каждый момент времени / (т. е. в каж- каждом сечении функции) среднее значение функции х (/) и средне- среднеквадратичное отклонение постоянны: x(t) = const; B5.1) Ох (t) = const. B5.2) Эти условия накладывают существенные ограничения на вид слу- случайной функции. Например, простейшая случайная функция (гармонические колебания со случайной амплитудой и постоян- постоянной частотой со) х (/) = и cos со/ B5.3) не удовлетворяет условиям стационарности. о т На рис. 43 показаны реализации элементарной случайной функции B5.3). Из графиков видно, что средние значения и среднеквадратичные отклонения в различных сечениях функции (например, t± и /2) не являются постоянными и, следовательно, сама функция не является стационарной. Рассмотрим случайную функцию x(t) = u cos со/ + v sin ®*- B5.4) В равенстве B5.4) и, v — случайные амплитуды; со — не- неслучайная (детерминированная) частота. Функции такого типа играют важную роль в теории стационарных процессов .Мате- .Математическое ожидание х (t) = = «cos (со/) + v sin (со/) будет постоянно лишь при условии и = 09 v = o, B5.5) Рис. 43. Элементарная случайная функ- функция X (t) = U COS (СО/)
т. е. амплитуды случайных колебаний должны иметь среднее значение, равное нулю. Среднеквадратичное отклонение о2х (/) = ol cos2 (со/) + ol sin2 (со/) -f Kuv sin (со/) cos (со/), где Kuv — корреляционный момент случайных величин и и v. ах будет постоянно только в случае, если ou = gv = a; B5.6) Кт=0. B5.7) Условия B5.1) и B5.2) являются необходимыми, но недостаточ- недостаточными условиями стационарности. Не нарушая общности, можно изучать центрированный (флуктуационный) случайный процесс xoA) = x(t)-x(t), B5.8) и потому условие B5.1) несущественно. Условие B5.2) является следствием более сильного (необхо- (необходимого и достаточного) условия стационарности г. Оно состоит в том, что автокорреляционная функция процесса Кх (^ь ^2) должна зависеть только от разности времени наблюдений: Kx(tv ««^(/,-У B5.9) или KAtv t*) = Kx(i)> B5.10) где т =/,-*!. B5.11) Ранее было показано [формула B4.7) ], что корреляционная функция для одного и того же момента времени Kx(tu ti) = Kx(t, 0 = al @. Для стационарного случайного процесса согласно равенству B5.9) а2 (/) = Кх {t, t) = Кх @) = const. B5.12) Таким образом, условие B5.2) выступает как следствие равенства B5.10). Для функции B5.4) автокорреляционная функция при усло- условиях B5.6) и B5.7) Кх (tu k) = ol cos (со/!) cos (со/2) + ^ sin (co/i) sin (co/2) == = a2 [cos (co/x) cos (co/2) + sin (co/x) sin (co/2)] = a2 cos (сот). B5.13) 1 Рассматриваются условия стационарности в широком смысле, для которых существенны лишь первые две плотности вероятности. 170
Так как соотношение B5.10) выполняется, то случайная функция х (t) = и cos co? -f v sin ®t B5.14) является стационарной при и = у = 0; ou = ov = o\ Kuv^O. B5.15) Случайные величины и и v должны быть некоррелированными случайными величинами с одинаковыми дисперсиями и нулевыми математическими ожиданиями. Случайные функции вида B5.14) при условиях B5.15) назы- называются элементарными случайными функциями стационарного (флуктуационного) процесса. Произвольный стационарный про- процесс можно представить в виде суммы или последовательности элементарных процессов B5.14) подобно разложению функции в ряд Фурье. Для дальнейшего удобно напомнить необходимые сведения из обычной теории рядов Фурье. Ряды Фурье и интеграл Фурье. Любая функция, необязательно периодическая, с несущественными для практики ограничениями, разлагается в ряд Фурье. Функция ср (t) на отрезке 0 < t ^ Т может быть представлена рядом Фурье оо оо Ф (t) = ао/2 + 2 ak cos (kQt) + 2 h sin (?Ш), B5.16) где т ak --= A J ф (/) cos (kQt) dU B5.17) о t ^ = 0,1,2,... B5.18) J о т —коэффициенты Фурье; ?2 = -j, круговая частота колебаний, соответствующая пе- периоду Т (рис. 44). Если функция является периодической функцией с периодом Г, т. е. = Ф(/), B5.19) то ряд B5.16) дает выражение ф (t) для любого момента времени. -т о t а) 6-) Рис. 44. Разложение функции в ряд Фурье в интервалах @, Т) (а) и (—Г, Т) (б) 171
В случае, когда Т представляет собой у^асЧгок йеПерйодиче* ской кривой, ряд Фурье совпадает с функцией ф (/) только на этом участке. Часто используют представление функции ф (t) на участке, симметричном относительно некоторого начального сечения, ус* ловно принимаемого за начало координат (рис. 44, б). Разложение сохраняет форму B5.16) и в этом случае, но коэф- коэффициенты Фурье будут такими: т т ak^ ^г J ср (/) cos (kQt) dt\bk = -jr J ф (/) sin (kQt) dt; — T —T Q — _iL • Ь О 1 9 (9^ 9ГЛ Существенно, что значения круговой частоты в равенствах B5.17), B5.18) и B5.20) различны. Ряд Фурье можно представить в комплексной форме. Учиты- Учитывая формулу Эйлера е/а = cos а + i sin а, i = Y— 1» придем к следующим соотношениям: cos -?- = ^ ' -е ' ;/2. B5.21) Внося эти зависимости в ряд B5.16), находим со со ф (о = 4-а» + 2 т-(а* -ibk) tlkQt + 2 4- ^+ib^ e~ikQI- B5.22) Имея в виду разложение на участке (—7\ Т), получим с по- помощью равенств B5.20) т 4" iflk - Mk) = -±r j Ф @ [cos (kQt) - i sin (*Q/)] dt - — T T = ~ \yz-ikQtdt\ B5.23) —т 4" ("k + ibk) = 4г \vW (cos (kQt) + i sin (kQt)) dt = —т ekufdt. B5.24) у 172
ббозначим ck — (ak — ibk)/2. Коэффициент, соответствующий отрицательному значению k, c_k = (ak + ibk)/2. Теперь ряд Фурье можно записать в очень компактной форме Ф(*)= 2 **'"*, B5.25) k=— со где т 4 |@е-'ЛО/^; Й = -?-; /? = 0, ±1, ±2,.... B5.26) Если требуется получить представление функции ср (/) на беско- бесконечно большом интервале времени, то ряд Фурье B5.25) пере- переходит в интеграл Фурье. Рассмотрим сумму ряда при Г—> оо. Величина Q становится очень малой, но круговая частота колебаний (о = ?Й, k = 0, ±1, ±2,..., ±оо B5.27) пробегает все значения—оо<со<оо дискретным образом (шаг квантования А со = -р- = Q). При Т —* оо (Q —>0) можно счи- считать, что величина со распределяется непрерывно, причем Дсо = я/Г = Й. B5.28) Учитывая равенства B5.20), в которых переменную интегриро- интегрирования обозначим теперь т, запишем ряд Фурье B5.16) в таком виде: Т оо ( Т оо ( Т 4"SAco cos(@/) J л=1 I —т —т + sin (со/) [ ф (т) sin (cot) dx\. При Г —> оо этот ряд переходит в интеграл Фурье, а первый член ряда исчезает: т Urn 4- f<p(T)dT = O, B5.29) 74 оо у _JT так как предполагается, что интеграл функции ср (t) является ко- конечным. Переходя в остальных членах от суммирования к ин- интегрированию, найдем следующее выражение интеграла Фурье: 00 ( ОО ф @ = •—- J dco I cos (со/) J ф (т) cos (cot) dx [- 0 I —oo oo ^j + sin (со/) J ср (т) sin (cox) dx\. B5.30) —"oo J 173
В другой, более компактной форме равенство B5.30) можно за- записать так: 00 ОО Ф (t) = -^- J dco J ф (х) cos [со (/ — т)] dx. B5.31) Я 0 —оо Важное значение имеет представление интеграла Фурье в ком- комплексной форме. В силу отношений B5.25)—B5.28) будем иметь оо Т 1 V> Г Переходя к пределу при Т—*ооу получим оо оо Ф (t) = -±- | е<°>' da J ф (/) е-м dt. B5.32) 00 ОО Последнее равенство выражает ряд Фурье в комплексной форме. Разумеется, величина о имеет физический смысл круговой ча- частоты колебаний только при положительных значениях; распро- распространение интегрирования на область отрицательных со является удобным математическим приемом «симметризации». Если из- изменить во втором интеграле равенства B5.32) обозначение пере- переменной интегрирования, что не влияет на величину интеграла, то можно записать оо оо <р (f) = -L J da J ф (x) e'40 <'-*> dx =* — oo —oo oo f~ oo If Г = IS" J d@ J ф 00 [_ — OO + i j ф (x) sin со (t — t) dx \. B5.33) -oo J Уравнения B5.32) и B5.33) эквивалентны. Зависимость B5.32) приводит к понятию интегрального пре- преобразования функции. Интегральным преобразованием Фурье для функции ф (t) называют функцию B5.34) Тогда равенство B5.32) можно записать так: оо Ф (f) = _L | е'"' Ф (со) do. B5.35) 174
Оно выражает обратное преобразование Фурье (нахождение ори- оригинала по изображению). При решении линейных дифференциаль- дифференциальных уравнений изображение неизвестной функции находится чрезвычайно просто и задача сводится к отысканию оригинала по изображению. Интегральные преобразования Фурье и Лап- Лапласа играют большую роль в современных математических мето- методах. Перейдем теперь к представлению стационарных случайных функций с помощью рядов Фурье. Спектральное представление стационарной случайной функции. Рассмотрим сначала стационарную случайную функцию, кото- которую можно представить с помощью разложения *(*) = * @ + ? [uk cos (со,/) + vk sin (со,/)], B5.36) k=0 где ukJ vk — некоррелированные случайные величины с нуле- нулевыми средними значениями uk = vk = 0 и попарно одинаковыми среднеквадратичными отклонениями <*uk = <*uk = <V, B5.37) х {t) — среднее значение случайной функции; со, — постоянные числа, характеризующие гармонический состав процесса (круго- (круговые частоты периодических функций): щ = к^- k=\% 2,...,N, B5.38) где Т — интервал времени, в пределах которого осуществляется разложение. В дальнейшем, не нарушая общности, будем рассматривать только флуктуационную часть процесса x(t)-x(t), B5.39) и тогда N *о (/) = 2 [ик cos (со,/) +1/, sin (со,/)]. B5.40) fc=:0 Распределение случайных величин uk и vk можно найти статисти- статистическим путем, разлагая в ряд Фурье различные реализации про- процесса. Соотношение B5.40) можно записать в такой форме: *о(')= S Л, cos (со,/-Ф,), B5.41) где = V и% + vl щ = arctg (vk/uk). B5.42) 175
I i I Wf CJ2 Uix (Oif. fO d) Рис. 45. Спектры функций: a — дискретный; б — непрерывный В равенстве B5.41) случайными являются амплитуда и фаза коле- колебаний. Вследствие того, что процесс является стационарным и его статистические характеристики не зависят от времени, то случайная величина q>k должна иметь равномерное распределение в интервале 0 < ср^, < 2я. Отсчет времени, а следовательно, и фазы колебаний для описания стационарного процесса несущест- несущественны. Дисперсия амплитуды а2[Л*] = 2а1, B5.43) что вытекает из соотношений B5.37) и B5.42). Равенства B5.40) и B5.41) представляют случайные функции в виде гармонических случайных функций со случайными, не- некоррелированными амплитудами и фазами и детерминированными частотами. Для такого процесса автокорреляционная функция [см. уравнение B5.13)] Кх (tl9 t2) = Кх (t2— tx) = Кх (т) = N = 2 о| [cos ((Okh) cos (со&?2) + sin (@&/1) sin @0^2)] или в другой фор- ме, в виде спектрального разложения, N Кх Ы = S <*1 cos (cofcx). B5.44) k=0 Для обычных (детерминированных) функций представление в виде суммы гармонических составляющих составляет спектральное разложение функции. Спектром детерминированной функции называется распределение амплитуды элементарных гармониче- гармонических колебаний в зависимости от частоты. На рис. 45 показан дискретный спектр функции, имеющий в своем составе конечное число гармоник с частотами ©1э (о2,.. ., о)#. Такой спектр характерен для собственных колебаний упругих конструкций. В большинстве практических задач (пуль- (пульсации, акустические колебания, вынужденные колебания кон- конструкций) спектр имеет непрерывный характер, иногда с дискрет- дискретными выбросами. Естественно, что для случайной функции спек- спектральное представление не дает зависимости между амплитудой 176
и частотой колебаний, так как сама амплитуда в равенстве B5.40) представляет собой случайную величину. Но спектральное представление для автокорреляционной функции [равенство B5.44) ] имеет все черты обычного спектраль- спектрального разложения. Оно дает детерминированную связь дисперсии и частоты для элементарной гармонической случайной функции. < Спектром стационарной случайной функции называется зависи- зависимость дисперсии (или половины квадрата среднеквадратичной амплитуды) от частоты соответствующей гармоники. Именно автокорреляционная функция [уравнение B5.44) ] однозначно определяет спектр стационарной случайной 'функции (зависи- (зависимость al от он). Спектральное представление B5.44) относилось к случайной функции с конечным числом элементарных гармо- гармонических функций с частотами соЛ. Рассмотрим теперь более общий случай, когда число состоя- состояний N —¦ со, а круговые частоты щ = ^гк k = 0, 1, 2,..., B5.45) где Т—полупериод представления функции х (f) (интервал времени —Т <t<T). Равенство B5.44) будет справедливо при N —> со, и тогда **(*)=? ctIcosKt). <25'46) k=0 Последнее отношение представляет собой разложение четной функции в ряд Фурье. Свойство четности автокорреляционной функции *,(т) = *,(-*) B5-47) вытекает из условия симметрии (см. § 24) Кх (t1$ t2) = Кх (t2, tx). Для стационарных процессов будем иметь Кх (h — 'i) = Kx ('i— —12), откуда и получается условие четности. В силу отношений B5.20) т а* = 4" \ Кх W cos (о)лТ) d%' *= 1. 2, 3,... т <*о = $г $ Kx(i)dx... B5.48) Далее из условия четности т ol = у. | кх(х)cos(щх) dx, А=1,2,3,.. о т 1 к* W dT- B5*49) 177
Разложение B5.46) справедливо для любой функции Кх (т) с несущественными для практики ограничениями. Из равенства B5.46) при т = 0 получаем важное следствие Кх@) = о* = ? о*. B5.50) Дисперсия стационарной случайной функции равна сумме диспер- дисперсии составляющих гармоник в спектральном разложении: оо *о @ = S [и* cos (®kt) + vk sin (со,*)]. B5.51) fc=0 По мере возрастания k дисперсия случайных величин uk и vk должна стремиться к нулю (процессы с конечной энергией), так как иначе ряд B5.50) не будет сходящимся, а энергия процесса будет бесконечной. Из равенства B5.46) следует, что наибольшее значение коэффициент корреляции имеет при т = 0: Кх @) ]> >1*,(т)|. Стационарная случайная функция с непрерывным спектром. Спектральная плотность. Во многих случаях спектры реальных систем включают настолько много частот, что их можно считать непрерывными (сплошными). Непрерывным спектром7обладают акустические вибрации, вибрации корпусов, шумы и т. п. При непрерывном спектре вместо дискретных значений дисперсий вводится плотность дисперсии. Сохраняя пока представление слу- случайной функции х (t) на отрезке времени от 0 до 7\ введем спек- спектральную плотность, соответствующую k-й гармонике, следую- следующим образом: , B5.52) где Дсо = л;/7\ B5.53) Теперь из равенства B5.49) вытекает т Si (щ) = 2/я J Кх (т) cos (со*т) dr. B5.54) о Соответственно для автокорреляционной функции из формулы B5.46) получим оо Кх (т) - Е s* К)cos Кт) Д(о« B2.55) Перейдем к представлению случайной функции на неограничен- неограниченном интервале времени. Для этого надо рассмотреть соотношения B5.54) и B5.55) при Т —> оо. При возрастании Т можно считать величину (дь изменяющейся непрерывно, так как Асо = я/Г -> 0. 178
Ёеличина а| также стремиФся к нуЛю, а пло'ГносГь дйсйерсйй имеет предел Hm Si (со*) = S,(o)). B5.56) Т->оо Теперь из равенства B5.54) получаем оо Sx (со) = ~ j Кх (т) cos (сот) d%. B5.57) о В соотношении B5.55) можно перейти от суммирования к интег- интегрированию, и тогда Кх (Т) = \ Sx (со) cos (сот) dco. B5.58) о Дисперсия случайной функции с непрерывным спектром Взаимные формулы B5.57) и B5.58) — основные в спектральной теории стационарных случайных процессов, носят название формул Винера—Хинчина. Они устанавливают однозначную за- зависимость между автокорреляционной функцией и спектральной плотностью (плотностью распределения дисперсий амплитуд коле- колебаний по частоте). Представление стационарной случайной функ- функции на неограниченном интервале времени имеет вид оо х0 (t) = J [и (со) cos (at) -f v @) sin (со*)] dco. B5.59) о Оно получается из соотношения B5.40), если учесть, что роль переменной k поручается со и N —> оо. Спектральное представление в комплексной форме. Такое представление оказывается более удобным для теоретического анализа, так как действия с показательной функцией удобнее, чем с соответствующими тригонометрическими функциями. Поль- Пользуясь соотношением B5.21), можно записать уравнение B5.59) в такой форме: оо х0 @ = \ z (со) е"* dco, B5.60) — оо где ( [и (со) — iv (со)]/2 со > 0; 2 @)) = 1 [и (— со) + iv (— со)]/2 со < 0. 179
?ис. 46. Спектральные плотности для обычного Sx (со) и комплекс- комплексного S* (со) представлений Вывод соотношения B5.60) аналогичен переходу от обычного ряда Фурье к ряду Фурье в комплексной форме. Круговая ча- частота со в равенстве B5.60) пробегает не только положительные, но и отрицательные значения. Последние имеют чисто математи- математический смысл и появляются в результате «зеркального отображе- отображения» процесса в область отрицательных значений со. Можно показать, что в связи с этим спектральная плотность при комплекс- комплексном представлении уменьшается вдвое (рис. 46): s: = B5.61) Найдем теперь связь спектральной плотности S* (со) с автокор- автокорреляционной функцией Кх СФ В силу четности Кх 00 из равен- равенства B5.57) вытекает оо оо Sx (со) = 4- [ Кх (т) cos (сот) dx\ 0 = — f Кх (т) sin (сот) dx. 7i J ТС J — оо —оо Умножая второе равенство на i и вычитая из предыдущего, найдем оо 5; (со) = Sx (со)/2 = ~ \ Кх (т) е-"" dx. B5.62) — оо Из формулы B5.58) следует оо Кх (т) = 2 J Sx (со) cos (сот) dco. B5.63) о Но функция S* (со) четная (см. рис. 46), и поэтому оо Кх (т) = J Sx (со) cos (сот) dco. — оо оо В силу четности 0 = j 5^ (со) sin (сот) dco. — оо Из последних равенств получаем Кх(х)= 180 B5.64)
Дисперсий случайной функции оо оо о*=Кх@)= J 5* (со) da = J Sx (со) dco. B5.65) Для реальных процессов дисперсия ограничена, и потому спек- спектральная плотность Sx (со) должна убывать с увеличением со оо так, чтобы интеграл J Sx (со) dco оставался конечным. о Рассмотрим примеры определения автокорреляционной функ- функции и спектральной плотности. Пример 1. Белый шум — случайный процесс с равномерным распределе- распределением спектральной плотности по всем частотам. Термин «белый шум» исполь- используется по аналогии с белым светом, имеющим однородный спектральный состав. Подобные процессы изучались впервые в радиотехнических задачах, в связи с проблемой помех (шума). Рассмотрим процесс с постоянной спектральной плот- плотностью Sx (со) на участке от сох до со2 (Рис- 47). Из условия B5.65) следует, что плотность Sx (со) = О со2 —сох О О < со < ©x; со* < со < со2; со2 < со < оо, где а2 — дисперсия процесса (постоянная по времени). Теперь из равенства B5.58) получаем со 2 Г а2 а2 Кх (т) = cos (сот) cfco = -. — [sin (со2т) — sin (со^т)] J со2 — щ v ' (со2 — сох) т l v 2 ' \ \ )\ ИЛИ Кх (т) = 2а2 (со2 — cos B5.66) При сох = 0 автокорреляционная функция Кх (т) =- тсо2 • sin (со2т). На рис. 48, а показан график этой функции. При со2 -»сю автокорреляционная функция имеет вид, показанный на рис. 48, б. Только в начале координат Кх @) = ст2, а во всех других точках Кх (т) -> 0- Это означает, что при неограниченном белом шуме отсутствует кор- корреляция между значениями случайной функции в два различных момента времени. Рис. 47. Спектральная плот- плотность белого шума 181
/*\ ХЧ ^v Рис. 48. Автокорреляционная функция белого шума Рассмотрим теперь корреляционную функцию для спектра при сох -> со2. В этом случае непрерывный спектр превращается в дискретный с одной линией при со = со2- Из равенства B5.66) находим для этого случая Кх 00 — = a2 cos @2Т)' Таким образом, для колебаний только с одной частотой (при слу- случайных амплитуде и фазе) корреляционная функция представляет собой неза- незатухающую косинусоиду. Пример 2. Известна автокорреляционная функция процесса Кх(ч) = а2е""^'т'. Эта четная функция убывает по мере возрастания т и может быть использована для аппроксимации автокорреляционных функций реальных процессов. Тре- Требуется найти спектральную плотность, соответствующую заданной корреляцион- корреляционной функции. В рассматриваемом примере значительно удобнее воспользоваться комплекс- комплексным представлением для спектральной плотности [уравнение B5.62)], что дает Наличие |т| заставляет разбить интегрирование на два участка, и тогда dT+Je-<'« [О -во где а2 — дисперсия случайной функции х (t). Свойство эргодичности стационарного случайного процесса. Рассмотренные ранее статистические характеристики относились к осреднению по различным реализациям. Например, среднее оо значение случайной функции х (t) = тх = f xf (x\ t) dx. Воз- — оо никает вопрос: в какой мере среднее значение по времени для одной и той же реализации соответствует среднему значению по различным реализациям? Обозначим среднее значение по вре- времени для стационарной случайной функции х (t) B5.67) где Т — время осреднения. 182
Процесс называется эргодическим, если для достаточно боль- большого времени осреднения значения тх и тх (Т) совпадают, т. е. lim ml (Г) = пгх. B5.68) Т->оо Таким образом, для эргодических процессов осреднение по раз- различным реализациям и по времени дает одинаковые результаты. Пример. Нагрузка на крыло самолета в неспокойной атмосфере представ- представляет собой случайную функцию. Для того, чтобы определить среднее значение перегрузки пгх (обычно перегрузка находится в пределах от 0 до 10g) в данный момент времени, надо собрать сведения о достаточно большом числе самолетов в различных районах страны и вычислить среднее значение перегрузки. При осреднении по времени измеряют перегрузки на одном самолете. Если время осреднения достаточно велико и самолет летает во всех районах страны, то есть основания считать, что исследования одного самолета будут достаточно представительны для всего парка подобных самолетов. Это равносильно утвержде- утверждению, что перегрузку крыла самолета можно рассматривать как эргодический слу- случайный процесс. Условия эргодичности могут относиться не только к среднему значению, но и к статистическим характеристикам второго по- порядка г (дисперсии и корреляционному моменту). В более широ- широком смысле свойство эргодичности позволяет судить о всех свой- свойствах случайной функции х (t) по достаточно продолжительному наблюдению одной реализации. Не следует считать, что все стационарные функции являются эргодическими. Пусть, например, к стационарной функции до- добавляется обычная случайная величина (от времени не зависящая) . B5.69) Тогда среднее значение и корреляционный момент (считая зна- значения х (f) и v некоррелированными) J*(t) = mx + v; B5.70) Kx.(t, t + %) = Kx(x) + di. B5.71) Таким образом, функция х* (t) является стационарной, х* (t) = = const, Kx* 0, t + т) = ф (т), но, как легко выяснить, не яв- является эргодичной. Рассмотрим две различные реализации слу- случайной функции (рис. 49). Осредняя по времени реализации, соответствующие различным значениям vx и v2 случайной вели- величины v, нельзя получить одинаковый результат и тем более резуль- результат, совпадающий со средним значением по многим реализациям. Как установить, что данный стационарный процесс является эргодическим? Укажем важнейший достаточный признак эргодичности lim Кх(%) = 0. B5.72) Т-»оо 1 Статистические характеристики более высоких порядков не рассматри- рассматриваются. 183
x*(t) Рис. 49. Две различные реализации случайной функ- функции х* @ = х (t) + v Автокорреляционная функция эргодичного процесса стре- стремится к нулю при увеличении времени корреляции. Условие B5.72) является достаточным для эргодичности процесса по отно- отношению к среднему значению (математическому ожиданию), а для нормально распределенных случайных функций и для корреля- корреляционного момента. Из сопоставления соотношений B5.71) и B5.72) видно, что процесс B5.69) не является эргодическим. Как указывалось, наличие составляющей в виде случайной величины, не зависящей от времени, лишает процесс эргодичности. Отметим, что эргодичностью могут обладать только стационар- стационарные процессы, так как иначе осреднение по времени на длитель- длительном промежутке теряет смысл. В практических задачах об эрго- эргодичности процесса, т. е. о том, насколько одна долго наблюдае- наблюдаемая реализация представительна для всего класса реализаций, часто судят на основании опыта и физических соображений. При выполнении условий эргодичности среднее значение на- находят из равенства B5.67), а автокорреляционную функцию по соотношению Т-х ^7 \ [x(t) B5.73) где Т — время наблюдения процесса; Т — т — время осреднения (рассматриваются одновременно значения t и t + т). Величина Т выбирается настолько большой, чтобы результат не зависел от времени осреднения. Если по мере увеличения Т значения гпх и Кх С*) не стабилизируются, то процесс не является эргодическим.
Глава 10 ПРИКЛАДНЫЕ ВОПРОСЫ ТЕХНИЧЕСКОЙ ДИАГНОСТИКИ Вводные замечания. В механических системах (двигатели, насосы и т. п.) основное назначение технической диагностики — повышение надежности и ресурса изделий с помощью раннего обнаружения дефектов и оптимизации процессов технического обслуживания. Техническая диагностика сложных систем пред- представляет собой систему, которая должна иметь информационное, техническое и математическое обеспечение. Информационное обеспечение включает способы получения диагностической информации, ее хранение и систематизацию. Информационное обеспечение содержит необходимый массив вос- восполняемых технических сведений (обучающие последователь- последовательности и др.). Техническое обеспечение представляет собой совокупность устройств получения и обработки информации (диагностические приборы, датчики, сигнализаторы и т. п.). Важную часть техни- технического обеспечения современных систем диагностики составляют ЭВМ, устройства типа «аналог—код» и др. Математическое обеспечение содержит алгоритмы и программы распознавания. Техническая диагностика как система включает также и коллектив специалистов, ответственных за принятие решений. В настоящее время системный подход к задачам технической диагностики находится в начальной стадии развития. Большин- Большинство опубликованных результатов относится только к отдельным элементам системы. В настоящей главе обсуждаются вопросы контролеспособности изделий, получение диагностической информации и приводятся некоторые практические примеры технической диагностики. § 26. КОНТРОЛЕСПОСОБНОСТЬ И ПОЛУЧЕНИЕ ДИАГНОСТИЧЕСКОЙ ИНФОРМАЦИИ Контролеспособностью называется свойство изделия, заклю- заключающееся в его приспособленности к раннему обнаружению и пре- предупреждению отказов и неисправностей. Под ранним обнаруже- 185
нием понимается выявление дефекта или неисправности в началь- начальной стадии, при которой еще не проявляются отрицательные по- последствия для надежности или работоспособности изделия. Контролеспособность в первую очередь зависит от качества и объема диагностической информации, которая может быть получена при эксплуатации изделия и его техническом обслужи- обслуживании, а также при специальных диагностических испытаниях (диагностических тестах). Важное значение контролеспособность имеет для радио- радиоэлектронных систем, [для которых теория автоматического контроля и поиска неисправностей составляет самостоятельный раздел технической диагностики [1, 39, 52]. Дальнейшее рассмотрение относится к механическим систе- системам. Основные виды диагностической информации. Большая часть информации о поведении системы имеет диагностическую цен- ценность, так как она отражает состояние системы. Состав и состоя- состояние сред, взаимодействующих с изделием (воздух, вода, масло, топливо, продукты сгорания и др.), рабочие параметры процесса (частота вращения, температура, давление и т. п.), вибрация, акустическое и тепловое излучения и т. д, содержат диагности- диагностическую информацию. Во многих случаях весьма полезным оказы- оказывается непосредственное визуальное наблюдение состояния эле- элементов машины с помощью оптических трубок (бороскопов), позволяющее обнаружить наличие трещин, перегрева, коробле- коробления и т. п. К основным видам диагностической информации относятся: спектр вибрации элементов конструкции; спектр акустических колебаний; значение параметров, характеризующих функциониро- функционирование системы; состояние соприкасающихся сред; визуальные наблюдения; данные дефектоскопии. Диагностическое значение имеют не только величины пара- параметров в данный момент времени, но и их изменение во времени (кинетика информативных параметров). Измерение вибраций. В процессе работы элементы машины получают перемещения, изменяющиеся во времени (вибрационные перемещения). Причинами возникновения вибрационных пере- перемещений могут быть циклические процессы при работе машины (вращение роторов, периодические нагрузки и т. п.), собственные колебания элементов конструкции и др. В общем случае каждая точка конструкции имеет простран- пространственное смещение, которое представляет собой геометрическую сумму трех компонентов смещений и (t), v (f), w (f). В каждый момент времени вибросмещения могут быть представлены в виде наложения элементарных гармонических колебаний с различной частотой и амплитудой. Обычно в задачах технической диагно- диагностики измеряется частота до 30 000 Гц (чаще до 10 000 Гц), вибро- виброускорения до 1000 м/с2. 186
u(t) у I—* р Рис. 50. Структурная схема измерений: Д — датчик; П — преобразователь; У — усили- усилитель; Р — регистратор Достаточно общая структурная схема измерений показана на рис. 50. Она применяется, в частности, для измерений ви- вибраций. Датчик D преобразует неэлектрические величины (механиче- (механические перемещения, давления и т. п.) в электрический сигнал. Преобразователь П осуществляет первичные преобразования сигнала (фильтрацию и т. п.). Усилитель У и регистратор Р усиливают и регистрируют сигнал на магнитную или бумажную ленты. Цепь измерения может заканчиваться регистратором, но в современных системах сигнал поступает дальше для обработки и анализа в ЭВМ. В качестве датчиков вибраций используются индукционные и пьезометрические. Последние являются более эффективными, так как имеют небольшие размеры и массу, обладают высокой вибропрочностью и термостойкостью (до 500° С). Вибродатчики закрепляют на детали с помощью фланца или ввертывают в резь- резьбовое отверстие. Конструктивная схема пьезометрического датчика показана на рис. 51. Корпус датчика 1 содержит два пьезоэлемента 6, разделенных токосъемной пластиной 3. Пьезоэлемент обладает тем свойством, что под влиянием механического напряжения в нем вырабатывается разность потенциалов. Давление на поверхности пьезоэлемента создается инерцион- инерционной массой 2, которая поджимается упругим элементом 7. Дат- Датчик закрепляется с помощью резьбового хвостовика 5, сигнал поступает к проводнику 4. Для устранения динамических по- погрешностей первая собственная частота датчика должна превышать измеряемую частоту в 4—6 раз. Измерение акустических колебаний. Вибрация элементов машин, ^происхо- дящая в результате рабочего процесса, собственных колебаний, соударений и т. п., вызывает колебания окружающей среды (воздуха), т. е. служит источ- источником акустических колебаний. В не- Рис. 51. Схема пьезометрического датчика 187
которых машинах, например в авиационных двигателях, мощным источником акустических колебаний (шума) является струя выходящих газов из реактивного сопла, акустическое излучение лопаток компрессора и др. Акустические колебания характеризуются широким непрерыв- непрерывным спектром с отдельными дискретными составляющими. Аку- Акустические колебания представляют стохастический процесс, амплитуды и частоты которого носят случайный характер. Состав спектра, его амплитудно-частотная характеристика (в вероятностном или детерминистском аспекте) имеет большое диагностическое значение для состояния машин. Известно, что опытные механики часто могут «на слух» определить характер неисправности двигателя, турбины и т. п. Естественно, что измерение акустических колебаний, их спек- спектральный анализ повышает ценность акустической диагностики. Для измерения используются микрофоны, основанные на электри- электрических или пьезоэлектрических эффектах с диапазоном частот измерения от 5 до 100 кГц (частота «слышимого» звука 20 кГц). Основной трудностью при использовании виброакустических методов является выделение полезного сигнала на фоне помех. Для обнаружения сигналов, несущих диагностическую информа- информацию, используются фильтры. В последние время установлено, что при появлении трещины образуется интенсивное акустическое излучение с частотой по- порядка от 50 до 500 кГц. Это явление может быть использовано для обнаружения трещин. Измерение постоянных и переменных деформаций и усилий. Диагностическую ценность имеют измерения постоянных и пере- переменных деформаций в элементах конструкций в рабочих условиях. Для измерений используются тензорезисторы в виде петлевого участка тонкой проволоки с диаметром 0,025—0,050 мм (прово- (проволочные тензометры). При растяжении уменьшается поперечное сечение проволоки и возрастает омическое сопротивление, что и регистрируется с помощью потенциометрической схемы. Со- Сопротивление тензорезисторов обычно составляет —100 Ом. Тензорезисторы наклеивают на деталь и закрепляют с помощью бумажной ленты, фольги или цемента. При измерении постоянных деформаций тензорезисторы используют до 400° С, так как при более высокой температуре весьма трудно компенсировать тем- температурные погрешности. При измерении переменных напряжений тензорезисторы мо- могут работать при температуре до 900° С. Точность измерения де- фюрмаций составляет 1—5%, величина наибольшей деформации зависит от механических свойств проволоки (при постоянной де- деформации она составляет несколько процентов, при переменной деформации —0,1%). Измерения параметров процесса. Эти измерения относятся к давлению, температуре, частоте вращения и другим параметрам, 188
Давление в различных полостях машин замеряется с помощью манометров с манометрическими трубками, сильфонами и т. д. Для регистрации быстроизменяющихся процессов применяются датчики давления, использующие пьезоэлектрические, индук- индуктивные и тензорезисторные элементы. Температура в области от —200 до 700° С измеряется термо- термометрами сопротивления. Их действие основано на зависимости омического сопротивления от температуры. Для измерения тем- температуры до 1600° С используются термоэлектрические пиро- пирометры, датчиками которых являются термопары. Регистрация показания температур осуществляется с помощью устройств типа милливольтметров с записью на самописец или в цифровом виде. Для диагностических целей используются также оптические и другие пирометры, регистрирующие излучение нагретых эле- элементов конструкции, в том числе быстровращающихся. Частота вращения замеряется индукционными и фотоэлектри- фотоэлектрическими тахометрами. Наибольшее распространение получили индукционные тахометры, обладающие высокой точностью изме- измерений и надежностью при длительной эксплуатации. В качестве датчика в индукционном тахометре используется вращающийся ротор миниатюрного генератора переменного тока, запись сиг- сигнала производится специальными вольтметрами или электрон- электронными частотомерами. Регистрация состояния соприкасающихся сред. Весьма важ- важную диагностическую информацию несет масло, которое исполь- используется для смазывания и охлаждения трущихся поверхностей (подшипников, шестерен и т. д.). Диагностический контроль осу- осуществляется по наличию стружки и содержанию железа в масле. Используются специальные приборы — сигнализаторы стружки, которые выдают сигнал при наличии в масле металлических ча- частиц. Металлические частицы в выхлопных газах могут быть за- замечены с помощью датчиков, воспринимающих ионизацию среды. Диагностическое значение имеет анализ химического состава выхлопных газов и других продуктов выхлопа. Визуальные наблюдения осуществляются с помощью оптиче- оптических трубок (бороскопов). Для возможности визуального наблю- наблюдения конструкция должна иметь соответствующие полости (лючки и т. п.), позволяющие проводить осмотр. Применяются опти- оптические трубки, дающие увеличение в два-три и более крат, с диаметром поля зрения 3—20 мм. Используются оптические трубки с внутренними зеркалами, позволяющие передать изобра- изображение по криволинейному каналу. В последние годы для этой цели используются световоды, выполненные на основе волокон- волоконной оптики. Принципиальная схема бороскопа показана на рис. 52. С помощью визуального наблюдения обнаруживают поврежде- повреждения и разрушения поверхности, коробление, трещины, перегрев, износ и т. п. 189
Рис. 52. Схема бороскопа: /—рабочие лопатки, подлежащие осмотру; 2 — трубка бороскопа; 3 — оку- окуляр; 4 — глаз наблюдателя; 5 — стекловолоконный кабель; 6 — источник света; 7 — корпус компрессора Данные дефектоскопии. В последние годы методы дефектоско- дефектоскопии (обнаружения дефектов) получили широкое применение в про- процессе производства и ремонта. Использование методов дефекто- дефектоскопии в эксплуатационных условиях чрезвычайно затруднено, так как в большинстве случаев требует частичной или полной разработки изделия. Однако некоторые методы дефектоскопии могут быть использованы в эксплуатационных условиях. Для обнаружения трещин используется токовихревой метод, основанный на возбуждении и измерении вторичных электромаг- электромагнитных полей вихревых токов. С помощью специального датчика обнаруживаются поверхностные трещины и другие дефекты (рис. 53). Широко применяется ультразвуковой методу при ко- котором специальным излучателем вводятся ультразвуковые коле- колебания, после отражения улавливаемые приемным устройством. 8 ( V JO Рис. 53. Схема токовихревого датчика: / — рукоятка; 2 — феррит; 3 — катушка; 4 — лопатка; 5— дефект; 6 — генератор высокой частоты; 7 — усилитель; 8 — детектор; 9 — измерительный прибор; 10 — след де- дефекта; // — осциллограф 190
Трещины, раковины рассеивают колебания и уменьшают интен- интенсивность отраженного сигнала. Находят применение методьГрентгенографии с помощью изо- изотопного источника излучения. Такой источник вводится во вну- внутренние полости, и на фотопленке, расположенной за просвечи- просвечиваемой деталью, получается рентгеновское изображение. По снимку можно обнаружить наличие трещин, обрывов, сколов и т. п. Они в меньшей степени поглощают излучение и потому про- проявляются на пленке в виде затемненных зон. В некоторых случаях могут быть использованы методы цвет- цветной или люминесцентной дефектоскопии. При цветной дефекто- дефектоскопии детали покрывают краской, проникающей в трещины и поры. Далее слой основной краски смывается и деталь покрывается другой адсорбирующей краской, на которой в виде штрихов и пятен выступает хорошо заметная основная краска, оставшаяся в трещинах. При люминесцентном методе основная краска обла- обладает свойством флюоресценции при облучении ультрафиолетовыми лучами ртутно-кварцевых ламп. После удаления основной краски (вещества) некоторые частицы остаются в трещинах и при ультра- ультрафиолетовом свете дают четкое свечение на темном фоне поверх- поверхности детали. Указанные методы позволяют выявить трещины глубиной порядка 0,01—0,10 мм. § 27. ПРИМЕРЫ ТЕХНИЧЕСКОЙ ДИАГНОСТИКИ Ниже приводятся некоторые примеры технической диагностики в различных областях машиностроения. Широкое практическое внедрение методов технической диагностики только начинается, однако первые результаты свидетельствуют о возможностях су- существенного повышения надежности и ресурса машин с помощью диагностики. ,* Техническая диагностика авиационных двигателей. В процессе эксплуатации современных пассажирских двигателей контроли- контролируется 20—40 параметров, причем показания приборов имеют три уровня информации: индикация в кабине летчика; регистра- регистрация на борту самолета; наземные проверки. В кабину летчика выводятся показания важнейших параметров (например, уровня вибрации двигателей), сведения о которых необходимы для правильного пилотирования самолета. Во всех случаях, когда значения параметров достигают предельно допу- допустимых, используется дополнительная сигнализация (световая или звуковая). Значительное количество информации регистри- регистрируется на борту самолета с помощью специальных записывающих устройств с последующим хранением информации на магнитных лентах. Ряд диагностических признаков выявляется при наземной проверке (визуальные осмотры, проверка фильтров и т. п.). 191
На американском двигателе CF-6 контролируются приблизи- приблизительно 40 параметров, среди которых: температура газа за турби- турбиной; температура за компрессором; частоты вращения компрес- компрессора и вентилятора; давление за вентилятором и компрессором; вибрация в зонах вентилятора, компрессора и на корпусах под- подшипников. Регистрируются количество и температура масла, показания детекторов стружки в откачивающей магистрали, перепад дав- давления на маслофильтре, сигнализатор минимального давления масла. Контролируются параметры топливной системы, системы запуска, отбора воздуха и других систем. Большинство параметров записываются 1—2 раза за полет (давление, уровень вибрации, частота вращения) и далее на- направляются в диагностический центр для анализа. В результате анализа и сопоставления с предыдущими показаниями принимается решение о продолжении нормальной эксплуатации, либо о до- дополнительном осмотре, замене детали, узла или снятии двига- двигателя с эксплуатации. В диагностическом центре решение прини- принимается группой специалистов, анализирующих поступающую информацию. Для выработки решений могут использоваться ЭВМ, что способствует принятию более обоснованных решений. Применение счетчиков ресурса. Эквивалентные испытания авиационных двигателей показали, что наибольшие поврежде- повреждения, особенно деталей горячей части, происходят при работе на наиболее тяжелом (взлетном) режиме. При эксплуатации процент использования тяжелых режимов в двигателях гражданской авиа- авиации различен, он зависит от продолжительности полета и других условий. В некоторых американских авиакомпаниях на двига- двигателях устанавливается счетчик ресурса, учитывающий суммар- суммарную длительность наработки на тяжелых режимах и число полет- полетных циклов. Техническая диагностика судовых механизмов. В Канаде на 100 типах механизмов и электромашин кораблей систематически используется анализатор вибраций [33]. Обнаруживаются по- повреждения, вызванные неуравновешенностью, расцентровкой и изгибом валов, неисправности шестерен и подшипников. Состоя- Состояние определяется с помощью ЭВМ, которая сопоставляет уровень вибраций с прежними значениями и нормами. На основании статистических сведений получены данные, показывающие зависимость среднего срока службы механизма от уровня вибрации, позволяющие своевременно производить профилактические работы и замены. Указывается, что диагностическая система дает 2 млн. дол- долларов экономии; число неисправностей, обнаруживаемых в про- процессе непосредственной эксплуатации, снизилось на 45%. Под- Подробный анализ технического состояния судовых механизмов и применение диагностических методов содержится в книге [45]. В числе судовых механизмов рассматриваются паровые и газовые 192
турбины, дизели, насосы, компрессоры и др. Основное внимание уделяется вопросам акустической диагностики. Техническая диагностика поршневых двигателей. Поршне- Поршневые двигатели (автомобильные, тракторные, стационарные и транспортные дизели) имеют широкое применение. Эксплуатация автомобильных и тракторных двигателей носит массовый харак- характер. Определение технического состояния двигателя без разборки позволяет повысить его надежность и улучшить техническое обслуживание. Следует учесть, что трудоемкость ремонта двига- двигателей массового производства превосходит трудоемкость изготов- изготовления в 5—10 раз. Проведение профилактических работ и ре- ремонта «по состоянию» дает значительный экономический эффект. Диагностика осуществляется с помощью передвижных станций, оснащенных виброакустической аппаратурой. Вопросы вибра- вибрационной и акустической диагностики поршневых двигателей рас- рассматриваются в работах [40, 45]. В работе [21 ] описывается диа- диагностический прибор, основанный на использовании логических методов диагноза (см. гл. 6). Этот прибор, построенный по схеме диодной матрицы, позволяет различать 33 неисправности двига- двигателя по 53 признакам. В качестве признаков используются, на- например, «белый дым», «низкая компрессия», «повышенный расход масла», «стук в момент пуска» и т. п. Диагностика поршневых двигателей с помощью построения топологических моделей рас- рассматривается в работе [25]. И. А. Биргер
Глава 11 СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТИ Вводные замечания. Эта глава носит вспомогательный характер. Для пони- понимания ряда разделов книги требуется знание основных понятий теории вероят- вероятности х. Ниже дается краткое изложение, рассчитанное на быстрое восстановле- восстановление или восполнение необходимых сведений. * § 28. ОСНОВНЫЕ ПОНЯТИЯ Теория вероятности изучает закономерности часто повторяющихся случай- случайных явлений. Вероятность события. Одним из важнейших понятий теории вероятности является понятие вероятности события. Событием называется любое явление, которое можно определить как свершившееся или несвершившееся. Каждое со- событие должно иметь четкое разграничение указанных двух состояний. Очевидно, что реальность наступления различных событий различна и на основании прак- практического опыта можно указать как достоверные, так и невозможные события. Вероятностью события А называется число Р (Л), характеризующее воз- возможность появления события. Принято считать вероятность достоверного события равной единице, вероятность невозможного события равной нулю. Вероятность случайного события 0<:Р(;4)<:1. B8.1) Строгое введение меры вероятности события требует специальной аксиома- аксиоматики, основанной на теории множеств. Для инженерных приложений достаточно ограничиться следующим определением: Р (А) = т/л, B8.2) где т — число испытаний, при которых событие А появилось; п — общее число проведенных испытаний. В теории вероятности показывается, что определенная таким образом ста- статистическая вероятность события при увеличении числа опытов приближается к истинной вероятности события (точнее, вероятность их отличия становится рав- равной нулю). В некоторых случаях значение Р (А) можно предсказать на основе правдо- правдоподобных соображений. Для иллюстрации трудно избежать примера с подбрасы- подбрасыванием монеты, при котором вероятность выпадения «герба» (событие А) Р (А) = = 0,5. Статистическая вероятность появления «герба» может быть и больше и ¦меньше 0,5, но при увеличении числа испытаний она стремится к этому значению. 1 Традиционное название «теория вероятностей» менее соответствует совре- современному словоупотреблению. 194
Рис. 54. Замыкание цепи (событие С) при различном положении контактов (со- (события А и В) При теоретическом анализе вероятность события часто определяют как отношение числа т случаев, благоприятных для появления события, к общему числу п возможных случаев. Логическая сумма и логическое произведение событий. Группы событий. Для анализа вероятности сложных событий полезно ввести понятие логической суммы (дизъюнкции) и логического произведения (конъюнкции) событий. Суммой событий А и В называют событие С = А V В, B8.3) причем V — знак логического суммирования (дизъюнкции). Событие С считается происшедшим, если произошло хотя бы одно из событий А и В или оба вместе. Произведением событий А и В является событие С = А А В. B8.4) Событие С считается свершившимся, если произошли каждое из собы- событий А и В. Иллюстрацией к понятию суммы и произведения событий может служить параллельное (рис. 54, а) и последовательное (рис. 54, б) соединение двух кон- контактов. Совокупность нескольких событий называется группой событий. Полная группа событий — совокупность событий, хотя бы одно из которых должно про- произойти. Например, событие А и противоположное событие А (отсутствие со- события А) составляют полную группу событий. Группа событий считается несовместной, если любые два события этой группы не могут произойти одновременно. Например, если признак (измеряемый пара- параметр) разбит на три диагностических интервала, а события А19 А2, А3 означают появление признака в соответствующем интервале, то указанные события — не- несовместные. События А и А всегда образуют полную группу несовместных со- событий. Вероятность суммы событий. Разберем вопрос с помощью геометрической иллюстрации (рис. 55, а). Представим себе, что летящая частица с одинаковой <>) в) Рис. 55. Схема мишеней для иллюстрации вероятности события А и вероятности суммы событий А и В 195
Рис. 56. Схема мишеней для суммы трех событий Рис. 57. Схема мишеней для произведения событий вероятностью может попасть в любую точку прямоугольного поля, но не может миновать его (движение частицы в прямоугольной трубе). Какова вероятность того, что частица попадает в мишень Л (событие Л)? Очевидно, эта вероятность P(A)=SA/S, B8.5) где Sa и S — площадь мишени и поля соответственно. Рассмотрим теперь вероят- вероятность суммы событий Р (А у В). Событие А у В осуществится, если частица попадет в мишень Л, либо в мишень В, либо в обе мишени вместе. Иными сло- словами, она должна оказаться в области, где имеется штриховка. Из простых сообра- соображений следует Р (А V В) = Р (А) + Р (В)—Р(А Д'В), B8.6) где Р (Л А В) — вероятность совместного появления событий Л и В (область пересечения кругов Л и В, рис. 55, б). Если события А и В несовместные, то На рис. 55 несовместные события относятся к случаю, когда мишени Л и В не пересекаются (случай в). Исходя из геометрических соображений (рис. 56), можно установить следующую формулу для трех событий: Р(АуВ\/С)==Р(А)+Р(В)+Р(С)—Р(А/\В)- -Р(В/\С)-Р(С/\А)+Р(А А'.В А С). B8.8) Появление последнего слагаемого связано с тем, что в первых трех членах пло- площадь Л А В А С входит два лишних раза, но вычитается в каждом из трех сле- следующих. Если события Л, В и С несовместные (мишени не пересекаются), то Р (А V В V С) = Р (Л) + Р (В) + Р (С). B8.9) Отметим, что если события Л, В и С образуют полную группу событий, т. е. хотя бы одно из них обязательно осуществится, то Р(А \/ В VQ = I- B8.10) Для полной группы несовместных событий из условий B8.8) и B8.9) следует Р(А)+Р (В) + Р (С) = 1. B8.11) В частности, для суммы вероятностей противоположных событий Р(А)+Р(А) = 1. B8.12) 196
Вероятность совместного появления событий (вероятность произведения со- событий). В соответствии с геометрической иллюстрацией (рис. 57) вероятность совместного появления событий А и В (попадания частицы в мишени Л и В одно- одновременно) Р (Л Л В) = SA/KB/St B8.13) где SAAB — площадь области перекрытия мишеней; 5 — общая площадь поля (вылетающая частица может с одинаковой вероятностью попасть в любую точку поля). Формула B8.13) указывает прямой способ вычисления вероятности совмест- совместного появлений событий: число случаев, в которых проявились оба события, от- относится к общему числу возможных случаев. Очень важно найти связь вероятности сложного события с вероятностями составляющих его событий. Разделим и умножим правую часть равенства B8.13) на величину Sa — площадь мишени Л. Тогда Р(АЛВ) = (SA/S) (SAAB/SA). B8.14) Отношение Sa/S = Р (А) представляет собой вероятность события Л. Второе отношение обозначим P(B/A)=SAAB/SA. B8.15) В отличие от равенства B8.13) площадь области А Д В, благоприятной для одновременного появления событий А и В, относится не ко всей площади S, а только к площади Sa, где должно обязательно реализоваться событие А. Это означает, что прямоугольный канал, в котором лежит частица, заменяется кана- каналом с сечением Sa и событие А обязательно происходит, но событие В может про- происходить или не происходить. Вероятность события В при этом определяется от- отношением B8.15). Величина Р (В/А) называется условной вероятностью события В (при условии, что событие А произошло). Из последних равенств получаем одну из наиболее часто применяемых фор- формул теории вероятности Р' (А Д В) = Р (А) Р (В/А). B8.16) Подобным образом (разделив и умножив правую часть равенства B8.13) на Sb) находим Р(А/\В)=Р(В)Р (А/В). B8.17) В теории вероятности более приняты сокращенные обозначения логического произведения событий в виде обычного алгебраического произведения, тогда равенства B8.16) и B8.17) запишут так: Р (АВ) =Р(А)Р (В/А) =Р(В)Р (А/В). B8.18) Понятие условной вероятности приводит к весьма важному условию независимости событий. Событие В считается независящим от события Л, если Р(В/А) =Р^(В). B8.19) Рассмотрим геометрическую иллюстрацию условной вероятности по схеме мише- мишеней. Если мишени А и В представляют собой два круга, то события А и В всегда являются зависимыми. Например, при расположении мишеней, показанных на рис. 58, а, условная вероятность Р (В/А) = 0,25. Если мишень В выходит из круга мишени Л, то Р (В/А) = 0, т. е. если известно, что частица попала в мишень Л, то она не может одновременно пробить мишень В. В каком случае попадания в мишени А и В будут независимыми 197
00,5 A N АлВ' к w A АлВ- о о о Q Q -о о о о о 1 % о О оо о о о о г. о а о о о о о о • • • с • • • •, о о о о о о о о ю о : /о о о о о 0 о о о о о о о о о а) <Г) Рис. 58. Зависимые и независимые события событиями? Это будет в том случае, когда мишень В представляет собой сово- совокупность равномерно распределенных кружков. На рис. 58, б части мишени В, попавшие в круг мишени А, отмечены черным цветом. Легко увидеть, что усло- условие B8.19) соблюдается. События А и В являются независимыми, совместными. Таким образом, несовместные события всегда зависимые, тогда как совмест- совместные события могут быть зависимыми или независимыми. Для независимых со- событий Р (АВ)=Р(А)Р(В). B8.20) Из соотношений B8.17) и B8.19) вытекает условие Р (А/В) = Р (Л), т. е. неза- независимость событий — понятие взаимное. Для группы из трех событий Р (ABC) = Р(А)Р (В/А) Р (С/АВ) = Р(В)Р (А/В) Р (С/ВА) = = Р(С)Р (А/С) Р (В/АС); B8.2-1) для независимых событий Р (ABC) =Р(А)Р (В) Р (С). B8.22) Пример 1. Вероятность безотказной работы авиационного двигателя во время полета составляет Р = 0,99. Какова вероятность того, что на двухмоторном само- самолете не произойдет одновременный отказ обоих двигателей? Обозначим: безотказ- безотказная работа первого двигателя — событие Л, второго двигателя — событие В. Тогда безотказная работа одного из двигателей или обоих вместе есть сумма со- событий А У В. Вероятность отсутствия одновременного отказа двигателей (сумма событий Л и В) [формула B8.6)] Р (А \/ В) = 0,99 + 0,99 — 0,99-0,99 = 0,9999 (принимается условие независимости отказов). Пример 2. Определение надежности при последовательном и параллельном соединении элементов. Для системы питания предложено две схемы, использую- использующие аккумуляторы с напряжением 4 В (рис. 59). В первой схеме применяется последовательное соединение элементов, дающее напряжение 12 В (рис. 59, а), вторая — рассчитана на напряжение 4 В (рис. 59, б). Вероятность безотказной работы элемента Р = 0,9; принимается, что отказ одного из аккумуляторов не влияет на работоспособность другого. Схема с последовательным соедине- соединением. Если обозначить работоспособное состояние элементов событиями Л1э Л2> Л3, то работоспособное состояние всей Ч| Рис. 59. Последовательное ное соединение элементов и п ар ал л ел ь- 198
системы питания А = Аг А А2 А А3. Вероятность безотказной работы при усло- условии независимости событий Р (А) = Р (Аг) Р (А2) Р (А3) = 0,9-0,9-0,9 = 0,729. Схема с параллельным соединением. В этой схеме предусмотрено резерви- резервирование. Работоспособное состояние системы будет в том случае, если хотя бы один из элементов будет работоспособным. Таким образом А = Аг у А2у А3. С помощью равенства B8.8) находим Р (А) = Р (Ах) + Р (А2) + Р (А3) — -Р^ А А2)-Р(Аг А А3)-Р(А3 А Ах) + Р (Аг А А2 А А3) = 0,9 + + 0,9 + 0,9 — 0,81 — 0,81 — 0,81 + 0,729 = 0,999. Этот результат можно получить проще, если вычислить вероятность противо- противоположного события — отказ всех элементов одновременно. Тогда А = Ах Л А А2КА3 и для независимых событий Р (А)=Р (Аг) Р (А2) Р (А3) = A—0,9K = = 0,001. В соответствии с этим Р (А) = 1 — Р(А) = 1—0,001 = 0,999. Из рассмотренного примера видно, что надежность параллельного соединения элементов существенно выше. Разумеется, что другие характеристики системы (например, масса, компактность и т. д.) в первой системе могут оказаться значи- значительно лучше, чем во второй, и решение конструктора должно основываться на учете всех многообразных факторов. Формула Байеса. Эта формула имеет важное значение для проблем диагно- диагностики. Пусть событие А связано с одним из событий Bv ?2, ..., Вп, образующих полную группу несовместных событий. Для определенности будем считать, что А — появление признака (например, появление стружки в масле), а В1У В2,..., Вп — неисправность соответствующих узлов машины. Принимается, что при этом признаке один из узлов машины является неисправным, а одновременный отказ двух узлов маловероятен и исключается из рассмотрения. На основании опыта эксплуатации известна вероятность отказа отдельных узлов: Р (Вг)у Р (В2), ...» Р (Вп). Задачу можно сформулировать таким образом: произошло событие А (появление стружки). Какова вероятность, что причиной появления стружки является неисправность узла ?/? Предполагается, что частота встречаемости (вероятность) признака А при неисправностях отдельных узлов Р (A/Bi) известна из опыта. Вероятность одно- одновременного появления признака А и состояния В/ Р (А А В{) = Р (А) Р (ВUА) = Р (В{) Р (A/Bi). B8.23) Из этого равенства находим вероятность состояния Вг (неисправность узла Bt) Р (Bt/A) = Р (В() Р (A/Bt)/P (A). B8.24) Искомая вероятность найдена, но остается выяснить величину Р (А) — вероят- вероятность появления признака Л. Так как признак появляется только вместе с не- неисправностью какого-либо узла, то это событие представляет собой логическую сумму отдельных событий: А = (А А Вг) V (Л А В2) у • • • V И А Вп). B8.25) В соответствии со сделанным предположением должно реализоваться только одно из возможных событий, и потому Р (А) = Р (A A BJ + Р (А А В2) + • • + + Р (А А Вп) или Р (А)= 2 P(Bj)P(A/Bj). B8.26) /-1 Последнее равенство иногда называют формулой полной вероятности события А, происходящего вместе с полной группой независимых событий. Формула полной вероятности является фундаментальной во многих вопросах теории вероятности. Она выражает следующий принцип: если система имеет несколько возможных несовместных путей перехода в другое состояние, то вероятность перехода равна сумме вероятностей осуществления каждого из них. Несовместные пути — это пути, которые не могут реализоваться одновременно. 199
Из соотношений B8.24) и B8.26) вытекает формула Байеса Р (Bi/A) e P W Р W*i) . B8.27) S Р (В,) Р (A/Bj) Вероятность состояния Bi после появления признака Л, т. е. величину Р (BtIA)y часто называют апостериорной1 [в отличие от априорной вероятности Р (В{)\, Отметим, что л 2 P(Bt/A) = 1, B8.28) t=i что непосредственно следует из равенства B8.27). Из формулы Байеса получается, что для двух состояний Bk и Bi отношение апостериорных вероятностей Р {BklA) _ P(Bk) P (AlBk) P(Bt/A) - P(Bi) P(A/Bi) ' V*'™' Если при состоянии Bk признак А встречается чаще, чем при состоянии В/, т. е. Р (AIB^) > P (A/Bi), то вероятность этого состояния после получения информа- информации о появлений признака А увеличивается. Пример. Применение формулы Байеса. Известно, что 90% шарикоподшип- шарикоподшипников изделия вырабатывает ресурс в исправном состоянии. Признак А — повы- повышение температуры масла выше нормальной на 30° С — встречается у исправных подшипников только в 5% случаев. Требуется определить вероятность исправ- исправного состояния подшипника при появлении признака А. Назовем: исправное состояние Blt неисправное В2. Известно, что Р (Вг) = 0,9; Р (В2) = 1 — Р (Вх)= = 0,1. Вероятности Р (А/Вг) = 0,05; Р (А/В2) = 0,95. По формуле B8.27) рт,Ал Р (В,) Р (А/В,) 0,9-0,05 r KDl//i) Р (Вх) Р (А/Вг) + Р (В2) Р (А/В2) 0,9-0,05 + 0,1-0,95 ~" U> Вероятность исправного состояния подшипника понизилась с 0,9 до 0,32. § 29. РАСПРЕДЕЛЕНИЕ СЛУЧАЙНЫХ ВЕЛИЧИН Случайные и детерминированные величины. Случайной называют величину которая в результате испытания может принять одно из возможных значений, заранее неизвестное (например, время безотказной работы машины). Случайным величинам противопоставляются величины детерминированные, значение которых предопределяется начальными условиями. Например, ускорение, получаемое телом при действии известной силы, можно рассматривать как определенную, детерминированную величину. Но принципиальной разницы между случайными и детерминированными ве- величинами нет. В том же примере, если учесть возможность действия других сил (сил сопротивления воздуха, сил трения), неизбежные неточности измерения сил, массы и другие факторы, то ускорение тела можно признать величиной слу- случайной. Отнесение физической величины к случайным или детерминированным за- зависит от задач исследования, требуемой точности, возможности учета второсте- второстепенных факторов и других обстоя^дьств и определяется соображениями целе- целесообразности. 1 Термины «априори» и «апостериори» означают «до опыта» и «после опыта». В рассматриваемом случае «опыт» представляет собой'исследование наличия или отсутствия признака А. 200
p, 0,$ Рис.60. Распределение дискрет- дискретной случайной величины  X *2 Хз Xk Х5 X Случайные величины подразделяются на дискретные (принимающие отдель- отдельные значения) и непрерывные. Число дефектных деталей в партии изделий — ди- дискретная случайная величина, возможные значения которой 0, 1, 2, ... Время безотказной работы изделия — непрерывная случайная величина. Между ди- дискретными и случайными непрерывными величинами также нет принципиального отличия. Уже при измерении непрерывной случайной величины производится ее дискретизация. Например, время безотказной работы измеряется в часах или других единицах времени в зависимости от ресурса изделия. При большом числе возможных значений описание случайной дискретной величины как не- непрерывной часто более удобно для анализа. Распределение дискретных случайных величин. Закон распределения указы- указывает возможные значения дискретной случайной величины и их вероятности: Возможные значения ... x-t хг х2 хг Вероятности Pt Р± Р2 Рг Закон распределения может быть задан также в виде диаграммы (рис. 60). Отметим важное свойство любого распределения: S pi = l- <29Л) Это свойство становится "понятным, если учесть, что вероятность значения Х[ есть относительная доля общего числа случаев, приходящаяся на данное значение параметра. Величина Pi обозначает вероятность значения случайной величины */. Иногда используют другие равнозначные записи: Pi = Р (xt) = Вер (X = xi) = Р (X = xi). B9.2) Во многих технических задачах нет необходимости учитывать все особенности распределения, достаточно знать некоторые обобщенные его характеристики. Такими важнейшими характеристиками являются среднее значение и среднеквадра- среднеквадратичное отклонение. Среднее значение дискретной случайной величины и математическое ожи- ожидание. Среднее значение случайной величины представляет собой обычное сред- среднее всех значений, полученных во время испытаний. Пусть дискретная случайная величина х (например, число отказов за время испытаний) имела значение хх в тх испытаниях, х2 в т2 испытаниях и, наконец, значение хТ в mr испытаниях. Тогда среднее значение (среднее число отказов) п ' B9' г где п = ^ mi — общее число проведенных испытаний. 201
Равенство B9.2) можно представить в таком виде: =*1^+*2^+... + *,-^ = |V>f. B9.4) где Р* = — статистическая вероятность значения случайной величины х. 1 п При л-юо Р*->Р/. Конечно, величины mi и Р* в конкретном эксперименте являются случай- случайными, так как они получены на основании исследования части изделий, выбран- выбранных из общей совокупности. Эта общая совокупность большого числа однородных изделий (теоретически бесконечная) называется генеральной, а партия п испытуе- испытуемых изделий — выборкой (объема п) из генеральной совокупности. В теории вероятности чрезвычайно большую роль играет понятие математи- математического ожидания (среднего значения для генеральной совокупности). Математическим ожиданием случайной величины х, имеющей возможные значения xlt x2, ..., хг с вероятностями Р19 Р2> •••» ?г называют г <*> = *= %xtPt. B9.5) Пример 1. Простейшая статистическая модель — бросание игрального кубика, на гранях которого нанесены цифры 1, 2, 3, 4, 5 и б или соответствующее число точек («очков»). Требуется найти математическое ожидание числа очков при бросании кубика. Число очков — случайная величина X — имеет возможные значения хх = = 1, х2 = 2, х3 = 3, хй = 4, хь = 5, дгв = б с одинаковыми вероятностями. Ожи- Ожидаемое среднее значение (математическое ожидание) Если бросить кубик п раз (п — большое число) и записать сумму очков при всех бросаниях, обозначив ее а, то -2-3.5. Этот результат читатель легко проверит «экспериментально», если пожелает провести несложный опыт. Отметим, кстати, что среднее значение случайной величины, принимающей целые значения, может быть дробным. Возможные значения случайной величины xi и их вероятности Pi не яв- являются величинами случайными. Это относится также к математическому ожи- ожиданию случайной величины и, вообще, ко всем характеристикам распределения. Их значения определяются физической природой случайной величины (напри- (например, в рассматриваемом примере вывод о равной вероятности всех возможных зна- значений сделан из физических соображений). С другой стороны, числовые харак- характеристики распределения, полученные по данным выборки, являются случайными, приближающимися к истинным (неслучайным) при увеличении объема выборки (п -* оо). Среднеквадратичное отклонение дискретной случайной величины. Второй важнейшей числовой характеристикой распределения является среднеквадратич- среднеквадратичное отклонение. При проведении экспериментальных исследований среднеквадратичное от- отклонение вычисляется следующим образом. Если значение Xi наблюдалось 202
в тг случаях, значение х2 в т2 случаях и т. д., то среднеквадратичное отклонение определяется по формуле Охп = у 4"[(*1""Д -i-2 (*/- %J"*/, B9.6) где #n — среднее значение случайной величины [см. формулу B9.3)]; п — общее число наблюдений. При определении ох рассматриваются отклонения случайной величины от среднего значения. Так как признается важной только величина от- отклонения, а не его знак, то составляется сумма квадратов всех отклонений и от- относится к общему числу испытаний. Среднеквадратичное отклонение имеет размерность величины х и представ- представляет собой характерное отклонение, которое часто называют стандартом. Чем больше величина ах, тем выше рассеяние результатов относительно среднего зна- значения. Равенство B9.6) можно записать в таком виде: fr-^r, B9-7) l где Р* = —- статистическая вероятность значения х. случайной величины X 1 п 1 (т. е. приближенное значение вероятности). При анализе теоретического распределения случайной величины средне- среднеквадратичное отклонение B9.8) где (х) — математическое ожидание случайной величины х (ожидаемое среднее значение); Pi — вероятность значения Х(. При большом числе наблюдений п хп -> (х) = ху Р* -> Pt и равенства B9.7) и B9.8) совпадают. В дальнейшем для простоты записи величина (х) часто обозначается (х) = х. Формулы B9.7) и B9.8) используются иногда в несколько преобразованном г г г виде. Если учесть, что ^ (** —~xfPi — }j (*? — 2а:г* + ^2) pi ^ S x1Pi ~ i=i i=i i=i то можно записать ¦j*?P, —*• B9.9) или х2. B9.10) В некоторых случаях для среднеквадратичного отклонения будет исполь- использоваться такое обозначение: ох = о [х]. Пример 2. Найти среднеквадратичное отклонение для случайной величины в примере 1. В рассматриваемом примере х = 3,5 и ¦~~ ^> 5) ' л —г* (о — о, 5) —|— (о —"" о, о) -~^~ —— 1.71 • и О О 203
Рис. 61. Механическая ин- интерпретация характеристик распределения Дисперсия случайной величины. Для теоретического анализа часто оказы- оказывается удобным понятие дисперсии случайной величины х B9.11) Можно записать последнее равенство так: B9.12) Дисперсия представляет собой математическое ожидание квадрата отклонения случайной величины. Механическая интерпретация основных характеристик распределения. На невесомом стержне в точках, соответствующих возможным значениям случайной величины #, помещены точечные массы, численно равные Р1У Р2, ..., Рг (рис. 61)# Абсцисса центра тяжести такой системы х Х[РЬ представляет собой ма- тематическое ожидание. Момент инерции системы «масс» относительно оси, про- проходящей через центр тяжести, равен дисперсии J = Dx, величина ох соответствует радиусу инерции i = V Jim , так как «суммарная масса» равна единице т = = ? p,=i. 1=1 Распределение непрерывных случайных величин. Плотность распределения. Непрерывная случайная величина может иметь любое значение в некоторой области а <: х <: Ь. Область с бесконечными границами — оо < х < сю часто рассматривается как общий случай. Однако не все участки области возможных значений одинаково вероятны при реализации случайной величины. Например, если случайная величина х представляет временное сопротивление малоуглеро- малоуглеродистой стали, определяемое при приемочном контроле, то вероятность нахо- нахождения х в пределах 300 < х <: 350 МПа значительно выше, чем на участке 500 < х <: 550 МПа. Если вероятность обнаружения х в пределах участка Ах составляет АР, то плотность вероятности или плотность распределения / (*) = lim АР/Ах. Д0 Вероятность того, что случайная величина окажется в интервале Ах> равна / (х) Ах. Плотность вероятности можно рассматривать как обычную плотность распределения «нагрузки» (вероятность появления случайной величины на еди- единице длины в рассматриваемом сечении х). Плотность распределения или плотность вероятности / (х) имеет размерность величины \/х. Вероятность появления непрерывной случайной величины х на участке < Ь \Ь B9.13) 204
Подобно равенству B9.1) 00 J f(x)dx=l. B9.14) так как вполне достоверно, что —оо < х < оо. Функция распределения. Пусть X — случайная величина (часто случайные величины обозначаются заглавными латинскими буквами X, Y, Z, а их конкрет- конкретные значения х, у, z). Вероятность условия X < х зависит от выбранного значения *, т. е. является функцией х Вер (X < х) = Р (X < х) = F (х). B9.15) Функция F (х) называется функцией распределения. Для непрерывной случай- случайной величины из уравнения B9.13) F (х) = j / (х) dX, B9.16) так как при этом —оо < X < х и условие B9.15) выполняется. Более строго равенство B9.16) следует записать так: X F(x)= J f(X)dX. B9.17) Здесь X — значение (текущее) случайной величины (переменная интегрирова- интегрирования), причем —оо < X <: х. В большинстве прикладных вопросов запись в форме B9.16) не вызывает недоразумений, но в теоретических выводах часто необхо- необходимо различать обозначения переменного предела интегрирования и переменной интегрирования. Из соотношения B9.16) вытекает важная зависимость Отметим также и другие следствия равенства B9.16): F(— oo)=0; F(oo) = l. B9.18) B9.19) На рис. 62 даны графики плотности распределения и функции распределения» Заданной величине вероятности, например Р = 0,9, соответствует абс- абсцисса хр, так что Р (х < хр) = F (хр) = Р. Величина хр называется квантилем вероятности Р. Например, если известны квантили х0%1 и лго,9, то Р (х0Л <: х <: < *о,э) = F (хо,9) — F (xOtl) = 0,9 — 0,1 = 0,8. Квантиль, соответствующий ве- вероятности Р = 0,5, называется медианой рас- распределения (рис. 62). Медиана распределения х~хо*ь Делит кривую плотности распределения на у •: две равные части f(x)dx= f(x)dx=0,5. — оо х Среднее значение, математическое ожидание и среднеквадратичное отклонение непрерывной случайной величины. На основании статистиче- Рис. 62. Плотность распределения и функция распределения непрерывной случайной величины
Рис. 63. Распределение с равномерной плот- плотностью на участке а <: х < Ь ских сведений плотность распределения / (х) на- находится следующим образом. Область измене- изменения параметра разбивается на малые участки А; и подсчитывается число объектов /П/ на каждом участке. Тогда статистическая плотность рас- распределения А/ mi А/Л ' B9.20) где п — общее число объектов. В областях, где объектов не оказалось (mt = 0) плотность распре- распределения принимается равной нулю. Среднее значение непрерывной случайной величины, аналогично равен- равенству |B9.3): хп'- oo J Xf* (X) dx. B9.21) Математическое ожидание {х) определяется таким же образом, но исполь- используется истинное (теоретическое) значение плотности вероятности. Среднеквад- Среднеквадратичное отклонение непрерывной случайной величины на основании дан- данных наблюдений B9.22) Для теоретического распределения (или для выборки бесконечного объема) среднеквадратичное отклонение 1 а [х] = j (х-~х)* f (х) dx\ . B9.23) I—во j Пример 3. Определить функцию распределения, математическое ожидание и среднеквадратичное отклонение для распределения случайной величины по закону равномерной плотности. Плотность распределения (для закона равно- равномерной плотности рис. 63) выражается равенством f(x) О 1/F —а) а<х<Ь;\ О х Функция распределения F (х) = J / (x) dx. 00 После интегрирования находим О х <: а\ х — аI(Ь — а) а<л:<6; 1 206
Из соотношения B9.21) получаем оо Ъ xdx __ a-\- b Среднеквадратичное отклонение 1 2 (x — xJf(x) dx _ b — a " 2^3 Укажем некоторые свойства математического ожидания и среднеквадратич- среднеквадратичного отклонения, справедливые как для непрерывных, так и для дискретных слу- случайных величин. Математическое ожидание постоянной величины равно ей самой (с) = с. Это вполне понятно, так как постоянную величину можно рассматривать как слу- случайную, имеющую одно возможное значение с вероятностью Р = 1. Математическое ожидание произведения постоянной и случайной величин (сх) = с (х), т. е. постоянный множитель может быть вынесен из-под знака мате- математического ожидания. Среднеквадратичное отклонение постоянной величины а [с] = 0, B9.24) Среднеквадратичное отклонение при линейном преобразовании случайной величины о[сх + а] = \с\о[х]. B9.25) Прибавление постоянной величины к случайной не изменяет среднеквадратич- среднеквадратичного отклонения. Моментные характеристики распределений. Различают начальные и централь- центральные моменты распределения. Начальный момент порядка к mk = J xkf (x) dx = <**>. B9.26) — ОО для дискретных распределений тк = 2 Api = (**>• B9.27) t—1 Центральный момент порядка к оо Мк =[.(* — х)к f (x) dx = ((x — х)Ь), B9.28) 00 для дискретных распределений г Мм = 2 (*' *~ *)*Pi = «* "* ¦*)*>• <29-29) 207
A<0 X X XX Рис. 64. Различные асимметрии распределения Для дальнейшего наиболее существенными будут центральные моменты не- непрерывных случайных величин. Центральный момент нулевого порядка Мо=\. B9.30) Центральный момент первого порядка оо ЛГ1 = J (x — x)f(x)dx = 0. B9.31) — оо Центральный момент второго порядка (дисперсия) оо М2= [ (х — xJf(x)dx = D = o2. B9.32) —оо Имеют значения центральные моменты третьего и четвертого порядков. Безраз- Безразмерная величина B0.33) называется асимметрией распределения. Распределение с различной асимметрией показано на рис. 64. Величину B9.34) принято называть эксцессом распределения. Он характеризует «острую» (Е > 0) или «сглаженную» (Е < 0) вершину распределения (рис. 65) по сравнению с не- некоторым эталонным распределением (Е = 0), в качестве которого принимается нормальное распределение (см. следующие параграфы). ?<0 Рис. 65. Различные эксцессы распределения 208
§ 30. МНОГОМЕРНЫЕ РАСПРЕДЕЛЕНИЯ И ФУНКЦИИ СЛУЧАЙНЫХ ВЕЛИЧИН ^Функция распределения и плотность вероятности двучмерной случайной величины. Рассмотрим совместное распределение двух (непрерывных) случайных величин Хг и Х2; будем считать их компонентами вектора X (Xlt Х2). Существенно, что величины Хг и Х2 относятся к одному случайному событию (например, значения двух параметров системы в данный момент времени). Функция распределения F (Xlt Х2) есть вероятность одновременного вы- выполнения условия u х2). C0.1) Реализация случайной величины — точка А (вектор X) с координатами Хг и Х2 (рис. 66). Условие (ЗОЛ) означает, что точка А попадает в заштрихованную об- область (—оо < Х1 < xlt —оо < Х2 < х2). Если вероятность попадания в элемент области равна / (Xl9 X2) dXx dX2, где / (Xlt X2) — плотность вероятности, то -и — оо —оо f(XliX2)dX1dX2. C0.2) Здесь хх и х2 — конкретные числовые значения случайных величин Хх и Ха. В равенстве C0.2) переменные интегрирования Хх и Х2 пробегают значения от —оо до хх и от —сю до х2 соответственно. Дифференцируя соотношение C0.2) по х19 находим dF (хъ х2) f г/ ^ = | / (^1» дхх Снова дифференцируя, но теперь по х2, получаем важное соотношение d2F (хъ х2) дх±дх2 ="Xi,x*>. C0.3) По физическому смыслу плотности распределения , x2) dxx dx2 ^P(x1<X1< На рис. 67 показана область dS, ве- вероятность попадания в которую выражает равенство C0.4). Плотность совместного распределе- распределения выражается обычно куполообразной поверхностью (рис. 68). Очевидно ОО (оо, оо) = j — оо —оо / (Хг, X2) dX] dX2= 1, C0.5) Рис. 66. Возможные значения двухмерной случайной величины х 8 И. А. Биргер + dx2). C0.4) 209
dS X, f(*t.*2) Рис. 67. Определение плотности веро- Рис. 68. Плотность распределения ятности двухмерной случайной вели- двухмерной случайной величины чины так как условия —оо < Xt < со, —оо < Х2 <оо являются достоверными. Ве- Вероятность попадания вектора X в область 5 = \\\f(Xlt C0.6) где интеграл берется по площади области 5. Например, если 5 есть прямоуголь- прямоугольная область а <: Хг <: Ь, с <: Х2^. dt то Р (а <: Хг <: Ь, с <: Х2 <: d) = Рассмотрим связь между плотностью совместного распределения и плот- плотностями отдельных (частных) распределений. Плотность распределения случай- случайной величины Хг может быть выражена следующим образом: оо C0.7) Случайная величина Хг при Хг = хг оказывается в полосе (xlt хг + x) при различных значениях Х2. Если провести суммирование по всем значениям Х2 [формула C0.7)], то получим плотность вероятности /х (л^). Аналогично U оо = J C0.8) Условная плотность распределения и независимость непрерывных случай- случайных величин. Равенство C0.4) выражает вероятность сложного события (произ- (произведение двух событий — одновременное попадание случайного вектора X в по- полосы dxx и dx2 (рис. 67)]. Можно записать вероятность такого события dx2) = = Р(х1<Х1<х1 + dxx) P (x2 <X2<x2 + dx2/x± <Xx<xx + dxx). C0.9) Первый множитель в этом равенстве — вероятность обнаружения X в полосе dx1 Р (Ь <Хг<Х1 + dxx) = fx (Xl) dXl. C0.10) 210
Второй множитель — вероятность попадания в полосу dx2 при условии, что Х± = xv Это условная плотность вероятности непрерывной случайной вели- величины Х2, которую будем обозначать следующим образом: Р (х2 <Х2<х2 + dx2lxx <хг<хх + dxx) = f (х%1хг) dx2. C0.11) Теперь из соотношений C0.9)—C0.11) и равенства C0.4) получаем важный результат /(*i>*2) = /i(*i)/(*2/*i). C0.12 Точно так же /(*i, *2)=М*2)/(*1/*2). C0.13) Последние равенства аналогичны зависимостям для случайных событий (см. § 28). Случайные величины Хг и Х2 (компоненты вектора X) являются не- независимыми, если / (*i/*2) = /i (*i); / (*2/*i) = /2 (*) • (зо. и) Для независимых непрерывных случайных величин плотность распределения (или закон распределения) одной случайной величины не зависит от закона рас- распределения другой. Для таких величин плотность совместного распределения /(*i.*i) = /i(*i)/i(*i). C0.15) Подобное соотношение справедливо и для функции распределения F(xlyx2)=F1(x1)F2(x2). C0.16) Условие независимости двух случайных величин практически проверяется с помощью вычисления момента корреляции. Момент корреляции случайных ве- величин Хх и Х2 оо оо *12 = J J (*i -*i) (х* -~х2) f (xly x2) d4 dx2. C0.17) —00 —00 Для независимых случайных величин корреляционный момент обращается в нуль, что вытекает из условия C0.15) C0.18) Многомерное распределение. Предыдущие результаты естественно обоб- обобщаются на случайный вектор X в л-мерном пространстве. Функция распределе- распределения в этом случае хг х2 хп !, хш, . . . , хп) = J J . . . J / (Xlt Хш, . . . , Xn) dXxdX2 . . . dXnt —00 —00 C0.19) где Xi пробегает значения от —оо до */ (/= 1, 2, ..., п). Плотность распределе- распределения (хг. x2t . . . , *„) ____ . C0.20) 8* 211
Плотность частного распределения некоторого числа случайных величин, напри- например первых k величин [см. равенство C0.7)], со оо / <*1. * **) - J • • • J / (*i. Ч **. Xk+1Xn) dXk+1 dXn. C0.21) — оо —оо n—k раз Для независимых случайных величин п f (*i, х2, . . . , хп) = h (хг) f2 (х2) ...fn (хп) = Щ (xi). C0.22) Корреляционный момент (или момент ковариации) двух компонентов слу- случайного вектора оо оо Kij = J J (Xi -'xj) (Xk ~ xk) f (XiXk) dxi dxk. C0.23) 00 OO В этом равенстве f (xi, Xk) — плотность совместного распределения случайных величин Xi и Xk- Если учесть зависимость C0.21), то равенство C0.23) можно записать в более общей форме оо оо Kij = J . . . J (xt —~x{) (xk - xk) f (xl9 x2, . . . , xn) dxx dx2 . . . dxn. C0.24) OO OO n раз Величины Kij образуют корреляционную матрицу порядка п X п. Сумма и произведение случайных величин, статистические характеристики. В практических задачах часто встречаются случайные величины, зависящие от других случайных величин. Например, напряжение в опасном сечении детали представляет собой сумму статических и переменных напряжений, каждое из которых зависит от многих случайных факторов и является величиной случай- случайной и т. п. Рассмотрим сначала математическое ожидание и среднеквадратичное откло- отклонение для суммы и произведения случайных величин. Математическое ожидание (среднее значение) суммы случайных величин равно сумме их математических ожиданий <х + у) = (х) + (у). C0.25) Математическое ожидание произведения независимых случайных величин равно произведению их математических ожиданий <*У> = <*><*>. C0.26) Следует особо подчеркнуть, что случайные величины х и у предполагаются не- независимыми. Среднеквадратичное отклонение суммы или разности двух случайных величин о[х±у] = Vo*lx]+o2[y]±2KXy, C0.27) где КХу — корреляционный момент (или ковариация) случайных величин х и у. Для дискретных случайных величин корреляционный момент п т К*у = 2 ? <*/-*) (У1 -У) рч- C0-28) 212
Для непрерывных случайных величин оо оо Кху = J J (х -7) (У -~у) f (x, у) dxdy. C0.29) Поясним доказательство равенства C0.27) на примере дискретных величин п т а2 [х + у] - ? 2 <*< + У/ "* ~ *>" *V <30-30> i=i /=1 В этой формуле случайные величины х и у имеют пит возможных значений соответственно. Представляя (xi + У1 -~х~-УJ = fa -хJ + (у} -у)» + 2 (*, -7) (у, -7) и учитывая равенства / = а» п т т Ъ S (У/ - ^J Р'/ = S to/ 1 1 1 получим соотношения C0.27). В последних соотношениях использовались зависимости /=1 1=1 Величина Р/7- выражает вероятность совместного появления xi и yj. Если просуммировать все возможные варианты появления хь с различными у} (хьух, хьУъ), то получим вероятность значения х-ь. Для независимых случайных величин Pij - Р/Р/, C0.32) и корреляционный момент обращается в нуль / п __ \ / т _ \ /г*» = S <*' - *) рч S ^ - у) р/ = °- <30-33> \(=1 / \/=1 / Для независимых случайных величин о[х + у)=о[х-у]=. Ка»М+аМу]- C0.34) Среднеквадратичное отклонение суммы случайных величин S ) C0-35) S=l J где /Crs — корреляционный момент дискретных случайных величин Хг и Xs. 213
5 У, % У 0 К, Если случайные величины Х1у ..., Xv независимы, то Т Рис. 69. Определение плотности распределе- распределения суммы случайных величин Если значения г и s совпадают, то Кгг^-оЧХг]- C0.36) Для непрерывных случайных величин корре- корреляционный момент оо оо Krs = J J (xr — xr) (xs — xs) f (xr, xs) dxr dxs. C0.37) C0.38) При изменении «масштаба» независимых величин Xlf ..., Xv среднеквадратичное отклонение C0.39) Среднеквадратичное отклонение произведения двух независимых случайных величин Х + х24 + 7М. C0.40) Равенство доказывается следующим образом. На основании соотноше- соотношения B9.12) о~2 = <(ху — ~хуJ>. Так как величины х и у независимые, то °% = (Л2 - 2~х уху + 1?у>) = (ж2) (у2) - 1Гу\ C0.41) и, учитывая равенство B9.10), (л;2) = а| + х2; (у2) = о% + t/2, получим фор- формулу C0.40). Плотность распределения суммы и разности двух случайных величин. В неко- некоторых задачах необходимо знать не только основные параметры распределения (среднее значение и среднеквадратичное отклонение), но и само распределение. Подобная ситуация встречается в различных приложениях, например, при опре- определении вероятности разрушения и др. Пусть случайная величина Z = X + Y, C0.42) причем плотность совместного распределения / (Х} Y) случайных величин X и Y известна. Функцию распределения для z можно записать в таком виде: F (z) = Р (Z < z) = J J / (X, Y) dX dY. C0.43) Интеграл распространяется на область 5, внутри которой выполняется условие X + Y<z. C0.44) На рис. 69 показана эта область S, причем координаты точек граничной пря- прямой х, у удовлетворяют соотношению x + y = z. C0.45) 214
Распространяй интегрирование по полоске —-оо < X < х и суммируя по всем полоскам, получим оо г—у F(z) = J J f(X,y)dXdy. C0.46) — 00 00 Дифференцируя это равенство по z, находим плотность распределения оо Ш=^.= J / (г - У, У) dy. C0.47) Если изменить порядок интегрирования, проводя его сначала по вертикаль- вертикальным полоскам —оо < Y < z— х> то получим равносильный результат оо /ж B)= J/(*. Z-X)dx. Если случайные величины X и У независимы, то и тогда C0.48) C0.49) C0.50) Последние равенства выражают композицию распределений х и у (распреде- (распределение суммы двух независимых случайных величин). Рассмотрим теперь плотность распределения разности случайных величин Z = X — У. C0.51) Область, в которой выполняется условие X — Y < z, показана на рис. 70. Подобно предыдущему, находим оо 2-\-у оо оо F(z) = P(Z<z) = | | / (X, у) dX dy = J J / (*, Г) rfr Же. C0.52) Дифференцируя по z, получаем оо оо ОО ' 00 Если случайные величины X и У независимы, то C0.53) Рис. 70. Определение плотности рас- распределения разности случайных величин 215
Среднее значение и среднеквадратичное отклонение функции случайных величин. Рассмотрим снова зависимость случайных величин у и х * = *(*). C0.55) Если известна плотность распределения fy (у), то очевидны следующие ра- равенства для среднего значения и среднеквадратичного отклонения: 00 2/= jyfy(y)dy; C0.56) 00 00 4 = J (У -*)=/» (У) *У- <30-57) 00 Но для определения у и оу не обязательно знать в явной форме закон рас- распределения случайной величины у> их значения можно найти, используя извест- известное распределение величины х. Рассмотрим для примера дискретную случайную величину ху которая может иметь п значений xt с вероятностями Pt. Величина у будет иметь те же п дискретных значений у с = г|э (х[)> причем вероятности зна- значений yi и Х[ совпадают. Тогда среднее значение (математическое ожидание) у У =2 *(xt)Pt. C0.58) Для непрерывной случайной величины оо У= \^(x)fx(x)dx. C0.59) Равенство C0.59) можно непосредственно вывести из соотношения C0.56), если учесть зависимость fy (У) = fx (x) dx/dy. C0.60) Для среднеквадратичного отклонения будем иметь оо = J C0.61) Подобные результаты справедливы для функции нескольких случайных величин. Если = ф (*1,*2. • • .. Jfm), C0.62) среднее значение (математическое ожидание) оо оо = J ... J <p(*lf . . .,xm)f(xv . . ., xm)dx1. . .dxm. .C0.63) m раз Среднеквадратичное отклонение оо оо = J . . . J [Ф (xlt . . ., хт) -у]* f (xv ...xm)dxx... dxrn. C0.64) m раз 216
Во многих случаях можно использовать приближенное выражение для функ- функции случайных аргументов C0.62). Если плотность вероятности xj быстро убы- вает по мере удаления от среднего значения Xjt то можно ограничиться первыми членами разложения, полагая т у = Ф fo, . . ., Jm) + ^ ду/dXj (xv . . ., х~т) (xj — *}). C0.65) Теперь будем иметь 7=Ф (*i» *2, . . .,?"т). C0.66) Для независимых случайных величин | S / у C0.67) Эти важные формулы будут использованы в дальнейшем. В частном случае, когда т у z= ф (xlt ..., хт) = ^j ^у^/» из равенства C0.67) вытекает соотношение C0.39). Пример. Пусть у — 1/х, известно среднее значение х и ох, требуется найти ~у и ау. По формулам C0.66) и C0.67) получаем Формулы теории ошибок. В реальных условиях все детали изготовляются и измеряются с некоторыми погрешностями (ошибками), которые регламен- регламентируются техническими условиями, нормами, стандартами. Часто интере- интересующий параметр (например, ошибка показания прибора) сложным образом за- зависит от погрешностей ряда других параметров. Пусть величина у является функ- функцией т параметров xlt ..., хт у = Ф (*!,*» ...,хп). C0.68) ) значе- значеC0.69) Пусть 8*; — отклонение параметра X; от номинального (расчетного) значе- значения X* Принимая эти отклонения (погрешности) малыми, будем иметь В этой формуле значения частных производных берутся при номинальном значении параметров (х\, ..., х*ту Основываясь на результатах предыдущего раздела, можно указать среднее значение случайной погрешности ^-ЬГ„ C0.71) где bxj — средняя погрешность измерения. _ Если рассматривать отклонение от среднего значения параметров (х* = хЛ то Ьу =• 0, так как все bxj = 0. 217
Среднеквадратичное отклонение или, как его называют в теории ошибок, среднеквадратичная погрешность, выражается следующим равенством [см. ра- равенство C0.35)]: где корреляционный момент (момент ковариации) случайных величин Ьхг и 8*s обозначен К&хг&8. В большинстве случаев погрешности отдельных параметров можно считать независимыми, и тогда в соответствии с равенством C0.67) i {т \~2 S (^Jс21б*/] • (зо-73) Соотношения C0.70), C0.71) и C0.73) являются основными формулами тео- теории ошибок. Они применяются в технической диагностике для оценки достовер- достоверности измерений параметров системы. § 31. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Плотность нормального распределения. Среди различных законов распре- распределения непрерывной случайной величины нормальное распределение занимает совершенно особое место. Статистическое описание явлений обычно применяется при действии большого числа второстепенных разнородных факторов, прибли- приблизительно равноценных по значению. Суммарный эффект получается в результате «осреднения» отдельных воздействий. При таких условиях в теории вероятности доказывается центральная пре- предельная теорема Ляпунова, в соответствии с которой распределение суммы боль- большого числа независимых случайных величин (с произвольными законами распре- распределения!) подчиняется нормальному закону. В практике нормальное распределе- распределение встречается очень часто: погрешности изготовления и измерения деталей, рассеяние механических свойств материалов, распределение различного рода случайных воздействий и т. п. Нормальный закон распределения обладает устой- устойчивостью, линейные функции нормальных случайных величин также следуют этому закону. Во многих задачах с помощью нормального закона или его модифи- модификаций можно приближенно представить другие распределения. Плотность рас- распределения при нормальном законе выражается следующим равенством: где х — среднее значение (математическое ожидание); а — среднеквадратичное отклонение непрерывной случайной величины х. На рис. 71 показана плотность нормального распределния в соответствии с формулой C1.1). Отметим, что при нормальном распределении случайная вели- величина х может принимать значения —оо < х < оо, причем вероятность больших отклонений очень мала. Нормальное распределение является двупараметрическим; задание двух параметров^ и а полностью определяет распределение, 218
Рис. 71. Плотность нормального распределения Покажем, что параметр х действительно является средним значением (мате- (математическим ожиданием) случайной величины х. Для этого вычислим математиче- математическое ожидание (х-х)* [ xf (x) dx = i=- f дге 2°2 dx J a у 2я J C1.2) Введем нормированное отклонение u = (x— 7)/a. C1.3) Это отклонение играет важную роль в теории вероятности и математической статистике. Физический смысл нормированного отклонения таков. Величина и является случайной величиной, распределенной по нормальному закону с нуле- нулевым средним значением и = 0 и квадратичным отклонением ои = 1. Равенство C1.2) представим в такой форме: о/2я J du- du). Первый интеграл обращается в нуль (интеграл произведения антисимметрич- антисимметричной и симметричной функций), второй интеграл (интеграл Пуассона) C1.4) и потому (х) = х. Подобным образом можно доказать, что дисперсия распределения 00 D = J (х -7J / (х) dx = C1.5) и величина а в равенстве C1.1) действительно является среднеквадратичным от- отклонением. Площадь под кривой / (х) оо оо \ / (х) dx = { \ adu=\. C1.6) Чем меньше значение с, тем «острее» выглядит кривая нормального распре- распределения (рис. 72). Это свойство очевидно, так как /max = —_/-—- у о V 2л а площади кривых при различных а одинаковы. C1.7) 219
Рис. 72. Плотность распределения при различ- различных среднеквадратичных отклонениях Функция распределения и функция Лапласа. Функция распределения для нормального закона (х_Т) F (*) = \f (х) dx = ; I e 2a* dx C1.8) или, используя замену переменных C1.4), А'—X s J а и2 da. C1.9) Функция распределения обычно выражается через функцию Лапласа х -11 ф(х\ = }_ [ е 2 dl. C1.10) ^2я J о Между этими функциями существует простая зависимость 1 , ~(х-х\ C1Л1) Вероятность обнаружения х в интервале а <: х <: 6 = f f(x)dx = —±=- f J a К 2я J a Последнее соотношение представляется с помощью функции Лапласа сле- следующим образом: C1.12) Отметим важные свойства функции Лапласа. Так как подынтегральная функция [уравнение C1.10)] является четной и Ф @) = 0, то Ф(-*)=Ф(*). В силу равенства C1.4) при х = оо Ф (оо) = 1/2. 220 C1.13)
Рис. 73. Функция распределения F (х) и функция Лапласа Ф (х) для нормального распределения Рис. 74. Вероятность задан- заданного отклонения нормальной случайной величины На рис. 73 показан график функции Лапласа и функции распределения F (х). Кривые идут эквидистантно. Если в равенстве A2) положить а = —оо, то C1.14) так какФ (—оо) = —Ф (оо) = —V2. Равенство C1.14) можно было получить не- непосредственно из формулы C1.11). Из соотношения C1.12), положив Ь — оо, находим C1.15) Пример. При определении переменных напряжений в лопатках газовой турбины найдено среднее напряжение ~bv — 55 МПа и среднеквадратичное от- отклонение а = 15 МПа. Принимая нормальный закон распределения, определить вероятность появления переменных напряжений свыше 100 МПа. По равенству C1.15) находим Р (ov 100) = -1- - Ф =4 Ф C) = °'4986 = °'0014* Отклонения нормальной случайной величины от среднего значения. Довери- Доверительная вероятность, квантили. Вероятность отклонения от среднего значения на величину / (рис. 74) в соответствии с равенством C1.12) х < = Ф — Ф - 2Ф (I/O). C1.16) Из этой формулы видно, что вероятность появления рассматриваемого откло- отклонения зависит от его отношения к а. Среднеквадратичное отклонение выступает в роли масштаба отклонений. Например, при — =3 Р (х — 30<#<# + + За) = 2Ф C) = 0,997. Величину Р = 0,997 можно назвать доверительной вероятностью отклоне- отклонения it За, так как случайная величина, распределенная по нормальному закону, с вероятностью 0,997 окажется в интервале ^За (длина интервала 6а). Чем больше относительное отклонение - //а, C1.17) тем больше можно доверять условию, что интервал ± / будет содержать рассматри- рассматриваемую случайную величину. 221
Ниже приведены значения доверительной вероятности Рл= Р (х — to < < х < *+ to) в зависимости от относительного отклонения: / 0,674 1 1,64 1,96 2,58 3,03 4 5 Рд 0,50 0,68 0,90 0,95 0,99 0,999 0,999936 0,999994 В статистических расчетах часто используются квантили—значения аргу- аргумента функции распределения, при котором функция равна заданной вероят- вероятности Р Р (л: < лт>) =F (хр) = Р. C1.18) Иными словами, квантиль вероятности Р есть такое фиксированное значение случайной величины хр, для которого условие [х < хр выполняется с вероят- вероятностью Р (квантиль — аргумент вероятности Р).~ Квантиль, соответствующий вероятности Р = 0,5, называется медианой распределения. Часто удобно использовать нормированные квантили Up = (xp-x)/a, и тогда xp = ~x-{-Upo. В силу равенства C1.11) C1.19) C1.20) C1.21) Значения Up могут быть найдены с помощью таблиц функции Лапласа. Напри- Например, для значения Р = 0,9 будем иметь Ф (?/0,9) = 0,9 — V2 = 0,4. По таблице для функции Лапласа находим UQt9 = 1,28. Укажем важное соотношение, часто применяемое в расчетах Ux_p = —Up. Остановимся на различии понятий нормированного квантиля Up и относи- относительного отклонения /, соответствующего доверительной вероятности Рд. При равенстве t = Up величина Р > Рд, что вытекает из геометрической иллюстрации на рис. 75. Точно так же при Р = Рд Up < t, например при Р = = Рп = 0,9 Up = 1,28; t = 1,64. С увеличением t разность / — Up уменьшается. Указанные различия связаны с тем, что величина /дает двустороннюю оценку C1.22) тогда как нормированный квантиль — одно- одностороннюю ««,,)_,. C1.23) Если Up= t, то Рд = 2Р — 1, причем Многомерное нормальное распределение. Рассмотрим сначала нормальное распреде- распределение двухмерного случайного вектора с ком- компонентами хг и *2. При таком распределении Рис. 75. Определение доверительной вероят- вероятности 222
Рис. 76. Нормальное распределение много- мерной случайной величины каждая из случайных величин хг и х2 под- подчиняется нормальному закону. Плотность двухмерного нормального распределения / (х19 х2) = Л 2ло1о2 V\ — X X 2г(х1-х1)(х2-х2) ( х2 -х2 C1.24) ' где *i, о*! и х2, о2 — средние значения и среднеквадратичные отклонения слу- случайных величин хх и х2\ г — коэффициент корреляции, | г | <: 1, 00 ОО 1 IS Iff г = тттг- = -гтг J J (^i — (xvx2)dxxdx2. C1.25) Плотность двухмерного распределения зависит от пяти параметров (xlf x2f о1% о2 и коэффициента корреляции г). Она изображается куполообразной поверх- поверхностью (рис. 76), вершина которой (центр распределения) находится в точке с коор- координатами xl9 х2. Линии равной плотности вероятности представляют собой эллипсы 2г (х± — хг) (х2 — х~2) Главные оси эллипса повернуты на угол а, причем 1 _1_ 4 Для независимых величин хи х2 коэффициент корреляции г=Ои главные оси совпадают с осями хх и хг. Из равенства C1.24) при г = 0 получаем C1.26) Плотность распределения л-мерного случайного вектора х с компонентами xl9 Х2 ХП — Л. JL л о • 1 \ f (xv x2, . . ., хп) = Bя) | К" I ехр | jr- х!к~ хх01 , C1.27) C1.28) 223 где /С — матрица, обратная корреляционной матрице
Элементы матрицы — корреляционные моменты оо оо ij = Кji ^JJ (*i - *i) (*j - xj) f (xh xj) dxi dXj (i, / = 1,2 , n). OO 00 Обратная матрица /С = [Л/у]/| /С|, где Ац — алгебраические дополнения транспонированной матрицы Кц\ I К | — детерминант корреляционной матрицы; т #0, хт — матрица-столбец и матрица-строка: хо = L*/i — хг — xn). C1.29) Рассмотрим в качестве примера использования формул C1.27) случай двухмерного распределения (п = 2). Корреляционная матрица = —— где г = —— коэффициент корреляции. aia2 Детерминант матрицы |/C| = afa|(l-r2). C1.31) Обратная матрица — прЛ ' 01.32) , Г a^ — прЛ Kl [-ra,(T2 a? J Детерминант этой матрицы •"•"' Произведение K~xXq дает вектор [2 l о2 — ra^g -r°i°2 A J 1 Г02 (*1 ~ *l) - Га1а2 (^2 - Следующее произведение приводит к скаляру Ну __ * f *1 "~ ^1 Л _ ^ ^-^ ^" + CL34) Внося соотношения C1.34) и C1.33) в формулу C1.27), приходим к равен- равенству C1.24). 224
Рассмотрим случай многомерного нормального распределения независимых случайных величин xlt х2, ..., хп. Тогда корреляционная матрица будет иметь отличными от нуля только диагональные члены: C1.35) Обратная матрица 1 C1.36) Произведение ~x xQ = ГЧ 2 —) • В соответствии с равенством C1.26) находим п — 1 М а/ C1.37) При л = 2 последнее соотношение совпадает с формулой C1.26). Усеченное нормальное распределение. Для описания реальных распределе- распределений иногда оказывается удобным использовать усеченные распределения, т. е. распределения, для которых в крайних областях (х < а и х > Ь) плотность рас- распределения принимается равной нулю. На рис. 77 показано основное распре- распределение и усеченное, для которого О /о М = х<а; kf (х) а < х < Ь; О х>Ь. ь ь Из условия нормирования следует J /0 (х-) dx— k f (x) dx — k [F (b)— a a — F (a) ] = 1 или коэффициент W, C1.38) где F (x) — функция основного распре- распределения. Рис. 77. Плотность усеченного распреде- распределения О а
Функция распределения для усеченного распределения X X F, (*) = \f, (*) dx = k J / (х) dx = [F (х) - F (a)]/[F (b) - F (о)]. C1.39) a a Рассмотрим усеченное нормальное распределение, В этом случае k= = =г—. C1.40) Функция усеченного распределения . C1.41) В последних формулах 1с и а относятся к основному распределению. Часто нормальное распределение используется для описания распределения положи- положительных случайных величин (например, амплитуд переменных напряжений и т. п.). Для таких' величин при х< 0 / (х) = 0, и потому рассмотрим отрицательное усеченное нормальное распределение при а = 0 и Ь = оо. Из формул C1.40) и C1.41) вытекает C1.42) Найдем основные параметры распределения. Среднее значение (Х-^Х)* ±=rt~ 2°' dx. Вводя замену переменных = и, получим Jo ==?_?_ f e 2 du + -^=r f e 2 MrfM. |/2л J ]/ 2я J a: д; Используя равенства 1 226
Рис. 78. Различные типы усеченного распределения находим 70 = х + е2, где 82-=-^_е 2 ° . C1.43) Среднеквадратичное отклонение ст0 удобно найти с помощью соотношения og = (*?) — *§. C1.44) Начальный момент второго порядка ^. J Последний интеграл вычисляется с помощью интегрирования по частям ие "и du — а а Окончательно имеем >2 + а2. C1.45) Из соотношений C1.43) C1.45) вытекает 2 2 "* 2 4 /о 1 ла\ Oq = О — #8 — 8 . (ol .40) Итак, среднее значение х0 всегда больше среднего значения х, среднеквадра- среднеквадратичное отклонение сг0 при положительных х всегда больше с. На рис. 78, а по- показано отрицательное усеченное нормальное распределение. При х > 0 для исходного нормального распределения и при малых коэффи- коэффициентах вариации -=- = 0,5 отрицательное усеченное распределение несуще- х ственно отличается от исходного. Наоборот, при х < 0 изменяется привычный вид нормального распределения (рис. 78, б). 227
§ 32. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ Метод наименьших квадратов является наиболее универсальным способом оценки параметров приближенных зависимостей, аппроксимирующих экспери- экспериментальные (статистические) данные. Рассмотрим обычный метод наименьших квадратов и укажем его модификации. Аппроксимация с помощью полинома я-го порядка. Пусть имеется N экспе- экспериментальных точек x-r tjj и требуется подобрать полином п-то порядка у (х) ^ао + ахх + 1- апхп = C2.1) который «наилучшим образом» соответствует экспериментальным данным. По методу наименьших квадратов коэффициенты а,- выбирают так, чтобы квадра- квадратичная погрешность имела минимальное значение N = min или /=1 N /==1 0 1 , Я , , Так как погрешность зависит от выбранных значений а<ь av условия дА Л t -—= 0 (i = 0, 1 /г) C2.2) C2.3) ап, то из C2.4) получим системы л+ 1 линейных алгебраических уравнений' дА Л v* / . и \ . да0 ад да* N 7=1 относительно п+ 1 неизвестных: ао, ах, ..., ап- Эту систему представим в матричной форме (<'> Л = 0, 1, . ., л), где C2.5) C2.6) Решая систему C2.6), находим значения ао» а1? ..., ап. Рассмотрим в качестве примера практически наиболее важный случай линейной аппроксимации. Тогда будем иметь у = а0 + ахх 228 C2.7)
й систему уравнений C2-8) C2-9) N Решая TV 1 эту J xi = , N \л 2 1 ^J у систему N ~ ЬрУ> находим 1 %л 2 ~2 "лгА^/"* C2.10) C2.11) 1 ^ 1 ^ где л: = — 2j Xj\ у = -т-=- ^ у.-—средние значения х и у по выборке объема W. ^ /=1 " /=1 Отметим, что при полученных значениях ао и ах уравнение C2.7) выражает ли- линейную регрессию. Возникает вопрос о выборе степени п при аппроксимации эксперименталь- экспериментальных данных. В практических задачах о допустимости линейной аппроксимации можно судить по виду поля экспериментальных точек, но более строгая оценка должна исходить из величины погрешности N А = ? (% + "I*; + • • • + *„*/ - У,)\ C2.12) /=1 где at- — получаем из решения уравнений C2.6). Если средняя квадратичная погрешность а= К "лГ C2ЛЗ) мала по сравнению с #тах> то в большинстве технических задач аппроксимация допустима. Если, например, линейная зависимость не удовлетворяет этому условию, что следует повысить степень полинома или применить другие аппрок- аппроксимирующие функции. Аппроксимация с помощью обобщенного полинома. Следует отметить, что использование степенного полинома C2.1) при п > 3 приводит к значительным трудностям из-за существенного влияния ошибок округления и других причин. Более общая аппроксимация может быть осуществлена полиномом следу- следующего вида: У (х) =-- аоФо (х) + aiq>i (*Н + Я/гфл (х) = ]? «/Ф* (х), C2.14) где ф; (х) — некоторые заданные (в области изменения х) функции. В качестве таких функций иногда выбирают тригонометрическую систему функций Фо (*) = !; Ф1 (x) = sin x; ф2 (х) = cos x\ ... 229
Из условия минимума средней квадратичной погрешности [уравнения C2.2) и C2.4)] находим Л N :*,))фо(*/) = S У/Фп(*/). C2.15) В матричной записи уравнение C2.15) имеет вид C2.6), где N = /j ф/ (*у7 Ф& (*/)» (oz.lu) N_ ''j). C2.17) В частном случае, когда <pt- (^) = х , получим аппроксимацию степенным полиномом. Вычисления наиболее просты и точны в случае, когда функции yi(x) «орто- «ортогональны на множестве экспериментальных точек». Это значит, что N Е Ф* (xj) Щ (Xj) =0 Aф k). C2.18) При условии C2.18) матрица уравнений C2.15) является диагональной (недиагональные элементы обращаются в нуль) и для коэффициентов аппрокси- аппроксимирующего полинома получаем зависимость ^ N at = - Щ (/ = 1,2,..., /г). C2.19) Такую систему достаточно просто получить из любой системы линейно-неза- линейно-независимых функций if»; 0t) с помощью процесса ортогонализации. Пусть, например, имеется система указанных функций: *iW = i; 1>i(*)=*; *2W= *•;.¦• C2-2°) Тогда выберем фо (х) = г|)о (х), но уже следующую функцию примем в виде Умножая обе части равенства на фо (х) и суммируя, получим N N N ? Фо (^)Ф1 (х) = с10 ? ф^ (а:Л + ? Фо (*у) -*i (Д^у). 230
Величину г1о найдем из условия ортогональности функций фх (х) и фо (х), что дает N C2.21) Для системы функций C2.20) получаем N тогда Фо(*) = И Ф1 W=a: — C2.22) Подобным образом можно получить следующую ортогональную функцию, при- приняв Ф2 (*) = причем C2.23) ФО ,?,' /=I /=1 При условии C2.18) система уравнений C2.15) имеет диагональную матрицу, что делает чрезвычайно удобным все числовые расчеты [i'-я строка уравнения C2.15) определяет значение а,]. ¦ w'<i,*{ Метод наименьших квадратов для^относительной погрешности. Во многих технических задачах имеет значение не абсолютная, а относительная погреш- погрешность. Тогда коэффициенты щ следует определять из условия V ( = ш1п. C2.24) При аппроксимации степенным полиномом будем иметь следующую систему уравнений: N /-1 C2.25) 23!
или в матричной форме C2.6) N 1=1 Vi C2.26) Разумеется, метод минимальной относительной погрешности не следуе_т исполь- использовать при наличии значений у-р близких к нулю, так как при этом понятие отно- относительной погрешности теряет смысл. Аппроксимация с помощью произведения показательных функций. В неко- некоторых случаях функцию у (х) удобно аппроксимировать выражением апх п C2.27) где mt-, С[ — заранее выбранные значения; а[ — коэффициенты, подлежащие определению. Логарифмируя выражение C2.27), получим lgd + • • • + апхтп lg Cn. C2.28) Для определения неизвестных значений lgao; аг, ..., ап легко использовать обычный метод наименьших квадратов [уравнения C2.1) и C2.6)]. В другом варианте величины av ..., ап можно задать заранее, а в качестве неизвестных параметров принять lg C1? ..., lg Cn.
ТЕМАТИЧЕСКИЙ ОБЗОР ЛИТЕРАТУРЫ Приведем краткие комментарии, которые могут оказаться полезными при первоначальном ознакомлении с проблемами технической диагностики. Глава I. Как указывалось, техническая диагностика имеет два основных на- направления: установление технического диагноза и контроль состояния техниче- технических систем. Первое направление тесно связано с одной из главных проблем ки- кибернетики — проблемой распознавания образов. Обзор работ по распознаванию образов можно найти в книге В. И. Васильева [17] и др. Вопросы технической диагностики применительно к двигателям внутреннего сгорания рассмотрены в книгах Б. В. Павлова [40, 41 ]. Проблемам прогнозиро- прогнозирования технического состояния систем посвящена монография Д. В. Гаскарова, Т. А. Голинкевича и А. В. Мозгалевского [20], В. Б. Силина и А. М. Заковря- шина [53]. Теория поиска и контроля неисправностей содержится в книгах А. С. Серда- кова [52], Г. В. Верзакова и др. [18], П. П. Пархоменко и др. [39]. При математической постановке задачи технической диагностики в гл. 1 не использовалось представление задачи распознавания образов как задачи восстановления разделяющей функции с наименьшим риском [16]. В процессе обучения известен только знак разделяющей функции, и потому задача восста- восстановления становится весьма условной. Глава 2. Изложение метода Байеса основано на работе [8]. Процедура после- последовательного анализа, разработанная Вальдом, используется при решении мно- многих диагностических задач (Фу [59]). Глава 3. Теория статистических решений развивалась в связи с задачами ра- радиолокации и в последнее время получила широкое практическое применение. Классическая теория статистических решений изложена в монографиях А. А. Хар- кевича [60], Б. Р. Левина [35], Ван Триса [15] и др. Общая постановка задачи распознавания в связи с минимизацией риска рассмотрена в трудах Я. 3. Цып- кина [62, 63]. Применение теории статистических решений к задачам диагно- диагностики дано в работе [10] и книге А. Л. Горелика и В. А. Скрипкина [24]. При изложении гл. 3 использовались результаты работы [10]. Глава 4. Линейные методы разделения, линейные дискриминантные и разде- разделяющие функции рассмотрены в работах Нильсона [38], А. Г. Аркадьева и Э. М. Бравермана [6], Э. Г. Егисапетова [26]. Линейные методы возникли в связи с теорией персептронов, которая изла- излагается в работах А. Г. Ивахненко [28], В. П. Сочивко [55] и др. Применение методов линейного программирования для построения линей- линейных и кусочно-линейных функций рассматривалось в работах А. А. Первозван- ского [43], Б. А. Головкина [23] и др. Разделение в диагностическом пространстве является дальнейшим разви- развитием методов линейного разделения. Наряду с эвристическими методами (алго- (алгоритм «Кора» [5], работа Г. М. Адельсон-Вельского и др. [2]) успешные резуль- результаты могут быть получены с помощью регулярных сходящихся процедур. Отметим 233
прежде всего Метод потенциальных функций, предложенный М. А. АйзерманоМ, Э. М. Браверманом и Л. И. Розоноэром [3]. Метод является весьма общим и универсальным; авторами дано тщательное и подробное математическое обоснова- обоснование рекуррентных процедур. Конкретные программы для реализации метода потенциальных функций на ЭВМ указаны в сборнике [5]. Метод стохастической аппроксимации, развитый Я. 3. Цыпкиным [62, 63], является одним из наиболее общих методов в теории распознавания образов и ряде смежных проблем. В основе метода лежит процедура стохастической ап- аппроксимации Роббинса и Монро, изложение и математическое обоснование ко- которой можно найти в работах Вазана [13], и др. Дальнейшее обобщение метода применительно к задаче распознавания указано в статье Б. Т. Поляка и Я. 3. Цып- кина [44], где рассматриваются псевдоградиентные алгоритмы. В методе стохастической аппроксимации минимизируется математическое ожидание риска. Другое направление связано с минимизацией эмпирического риска, который определяется по заданной обучающей последовательности (ра- (работы В. Н. Вапника и А. Я. Червоненкиса [16], Л. П. Сысоева [56]). Разумеется, что эффективность такого метода зависит от «качества» обучающей последова- последовательности. Глава 5. Общие подходы при использовании метрических методов указаны в монографии Себестиана [51 ]. Корреляционные методы распознавания рассматри- рассматривались в работе В. А. Ковальского [31 ]. Обобщенное расстояние и введение анизо- анизотропной метрики дано в статье [10]. Глава 6, Применение методов математической логики к задачам распознава- распознавания было предложено Р. Ледли [36]. Достаточно полное изложение этих методов содержится в книге А. Л. Горелика и В. А. Скрипкина [24]. Логические методы не исчерпываются методами математической логики. К ним могут быть отнесены методы, основанные на построении описаний (линг- (лингвистические и другие подобные методы) — работы М. М. Бонгарда [12], Н. Г. За- горуйко [27] и др. Представляет интерес применение теории графов к задачам распознавания (работы Я. А. Грундспенькиса [25], 3. П. Марковича [37]). Проблема распознавания кривых представлена в гл. 6 как часть общей проблемы распознавания. Глава 7. Наиболее важные результаты современной теории информации при- принадлежат Шеннону [65]. Теория информации, возникшая в статистической теории связи, оказала большое влияние на теорию вероятности и математическую ста- статистику. Простое изложение основ теории информации дано в книге Е. С. Вент- целя [19]. Более полное рассмотрение можно найти в книге Н. И. Клюева [29]. Математическая теория информации содержится в исследованиях Файн- стейна [58] и др. Изложение гл. 7 предназначено для первоначального ознакомления с основ- основными понятиями теории информации. Глава 8. Проблема оценки информации рассмотрена в работах А. А. Харке- вича [61] и др. Определение диагностической ценности признаков дано на основе работы [9]. Глава 10. Вопросы получения диагностической информации связаны с мето- методами и средствами измерений, которые освещаются в специальной литературе. Проблемам вибрационной и акустической диагностики посвящены книги Б. В. Павлова [40], В. И. Попкова [45], Р. В. Кузьмина [33] и др. Интенсивно разрабатываются вопросы технической диагностики двигателей, редукторов, на- насосов и других изделий (А. А. Комаров [32] и др.).
список ЛИТЕРАТУРЫ 1. Автоматический поиск неисправностей/А. В. Мозгалевский, В. Д. Га- скаров, Л. П. Глазунов, В. Д. Ерастов. Л., Машиностроение, 1967. 262 с. 2. Адельсон-Вельский Г. М., Кунин П. Е., Леман А. А. Об одном классе обучающихся алгоримов узнавания. — Докл. АН СССР, 1967, т. 173, № 3, с 532— 535. 3. Айзерман М. А., Браверман Э. М., Розоноэр Л. И. Метод потенциальных функций в теории обучения машин. М., Наука, 1970, 384 с. 4. Аксенова Г. П., Согомонян Е. С. Построение самопроверяемых схем встро- встроенного контроля. — Автоматика и телемеханика, 1975, № 7, с. 132—138. 5. Алгоритмы обучения распознавания образов, под ред. В. Н. Вапника — Сб. изд-ва «Советское радио», М., 1973. 201 с. 6. Аркадьев А. Г., Браверман Э. М. Обучение машины распознаванию обра- образов. М., Наука, 1964. ПО с. 7. Барабаш Ю. Л. Вопросы статистической теории распознавания. М., Советское радио, 1967. с. 170. 8. Биргер И. А. Применение формулы Байеса в задачах технической диаг- диагностики. — Вестник машиностроения, 1964, № 10, с. 15—17. 9. Биргер И. А. Определение диагностической ценности признаков. — Кибернетика, 1968, № 3, с. 80—85. 10. Биргер И. А. К математической теории технической диагностики. — В кн.: Проблемы надежности в строительной механике. Вильнюс. 1968. с. 10—14. 11. Биргер И. А. Запасы прочности, вероятность разрушения и диагно- диагностика. — В кн: Проблемы механики твердого тела. Л., Судостроение, 1970, с. 71—81. 12. Бонгард М. М. Проблема узнавания. М., Наука, 1967, 319 с. 13. Вазан М. Стохастическая аппроксимация. М., Мир, 1972. 295 с. 14. Вайнцвайг М. Н. Алгоритм обучения распознаванию образов. — В кн.: Алгоритмы обучения распознаванию образов. М., Советское радио, 1973, с. 252. 15. Ван Трис Г. Теория обнаружения, оценок и модуляции. М., Советское радио, 1972. 743 с. 16. Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. Наука, 1974. 416 с. 17. Васильев В. И. Распознающие системы. К., Наукова думка, 1969. 291 с. 18. Введение в техническую диагностику /Г. Ф. Верзаков, Н. В. Кишт, В. И. Рабинович, Л. С. Тимонен. М., Энергия, 1968. 224 с. 19. Вентцель Е. С. Теория вероятностей. М., Физматгиз, 1962. 564 с. 20. Гаскаров Д. В., ПЯГинкевич Т. А., Мозгалевский А. В. Прогнозирование технического состояния и надежности радиоэлектронной аппаратуры. М., Со- Советское радио, 1974. 223 с. 21. Гиберт А. И. Логические устройства для технической диагностики. — Науч. тр. Сиб. ВИМ, 1964, вып. 2, с. 136—156. 235
22. Гнеденко Б> В. Курс теории вероятностей. М., Наука, 1969. 399 с. 23. Головкин Б* А. Машинное распознавание и линейное программирова- программирование. М., Советское радио, 1973. 95 с. 24. Горелик А. Л., Скрипкин В. А. Построение систем распознавания. М., Советское радио, 1974. 222 с. 25. Грундспенькис Я. А. Топологическая модель функционирования двига- двигателя внутреннего сгорания автомобиля. —В кн.: Кибернетика и диагностика. Рига. Зинатне, вып. 5, с. 47—53. 26. Егисапетов Э. Г. Обобщение линейных решающих функций на случай произвольного числа распознаваемых классов. — Изв. АН СССР. Техническая кибернетика. 1972, № 1, с. 120—127. 27. Загоруйко Н. Г. Методы распознавания и их применение. М., Совет- Советское радио, 1972. 206 с. 28. Ивахненко А. Г. Кибернетические системы. Киев. Техника, 1966. 511 с. 29. Клюев Н. И. Информационные основые передачи сообщений. М., Совет- Советское радио, 1966. 359 с. 30. Ковалевский В. А. Задача распознавания образов с точки зрения мате- математической статистики. — В кн.: Читающие автоматы, Киев, Наукова думка, 1965, с. 8—38. 31. Ковалевский В. А. О корреляционном методе распознавания. — В кн:. Читающие автоматы. Киев. Наукова думка, 1965, с. 46—62. 32. Комаров А. А. Надежность гидравлических устройств самолетов. М., Машиностроение, 1976. с. 223. 33. Кузьмин Р. В. Техническое состояние и надежность судовых механиз- механизмов. Л., Судостроение, 1974. 334 с. 34. Кульбак С. Теория информации и статистика. М., Наука, 1968. 408 с. 35. Левин Б. Р. Теоретические основы статистической радиотехники. М., Советское радио, 1969. 747 с. ""6. Ледли Р. Программирование и использование вычислительных машин. М.^Мир, 1966. 642 с. ^37. Маркович 3. П. Использование граф-модели для решения задач техниче- технической диагностики. — В кн.: Кибернетика и диагностика, Рига, Зинатне, 1968, вып. 2, с. 49—62. 38. Нильсон Н. Обучающиеся машины. М., Мир, 1967. 180 с. 39. Основы технической диагностики/П. П. Пархоменко, В. В. Карибский, Е. С. Согомонян, В. Ф. Халчев. М., Энергия, 1976, 462 с. 40. Павлов Б. В. Акустическая диагностика машин. М., Машиностроение, 1971. 222 с. 41. Павлов Б. В. Кибернетические методы технического диагноза. М., Маши- Машиностроение, 1966. 147 с. 42. Папернов А. А. Логические основы цифровых машин и программирова- программирования. М., Наука, 1968. 591 с. 43. Первозванский А. А. Распознавание абстрактных образов как задача ли- линейного программирования. — Изв. АН СССР. Техническая кибернетика, 1965, № 4. с. 131—136. 44. Поляк Б. Т., Цыпкин Я. 3. Псевдоградиентные алгоритмы адаптации и обучения. — Автоматика и телемеханика, 1973, № 3. с. 45—49. 45. Попков В. И. Виброакустическая диагностика и снижение виброактив- виброактивности судовых механизмов. Л. Судостроение, 1974. 218 с. 46. Постнова Т. Б. Информационно-диагностические системы в медицине. М., Наука, 1972. с. 215. 47. Пугачев В. С. Статистические методы в технической кибернетике. М., Советское радио, 1971. 190 с. 48. Растригин Л. А., Эренштейн Р. X. Принятие решения коллективом решаю- решающих правил в задачах распознавания образов. —Автоматика и телемеханика, 1975, № 9, с. 133—143. 49. Светлицкий В. А. Случайные колебания механических систем. М., Ма- Машиностроение, 1976. 215 с. 50. Свешников А. А. Прикладные методы теории случайных функций. М., Наука, 1968. 462 с. 236
51. Себестиан Г. Процессы принятия решения при распознавании образов. Киев, Техника, 1965. 150 с. 52. Сердаков А. С. Автоматический контроль и техническая диагностика. Киев, Техника, 1971. 241 с. 53. Силин В. Б., Заковряшин А. М. Автоматическое прогнозирование состоя- состояния аппаратуры управления и наблюдения. М., Энергия, 1973. 334 с. 54. Сотсков Б. С. Основы теории и расчета надежности элементов и устройств автоматики. М., Высшая школа, 1970. 270 с. 55. Сочи в ко В. П. Электронные распознающие устройства. М.—Л., Энергия, 1964. 56 с. 56. Сысоев Л. П. Обучающиеся процедуры, сочетающие стохастическую ап- аппроксимацию и минимизацию. — Автоматика и телемеханика. 1973, № 3, с. 69— 83. 57. Техническая диагностика. — Тр. 1-го Всесоюзного совещания. М., Наука, 1972. 367 с. 58. Ф аи нетей н А. Основы теории информации. М., Изд-во иностранной лите- литературы* 1965. 140 с. 59. Фу К» Последовательные методы в распознавании образов. М., Наука, 1971. 256 с. 60. Харкевич А. А. Борьба с помехами. М., Наука, 1965. 274 с. 61. Харкевич А. А. Теория информации.—Избранные тр. М., Наука, 1973, т. 3, с. 523. 62 Цыпкин Я» 3. Адаптация и обучение в автоматических системах. М., Наука, 1968. 399 с. 63. Цыпкин Я. 3. Основы теории обучающихся систем. М., Наука, 1970. 251 с. 64. Чипулис В. П. Использование диагностической информации при кон- контроле и поиске неисправностей. — Автоматика и телемеханика, 1975, № 8, с. 150— 156. 65. Шеннон К. Работы по теории информации и кибернетики. М., Изд-во иностранной литературы, 1963. 827 с. 66. Шор Я. Б., Кузьмин Ф. И. Таблицы для анализа и контроля надеж- надежности. М., Советское радио, 1968. 283 с.
ОГЛАВЛЕНИЕ Предисловие 3 Глава 1. Основы технической диагностики 5 § 1. Основные направления технической диагностики .... 5 § 2. Постановка задач технической диагностики 8 Глава 2. Статистические методы распознавания 11 § 3. Метод Байеса 11 § 4. Метод последовательного анализа 18 Глава 3. Метод статистических решений 22 § 5. Статистические решения для одного диагностического пара- параметра 22 § 6. Статистические решения при наличии зоны неопределен- неопределенности и другие обобщения 36 Глава 4. Методы разделения в пространстве признаков 46 § 7. Линейные методы разделения 46 § 8. Разделение в диагностическом пространстве 61 § 9. Метод потенциальных функций и метод потенциалов 67 § 10. Метод стохастической аппроксимации 74 Глава 5. Метрические методы распознавания 83 § 11. Метрика пространства признаков 83 § 12. Диагностика по расстоянию в пространстве признаков 87 § 13. Связь метрических методов с другими методами распозна- распознавания 94 Глава 6. Логические методы распознавания и распознавание кривых 97 § 14. Логические методы распознавания 97 § 15. Распознавание кривых 105 Глава 7. Основы теории информации 117 § 16. Энтропия системы 117 § 17. Энтропия сложной системы 125 § 18. Измерение информации 132 Глава 8. Диагностическая ценность признаков 139 § 19. Простые и сложные признаки и их диагностические веса 139 § 20. Диагностическая ценность обследования 146 § 21. Диагностическая ценность одновременного обследования по комплексу признаков 150 § 22. Диагностическая ценность при последовательном проведе- проведении обследования 153 § 23. Построение оптимального диагностического процесса 157 238
Глава 9. Введение в анализ случайных процессов ......... 161 § 24. Статистические характеристики случайных функций 162 § 25. Стационарные случайные процессы 169 Глава 10. Прикладные вопросы технической диагностики 185 § 26. Контролеспособность и получение диагностической инфор- % мации 185 § 27. Примеры технической диагностики 191 Глава 11. Сведения из теории вероятности 194 § 28. Основные понятия 194 § 29. Распределение случайных величин 200 § 30. Многомерные распределения и функции случайных величин 209 § 31. Нормальное распределение 218 § 32. Метод наименьших квадратов 228 Тематический обзор литературы 228 Список литературы 230
ИБ № 1788 Исаак Аронович Биргер ТЕХНИЧЕСКАЯ ДИАГНОСТИКА Редактор Б. А. Пахолкова Художественный редактор Н. А. Парцевская Технический редактор А. И. Захарова Корректор О. Е. Мишина Переплет художника А. Я. Михайлова Сдано в набор 09.12.77. Подписано в печать 22.03.78. Т-03368. Формат 60X90Vi«» Бумага типографская № 1. Литературная гарнитура. Печать высокая. Усл. печ. л. 15. Уч.-изд. л. 16,75. Тираж 17 000 экз. Зак. 701. Цена 1 р. 20 к. Издательство «Машиностроение», 107885, Москва, Б-78, 1-й Басманный пер., 3. Ленинградская типография № 6 Союзполиграфпрома при Государственном комитете Совета Министров СССР по делам издательств, полиграфии и книжной торговли 193144, Ленинград, С-144, ул. Моисеенко, 10