Text
                    Академия наук СССР
Центральный экономико-математический институт
Прикладной
многомерный
статистический
анализ
s
Москва 1978«Издательство «Наука»


«Ученые записки по статистике», т. 33 Сборник содержит работы по классификации многомерных наблюдений, статистическому анализу экспертных оценок (включая теорию измерений) и другим современным проблемам прикладной статистики. Кроме того, в нем описываются результаты моделирования некоторых конкретных социально-экономических структур, а также излагаются отдельные теоретические результаты, продвигающие разработку математического аппарата прикладного многомерного статистического анализа. Книга представляет интерес для работников научно-исследовательских, плановых и проектных организаций, использующих методы многомерного статистического анализа при решении конкретных задач, а также для студентов старших курсов и аспирантов, специализирующихся в области прикладной математической статистики и экономической кибернетики. Редакционная коллегия: Т. В. РЯБУШКИН (ответственный редактор), С. А. АЙВАЗЯН, Г. И. БАКЛАНОВ, А. Г. ВОЛКОВ, Л. Е. МИНЦ, В. М. СИМЧЕРА, Е. Г. ЯСИН (ученый секретарь) Научные редавдощ^яома, С. А. АЙВАЗЯЦН, А. М. QJ&UUiL Π — БЗ—43—20—78 © Издательство «Наука», 4Θ78 г.
ПРЕДИСЛОВИЕ В настоящее время экономико-математические методы вместе с другими методами экономики стали одним из основных инструментов планирования развития народного хозяйства. На XXV съезде КПСС Л. И. Брежнев, говоря об управлении экономикой, сказал, что «здесь — широкое поле для приложения усилий экономической науки, для внедрения современных научных методов, в том числе экономико-математических, для использования автоматизированных систем управления»1. Опыт использования экономико-математических методов в планировании, прогнозировании и управлении экономическими системами все убедительнее свидетельствует об эффективности и широком диапазоне применимости методов прикладного многомерного статистического анализа. В чем же сущность ситуаций, в которых применение этих методов оказывается правомерным, а подчас необходимым, и каковы основные особенности развития этого актуального раздела прикладной математики? При исследовании реальных систем или объектов (социально-экономических , промышленных, технических, психологических, биомедицинских и т. д.) состояние или поведение каждого из них в любой фиксированный момент времени описывается, набором соответствующих показателей. Среди этих показателей могут быть как количественные (среднедушевой доход в семье, размер семьи, объем валовой продукции предприятия и т. д.), так и не количественные, т. е. ранговые (квалификация специалиста, сравнительная характеристика жилищных условий) и классификационные, или номинальные (профессия, национальность, пол, причины миграции и т. д.). При этом все показатели находятся в сложной взаимо- 1 Материалы XXV съезда КПСС. М.: Политиздат, 1977, с. Ъ9. 3
связи друг с другом. Именно в таких ситуациях принято говорить о многомерности исследуемой схемы, а исследователю приходится обращаться к методам многомерного статистического анализа. Однако алгоритмы многомерного статистического анализа, как правило, сложны и с точки зрения их вычислительной реализации, и с точки зрения исследования их свойств (эффективности, диапазона применимости и т. п.). Поэтому только с широким внедрением вычислительной техники и соответствующего математического обеспечения ЭВМ, т. е. по существу в последние 10—15 лет, появились реальные предпосылки для того, чтобы превратить многомерный статистический анализ из важного теоретического раздела математической статистики в мощный прикладной аппарат исследования закономерностей в различных сферах человеческой деятельности. Остановимся на некоторых особенностях этой быстро развивающейся в настоящее время области исследований. 1. С нашей точки зрения, сформировалась как самостоятельная научная область исследований дисциплина, которую мы назовем прикладной статистикой. Она объединяет в себе различные методы обработки статистических данных (как опирающиеся на вероятностные модели, так и не связанные с ними) и специальные разработки соответствующего математического обеспечения ЭВМ (библиотеки, системы и пакеты программ, результаты в некоторых специальных областях вычислительной математики); при этом, говоря о методах обработки статистических данных, не опирающихся на вероятностные модели, мы имеем в виду методы так называемого анализа данных, приспособленные для ситуации, когда исследователю ничего не известно о вероятностной природе обрабатываемых результатов наблюдений, и, следовательно, применение обычных критериев и оценок классического вероятностно-статистического анализа не правомерно; в подобных ситуациях выбор наилучшего из возможных методов обработки подчинен обычно критерию, задаваемому экзогенно с помощью некоторого функционала качества метода (типичными представителями методов такого род£ являются таксономия и кластер-анализ, многомерное неметрическое шкалирование, теория измерений и т. п.2). 2 Достаточно полное представление о методах анализа данных читатель может составить, например, по книге: Cailler F., Ра- 4
2. Запросы практики, и в частности социально-экономических, психологических и биомедицинских приложений, обусловили все большее смещение интересов специалистов по прикладной статистике в область разработки методов анализа неколичественных признаков, когда объектами исследования служат ранжировки, классификации, бинарные отношения. Обе отмеченные особенности развития прикладной статистики нашли, в частности, отражение в трудах семинара «Многомерный статистический анализ и вероятностное моделирование реальных процессов», функционирующего с 1969 г. в рамках Научного совета АН СССР по комплексной проблеме «Оптимальное планирование и управление народным хозяйством»3. Справедливость сформулированных выше тезисов была подтверждена и на Первой Всесоюзной научно-технической конференции «Применение много-, мерного статистического анализа в экономике и оценке качества продукции» в Тарту в 1977 г.4 Об этом же свидетельствуют результаты деятельности научных групп и коллективов, наиболее активно разрабатывающих указанную тематику в нашей стране: в Москве — Математический институт им. В. А. Стек лова АН СССР, ЦЭМИ АН СССР, МГУ, ИПУ; в Новосибирске - ИЭ и ОПП СО АН СССР; в Вильнюсе — Институт математики и кибернетики АН Лит. ССР; в Ташкенте — Институт математики АН Уз. ССР; в Тбилиси — Институт экономики и права АН Гр. ССР; в Киеве — Институт кибернетики АН УССР и КГУ; в Минске — Институт математики АН БССР. Настоящий сборник посвящен узловым, с нашей точки зрения, проблемам прикладного многомерного статистического анализа: а) классификации многомерных наблюдений, т. е. различным аспектам задачи разбиения заданного ges J.—P. Introduction a 1'Analyse des Donnees. SMASH, 1976, Paris. 3 См. Многомерный статистический анализ в социально-экономических исследованиях. Ученые записки по статистике, т. 26. М.: Наука, 1974; Алгоритмы многомерного статистического анализа и их применения. М.: ЦЭМИ АН СССР, 1975; Исследования по вероятностно-статистическому моделированию реальных систем. - М.: ЦЭМИ АН СССР, 1977, а также раздел пятый настоящего сборника. 4 Всесоюзная научно-техническая конференция «Применение многомерного статистического анализа в экономике и оценке качества продукции». М.: Всесоюзный совет научно-технических обществ, 1977. 5
множества объектов, каждый из которых описан набором признаков, на некоторое (заданное заранее или нет) число однородных в определенном смысле классов (раздел первый) 5; б) снижению размерности исследуемого факторного пространства, т. е. различным методам такого перехода от исходного набора признаков, характеризующих состояние каждого из исследуемых объектов, к сокращенному набору признаков (построенных на базе исходных), который сопровождается минимально возможной потерей их информативности (раздел первый); в) статистическому анализу экспертных оценок и прикладной теории измерений (раздел второй) 6. Кроме того, в сборник включены результаты вероятностно-статистического моделирования ряда конкретных экономических явлений или систем (раздел третий), некоторые теоретические результаты, развивающие математический аппарат прикладного многомерного статистического анализа (раздел четвертый), а также обзор деятельности научного семинара «Многомерный статистический анализ и вероятностное моделирование реальных процессов» в 1976—1977 гг. (раздел пятый). Раздел первый, посвященный проблемам классификации многомерных наблюдений и снижения размерности факторного пространства, объединяет шесть статей. В работе В. И. Заруцкого изучается предельное поведение ошибок классификации в асимптотике Колмогорова, т. е. в ситуациях, когда одновременно неограниченно растут объемы обучающих выборок и размерность исследуемого факторного пространства. При этом координаты классифицируемых векторов зависимы, но ковариационная матрица имеет специальный вид. Предельное распределение статистик, связанных со случайными классификациями и позволяющих конструировать статистические критерии проверки различных гипотез о природе этих классификаций, найдено А. В. Маамяги. Взаимоотношение задачи оптимизации функционала качества классификации с за- 6 Систематическое изложение постановок таких задач и методов их решения содержится, например, в кн.: Айвазян С· Α., Бе- жаева 3. И., Староверов О. В. Классификация многомерных наблюдений. М.: Статистика, 1974. 6 Результаты исследований в этой области приводятся также в кн.: Статистические методы анализа экспертных оценок. Ученые записки по статистике, т. 29. М.: Наука, 1977. 6
Дачами аппроксимации и анализа структуры соответствующих матриц связей при использовании подходящей матричной нормы анализируется в работе Г. А. Гусейнова. В статье Л. Д. Мешалкина предложен удобный способ описания центральной части произвольного многомерного распределения с помощью подходящим образом подобранного нормального закона. При этом используются взвешенные моменты, а веса выбираются в классе степеней многомерной нормальной плотности таким образом, чтобы вектора средних и ковариационные матрицы аппроксимируемого закона и его взвешенно-нормальной аппроксимации совпадали. В работе подробно исследована указанная аппроксимационная схема, описаны возможности ее применения к обработке реальных многомерных данных. В статье Ю. Н. Тюрина и Л. А. Муганцевой предлагаются оценки направления изменения параметра, характеризующего вероятность успеха в испытаниях Бернулли, проводимых в определенных условиях. Случай вырожденных матриц в факторном анализе рассматривают А. М. Дубров, В. Б. Турундаевский и А. А. Френкель, предлагающие вводить в модель «шум» с целью перехода в ситуацию, когда применимы стандартные алгоритмы. В разделе втором рассматриваются теоретико-методологические аспекты статистического анализа экспертных оценок. Изложенные здесь результаты могут быть полезны также и в других областях. Статья А. И. Орлова посвящена прикладной теории измерений: в ней рассматриваются предпосылки этой теории, доказываются теоремы о характеризации различных видов средних, которые применяются затем для нахождения адекватных показателей связи и алгоритмов классификации (теории измерений посвящены также два резюме докладов В. С. Высоцкого, см. раздел пятый настоящего сборника). Две работы этого раздела посвящены аксиоматическому введению расстояния между различными объектами, возникающими в теории экспертных оценок между метризованными отношениями (Б. Г. Литвак) и между структурами (А. М. Раппопорт, М. В. Шнейдерман). Класс моделей со связями и без связей в теории парных и множественных сравнений введен и изучен Д. С. Шмерлингом. В частности, разработаны методы оценки параметров моделей. Результаты вероятностно-статистического моделирования некоторых конкретных социально-экономических си- 7
стем или процессов рассмотрены в разделе третьем. Проблема построения целевых функций потребительского предпочтения давно привлекает к себе внимание исследователей. В первую очередь, в этой связи следует упомянуть работу Е. Е. Слуцкого, а также работы В. А. Болконского и Р. Фриша 7. Однако достижения в этой области в конструктивно-прикладном плане были до сих пор, к сожалению, скромными. В помещенных в данном сборнике работах 3. И. Бежаевой и Н. И. Макарчук предлагается (с необходимым математическим, экспериментальным и вычислительным обеспечением) конструктивный подход, позволяющий при некоторых условиях строить функции предпочтения по стандартной статистике семейных бюджетов и увязывающий эту проблему с общей проблемой выявления и прогноза типологии потребления 8. Пример применения аппарата цепей Маркова дает статья В. И. Орлова, посвященная моделированию процессов движения трудовых ресурсов. И, наконец, в статье Б. И. Покровского описывается своеобразный синтез эконометрического моделирования с использованием оптимизационных моделей применительно к решению конкретных задач управления эксплуатацией морских биоресурсов. Раздел четвертый посвящен изложению ряда теоретических результатов, продолжающих разработку необходимого математического аппарата прикладного многомерного статистического анализа. В статье А. Л. Лурье изучаются математические экспликации методологических проблем выборочного метода, в частности в общих предположениях доказывается «обратный закон больших чисел». Обзор современного состояния теории нечетких множеств дан в работе А. И. Орлова. В ней, в частности, указан способ сведения нечетких множеств к случайным (основы теории конечных случайных множеств изложены в резюме доклада автора 10 ноября 1976 г., см. раздел пятый настоя- 7 См. Слуцкий Ε. Ε. К теории сбалансированного бюджета потребителя. — В кн.: Народнохозяйственные модели. Теоретические вопросы потребления. М.: Изд-во АН СССР, 1963; Волконский В. А. Экономико-математические модели согласованного планирования платежеспособного спроса и розничных цен. ЭММ, 1973, т. IX, вып. 4; Frich R. A Complet Scheme for Computing all Direct and Cross Demand Elasticities in a Model with Many Sectors. Economet- rica, 1959, v. 27, N 2. 8 См. также: Типология потребления. М.: Наука, 1978.
щего сборника). В работе О. В. Староверова приводятся результаты построения точного статистического критерия, позволяющего проверять (по малым выборкам) гипотезу о равнокоррелированности компонент рассматриваемого случайного нормального вектора в ситуациях, когда средние значения компонент неизвестны и могут меняться от наблюдения к наблюдению. В разделе пятом приведен обзор деятельности упомянутого выше научного семинара «Многомерный статистический анализ и вероятностное моделирование реальных процессов». Тематика семинара полностью отвечает проблематике настоящего сборника, и поэтому информация, содержащаяся в разделе пятом, с нашей точки зрения, полезно дополняет результаты, изложенные в предыдущих разделах. В основе многих статей сборника лежат идеи выдающегося советского математика, специалиста в области теории вероятностей и математической статистики члена корреспондента АН СССР Л. Н. Болыпева (1921—1978 гг.). Оценивая содержание сборника в целом, можно заметить три его особенности. - Во-первых, в нем под общим названием впервые объединены методы и результаты двух типов: классические математико-статистические, т. е. основанные на тех или иных вероятностных моделях, и не опирающиеся на вероятностные модели (методы анализа данных). Правомерность их объединения в одной дисциплине, так же как и оправданность самого названия этой дисциплины «прикладная статистика» или «прикладной многомерный статистический анализ», мы видим в общности главной цели, которую они преследуют: получение соответствующих выводов и рекомендаций, основанных на обработке имеющихся статистических данных. Во-вторых, практически во всех работах сборника присутствует (явно или нет) идея устойчивости рассматриваемых методов или моделей. При внимательном чтении мы обнаружим ее в разных формах, таких, например, как: непараметрические теоремы в статистике (устойчивые по отношению к изменению функции распределения наблюдений); взвешенные средние (устойчивость к засорениям); добавление шума к данным (регуляризация задачи); теория измерений (устойчивость выводов по отношению К допустимым преобразованиям шкалы); устойчивость 9
среднего по ранжировкам по отношению к способу усреднения; нечеткие множества как способ учета неопределенности реальных явлений и т. д. Это, в частности, подтверждает естественность и перспективность наметившейся в последние годы тенденции рассмотрения указанной проблемы в рамках специального направления исследований. В-третьих, в сборнике не отражены работы по математическому обеспечению ЭВМ в данной области. Развитие этой важной области прикладной статистики связано с изданием специальных трудов, содержащих последовательное и систематическое описание пакетов и библиотек прикладных программ. С нашей точки зрения, высокий уровень развития отечественной вероятностно-статистической науки (в теоретико-алгоритмическом аспекте) и одновременно возможность использования современной вычислительной базы и зарубежного и отечественного опыта в этой области 9 обусловливают актуальность и возможность создания отечественных вариантов системного программного обеспечения прикладной статистики, превосходящих зарубежные образцы по глубине и широте соответствующих методико-алгоритмических разработок. Успешное решение этой задачи позволит значительно расширить применение прикладного многомерного статистического анализа, сделать его эффективным исследовательским инструментарием. С. А. Айвазян, А. И. Орлов 9 См. Математическое обеспечение ЕС ЭВМ. Минск: Институт математики АН БССР, 1973, вып. 2; 1976, вып. 10; 1977, вып. 14; Biomedical Computer Programs (BMDP), editor — W. /. Dixon. University of California Press, Berkeley — Los Angeles — London, J 975; Statistical Package for Social Sciences (SPSS), Northwestern University Press, 1976; International Mathematical and Statistical, Libraries (IMSL), Subroutine Libraries Press, 1976.
I. КЛАССИФИКАЦИЯ И СНИЖЕНИЕ РАЗМЕРНОСТИ Мешалкин Л. Д. ПАРАМЕТРИЗАЦИЯ МНОГОМЕРНЫХ РАСПРЕДЕЛЕНИЙ Для описания встречающихся на практике многомерных распределений обычно используются вектор средних и ковариационная матрица. В гауссовском случае они полностью задают распределение. Однако реальные распределения могут не быть гауссовскими. Тьюки первым обратил внимание на то, что традиционные оценки, арифметическое среднее и среднее квадратическое отклонение, чрезвычайно быстро теряют свои оптимальные свойства, когда «хвосты» распределения «тяжелеют» по сравнению с нормальным законом [4]. Поэтому естественно встает вопрос о поиске новой параметризации многомерных законов, такой, чтобы новые оценки в гауссовском случае совпадали бы с традиционными и в то же время были бы значительно устойчивее к отклонениям от нормальности. В последние пятнадцать лет этой проблеме было уделено большое внимание [2], [3]. В настоящей работе подробно описывается недорогой в вычислительном плане подход, в котором в многомерном случае удачно удается сочетать достоинства параметрических и непараметрических оценок [1]. 1. Определения и основной результат Пусть x£Rp, \и\ — абсолютное значение и, А — любое выпуклое множество в й? и p(F, G) = sup \(dF(x) — dG(x)) — расстояние между распределениями F и 6?. 11
Определение 1. Пусть w (χ) — весовая функция, тогда вектор d = dw (F) — J xw (χ) dF (x)/e (1) и матрицу Л = Л„0Р)= J (я — d)(x — 3)Tw(x)dF(x)fey (1') где e = ew(F)= I w(x)dF(x), будем называть w — взвешенным средним и w — взвешенной ковариационной матрицей. Определение 2. Если два распределения F и G имеют совпадающие w — взвешенные средние и w — взвешенные ковариационные матрицы, то мы будем говорить, что F и G w — подобны. Концепция w — подобия дает возможность связать произвольное распределение Few — подобным ему нормальным законом N и использовать первые и вторые моменты N при описании F. Однако при этом остается одна трудность — неоднозначность выбора w (χ). Определение 3. Пусть ψ = ψ (χ, α, Σ) — плотность нормального закона N с вектором средних а и ковариационной матрицей Σ. Будем называть iV" (λ, С) — связанным (или короче, λ — связанным) с F, если iV" Ψλ — подобен F и ρ (F, Ν) < С. Последнее условие введено для того, чтобы гарантировать при малых С единственность λ — связанного с F нормального закона, так как в общем случае может быть несколько Ψλ — подобных F нормальных законов. Определение 4. Пусть iV" λ — связанный с F нормальный закон. Будем называть среднее и ковариационную матрицу N соответственно λ — средним и λ — ковариационной матрицей F. Пусть 9ί(/>) — множество всех несингулярных р-мерныχ нормальных распределений и %Я(р, ε) — множество всех распределений F, для которых p(F, 9Ϊ (/>)) = inf ρ (Λ iV)<e. Теорема. Для любого λ>0 существуют такие С = = С(Х, />)>0 и е = е(/>, λ, С)>0, что для любого F£ ЭД (Р. в) а) существует одно и только одно (λ, С) — связанное с F нормальное распределение; 12
б) λ — среднее (й*) и λ — ковариационная матрица (Σ^) непрерывные функции F (в смысле ρ — расстояния); в) если τ^ = ^ϊξ~|-5, где А—любая несингулярная квадратная матрица и распределение \ F^^l{py e)t то распределение η G £ SO? (ρ, ε) и λ — среднее и λ — ковариационные матрицы F и G связаны соотношениями ае = Айг + $ и Σσ = ΑΣΜτ. (2) Свойства моментов, непараметрических оценок (медианы и междуквартильного размаха) и λ-моментов, используемых в качестве параметров при описании многомерных распределений, сопоставлены в табл. 1. Таблица 1 Сравнение свойств параметров ^^^^^^ Параметры Свойства ^"""^--^^ параметров ^*^\^ 1. Определены 2. Непрерывность зависимости от F (в смысле расстояния р) 3. Преобразуется подобно моментам при линейном преобразовании переменных 4. Необходимый порядок вычислений при больших выборках объема η 5. Эффективность в гаус- совском случае Моменты Для F, имеющих вторые моменты Нет Да η . 100% Непараметрические оценки Для всех F Да Только приближенно η log n Меньше, чем 100% λ-моменты Существование и единственность доказаны только для F£<$l(p, ε) Да Да η Для малых λ близко к 100% 2. Доказательство Согласно определениям 1—3 λ — связанное с F нормальное распределение N должно удовлетворять системе уравнений *.(F) = 3„№ A.(F) = A.(iV). ' (3) 13
где w = ψ и ψ — плотность N. Для решения этой системы может быть предложен итеративный процесс. Шаг 1. Выбрать начальное приближение а и Σ. Пусть это будут а = йа и Σ = Σ0. Шаг 2. Положить ι# = ψλ(#, α, Σ) и найти 3 = dv(F) и A = A„(F). Шаг 3. Произвести коррекцию на взвешивание. Для этого сначала найти ΗΣ из уравнения Λ-^λΣ-1 + ,Σ-ι, (4) а затем н# из уравнения A-1d = XE-1a + HEHa. (5) Шаг 4. Проверить, насколько близки (α, Σ) и (на, ΗΣ). Если различие существенно, положить ά = Βά и Σ = ΗΣ и повторить вычисления, начиная со второго шага. Следующие два утверждения проверяются непосредственно. Лемма 1. Если F нормальное распределение, то при любом выборе начального приближения (ά, Σ) (det|^||=^=0) описанный выше процесс итераций остановится после первого повторения, поскольку в результате первого осуществления шага 3 параметры F будут восстановлены. Лемма 2. Пусть | и tJ две /?-мерных случайных величины с распределениями F и G, соответственно, и пусть т^ = Л! + 5, где сЫЦЛЦт^О. Тогда процесс решения системы (3) для F и G с начальными приближениями, удовлетворяющими (2), сходится или не сходится одновременно. Поскольку расстояние ρ инвариантно при линейных преобразованиях Rp, из леммы 2 следует, что если утверждение а) теоремы будет доказано, то тем самым будет доказано и утверждение в). Другое важное следствие этой леммы заключается в том, что утверждение а) и б) теоремы достаточно доказать лишь для ε — окрестности Ν0 р-мерного нормализованного нормального закона. Пусть £(р, e)={F:?(F, W0)<s}. Лемма 3. Пусть ψ — произвольная невырожденная /?-мер- ная нормальная плотность, w = tyx (λ>0) и F(+2(p, ε), тогда при ε->0 равномерно по F aa(F)-+aa(N0), Aa(F)^Aa(N0). (6) 14
Доказательство этой леммы опирается на формулу, получаемую интегрированием интеграла Стильтьеса'го частям ρ раз. Если g (χ) и производные от нее до (р — 1)-го порядка непрерывны и стремятся к нулю при хтх-+ оо, то \ g(x)dFm={-j_y l-JEilg-FWdb ...ixp. (7) В нашем случае g (χ) поочередно полагается равным w, x4w, x{XjW. В силу того, что \ |dpgjdxx ... дхр \dxx ... dxp ограничен, условие (6) выполняется при ε-*0 равномерно по F£Q(P, з). Лемма 4. Пусть 0?—произвольное компактное связанное множество невыраженных р-мерных нормальных законов, содержащее Ν0; λ, γ — произвольные положительные числа; ьа, ΗΣ — результат применения формул (4), (5) κιν — взвешенным моментам dw (F) и Aw (F), где w = ψλ и ψ = ψ(#, йл Σ)— плотность нормального закона Ν, тогда найдется такое ε = ε(9ϊ, λ, γ)>0, что для F£Q(p, e) и N£9t max I „α J < γ, max | HE.y — δ., |< γ, (8) * it J где b.j = 1 при i = j и =0 при i =£ /'. Утверждение леммы немедленно следует из непрерывной зависимости {Ji, ΗΣ) от (<ϊ, Δ) при фиксированных (<2, Σ); леммы 3 и компактности 9?. Из леммы 4, в частности, вытекает, что если 9? включает в себя множество нормальных законов, удовлетворяющих (8), и F £ β (/?, ε), то при последовательном применении описанного выше итеративного процесса решения системы (3) последовательные значения (kfi, ΛΣ) к = 1, 2 ... будут удовлетворять (8). Для удобства обозначений введем вектор 9 с координатами (alt ..., арЧ Ση, Σ12, ..., Σ1ρ, Σ22, Σ23,..., Σ2ρ, Σ33, ...Σ^) и как прежде будем использовать индекс «н» внизу слева для того, чтобы обозначить вектор 5, соответствующий решению уравнений (4), (5). Лемма 5. Пусть <2, Σ (det|| Σ||=^0) параметры произвольного /ьмерного нормального закона, Тргда для 15
^G£(PS) и всех i, j существуют производные d^Jdbj, причем при е -> оо они стремятся к нулю равномерно [по ^62 (Р, ·)· Существование и непрерывность производных в окрестности проверяется непосредственно. Вместе с тем согласно лемме 1 в точке N0 производные равны нулю, откуда и следует утверждение леммы. Лемма 6. Пусть 9{ определено, как в лемме 4, (Зу, 2.), / = 1, 2 — параметры двух произвольных нормальных законов, принадлежащих ζ&, и Н^Л, иу2 — соответствующие решения уравнений (4), (5), тогда для любых λ >0 и γ >0 существует такое ε = ε(ζΚ, λ, γ)>0, что для F££(p> ε) maX (I нА — нА Ι· Ι ΗΐΣν _ η2Σ</ I ) < < γ max (| alk — <% |, | E1<y — Σ2 .y |). (9) Из компактности 91 и леммы 5 следует, что производные djbjdbj равномерно ограничены. Откуда в силу теоремы Лагранжа о среднем значении и вытекает утверждение (9). Если теперь взять для малого ε > 0, в качестве начального приближения iV0, то в силу леммы 4 последовательные решения (н α, Η Σ) будут лежать в некоторой ограниченной окрестности iV"0, а в силу леммы 6 они будут быстро сходиться. Выбирая при фиксированных е и λ С достаточно малым, всегда можно добиться того, чтобы возможные решения системы уравнений (3) для F£2(p, Σ) входили в множество ЯП леммы 6. Откуда сразу же следует единственность. 3. Примеры использования λ-моментов В табл. 2 приведены результаты обработки результатов моделирования на ЭВМ 100 выборок по 100 наблюдений в каждой из стандартного нормального закона и засоренного нормального закона 0,97V (0,l)+0,liV (1,32). Как видно из таблицы, введение весовой функции с λ=0,5 лишь на 10—15% ухудшает выборочные свойства оценок, но резко снижает смещение, особенно смещение оценки дисперсии, 16
Таблица 2 Оценка λ-среднего и λ-дисперсии по ста выборкам объема 100* Распределение ---^ГГараметр 0 0,5 1 1,5 N(0,1) λ-среднее 0,000+0,010 0,006+0,011 0,010+0,013 0,014+0,015 λ-дисперсия 1,011 + 0,013 1,030+0,016 1,026+0,023 1,015+0,030 0,9Ν(0,1) + 0,1Ν(1,32) λ-среднее 0,100+0,012 0,020+0,011 0,020+0,013 0,023+0,015 λ-дисперсия 1,874+0,046 1,178+0,020 1,118+0,025 1,083+0,031 * Цифры после знака ± показывают выборочное значение стандартного отклонения соответствующей оценки. Приведем пример использования λ-моментов при определении физиологической нормы. В медицинских исследованиях часто возникает необходимость введения понятия нормы. Безусловно, норма не может быть определена чисто математически, но любая математическая процедура, которая позволяет описать распределение подавляющего большинства изучаемой популяции и указать, особенно в многомерном случае, выделяющиеся наблюдения, существенно облегчает решение поставленной задачи. Ввиду простоты техники λ-моменты при решении этой задачи представляются наиболее полезными. В качестве меры, указывающей близость наблюдения к большинству, используется «вес» w, с каким наблюдение входит в подсчет взвешенных моментов. Эти веса позволяют гибко подбирать подходящее значение λ в зависимости от размерности пространства наблюдений и их числа. В качестве примера в табл. 3 приведены λ-моменты для трех физиологических параметров RR, Ру, PQ, оцененные по выборке объема 33 (данные А. И. Курочкиной). Здесь RR и PQ — стандартные параметры ЭКГ, а Ру — время от начала электрического возбуждения правого предсердия до начала механического сокращения (по флебограмме). Как видно из табл. 3, применение λ-моментов позволило в 1,5 раза унгт ттпш гтпттттплтттог отклонение дляРг/. Μ
Таблица 3 Сравнение обычных и λ-моментов для трех физиологических параметров Параметры Х100 Х100 Х100 λ = 0 средние 63,76 7,34 14,09 стандартное отклонение 14,92 2,81 1,38 λ = 0,5 средние 61,50 7,03 13,95 стандартное отклонение 14,60 1,83 1,37 Это существенное сокращение при введении понятия физиологической нормы для изучаемой популяции по этому параметру. ЛИТЕРАТУРА 1. Мешалкин Л, Д. Параметризация многомерных распределений.— В кн.: Вторая Вильнюсская конференция по теории вероятностей и математической статистике. Тезисы докладов, т. I. Вильнюс, 1977, с. 27—28. 2. Мешалкин Л. Д., Смирнов Н. 17., Сосновский Я. Я. Об устойчивости оценок центра распределения. — Заводская лаборатория, т. XXXV, № 5, с. 594-597. 3. Huber P. /. Robust Statistics. — Annals of the Mathematical statistics, 1972, t. 43, v. 4. 4. Tukey /. W. A survey of sampling from contaminated distributions. — Contributions to probability and Statistics. Stanford Univ. Press, 1960, p. 448—485. Муганцева Л. Α., Тюрин Ю. Η. БЫСТРЫЙ СПОСОБ АНАЛИЗА КАЧЕСТВЕННЫХ ДАННЫХ 1°. В практике нередко приходится сталкиваться с испытаниями Бернулли, в которых вероятность успеха зависит от одной или нескольких непрерывно меняющихся величин. Обозначим эти переменные через х=(хг, · . ., хп), вероятность успеха через ρ (#). W
В медицинских исследованиях переменными ti могут быть результаты лабораторных анализов пациента либо другие факторы (возраст, число выкуриваемых в день сигарет), а результатами испытания — наличие или отсутствие через определенный срок, обычно несколько лет, определенного заболевания (ишемической болезни сердца). В металлургии переменные xi могут быть содержанием в стали тех или иных легирующих элементов или вредных примесей, успехом в испытании — соответствие стандартам изготовленных из этой стали изделий. (Имеются в виду испытания с некоторым неколичественным исходом.) Важным частным случаем зависимости от х, которым обычно ограничиваются на практике, является зависимость через линейную комбинацию, т. е. случай ρ (х) = ==^('2С»ЖЛ· Линейную комбинациюc^-f-... ~\-спхп иногда будем обозначать буквой у. Здесь F (у) — произвольная монотонная функция у. Конечно, в формулу у— Ic.xi в качестве факторов х. могут входить не только непосредственные результаты отдельных анализов, но и их произвольные преобразования (скажем In x.), а также различные формы взаимодействия (например, члены вида x-Xj и др.), как это позволительно в регрессионных зависимостях. ч Неизвестными в этой задаче являются коэффициенты сг,. . .спи F — функция одного переменного. В частности, неизвестным является направление вектора сх, . . ., сп. Как уже говорилось, статистическим материалом служат результаты N независимых испытаний Берну л ли, т. е. набор (ε*, ^), где t — номер испытания, ί=1, . . ., TV, ε' — результат испытания в условиях οί\ τ. е. г' = 1, если испытание кончилось успехом, и е'=0 в противном случае. По предположению, Р{е* = 1}=р (х?). Известные нам методы решения подобных задач сводятся к выбору F (у) в виде F (г/) = 1/(1+ехр (а+Ьу)) и последующему применению метода наибольшего правдоподобия для определения неизвестных параметров. Метод этот требует значительных вычислений, не говоря о том, что такой выбор F (у) не во всех случаях может быть удачен. 19
*2°. Вспомогательное построение. Рассмотрим прямоугольник с центром в начале координат и ребрами, параллельными координатным осям, длины Л^, ϊ=1, . . ., л. В дальнейшем будем называть его начальной клеткой К. Предположим, что наблюдения ξ', £=1, . . ., N равномерно (в статистическом смысле) распределены по начальной клетке. Предположим далее, что вероятность успеха при испытании Бернулли в условиях ξ есть />(&) = αβ +аД+...+«£· и займемся оценкой величин ах, . . ., ап. Обозначим через <?Д|^) вероятность успеха при условии, что координата i вектора ξ фиксирована. Ясно, что благодаря предусмотренной для ξ равномерности распределения Для определения а. получаем одномерную задачу: на отрезке длины h. отмечены точки SJ, f=l, . . ., iV", и указано, каким из них сопутствовал успех, а каким — неудача. Оценкой может служить скорость изменения доли успехов от левого конца интервала к правому. Проще всего для оценки а. разделить отрезок [—h.12, h./2] на к равных частей. В каждой из этих частей подсчитать число испытаний ΝΛ и число успехов среди них Ма, а = 1, . . ., к. Можно показать, что частоты MJNU асимптотически нормальны. Их математические ожидания равны средним вероятностям успеха на интервале номер а, ра=Яо+а^а> гДе та "" среднее значение попавших в интервал α наблюдений ξ<# Различием в дисперсиях MJNU можно пренебречь и для оценивания а. применить обычный метод наименьших квадратов. Другого типа оценки можно получить с помощью следующего варианта метода моментов: приравнять 1/Л^2?(^)6' t и ее условное математическое ожидание 1/^2сР(^)(ао + + а$). Беря в качестве φ(#) 1 и х, получим оценку1 t 1 Черта сверху означает усреднение по отсутствующему индексу. 20
3°. Вернемся к исходным наблюд ниям (s*, at), ί=1, . . ., N и оценим направление вектора сг, . . ., сп. Выберем по каждой координате £ = 1, . . ., η шаг группировки h{. Каждое наблюдение (ε', of) переведем на начальную клетку: ξ' связано с х* соотношением #J=SJ + -f- mfh^ I Ц |< γ hi9 ml — подходящее целое число. После такой процедуры на начальной клетке точки будут образовывать нечто близкое к равномерному распределению благодаря перемешиванию возможно имевшихся неодно- родностей. Выведем точное распределение ξ на начальной клетке К. Предположим, что данные нам в опыте значения а;1, . . ., χΝ представляют собой выборку из распределения с непрерывной плотностью, которую мы обозначим г (х). Через Кр обозначим клетки «паркета», образованного параллельными сдвигами начальной клетки К; их центры обозначим Яр. В таком случае для любой области А а К мы имеем ρ (ξ< £ А) = j Const du]+ J fh (и) dut A A где fh (u) = Σ lr (u + αβ) — r (αβ)I· Отличие от равномерности незначительное 2, в том смысле, что ->0 при hv . . ., Aw-*0. Внутри каждой клетки К^ пользуясь ее малыми размерами, зависимость вероятности успеха от χ можно заменить линейной функцией от χ—αβ, с малой поправкой. После перехода на начальную клетку К зависимость по-прежнему остается почти линейной. Для поправки gh (ξ) в формуле 2 При некоторых условиях, аналогичных приведенным в теореме 2, резюме доклада А. И. Орлова и А. В. Воскресенского от 16 февраля 1977 г. (см. раздел пятый настоящего сборника). 21 sup иЬК /»(«) ■к
действует неравенство \gh (ξ)[ <С Const \h\2. Это позволяет для определения направления вектора сг, . . ., сп применить процедуру, описанную в пункте 2. Покажем, что предложенные в пункте 2 оценки градиента являются состоятельными. Вероятность успеха при условии, что координата i вектора ξ фиксирована, есть а0+а»£*+А* (ξ,). Из ранее указанных неравенств для поправок следует, что и ^Р|/АД)|-»0 приЛ,-*0. и Ясно, что не стоит брать Ах, . . ., hn слишком малыми, ибо на слишком малых интервалах трудно оценить скорость изменения вероятности успеха. По-видимому, направление градиента надо оценивать многократно, начиная с относительно больших h. и постепенно их уменьшая. Результат можно считать хорошим, если оценки проявят устойчивость в некотором диапазоне h. В пункте 2° была предложена оценка 2 «$-5«) (·'-») 2 $-*<)■ t Ее математическое ожидание есть Ма* = а£-{- t Для числителя смещения действует неравенство 14 2 @ -li) Uk<{® - h<] I < °{hi) VT%®-w · I t I Обращаясь к знаменателю, находим, что при Nh4 -> оо Taj-2 (Я-««Г-Сю* почти наверное. Поэтому смещение стремится к нулю при Лц ..., hn->0. Квадратическое уклонение этой оценки за- 22
пишем в виде Μ (а* — а4)2 = Da] -}- (я» — Л/α*)2. Легко видеть, что с вероятностью, стремящейся к единице, л * ^ Const ^ Const t Следовательно, для того чтобы оценка а* была состоятельной, достаточно выбирать hv ..., hn в зависимости от N так, чтобы iV/^->oo при iV->oo. Вторая оценка, предложенная в 2°, получалась следующим образом. Разделим отрезок [1/2/г,., 1/2/&J на к равных частей Iv ..., Ik. Пусть Na — число испытаний, попавших на /а, Л/а — число успехов среди них. Оценка наименьших квадратов дает для а. значение к м а, · Ζα Ту2" ^'« "" ^*) 2 &.-**)' Здесь ξ4— среднее значение наблюдений Ц, ξ<α — их же среднее по интервалу 1а. Аналогично предыдущему 2'.<Ь,-Ь) Ма*. = а, А—^— — , α где ba есть o(h{) равномерно по α. Поправка стремится к нулю при й,.->0. к 2 <*«&«-f;)2 М(а*-ау fS^--^1]' к 2 *·&.-**) «=1 2(?*«-^ где da<^ —тт—. В силу теоремы Муавра—Лапласа велика 4 чина Να при больших N ведет себя как -г- TV. Поэтому 3 3 С вероятностью, стремящейся к единице при возрастании N. 23
da^—^—. Далее, принимая во внимание, что V(?iK — £»)2> ^>-гЩу получаем i;^«(?.-a-i,·)2 α=ι ^ к Const ^ Const к Σ (^a-i*)2 2 ^ к ^ /V/г? Ar2 &«-5<) Итак, при фиксированном к оценка а* состоятельна, если к{-*0ч но /Vft2->oo, в точности как и ранее. (Направления («р ..., ап) и (ср .. ., си) совпадают.) Самый простой, хотя и грубый, способ оценить направление ср ...,си состоит в следующем: область изменения xt делим на отрезки длины 1. Подсчитываем частоту успехов отдельно по совокупности четных и по совокупности нечетных отрезков. Разность этих частот дает оценку с{. 4°. Оценив направление вектора с]э ..., ся, можно приступить к оценке F. Сами значения с* можно выбрать произвольно, поскольку дело сводится к масштабным изме- п нениям. Положим у = 2 с*%х%* и от набора (е*, х*) перейдем η к парам (ε*, у*)ч где г/* = 2 с*х1· Будем считать, что ре- зультаты е* и у* независимы. Наиболее распространенным является выбор функции F с точностью до (векторного) параметра Θ. (Часто в качестве F (х) выбирают логистическую функцию 1/(1+ехрХ χ (а0 + Ьу)) или функцию Лапласа Φ (УТ).) После этого дело сводится к оценке Θ. С вычислительной точки зрения эта задача может оказаться трудной. Часто, однако, случается, что набор у\ *=1, . . ., N напоминает выборку из распределения, обычно гауссов- ского. В таком случае легко оценить параметры этого распределения, скажем т и σ2 и перевести набор у\ /=1, . . ., N в выборку ζ* из равномерного распределения на отрезке [0, 1], по правилу ^ = Фг ~т\ В этом случае задача сводится к оценке вероятности успеха q (ζ) в зави- 24
симости от 2, изменяющегося на отрезке [0,1 ], по результатам независимых испытаний. Начать надо с построения гистограммы. Иначе говоря, следует разделить единичный отрезок изменения переменной ζ на i частей, и в каждой части подсчитать частоту успехов. Этот график поможет составить представление о ходе изменения q (ζ) и выбрать подходящее семейство кривых, из которого затем будем выбирать аппроксимирующую. Как видно из предыдущего, оценки направления градиента не являются yJN — состоятельными, поэтому применить критерий типа Колмогорова—Смирнова даже для проверки простой гипотезы о типе F (я), не предполагая известным направление градиента, а пользуясь его оценкой, не представляется возможным. Однако мы можем воспользоваться некоторым критерием, который позволит нам заранее отбросить *ге параметрические семейства, к которым мы ошибочно предполагали принадлежащей функцию успеха F (х). Следует заметить, что подтвердить принадлежность F (х) к данному параметрическому семейству критерий не может. Итак, пусть мы оценили направление градиента и перешли с помощью преобразований г/ = 2фч на прямую. ♦ Предположим, что Q(y)— полученная нами вероятность успеха. Проверим гипотезу о том, что (?(2 с\хЛ — истинная вероятность успеха. Рассмотрим процесс UJ,lz)=^r^[e{j/^—Q(yi)x(z, yt)]> где {1 с вероятностью Q(y4), 0 с вероятностью 1 — Q (у{). Функция χ (ζ, у) есть индикатор интервала (—со, ζ), так что ( 1, если г/О, Λν ' ' I 0, в противном случае. 25
Пусть G (у) — функция распределения случайных величии У ν ·· ·ι У л· Имеем: min(^lf z2) MU„(zl)UN{zi)= \ [Q(y)-Q2(y)\dG(y). —CO В силу центральной предельной теоремы конечномерные распределения UN(z) асимптотически нормальны. Более того, при Л7 -> оо процессы Ua (ζ) слабо сходятся к некоторому гауссовскому процессу. Пусть V (ζ) — гауссовский случайный процесс с нулевым математическим ожиданием и ковариационной функцией mln(zt,*2) J lQ(y)-Q4v)]dG(V) —00 +5 · J \Q(y)-Q4y)]dG(y) —со Процессы Uα {ζηγ^τ 2 К? (У<)— Q* (У*)]} слаб° СХ°ДЯТСЯ к F(z) прц iV-*oo. Процесс F(z) при стандартной замене времени превращается в безусловный винеровский процесс Wt на отрезке [О, 1], а потому p{sup|^(Z)/j/^2re(yj-e%j]|>T}-* '-*P{Sup|FF,|>T}. 0<jf<l Отсюда вытекает приближенный способ проверки гипотезы о виде вероятности успеха Q(y). Выбираем уровень значимости δ. Затем находим γ из условия 8 = Ρ { Sup | PF, | > γ} ^ 4 [ 1 — Φ (γ)]. 0</<1 Гипотеза о том, что вероятность успеха имеет вид Q(y)* отвергается, если статистика Sup *=1 превосходит γ. 26
Маамяги А. В. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ В ПРОСТРАНСТВЕ РАЗБИЕНИЙ 1. Если некоторое множество объектов М={01, 02,... . . ., 0Я) требуется разбить на неупорядоченные классы схожих между собой элементов, то классы разбиения могут быть или не быть заранее описаны. Рассмотрим два разбиения совокупности Μ на два класса: пусть первый класс разбиения S содержит объект 01? а все остальные объекты находятся во втором классе; первый класс разбиения R содержит все элементы Μ, кроме объекта 0lf который принадлежит второму классу R. Ясно, что с точки зрения разбиения множества Μ на заранее не описанные классы R и S совпадают и d (Д, £)=0, где d (R, S) — расстояние Хемминга между R и S. Если предположить, что существует некоторое истинное разбиение S0 совокупности Μ, которое воспроизводится с некоторой ошибкой и классы S0 заранее известны (задача сортировки или категоризации), то становится очевидным, что применять расстояние Хемминга или некоторую функцию от нее в данном случае в качестве оценки несовпадения нецелесообразно, так как d (S0, SJ)=0, если {£"0/Li — разбиения, полученные из S0 переименованием ее классов (к — число классов S0). В случае категоризо- ванных данных поэтому правильно применять коэффициенты, рассчитанные по матрицам сопряженности (например, коэффициенты Пирсона и Чупрова [1] и [2]). Число разных возможных разбиений — &*, пустые классы возможны. Число всевозможных разбиений η объектов на классы в случае, когда ни число классов, ни их содержательный смысл заранее не известны. где φ (ηу i) — числа Стирлинга II рода (пустые классы невозможны). В дальнейшем будет рассматриваться лишь пространство разбиений объектов на некоторое фиксированное число (к) 27
классов (случай I — известно число классов, но не известен их содержательный смысл), или на ограниченное сверху число классов (число классов не больше некоторого к — случай II). Число возможных разбиений в случае I: Ψι(η, Α)=φ (η, к) и в случае И: k ср2(л, &) = Σφ (Л> О· г=1 2. Предположим теперь, что на пространстве неупорядоченных разбиений η объектов на классы <3R= {Sty* *> (ί=1, 2) рассматривается некоторая классификационная переменная R. Как известно (см. [2]), задание классификационной переменной приводит к заданию распределения вероятностей в пространстве <~ЗЯ. Сформулируем сначала гипотезу Н0 о характере распределения классификационной переменной R: __P(B = Sl) = P(R = S2) = = P(R = Snl*>V) = ""*(». *)' ' ' т. е.мылредполагаем, что все возможные разбиения ил1еют одинаковую вероятность появления в процессе случайных «наблюдений)* R. Рассмотрим т независимых, одинаково распределенных (в соответствии с гипотезой Н0) классификационных переменных: т {R*}1L· и пусть Rm=f] RJ l\ U — разбиение объектов на один класс; нас будет интересовать асимптотическое (по η -> оо) распределение статистики zb=»[t-(i-li^i=>.)-i] Очевидно, распределение классификационной переменной Rm индуцируется распределениями классификационных переменных д/(/ = 1, . . ., т) с учетом их независимости. При этом под f]RJ понимается применение теоретико-множественной операции пересечения к соответствующим экспериментальным реализациям Ю\ 28
при справедливости Н0, значение его позволит нам проверить гипотезу «о полной рассогласованности» заданного набора разбиений. Заметим, что асимптотическое распределение некоторой статистики, линейного преобразования d (R*, Rj) (также для Н0), приведено в [3]. Утверждение 1. Zfy сходится по распределению при я -> оо к случайной величине κ2 (fcw— l). Доказательство основывается на результатах комбинаторных задач теории графов, в частности при доказательстве существенно используется формула расчета количества лесов с η помеченными вершинами (при фиксированном числе деревьев). Из-за громоздкости оно здесь не приводится. 3. Пусть к = 2. Для получения результатов, позволяющих нам проверить гипотезу более общего вида, чем гипотеза Н0, рассмотрим некоторое фиксированное разбиение S0 множества Μ на два или не более чем на два класса и суммы Wr(S0) = ^ dr(S0,SJ), t = lf 2; r = 0, 1, 2, ... . Легко понять, что d(S0, SJ) будет принимать значения 2т(п — т)ч m~i, 2, ..., Гу L m = tl-)rt2, tl — число объектов, которые в обоих разбиениях находятся в первом классе, t2 — в обоих — во втором. Пусть в одном из классов S0 находится ν элементов (допускается и ν = η). : Тогда tzzzl м=0 + " Σ 2Cl_v{2a{n-u))r, i = l, 2; f»=0 t -f- и — число объектов в первом классе SJ. 29
Обозначив m = v — t-\-M, получим: Wr (So) = 2 Ci l2m (» - »)Г + (i - 2) [2p (л - y)]r = i=sl, 2; r = 0, 1, 2 ... = 2 C:_1[2m(n-m)]r + (i-2)dr(U, S0). »i=0 В частности, Wx (S0) = 2»^n (n - 1) + (i - 2) d (tf, S0); W2 (S0) = 2"-3n (re - 1) (n (n — 1) -f 2) + (i — 2) d» (ff, S0). Введем η и рассмотрим *>*(». 2) =^{2Ci{("~2w)2_8)R+ + (i_2){n«-»-2d(^, S0)j«. В [4] доказано, что 2 Cff(n-2m)a «ι=1 __ ->(2Я —1)!! R = i, 2, ... Так как 2 С; (п - 2т)* = 2 2 С-, (п - 2да)«, ТО И W(*. 50f i, R) - (2Л—1)! ! Д = 1, 2, ... »->оо Пусть теперь вероятность «появления» разбиения 6ν зависит от его удаленности от S0: P{R = S') = ft^^), 30
и пусть функция /e(-^-d(S0, SJn допускает разложение в ряд Тейлора: /ι(*)=2 h (*-т(я—)) · Рассмотрим моменты статистики znsj8 : lim E(z*sJs)r = lim?'|fWh(d{SJ'So))= Я->00 XW(*, S0, i, p + r). Пусть, например, /θ (ж) = , тогда lim E(z*jsy = \\vn rr-?- X »->·οο w я-*со — —I я I 2я-1е 2 \ я / V/LY и^(Я, $0.«.'+г) Х^ = (2г-1)!!(т^?). у/еуич». 5,,«.«) Итак, для 0^θ<[1 получаем моменты гамма-распреде- ления: G(—i"· у)· Для малых значений η распределение ζ^ может быть подсчитано непосредственно аналогично тому, как это сде- 31
лано в [4]. Данные результаты позволяют нам строить доверительные множества для разбиения *50. 4. Обобщим результаты предыдущего пункта на ситуацию, когда в качестве фиксированного разбиения рассматривается произвольное разбиение. Предположим, что на пространстве разбиений η объектов на два (не более чем два) класса {S'№·2), i = l, 2 задаются классификационные переменные R9 T и вероятность их выпадения зависит лишь от их расстояния от некоторых фиксированных разбиений Sov S02: P{R = S') = gl(d(SJ, S01)), p{T = SJ) = g2(d(SJ, SJ). Пусть ΞΦ некоторое фиксированное разбиение. Моменты статистики d (R, S ): η и EdT (R, SJ = |·2 ft (2? (» - 4) 2 C»C«-' 3=0 p=zs {2q(n — q) — 2(m — p — p)(n — q—p — (p + q — m))}r+ + (i-2)gl(d(Ut Sol))d'(U, 5Ф), где 5=max {0, га—р)> u=mm{m, n—q}9 w=y+Z, ν — число объектов, которые находятся как в разбиении £01, так и в разбиении S^ в первом классе, I — число элементов, находящихся в обоих разбиениях во втором классе. Последнее выводится аналогично Wr (S0). Нетрудно вычислить, что Ed(R, 5ф) = £ЭД Sol) + (i-2)gl(d(U, Sol))X Xld(ff,S,)-d(17,SM)] + +^,g„)[1-^(i-fr)- -{l-2)gl(d(U, 501))[l - 2dn{£_Stf ]]. 32
Из последнего выражения легко получить математическое ожидание статистики d(R9 T). Из-за громоздкости получающегося выражения для случая I приведем его только для случая II: Ed(R, T) = Ed(R, S01) + Ed(T, SJ- 2Ed (R, S01) Ed (T, SM) . n(n — 1) "τ" , /, 2Ed(R, S01)\f, 2Ed(T,Sm)\j/c, ς . +V1 n(n-l) A1 n(n-l) )aVov Ь«г)· Рассмотрим теперь т независимых классификационных переменных {Rj)JmV пусть Р(Ду=5') = ^(й(5', S0)), / = 1, ...т. Учитывая, что Ed(R, S0) имеет максимальное значение при справедливости гипотезы HQ% можно сформулировать для множества любых убывающих функций gj(z)% /== 1,..., т. Утверждение 2. Математическое ожидание статистики т Σ d(Rj, Sf) будет иметь минимальное значение для S =S0. 5· Рассмотрим теперь случай I, &>2. Утверждение 3. Wl(S0)=Zd(SuS^) = <?(n-i, k)d(U, 50) + + {<?{n,k)-<?(n-i,k)){n(n-l)-d{U,S0)}; Μ^^Σ #0?0,-?') = {φ(η, к)-4φ(ιι-Ι, к) + _|_ 4φ (П - 2, к)} <Ρ (£7, 50) - 2 {φ («, Λ) - — 3φ(η— l,fc)-f-2?(ra — 2,&)}n(ra — i)d(U, S0) + + {<f(n,k)-2<f(n-i,k) + + φ(η-2,Α)}«2(η-1)2 + 2{φ(η-1,Α:)- — <f(n — 2, Α)}«(« —1). 33
Доказательство. φ (л, Л) η η φ (я, к) я—1 η φ (Μ) =^2 2 2 «к· Ясно, что если элементы с номерами ρ и q находятся в одном классе, то в разбиении S^ они должны быть в различных классах, чтобы ajj=l и наоборот. Число различных пар объектов, находящихся в раз- л личных классах в 5°, нетрудно видеть: yd(i7, S0)9 a a°/q = l в нашей сумме φ (га — 1, й) раз (число разбиений, в которых ρ и q находятся в одном классе). Для остальных γ(η(η — 1) — d(U, S0)) пар объектов число возможных размещений получим, если из числа всех разбиений вычтем те, в которых эти пары в одном классе: φ (и, к) — φ (/г— 1, к). Тем самым мы доказали первую половину утверждения 3. Доказательство второй половины приведено в [3] как доказательство некоторого вспомогательного результата. Подобным же образом была вычислена величина 1^д(50). Чтобы облегчить ее запись, обозначим /rt(l; 6; 12; 8)={?(». ft)-6cp(n-l, fr) + -f 12<p(re —2, &)_8φ(η — 3, ft)} 7„_1>fc(l; 3; 2) = {f(л-1. *)-3φ(»-2, ft) + -f2?(n-3, ft)}. ^,(5,) = -(Ρ(£7, S0)Ink(i, 6, 12, 8) + + 3#(17, S0)n(n-l)I„k(i, 5, 8,4)- _M(E7, ^{^(n-iy/rtil. 4, 5, 2) + + 2«(»-l)/„_lfc(l, 3, 2)) + + 8d(*7, S0)I_lb(l, 3, 2) + + „3(re_1)3/(>fc(1>3?3t 1)+ + 6n«(ii-l>l/_u(1.2, 1)_
_4re(»-l)/„_u(l,3,2)-f- -f 8 {бийψ, S0) -f 4 ί^ α? - пА - -"("-1)("-2)}W1. 1), где ai — число объектов в ί-м классе SQ, m — число его классов. Обозначим через II (3, S0) число троек объектов таких, что в разбиении S0 все три объекта, входящие в тройку, находятся в различных классах. Нетрудно вычислить, что Н(3. S0) = ±(3nd(U, 50) + 2(Σα3-η3)). fori Так как φ (/г, к) ~ ^-т, то из выражения для W1(S0), ^2(^0)» ^з(^о) получим, что для случайной величины »»* = !''№. S') + ^(i-i)d(P, S,)-(t -4-)»: li-y'^wo—0-4·); У=1 φ (я, fc) я^У 2 (>W=(1-t)(1+t); .7=1 ii^f|'(^3=-(i -4)(i+т)(4 +т)+ Опуская громоздкие выкладки, приведем дальнейшие результаты: limlf (V\,,«* у- (* + 5)И ■ 3072 ^ »-*co " -^ · " «' (Л 3) .7=1 xlit»ul^,M(l+))l,.l!Ul. 35
lim ^'^ fa"* у_-(*+7)И ■ 92160,, „ "™ к" 2i WV — А» (к — 3)!! + А» I* ^Х х lim £(5^L_i^o(A_ Щк+ 1)lim п(4^)+ «-►00 Л К »-►» Л . 9ао(* + з)П ,. и(з, дв) , -ГА» {ft —3)11 1™ »« · φ (яЛ?) x„m!H!^_™(*-i><*+i,x я->оо л к у lim II(5' 6'o) I 210-32-5(fe + 3)ll »™ »β + k* (A-3)!lX V lim "(*.^ο) 2'·3·5(» + 5)ΙΙ X„it »* Αβ (*-3)!!Χ xUm Щ^А+2^1^(к_ΐ)(Λ + ΐ)χ Ю->-00 я-*со II (4, S0), II (5, S0), II (6, SO) — число различных четверок, пятерок и шестерок объектов; все выделенные объекты должны находиться в различных классах. Нетрудно видеть, что приведенные предельные переходы верны и для случая II. На данные проблемы внимание автора обратил С. А. Айвазян. ЛИТЕРАТУРА 1. Кендалл М. Дж.9 Стьюарт А. Статистические выводы и связи. М.: Наука, 1973. 2. Айвазян С. А. Опыт и проблемы применения многомерного статистического анализа в социально-экономических исследованиях. Доклад на Всесоюзной научно-технической конференции «При- 36
менение многомерного статистического анализа в экономике π оценке качества продукции»· Тарту: 1977, 3. Маамяги А. Экспертная классификация объектов. Распределение расстояния между классификациями некомпонентных экспертов. Известия АН ЭССР, т. 26. Общественные науки, 1977, № 2, с. 122-131. 4. Маамяги А. В. Проверка статистической гипотезы о значимом различии двух разбиений заданной совокупности объектов на классы. Случай двух классов. — В кн.: Статистические методы анализа экспертных оценок. Ученые записки по статистике, т· 29, М.: Наука, 1977· Заруцкий В· И. КЛАССИФИКАЦИЯ НОРМАЛЬНЫХ ВЕКТОРОВ ПРОСТОЙ СТРУКТУРЫ В ПРОСТРАНСТВЕ БОЛЬШОЙ РАЗМЕРНОСТИ Методам многомерной классификации, различным подходам к ней посвящена ныне обширная литература. Сравнительно хуже изучены вопросы классификации в условиях дефицита выборочных данных, когда объемы выборок становятся соизмеримы с числом оцениваемых параметров. 1. Классификация в условиях дефицита выборочных данных При исследовании разнообразных ситуаций плодотворным оказался предложенный А. Н. Колмогоровым прием рассматривать не одну изолированную задачу классификации, а последовательность (по т -> оо) классификационных задач, в которых размерность р=р (т) выборочного пространства и объемы обучающих выборок JVV (v= = 1,2) растут неограниченно с ростом т и PlN^K (1.1) В работе Деева [2] в указанной асимптотике изучена проблема классификации нормальных совокупностей в об- 37
щей постановке. Приведем полученные им результаты в удобной для дальнейшего форме. Обозначим ж Φ(ζ) = (2π)-'/> j exp {—и2/2) da. —00 Теорема Деева. Рассмотрим последовательность задач классификации, в каждой из которых распределения вероятностей в классе являются многомерными нормальными с общей ковариационной матрицей. Пусть выполнено условие (1.1), расстояние Махаланобиса между совокупностями стремится к пределу D < со и классификация проводится с помощью линейной дискриминантной функции Фишера с порогом, который асимптотически минимизирует максимальную вероятность ошибки. Тогда, если ковариационная матрица известна, а средние определяются по выборкам, вероятности ошибок стремятся к пределу ф( / D ). (!·2) а если и ковариационная матрица оценивается по выборкам и λ^Ι+λ^1 > 1, то вероятность ошибок стремится к \ 2^ + λα + λ2 )' К # ' Путем математического моделирования было показано, что эти асимптотические формулы дают хорошее приближение уже при сравнительно небольших объемах выборок. Таким образом, црямая оценка ковариационной матрицы приводит к значительному увеличению ошибок распознавания, если λχ и λ2 нельзя пренебречь. Однако в некоторых случаях априорные соображения или доводы чисто технического плана позволяют наложить ограничения на взаимосвязь компонент многомерного нормального вектора и избежать оценки всей ковариационной матрицы. Одним из первых шагов в этом направлении явилась изученная Мешалкиным Л. Д. и Сердобольским В. И. модель так называемой блочной структуры [4]. Было показано, что для достаточно широкого классараспределе- ний при ограничениях на размеры блоков и числа оценцвае- мых в них параметров (указанные величины считались за
ограниченными не зависящей от т константой равномерно по всем блокам) и при условии, что истинные значения этих параметров равномерно сближаются со скоростью ilsjk, где к — число блоков, при подходящем выборе порога ошибки классификации сходятся к (1.2). Другой подход, впервые предложенный С. К. Чоу, описан в работах [5], [6]. Он состоит в следующем. Пусть для каждого i (i = l, . . ., ρ) существует / (i), j (i) <ζ i, такое, что условное распределение xi при фиксированном значении компоненты Xjii} не зависит от всех предшествующих. В этом случае, если / (X) —- плотность распределения вектора Х=(хг, . . ., хр), a fi (x4, Xj{i)) — плотность условного распределения xi при фиксированной Xjii)9 из формулы условных вероятностей следует /(*)= Π /,(*,!*„«). (1.4) Функция / (·), определенная на множестве (1, . . ., р) и принимающая значения из множества {0, . . ., р-т1), та$ше, что / (i) < i, называется деревом зависимостей, а само распределение — имеющим древообразную структуру зависимостей. Если ; (·) на множестве {2, . . ., р} не имеет нулей, то дерево зависимостей имеет р—1 ветвей и является связанным. Понятие древообразной структуры зависимостей естественно обобщать на случай, когда формула (1.4) верна лишь после перестановки координат X. Эта перестановка, а также функция / (·) могут быть как известны, так и не известны. В работе [9] дается алгоритм для построения функции /(·) и соответствующей перестановки компонент вектора X, при котором достигается максимум функции правдоподобия на множестве всех перестановок и деревьев зависимостей при условии, что плотность распределения может быть записана в виде, аналогичном (1.4). Для случая, когда объем выборки (п) растет, а размер^ ность пространства (р) фиксирована, в [3] и [8] разработаны критерии для проверки структуры зависимостей компонент X, в [6] и [7] рассмотрена аппроксимация произвольного распределения распределением с древообразной структурой зависимостей. 39
Однако вопрос об использовании распределений с простой структурой зависимостей в ситуациях, когда pun соизмеримы, остался открытым. В настоящей работе рассмотрены условия, при которых ошибки классификации нормальных векторов с известной древообразной структурой зависимостей при подходящем выборе порога классификации сходятся к (1.2). 2. Оценка параметров и формулировка теоремы Пусть, X, Хг, . . ., Хп — независимые одинаково распределенные р-мерные вектора-столбцы, подчиняющиеся многомерному нормальному закону распределения Ν (Θ, Σ) с известной структурой зависимостей между компонентами, имеющей вид дерева ; (·). Из теоремы 2.5.1 [1] следует, что плотность данного распределения имеет вид ехр 4^П °i 9 {2*)ρΙ2ι££ρ Vaf(l-r?,/(0) (2.1) где о5 = ЛГ(*,-в^, θ = (θ1,..„ θ,)', % = Mxi9 σ,§/(0 = = М(х4 — Ъ{){х/{4) — θ/(0), ritJti) = oit /(i)/(<W(o)· Из представления (2.1) следует, что обратная матрица для ковариационной матрицы рассматриваемого распределения может быть представлена в виде произведения двух треугольных матриц ?Г1 = С*-С% (2.2) где С — нижняя треугольная матрица, на главной диагонали в позициях (i, i) у которой стоят величины l/V°<(^ — rf, /«))» П°Д главной диагональю находится не более ρ — 1 отличных от нуля элементов и в позициях (i, j(i)) стоят величины, равные —ritjnJyJa^m(^ — г?, /«>)· Обратную ковариационную матрицу будем оценивать непосредственно с учетом структуры, полагая ее равной iS,"1=C/'C, где С получается из С, если все величины 40
σι» rt, /(*) (*=1> · · ·» Ρ) заменить на соответствующие выборочные оценки. Пусть классификации подлежат объекты двух классов πχ и π2 и Хг ν, . . ., Χν^ ν (ν = 1,2) — соответствующие им р-мерные векторы в обучающей выборке. Плотности распределений в обоих классах являются многомерными нормальными с общей ковариационной матрицей, причем зависимость между компонентами имеет известную древообразную структуру с функцией / (·). Классификацию нового наблюдения X, не зависящего от векторов выборки, будем осуществлять при помощи обычной дискриминантной функции, в которой выборочная оценка обратной ковариационной матрицы заменена на S"19 построенную по обучающей выборке ^(X)=.[x_|(j1+J2)]' s-n^-U (2.3) где векторы средних Х^ определяются как обычно, Так как в данном случае прямо оценивается не сама ковариационная матрица, а структурные элементы обратной, то распределение g (X), определенное формулой (2.3), уже не является инвариантным относительно любых (!) линейных преобразований исходных переменных. Поэтому появляется зависимость как от структуры множеств Г1 (0 = {* : / (&) = 0> ί==1» · · ·» Ρ—1» так и от В=М (Х2— — Х±). Однако распределение инвариантно относительно диагональных преобразований и преобразований переноса координат. При фиксированных Хг, Х2, S и известном классе, к которому принадлежит X, не трудно найти условное распределение g (X). Так, при Х£ nt условное распределение g (X) имеет вид N (ад, σ*), где a^-lfr + XjS-^Xt-Xa aj = (Х2 - X,) S-VS-* (Χ2 - Χ,). (2. 4) Рассмотрим теперь последовательность по т аналогичных задач классификации, удовлетворяющую (1.1) и дополнительным ограничениям: А. Для каждого т распределение вероятностейв классе имеет известную древообразную структуру зависимостей 4*
с функцией / (-); В· I ri, у (*) I ^ г < 1 равномерно по m и ί (ί = 1,..., ρ); С. Ζ)ΛΙ = θ/Σ-1θ-^Ζ)<οο; θ? D. д^ГлГ 2 W~40)-f = o(l) при m^oo, где ЭД (·) есть функция множеств, значение которой на множестве у"1 (i) равно числу его элементов, Все параметры и множества индексов в приведенных ограничениях Α-τ-D, кроме константы г, зависят от т. Теорема. Пусть при т -> со рассматривается описанная выше последовательность задач классификации, выполнены условия (1.1) И-4-Н9, классификация осуществляется по критерию g Sg с, где g имеет вид (2.3). Тогда при т -» оо по вероятности условные ошибки классификации стремятся к пределам α^Ψ{ 2^ + λ1 + λ2 j' 3, Вспомогательные результаты Пусть X! t v, ..., Χν^ ν = 1, 2, — вектора выборки, определенной 'в пункте 2, с древообразной структурой зависимостей. Пусть дисперсии компонент равны единице. Определим для i и I из множества {1, . . ., р) и п=* *,,,= Σ (4.ι-*0(*ί.ι-*ϊ)+ + Σ «ι-*ί)«ι-*»)· Обозначим о ненты на Z-ук Обозначим оценку коэффициента регрессии ι-ои компоненты на Z-ую через 42
а оценку условной дисперсии с-ой компоненты при фиксированной Z-ой через ζ.·>/ = ^(1-^./)/(»-2). Лемма 1. Случайные величины ύ\{1 и C<t| распределены независимо, причем 1фи фиксированной Z-ой компоненте векторов выборки η, г имеет условное распределение N(rit n (1 — r?f /)/sf). Случайная величина ζ{1 распределена как __2 V Щ, где ί/д. — независимые случайные вели- 1<й<я—3 чины, подчиняющиеся распределению iV(0, 1—r}t ,). Доказательство. Параметры условного распределения η, , вычисляются методом п. 8.2.2. [1]. Вид распределения ζ/β , установлен в теореме 4.3.3 [1J- Независимость случайных величин *]it / и ζίρ , может быть доказана дословным повторением рассуждений на с. 118 [1] и есть следствие того факта, что матрица *2 распределена как сумма 2 ^ ^л» гДе ^*— незави- 1<&<«—2 симые двумерные вектора-столбцы, имеющие нормальное распределение с нулевым средним и матрицей ковариаций, равной ковариационной матрице i-и и 1-й компонент. В дальнейшем потребуются первые два момента случайной величины ζ~ν При η ]> 7 они имеют вид Afr-i — п — 2 Ч'|— (n —5)(1 —rJpJ) ' Используя независимость С7>| и ηΜ и условную нормальность η<}/ путем непосредственного вычисления получаем. Лемма 2. С точностью до членов порядка (?(—} "Wi.iN.iJ—д(1_г? ,,)*· 43
Лемма г?. С точностью до членов порядка О (-$) ЧС,·.,' %i.i) »(l-i.;)a' °°ν\ίί.,' U.ι) n(i-rl,)>* covf^LL £Δ= *Ы oy\u,i' и,J μι-ί.ι)1· Лемма 4. Пусть P((z) = z2-]-a(z-\~b/, £ = 1, 2, at и bt не являются случайными величинами. Пусть, кроме того, £>/, тогда с точностью до 0(п~3) cov ( PiiVi.jU)) Ptfti.jm) \_ ( _2 4?,/») +Μ Доказательство. Из определения древообразной зависимости с функцией /(· ) следует, что при условии фиксированной / (£)-ой компоненты векторов выборки ^(η* ,у(о/£», / < л не зависит от ^('Ί/,/ίη/^/,./ί/))· Используя лемму I, прямым вычислением может быть показано, что соответствующее условное математическое ожидание величины (^η^^)-)- + 6ι )/ζ*, у с * > равно ее безусловному, а величины η^/(ί)/ζ· ,/(ί)— - « fobco/C,,,m) Равны (Д^|)(^-_ M^-). Отсюда cov Рассмотрим последовательность 93= {Д, /2 · · ·}> где fi = j(f4_l) и Д = /(ί). Возможны случаи: l^j(i), J £93; Ζ<С7(Of ί^^ί ^>/(0· Для каждого из них можно указать такой номер, что при фиксированных компонентах векторов выборки с этим номером величина ^уш/С/.уш не зависит от sfuy Далее, ηι§/(|)/ζι§</(|) = η/(|)§ι/ζ/(|)§,, откуда, используя результаты леммы I, получаем, что ее условное математическое ожидание при фиксировании любой компоненты равно безусловному. Лемма доказана. 44
4. Доказательство теоремы Доказательство сходимости вероятности неправильной классификации для случая, когда Х(*к1У аналогично случаю Χζ π2, поэтому ограничимся рассмотрением только условного распределения (2. 4). Его параметры могут быть представлены в следующем виде % = - у «*. - XJ Σ"1 (*, - *,) - 2*;ς-% + + 2X[S~*X2 + (Х2 - XJ (5-1 - Σ"»)(Хл - X,) - -2X[(S-1-L-i)X1), (4.1) Χ Σ (£-»-2Г») (*,-*,). (4.2) Нами будет доказано, что при выполнении условий теоремы аа и а2 сходятся по вероятности к константам 1 —-ο-(#+λι—λ2) и 0-\-\χ-\-\ соответственно. Откуда и будет следовать справедливость утверждения теоремы. В правых частях формул (4.1) и (4.2) присутствуют случайные величины (Х2— Хх)! Σ~ι(Χ2— Хх) и Χ,1Σ"ιΧν /Nt + N2\ о/ N*N% ~ \ которые распределены как ( ΝΝ2)χ\ρ' Nx + N2Dm) и лГХ2^) и> следовательно, при выполнении условий теоремы сходятся по вероятности соответственно кй + ^^и^ Ниже будет показано, что все остальные члены (4.1) и (4.2) по вероятности сходятся к нулю. Перейдем к оценке величин, содержащих разность S~l — Σ"1. Сначала докажем, что при выполнении условий теоремы и т-*со Μ{θ'(8-ι — Σ-ι)θ)2 = ο{1)9 Μ{β!(3-ι — Σ-ι)Σ(3-ι — Σ-1)θ) = ο{1). (4.3) Затем произведем оценку добавочных членов от замены θ на одну из случайных величин Χν Х2 или Х2— Χν Поскольку прямая оценка выражений в (4.3) через матричные нормы приводит к излишним ограничениям на компоненты Θ, потребовалось более детальное рассмотрение. 45
В силу формулы (2. 1) и описанного в пункте 2 представления S"1 величина ΘΊ?"1© может быть записана ъ виде 2 *J. где χ. = φ.~^^)^ζ~^). Определим <*,· = (% - г,,у<Л(„)ЛД-г»,у(<), o(i,/(i)) = Vl-^/(«· При сделанных соглашениях относительно дисперсии компонент σ(ί, /(£)) есть условная дисперсия г-ой компоненты при фиксированной у(г)-ой и o(i, /(£)) = σ(/(ί), ί). Используя результаты леммы 1, непосредственным вычислением получаем, что С учетом введенных обозначений М(9' Далее Μ (θ' (5-1 - Σ"1) θ)2 = Σ 4, + Σ cov (xj, χ?). (4. 4) 2*Α = 9{ΐ(2^ + %)}* + 0(4)=0(.) (4.5) при τη-> οο. Последнюю сумму в правой части (4.4) разобьем на две: 2 и 2 · Из леммы 4 и ограниченности компонент θ следует, что при i^>l oov(xj,xj) = o(%i). Отсюда, используя ограничения Д получаем, что при т-> оэ 2 cov (xj, xj) = 2 2 cov (χ», κ|) = о (1). ί, /: %Ф1 », /: »>/ Вместе с тем с использованием лемм 2 и 3 можно показать, что с точностью до θΙ-Α ЯМ)=4Ю + 05шФ· (4-6)
Из ограниченности (по т) суммы 2^? следует ограни- ченность и 2^!· Отсюда, если выполнены условия А-^С г теоремы, то 2 =0(4)прит^оо. (4.7) *, / : »=/ Тем самым первая часть формулы (4. 3) доказана. Пусть теперь \ — (1х.. ·, %РУ =z(S~l — Σ"1)θ. Из представления матриц S~l и ΣΓ1 в виде произведения двух треугольных, описанного в пункте 2, следует Сумма в (4.8) получается при умножении вектора С · θ, имеющего вид (κ1? ..., κρ), справа на С' и соответственно С · Θ, имеющего вид (ά£; i=l, .. ,,ρ) на С, за счет элементов на строке i вне главной диагонали, реализующих древообразную зависимость компонент с номерами из множества j~l(i) с i-ой компонентой. Выражения для этих элементов приведены в пункте 2. Обозначим через γ,. Μς*— η [σ(1, /(0) Z\°(k,i) 3J + + 0(iM)). ,4.9) Тогда Μ (ξ'Σ · ξ) = 2 cov fc, ξ,) г.,, + Σ Τ,ΤΛ,,. С учетом леммы 4 и предположения D имеем при иг-* оо Σ «>ν(ξ<Λ)Γ,§# = (4.10) 47
Далее, из результатов лемм 2, 3, 4 следует, что с точностью до О(-А 1 (4.11) Таким образом, в рамках предположений теоремы 2θξ. = ο(1) при т-+со. i Рассмотрим теперь сумму 2 Т<Тлг*,&· ^на может быть мажорирована следующей функцией: Покажем, что при т -> оо эта функция сходится к нулю. Действительно, из ограниченности последовательности расстояний Махаланобиса Dm и равномерной ограниченности по т и i совокупности величин {1/σ(ι, ;(0)} следует ♦ 2£шГ=°№ <4ЛЗ> ♦ а утверждение — \ | θ/(ί) | = о (1) при яг -> оо эквивалентно 4 ограничению D. Пусть теперь в (4. 3) произведена замена θ на одну из величин Хг, X2 или ^2—^ι· Интересующие математические ожидания в силу независимости этих величин от S'1 получаются интегрированием правых частей в формулах (4. 5),J4.6), (4.10), (4.11) по соотзетствующим компо- 48
нентам случайной величины, которой мы заменили Θ. Однако интегрирование в (4.5), (4.6) и (4.9) приводит к появлению дополнительных членов порядка О (1/тг2), в (4.10) - О (1/тг), в (4.11) — 0 (9Л (Г1 (0)/и2). Отсюда следует, что все члены в (4.1) и (4.2), содержащие разность S'1— Σ"1, сходятся к нулю. Далее, так как X[S~1X1 и X'2S~lX2 по вероятности сходятся к константам, то X'1S~1X2 = (CXi)f (СХ2) сходятся по вероятности к своему математическому ожиданию, равному нулю. Теорема доказана. 5. Обобщение Пусть Х-мерный случайный вектор-столбец, подчиняющийся невырожденному нормальному распределению Ν (θ, Σ). Пусть далее для каждого номера i (i=l,... • · ·» Ρ) существует множество / (0 = {ίί, . . ., Ц4}9 где lj <С *> К ^ &=const, такое, что условное распределение χ. при фиксированных компонентах Хр /£/ (г) не Зависит от всех предшествующих. По аналогии с пунктом 2 может быть показано, что плотность распределения в данном случае может быть вы- ражена в виде произведения ρ условных плотностей ком·, понент, типа описанных в 2.5.1 [11, где каждая компонента связана с к4 количеством предшествующих с номерами из множества / (£). Назовем такие распределения распределениями с ^-древообразной структурой зависимостей. Отсюда Σ"1 может быть записана в виде С'С, где С — нижняя треугольная матрица, на главной диагонали у которой стоят величины, равные ί/(<ή — ^i9j(iy^j\i)^j(i)t i)\ П0Д главной диагональю находится не более к (р— 1) членов, отличных от нуля, причем на местах (г, Vj) стоят элементы, равные а к£\ — коэффициент, стоящий при хгу — θ/4 в выражении Σ*, j(i)%jb) (Xja) — θ/(ο)· Здесь Eif/(o = ςαο,i = cov(*<· XW))* X'ni) = (*/. ]£I(0)э θ>(0 = (θ,·, ) 6 / (0, β, = Μ*» <ή = Д*,. EJ(0 - 49
ковариационная матрица элементов с номерами из множества /ш. Оценка для матрицы Σ~] получается по аналогии с (2. 2) и имеет вид S~l = Cl · С, где С получается из С, если все матрицы Σ,·/(ο» Ε/(θ» σ^ заменить на их выборочные оценки. В данном случае также могут быть получены условия типа А-^-Е, достаточные для сходимости ошибок классификации последовательности задач, определенной в п. 2, когда ковариационная матрица совокупностей имеет описанную выше структуру (к. ^ fc, к — не зависящая от т константа). Они имеют вид: a) для каждого т распределение вероятностей в классах имеет известную fe-древообразную структуру зависимостей; b) 1 §Σί),/(ί)Σ,/(ί)Σ^ί)) ι ^δ>0 равномерно по i и т; c) Ζ)ίΜ = θ/Σ^1θ-^ί?<οο прит-^оо; d) — 2θ/(ί)Σ7^)β/(0 = °(1) ПРИ ™->оо. » Все параметры и множества индексов в приведенных ограничениях, кроме константы δ, зависят от т. Формулировка соответствующей теоремы дословно совпадает с формулировкой теоремы п. 2. Ее доказательство проводится по аналогии после очевидного обобщения результатов лемм 1—4 для случайных величин S2{ Σί, J(i)%J(i)bj(i), 4·, Σί} j^jSj^Q^i), Σ,·,/(^Σ^1,·)^, где е1 есть вектор, имеющий ζΰΐ (/ (i)) компонент; на месте, соответствующем xt — единицу, а остальные элементы— нули. ЛИТЕРАТУРА 1. Андерсон Т. Введение в многомерный статистический анализ. М.: Физматгиз, 1963. 2. Деев А. Д. Асимптотические разложения распределений статистик дискриминанта ого анализа. — В кн.: Статистические методы классификации. М.: изд. МГУ, выл. 31, 1972. 3. Карапетян К. А. Об одном статистическом критерии проверки гипотез о структуре многомерных наблюдений. — В кн.: Многомерный статистический анализ в социально-экономических ис- 50
Следованиях. Ученые записки по статистике, т. 26. М.: Наука, 1974,- с. 294-309, 4. Мешалкин Л. Д., Сердоболъский В. IT. Ошибки при классификации многомерных наблюдений. — Теория вероятностей и ее применения, τ, ΧΧ1ΙΙ, 1973, № 4. 5 Chow С. К., Lin С. N. An approach to the structure adaptation in pattern recognition, IEEE Trans. Sys. Sci. Cyb., SSC—2, 73—80 (December 1966). 6. Chow C. K., Lin C. N. Approximating discrete probability distributions with dependence trees, IEEE Trans. Into. Theory, IT—14, 462—467 (May 1968). 7. Chow С. K. Tree dependence in normal distributions. The report presented at the 1970 International Symposium on Information Theory, Noordwjik, The Netherlands (June 1970). 8. Downing D. /., Sow /. G. Does the dispersion matrix of a multivariate normal population have marcov structures? Communications in statistics, 1975, 4 (11), p. 1073—1079. 9. Kruskal J. B. On the shortest spanning subtree of a graph and the travelling salesman problem. Proc. Am. Math. Soc, vol. 7, 1956, p. 48-50. Дубров Α. Μ., Турундаевский В. Б·, Френкель А. А. О ЗАДАЧАХ ФАКТОРНОГО АНАЛИЗА ПРИ ОТСУТСТВИИ ЧАСТИ СПЕЦИФИЧЕСКИХ ФАКТОРОВ При практическом использовании факторного анализа часто возникают следующие ситуации: 1) некоторые специфические факторы отсутствуют в факторной модели; 2) выборочная ковариационная матрица ибходн&х переменных не является положительно определенной. В данной работе предлагается метод решения задач факторного анализа в этих ситуациях. Пусть я19 х2, . . ., %п+г — выборка из р-мерной нормальной совокупности N (0, Σ). Допустим, что вектор X генеральной совокупности удовлетворяет модели факторного анализа x = LJ + e9 (1) где х'—(хг, х2, „ . ., хр) — вектор наблюдаемых переменных, /д=(/ь /„ . . ., /J,e/=(e1, e2J . . ., ер) — векторы 51
общих й специфических факторов соответственно, не наблюдаемые непосредственно, L=(ljk) — матрица нагрузок X на общие факторы. В модели (I) предполагается, что (т+р)-мерный вектор факторов F = (-!-) имеет нулевое математическое ожидание и ковариационная матрица F имеет вид *<"">= (о г)· где 1~М (//') — единичная матрица, V=M (ее') — диагональная матрица. Из модели (1) вытекает, что ковариационная матрица вектора X равна [1] L = LL' + V. (2) В приложениях факторного анализа возникают следующие задачи: 1. Получение оценок матриц L и V. 2. Оценка числа общих факторов т. 3. Решение первых двух задач в условиях сильной коррелированности переменных, когда некоторые из них являются линейными комбинациями остальных. 4. Оценка значений общих факторов для отдельных объектов. Обозначим через S выборочную ковариационную матрицу вектора х. Допустим, что ковариационная матрица Σ невырождена. Тогда матрица S имеет распределение Уишарта, и оценки максимального правдоподобия матриц L и V получаются из условия максимизации функции L0 i0 = -i-ra{in|££' + ^|+tr[,S(Z£' + ^n}. (3) В литературе описаны два основных нодхода к решению задачи максимизации функции L0 [1,2]. В обоих известных методах, основанных на них, предполагается, что все оценки дисперсий специфических факторов Vj отличны от нуля. Однако в практических исследованиях часто встречаются такие матрицы S, для которых некоторые 52
оценки Vj равны нулю. Это может явиться следствием одной из следующих причин: а) J3 модели (1) некоторые Vj равны нулю, т. е. размерность вектора факторов F меньше т-\-р. В данной ситуации при любом объеме выборки некоторые оценки V j могут быть равны нулю? б) В модели (1) некоторые V j близки к нулю; в этом случае, если объем выборки был бы достаточно велик, все Vj были бы больше нуля. В практических расчетах матрица S часто не является положительно определенной. Это может быть вызвано тем, что а) в модели факторного анализа (I) больше, чем т, специфических факторов имеют нулевую дисперсию (х имеет вырожденное распределение). б) если определитель |Σ| близок к нулю, то вследствие недостаточно большого объема выборки или ошибок округления матрица S может оказаться вырожденной. Если S не является положительно определенной, то плотность распределения Уишарта равна нулю и мы не можем воспользоваться для оценки матриц нагрузок L и V функцией максимального правдоподобия (3). Поскольку проверка гипотез о числе общих факторов производится после того, как определены оценки £ и к [1], то в рассматриваемых ситуациях мы не сможем проверить эти гипотезы. Если максимум функции правдоподобия (3) ищется методом Лоули [1], то число общих факторов т и начальные приближения оценок £и7 часто находят центроидным методом. Следует отметить, что в рассматриваемых ситуациях, мы не сможем оценить число общих факторов также и в центроидном методе. Итак, в ряде случаев нельзя использовать разработанный аппарат оценок максимального правдоподобия матриц L и V и, соответственно, проверить гипотезы о числе общих факторов. Для решения этих задач можно предложить искусственно увеличивать дисперсии специфических факторов. 1. Получение оценок матриц LuV. Пусть й £ Ν (О, Δ)— случайная величина с диагональной ковариационной матрицей, не зависящая от х. Обозначим через А выборочную ковариационную матрицу случайного вектора и 53
и через ΔΛίί— матрицу выборочных коэффициентов ковариа- ции векторов X и и, ^х»=^цп^х4й'о гДе х» fl< — векторы значений χ и й в i-ом наблюдении, /г+1 — объем выборки. Для того чтобы дисперсии всех специфических факторов сделать отличными от нуля, прибавим к обеим частям модели (1) вектор й. Тогда модель (1) примет вид z = Lf + g, (4) где 2=£+й, £=г+й. Матрицы нагрузок на общие факторы L в моделях (1) и (4) совпадают. Вектор ζ имеет многомерное нормальное распределение ЛГ(0, Σ0), где Σ0=Σ+Δ. Выберем диагональную матрицу Δ таким образом, чтобы S0 — выборочная ковариационная матрица вектора я— £+й, стала положительно определенной и оценки дисперсий всех специфических факторов модели (4) стали отличными от нуля. Выборочная ковариационная матрица S0 вектора £ будет иметь распределение Уишарта w (Σ0, η). Так как S0 положительно определена, плотность распределения Уишарта в точке 5а отлична от нуля [5]. Следовательно, для оценки матриц L жУ0 модели (4) применим метод максимального правдоподобия. Функцию максимального правдоподобия получим, заменив в (3) V на Ϋ0, S на S0 и L на £0. В силу выбора Δ, оценки дисперсий специфических факторов положительны. Поэтому для максимизации функции правдоподобия можно воспользоваться любым из двух описанных в литературе подходов. При этом мы получим состоятельные, асимптотически несмещенные и эффективные оценки матриц L ж V0. Оценка матрицы нагрузок V на специфические факторы в таодели (1) определяется из соотношения V=didig(S—L0L'0). В практических задачах часто приходится рассматривать в качестве исходной выборочную корреляционную, а не ковариационную матрицу переменных. Поэтому программы ЭВМ, реализующие метод максимального правдоподобия, бывают настроены только на анализ кор- 54
реляционных матриц. В этом случае полученную оценку матрицы нагрузок на общие факторы вектора Ζ необходимо преобразовать, чтобы получить оценку матрицы нагрузок на вектор X. Пусть Lx — оценка матрицы нагрузок на общие факторы нормированного вектора я. Йж и Йх —- оценки корреляционных матриц нормированных векторов ζ и х соответственно. Очевидно, *, = /3^/.(Д!, + a,), t= 1, 2 , лг + 1, (5) где £=/+diag (A+2AJ. Из (5) получаем Считая β не зависящей от выборки, легко показать, что £0=25ν«£χ, где £0 — оценка матрицы L модели (4). Оценка V вычисляется по форл^гле Ϋ=Ι—diag (tj^l). 2. Оценка числа общих факторов. Для проверки гипотез о числе общих факторов используется статистика И1 Li=η{1η <£ήό+^»ΐ + tr [So φοϊο + γ оП _ PJ. (6) Так как матрицы S0 и tJHt'0+Y0 не вырождены, то можно теперь для модели (4) проверить гипотезы, о числе общих факторов. Число общих факторов в моделях (4) и (1) равны между собой. Очевидно, при фиксированной матрице Δ Рт -» 1 по вероятности при η ->оо, где Рт — вероятность принять гипотезу Я0 о числе общих факторов в модели (4), равном т. Рассмотрим зависимость статистики Lx от выбора матрицы Δ при фиксированном объеме выборки. Выборочная ковариационная матрица вектора z=x-\-u равна S0 = S + Ku + b'*u + b- (7) Оценка максимального правдоподобия матрицы V0 связана с SQ и £0 соотношением [1] ?0 = diag(S0-£,&)· (8) 55
Учитывая (7) и (8), нетрудно получить, что при Δπ -> оог Δ^-* СО, . . ., &рр-+ СО 1 ^о^о + ^о I ^4 1 ^о I ^4 /п\ —Щ "1· ТаТ ' () tr[50(£0£;+V]-*/' (Ю) по вероятности. При Дуу -* оо оценки Δ^ -> α по вероятности, откуда с учетом соотношений (9) и (10) получаем, что статистика Lt при Δπ -> оо, Δ22 -> «J, . . ., Δ^ -> оо стремится к нулю по вероятности. Следовательно, в этом случае Р0 -* 1 по вероятности, где Р0 — вероятность принять гипотезу Н0 о том, что число общих факторов равно нулю. Поскольку статистика L± с ростом дисперсии «шума» убывает, при решении практических задач оценка числа общих факторов вследствие недостаточного объема выборки может оказаться заниженной. Поэтому численные значения Δ^ следует выбирать не слишком большими, лишь бы только новые оценки дисперсий специфических факторов в модели (4) не полупились равными нулю. Поскольку дисперсии оценок зависят от объема выборки, то и выбор численных значений Δ^ будет зависеть в этом случае от объема выборки. Факторный анализ направлен на анализ структуры внедиагональных элементов ковариационных матриц. Чем меньшие значения Δ^ будут выбраны, тем меньше будут отличаться внедиагональные элементы выборочных ковариационных матриц S и S0 и, следовательно, тем меньшее влияние на оценку матрицы нагрузок L окажет наложенный на статистические данные «шум» (при фиксированном объеме выборки). Это также является аргументом в пользу выбора небольших значений Δ^.. 3. Случай вырожденного распределения х. В практических исследованиях может встретиться ситуация, когда какая-то компонента вектора х, например, х19 является линейной комбинацией остальных. Рассмотрим, как и выше, вектор 2=х+й и допустим, что Δη > 0(Δη — дисперсия и±). Тогда, если независимые переменные х2, ж3,... . . ., хр имеют невырожденное многомерное нормальное распределение, то и вектор ζ будет иметь невырожденное нормальное распределение и можно, таким образом, вклю- 56
чить хх в факторную модель (4). Это дает большую свободу в отборе переменных для факторного анализа, а также может быть использовано при построении уравнения регрессии с помощью факторного анализа. 4. Оценка значений общих факторов для отдельных объектов. Рассматриваемая в работе ситуация, когда некоторые оценки дисперсий 1?у=0, обусловливает специфику в решении задачи оценки значений общих факторов для отдельных наблюдений. Вычисление таких оценок необходимо во многих практических задачах. В соответствии с основной моделью факторного анализа (1), наблюдаемый вектор х принадлежит р-мерному подпространству (иг+р)-мерного пространства общих и специфических факторов. Поэтому общие и специфические факторы нельзя непосредственно выразить через х. В качестве значений общих факторов выбираются «наилучшие» в некотором смысле линейные комбинации исходных переменных /* = Р*А+ Р*А + · · · +Р*А· (И) При этом оценки факторных значений Jk уже не будут некоррелированными между собой, если мы це выберем специальный базис, даваемый каноническим факторным анализом [4]. Оценки факторных значений fk коррелиро- ваны не только между собой, но имеют также ненулевую корреляцию с другими факторами fq (q^k). При оценке значений общих факторов следует вернуться от модели (4) к основной модели факторного анализа (1). В противном случае наложенный ца вектор х «шум» и может повлиять на оценки факторных значений. Обзор методов оценки факторных значений содержится в работе [4]. Наиболее естественными являются 3подхода: регрессионный метод, метод Бартлетта и метод «идеальных параметров» Хармана [3]. Рассмотрим их подробнее. а) Регрессионный метод. Если в качестве «наилучшего» приближения общих факторов выбирается такая линейная комбинация исходных переменных х^, которая минимизирует по множеству наблюдений квадрат разности между fk и /л, то мы приходим к регрессионному методу оценки, значений факторов [1] Ы
или, заменяя S на LL'+F, ί = (Ι + £,'ν-ιί)-*£>ν-% где /-вектор-столбец оценок факторов /х, /2, . . ., /т. / является оценкой метода наименьших квадратов вектора /. Регрессионный метод приводит к смещенным оценкам значений факторов [4]. Оценка /приводит также к смещенным оценкам коэффициентов уравнения регрессии зависимой переменной у по общим факторам. Оценкой / нельзя пользоваться в случае, если дисперсии каких-то специфических факторов равны нулю. * Исходные переменные х19 х2, . . ., хр должны удовлетворять основным требованиям регрессионного анализа, и, в частности, степень корреляции переменных не должна быть высокой. Последнее ограничение является существенным, ибо для его выполнения необходимо выводить из модели факторного анализа часть переменных. Это ограничение на модель факторного анализа лишает нас одного из преимуществ этого метода в отборе переменных для модели. Поэтому в практических исследованиях возможности регрессионного метода оценки факторов ограниченны. b) Метод Бартлетта. Если для получения оценок факторных значений минимизируется по множеству наблюдений сумма квадратов нормированных специфических факторов 2 \х4 — 2 hkfk I ч· то приходим к методу ми- нимизации остатков, предложенному Бартлеттом [1] ϊ = φγ-ι£τι)ί'γ-ιχ. (12) Если какой-то из специфических факторов имеет оценку дисперсии ^у=0, то оценка (12) теряет смысл. c) Метод «идеальных параметров» Хармана. Оценка «идеальных параметров» Хармана почти не используется при оценке значений факторов и в уравнениях регрессии на общих факторах, хотя обладает рядом экстремальных свойств. 58
К этой оценке приходим, если станем минимизировать по множеству наблюдений сумму квадратов специфических факторов ρ ( ™ \2 2к-2У| ■ («) Оценка имеет вид [3]: f = (ifLrlL'z. (14) Нетрудно видеть, что оценка (14) минимизирует (13) не только по всей совокупности наблюдений, но и для каждого наблюдения в отдельности. Для ковариационной матрицы оценки / получаем выражение й = / + фЬг1 Ь Vt φίγ\ (15) Как известно [2J, £ = V]j*Q (θ — Ζ)1/*, - откуда φί)~ι = (θ — iy/*(Q'YQQ)-1 (θ — /)-7s (16) где θ — диагональная матрица т первых собственных чисел матрицы V-4*S0V-lf\ Q — (ρ Χ т)—матрица, столбцы которой являются соответствующими собственными векторами V-4>S«Y-% v о *^о о · Из (16) вытекает, что обратная матрица ф£)~х существует и, следовательно, оценкой факторных значений (14) можно пользоваться и в том случае, если некоторые Vj=Q. Для построения уравнений регрессии зависимой пере' менной у по общим факторам необходимо иметь оценки коэффициентов корреляции между у и факторами fv /2,,,., /т, Обозначим через Rfy вектор оценок коэффициентов корреляции общих факторов с у, основанных на оценке «идеальных параметров» Хармана, через f/y, t^f f/y, t^v — векторы выборочных коэффициентов ковариации у с /, £, /, f соответственно. Из (14) получаем откуда % = s? (diag Ay1 Φί-Τ1 &>*,> где s* — оценка дисперсии у. 59
Можно доказать, что оценка (17) минимизирует на множестве fl9 /2, ..., fm линейных комбинаций вида (11) сумму квадратов ρ / т \2 <р (/)=2 \*х#—Σ h^fktf] э где /' = (/1/2, ..., /J. Для доказательства рассмотрим соотношения *< = #с#> + Т<.. (18) где /(<) = (/,ι, /ί2 · · · у fim) — вектор значений функций J v /2 · · ·» /m виДа (11) в *'ом наблюдении, г = 1, 2, ... п-\-1, невязка γ; определяется соотношением (18). Из (18) получаем Ъ, = ^/, + ^,. (19) По свойству метода наименьших квадратов из (19) вы- ρ текает, что min2f*.y достигается на векторе t}y% опреде- ляемом соотношением (17), и, следовательно, <x>(/) = min<p(/). / Итак, в тех случаях, когда либо заранее известно, что некоторые дисперсии специфических факторов в основной модели факторного анализа (1) равны нулю, либо в процессе получения оценок матриц L и V некоторые оценки Vj оказались равными нулю, либо выборочная ковариационная матрица S вырождена, метод максимального правдоподобия для оценивания матриц L и V неприменим, В этих случаях оценки матриц L и V можно получить с помощью предлагаемого в работе метода. Для вычисления в рассматриваемых ситуациях оценок значений общих факторов для отдельных наблюдений метод Бартлетта неприменим, регрессионный метод также не всегда может быть использован. Оценки метода «идеальных параметров» Хармана можно использовать во всех рассматриваемых ситуациях. В данной работе рассмотрены некоторые свойства оценок Хармана. Следует отметить, что при практическом использовании предлагаемого метода нет необходимости накладывать «шум» й на исходную статистическую информацию — до- 60
статочно получить выборочные ковариационные матрицы А и А^. Отметим также, что при выборе ковариационной матрицы Δ рекомендуется брать отличными от нуля только те элементы Ауу, которым соответствуют оценки Ру=0. При этом сами элементы Луу не должны быть слишком большими. ЛИТЕРАТУРА 1. Л о у ли Д., Максвелл Л. Факторный анализ как статистический метод. М.: Мир, 1967. 2. Lawley D. N. Some new results in maximum likelihood factor ana- ' lysis. Proceeding of Royal Society of Edinburgh, 1966—1967, v. A67, p. 256—264. 3. Харман Г. Современный факторный анализ. Μ.: Статистика, 1972. 4. McDonald R. P., Burr Ε. /. A comparision of four methods of constructing factor scores. Psychometrika, 1967, v. 32, N 4, p. 381— 401. 5. Андерсон Т. В. Введение в многомерный статистический анализ. М.: Физматгиз, 1963» Гусейнов Г. А. ИССЛЕДОВАНИЕ КАЧЕСТВА КЛАССИФИКАЦИИ В СЛУЧАЕ НЕКОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ Одним из направлений классификации многомерных наблюдений являются задачи кластер-анализа. При решении таких задач в их экстремальной постановке основной вопрос состоит в выборе функционалов качества классификации и в построении с вычислительной точки зрения экономичных алгоритмов. Примеры таких функционалов и алгоритмов можно найти в работе [1]. В работе [3] описаны два подхода к решению задач классификации для случая, когда все признаки номинальные. Один из них в упомянутой работе назван задачей 61
аппроксимации. В другом подходе по определенному правилу вычисляется матрица связи и решается задача с помощью анализа структуры этой матрицы. В той же работе исследуется взаимосвязанность этих двух подходов. В работе [4] анализируется общий критерий с некоторым условием «оптимальности».. В предлагаемой работе дается общий подход к выбору функционалов качества классификации для случая неколичественных признаков. Это дает возможность выяснить математическую сущность перехода от задач автоматической группировки к задаче анализа структуры матрицы связей. В работе, кроме того, дается видоизменение условия оптимальности, предложенного в [41. Пусть множество объектов L={1^ . . ., lN) требуется разбить на классы по некоторому набору номинальных признаков Рг, . . ., Рп. Известно, что каждому разбиению можно сопоставить булеву матрицу: *=K7llf>' где rrfy=l, если объекты i и j входят в один кластер и r-j—Ο, если объекты i и / не входят в один кластер. Каждый номинальный признак порождает определенное разбиение совокупности объектов L. Следуя [3], обозначим через д*_цг* цлг^ (&=lt ..., η) совокупность булевых матриц, полученных по набору признаков Р±, . . ., Рп. Рассмотрим линейное пространство iV-мерных матриц с действительными элементами и определим норму матриц следующим образом [2]: 11*11= Σ \rt,\. (i) Расстояние между любыми матрицами Rd и R1 определим как: |д*-д'1= Σ^κ-r^. (2) Известно, что всякое нормированное пространство становится метрическим,- если ввести в него расстояние в виде (2). В работе [5] показана возможность использрва- ния этой метрики в качестве количественной оцедки^ близости между различными разбиениями. Следуя основным 62
положениям, изложенным в 13], найдем связь задачи аппроксимации матриц с задачей анализа структуры матрицы связей. Задача аппроксимации заключается в Минимизации по R следующего функционала: /=2ця-д*1, (3) где η — число признаков, a R1, . . ^ Rn — система разбиений, порождаемых набором номинальных признаков Рх..., . . ., Рп. Учитывая известное свойство нормы, получим: |^д-д*1>||;|(д-д*)|. (4) Покажем, что найденная в работе [3] связь между задачей аппроксимации и задачи анализа структуры матрицы связей являются следствием того, что в случае булевых матриц неравенство (4) превращается в равенство: £|Д-Д*|=|2(Л-Д*)|· (4а) Преобразуя правую часть (4а) следующим образом: 12(^-^)11=1^-2^1 η и обозначив А = Σ Ά*ι получим: &=1 2||Д-Л*1=|"Д-Л». (5) С другой стороны, при фиксированном Д, \\nR-А\\ может быть преобразована следующим образом: \ηϋ-Α\ = \Α — ηϋ\ = Σ Σ 1«</-*| + + Σ Σ Σκ,Ι. (β) где т — число классов в разбиении R; s и t — номера классов и i=£j Ч 1 В дальнейшем предполагается, что связи объектов между собой не рассматриваются, τ е. а^—0\ 63;
Так как 71^>таха,.у и а^^О при i, jQM; M=r ==={1, ..., Ν)у το (6) можно написать и в таком виде: И-«Д1=2 Σ Σ«.7-Σ Σ («„-»)· (6a) Если учесть, что 2 Σ Σ «ог= Σ «</ — 2 Σ <V то после некоторых упрощений получим: =222 (?-««)+ Σ ««· о Таким образом, мы нашли, что эквивалентность задачи аппроксимации и задачи анализа структуры матрицы связей основывается на известном свойстве нормы, выраженном соотношением (4а). Естественно, определив в нормированном пространстве норму матриц другим образом, мы получили бы другие критерии качества классификации, зависящие от этой нормы. Пусть норма матриц и расстояние между ними определяются следующим образом: '*'-■/j ^ <8> |я'-д'1=у Jj'-iy-'-y· (9) Тогда первоначальная задача аппроксимации сводится к минимизации следующего функционала: а неравенство (4) примет такой вид: (10) к 64 Σΐ/.Σ (γ,,-γ?,)2>"/ς [Σ(^-^.)Τ. (ii)
Использовав прежние обозначения, после некоторых преобразований (И) можно написать и в таком виде: >Vi, Σ (η-α„γ+Σ Σ Σ *Ъ- (12) Выражения, составляющие, соответственно, левую и правую части неравенства (12), являются разными критериями. Поэтому в данном случае эквивалентность задачи аппроксимации и задачи анализа структуры матрицы связей не соблюдается. Если вместо правой части неравенства (12) использовать ее квадрат т Σ Σ ("-«.·/+Σ Σ Σ «?y (is) (что правомочно ввиду совпадения их экстремальных точек), то получим критерий, предложенный в работе [4], как результат применения метода наименьших квадратов для нахождения оптимального порогового значения. Обнаруженный факт дает основание утверждать, что предложенный подход для выбора функционалов качества классификации является более общим. Выясним, что представляет собой дополнительное условие, называемое в работе [4] условием «оптимальности». Для этого зададим пороговое значение а^Ои напишем его в функционале (6): 2 2 \η-{α4/-α)\ + ΣΣ Σΐ«-««,|· (Ι*) Существенно упростим задачу, если перейдем от функционала (14) к более простому функционалу: т Σ Σ [»-(α„-α)] + Σ 2 Σ (α-«,,)· (15) *-l»V6*« »φί i£Rs j£Rt Для осуществления такого перехода обязательно должны выполняться следующие условия: *</>* Для ί, /6 Д.. (16) a{J^a для i£Rs, j£Rt; s=£t. 65
В основе перехода от (14) к (15) лежит также естественное представление о внутренней и внешней связях. При выполнении условия (16) выражение (15) преобразуется к следующему виду: т Σ Σ [n—{fiij—«)] + Σ Σ Σ(α-«ν·)= т т =ηΣΝΛΝβ-ΐ)-Σ Σ «.7-2 Σ Σ«„ + m m + ΣΣ Σ« + Σ Σ α = ηΣΝΛΝί-ί)- - Σ »ν+ Σ*· (17) Таким образом, получили, что после задания а, оста- т ется минимизировать только слагаемое «2^*(^ι—^)» т. е. условие (16) однозначно определяет число классов. А для дальнейшей минимизации при полученном числе классов и выполнении условия (16) нужно сделать переме- т щение объектов по классам, минимизируя ^2^,(^ι—1)· Очевидно, что условие (16) является условием «оптимальности» для метода корреляционных плеяд (см. [1]). Известно, что во многих случаях применение метода корреляционных плеяд с содержательной точки зрения к интересным результатам не приводит. Это связано с тем, что для любого фиксированного а найти разбиение, удовлетворяющее условию (16), не удается, и поэтому приходится ослабить это условие. Естественным подходом к этому вопросу является задание следующего условия: ач^а для i, j£R8, t^nj 2 2α</^α для 1^я" 7^л'; siLL (18* ieRsjefy А это условие является видоизменением условия оптимальности: 66
*,(*,-!) 2 ач>а для *·/ед· ίν^2 2α*ν<α Для4еЛ„ /e«i; «^·*. (Μ) предлагаемого в работе [4]. Чтобы показать преимущество условия (18), напишем пороговое значение в функционале (13): 2 2 ι» - К/ -а)?+2 2 2(а" -а)2· (20) В выражении (20) слагаемые 2 in — (aij —α)]2> где s=l, . . ., яг, отражают разброс внутри каждого класса и, очевидно, при фиксированном разбиении условие (18), по сравнению с (19), обеспечивает минимальное значение этим разбросам. Поэтому в случае, когда заранее не задано пороговое значение (например, в работе [4], при решении задачи оптимального разбиения производственной системы), целесообразно использовать в качестве оптимальности условие (18). Алгоритм и вычислительную процедуру, предложенные в работе [4], можно использовать с небольшими изменениями, связанными с условием оптимальности. Практические расчеты, проведенные в [6], где были использованы оба условия оптимальности (18) и (19), также подтверждают сделанные выше выводы. ЛИТЕРАТУРА 1. Айвазян С. Л., Бежаева 3. Н., Староверов О. В. Классификация многомерных наблюдений. М.: Статистика, 1974. 2. Колмогоров А. #., Фомин С. В. Элементы теории функций и функционального анализа. М.: Наука, 1976. 3. Миркин Б. Г. Задачи аппроксимации в пространстве отношений и анализ качественных признаков. — Автоматика и телемеханика, 1974, № 9. 4. Миркин Б. Г. и др. Сумма внутренних связей как показатель качества классификации. — Автоматика и телемеханика, 1976, № 3. 5. Миркин Б. Г., Черный JI. Б. Об измерении близости между различными разбиениями конечного множества объектов. — Автоматика и телемеханика, 1970, № 5. 6. Орлов А. И., Гусейнов Г. А. Математические методы в изучении способных к математике школьников. — В кн.: Исследования по вероятностно-статистическому моделированию реальных систем. ■1M . · 1У ι ι ·
II. СТАТИСТИЧЕСКИЙ АНАЛИЗ ЭКСПЕРТНЫХ ОЦЕНОК И ПРИКЛАДНАЯ ТЕОРИЯ ИЗМЕРЕНИЙ Орлов А. И· ПРИКЛАДНАЯ ТЕОРИЯ ИЗМЕРЕНИЙ 1. Основные типы шкал Начала теории измерений изложены в [1]. Математические аспекты этой теории развиваются в [2]. В настоящей статье в отличие от [2] изложение ведется не на языке гомоморфизмов эмпирической системы в числовую, а на языке совокупностей допустимых преобразований шкалы, и на первый план выступает проблема адекватности (устойчивости относительно допустимых преобразований). Полученные результаты дают возможность предложить практические рекомендации. Вначале теория измерений развивалась как часть математических методов психологии. Затем стало ясно, что, с одной стороны, многие вопросы, возникающие в социологии, экономике, квалиметрии (наука об измерении качества), педагогике, теории экспертных оценок и т. д., относятся по существу к теории измерений, а с другой — теория измерений способна оказать помощь в этих областях исследований. Мы начнем с примера, показывающего, на наш взгляд, естественность рассматриваемых в теории измереций постановок. Одним из этапов многих процедур обработки информации является сравнение двух совокупностей объектов. Для этого обычно каждому объекту приписывают число (априори или с помощью акспертных оценок), по некоторым формулам рассчитывают средние для наборов чисел, соответствующих каждой из совокупностей объектов, и затем сравнивают полученные средние. Так, в известных 68
исследованиях В. Η. Шубкина [3] выпускников новосибирских школ просили оценить по десятибалльной шкале привлекательность различных профессий. Затем нашли средние арифметические баллов, выставленных профессиям. В частности, физика получила средний балл 7,69, а математика — 7,50. В зтих исследованиях школьник разбивал профессии на 10 групп в порядке возрастания привлекательности, каждой из этих групп был априори приписан балл от 1 до 10. Ю. Воогланд включил в анкету для читателей газеты «Эдази» (Тарту) вопрос о читаемости со следующими под· сказками: «всегда читаю», «иногда читаю», «иногда — нет», «обычно не читаю», «никогда не читаю». Затем после обсуждения с экспертами было решено приписать первой подсказке оценку «8», второй — «5», третьей подсказке — «4» и т. д. (цитируется по [4], с. 206). В этом исследовании каждый читатель относил объект в одну из пяти групп — в порядке убывания читаемости, а группам экспертным путем были приписаны баллы 8, 5, 4 и т. д. Естественно потребовать, чтобы выводы, сделанные на основе сравнения средних, зависели лишь от исходных мнений опрашиваемых, а не от способа получения и обработки информации. Так, организатор экспертного опроса часто имеет возможность выбрать шкалу (набор баллов, с помощью которого проводится- оценка) по собственному усмотрению. Необходимо потребовать, чтобы результат сравнения был устойчив по отношению к выбору шкалы организатором исследования. Вернемся к оценке привлекательности профессий. Среднее арифметическое баллов, выставленных физике, больше среднего арифметического баллов, выставленных математике. Значит, выпускники предпочитают физику математике. Такой вывод кажется рациональным, и многие социологи сформулировали бы результат исследования в одной фразе именно так: «Выпускники школы предпочитают физику математике» х. Однако почему в качестве баллов использовать числа 1, 2, . . ., 10, а неб, 7, . . ., 15или, скажем 1, 4, 9,16, . . . Мы не обсуждаем здесь вопрос о статистической значимости различия средних баллов математики и физики. (Как раз в рассматриваемом случае различие может оказаться статистически незначимым. Желающие могут вместо математики в дальнейшем тексте статьи рассматривать сферу услуг (средний балл 2,63).) 69
. . ., 100? Или же можно приписать десяти группам баллы после обсуждения с экспертами, как было сделано в описанном выше исследовании Ю. Воогланда. Естественно предполагать, что выпускник разбивает профессии на десять групп по степени привлекательности, не думая при этом, какие именно баллы приписаны группам. В. Э. Шляпентох пишет: «Даже в тех случаях, когда опрашиваемые оценивают нечто в баллах, исследователь чаще всего может получить лишь представление о предпочтениях» ([4], с. 206). Он же, обсуждая описанные выше исследования В. Н. Шубкина, отмечает: «Исследователь не может утверждать, что лица, оценивающие, например, профессию в 10 баллов, ценят ее ровно в 5 раз выше, чем ту, которой они приписали 2 балла» [5, с. 88]. Мысленно проделаем следующую операцию. Пусть числа Ьг, Ь2> · · ·> &1о таковы, что Ъх < Ь2 <С · · . <С &ю· В таблицах ответов выпускников каждый из баллов величины i заменим на соответствующее число bv Подсчитаем среднее арифметическое полученных таким образом баллов. Естественно ожидать, что средний балл физики опять окажется больше среднего балла математики. Однако так будет не всегда!. Легко подобрать числа Ь0 i=l, 2, . . ., 10, и распределение школьников по величинам баллов, выставленных ими двум рассматриваемым предметам, чтобы упорядочение средних изменилось на противоположное, т. е. средний балл математики стал выше среднего балла физики. Почему можно считать, что выпускник, выставивший некоторой профессии балл i при использовании шкалы 1, 2, . . ., 10, выставит той же профессии балл Ь., если ему предложить шкалу Ьг, Ь2 . . ., δ10? Попытаемся содержательно обосновать такое поведение выпускника. Естественно предположить, что его мнение о том, какая из двух профессий лучше (или же они одинаковы по привлекательности), не меняется в зависимости от того, какой системой баллов ему предложили пользоваться. Естественно предположить также, что в каждую из 10 групп, на которые школьник разбил профессии, входит хотя бы одна профессия (это предположение основано на том, что список профессий включал в себя несколько десятков названий и социологи рекомендовали опрашиваемым использовать все баллы). Тогда нетрудно доказать, что, для того чтобы сохранить свою систему предпочтений, 70
выпускник вынужден будет оценить баллом Ь4 профессию, получившую первоначально балл i. По данным педагога Г. И. Щукиной, ленинградские школьники средних классов больше любят математику, чем физику [6, с. 47, 103, 109]. Можно ли на основе сопоставления данных В. Н. Шубкина и Г. И. Щукиной утверждать, что интерес к предметам (профессиям) меняется с возрастом? Или что у ленинградских и новосибирских школьников разные системы предпочтений при оценке привлекательности профессий? Наши результаты показывают, что противоречие между данными этих двух исследователей может иметь причиной не различие в реальных изучаемых ими объектах, а различие в способе обработки данных, может быть порождено применяемым В. Н. Шубкиным способом расчета средних. Как известно, большие трудности представляет собой сравнение результатов социологических исследований, проведенных различными коллективами, между тем такое сравнение необходимо [5, с. 34]. Поскольку привлекать для сравнения массивы исходной информации нерационально и даже невозможно, то приходится сравнивать обобщенные характеристики. Так как естественно, что различные коллективы приходят к использованию различных систем баллов, то возникает проблема выявления или создания алгоритмов обработки информации, позволяющих сравнивать результаты социологических исследований, проведенных этими коллективами. Теория измерений оказывается полезной при решении этой проблемы. Мы показали, что упорядоченность профессий, полученная с помощью среднего арифметического приписанных им баллов, может измениться при переходе к другой системе баллов. Какими же средними можно пользоваться, чтобы эта упорядоченность не менялась? Выше приведены содержательные соображения, показывающие естественность требования инвариантности результата сравнения средних при любой монотонной замене шкалы. Мы переходим к следующей постановке математической задачи. Рассмотрим fc-мерный вектор Х=(хг, #2, ... . . ., хк) £ Rh и функцию / (х) от него: / : Rk -> Д1. Пусть φ — строго возрастающее 2 преобразование прямой в себя, 2 Т. е. из хх > х2 следует φ (хх) > φ (χ2). 71
Φ — совокупность всех таких преобразований. Обозначим φ (Χ) = (φ (χ1), φ {χ2)у . . ., φ (я )). Преобразование φ — это и есть монотонная замена шкалы. Можно было сказать, что bf=<p (0> т· е· ПРИ замене шкалы φ балл i переходит в Ь,.. Требование устойчивости результата сравнения средних двух совокупностей при замене шкалы φ приводит к требованию: если два вектора Хг и Х2 таковы, что f (Xj) <^f (Х2). то необходимо В примере с оценкой привлекательности профессий вектор X £ Rh — это совокупность баллов, приписанных к школьниками некоторой профессии, / (X) — среднее этих баллов. Встает вопрос: какова область изменения X? Другими словами, для каких Хг, Х2 необходимо требовать выполнения сформулированного выше условия? При различных ответах на этот вопрос возникают различные варианты математической постановки задачи. Укажем три естественных ответа. а) Требование устойчивости выполнено для тех Х1у Х2У которые получились в конкретном исследовании. б) Требование устойчивости результата сравнения выполнено для всех тех Х1у Х2» которые могли получиться в конкретном исследовании. Так, в исследовании привлекательности профессий координаты X могли принимать не более 10 различных значений, поскольку профессии оценивались баллами 1, 2, . . ., 9, 10. в) Требование устойчивости результата сравнения средних выполнено для всех Х1У Х2 из Rk. Мы принимаем ответ в), поскольку только он позволяет сравнивать результаты социологических исследований, использующих различное число градаций в системах баллов. Кроме того, в этом случае математическая теория проще и потому удается продвинуться глубже. Ответ а) позволяет обосновать результаты лишь того исследования, о котором в нем говорится, и не дает возможности провести сравнение, скажем, с повторением исследования. Некоторые математические теоремы, связанные с ответом, б), доказаны Ю. Н. Толстовой [7]. Определение 1. Пусть / : Rk -> Д\ φ : Rl -> Д\ φ (Χ)=(ψ (я1), φ (х2), . .., φ («*)). Пара (/, φ) называется устойчивой относительно сравнения, если для любых Хг, Х2 £ Rk из справедливости неравенства / (Хг) < / (Х2) 12
следует справедливость неравенства / (φ (Х±)) </ (φ (Х2))> а из / (XJ=f (Х2) следует / (φ (Хг))^ (φ (Χ2)). Мы еще не уточняли понятие среднего. Здесь мы примем самое широкое определение из возможных — определение среднего по Коши (см. [8, с. 64]). Определение 2. Функция / : Rk -> R1 называется средним по Коши совокупности чисел Х=(хг, х2, . . ., хк), если rain χ4 ^f(X)^ max x{. В 1973 г. автором была доказана следующая теорема, дающая полное описание всех средних, результат сравнения с помощью которых двух совокупностей устойчив относительно любой монотонной замены шкалы [9]. Теорема 1 {теорема о медиане). Пусть среднее по Коши / (X)=f (χ1, χ2, . . ., хк) симметрично зависят от своих аргументов, пара (/, φ) является устойчивой относительно сравнения для любого строго возрастающего преобразования φ, функция / непрерывна πα совокупности аргументов. Тогда существует номер *£{1, 2, . . ., к) такой, что / (Х)=х (i), где χ (i) есть i -й член вариационного ряда, построенного по (я1, #2, . . ., хк). Доказательство теоремы 1 составляет основное содержание § 3 настоящей статьи. Вариационный ряд χ (1) ^ χ (2) ^ . . . ^ χ (й-1) ^ <^ χ (&), построенный по совокупности чисел я1, а;2, ,..,г,~ это элементы совокупности, переставленные'в порядке неубывания. Теорема 1 показывает, что в случае, когда эксперты могут лишь упорядочить объекты, но не могут сказать, во сколько раз или же на сколько один из них лучше другого, предпочтительнее пользоваться для сравнения объектов с помощью совокупностей мнений экспертов не средним арифметическим, средним геометрическим и т. д., а элементами вариационного ряда в частности, медианой3 χ ([к/2]), минимумом х (ί)\ максимумом χ (к), нижним χ ([ft/4]) и верхним ζ ([Зк/4]) квартилями. Среди всех членов вариационного ряда особое место занимает медиана. Она является одним из распространенных «показателей центральной тенденции», соответствующим метрике в пространстве Lx случайных величин [10] и к тому устойчивым к засорениям. При- 3 Есть и другие определения медианы. 73
кладники охотно используют медиану. Так, она содержится в таблице С. С. Стивенса [11, с. 52], применяется в методе Дельфи экспертных оценок (см., например, [12]). Именно поэтому теорема 1 названа теоремой о медиане. Теорема 1 является примером результата теории измерений, дающего возможность предложить практические рекомендации. Так, при обработке информации о привлекательности профессий рекомендуется использовать в качестве среднего медиану, а не среднее арифметическое. Сейчас мы перейдем к рассмотрению основ теории измерений, а к теории средних вернемся позже (§ 3, 4). Приведем классическое определение шкалы 11, с. 19], [2, с. 23]. Пусть А — множество эмпирических объектов, {Р0 i=l, . . ., т) — конечная совокупность отношений на нем (по поводу встречающихся здесь и дальше алгебраических терминов см., например [13] и [14]). В приложениях часто встречаются такие отношения, как: «а больше (лучше, предпочтительнее) 6», «с равно сумме а и Ь», «с лежит между а и Ь». Пусть {Qi9 i=lf 2, . . ., т) ■— система отношений на В}=(—сю, оо). Определение 3. Эмпирической системой с отношениями $1 называется множество эмпирических объектов А и совокупность отношений на нем {Р{у ί=1, . .., т}. Числовой системой с отношениями 93 называется прямая R1 вместе с отношениями на ней {(?,, ί=1, 2, . . ., т). Шкалой называется упорядоченная тройка {ЭД, 03, /}, где / — гомоморфизм из $1 в 93. Теперь можно сформулировать три основные проблемы теории измерения. Проблема представления. Дана эмпирическая система с отношениями 01. Существует ли числовая система с отношениями 03, в которую можно гомоморфно отобразить 01? Проблема единственности. Описать все гомоморфные отображения эмпирической системы в числовую. Проблема адекватности. Пусть <5 = {/} — совокупность всех гомоморфизмов эмпирической системы 01 в числовую 33. Пусть g—функция, определенная на С*, где {/ (A), f £ $} С С. Какие g являются адекватными, т. е. для каких g равенство gofx = goU выполнено для любых Д, /2£<5 (полагаем {gof)(av a2i ...,ak) = g(f(ax)J(at)4...,f(ak))). 74
Многочисленные примеры постановок и решений этих проблем можно найти в [1], [2J, [15]. Проблема адекватности естественным образом вкладывается в предложенную автором общую схему устойчивости [16], [17], именно, является частным случаем проблемы А. При этом 9С = Ак URk, G ((αν α2, ..., ak)) = {(/ (аг)9 ί (α2)> · · ·» / (я*))» / G *5} > ^ = Я1, ρ — произвольная метрика в ^, ε = 0. При ε^>0 получаем естественное определение ε-адекватности (ср. [1, с. 106—107]). Проблема Б общей схемы устойчивости может быть проинтерпретирована аналогично. Пусть g: Ск -*· ^ адекватнаг Что можно сказать о 51 и о <5? Определение 4. Функцию φ: i?1 -> J?1 назовем допустимым преобразованием шкалы {01, 93,/}, если φ о/является гомоморфизмом из $1 в 93. Шкалы (21, 93, /} и {01, 93, φ о/} естественно считать эквивалентными с содержательной точки зрения. Говорят, что они принадлежат одному типу. В дальнейшем термины «шкала» и «тип шкалы» иногда употребляются как синонимы. Теперь введем важный класс шкал, которому принадлежат все практически используемые шкалы. Определение 5. Шкалу {01, 93, /} назовем шкалой, определяемой группой допустимых преобразований, сокращенно ГДП-шкалой, если существует группа Φ={φ} преобразований φ: i?1-*/?1 такая, что <§={<?о/, φ£Φ} при некотором (а потому и при любом) /(«ф. В случае ГДП-шкал проблему адекватности можно поставить, пользуясь по существу лишь понятием группы допустимых преобразований Ф. Действительно, пусть а1у а2, . . ., ак лежат в А. Каков содержательный смысл / (а;)? Это число, приписанное объекту at в результате измерения, а φ (/ (а4)) соответствует измерению в другой шкале. Пусть, например, нас интересует вес предметов. Тогда / (а{) и φ (/ (а.)) — вес предмета а{, выраженный в различных единицах измерения. Естественно потребовать, чтобы результат обработки измерений весов не зависел от того, какой системой единиц пользуется исследователь. Определение 6. Пусть шкала {01, 93, /} является ГДП-шкалой с группой допустимых преобразований Ф. Пусть a. G А, * = 1, 2, . . ., к. Тогда {(φ (/ (%)), φ (/ (α2)),... . . ., φ (/ (%))), φ 6 Φ} есть орбита значений вектора измерений объектов а„ έ=1,2, . . ., к. Носителем шкалы 75
Nk (% 03, /) называется наименьшее множество в Rk, содержащее все описанные выше орбиты (наименьшее -*- т. е. множество, являющееся пересечением всех множеств, каждое из которых содержит все описанные выше орбиты). Поскольку из Х — (х1, #2,..., xk)£Nk следует у(Х) = = (<?(*1)> <Р(*2)> · · ·. Τ (**))£ Nk и Φ - группа, то <?(Nk)=Nk. Для практически используемых шкал обычно Nk = Rk или Nk = (0, сю)*. Определение 7. Пусть Nk — носитель ГДП-шкалы с группой допустимых преобразований Ф. Отображение g=g (#1, #2> . . ., хк) называется адекватным, если g{X\ Х\ ..., Xk) = g(<?(x*\ φ (я*), ..., φ (^)) для всех (ж1, х2, . . ., хк) £ iVfc и φ £Φ. Определение 1 и 7 естественным образом связаны. Теорема 2. Пусть φ — взаимно-однозначное отображение R1 на Я1. Пара (/, φ) является устойчивой относительно сравнения тогда и только тогда, когда функция g : R2k -* Д1, определяемая равенством wv υϊ-ί1· Ηχ*)<ηχά ί1" 2,~ίο, /№)>/№). является адекватной относительно ГДП-шкалы с группой преобразований Φ={φ, φ*"1, е) и носителем N2k=R^k. Доказательство. Сначала выведем из устойчивости относительно сравнения пары (/, φ) адекватность функции g. Достаточно показать, что g(xlt Xz)=g(<?-4Xi), f1 (*.)). (ί) поскольку аналогичное тождество для тождественного преобразования е очевидно, а для φ следует непосредственно из определения 1. Положим ^ι=φ"1 (^ι), Υ*= ^-φ-1 (Х2). Тогда Х1==Т (Fi), Χ2=φ (Υ2) и (1) вытекает из определения 1. Отметим, что / (φ г (Xx))=f (φ г (Х2)) тогда и только тогда, когда / (X1)=f (X2)· Исходя из адекватности g, докажем устойчивость относительно сравнения пары (/, φ). Нужно доказать только, что из / (Х1)=/ (Х2) следует / (φ (XJ)=f (φ (Χ2)). Пусть / (XJ^f (X2)· Из адекватности g заключаем, что / (φ (*ι)) > f («Ρ (Χύ)· Однако из / (φ (ΧJ g > / (φ (Χ2)) 76
следует g (φ (Χ2), φ (*,))=* (Χ2, Χχ)=1, т.е. / (Χ2)< </ (Χχ). Следовательно, / (φ (Χι))=/ (φ (Χ2))» что и требовалось доказать. Следствие. В условиях теоремы 2 устойчивость (/, φ) относительно сравнения эквивалентна адекватности функции ί ι. №)<№), gl(Xv Xt)= О, /(X.) = /(*,), l-l, f(X1)>f(X2). Теорема 3. Пусть / — среднее по Коши и пара (/, φ) устойчива относительно сравнения. Тогда при всех X £ Rk f(f(X)) = 9(f(X))- (2) Доказательство. Предположим противное, (2) неверно. Пусть для определенности / (φ (X)) <С φ (/ (X))- Рассмотрим вектор У=(/(Х), /(X), . . ., f(X))£Rή. В соответствии с определением 2/(У)=/(Х). Поскольку φ (У) = = (φ (/ (Χ)), φ (/ (Χ)), . . ., φ (/ (Χ))), то опять же по определению 2 / (φ (Υ))=φ (/ (Χ)) и, следовательно, / (φ (Χ)) <ζ <jf (φ (Υ)). Получили противоречие/ доказывающее теорему. Определение 7 легко выразить на языке общей схемы устойчивости. Именно, рассмотрим следующий специальный случай общей схемы устойчивости. Пространством 9£ исходных данных является Nk. Пространство решений Υ совпадает с пространством значений g. Метрика ρ — произвольная метрика в У. Модель / определяется по функции g тривиально: f=g. Система допустимых колебаний такова: G(X) = {X' : Χ'=φ (Χ), φ£Φ}, X£Nk. Тогда 0-устой- чивость модели / эквивалентна адекватности g. Как и для общей формулировки проблемы адекватности, при ε > 0 получаем с помощью общей схемы устойчивости естественное определение ε — адекватности. Однако к настоящему времени достаточно продвинутые результаты получены лишь при ε=0. Этим случаем мы и будем заниматься. Сформулируем проблемы А и Б общей схемы устойчивости на языке адекватности. Проблема А теории измерений. Дана ГДП-шкала с носителем Nk и группой допустимых преобразований Ф. Описать достаточно широкий класс адекватных отобра- 77
жений или найти все адекватные отображения среди элементов данного семейства отображений. Проблема Б теории измерений. Дано отображение g, определенное на NkC2Rk. Описать достаточно широкий класс ГДП-шкал с носителем Nk, относительно которых g является адекватным (описать ГДП-шкалу — значит описать группу допустимых преобразований Ф) или найти все ГДП-шкалы среди элементов данного семейства ГДП-шкал, относительно которых g является адекватным. Если решение задачи А показывает, какие методы обработки информации могут применяться к данным, измеренным в определенной шкале, то решение задачи Б показывает, какие шкалы мы имеем в виду, пользуясь определенным способом обработки информации. Некоторые частные случаи задач А и Б будут решены в §§ 3, 4. Понятие ГДП-шкал, на наш взгляд, является основным в теории измерений, поскольку к этому классу принадлежат все практически используемые шкалы. Изучение шкал, не являющихся ГДП-шкалами, носит лишь академический интерес. Дело еще и в том, что теория ГДП-шкал является гораздо более простой, чем общая теория измерений. Пространные рассуждения, заполняющие многие страницы монографии [2], становятся тривиальными для ГДП-шкал. Поскольку теория измерений произошла из приложений и должна получать результаты, полезные в приложениях, то для развития общих концепций надо сконструировать возможно более простой объект, охватывающий практически используемые шкалы. Развитие теории измерений привело к тому, что таким объектом, на наш взгляд, являются ГДП-шкалы. За счет простоты исходных понятий в этом случае удается продвинуться гораздо дальше, чем в общей теории измерений. Видимо, выделение ГДП-шкал в качестве основного объекта теории измерений принадлежит Г. А. Сатарову [18], [19], который называет их G-шкалами. В. С. Высоцкий формализовал для ГДП-шкал интуитивно очевидные понятия «одна шкала сильнее другой» и «одна шкала эквивалентна другой» [20]. В. Б. Кузьмин и СВ. Овчинников обсуждали обработку результатов измерений в порядковых шкалах с позиций общей теории [21]. Проблему адекватности в ГДП-шкалах конкретных ти- 78
пов изучали Ю. Н. Толстова [7] и автор [91, [17], [22] — [25]. Постановку, приведшую к теореме 1, обсуждал, развивал и применял Л. Д. Мешалкин [26], [27]. С прикладной точки зрения о теории измерений рассказано в [28]— [30], [72]. Соответственно определению 7 мы рассматриваем теорию измерений как теорию инвариантов относительно допустимых преобразований шкал измерений. До сих пор мы считали, что ко всем координатам применяется одно и то же преобразование шкалы, т. е. что все координаты вектора измерены по одной и той же шкале. С целью расширения области практических приложений представляется целесообразным учесть возможность того, что различные координаты, соответствующие принципиально различным содержательным переменным, измеряются по различным шкалам. Дадим соответствующее определение. ДЛЯ Х = (Х\ Х\ . . ., Xk)£Rk И φ =(φ\ φ2, . . ., φ*), φ* ГД1-*^1, Обозначим φ (Χ) = (φχ (ж1), φ2 (ж2), φ* (**)). Определение 8. Обобщенной ГДП-шкалой (Nk, Фк) называется пара, состоящая из носителя NkC2Rk и группы Фк допустимых преобразований вектора X£Nk. Каждое φ = (φΐ) <p*f . . ., φΛ)£ΦΛ переводит^ в себя. Отображение g=g (я1, а;2, . . ., хк) называется адекватным относительно шкалы (Nk, Фк), если g {x)=g (φ (X)) для всех X£Nk и φ£Φ*· Пусть Φ*={ψ\ φ £ Фк} — совокупность допустимых преобразований έ-ой координаты вектора X. Тогда, очевидно, Фк С Ф1 X Ф2 X Ф3 X ... X Ф*, (3) причем, вообще говоря, равенства в (3) нет. Представляют интерес два крайних случая. В первом из них шкалы для каждой координаты выбираются независимо от остальных, и в (3) имеет место равенство. Во втором φ1=φ2=φ3=. . .= =φΛ, т. е. все координаты измеряются по одной и той же шкале. Мы будем заниматься, в основном, вторым случаем. Перейдем к описанию основных типов практически используемых шкал. Типом ГДП-шкалы принято называть группу допустимых преобразований Ф. Будем указывать также носитель Νχ (мы ограничиваемся здесь описанием измерения одного объекта). 79
Наиболее широкая группа Φ у шкалы наименований, называемой также номинальной или классификационной шкалой. У этой шкалы группа Φ — группа всех взаимнооднозначных отображений прямой на себя, a N^R1. Она соответствует простейшему типу измерения, в котором числа используются лишь как имена объектов. По шкале наименований измерены, скажем, номера телефонов или автомашин. Если не ограничиваться рассмотрением группы преобразований, а обратить внимание также на эмпирические отношения, то можно отметить некоторое отличие между понятиями шкалы наименований и классификационной шкалы. Именно в обоих случаях естественно считать заданным эмпирическое отношение эквивалентности, причем если для шкал наименований объект эквивалентен только самому себе, то в шкалах классификации по крайней мере некоторые классы эквивалентности состоят более чем из одного элемента. Однако нас интересуют способы обработки информации, адекватные для всех шкал рассматриваемого типа, а потому мы не будем акцентировать внимание на указанном различии (см. обсуждение постановок а), б) и в) проблемы устойчивости результата сравнения средних в начале настоящего параграфа). Говорят, что шкала является порядковой, если группа Φ — группа строго возрастающих преобразований прямой на себя. При этом N1=R1. К порядковому типу принадлежат, например, шкала твердости Мосса, по которой минералы классифицируются согласно критерию твердости, и бьюфортова шкала ветров, по которой сила ветра определяется в терминах: «штиль», «слабый ветер», «умеренный ветер» и т. д. [1, с. 21]. По мнению автора, социологические измерения следует считать проведенными по порядковой шкале, если названные опрашиваемым числа показывают, какой из объектов лучше, а какой хуже, но на вопрос: «Во сколько раз лучше?» или: «На сколько лучше?» — нельзя дать разумного ответа с содержательной точки зрения. Видимо, таково положение при опросе о привлекательности профессий, а также и в других случаях опросов о мнениях (а не о фактах). По мнению автора, приведенные в начале параграфа содержательные соображения необходимо приводят к использованию порядковой шкалы при обработке мнений о привлекательности профессий. Однако высказывались и другие мцецця, предполагалось использовать 80
шкалы с более узкой группой допустимых преобразований. Как же поступать специалисту прикладной дисциплины, какую шкалу выбирать? Подчеркнем, что этот вопрос является содержательным и в настоящее время не может быть решен чисто формальными средствами. Конечно, можно не указывать группу допустимых преобразований, а в соответствии с определением 3 рассматривать сначала эмпирическую систему с отношениями, затем решать проблемы представления и единственности для нахождения Φ (конкретные примеры решения упомянутых проблем см. [2], [15]). Однако конструирование эмпирической системы с отношениями, как и построение математической модели явления вообще, является содержательным процессом. Включать или не включать отношение «а ровно в 2 раза лучше в»? Невозможно предложить формальный ответ на этот вопрос. По мнению автора, содержательное обоснование выбора группы Φ в качестве группы допустимых преобразований не более трудно, чем содержа- тельное обоснование выбора эмпирической системы с отношениями, а потому специалиста прикладной дисциплины надо просить сообщить математику группу Φ и не надо просить указывать эмпирическую систему с отношениями. Продолжим описание основных типов шкал. Если Φ — группа линейных преобразований φ (x)=ax-\~b, a > О, Ь£ Л1, то измерения проводятся в шкале интервалов. Поскольку температура С по шкале Цельсия выражается через температуру F по шкале Фаренгейта так: С = -§-(*■- 32), то температуру естественно считать измеряющейся по шкале интервалов. Термин «шкала интервалов» поясняется следующей теоремой. Теорема 4. Пусть равенство ?(*«) — Ψ(χύ *з — *4 У } выполнено при всех хг, х2, #з> χι·> таких, что χ3η^χ4. Тогда φ (χ) — линейное преобразование. Обратно, равенство (4) выполнено для всех линейных преобразований. 81
Доказательство. Из (4) следует, что т. е. φ (χ) есть линейное преобразование. Элементарную проверку равенства (4) для линейных преобразований оставляем читателю. Таким образом, в шкале интервалов инвариантом является отношение интервалов между двумя парами объектов. В этой шкале N1==R1. Измерение многих величин (длины, веса, стоимости) производится лишь с точностью до выбора единицы измерения. Допустимые преобразования шкалы — φ (χ)—αχ, а > 0; это означает, что изменение единицы измерения приводит к умножению всех результатов измерения на некоторое положительное число и, наоборот, для любого а > 0 можно подобрать такую новую единицу измерения, что при переходе к ней все результаты измерения умножаются на а. Шкала с группой допустимых преобразований Ф={а#, а > 0} называется шкалой отношений. Естественно считать, что для нее iV1=(0, + oo). Название шкалы поясняется следующей теоремой, доказательство которой мы оставляем читателю. Теорема 5. Пусть равенство ?р) *, (5) выполнено при всех х± и х2у^0. Тогда существует а=£0 такое, что ψ (х):=ах. Обратно, если φ (χ)—αχ, то выполнено (5). Видимо, на настоящий момент шкала отношений является наиболее распространенной, во всяком случае, гораздо более распространенной, чем абсолютная шкала, в которой группа допустимых преобразований состоит из одного единственного преобразования — тождественного. Абсолютная шкала применяется, когда имеется определенная единица измерения, например, при подсчете числа людей, и естественное начало отсчета. Реже, чем перечисленные, применяются шкала разностей и степенная шкала. Для степенной шкалы Ф={ахь, а > 0, Ъ > 0}, iV1=(0,+cx)), она встречается в психофизике (см., например [31, §2.2]). Для шкалы разностей 82
Ф = {х+Ь,— оо < Ъ < оо} и N1=R1. Время (в годах) измеряется по шкале разностей, поскольку момент начала отсчета — произвольный, в то время как единица измерения — год определяется природой. Название шкалы объясняется тем, что, как показывает следующая теорема, доказательство которой мы оставляем читателю, разность между измерениями двух объектов является адекватной функцией для тех и только тех преобразований шкалы, которые допустимы в шкале разностей. Теорема 6. Пусть φ (х±) — φ (х2)^=х1—х2 для всех хг и х2. Тогда φ (x)—x+b при некотором 6, и, обратно, для всех функций такого типа φ (хг)—φ (#2)=#i—#2· Прямые утверждения теорем 4—6, в которых шла речь об адекватности некоторых функций, представляют собой решения в частных случаях проблемы Б теории измерений, а обратные — проблемы А. Определение 9. Шкалы типов {Φη Ν\) и {Ф2, Щ} называются изоморфными, если существует взаимнооднозначная функция g, отображающая N\ на Щ и такая, что индуцированное g соответствие между группами Фх и Ф2 есть изоморфизм групп. Ясно, что проблему адекватности достаточно решать лишь для шкал одного из изоморфных типов. Теорема 7. Шкала интервалов и степенная шкала изоморфны между собой. Теорема 8. Шкала отношений и шкала разностей изоморфны между собой. Доказательство. Изоморфизм устанавливается с помощью функции h (х)=1п х, отображающей (0, оо) на i?1. Если ψ1 \х)=ахь и φ2 (х)=ах, то (Αοφχ) (t) = bt+ln а и (feocp2) (t) — t-{-ln α. Проверим, что степенная шкала отображается в шкалу интервалов с сохранением операций. Пусть φχ (x)=axb, φ2 (х)=сх?. Тогда (φιοφ2) (χ) = =acbxbd, (feocpi) (t)=bt+ln α, (hoy2) (t)=dt+ln с, (Αο(φι(*)= =φ2)) (t) = bdt+b In c+ln α. Поскольку ((λοφ1)ο(λοφ2))χ Xb(dt-\-ln c)+ln a~bdt-\-b In c+ln α, το (Αοφ)1χ(Αοφ2) = =Λο(φ1οφ2). Аналогичную проверку для теоремы 8 предоставляем читателю. Введенные нами шкалы с математической точки зрения описаны в табл. 1. Примеры ситуаций, в которых они пригодны, приведены выше; повторим, что эти примеры для некоторых из читателей могут показаться спорными, в то время как в табл. 1 собраны определения математи- 83
Таблица 1 Основные типы шкал Тип шкалы Шкала наименований (но- минальная, классификационная) Порядковая Интервальная Степенная Шкала отношений Шкала разностей Абсолютная Группа Φ допустимых преобразований шкалы Взаимнооднозначные отображения R1 на себя Строго возрастающие отображения R1 на себя Линейные преобразования: <?(х) = ах + Ъ, а>0, b^R1 Степенные преобразования: φ (χ) = axb, α>0, &>0 Подобные преобразования: φ (#) = axt a > 0 Сдвиги: φ (χ) = χ + Ьу Ь f Л1 Тождественное преобразование: φ (χ) = χ Носитель Νι R1 R1 R1 (0, +*) (0, + a>) R1 i?i ческих объектов, изучению которых посвящены дальнейшие параграфы настоящей статьи. Любой алгоритм обработки информации должен быть исследован на адекватность. Разумеется, эта грандиозная задача еще далека от решения, хотя бы потому, что постоянно предлагаются новые алгоритмы. В основном мы изучаем адекватность статистик, средних величин, расстояний, мер близости, алгоритмов классификации. 2. Теория на стыке математической статистики и теории измерений 4 При статистической обработке наблюдений необходимо учитывать, что шкала нам известна лишь с точностью до допустимых преобразований, и выводы не должны зависеть от того, какой именно шкалой данного типа пользуется исследователь. Попробуем разобраться, к чему приводит это требование. Определения, теоремы и формулы нумеруются внутри параграфа. При ссылке на другой параграф впереди перед точкой ставится номер этого параграфа. 84
Как изьестйо, рассмотрение какой-либо статистической задачи должно начинаться с введения статистической структуры (см. [32, с. 15J). Рассмотрим статистическую структуру {Ω, <5, 91}, где Ω — пространство элементарных событий, ^— σ-алгебра в Ω, а 9ΐ — семейство вероятностных мер на измеримом пространстве {2, <5}. Зачастую в качестве Ω можно рассматривать конечномерное линейное пространство (в случае, когда мы наблюдаем конечное число случайных величин). Именно этим случаем и ограничимся: ω = (χ1, χ2, . . ., хк) £ NkCZRk. Пусть наблюдения измерены в ГДП-шкале с группой допустимых преобразований Φ и носителем Nk (мы предполагаем, что все координаты ω измерены по одной и той же шкале). Рассмотрим произвольную статистику (т. е. измеримую функцию на {Ω, $}) Τ = Τ(ω)=Τ(χ\ χ2, ..., хк) и ее распределение при фиксированном Ρ £ 9{— распределении на вероятностном пространстве. Наряду с Τ рассмотрим статистики Γ·φ, φ^Φ» определенные так: (Г.φ) (и>) = Т (ψ (χ1), φ (а2), . . ., φ (хк)), ω £ iVfc. Распределение Γ·φ есть распределение Τ при вероятностной мере Ρ·φ на вероятностном пространстве, где Ρ·φ определяется так: (Р.?)(4) = Р(?-»(Л)). Если наши выводы основаны на статистике Г, то естественно потребовать, чтобы для любой фиксированной вероятностной меры Ρ £91 распределения статистик Τ и Γ·φ совпадали при всех φ£Φ [22]. Определение 1. Статистика Τ называется адекватной относительно статистической структуры {Nk, <J, 91} и ГДП-дшалы {Ф, Nk} тогда и только тогда, когда она является {Nk, <5}-измеримой функцией и при любой Ρ £ 91 распределения Τ и Τ · φ совпадают для всех φ £ Φ. Поскольку в рассматриваемом случае Q=Nk С Rk9 то естественно ограничиться в качестве <5 з-алгеброй бо- релевских множеств. Приведем соответствующие определению 1 формулировки проблем А и Б общей схемы устойчивости. Проблема А на стыке математической статистики и теории измерений. Дана статистическая структура {Nk, <5, 91} и ГДП-шкала с носителем Nk и группой до- S5
пустимых преобразований Φ. Описать достаточно Широкий класс статистик, адекватных относительно {Nk, Φ, 9?} и {Ф, Nk}, или найти все такие статистики среди элементов данного семейства статистик. Проблема В на стыке математической статистики и теории измерений. Дана статистика Т. Описать достаточно широкий класс пар, состоящих из статистической структуры и ГДП-шкалы, относительно которых Τ адекватна, или найти все такие пары среди данного класса пар. На современном этапе развития исследований, когда вопросы, лежащие на стыке математической статистики и теории измерений, почти еще не изучались, определение 1 представляется слишком общим. Обычно ограничиваются требованиями типа адекватности Τ в смысле определения 1.75. Если Τ адекватна в этом смысле, то, конечно, она адекватна в смысле определения 1 относительно той же самой шкалы и любой статистической структуры6. Покажем, однако, что верно и обратное, т. е. при некоторых естественных условиях на 91 адекватность в смысле определения 1 приводит к адекватности в смысле определения 1.7. Теорема 1. Пусть для каждого X£Nk существует последовательность вероятностных мер ^„£91, слабо сходящихся при η -> оо к мере, сосредоточенной в точке X и приписывающей ей вероятность 1. Пусть Τ непрерывна на Nk как функция своих аргументов. Тогда из адекватности Τ в смысле определения 1 относительно статистической структуры {Nk, <5, 9?} и ГДП-шкалы {Ф, Nk} с непрерывными φ £ Φ следует адекватность Τ в смысле определения 1.7 относительно {Ф, Nk}. Доказательство. Фиксируем X£Nk. При η -* оо распределение Τ в силу непрерывности Τ слабо сходится к распределению, имеющему единичный скачок в точке Т(Х). Вместе с тем при η -> оо последовательность вероятностных мер Ρη·φ слабо сходится к вероятностной мере, сосредоточенной в φ (Χ) (в силу непрерывности φ), а потому распределение Γ·φ при η -> оо слабо сходится к распределению, имеющему единичный скачок в Г (φ (Χ)). Поскольку распределение Τ и Τ ·φ совпадает при всех Ρ £ 9?, 6 См., например, [2, с. 39—48J. 6 При условии {Nk, F} — измеримости. 86
то необходимо Γ(Χ) = Γ(φ (Χ)), что и требовалось доказать. Условия, наложенные в теореме 1 на статистическую структуру, выполнены, скажем, для случая, когда 9Ί — совокупность многомерных нормальных распределений или даже многомерных нормальных распределений с независимыми координатами. Или для случая, когда 9? содержит подсемейство вероятностных мер, соответствующих случайным векторам с независимыми координатами, причем произвольному набору чисел ai £ R\ at > О, ί=1, . . ., jfc, соответствует вектор, распределение которого входит в рассматриваемое подсемейство, а i-я координата имеет математическое ожидание а,, и дисперсию о., ί=1, . . ., к. Статистики Г, адекватные в смысле определения 1.7 как функции X, будем называть в дальнейшем просто адекватными статистиками. Понятие адекватных статистик отличается, скажем, от понятия подобных статистик тем, что опирается на свойства пространства элементарных событий Ω (в рассматриваемом случае совпадающем с NkCZRk), а не на свойства семейства вероятностных мер 9?. Эти статистики — частный случай инвариантных статистик (о последнем понятии см., например, [33, с. 108, §2.7]), важность которого определяется связью с теорией измерений. Ясно, что при измерении в шкалах разностей, отношений, интервалов адекватными статистиками являются соответственно статистики, инвариантные относительно сдвигов, изменения масштабного параметра, масштабно- сдвигового семейства преобразований. Как известно, инвариантность относительно перечисленных совокупностей преобразований часто рассматривается в исследованиях по математической статистике. Однако, по мнению автора, именно взгляд со стороны теории измерений показывает важность этих рассмотрений и определяет их место в структуре теории математической статистики. Для абсолютной шкалы адекватны все статистики, для степенной шкалы — статистики, инвариантные относительно степенного преобразования. Опишем адекватные статистики для шкалы наименований и порядковой шкалы. 1Д Теорема 2. Если Τ — адекватная статистика при измерении в шкале наименований, то Т=Т(хг, . . ., я*) = S7
«=Γ (5 (X)), где В — матрица порядка кхк, {\ х* =LX* о! *w: Доказательство. Нам нужно вывести из Л (X1)=j? (X2) существование φ : Л1 -> Л1, допустимого в шкале наименований и такого, что φ (Χ1)=Χ2· Задание Л (Z) фиксирует число различных координат X, а также число координат, совпадающих с определенной координатой. Мы приходим к необходимости и достаточности доказать теорему 2 для случая, когда все координаты векторов различны (а размерность не превосходит к). Пусть Υχ = {ι/\ г/™} и У1={»Ь ···»»?}. Множества А = Л1 \{у}, ···.»?} и Д = rrr^N^lyJ, .. .,ι/f} имеют одинаковую мощность, а потому существует взаимнооднозначное отображение φ : А -* D (можно сослаться на теорему Кантора-Бернштейна (см., например, [34, с. 25])). Доопределим φ равенствами φ (*/*) = у*. Тогда φ: Л1-»· Л1 является допустимым преобразованием в шкале наименований и γ(Υι)= Г2, что и требовалось доказать. Перейдем к порядковой шкале. В теореме 1 рассматривались лишь непрерывные преобразования φ, потому имеет смысл в качестве группы допустимых преобразований порядковой шкалы рассматривать группу непрерывных строго возрастающих преобразований, как это и сделано в [9], [17]. Как отмечено в [9], можно ограничиться бесконечно дифференцируемыми преобразованиями. Впрочем, для доказательства теорем достаточно ограничиться таким множеством преобразований, что для любых двух наборов упорядоченных чисел х1 < х2 < . . . < хк и У1 К У2 < · · · <С Ук существует преобразование φ из этого множества, для которого φ (ж')=у'э fc=l, . . ., к. Это множество может уже быть конечнопараметрическим в отличие от множества всех допустимых в порядковой шкале преобразований. Поскольку 2к числам #', г/*', ί=1, . . ., к, соответствует по крайней мере одно преобразование (переводящее первый набор во второй), то число параметров не может быть меньше 2к. Теорема 3. Существует 2к — параметрическое семейство Φ строго возрастающих бесконечно дифференцируемых преобразований прямой на себя такое, что для любых двух наборов к упорядоченных чисел χ1 <ζ χ2 < . , . <^ хк 88
и у1 < у* < . . . < ук найдется φ (< Ф, для которого φ (х')=у\ ι=1, . . ., к. Доказательство. Рассмотрим функцию, зависящую от 2fe параметров oL(t) = oi(t; х\ х\.. .,х\ у\ у\ .. .,ι/)= 2 сЛ(Ь — х% где ci = yi — yi'lt £ = 2,..., fc, с^г/р а χ (ί) — индикатор неотрицательного луча: χ(£)=1 при t^O и χ(£) = 0 в противном случае. Из определения a(t) следует, что а(х*) = у*. Но функция a(t) не является непрерывной. Однако еще одного параметра е = е{х\ у*, ί=1, 2,..., fe) достаточно для «сглаживания», поскольку hm<f0(ez) = x(z), *->00 где То ( 0 ж<0. Действительно, рассмотрим бесконечно дифференцируемую функцию B(t)= 2 <*Λ(β* — ««' + *"1). где у'= У. dJ<f0(ex4 — exJ-\-e-1),--2<.xain{x< — xi-1). Тогда В(х*) = у*, i = l, ..., к. При достаточно большом е все коэффициенты d, положительны, а потому B(t) строго возрастает при t^y1 7· Однако она постоянна при f< <Су* т. Чтобы исправить функцию B(t) от этого недостатка, добавим линейный член, т. е. рассмотрим где ' = 2 г/Рв(«#-«^ + 0 + 7· i<min(*l-*#"1). У К/<< 2<<<* В силу определения b(t) имеем §(#*) = у*, ί = 1, .. .,&. При достаточно большом е все /, положительны, а потому b(t) S9
строго возрастает. Семейство b(t) и является искомым. Предоставляем читателю указать явный вид коэффициентов 1{, г=1, ..., fc, и е, задающих δ(£), как функций от х\ у*, i = l, 2, ..., к. Теорема 4. Если Τ является адекватной статистикой при измерении в шкале порядка, то Т = Т(х1, х2, . . ., хк) = — Т (С (X)), где С (X) — матрица порядка кХ к, [ 1, z4>a/t С(Х) = 1с<Л с„ = |0>в1<у> Доказательство. Нам нужно показать, что из С (^ι) = = С (Х2) следует существование преобразования φ : R1 -> -> Д1, допустимого в порядковой шкале и такого, что φ (Х1)=Х2. Задание С (X) фиксирует разбиение координат на группы равных, а также упорядоченность этих групп координат. Действительно, z*=xJ тогда и только тогда, когда с^=^у=0, а х* > xj тогда и только тогда, когда с<у=1, а с.у=0. Пусть у\ < у\ < . . . < у™ — упорядоченные в порядке возрастания координаты вектора Х1у взятые по одной из каждой группы равных координат. Тогда координаты с теми же номерами вектора Х2 также образуют возрастающую последовательность у\ <^У\ <С <С · · · <С УГ» содержащую по одному представителю каждой группы равных координат вектора Х2. Нам достаточно доказать существование допустимого в порядковой шкале преобразования, переводящего первый из этих наборов во второй. Однако существование такого преобразования следует из теоремы 3. Теорема 4 доказана. Теорема 4. Если никакие два измерения не совпадают, т. е. все координаты вектора X различны, то определяемые с помощью С (X) статистики сводятся к ранговым. Доказательство. Пусть г. — ранг г-го объекта, которому соответствует число х\ в совокупности Х=(хг9 х2, . . ., я*). (Предполагаем, что ранг г4 — это номер х* в вариационном ряду, построенном по элементам {х1, х2, ... . . ., а*}). Тогда где ν (1) = 1, ν (0)=0. И наоборот, С^ выражаются через ранги; с^.=1, если гг > г,, и с^=0 в противном случае. ДО
Теория ранговых статистик достаточно хорошо развита (например, [35], [36]). В частности, через ранги выражаются коэффициенты ранговой корреляции Кендалла и Спирмена, а потому они являются адекватными статистиками в порядковой шкале, вопреки иногда встречающимся в литературе утверждениям, что коэффициент Кендалла адекватен, а коэффициент Спирмена — нет [37]. Впрочем, эти две статистики тесно связаны. Как известно [35, с. 75], с точностью до постоянного множителя коэффициент Спирмена есть проекция коэффициента Кендалла в семейство линейных ранговых статистик. Для ранжировок из N объектов коэффициент корреляции между коэффициентом Спирмена и коэффициентом Кендалла равен ·, f 2 (Ν + jjT _ γΠ W=T V N(2N+b)~V 2N* + bN' а потому асимптотически при N -> οο эти статистики эквивалентны. Представляется целесообразным дальнейшее развитие теории на стыке математической статистики и теории измерений. Желательно все основные концепции теории вероятностей и математической статистики перенести па случай, когда случайные величины измерены в произвольной ГДП-шкале. Пусть ξ = {ξα, α £ Л} — семейство случайных величин. Необходимо «склеить» ξ и φ (ξ) = ~{ψ (О» ol^A } при всех φ из группы преобразований Φ рассматриваемого типа шкал, а затем «профакторизовать» теорию вероятностей и математическую статистику по этому отношению эквивалентности. Утверждение принадлежит «Ф — теории», если из истинности его для ξ следует его истинность для φ (ξ) при любом φ £ Φ. Для случайных величин вводятся различные характеристики, в частности, «типичные значения» и «отклонения от типичных значений». Обычно они выражаются через некоторые средние величины, связанные со случайной величиной. Поэтому мы сделаем некоторые шаги по реализации намеченной выше программы построения «теории на стыке» лишь после рассмотрения средних величин. 91
3. Устойчивость относительно сравнения в порядковой шкале Настоящий параграф содержит в основном доказательство теоремы 1.1, остальные теоремы подготавливают это доказательство. Введем некоторые обозначения. Пусть А — множество векторов X=(xL9 хг, . . ., xk)£Rk таких, что х1 <#2 < < . . . <С я*. Будем писать Хх < Х2 тогда и только тогда, когда х[ <^ х[ при всех ί=1, 2, . . ., к. Пусть Φ — группа строго возрастающих бесконечно дифференцируемых преобразований прямой в себя, т. е. группа допустимых преобразований в порядковой шкале. В дальнейшем в § 3 вплоть до особого указания все рассматриваемые вектора лежат в А, а преобразования принадлежат Ф. Теорема 1. Пусть вектора Х19 Х2 и Х3, %4 таковы, что ^i"1 <Сх2<χί и xz~l <С^ί<Схз ПРИ всех7 i=lf 2, .. ., к. Тогда существует преобразование φ такое, что <р(Х1) = Х3 И ?(Х2)=Х4. Доказательство. Рассмотрим два упорядоченных набора 2к чисел: х\ < х\ < #? < х\ <С... < х[~1 < ж* < х[ <... . ..<**<*?* *i<*J<*K*l< ·. .Ο^Οί^Κ'· - · ... <С хк <С жз· ^ соответствии с теоремой 2.3 существует преобразование φ, переводящее первый из этих наборов во второй. При этом φ {Хх) = Х3, Τ (^г) = ^4> что и требовалось доказать. Теорема 2. Пусть Χλ > Х2. Тогда для любого ε > О существует преобразование φ-=φ(ε) такое, что <р(Х1) = Х2 и ^з^^Г1"!-6 ПРИ всех * = 2, 3, ...,&, где Х3::=СР(^2)· Доказательство. Определим векторы Х3 и ^4 следующим образом. Положим #£ = #*, если х{~1<^х[ <C#i> и #3 = (ίΡι~1-|"·ίΡί)/2 в противном случае. Пусть ε > 0 достаточно мало, т. е. e<mm(#j — #2-1)· Положим x[ = xi~1-{- + у, i = 2, ...,&. Наконец, пусть xj и xj — произвольные числа, меньшие х\ и х\ соответственно. Тогда, как легко видеть, Xl9 X, и Х2, ХА удовлетворяют условиям теоремы 1, а потому существует преобразование φ такое, что φ (Х{) = Х2 и <р(Х3) = Х4. При этом при χ[~ι<ΖχΚχ\ имеем φ(#») = 7 Полагая я} = #£ = — <х>. 92
= φ (#*) = я*-1 + у <С х2~1 + ε>а ПР11 ^2 ^ xifx в СИЛУ монотонности φ справедливо неравенство φ(^)^φ(^{"1), а потому φ (#!) ^ х2~г *С ^I"1 "Ь ε· Теорема 2 доказана. Теорема 3. Пусть Xj > Х2. Тогда существуют конечные последовательности векторов Х3, ^4> · · ·» ^/ и преобразований φρ <р2, ..., <р,_2 такие, ЧТО Х,+1 = <р,(ХД Х{+2 = = φ.(Χ,+1), ί=1, 2, ..., Ζ-2 и «»<«}. Доказательство. Положим ε = (a?J — #£)/&. Согласно теореме 2, существует преобразование <рх такое, что cp^Xj)^: Х2 и x'Q < xj"*1 + ε> * = 2, 3, ...,&, где Х3 = Τι №)· Поскольку <Р! — строго возрастающее преобразование, то из х\ > х{ следует х| = φ (ж{) > φ (ж|) == я?*, т. е. Х2 > Х3. Применяя к Х2 и ί3 теорему 2, строим φ2 и Χ4=φ2(Χ3), для которых χ%4<ίχ*3~ι-\-ει i = 2, ..., Λ. Тогда ^<^2_2+2β, έ = = 3, 4, ..., к. Продолжая этот процесс, последовательно определяем φ3, <р4, ... и Хь, Х6, ... так, чтобы <Dj(Xj) = = Х/+1И xj+2<xjrA + e> ί=2, ...Д-, где Z/+2 = cP/(A/+1), 7 = 3, 4 Тогда *2+1 < 4"1 + ε < **=? + 2ε< - · · • · · < ж2 "f" (^—^)ε» а ^ + (fc—1)ε в СИЛУ определения s меньше #}. Теорема 3 доказана. Попутно выяснено, что можно положить Ζ =^ А: —|— 1. Теорема 4. Пусть (I) функция /(X), f:Rk~* Rl, является средним по Koran 8 совокупности Х = (хг, х2, ..., хк); (II) пара (/, φ) является устойчивой относительно сравнения9 для любого преобразования φ, допустимого в порядковой шкале. Тогда из Хг > Х2 следует / (Хг) > / (Х2). Доказательство. Предположим противное: существуют вектора Хг и Х2 такие, что Хг > Х2, но / (Хх) ^ / (Х^. Как следует из определения 1.1, для устойчивых относительно сравнений пар (/, φ) неравенство / (Хх) ^ / (Х2) влечет / (φ (Хг)) ^ / (φ (Х2)). Рассмотрим последовательности Х3, . . ., Хг и φ1? . . ., φ;_2, построенные в соответствии с теоремой 3 по Хх и Х2. Тогда из / (Хг) <^ / (Х2) и условия (II) теоремы следует, что/ (<pt (Хг)) <С / (φχ (Х2)), т. с. / (Х2) ^ / (Х3). Аналогично получаем / (Xt) ^ ^ / (^г) ^ · · · ^ / (^/)· Однако по условию (I) теоремы 8 См. определение 1.2. 9 См. определение 1.1. 93
/ (XJ > x\, f (Z;) < x]. Поскольку в соответствии с теоремой 3 xkt <>}, то / (Хг) > / (X,). Получили противоречие, доказывающее теорему 4. В соответствии с теоремой 2.3 все точки А равноправны. Нам понадобится проводить рассуждения, использующие понятия, связанные с окрестностью некоторой точки. Пусть для определенности это точка Х0=(1, 2, ...,&). Нам понадобятся также точки Χ4=Χ4(ε), ι=1, . . ., к, такие, что χ{=χ£—ε=]'—ε при ]=£ί и sj=a:j|+e=i+e, где ε — достаточно маленькое положительное число. Теорема 5. Пусть функция / удовлетворяет условиям (I) и (II) теоремы 4, а также условию (III) функция / непрерывна на А. Тогда существует i£ {1, 2, . . ., к} такое, что / (X,) > >/(*<>). Доказательство. Предположим противное, пусть /Й</(хо) пРи всех i=l, 2, . . ., к. Аналогично доказательству теоремы 1 можно вывести существование преобразования <р^, оставляющего Х0 на месте и переводящего все координаты Х4, за исключением έ-ой, сколь угодно близко к соответствующим координатам Х0, а х\ оставляющего на месте. Из непрерывности / (X) (условие* (III)) следует что /(У<)</(*о). гДе У< = *о + + (δ\ δ2, ..., δ*), bJ = 0 при j^i и i' = e. В силу теоремы 2.3 можно провести предыдущее рассуждение, вместо Х0 подставив Υ4. Получим, что f(Z4J)4^ </(Г<)</(Х0),где Z{J = X0 + (f, f, ...,т*), т' = 0при t=£i и t=j£=j, в то время как γ' = γ,; = ε. Повторяя рассуждение & раз, получим, что f{W)^f(X0), где W = X0 + -f-(e, ε, ..., ε). Однако W>Χ0, и по теореме 4 должно быть /(И^)^>/(Х0). Противоречие. Теорема 6. Пусть f(X) удовлетворяет условиям (I), (II), (III) теорем 4 и 5. Пусть α — именно то i£ (1, 2, ..., к), при котором в силу теоремы 5/(Х^)>/(Х0). Пусть х[^> >х\~1 при i — 2, 3, ..., к, х«>х%. Тогда f(X})>f(X2). Доказательство. Аналогично доказательству теоремы 1 нетрудно показать, что существует преобразование φ, переводящее Х2 в Х"0, а Хх в вектор Х3 такой, что #*==#* — ε/2, если х{ > #{ > χ*'1, и ж* = а:*, если х\^х\Л ί=^= α, наконец, ж; = ^-{-2в. Тогда Х3>Х«, а потому по теореме 4/ (Х3) > >/(JJ. Поскольку по теореме 5 f(Xa)>f(X0), ™ ЯХ)> >/(Х0). Наконец, по теореме 1.2 из /(Х3) = /(?№))> 94
>/(Χ0) = /(φ(Χ2)) следует /№)>/№), что и требовалось доказать. Теорема 7. Пусть для функции f(X) выполнены условия (I), (II), (III) и вектора Хх и Х2 таковы, что ^5>ж2» где α — именно то ^ ^ {1, 2, , &}, при котором в силу теоремы 5 / (Х4) > / (Х0). Тогда f(Xl)>f(X2). Доказательство. Мы хотим воспользоваться теоремой 6. Для этого аналогично доказательству теоремы 3 определим некоторую последовательность векторов Х3, ^4> · · · такую, что х$+1>х*/х при έ^α, ι = 2, ..., А\ и £}+l>s«.f но всегда #J < ж}, ;* = 2, 3, ... . Наконец, #j < #jf έ = 1, ..., к, при некотором конечном Ζ. Если такая последовательность будет построена, то по теореме 6 / (Х2) < / (Х3) < / (Х4) < ... ... < / (X,). Однако по теореме 4 / (Хх) ]> / (Х;). Поэтому /(Xj)>/(Z2), что и требовалось. Перейдем к построению требуемой последовательности. Опишем оператор P(i, ξ, δ), £==?£= α, Ε и δ — положительные числа, путем многократного применения которого мы построим последовательность Х3, ^4> · · · · Пусть дан вектор X. Тогда вектор Υ = Ρ(ί, ξ, δ) X определяется так: у4 = χ4'1 -f- £ при ί =τ^ α, * £ (2,..., &}, г/1 — произвольное число, меньшее х2, при i=l; yJ = xJ при /^α, 7^=*, /€{*» 2» ···» *)» на- конец, ι/α = ίττα-[-δ. Если ξ и δ достаточно малы (необходимый уровень малости определяется по X), то Υ £ Α (τ. е. координаты Υ возрастают с увеличением номера координаты — см. начало настоящего параграфа). Тогда по теореме 6/(Г)>/(Х). Применим к Х2 оператор Р(1, ξ, δ), положив уг = = min(#}—1, х\). Получим Х3. Применим затем P(i9 ξ, δ) последовательно при ί = 2, 3, ..., α— 1, получим при этом Х4, Хъ, .; .. Ха+1. Тогда при достаточно малых Ε и δ вектор Ха+1 таков, что х*+1<Сх\ при ί=1, 2, . . ., α — 1; х^+1 = х*2 при i = a-f-l, ..., к и х%+1<С.х{- Кроме того, /(*«+ι)> /(*.)> · · · >/(XJ- Пусть теперь кЬ<ξ. Применим к Ха+1 последовательно операторы P(i, ξ, δ) при ί = α+1, a-f 2, ..., fe, получим Xa+2, Xa+3, ..., Хк+1. Тогда при достаточной малости δ вектор Хк+1 таков, что #£+1<#ϊ, и» напомним, х%-+\ = х*9~\ < #J. Следовательно, Χ*+ι<*ι· При этом/(Хй+1) >/(*,)> ... >/(Xa+1)> . ·. . ,.>/(Х2). Требуемая последовательность построена, что и доказывает теорему 7. 95
Теорема 8. Пусть для функции f(X) выполнены условия (1), (II), (III). Тогда существует функция g:R1-^Ri такая, что f(X) = g(x*)9 где α — именно то ί £ {1, 2,..., fc}, при котором в силу теоремы 5 f(^i)^>f(X0)- Доказательство. Положим g (α)=/ (У), где у*=а+ -+-(*—α), έ=1, 2, . . ., к. Рассмотрим вектор X такой, что ζ*=α. Докажем, что / (X)=:g (а). Рассмотрим Хг (γ)= = Χ+γ (1, 1, . . ., 1), Х2 (γ)=Χ-γ (1, 1 1). Тогда ^ι (т) ~* «2Г и ^2 (ϊ) -* ^ пРи γ -> 0. По теореме 7 / (Χι (ϊ)) > / (У)=* W)> / (Χ. (ϊ))· Однако функция / (X) непрерывна (условие (III)), а потому / (Xj (γ)) -* -»/ (X), ;=1, 2, при γ ->0. Следовательно, / (X)—g (а). Теорема 9. Пусть для функции / (X) выполнены условия (I), (II), (III). Тогда / (Х)=#а, где а — именно то i£ {1, 2, . . ., к), при котором в силу теоремы 5/ (Х4) ^> Доказательство. Рассмотрим вектор Χ (γ), у которого χ*=α-\-(ι—α)γ, γ > 0, ί=1, 2, . . ., k. По теореме 8 / (Χ (γ))=# (α). Поскольку я1 > α—Αγ, α^ < α+Αγ, το по свойству (Ι) α—Αγ < g (α) < α+Αγ. Переходя к пределу при γ ->0, получим, что # (α)=α. Теорема 10 (теорема о медиане). Существует ровно к функций f (X), f:Rk-^R1J симметрично зависящих от своих аргументов (т. е. не меняющихся при любой перестановке своих аргументов) и удовлетворяющих выписанным выше условиям (I), (II), (III) при сужении на А. Такими функциями являются к членов вариационного ряда, построенного по совокупности X. Доказательство. Из теоремы 9 следует, что все рассматриваемые в теореме 10 функции являются членами вариационного ряда. Функции f4 (Х)=х (i), i=l, . . ., А, где χ (0 есть i-ый член вариационного ряда, построенного по (я1, #2, . . ., zk), разумеется, симметрично зависят от своих аргументов. Предоставляем читателю убедиться, что условия (I), (II), (III) также выполнены. Теорема 10 доказана. Замечание. Анализируя доказательства теорем 1—10, мы видим, что они остаются верными и при сужении группы допустимых преобразований Ф. Достаточно потребовать, чтобы для любых двух наборов 2А чисел, упорядоченных в порядке возрастания (в каждом наборе никакие два числа не равны), существовало допустимое преобразование, 96
переводящее первый набор во второй. Как показано в теореме 2.3, существует 4/с — параметрическое семейство бесконечно дифференцируемых преобразований, обладающих этим свойством. Можно отметить также, что при определении Χ. (ε) достаточно считать 0 <^ е < 0,4. Устойчивых относительно сравнения непрерывных средних (т. е. функций / (X), / : Rk -> Д1, удовлетворяющих условиям (I), (II), (III), модифицированным путем замены А на Rk) существует значительно больше, чем указано в теореме 10. Таковы,например, Д. (Х)=х\ i=l, ..., к. Впрочем, легко видеть, что функция / (X) является устойчивым относительно сравнения непрерывным средним тогда и только тогда, когда а) для каждой из к\ областей X (i (1), t (2), . . ., i (&)) = {Χ : χ'™ < χ'™ <...< <#*(fc)}, где (i (1), έ(2), . . ., i (k)) = a — перестановка (1, 2, . . ., к), найдется индекс η (α) такой, что / (Х) = =я?(а) в этой области; б) функция / (X) непрерывна в точках границ областей. Условие б) можно пояснить следующим образом. Пусть перестановки (i (1), i (2), . . ., i (к)) и (/ (1), / (2), . . ., / (к)) отличаются только порядком двух соседних элементов, т. е. i (s)=j (5+1) и i (s+1) =/($) при некотором s£ {1, 2, . . ., А—1} и i (m)=j (m) при m=fcs, 771=7^=5+1. Обозначим первую из них β, а вторую γ. Если η (РЬ^ (s), η (β)τ^έ (5+1), το η (р)=лг (γ) (символ η (α) как функция перестановки α введен выше в условии а)). Если же η (β)=& (s), то либо η (γ)=έ (s)=j (5+1), либо η (γ) = έ (5+1)=/ (5). Если η (β)=έ (5+1), то точно так же η (γ) = έ (s)=j (5+1) или η (γ)=έ (5+1)=/ (5). Число Ν (к) устойчивых относительно сравнения непрерывных средних в общем случае автору неизвестно. Приведем без доказательства грубую оценку сверху: tf(*)<ft2*i. Число N (к) — это число способов раскраски некоторого графа. Именно, рассмотрим граф с к\ вершинами, соответствующими к\ перестановкам чисел 1, 2, . . ., А. Ребра соединяют те и только те пары вершин, которые соответствуют соседним перестановкам, т. е. перестановкам, отличающимся только порядком соседних элементов. Имеется к красок с1э с2, . . ., ск. Сколькими способами можно раскрасить граф не более чем к красками так, чтобы либо соседние (т. е. соединенные ребром) вершины были раскрашены одинаково, либо если соответствующие 97
соседним вершинам перестановки отличаются только порядком двух соседних элементов α и 6, то при движении по ребру от одной вершины к другой цвет может измениться с са на сь или, наоборот, с сь на са? Теорема 11 [22]. Пусть непрерывная функция / (X), / : А -> R1 такова, что пара (/, φ) является устойчивой относительно сравнения для любого преобразования φ, допустимого в порядковой шкале (т. е. / (X) удовлетворяет условиям (II) и (III)). Пусть существуют векторы Υ и Ζ такие, что ук < ζ1 и / (Y)^=f (Ζ). Тогда существует строго монотонная (т. е. строго возрастающая или строго убывающая) функция g : R1 -+R1 и номер а£ {1, 2, . . ., к} такие, что f (X)=g (ха). Доказательство. Анализируя доказательство теоремы 4, видим, что условие (I) используется только для получения следующего результата: «Пусть xf <^ х\. Тогда / (Хг) <С <С/ (Χι)}>- Однако этот результат можно доказать и исходя из условий настоящей теоремы. Именно, аналогично доказательству теоремы 1 можно установить, что в случае, когда все координаты Хг меньше всех координат Хъ т. е. х\ <^ х], существует преобразование φ такое, что φ (Χ,)=Υ, φ (ΧΧ)=Ζ. Пусть для определенности /(У) <С </ (Ζ). Тогда по теореме 1.2/ (X,) </ (Хх), что и требовалось. Значит, заключение теоремы 4 верно и для / (X), удовлетворяющей условиям настоящей теоремы. Нетрудно проверить, что доказательства теорем 5—8 опираются только на заключение теоремы 4 и свойства (II) и (Ш), т. е. свойство (I) при этом не используется. Следовательно, заключение теоремы 8 верно для / (X), удовлетворяющей условиям настоящей теоремы, т. е. существуют функция g : R1 -+R1 и номер а£ {1, 2, . . ., к} такие, что f (X)=g (ха). Осталось доказать, что функция g является строго возрастающей. Пусть а <^Ъ. Положим x[—a-\-(i—α)γ и #;=&+(£—α)γ, ί = 1, 2, . . ., к, причем γ > 0 настолько мало, что х\ <С х\. Тогда существует преобразование φ такое, что φ {Χ^) — Υ и φ (Χ2)=Ζ. Следовательно, по теореме 1.2 / (Хх) </ (Хг)· Вместе с тем / (X±)=g (а) и / (X2)=g (6). Следовательно, g (a) < <^ g (6), что и требовалось. В случае/ (Y) > / (Z), который мы оставляем читателю, g является строго убывающей. Теорема 11 доказана. Стоит отметить также, что функция g является непрерывной в силу непрерывности /. 98
Ясно, что функции вида/ (X)=g (я*), а£ {1, 2, . . ., Л}, где g строго монотонна и непрерывна, удовлетворяют условиям (II) и (Ш). Кроме того, для них существуют вектора Υ и Ζ такие, что ук < ζ1 и f (Y)^=f (Z). Таким образом, верна теорема, обратная к теореме 11. Основные в настоящем параграфе теоремы 10 и 11 являются решениями проблемы А теории измерений (см. § 1) для порядковой шкалы и семейства отображений, определенных в теореме 1.2 и, кроме того, в которых функция / является непрерывной, существуют участвующие в теореме 11 векторы У и Ζ (теорема 11) и, более того, функция / (X) является средним по Коши совокупности X (теорема 10). Представляет интерес рассмотреть решение проблемы Б теории измерений для отображений, полученных при решении описанных выше проблем А. Теорема 12. Пусть пара (/, φ) является устойчивой относительно сравнения, где / : А -> Я1, / (X)=g (x*), α£ {1, 2, . . ., к}. Тогда φ — строго монотонное преобразование при условии, что функция g строго монотонна. Доказательство. Пусть для определенности g строго возрастает. Покажем, что φ строго возрастает. Предположим противное. Пусть существуют хх < х2 такие, что Ψ (χι) > Ψ (χ*)· Тогда g (x (XJ) > g (φ (χ2)), и по теореме 1.2 g (хг) J> g (x2) вопреки предположению о строгом возрастании g. Получено противоречие, доказывающее теорему. Обсуждение практических применений средних величин вместе с рекомендациями, вытекающих из доказанных здесь теорем, приводится в конце следующего параграфа. 4. Характеризация обобщенных средних по Колмогорову Как известно, существует множество видов средних величин (обзор средних — предмет монографии [8]). Пусть числа а1, а2,. . . ., ак удовлетворяют условиям а1 + а8+...+а* = 1, а*>0, * = 1, 2, ... к. Средними величинами являются так называемые «взвешенные средние» (Х=(хг, хг, . . ., я*)£ЯЛ). ίλ{Χ) = аV + а2х2 + ... + акхк, f2(X)=:alx(l) + a*x(2)+...+akz(k). (1) 99
Здесь χ (1) ^ χ (2) ^ . . . <^ χ (к) — вариационный ряд, построенный по совокупности {х1, я2, . . ., .£*}. При а'=у, ι = 1, . . ., к, взвешенные средние переходят в среднее арифметическое, а при а{=1 (тогда а^=0, ;V=0 получаем /2(я)=#(г), т.е. члены вариационного ряда — также частные случаи взвешенных средних. Обычно предполагается, что средние величины / (X) для совокупности X удовлетворяют некоторым требованиям, простейшим из которых является то, чтобы они были средними по Коши (см. определение 1.2). Естественная система аксиом приводит к так называемым ассоциативным средним (формулировки см. в [8]). Из работ [38] — [40] следует, что общий вид ассоциативных средних таков (см. также [8, с. 152]): fk(X, F) = Wi- 2 *"<*')). (2) где F (ζ) — строго монотонная функция (т. е. строго возрастающая или строго убывающая), F~x (ζ) — обратная к ней. Область определения F считается связной, к > 1. При F (z)=z, In ζ, ζ"1, ζ2 формула (2) определяет среднее арифметическое, среднее геометрическое, среднее гармоническое, среднее квадратичное соответственно, т. е. наиболее используемые средние. Область определения F в первом случае — Л1, а в последних трех — луч (0, +оо). Средние величины, определяемые формулой (2), в литературе принято называть «обобщенными средними пс Колмогорову» (см., например, [41]). Работы по аксиоматической теории средних продолжаются до настоящего времени. Так, в диссертации Дж. Гольдмана [42] средние вида (2) получены с помощью системы аксиом, несколько отличающейся от системы, исходной в цитированных выше работах 1930—1931 гг. Рассмотрим проблему Б теории измерений для средних вида (1), (2). Теорема 1. Пусть / — одна из функций, задаваемых формулой (1), причем а1 < 1 при всех ι=1, 2, . . ., к. Пусть пара (/, φ) является устойчивой относительно сравнения, преобразование φ всюду дифференцируемо, φ : R1 -* R1. Тогда φ — линейное преобразование, т. е. 100
существуют числа а и Ъ такие, что φ (x)—ax+b, причем α>0. Доказательство. Проведем его методом от противного. Рассмотрим сначала в качестве / среднее арифметическое. Предположим, что φ' (х0) < 0 при некотором х0. Рассмотрим векторы Хг и Х2 такие, что #}=#?=. . .= =я*=я0> х\=х1=. . . =з*=*0+., ε > 0. Тогда / (Хг) < <^/(Х2)· Однако при достаточно малом е>0 вопреки определению устойчивости относительно сравнения / (Ψ (Хг)) - f (<Р №)) = -?' (*о) * + О (ε) > 0. Итак, φ' (χ) ]> 0 при всех χ £ Β1. Предположим, что ср'(я')=^<р' (х") при некоторых х' и х". Рассмотрим векторы Хх и Х2 такие, что х\ = х\ х\ = х\ = ... . ..=я* = з", х\ = хг — е9 аг| = я" + е', аг| = ж|=··· = я* = д/7, где ε>0, ε'>0. Тогда /№)-/№) = 4ι:> / (? (Χι)) - / (Τ №)) = I (*' (*') · - ?' (*") ε') + Ο (ε + β'). Для получения противоречия с определением устойчивости относительно сравнения достаточно подобрать ε и е' так, чтобы (6/ — ε) (ψ1 (xf) ε — φ' (χ") ε') > 0. Из двух чисел φ' {χ') и φ' (χ") по крайней мере одно отлично от 0. Пусть для определенности φ' (χ") =^0. Достаточно положить г; _?'(*') + ?'(**) , S— 2?'(*Ί Итак, существует число а ]> 0 такое, что φ' (#)=а при всех х. Следовательно, φ (х)=ах-\-Ъ при некотором Ь. В случае а~0 имеем противоречие с определением устойчивости относительно сравнения. Значит, а > 0. Перейдем к общему случаю. В проведенном выше доказательстве фактически использовались только две координаты вектора X. Поэтому доказательство с очевидными изменениями (которые мы предоставляем читателю) проходит в общем случае при условии, что но крайней мере два числа из а1, а2, . . ., ак отличны от 0. Последнее 101
обеспечивает условие а* <М, i = l, . . ., к. Это условие является существенным, поскольку для получающихся при а* = 1 членов вариационного ряда χ (i) имеется гораздо больше преобразований φ, удовлетворяющих всем остальным условиям теоремы 1, именно, таковы все строго возрастающие дифференцируемые преобразования (см. теорему 3.12). Теорема 1 доказана. Замечание. Очевидно, что пара (/, φ), где φ (x)=ax+b, устойчива относительно сравнения для любого / из семейства, определенного в (1), причем при произвольных а > 0 и Ь. Теорема 2. Пусть пара (fk (X, F), φ) устойчива относительно сравнения, F — всюду дифференцируемая функция, производная которой не обращается в 0, φ также всюду дифференцируемо, φ переводит область определения F в себя (но не обязательно на себя). Тогда существуют числа а > 0 и Ъ такие, что v(x) = F-1(aF(x)-\-b). Доказательство. В силу строгой монотонности F пара (fk (X, F), φ) устойчива относительно сравнения тогда и только тогда, когда этим свойством обладает пара (F (fk (X, F)), φ). Однако Мы хотим применить результаты теоремы 1. Поскольку F(fk(f(X), F))=4 J *W)). то рассмотрим функцию χ, удовлетворяющую условию F(f(z)) = x(F(x)). (3) Областью определения χ является множество В — образ области определения F при отображении F. Поскольку F определена на связном множестве и непрерывна, то В — связное множество. Поскольку F строго монотонна, то для любого zGB найдется единственное x—F"1 (ζ) такое, что F (#)=z. Функция χ переводит ζ£Β χ (*) = F (φ (F"1 (*)))· (4) 102
Поскольку φ переводит область определения F в себя, то последняя формула имеет смысл. Из предыдущего ясно, что устойчивость относительно сравнения пары (fk (X, F), φ) эквивалентна устойчивости относительно сравнения пары (gkJ χ), где gk — среднее арифметическое к чисел из В. Проверим, что χ всюду дифференцируема. Это видно из формулы (4). Действительно, поскольку F всюду дифференцируема и производная не обращается в 0, то F'1 всюду дифференцируема. Поскольку φ всюду дифференцируема по условию теоремы 2, то остается сослаться на правило дифференцирования сложных функций. Для завершения доказательства достаточно сослаться на теорему 1. Отметим, что хотя В может не совпадать с R1i но В связно, а потому из χ1 (z) =const > 0 при z£B следует, что χ (z)=az+b при некоторых а>0 и Ъ. С помощью (3) заключаем, что F(<t(x)) = aF(x) + b, (5) откуда и следует требуемое. Теорема 2 доказана 10. Таким образом, относительно среднего геометрического с помощью теоремы 2 заключаем, что пара (fk (X, In ζ), φ) устойчива относительно сравнения тогда и только тогда, когда φ (х) = exp (a In х -|- Ъ) = еьха = сха, (6) где с > 0, а > 0, х > 0. Таким образом, среднее геометрическое можно применять тогда и только тогда, когда наблюдения можно считать измеренными в степенной шкале (см. § 1) или же в шкалах, в которых группа допустимых преобразований подгруппа группы (6). Все преобразования, образующие вместе со средним гармоническим устойчивую относительно сравнения пару, описываются так: ^(х) = (ах-1 + Ь)-\ а>0, 6>0, я>0, (7) а для среднего квадратического аналогичная совокупность имеет вид <?(x) = sJax2-{-b9 α>0, Ь>0, *>0. (8) 10 Легко проверить, что пара (fk (x, /*), φ) устойчива относительно сравнения, если ψ (x) = F'1 (aF (x) + b), причем а > 0 и Ь произвольны· 103
В (7) и (8) положительность Ь необходима и достаточна для того, чтобы φ переводило луч (0, +оо) (область определения F) строго в себя; при 6=0 луч отображается на себя. Перейдем к проблеме А теории измерений. Решения будем искать среди элементов семейства (2). Отметим сначала, что с помощью (2) различные функции F могут задавать одно и то же среднее fk (X, F). Так, среднее арифметическое получается при F (z)=cz-\-d, c^O, сий- любые числа. Ясно также, что если Fx и F% определены на одном и том же множестве (как оговорено при определении fk (X9 F), это множество связно) и при некоторых с==£0, d имеем F2{z) = cFx{z) + d, (9) то fk (X, F^—fk (X, F2). Верно и обратное. Теорема 3. Пусть дифференцируемые функции Fx (ζ) и F2 (z) определены на одном и том же множестве, fk (X, F^)—fk (X, F2) при всех X из области определения (являющейся &-ой степенью области определения F±). Тогда при некоторых с=^0 и d справедливо (9). Доказательство. Из условия следует, что τ 2 Ы*)=*г(Ъ1 (τ 2 *·<**>))· <10> Продифференцируем обе части (10) по х*\ г1р) = *Ы*Ш.\ Р'г(х% (11) где *о = Т 2 F*№ (12) Без ограничения общности можно считать, что F2 строго возрастает. Пусть а и Ъ ^> а входят в область определения F2. Если х1 пробегает отрезок [а, М, то F2 (а) + +F2 {b)—F2 (χ1) пробегает отрезок [F2 (α), F2 (b)] в обратном направлении. Пусть я3, . . ., хк фиксированы, х1 пробегает [а, 6], тогда x2=F2~1 {F2 (a)+F2 (fe)—F2 (χ1)) принадлежит la, b]. Поскольку z0 из (12) при описанном изменении X остается постоянным, то из (11) следует, что Ft' (χ1) =cF2 {x1) при соответствующем с и при всех 104
a*1^ [α, Μ. При этом с^О, поскольку F± — строго монотонная функция. Поскольку а и Ъ — произвольные числа из связной области определения Fi, ί=1, 2, то Fi (x1)=cF2'(χ1) при всех х1 из области определения, а потому выполнено (9). Теорема 3 доказана. Соглашение. Вследствие теоремы 3 будем в дальнейшем указывать F лишь с точностью до линейного преобразования, т. е. во всех формулировках, касающихся средних вида (2), приводить лишь по одному представителю из семейства вида (9). Теорема 4. Пусть пара (fk (X, F), φ) устойчива относительно сравнения, φ (x)=ax-{-b1 причем α=Μ, 6=^=0. Пусть F всюду дифференцируема, F' (х) непрерывна в точке х0=Ь (1— а)'1 и F' (х0)=£0. Тогда F {z)=z. Доказательство. По теореме 2 существуют аг > 0 и Ъг такие, что φ (χ) = αχ + Ь = F-1 {atF (x) -f 6J. Следовательно, F(ax + b) = alF(x) + bl. (13) Продифференцируем обе части (13) по # в точке ж0: aF'(ax0 + b) = a1F'(x0). (14) Поскольку #0=а#0+& и F' (#0)=^0, то из (14) следует, что а^=а1 > 0. Продифференцировав обе части (13) по х9 получим с учетом равенства а—аг, что для F' (х) справедливо функциональное уравнение F' (ax-\-b)=Fr (x). Положив g (x)=F' (x+x0), перейдем к уравнению g(x) = g(ax). (15) При решении уравнения (15) без ограничения общности можно считать, что а < 1. Рассмотрим последовательность х1Н.1=а1,х1, л=1, 2, 3, . . ., для которой в соответствии с (15) g (xn)=g (#i). Поскольку хп -*0 при η -> оо, то из непрерывности g (x) в нуле (эквивалентной непрерывности F' (х) в х0) следует g (xx)=g (0), или в прежних обозначениях F' {x)=F* (x0), что с учетом принятого выше соглашения доказывает теорему. Таким образом, тесная связь обнаружена нами между средним арифметическим и шкалой интервалов. Если / — 105
среднее арифметическое, то пара (/, φ) устойчива относительно сравнения тогда и только тогда, когда φ — допустимое преобразование в шкале интервалов (условия регулярности не будем сейчас упоминать). Если φ — допустимое преобразование в шкале интервалов (невырожденное, т. е. α=^=ί и Ьт^О)* / W — среднее вида (2), то пара (/, φ) устойчива относительно сравнения тогда и только тогда, когда / — среднее арифметическое. Другими словами, среднее арифметическое среди всех обобщенных средних по Колмогорову (2) характеризуется тем, что для него и только для него пара (/, φ) является устойчивой относительно сравнения для любого линейного преобразования ψ. Шкала интервалов характеризуется тем, что группа допустимых преобразований этой шкалы состоит из тех и только тех преобразований, для которых пара (/, φ) устойчива относительно сравнения, где / — среднее арифметическое. Мы получили характеризацию среднего арифметического. Ниже мы получим характеризацию еще некоторых средних из класса (2). Отметим, что мы сумели показать, что некоторой аксиоматической системе требований удовлетворяет только один вид средних — среднее арифметическое (упомянутая система аксиом состоит из аксиом, приводящих к понятию ассоциативного среднего и тем самым к обобщенным средним по Колмогорову, и аксиомы, требующей устойчивости пары (/, φ) относительно сравнения для любого линейного преобразования). Ранее из аксиом удавалось получить только бесконечно параметрическое семейство (2). Таким образом, удалось соединить два «крыла» науки о средних — аксиоматические теории и конкретные виды средних, используемые в приложениях. Пример. Как известно, температура F по шкале Фаренгейта связана с температурой С по шкале Цельсия соотношением F=l,8 C+32. Вследствие теоремы 4 из средних вида (2) для температур можно употреблять среднее арифметическое, а не среднее геометрическое, среднее гармоническое и т. д. Теорема 5. Пусть пара (fk (X, F), φ) устойчива отно сительно сравнения при всех сдвигах ψ (x)=x+b, b^R1. Пусть функция F непрерывно дифференцируема. Тогда F принадлежит однопараметрическому семейству Fc (z), с£Я\ где Fc (z) = exp {cz} при с^О и FQ {z)=z при с=0. 106
Доказательство. По теореме 2 существуют функции А (Ь) > 0 и В (Ь) такие, что F(x + b) = A(b)F {χ) + В (Ъ). (16) Продифференцируем (16) по х: F'(z + b) = A(b)F'(x). (17) Поскольку F строго монотонная, то существуют χ такие, что F' (я)=т^0, При F' (х)у^0 из (17) следует, что Аф1 + Ь2) = А(Ъ1)А{Ь2). (18) Ограниченность А (Ь) на отрезке следует из ограниченности непрерывной функции F' (χ+b) на отрезке. Как известно п, решения уравнения (18) при условии ограниченности А (Ь) на отрезке имеют вид (а\ а = 4(1)>0, Л(Ь) = \0> Л(1) = 0> (19) При А (1) < 0 ограниченного решения уравнения (18) не существует. Поскольку по теореме ЪА (1) > 0, то нас интересует только верхняя строка в (19). Из нее при А (1)т^1 следует, что pt (x -f ζ) = a'F' (x), Fl (ζ) = αΨ1 (0) = qexp {cz}, где c=ln a=£0, c1=Fr (0). При α=1, c=0 имеем /" (z) = =const. Проинтегрировав, в соответствии с принятым соглашением получим F (z)=exp {cz} при с=£0 и F (z)=z при с=0. Теорема 5 доказана. Описанное в теореме 5 семейство функций fk (X, Fc) непрерывно зависит от с. При с^=0 непрерывность очевидна, а при с=0 доказывается в следующей теореме. 11 Полагая Ьг=1, Ь2=п, получаем из (18) А (п+1)=А (1)(Л)(п), откуда следует (19) для натуральных Ъ. Полагая Ьх~п, Ь2—п, распространяем (19) на целые Ь. Далее с помощью легко выводимых равенств Ап Ι-—) = А (1) доказываем (19) для рациональных Ь. Предположим теперь, что (19) неверно для некоторого иррационального Ь0. Поскольку сколь угодно близко к Ь0 найдется рациональное число &lt для которого (19) верно, то существует δ > 0 такое, что сколь угодно близко к 0 найдется х=Ъ0—Ъи для которого \А (х)~ 1| > δ. Отсюда следует, что функция А (Ь) не ограничена в окрестности 0, а потому и на любом отрезке. Следовательно, если А(Ь) ограничена, то решение (18) имеет вид (19). 107
Теорема 6. Пусть Fc (z) — семейство функций, описанное в теореме 5. Тогда Hmfk(X, Fe) = fk(X, F0). с->0 Доказателмтво. Имеем fk(X, ^) = ±1пЦ 2 ехр{с*<}). (20) При с -> О разложим ехр {сх1} в ряд Тейлора и оставим первые два члена: ехр {сх*} = 1 + сх* + О (с2) Следовательно, 1 2 ехр {с*'} = 1+| 2 х> + 0^)· При достаточно малом с логарифм в (20) также можно разложить в ряд. Получим /* (*> ^) = 4 In (1 + с/, (X, f0) + О (с2)} = = /*(*. ^ + 0(с), что и требовалось. Теорема 7. Пусть пара (fk (X, F), φ) устойчива относительно сравнения, где φ : (0, +°°) -> (0, +оо), φ (χ) = =ахь, а=М, 6=^1. Пусть ^ дифференцируема, jF" (χ) непрерывна в #0 —ехР ΙτΊΤ^ί и ^1(хо)¥=^· Тогда12 F(z) = lnz. Доказательство. По теореме 2 существуют аг > 0 и Ьх такие, что ^(α^^α^ (*) + &!■ (21) Введем функцию Я (ζ) следующим образом: H(lnz) = F(z). (22) Тогда (21) переходит в равенство Η (to + In α) = axH (u) + blf u = In ж, (23) которое с точностью до обозначений совпадает с (13). Легко видеть, что для Η выполнены все условия, нало- 12 Предполагается, естественно, что область определения/* входит в (0, +оо) и содержит х0. 108
женные в теореме 4 на F. Следовательно, Й (u)=u с точ- ность10 до линейного преобразования, и из (22) следует заключение теоремы. Теорема 8. Пусть пара (fk (X, F), φ) устойчива относительно сравнения при всех растяжениях φ (х)=ах, а > 0. Пусть F (ζ) непрерывно дифференцируема 13. Тогда fk(X,F) является степенным средним, т. е. F (z)=ze при некотором с=^0 или же F(z)=lnz. Достаточно применить теорему 5 к Η (и) из (22), поскольку (23) при 6=1 совпадает с точностью до обозначений с (16), а непрерывная дифференцируемость Η следует из непрерывной дифференцируемое™ F. Как и в теореме 5, можно доказать, что lim/k(X, z') = fk(X, Inz). Теорема 9. Пусть пара (Jk (X, F), φ) устойчива относительно сравнения при всех φ : (0, +оо) -► (0, +оо), φ (х)=хь, где Ъ — любое положительное число. Пусть область определения непрерывно дифференцируемой функ- циц F входит в (0, + оо). Тогда F (z)=(ln z)e при некотором Ст^О или F (z)=ln In z. Для доказательства достаточно применить теорему 8 к Η (и) из (22). Полученные нами при решении проблемы А результаты сведены в табл. 2. В первых двух строках совокупность преобразований состоит из одного преобразования, в последних трех рассматриваются однопараметрические семейства преобразований. В последнем столбце указаны шкалы, в которых можно применять соответствующие средние. В последних трех строках совокупности допустимых преобразований этих шкал совпадают с указанными в первом столбце, в то время как для первых двух строк в первом столбце указаны лишь «невырожденные» представители соответствующих совокупностей. Легко проверить, что среднее арифметическое и среднее геометрическое образуют устойчивую относительно сравнения пару с любым допустимым преобразованием в шкале интервалов и степенной шкале соответственно. Отметим, что единственный общий элемент семейств средних, соответствующих шкалам разностей и отношений, — среднее арифметическое. В по- Предполагается, что область определения F входит в (0, +оо). 109
следней строке табл. 2 рассматривается шкала йового типа — шкала логарифмических отношений. Группа допустимых преобразований описана в первом столбце этой строки. Логарифмы величин, измеренных в этой шкале, следует считать измеренными в шкале отношений, что и объясняет название. Таблица 2 Пары (/л, (X, F), φ), устойчивые относительно сравнения Совокупность преобразований φ {ах + Ь}, аф\, ЬфО {ахЬ), αφί, Ьф1 {ах, а — любое положительное число} {х -f- Ь, Ь — любое действительное число} {хь, Ъ — любое положительное число} Номер теоремы 4 7 8 5 9 Функция F (ζ) ζ In ζ zc, c=£Q 111 2 exp {cz}, с =£0; ζ (In ζ)', сфЪ· In In ζ Тин шкалы Шкала интервалов Степенная шкала Шкала отношений Шкала разностей Шкала логарифмических отношений Шкала интервалов и степенная шкала изоморфны (теорема 1.7), шкала отношений и шкала разностей также изоморфны (теорема 1.8), им же изоморфна и шкала логарифмических отношений. В теоремах 7—9 показано, как условия регулярности переносятся на соответствующие изоморфные шкалы. Для степенных средних все преобразования, для которых пара (/, φ) устойчива относительно сравнения, в соответствии с теоремой 2 описываются формулой (при с=^=0) ψ(χ) = (αχΰ-\-Ιήν, α>0, Ь>0, я>0. (24) Из них только те переводят область определения F, т. е. (0, +оо), на себя, для которых 6=0. Все остальные преобразования, задаваемые формулой (24), не могут входить в группу допустимых преобразований никакой шкалы, относительно которой определяемая в соответствии с теоремой 1.2 функция g адекватна. Следовательно, решением 110
проблемы Б теории измерений для любого из степенных средних являются шкала отношений и ее подшкалы (т. е. шкалы с более узкой группой допустимых преобразований). Аналогичные утверждения, которые мы предоставляем сформулировать читателям, касаются типов средних, описанных в последних двух строках табл. 2. В табл. 2 описаны результаты характеризации обобщенных средних по Колмогорову. Смысл термина «характери- зация» пояснен выше при обсуждении результатов теоремы 4. Мы видим, что среднее геометрическое тесно связано со степенной шкалой, класс степенных средних — со шкалой отношений и т. д. Средние характеризуются шкалами, в которых ими и только ими можно пользоваться. Как известно, средние величины употребляются очень широко. В стандартных курсах общей теории статистики им отводится специальная глава (см., например, [43]). Средние величины используются в статистике народного хозяйства [44], в социологии [45]. В экспертных оценках требуется найти единое групповое мнение, т. е. среднее мнений экспертов [46], [47], [48]. Видимо, первым в СССР обсуждал экспертные оценки с точки зрения теории измерений Ю. А. Патругин [49]. В науке об измерении качества — квалиметрии (о ней см. [50]— [53]) — одной из основных проблем является получение агрегированной оценки качества по оценкам отдельных свойств качества изделия, т. е. опять же получение средней величины оценок отдельных свойств. Как в педагогике, так и в практике образования существует понятие «средний балл» [54]. В исследовании операций возникает задача векторной оптимизации, для решения которой, как правило, строят агрегированный критерий [55]. В науковедении также приходится вычислять средние величины (см., например, [56]-г-[58]). Видимо, практически в любой области исследований применяются или могут быть применены средние величины. Поскольку имеется большое число форм средних, то обычно возникает вопрос: какой же формой средней величины пользоваться? Выбор формы агрегированной оценки качества и обоснование этого выбора — одна из важных нерешенных проблем квалиметрии [52, с. 37, 41, 64 и др.]. Подчеркивая важность правильного выбора формы средней [43, с. 152], 111
авторы учебника завершают раздел о средних словами: «Только подчинив выбор формы средней социально-экономическому содержанию изучаемых явлений, можно найти одно-единственное значение средней как типической характеристики признаков изучаемых явлений» (там же, с. 195). Однако какими методами можно пользоваться, чтобы найти адекватный вид средних? Когда дело доходит до выбора конкретных средних, авторы прикладных работ зачастую и не пытаются обосновать этот выбор, поскольку не имеют средств для обоснования, и им остается лишь действовать «по традиции». Таково положение дел, например, с агрегированием показателей качества. Часто считается, что этот показатель должен иметь вид к= Σ »&, где Kt — оценки отдельных свойств качества, a wi — веса, определяемые экспертным путем. Разрабатываются методы оценки W41 и т. д. А почему бы агрегированному показателю качества не иметь, скажем, вид Но подобный вопрос чаще всего даже и не обсуждается. Если же обсуждение и обоснование выбора среднего и проводится, обычно оно не является строгим. На наш взгляд, в настоящее время только теория измерений позволяет дать доказательные основания для выбора форм среднего. Именно, нужно пользовать средние / такие, что пара (/, φ) является устойчивой относительно сравнения для любого преобразования φ, допустимого в той шкале, в которой проводятся измерения. Для обычно используемых шкал такие средние приведены в табл. 2 и в теореме 3.10. Особое место среди них занимает медиана. Медианой в качестве среднего можно пользоваться, начиная с порядковой шкалы, т. е. с той шкалы, начиная с которой имеет смысл понятие среднего, устойчивого относительно сравнения для любой пары (/, φ), где φ — допустимое преобразование (нетрудно проверить, что в шкале наименований нет таких средних). Вместе с тем порядковая шкала, по мнению автора, должна применяться во многих прикладных областях, В частности, йри 112
органолептическом оценивании качества продукта (работа дегустатора) из того, что оценка определенного свойства качества одного продукта в 2 раза больше подобной оценки для другого, обычно нельзя сделать вывод, что по этому свойству второй продукт ровно в 2 раза лучше первого, нельзя сказать также, на сколько он лучше, а потому оценки свойств следует считать измеренными в порядковой шкале и для агрегирования применять медиану. Медиана все чаще применяется в прикладных исследованиях. Ряд примеров приведен в § 1 при обсуждении теоремы о медиане (теоремы 1.1). В работе [591, адресованной преподавателям и посвященной применению тестов при обучении, в качестве «показателя центральной тенденции» (агрегированной оценки) предлагается использовать медиану нормализованных результатов тестов. Отметим здесь, что Д. М. Гретер [60] решал в порядковой шкале проблему Б для несколько другой постановки, чем мы. Он исследовал условия на сохраняющие порядок преобразования одного набора х данных, при которых не меняется знак коэффициента корреляции этого набора данных с другим (не изменяющимся) набором данных. Следует отметить также, что наши теоретические результаты получены в предположениях, включающих выполнение некоторых требований для всех возможных наборов данных. Между тем для конкретных наборов обработка с использованием медианы и с использованием среднего арифметического может дать близкие результаты. Так, в исследовании [61] коэффициент ранговой корреляции между ранжировкой картин по медианам рангов, присвоенных экспертами, и по средним арифметическим этих рангов, оказался равным 0,98. (Впрочем, если коэффициент корреляции интерпретировать как косинус угла, то 0,98 соответствует углу в 0,2 радиана, т. е. 11,5°, что не так уж мало!) В конце настоящего параграфа приведем одну теорему, не связанную со средними. Теорема 10. Пусть h (X), X £ Rp, — многочлен от ρ переменных. Пусть пара (й, φ) устойчива относительно сравнения для любого преобразования φ, допустимого в шкале отношений. Тогда существуют однородный многочлен h0 (X), X£RP, и многочлен g(x), x£Rl, такие, что h(X)^g(hQ(X)). ИЗ
Доказательство, Соберем в й (X) вместе члены одной и той же степени. Тогда при некотором к h(X) = c0 + hl(X) + hi(X)+...+ht(X), (25) где с0 — свободный член, h{ (X) — однородные многочлены степени β (i), i=l, 2, . . ., к, причем 1 ^ β (1) < <Ρ(2)<·..<Ρ (к). Отметим, что Гь{(аХ) = а№%(Х), i = l, 2,..., к. (26) Покажем, что существуют действительные числа с.у t = 2,..., к, такие, что Ази)(Х) = с$«)(Х). (27) Для начала заметим, что при а -> О й (аХ) = а^\ {X) + О (α8ω+1) + с0. (28) Из (28) и устойчивости относительно сравнения при любом а >0 пары (й, φ), где φ (х)=ах, следует, что й (Xx) < < й (Х2) тогда и только тогда, когда ht (Xj) < /^ (Х>). Действительно, пусть й (Хг) <й(Х2). Тогда й (aXJ < < А (аХ2) ПРИ любом а > 0. Из (28) следует, что в этом случае ht (Хг) ^ йх (Х2)· Покажем, что имеет место строгое неравенство. Предположим противное, пусть йх (Xx) = =/*! (Х2). Если й (Хг) < й (Х3) < й (Х2), то из (28) и устойчивости относительно сравнения следует, что йх (Х1) = —кг (Хз)=^1 (Х2). В силу непрерывности й (X) существует окрестность В=^{Х : ρ (Χ, Х3) < ε} точки Х3 (р — евклидова метрика) такая, что й (Хх) < й (X) < й (Х2) для любого Х£В, а потому /^ (Х)=йх (X^^const для любого ΧζΒ. Отсюда следует, что hx (X)=const при всех X£RP (убедиться в этом можно, например, перенеся центр (начало координат) в Х3 и воспользовавшись выражением коэффициентов многочлена через значения производных). Получено противоречие, доказывающее, что hx (Χχ) < <^h1(X2)- Докажем обратное утверждение. Пусть hx (XJ < йх (Х2). Тогда из (28) следует, что й (аХ±) при достаточно малых а >0 меньше й (аХ2), а потому в соответствии с устойчивостью относительно сравнения й (Хх) < <й(Х2). Из приведенных рассуждений следует, что й (XJ^h (Х2) тогда и только тогда, когда Aj(Xi)=^(X2), Ш
Поэтому существует Строго возрастающая функцияgx такай, что h(X) = g1(h1(X)) (29) при всех X £ Rk. Областью определения g± является область значений однородного многочлена hx (X), т. е. Я1, [О, +оо) ИЛИ (—со, 0]. Нетрудно видеть, что при а -> т h (аХ) = а^Щк (X) + О (а**)-1). (30) Аналогично доказательству (29) можно получить (предоставляем это читателю), что h(X) = g2(hk(X) (31) для некоторой строго возрастающей функции g2. Следовательно, A*(X) = fi1(ft(*iW)) = ia(AiW). (32) где g3 — строго возрастающая функция. Найдем функцию g3. Из (32) следует, что hk(bX) = gz(h1(bX)). Однакоhl(bX) = l^iUh1(X). Кроме того, hk(bX)=b?ac\(X)= = bPat)ga(hl(X)). Полагая у = Л,(Х), Ьр(»=с, получаем функциональное уравнение «§<»(<.„) = cP(*)*,(j,), откуда 8lw(y) = cky*ik) (33) при соответствующем ск. Из (32) и (33) следует справедливость (27) при i=k. Из (29) и (32) следует существование функции g4 такой, что hx (X) + h2 (Χ) + ·. · + К_х (Χ) = g, (h, (X)). (34) Как нетрудно показать, lira α-β(*-υ (Α, (αΧ) -f Α2 (αΧ) + · · · + α->οο Из (34) и (35) следует существование функции gh такой, что V.(X) = &(M*))·' (36) 115
Именно, Л(0) = Шпо-Л*-1)А(о«»у). (37) α->οο Существование предела в (37) следует из существования предела в (35). Последовательно доказываем, что каждый из многочленов hi (X), i=2, . . ., &—2, представляется в виде функции от hx (X). Эти функции находятся явно аналогично выводу (33) из (32), а из их явного вида следует справедливость (27) для всех г=2, 3, . . ., к. Всякий многочлен от ρ переменных разлагается в произведение неприводимых множителей. Это разложение однозначно с точностью до множителей нулевой степени [62, с. 315]. Разложим к4(Х)·, ί = 1, . . ., к, на неприводимые множители. Из справедливости (27) следует существование многочлена h0 (X) такого, что МХ) = сЛ«>(Х), (38) где а (Г) — натуральные числа, с{ — действительные числа, i=l, 2, . . ., к. Из (25) и (38) следует заключение теоремы 10. Доказательство закончено, поскольку из (38) следует также однородность h0 (X). 5. Адекватность алгоритмов классификации В задаче классификации требуется разбить совокупность объектов Хг, Х2, . . ., Хп на группы (кластеры, таксоны, классы) в каком-то смысле близких между собой [63]. Считаем, что объекты описываются векторами одной и той же размерности: Χ.ζ=ζ(χ], ζ*,..., χ*), i= 1, 2, .. ., п. Алгоритм классификации 51 перерабатывает набор Х1э Х2> · · ·» Хп в разбиение S номеров объектов {1, 2,... . . ., п) на группы, соответствующие объектам, попавшим в один кластер: 91 :£ = {*/, 1 = 1,..., д, / = 1,...,*}-*$. (Более подробно разбиение S можно описать так. Существует натуральное ρ такое, что S={AX, А2, · . ., Ар), для множеств Аг, А2, ..., Ар выполнены соотношения 4,^0, i = l, 2, ..., р, Aif]AJ=i0 при i*£j, ί, / = = 1,2,..., рч A1[JA2\J...\JAP = {U 2,3,...,η}). 116
При обработке, например, социологических данных может оказаться естественным считать х{ измеренными по некоторым шкалам, отличным от абсолютной, т. е. совокупность исходных данных 9С измерена в обобщенной ГДП-гакале (Nkn1 Фкп) (см. определение 1.8). С содержательной точки зрения наборы ЭС и φ (9С); φ^Φ*»» несут одну и ту же информацию. Потребуем, чтобы алгоритм ч21 был адекватен относительно шкалы (iV^, Ф^ в смысле определения 1.8. В настоящем параграфе мы, рассматривая некоторые естественные классы алгоритмов, выделяем в этих классах подклассы адекватны. Многие алгоритмы классификации основываются только на мерах близости объектов. Часто мера близости — это просто расстояние, иногда — мера связи, скажем, коэффициент корреляции или так называемая потенциальная функция [64]. Обзор способов введения мер близости и соответствующие ссылки приведены в [63, гл. 3, § 1]. Большое число мер близости описано в [65]. Пусть τ (Χ, У) — мера близости векторов X и У. Введем τ ((Χ) = (τ (Х4, Xj), 1 <J έ, j <[ /г). Пусть алгоритм классификации основывается только на мерах близости, т. е. Жанам*»· Проверку адекватности 51 можно осуществить в два этапа, именно, сначала найти совокупность Ψ допустимых преобразований для τ (9£), исходя из совокупности допустимых преобразований для 9Е, а затем проверить адекватность 21 (τ) как функции τ относительно совокупности допустимых преобразований Ψ. Конечно, при этом получаются только достаточные условия, поскольку совокупность значений τ (9С) при всех возможных 9Е может быть лишь частью области определения 01 (τ). Опишем процесс построения Ψ несколько подробнее. Предположим, что мера близости τ (X, У) является устойчивой относительно сравнения для той шкалы, в которой измерены X и У, т. е. (ЛГ*»ХЛГ*.. (Ф*, <*>*■)). Именно из τ (X, У)< τ (Ζ, W) должно следовать τ (φ (Χ), φ (У)) < τ (φ (Ζ), φ (W)), а из τ (χ, Υ)=τ (Ζ, W) соответственно τ (φ (Χ), φ (У)) = τ (φ (Ζ), φ (W)) для любого φ6Φ*«· Положим ψφ (τ)=τ (φ (9Q), если τ=τ(90 ПРИ некотором Χ Из адекватности τ следует корректность этого определения. Пусть В = — (τ (9С), 9С £ iV^J—совокупность всех возможных значений т(9С). Преобразования ψ: τ->ψ (τ) определены 117
для всех τ(*Β и переводят В в себя. При этом композиция α £ ФЛЛ и β £ ФЛя переходит в композицию ψα и ψβ. Действительно, пусть τ = τ(9£), 9£1 = β(3£), τ1 = τ(9ί1), 9Е2 = = <<» о р> (9С), τ2 = τ(£2). Тогда ψβ(τ) = τ1. Поскольку (αοβ)(9Ε) = α(β(9Ε)) = α(ϊ1), то ψαΚ) = τ2, т.е. ψα(Ψβ(τ)) = = τ2. Однако τ2 = ψα0β(τ), так что ψα0β(τ) = φα(ψβ(τ)) = = (ψαθψβ)(τ), что и требовалось доказать. Итак, легко видеть, что {ψ , φ (< Фкп) образуют группу преобразований в В. Элементы этой группы занумерованы элементами Ф^, а потому их во всяком случае «не больше», чем элементов Ф^, что и оправдывает разбиение проверки адекватности на два этапа. Алгоритм ςΆ(<Χ) адекватен относительно шкалы (Nkn, Фкп) тогда и только тогда, когда отображение 01 (τ) адекватно относительно шкалы (5, Ψ). На практике зачастую трудно описать В, а потому 51 (I) проверяют на адекватность относительно подходящей шкалы (Ν, Ψχ), в которой BdN, а Ψ является сужением Ψχ на В. В результате вместо необходимых и достаточных условий появляются достаточные. Рассмотрим пример. Пусть все х{ измерены по одной и той же шкале, φ/=φ, i=i, . . ., η, 7 = 1, . . ., ft, а именно по шкале интервалов. Пусть τ — евклидово расстояние. Тогда из φ (x)—ax-\-b следует ψφ (τ)=ατ, т. е. ψφ совпадают для всех тех φ, у которых одинаков коэффициент линейного члена. Множество В описать затруднительно, поскольку для расстояния τ выполнено неравенство треугольника. Поэтому будем считать, что алгоритма применим ко всем τ = {τ^·, 1<^&<^7^тг}, для которых τ^. ^ 0 при всех έ, /, т. е. N=Rf, где т—п (п—1)/2, и проверять адекватность 01 в шкале отношений, т. е. Ψ1={φαβ, 1 < α < β <; η: φ^φ, φ (χ)=αχ, α> 0}. Матрица расстояний может быть получена и в качестве первичной информации (а не построена по X.), например, путем экспертного опроса. Другим примером может служить задача классификации с целью агрегирования отраслей народного хозяйства, решаемая на основе матрицы межотраслевого баланса 5=11^11, где s{j— сумма годовых поставок (в денежном выражении) из г-й отрасли в ;-ю. В качестве матрицы мер близости τ=||τ (Х{, Xj)\\ можно взять симметризованную нормированную матрицу межотраслевого баланса [66]. 118
Самый радикальный способ нахождения адекватных алгоритмов классификации состоит в таком выборе меры близости τ, чтобы группа Ψ состояла из единственного преобразования — тождественного. В этом случае для любого у£Фки τ (φ (*)) = *(*)· (1) Пусть φ/ = φ, т. е. все х{ измерены по одной шкале. При этом предположении для наиболее употребительных шкал можно указать расстояния, удовлетворяющие условию (1). Пусть Х}=(х\, х\, ..., ж*), Х2 = (х\ч *!,..., χξ). Шкале наименований соответствует расстояние типа Ке- мени—Снелла между матрицами В (Хг) и В (Х2), определенными в теореме 2.2, т. е. расстояние, построенное по такой норме в пространстве всех матриц данного порядка с действительными элементами, что норма матрицы равна сумме абсолютных величин ее элементов. Порядковой шкале соответствует то же расстояние между матрицами С (Хг) и С {X2)j определенными в теореме 2.4. Шкале интервалов — угол между плоскостями, одна из которых натянута на Хг и е=(1, 1, . . ., 1), а вторая — на Х2 и е. В шкале отношений в качестве ρ (Χ±, Х2) можно рассматривать угол между прямыми, натянутыми на Хг и Х2. В шкале разностей — расстояние между точками пересечения ПРЯМЫХ Χ^+λβ И Χ2+λ£, —со < λ < со, С ПЛОСКОСТЬЮ хг+х*+. . . +я*=0. В абсолютной шкале можно пользоваться любым расстоянием. Для определения удовлетворяющего (1) расстояния в степенной шкале можно воспользоваться изоморфизмом между ней и шкалой интервалов (теорема 1.7). Именно в качестве расстояния между Хг и Х2, измеренных в шкале степеней, предлагается использовать расстояние между Υχ и У2 в шкале интервалов, где Г,.=(1п;г], In х\ , . . ., In x*), £=1,2. Вопросам выбора расстояний между объектами с учетом шкал измерения координат описывающих их векторов посвящены работы Ю. Н. Толстовой (см., например, [7]). Выясним теперь, в каких шкалах следует считать измеренным расстояние. Пусть ρ (Χ, Υ) — расстояние между точками X и У некоторого множества Q. В каких случаях φ (ρ (Χ, Υ)) также является расстоянием? Здесь φ : [О, + о,)-* [0, +оо). Необходимо φ (0)=0 и φ (χ) > 0 при χ ^> 0. Наибольшие треборанид на φ накладывает нера- U$
венство треугольника: из ρ (Χ, Υ) + ρ {Υ, Ζ) ^ ρ (Хь Ζ) должно следовать φ (ρ (Χ, У)) + <р(р(Г, Ζ))>φ(ρ(Χ, Ζ)). (2) Предположим, что для любых неотрицательных чисел а и Ъ найдутся в Q три точки X, У и Ζ такие, что ρ (Χ, У)=я, ρ (У, Z) = b и ρ (Χ, Ζ)=α+&. Тогда для этих точек (2) переходит в φ(α) + φ(6) = φ(α + 6). (3) Как известно, все ограниченные решения уравнения (3) имеют вид φ (х)=ах, а£Д114. Из положительности расстояния между несовпадающими точками следует, что а > 0. Итак, если φ переводит определенное на Q расстояние в расстояние, то φ входит в группу допустимых преобразований шкалы отношений. Вместе с тем применение преобразования из этой группы соответствует переходу к другой единице измерения расстояния. Поскольку вполне естественно считать расстояния определенными лишь с точностью до единицы измерения, то с необходимостью приходим к выводу, что расстояния следует считать измеренными в шкале отношений. Поэтому если мера близости τ — это расстояние, то необходимо считать, что определенное выше Ψχ таково, что Ψχ={ψαβ, 1 ^ α < <β <] η: ψαβ—ψ, ψ (χ)=αχ, а >0}, где η — число классифицируемых объектов, что совпадает с рассмотренным выше примером. Имеется огромное число типов алгоритмов классификаций. Каждый из них можно (и нужно!) исследовать на адекватность. Рассмотрим для начала агломеративный иерархический алгоритм «средней связи» (описан, например, в [63, с. 1021). На первом шаге алгоритма каждое наблюдение рассматривается как отдельный кластер. Далее на каждом шаге происходит объединение двух самых близких кластеров. Для работы алгоритма необходимо определить расстояние между кластерами. Будем использовать обобщенное среднее по Колмогорову всевозможных попарных расстояний между элементами рассматриваемых кластеров, т. е. расстояние между кластерами А и В, со- 14 См. примечание к доказательству теоремы 4.5. 120
стоящими из щ и и2 элементов соответственно, определять по формуле *2 где F (ζ) — строго монотонная функция (см. формулу (4.2)). Мы требуем, чтобы результат работы алгоритма на каждом шаге не менялся при любом допустимом преобразовании шкалы, т. е. требуем от расстояний между кластерами устойчивости относительно сравнения. Поскольку расстояния τ (Χ{, Xj) между векторами следует считать измеренными в шкале отношений, то в соответствии с описанным выше переходом от Ψ κ Ψχ мы приходим к задаче нахождения обобщенных средних по Колмогорову, образующих устойчивую относительно сравнения пару с любым преобразованием, допустимым в шкале отношений. Как следует из теоремы 4.8, этим свойством обладают только степенные среднее, т. е. в (4) можно использовать только F (ζ)=ζΰ, с=т^0, и F{z)=\nz. При с=£0 (4) преобразуется к виду м^=(^22''<х»х4"'· (5) \ ie^jeB I Из обобщенных средних А. Н. Колмогоров 15 предложил использовать в алгоритмах классификации степенные средние. Наши результаты показывают, что для алгоритмов «средней связи» из средних вида (4) можно использовать только степенные средние (5), т. е. для этих алгоритмов предложение А. Н. Колмогорова нельзя обобщить. Нетрудно показать, что lim ρ,μ, Β)= min τ(Χ·, Ху) = Ри|1(4, В), ПтрДЛ, В) = max τ(Χ„ Ху) = Рт»(Л, В), с-*оо <€4, У6£ (6) В (6) рт1п (А, В) — расстояние, измеряемое по принципу «ближнего соседа», а ршах (А, В) — расстояние, измеряе- 15 Цитируемые здесь и далее в § 5 результаты А. Н. Колмогорова по классификации наблюдений содержались в докладе, прочитанном им на семинаре межфакультетной лаборатории статистических методов МГУ 27 апреля 1972 г. Они опубликованы в [63, гл. 3]. 121
мое по принципу «дальнего соседа». Рассмотрим теперь расстояние между множествами {Х{, ίζ_Α) и {Xj, j£B}. Как известно [34, с. 61 ], расстояние между множествами С и D в метрическом пространстве определяется так: p(C,Z)) = inf ρ (ζ, г/). (7) В применении к кластерам (7) дает Р({Х(, i&A), {Xj, )£Β})=9αία(Α, Β). Мы видели, что в теории классификации наблюдений имеется гораздо больше способов определения расстояния между множествами из конечного числа элементов, именно в (5) и (6) указаны способы вычисления расстояния между множествами {Х(, i£A) и {Xj, j£B}. Эти способы можно перенести на случай метрических пространств с мерой. Пусть С и D — измеримые подмножества метрического пространства X с мерой μ и метрикой р, измеримой относительно μΧμ в пространстве ХхХ (см. обозначения [34, с. 298]). Аналогом (4) является Р,(С, D) = P-1 L(C/MZ>) J W*. 0))(РХР)(^Х<Ц, \ CXD J (8) где F (z) — строго монотонная функция 16. Формула (8) имеет смысл при μ (С)=£0 и μ (D)^0. Если F (z)=ze и μ приписывает меру 1 каждой точке множества {Х4, i £ A \JB), то (8) переходит в (5). Итак, понятия, выработанные в такой новой области исследований, как кластер-анализ, оказываются полезными для классических частей математики. Отметим, что pmin и ртах не входят в класс (4) и потому не указаны в (5), хотя они, очевидно, образуют устойчивую относительно сравнения пару с любым преобразованием, допустимым в порядковой шкале. Алгоритм «средней связи» может быть применен и в случае, когда τ — не расстояния, а меры близости. Необходимо определить меру близости между кластерами. Естественно считать ее средней величиной совокупности, со- 16 А потому F (р (#, у)) измерима. 122
Стоящей из попарных мер близости, один элемент пары пробегает первый кластер, а другой — второй. При выборе способов агрегирования могут быть применены результаты § 3, 4. Так, если меру близости следует считать измеренной в порядковой шкале, то в качестве меры близости между кластерами в соответствии с теоремой 3.10 приходится брать медиану попарных расстояний или же какую- либо иную порядковую статистику (член вариационного ряда, построенного по совокупности попарных мер близости), в частности, можно использовать pmin и ршах из (6). Часто в качестве решения задачи классификации предлагается рассматривать разбиение £*, минимизирующее некоторый функционал качества разбиения: F(% S*) = mmF(% S). (9) 8 Определенное по (9) разбиение S* не должно меняться при замене 9£ на φ (9С). Для этого достаточно выполнения следующего условия: для любых разбиений S± и S2 неравенство F(9C, SiXFffi, S2) выполнено тогда и только тогда, когда F(cp(9C), 51)<^/Γ(φ(9ί), S2). Опять возникает проблема устойчивости результата сравнения. Значение F (9C, S) можно рассматривать также как функцию 9С при фиксированном S — как показатель «классифицируемости» наблюдений 9£ относительно разбиения S. Такая задача может возникнуть при выборе набора признаков, наиболее полно соответствующих фиксированному заранее разбиению (например, при выборе признаков, наиболее полезных при постановке диагноза). В этом случае непосредственно применима теория средних, развитая выше. Рассмотрим для конкретности некоторое обобщение подхода А. Н. Колмогорова к задачам классификации наблюдений. (Об этом подходе см. [63, гл. 3], а также [67].) Пусть F (9C, S)=F (Il9 J2), где 1г — показатель внутриклассового рассеяния, /2 — мера концентрации. Точнее, пусть g8(p (Х4, Χβ, i£A8, j£A8) — обобщенное среднее (по Колмогорову) попарных расстояний в кластере Аш, а /χ^ (% S)=fn (g8 (ρ (Χ., Xj), i£A8, )£Α8), 5=1, 2, ...,/?) — обобщенное среднее чисел g„ s=l, . . ., ρ, причем каждое gs повторяется столько раз, сколько элементов в А8. Так что 1г — обобщенное среднее η чисел. Мера концентрации L2=I% (S) зависит только 123
от разбиения S, но не от исходных данных Χ Α. Η. Колмогоров предложил следующий вид /2: Здесь ν (X.) — число элементов в кластере,содержащем Х{. Наилучшее разбиение определяется как решение экстремальной задачи 1г(% S)^min, It(S)>c. (10) s Задача (10) — частный случай задачи (9) при F (9E, S) = =F (Il9 1г)=1гН (/2), где Η (*) = 1, если ж>С,иЯ (х) = = + оо в противном случае. Можно решать задачу (9) и относительно других функций F (/]_, /2), например, F(IV /2) = α/1 + β/;1 (И) или F(IV /,) = ВД, (12) где α и β — некоторые положительные константы, выбор которых находится в распоряжении исследователя, например, α=β=1 [63, с. 92—93]. Алгоритм классификации ЭД (9Q, ставящий набору исходных данных 9С в соответствие решение S* задачи (10), осуществляет разбиение множества всех возможных наборов исходных данных на области, соответствующие определенным разбиениям объектов S, которые являются решениями задачи (10) для всех элементов областей, связанных с ними, и только для них. Адекватность Q1 имеет место тогда и только тогда, когда это разбиение множества всех возможных наборов исходных данных адекватно. Для последнего достаточное условие — устойчивость относительно сравнения пары (I± (9C, S), φ), где φ={φ^ (я)= —ах, 1 <I i < ; <; /ζ}, при любом а > 0. Рассмотрим сначала разбиение, состоящее из одного кластера. Тогда устойчивость относительно сравнения 1г сводится к таковой для g. Заменяя расстояния произвольными неотрицательными числами (переход от (5, Ψ) κ(Ν9 Ψχ)), приходим к устойчивости относительно сравнения пары, состоящей из обобщенного среднего по Колмогорову и произвольного преобразования, допустимого 124
в шкале отношений. Из теоремы 4.8 следует, что g — степенное среднее. Значит, при некотором в > О где п9 — число элементов в кластере А8. Применение преобразования φ^ (ρ (Χ,., XJ))—ар (Х^ XJ) приводит к умножению g9 на а, т. е. g8 следует считать измеренными в шкале отношений. Заменяя g8 произвольными неотрицательными числами, опять приходим к устойчивости относительно сравнения пары (/η, φ), где φ сводится к умножению каждой координаты на а, причем а — произвольное положительное число. По теореме 4.8 fn — степенное среднее, т. е. при некотором q >0 ш, s)=\± 2 ηΛγ\ (Η) В предложенной А. Н. Колмогоровым схеме e=q. Таким образом, и в этом случае предложенная им схема не может быть существенно обобщена. Из (13) и (14) следует, что 1г измерен в шкале отношений, поскольку из ср^у (р (Х{1 Xj))=ap (X{, Xj) при всех г, / следует Ιχ (φ (9С), S)=al1 (9C, S). Поэтому алгоритмы, основанные на F (1г, /а) из (10) и (12), адекватны, чего нет для F (1г, 12) из (11). Последний становится адекватным при введении номирующего множителя; F(Ilt /,) = α/1γ-Ι(9Γ) + β/ϊ1, где, например, γ (2£) = р {Х1У Хг) или при некотором t > 0. Таким образом, учет адекватности относительно соответствующих шкал позволяет из многих возможных алгоритмов классификации выделить лишь некоторые. Только выводы, полученные с помощью адекватных алгоритмов, можно считать надежными. 125
6. Случайные величины и допустимые преобразования Пусть ξ — абстрактная случайная величина, определенная на вероятностном пространстве {2, ^, Ρ), со значениями в измеримом пространстве {X, 21}, т. е. функция из 2 в X, g: 2 -► X, такая, что для любого множества i из о- алгебры 21 прообраз ξ-1 (Л) лежит во — алгебре <5. Пусть на X определена группа допустимых преобразований Ф, переводящая X на себя. Пусть g (ξ) — некоторая характеристика случайной величины ξ, т. е. функция, ставящая £ в соответствие g* (EJGi^U {°°}. При этом # определена на множестве всех случайных величин ξ : {2, <$, Ρ} -► (X, и}. Будем пользоваться следующим обобщением определения 1.7 на бесконечномерный случай. Определение 1. Характеристика g (ξ) называется адекватной относительно шкалы (X, Ф), если g (φ (%))=g (ξ) для всех ξ и всех φ £ Φ. Нас будут интересовать два случая: а) ξ — обычная случайная величина, т. е. X=R11 a g (£) — «показатель центральной тенденции» или «показатель изменчивости»; б) £—(£ι> £2) G Я2 — двумерная случайная величина, а 8 (ν£ι> У — показатель связи между обычными случайными величинами £х и £2. Пусть g (£) — «показатель центральной тенденции». Когда при произвольном φ £ Φ из # (£) < g (η) следует 8 Of (£)) <С £ (Τ (*)))? Эта проблема сводится к проверке адекватности некоторой характеристики gx в смысле определения 1 точно так же, как определение 1.1 сводится к определению 1.7 посредством теоремы 1.2. В частности, должно быть верно соотношение #0р'(£))=¥ (S (£)) (см. теорему 1.3). Рассмотрим сначала медиану: g(£)=med£. Поскольку для любого строго возрастающего преобразования φ прямой на себя med (φ(£))=φ (medQ, то медианой можно пользоваться как «показателем центральной тенденции» начиная с порядковой шкалы. Изучим математическое ожидание. Теорема 1* Пусть для любых случайных величин ξ и η из Μ ξ < Μύ\ следует Μφ (£) < Μψ (η) где φ — всюду дифференцируемая функция. Тогда φ — линейная 126
функций, т. е. существуют числа a is. b такие, что φ (х)~- =ах+Ь, причем а > 0. Доказательство. Рассмотрим семейство пар случайных величин, каждая из которых принимает два значения, причем с равными вероятностями. Для таких случайных величин математическое ожидание есть среднее арифметическое принимаемых ими значений, а условие сохранения упорядоченности математических ожиданий сводится к устойчивости относительно сравнения среднего арифметического. Тогда по теореме 4.1 φ есть линейная функция. Отметим, что при φ (x)=ax-{-b из Μξ<^Μτ\ следует Μ (φ (ξ))=Μ (at+b)=aMξ +b < aMri+b=M (αη+6) = =M (φ (η)). При линейном преобразовании упорядоченность дисперсий также сохраняется, поскольку D (αξ+ +b)=a2Dl Теорема 2. Пусть для любых случайных величин ξ и η из Ζ)ξ <; Dr\ следует, что D (φ (£))< D (φ (η)), где φ — строго возрастающая всюду дифференцируемая функция. Тогда φ — линейная функция. Доказательство. Опять рассмотрим случайные величины ξ, принимающие ровно два значения х± < х2 с равными вероятностями. Тогда Dl==(Xl~IX2j . Пусть η принимает значения Ух<Су2 с равными вероятностями. В силу условий *1<>2> У1<У2 О) неравенство Όξ <Ζ)η справедливо тогда и только тогда, когда х2—х± < г/2—Ун ЧТ0 эквивалентно 01 + *2<02 + *1· (2) Мы должны выяснить, при каких φ из (2) следует <Р (Vi) + <Р (*а) < <Р Ы + Ψ (χι)· (3) Аналогично доказательству теоремы 4.1 можно показать, что из (2) наверняка следует (3) тогда и только тогда, когда φ — линейная функция. (Необходимо проследить, что доказательство теоремы 4.1 проходит при условии (1).) Таким образом, только со шкалы интервалов можно пользоваться такими привычными характеристиками, как математическое ожидание и дисперсия. В порядковой шкале, видимо, можно вводить лишь «относительный разброс» одной случайной величины относительно другой, 127
имеющей с первой общую медиану. Мы не будем сейчас на этом останавливаться. Теорема 3. Теорема 2 остается верной при замене дисперсии на среднее абсолютное отклонение Μ | ξ—Μ £ |. Для доказательства достаточно заметить, что при рассмотрении случайных величин, принимающих два значения с одинаковыми вероятностями, устойчивость результата сравнения средних абсолютных отклонений эквивалентна тому, что из (2) следует (3) (при условии (1)), как и для дисперсий. Ясно, что из адекватности в смысле определения 1 любого разумного «показателя центральной тенденции» (разумного — т. е. среднего по Коши в смысле определения 1.2 для значений случайной величины) следует, что шкала является абсолютной. Изучим показатели изменчивости — среднее квадратическое отклонение, среднее абсолютное отклонение и коэффициент вариации Теорема 4. Пусть для любой случайной величины ξ выполнено одно из равенств # = Ζ)(φ(ί)), Μ|Ε-Μξ| = Μ|φ(6)-Μτ(ξ)|, (4) где φ — строго возрастающая функция. Тогда φ (я) = =х+Ь при некотором Ъ. Обратно, равенства (4) выполнены для всех φ, допустимых в шкале разностей. Доказательство. Пусть £ — случайная величина, принимающая два значения хг < х2 с равными вероятностями. Тогда любое из равенств (4) приводится к виду φ (х2)— φ (хг)=х2—х19 откуда по теореме 1.6 следует требуемое. Обратное утверждение очевидно. Теорема 5. Пусть Var£=Var (φ (ί)) для всех случайных величин ξ, где φ — некоторая строго возрастающая функция. Тогда существует а > 0 такое, что φ (χ)=αχ. Обратно, коэффициент вариации — адекватная характеристика в шкале отношений. Доказательство. Нетрудно показать, что для случайных величин, принимающих два значения хг < х2 с равными вероятностями, равенство Var£=Var (φ (ξ)) приводится к виду ** — *\ = ψ(*%) — ψ(*ι) /5\ *l + *2 ?(*l)+¥(*2)" V ' 12$
Из (5) нетрудно вывести, что .φ (χ1)χ2—χιψ (х2)у откуда по теореме 1.5 следует требуемое. Проверку обратного утверждения предоставляем читателю. Как уже отмечалось в § 1, в настоящее время наиболее распространена шкала отношений. Для величин, измеренных в этой шкале, в качестве показателя изменчивости предпочтительнее, с точки зрения теории измерений, использование коэффициента вариации, не изменяющегося при допустимых преобразованиях, а не среднего квадра- тическрго или среднего абсолютного отклонений. Широкое использование дисперсии объясняется, по мнению автора, тем, что с этим показателем оперировать легче, чем с коэффициентом вариации (так, дисперсия суммы независимых случайных величин равна сумме дйсперсрй — полезное свойство, которое не выполнено для коэффициентов вариаций). Однако адекватен именно коэффициент вариации, а не дисперсия. Теорема 6. Пусть φ (χ) — непрерывная функция. Для произвольной случайной величины ξ из существования Μ § следует существование Μφ (ξ) тогда и только тогда, когда lim |л?|->>со <[ оо. (6) Доказательство. Пусть (6) выполнено. Поскольку φ непрерывна, то для случайной величины ξ величина φ (£) также случайна 17. Математическое ожидание Μ £ существует тогда и только тогда, когда М|||= 5 \x\dF(x)<c», (7) где F(x) — функция распределения ξ. Поскольку CD Μφ(!)= J ?(x)dF{x), (8) 17~ Как известно, существуют измеримая функция / (*) и непрерывная функция g (χ) такие, что / (g (#)) неизмерима 168, с. 141]. Однако любая непрерывная функция от измеримой функции измерима. 129
То дли доказательства существования Μφ (£) достаточйо показать, что со 5 |τ(*)|<ΪΡ(*)<οο. —00 В силу справедливости (6) и непрерывности φ существуют числа а и Ъ такие, что |φ(#)|<аIхI + Ъ ПРИ всех χ· Тогда 00 CD СО j \<?{x)\dF(x)<a J \x\dF{x) + b j dF(x)<cx>, —00 —CO —00 что и требовалось. Пусть теперь (6) не выполнено. Построим случайную величину ξ такую, что Μξ существует, а Μφ (ξ) — нет. Рассмотрим последовательность ап, /г = 1, 2,... такую, что \*Ы\>п (9) и | ап | > 1 при всех п. Ее существование следует из того, что (6) не выполнено, т. е. lim |я|->оо I * |=+сх>. Пусть с определяется из условия 2-5тсг=1· (10> Ряд в (10) сходится, поскольку в силу | ап \ > 1, η = 1, 2,..., 2-^fer<2^<00· 1»>1 Я>1 Положим с Тогда в силу (10) сумма всех рп равна 1. Рассмотрим случайную величину £, приписывающую точке ап вероятность ря, /1=1, 2, . . . Тогда (7) выполнено, поскольку M|S|=2la»l/,»=2^-<co' Л>1 Л>1 130
следовательно, М ξ существует. Однако в силу (9) Щ<?(Щ = ^1\9М\Рп>^п\а„\ря=^=+сХ>, »>1 »>1 »^sl т. е. Μφ (ξ) не существует. Теорема 6 доказана. Из теоремы 6 следует, что в «Ф — теории 18>>, вообще говоря, закон больших чисел неверен, поскольку из существования Μ ξ, к которому сходится в соответствующем смысле среднее арифметическое наблюдений, не следует существование Μφ (ξ). Можно проверить, однако, что условия справедливости этого закона при центрировании медианами, а не математическими ожиданиями, данные в [69, с. 266], являются инвариантными относительно преобразований, допустимых в порядковой шкале, что так закон больших чисел при центрировании медианами входит в порядковую теорию вероятностей 19. Теорема 7. Пусть случайные величины ξ и η с функциями распределения F (х) и G (х) соответственно таковы, что их математические ожидания существуют, причем Μ £ > Μ η. Необходимое и достаточное условие выполнения неравенства Μφ (ξ) > Μφ (η) для любой строго возрастающей непрерывной функции φ, удовлетворяющей (6), таково: F (х) ^ G (х) при всех х, причем существует х0, для которого F (х0) < G {х0). Доказательство. Интегрируя по частям, имеем GO Μφ(ξ)-Μφ(η)= \ <f{z)d(F{z) — G(x)) = —00 со = *(*)(F(*)-G(*))|-0B- J (F{z)-G(x))af(z)= —CO CO = \ (G(x)-F(x))df(xy. (11) — CO (Проведенные в (11) преобразования законны в силу существования Μ ξ и Μη и условия (6)). 18 См. § 2. 19 Проверка опущена из-за громоздкости обозначений. 131
Предположим, что найдется точка xQj в которой G (xo)—F (хо) < 0· Функция распределения F (х) = =Р (£< х) и G (х)=Р (η < χ) непрерывны слева (см., например, [70, с. 133]), а потому их разность непрерывна слева. Следовательно, существуют хг < х0 и δ > 0 такие, что G (x)—F (χ) < — δ при хг ^ χ <; х0. Существует непрерывная строго возрастающая функция φ (χ) такая, что ?(*ι) = °» ΤΚ) = 1» lim ?(*) = —е» 1ίωφ(«) = 1+β. #->— 00 #->СО Для этой функции условие (6) выполнено, со я^ a?e J (G (*) — *» d?(x)< J 2d?(x) — ijdp(ar) + — СО —00 Χχ 00 + (2ώφ(^) = 4ε — δ, что меньше 0 при 4ε—δ < 0. Следовательно, условие Μφ (ξ) >Μφ(η) влечет F(x)^G(x). Если F(x) = G(x) при всех х, то Μφ (ξ)=Μψ (η). Следовательно, найдется х0, для которого i^ (х0) < R (х0). Докажем обратное. Пусть F (x) <^ G (х) при всех х. Тогда в силу (11) Μφ (ξ) ^Μφ (η). Пусть существует х0 такое, что F (х0) < G (х0). Тогда из-за непрерывности слева G (x)—F (χ) найдутся δ > О и хг < х0 такие, что G (x)—F (χ—) > δ >0 при всех χ £ [хг, х0]. Следовательно, Мер (ξ) - Μφ (η) > j Щ (Χ) = δ (ср (*0) - φ (χ,)), поскольку φ строго возрастает. Теорема 7 доказана. Отметим, что полученное в теореме 7 условие на F й G инвариантно относительно допустимых в порядковой шкале преобразований. Оно выполнено, например, для распределений, отличающихся сдвигом: G (x)=F (#+θ), θ>0. Теорема 8. Пусть 5lf ξ2, . . ., £m — независимые одинаково распределенные случайные величины с функцией распределения F (#), а η1? η2, . . ., η„ — независимые одинаково распределенные случайные величины с функцией 132
распределения G(x), причем последовательности {ξ.} и {η,.} независимы между собой, Μξχ>Μηχ. Чтобы вероятность события 1 т ^ η ] стремилась к единице при min (m, n) -> оо для любой строго возрастающей непрерывной функции φ, удовлетворяющей условию (6), необходимо и достаточно, чтобы при всех χ выполнялось неравенство F (x) ^ G (#), причем существовало #0, для-которого F (х0) < G (х0). Доказательство* По теореме 7 сформулированное в условии требование на F и G необходимо и достаточно для того, чтобы Μ ψ (У > Μφ (%) для всех рассматриваемых φ, при этом существование Μφ (У и My (η^: вытекает из теоремы 6. При min (тга, п) -+ оо по теореме Хинчина (см., например, [70, с. 208]) У (ξι) + У (5«) +-··+? (Ы > м /ξ ч φ(ηι) + φ(η2) + >- + φ(η*) ->» щы по вероятности, оттуда и следует требуемое. Теорема 8, представляющая собой статистический вариант теоремы 7, позволяет установить, когда с помощью измеренных в порядковой шкале наблюдений можно найти знак разности математических ожиданий генеральных совокупностей. Она была получена в [221. Перейдем к рассмотрению показателей связи между случайными величинами. Рассмотрим случайный вектор (ξ, η), коэффициент ковариации Οθν(ξ, η) = Μ(ξ— Μ£)(η— Μη) и коэффициент корреляции С0ГГ/С ч_СОУ(?, η) Теорема 9. Пусть cov (ς, 7])=cov (φ (ξ), φ (η)) для любого случайного вектора (ξ, η), где φ — строго возрастающая функция. Тогда φ (x)=x+b при некотором Ъ. Обратно, коэффициент ковариации является адекватной характеристикой в шкале разностей. 133
Доказательство. Рассмотрим случайный вектор (ξ, η), принимающий два значения (я, у) и (z, w) с равными вероятностями. Нетрудно подсчитать, что /t \ ху + гш — zy — xw COV (ξ,, η) = -^- £_* ^ Условие cov (ξ, r])=cov (φ (ξ), φ (η)) приводит после некоторых выкладок к следующему соотношению: <?(*)(? Ы — ?(*)) = *(» — "0 + Следовательно, φ (я)=а#+& при некоторых α > 0 и Ь. Поскольку cov (αϋ+Ь, αη+&)=α8 cov (ξ, η), το α=1, что и требовалось. Проверку обратного утверждения предоставляем читателю. Теорема 10. Пусть согг (ξ, Yj)=corr (φ (ξ), φ (η)) для любого случайного вектора (ξ, η), где φ — строго возрастающая функция. Тогда φ (x)=ax+b при некоторых β>0 и ίι. Обратно, коэффициент корреляции является адекватной характеристикой в шкале интервалов. Доказательство приводится по той же схеме, что и доказательство теоремы 9, но более громоздко (так, вектор (ξ, η) должен принимать не менее трех значений), поэтому оставляем его читателю. Как уже отмечалось, большинство встречающихся в приложениях величин измерено в шкале отношений. Поэтому использование для них в качестве показателя связи коэффициента корреляции, адекватного в шкале с более широкой группой допустимых преобразований, приводит к потере информации. Представляется целесообразным использовать вместо коэффициента корреляции следующий показатель связи: COS (ξ, η) = -τ= , , т. е. косинус угла между случайными величинами ξ и η, рассматриваемыми как вектора в гильбертовом пространстве функций на Ω со скалярным произведением (ξ η) = Теорема 11. Пусть cos (ξ, tj)=cos (φ (£), φ (η)) для любого случайного вектора (ξ, η), где φ — строго возрастающее преобразование. Тогда φ (х)=ах при некотором а > 0. Обратно, косинус угла между случайными вели- 134
чинами является адекватной характеристикой в шкале отношений. Доказательство этой теоремы также предоставляем читателю. Мы разобрали лишь небольшое число естественно возникающих постановок. Было бы полезно изучить аналогичным образом- и другие показатели связи, в частности, указанные в [65]. Особенный интерес представляют меры связи между случаййыми величинами, измеренными в разных шкалах, например, рассмотренные в [71 ] показатели для номинальной ξ и номинальной, порядковой или же измеренной в шкале отношений η. ЛИТЕРАТУРА 1. Суппес #., Зинес Дж. Основы теории измерений. — В кн.: Психологические измерения. М.: Мир, 1967, с. 9—110. 2. Пфанцаглъ И. Теория измерений. М.: Мир, 1976. 3. ШубкинВ. Я. Социологические опыты. М.: Мысль, 1970. 4. Шляпентох В. Э. Социология для всех. М.: Советская Россия. 1970. 5. Шляпентох В. Э. Проблема достоверности статистической информации в социологических исследованиях. М.: Статистика, 1973. 6. Щукина /\ И. Проблема познавательного интереса в педагогике. М.: Просвещение, 1971. 7. Толстова Ю, Н. Адекватность функции расстояния в алгоритмах автоматической классификации. — В кн.: Исследования по вероятностно-статистическому моделированию реальных системам.: ЦЭМИ АН СССР, 1977, с. 168—173. 8. Джини Я*. Средние величины. М.: Статистика, 1970. 9. Орлов А. И. Допустимые средние в некоторых задачах экспертных оценок и агрегирования показателей качества. — В кн.: Многомерный статистический анализ в социально-экономических исследованиях. Ученые записки по статистике, т. 26, М.: Наука, 1974, с. 388—393. 10. Dershem Herbert L. A relationship between approximation theory and statistical measurements. — Pi Mu Epsilon J., 1975, v. 6, N 2, p. 69—74. 11. Стивене С С. Математика, измерение и психофизика. — В кн.: Экспериментальная психология. М.: ИЛ, 1960, т. I. 12. Гурвич Ф. Г. Методы и процедуры получения экспертной информации. — Экономика и математические методы, * т. IX, 1973, № 5, с. 962—975. 13. Мальцев А. И. Алгебраические системы. М.: Наука, 1970. 14. Робинсон А. Введение в теорию-моделей и Метаматематику алгебры. М.: Наука, 1967. 15. Krantz D* #., Luce R. D., Suppes P., Tversky A· Foundations of measurement. Ν.—Υ. — London: Academic Press, 1071. 1S5
16. Орлов А. И. Проблема устойчивости (общая схема, конкретные результаты)· — В кн.: Алгоритмы многомерного статистического анализа и их применения. М.: ЦЭМИ АН СССР, 1975, с. 130—142. 17. Орлов А. И. Проблемы устойчивости и обоснованности решений в теории экспертных оценок. — В кн.: Статистические методы анализа экспертных оценок. Ученые записки по статистике, т. 29, М.: Наука, 1977, с. .7—30. 18. Сатаров Г. А. Об описаний отношений в теории измерений. — В кн.: Проблемы педагогической квалиметрии, вып. 1. М.: МГПИ им. В. И. Ленина, 1974, с. 78—90. 19. Сатаров Г» А. Об адекватных числовых отношениях. — В кн.: Проблемы педагогической квалиметрии, вып. 2. М.; МГПИ им. В. И. Ленина, 1975, с. 174—179. 20. Высоцкий В. С. О сравнении шкал. — См. наст, сб., с. 317. 21. Кузьмин В. В., Овчинников С. В. Геометрический подход к обработке результатов измерений в порядковых шкалах. — В кн.: Проблемы педагогической квалиметрии, вып. 2. М.: МГПИ им. В. И. Ленина, 1975, с. 188—203. 22. Орлов А. И. Допустимые преобразования в задаче сравнения средних. Ψ — постоянные статистики. — В кн.: Алгоритмы многомерного статистического анализа и их применения. М.: ЦЭМИ АН СССР, 1975, с. 121-127. 23. Орлов А. И. Проблема устойчивости результата сравнения в теории средних. — В кн.: Методы анализа краткосрочных экономических процессов. М.: ЦЭМИ АН СССР — НИИ ЦСУ, 1976, с. 154-163. 24. Орлов Л. ϋΓ. Устойчивость относительно допустимых преобразований шкал. — В кн.: Исследования по вероятностно-статистическому моделированию реальных систем. М,: ЦЭМИ АН СССР, 1977. с. 155-167. 25. Кузьмин В» Б., Орлов А. И. О средних ве дичин ах, сравнение которых инвариантно относительно допустимых преобразований шкалы. — В кн.: Статистические методы анализа экспертных оценок. Ученые записки по статистике, т. 29. М.: Наука, 1977, с. 220—227. 26. Мешалкин Л. Д. Подходы к определению типа течения хронической болезни и некоторые другие задачи. — В кн.: Алгоритмы многомерного статистического анализа и их применения. М.: ЦЭМИ АН СССР, 1975, с. 167-169. 27. Мешалкин Л» Д. О допустимых агрегированных показателях в экспертных оценках. — В кн.: Статистические методы анализа экспертных оценок. Ученые записки по статистике, т. 29. М.: Йаука, 1977, с. 215—219. 28· Бешелев С. Д., Гурвич Ф. Г. Математико-статистцческие методы экспертных оценок. М.: Статистика, 1974. 29. Миркин Б. 2\ Анализ качественных признаков, М,: Статистика, ' .1976. - 30. Ρайхман Э. П., Азгалъдов Г. Г. Экспертные методы в оценке качества товаров. М.: Экономика 1974. 31. Лъюе Р., Галантер Е* Психофизические шкалы. — В кн.: Психологические измерения. М.: Мир, 1967, с. 111—195. 32. Барра Ж.—-Р. Основные понятия математической статистики,. М.: Мир, 1974. 136
33. Закс Ш. Теория статистических выводов. М.: Мир, 1975. 34! Колмогоров А. #., Фомин С. В. Элементы теории функций и функционального анализа. М.: Наука, 1972. 35 Гаек #., Шидак 5. Теория ранговых критериев. М.: Наука, " 1971. 36. Кенддл М. Ранговые корреляции. М.: Статистика, 1975. 37. Дубровский С.А., Бутко А. К., Аржанова Т. Д., Френкель А. А. Формализация априорной информации с использованием метода последовательных интервалов. — Заводская лаборатория, 1976, т. 42, № 7, с. 848—863. 38. Kolmogorov A. Sur la notion de la moyenne. — Atti. della R. Ac- cad. Nazi. Lincei. Rend., ser. 6, v. 12, 1930, p. 388—391. 39. Nagumo M. Uber eine klasse der mittlewerte. — Japanese Journ. of Math., v. 7, 1930, p. 71—79. 40. De Finetti B. Sul concetto di medi*. — Giornale dell'Instituto Ital. degli Attuari, Anno II, № 3, 1931, p. 369—396. 41. Кузьмин В, Б., Овчинников С. В. Об измерениях в порядковых шкалах. — Автоматика и телемеханика, 1974, № 11. 42. Goldman /. An axiomatic approach to estimation and prediction^— Ph. D. dissert., Cornell Univ., Ithaca, Ν.—Υ., Jan. 1970. 43. Козлов В. С, Эрлих Я. Μ., Долгушевский Φ. /\, Полушин П. И\ Общая теория статистики. М.: Статистика, 1975. 44. Рябушкин Т. В. Средние в статистике. М.: Статистика, 1954. 45. Лекции по методике конкретных социальных исследований (под ред. Г. М. Андреевой). М.: изд. МГУ, 1972. 46. Бешелев С. Д., Гурвич Ф. Г. Экспертные оценки· М.: Наука, 1973. 47. Гурвич Ф. Г. Методы обработки экспертных оценок. — Экономика и·математические методы, т. IX, 1973, № 6, с. 1157—1169. 48. Николаев В. И., Темное В. Н. Об одном методе формирования экспертной оценки. — Известия АН СССР, сер. Техн. киберн., ' 1973, № 5, с. 32—36. . . 49. Патругин Ю. А. Балльное шкалирование признака. — Экономика и математические методы, т. VI, 1970, № 6, с. 887—893. 50. Азгалъдов Г. /\, Азгальдова Л. А. Количественная оценка качества (квалиметрия). Библиография. М.: Изд-во стандартов, 1971. 51. Азгалъдов Г. Г., Райхман Э. Я. О квалиметрии. М.: Изд-во стандартов, 1973. 52. Измерение качества продукции. Вопросы квалиметрии. М.: Изд-во стандартов, 1971. 53. Статистическое измерение качественных характеристик. М.: Статистика, 1972. 54. Огорелков В. И. Основные направления исследования проблем измерения уровня знаний учащихся.— В кн.: Проблемы педагогической квалиметрии, вып. 1. М.: МШИ им. В. И. Ленина, 1974, с. 4—27. 55. Исследование операций. Методологические аспекты. М.: Наука, 1972. 56. Планирование, управление и оценка эффективности научных исследований и разработок. М.: ЦЭМИ АН СССР, 1972. 57. Гасилов В. Б. Восприятие и оценка научных достижений. — В кн.: Социально-психологические проблемы науки. Ученый и научный коллектив. Mf: Наука, 1973, с, 59—95. 137
58. Налимов В. В., Мульченко 3. М. Наукометрия. М.: Наука, 1969. 59. Godwin D. С, Shannon A. G. A rationale for relating test scores to objectives. —- Int. J. Math. Educ. Sci. and Technol., 1975, v. 6, N 2, p. 231—237. 60. Grether David M. Correlations with ordinal data. — J. Econo- metr., 1974, v. 2, N 3, p. 241—246. 61. Андрукович П. Φ., Веселая Г. Я., Козырев В. #., Терехин А. Т. Статистический анализ экспертных оценок. — В кн.: Многомерный статистический анализ в социально-экономических исследованиях. Ученые записки по статистике, т. 26. М.: Наука, 1974, с. 168-188. 62. Курош А. Г. Курс высшей алгебры. М.: Наука, 1965. 63. Айвазян С. Л., Бежаева 3. Я., Староверов О. В, Классификация многомерных наблюдений. М.: Статистика, 1974. 64. Айзерман Μ. Α., Браверман Э. М., Розоноэр JI. Я. Метод потенциальных функций в теории обучения машин. М.: Наука, 1970. 65. Sokal Я. Я., Sneath P. H. A. Principles of numerical taxonomy. San Francisco and London: W. H. Freeman and company, 1963. 66. Лумелъский В. Я. Агрегирование матрицы межотраслевого баланса с помощью алгоритма диагонализации матрицы связи. — Автоматика и телемеханика, 1970, «№ 9, с. 69—72. 67. Айвазян С. Л. Методы классификации многомерных данных: систематизация» связь со статистическим оцениванием, приложения, -г В кн.: Тезисы докладов международной конференции по теории вероятностей и математической статистике (Вильнюс, 25—30 июня, 1973), т. I. Вильнюс, 1973, с; 7—10. 68. Гелбаум Я., Олмстед Дж. Контрпримеры в анализе. М.: Мир, 1967. 69. Лоэв М. Теория вероятностей. М.: ИЛ, 1962. 70. Гнеденко Б. В. Курс теории вероятностей* М.: Наука, 1969. 71. Sdrndal Carl Erik. A comparative study of association measures— Psychometrika, 1974, v. 39, N 2, p. 165—187. 72. Щеголе в Ю. А. Проблема законности числовых операций на шкалах, применяемых в социологии. — В кн.: Математика и социология. Новосибирск: ИЭиОПП СО АН СССР, 1072, с, 225—233. Литвак Б. Г. МЕРЫ БЛИЗОСТИ НА МЕТРИЗОВАННЫХ ОТНОШЕНИЯХ В настоящее время возрос интерес к созданию математического аппарата оценки качественных признаков объектов. Существенным его элементом являются меры близости на отношениях. В [1 ] введена мера близости на 138
ранжированиях, в [2] — на эквивалентностях, в [3] — на частично упорядоченных множествах, в 14] — на толе- рантностях. В [5] и [6] рассматриваются меры близости на взвешенных упорядочениях с различными способами введения весовых коэффициентов, в [4] — на нечетких толерантностях. В данной работе рассматриваются меры близости на метризованных отношениях, обладающих согласованными и несогласованными матрицами отношений. При некоторой естественной аксиоматике вводятся меры близости на произвольных метризованных отношениях, на метризованных толерантностях, частично упорядоченных множествах, эквивалентностях, ранжированиях, содержащие, как частные случаи, меры близости, полученные в [1]— [3], [5], а для метризованных толерантностей отличающуюся формулой расчета расстояний от соответствующей формулы в [4, с. 28], что обусловлено различием в выборе системы аксиом. Доказывается единственность вводимых мер близости при заданной системе аксиом.. Пусть А = {а19 . . ., ап) —- множество объектов, Ρ — бинарное отношение, характеризующее систему предпочтения объектов ([1], [3], [5]) либо степень их сходства ([2], [4])· Информация об отношении Ρ содержится в матрице отношений Μ (Ρ) с элементами: _|1, если (а., а^.£Р. ** (0, в противном случае * ' Расстояния между отношениями; ранжированиями, частично упорядоченными множествами, эквивалентно- стями, толерантностями, произвольными отношениями определяются различием между соответствующими матрицами отношений. Однако следует отметить, что матрицы отношений не имеют, вообще говоря, метрической интерпретации и в качестве значений р4- могли бы быть выбраны любые два отличные друг от друга элемента. Поэтому при введении мер близости целесообразным представляется рассмотрение отношений Р, каждой паре которых (at-, a J) £ Ρ соответствует число wtj £ W (Ρ) г — значение некоторой меры, характеризующей Р. Содержательно это iW(P)=s{Wijh 139
Может быть стейень ЦредпоЧтейия, степень сходства ме^кду -объектами, относительная частота выбора одного из объектов при парных сравнениях и т. д. Пару Ρ=ζΡ, W (Ρ)) будем называть метризованным отношением. Будем говорить, что метризованное отношение Р== =ζΡ, W (Ρ)) рефлексивно, симметрично, антисимметрично, транзитивно и т. д., если Ρ обладает указанным свойством. Метризованное отношение Ρ является частично упорядоченным множеством, ранжированием, эквивалентностью, толерантностью, если таково соответствующее ему отношение Р. Информация о метризованных отношениях Р= =<^Р, W (Р)У содержится в матрицах метризованных отношений Μ (Ρ) с элементами tw.j, если (α., α,)£Ρ Α/=|θ, если (а., а/)$Р{ар а.)$Р. (2) 10, в противном случае Появление элемента θ объясняется необходимостью иметь в Μ (Ρ) информацию одновременно о равноценности и несравнимости объектов. В матрицах отношений, рассматриваемых в [1], j^y=0, когда объекты а{ и ау равноценны, а в матрицах отношений из [3] р^=0, когда объекты а4 и а^— несравнимы. Введение же элемента θ позволяет учитывать в матрицах отношений оба случая. Пример 1. Матрица метризованных отношений /0 1 1 1 W 0 0 0 θ θ л/(Р)=(ооое θ 0 0 θ 0 1 <0 θ θ 0 0/ соответствует частично упорядоченному множеству объ~ ектов Р. При этом объекты а2 и а4, а2 и аб, а3 и а4, а3 и аь несравнимы, а объекты а2 и а3 равноценны. В общем случае для метризованных отношений «*«/ <Е {0,1}. 140
В данной работе мы будем рассматривать наряду с матрицами произвольных метризованных отношений два специальных класса матриц метризованных отношений. К первому классу Μ' (Ρ) отнесем матрицы метризованных частично упорядоченных множеств и ранжирований, ко второму классу М" (Р) — матрицы метризованных толерантностей и эквивалентностей. Элементы матриц М' (Р), отличные от Θ, характеризуют степень предпочтения объекта ai по отношению к объекту dj, iy j £ (1> · · ·> n)- Их значения могут быть определены с помощью шкалы, построенной, например, по методу, предложенному в [71. При этом минимальное значение шкалы характеризует равноценные объекты, а максимальное значение w0 — максимально возможную степень предпочтения одного объекта по отношению к другому. Матрицы класса Μ (Ρ) имеют вид если (a., dj)(+P если («у, а()£Р если (а., а.)£Р и (ау, а.)£Р% (3) Θ, если (а., aj)$P и (а,., а.)$Р, 0<и\7<ю0. Будем говорить, что матрица метризованных отношений Μ (Ρ) £ Μ1 (Ρ) согласована, если р^ =—pj{, iy j £ {1, ..., η) ПРИ Pij^Q' Pjil^^ и Pij = Pji — ® в противном случае. С помощью соответствующих шкал могут быть определены и значения элементов матриц класса Мп(Р)у отличные от θ и характеризующие степень сходства между объ^ктаща, нри этом ри = ы?0, i £ (1, ..., /г}, здесь w0 характеризует максимальное сходство. Будем говорить, что матрица метризованных отношений Μ (Р).£ Μ" (Ρ) согласована, если p4J = pJ0 г, / £ (1,..., /г}. Пример 2. PiJ=\ w.., О, М(Д) = 0 2 3 -10 0 -10 0 -7 θ θ -8 θ θ 6 8) θ θ θ θ 0 2 -3 0 Μ(Ρ2) = 0 2 3 7 8 —2 0 0 θ θ —3 0 0 θ θ —7 θ θ 0 2 -0 θ θ -2 0 141
M(P3) = f 10 6 6 2 3 4 10 8 θ θ 5 6 10 θ θ 2 θ θ 10 4 2 θ 10 Μ (ΡJ г ί 10 6 5 2 31 6 ίο 7 θ е 5 7 10 θ θ 2 θ θ 10 4 3 θ θ 4 10 Матрица Μ (Д) — несогласованная матрица метризованного частично упорядоченного множества, Μ (Рх) — согласованная матрица метризованного частично упорядоченного множества, Μ (Р3)— несогласованная матрица метризованной толерантности, М(Р4) — согласованная матрица метризованной толерантности с w0 = 10. Примерами метризованных отношений с несогласованными матрицами являются достаточно хорошо изученные нечеткие (размытые) отношения Заде (см., например, [8], [9]). При определении расстояния между метризованными отношениями с согласованными матрицами Μ (Ρ) (] М! (Ρ) достаточно рассматривать лишь элементы p.j такие, что (а{1 dj) £ Ρ, а для Μ (Ρ) £ Mf (Ρ) лишь элементы p.j с i^j. Это означает для частично упорядоченных множеств и ранжирований при определении расстояний можно ограничиться рассмотрением Ρ и W (Р), а для отношений толерантности, эквивалентности Ρ = ζΡ, W (Р)У лишь подмножеством пар (a., <ij)£P с i^;. Такое подмножество будем обозначать через SIP), а через SIP) — пару (SIP), W(S(P))>. Далее в данной работе для метризованных частично упорядоченных множеств и ранжирований Рг и Р2 с согласованными матрицами расстояние будем определять как некоторую функцию d(Pv Р2), а для метризованных толе- рантностей и ранжирований Рх и Р2 как некоторую функцию d(S(A), s(P2)). Сформулируем аксиомы, которым должны удовлетворять меры близости на метризованных отношениях. Пусть Pv Р2 и Р3 — метризованные отношения. Аксиома 1. d(Pv P2)^0, d(Pv P2) = 0 только если б —О 2 ■*1 *2 ' 2 β _-р P}j = i 142
Аксиома 2. d(Pv P2) = d(P2, Рг). Аксиома 3. d(Plt P2)<id(P1, P3)+.d(Pz, P2). Будем говорить, что метризованное отношение Р3 лежит «между» метризованными отношениями Рг и Р2, если для элементов матриц М(Р1), М(Р2), М(Р3) выполняется при/,^θ, Щ^ min{/^, #,} <^<max{#/Wjply}, при ^ = θ, #,*· fi3 = b либо #/=#/· (5) при p]j =£ Θ, ft, = θ ft, = θ либо ft, = β], (5') при р\, = р^ = Ь />?/ = θ. (6) Аксиома 4. Если Р3 лежит «между» Р1 и Р2, то <*(Ρχ, P2) = d(Pv Ps)-\-d(P3, Д). (7) Лкшолш 5. Если Рг и Р2 различаются лишь на одной упорядоченной паре объектов (а., о,), то d{Pv Pt) = dlJ(Pv P,) = [\Р\,-ЙЛ если РЬ¥-Ь ftj^* О, если Д1у = р2/ = е (8) ш, в противном случае, при этом предполагается, что «>*,<; u% t, /£ (1,...,«}, А = = 1,2,3. Эта аксиома используется в случае, если Рг и Р2 имеют, согласованные матрицы отношений, принадлежащие классу М'(Р) или М"(Р\ либо если Рх и Д — произвольные метризованные отношения. В случае если рассматриваются метризованные отношения с несогласованными матрицами, принадлежащими М! (Р) и М"(Р) аксиома 5 заменяется следующей аксиомой. Аксиома 5!. Если Рх и Р2 различаются лишь на одной упорядоченной паре объектов (а0 а^\ то «А, А>-МА. А)=^"Д|Г"('1·'5·1 (9) Заметим, что в случае метризованных отношений с согласованными матрицами отношений, принадлежащих Mf (Ρ) т
и Μ"(Ρ) dfj(Pu Pi) = aJi(Pl, P2) и, следовательно, Отметим, что если Р3 лежит «между» Рх и Р2, то для соответствующих отношений Рг, Р2, Р8 справедливо: ЛП^аСРаСЛи^г (Ю) Вместе с тем выполнение соотношения (10) не гарантирует того, что Р3 лежит «между» А и Р2. Действительно, выполнение, например, условия (4) не гарантируется. Таким образом, в случае метризованных отношений справедлива лишь необходимость теоремы 2 [10, с. 121] об отношении, лежащем «между» двумя заданными. Перейдем к доказательству теорем единственности мер близости. Сначала докажем теорему единственности для случая произвольных метризованных отношений, т. е. метризованных отношений, на которые не налагаются требования транзитивности, антисимметричности и т. д. Теорема 1. Аксиомы 1—5 однозначно определяют меру близости между произвольными метризованными отношениями. Докажем теорему индукцией по числу к — пар элементов (a., cij), для которых v\j^P\y При k=l утверждение теоремы справедливо по аксиоме 5. Пусть утверждение теоремы справедливо при А^/г — 1, покажем его справедливость и при йг = тг. Пусть Рх и Р2 различаются на^/г парах элементов. Построим метризованное отношение Р3> лежащее «между» Рх и Р2 и отличающееся и от Рг и от Р2 не более чем на /г — 1-й паре элементов. Среди пар элементов, на которых Рх и Р2 различаются, существует (α*β, aJo) £ €ЛПРа с Рц.¥-* и Р\^, либо (a,., aJo) с рЦ^9, jp2 =θ (случай ρ]. =θ, ρ* j =£θ аналогичен). Тогда метризованным отношением Р3 будет отношение РХ9 в котором ό\ . заменено на ю? .. По аксиоме 4 л (Л. Л)=М. 4.)+<*А. Л) d(P„ Ps) и ^(Ра> ^г) по предположению индукции определены однозначно, следовательно, однозначно определится и мера близости между метризованными отношениями Р} и Р2 d(Pv Д,). 144
Рассмотрим метризованные толерантности и эквивалентности Ρ с согласованными матрицами отношений Af(P)£ £М" (Р) и соответствующие им подмножества упорядоченных пар S(P). Сформулируем две легко доказываемые леммы. Лемма 1. Метризованное отношение Ρ с согласованной матрицей М(Р)£М"(Р) является эквивалентностью тогда и только тогда, когда S (Р) — транзитивно. Следствие. Метризованное отношение Ρ с согласованной матрицей М(Р}£М"(Р) рефлексивно и симметрично. Пусть Ρν Р2 и Р3 — метризованные отношения с согласованными матрицами отношений Μ (Рг)ч М(Р2), М(Р8)(« £М"(Р). Лемма 2. Метризованное отношение Р3 тогда и только тогда лежит «между» Рх и Р2, когда S(P3) лежит «между» S{P,) и S(PJ. Леммы 1 и 2 позволяют, перейдя от метризованных то- лерантностей Ρ с согласованными матрицами отношений к S (Р) и воспользовавшись схемой доказательства предыдущей теоремы, доказать теорему о единственности меры близости на метризованных толерантностях. Теорема 2. Аксиомы 1—5 однозначно определяют меру близости между метризованными толерантностями с согласованными матрицами отношений. Рассмотрим метризованные частично упорядоченные множества P1 = (PV W^PJ) и Р2 = <Р2, W2{P2)> с согласованными матрицами отношений M(P1)t M(P2). Теорема 3. Аксиомы 1—5 однозначно определяют меру близости между метризованными частично упорядоченными множествами с согласованными матрицами отношений. Через θ обозначим метризованное отношение с ρ^=θ, J, /, G {1, . . ., η}. Прежде чем приступить к доказательству теоремы, убедимся в справедливости следующих лемм. Лемма 5. Мера близости между θ и произвольными метризованным частично упорядоченным множеством Ρ аксиомами 1—5 определяется однозначно. Доказательство леммы аналогично доказательству теоремы 1. В качестве метризованного частично упорядочен- 145
ного множества, лежащего «между» θ и Ρ выберем Р3, состоящее из одной упорядоченной пары (ai0, cij0)£p с Р%, /о = Ао, /о· Пусть Pl = <Plwl(Pl)y и Р2 = <Р2, w2(P2)y — метризованные отношения. Лемма 4. Если существует пара (ai0, aJ0) £ Рг f\ Р2 такая, что Piojo^P^ojo* то меРа близости между Д и Р2 аксиомами 1—5 определяется однозначно. Лемма 4 непосредственно следует из доказательства теоремы 1. В силу леммы 4 при дальнейших рассмотрениях интересными для нас остаются лишь случаи с р\, = р2 как только (c<f aj)^PjT\P2. ^ Пусть теперь РХ и Р2 — метризованные частично упорядоченные множества с согласованными матрицами отношений. Доказательство теоремы проведем индукцией по А: — числу пар, для которых р)у=^р^у При к=\ утверждение теоремы справедливо по аксиоме 5. Пусть оно справедливо при к ^ η — 1, докажем его справедливость при к~п. Рассмотрим сначала случай Рх С Р2 (случай Р2 с Ρ γ аналогичен). Если Ρί = Θ9ίο d(Ply P2) однозначно определяется по лемме 3. Пусть Ρ1=^=θ, тогда на основании леммы 4 легко убедиться, что интерес представляет лишь случай, когда Рх лежит «между» θ и Р2. По аксиоме 4 d(B, Р2) = = <2(θ, A) + d(A. А)· Но d(e· А) и ώ(θ· А) однозначно определяется по лемме 3, а следовательно, однозначно определится и d(Pj, P2). Пусть теперь Ρλ φ Р2 и Р2 φ Ρ,. Рассмотрим А=<А№. *(АПА)>. В силу леммы 4 интересен лишь случай, когда p3iy = = P]j = p*j для пар (а{, а^РхС\Р2. Кроме того, пересечение двух частично упорядоченных множеств также частично упорядоченное множество. Следовательно, Р3 — ча~ стично упорядоченное множество, лежащее «между» Ρλ и Р2. По аксиоме 4 d(Pl9 A) = d(A. A) + d(A. Р2). Но так как PjCj:P2 и Р2 φ Ρν число пар, на которых различаются Рх и РХС\Р2 и Р2 и РХС[Р2 меньше, чем п. Следовательно, по предположению индукции d(Pv P3) и d(P3, P2) определены однозначно, а значит однозначно определено и d(Pv Ρ.,). Теорема доказана, т
Рассмотрим метризованные эквивалентности Ρ с согласованными матрицами отношений Μ (Ρ) (< Μ" (Ρ) и соответствующие им подмножества упорядоченных пар S (Р). Отметим следующий достаточно очевидный факт. Лемма 5. Если Ρ — метризованная эквивалентность с согласованной матрицей отношений, то S (Р)— метризованное частично упорядоченное множество. Теорема 4. Аксиомы 1—5 однозначно определяют меру близости между метризованными эквивалентностями Рх и Р2 с согласованными матрицами отношений. Доказательство. Рассмотрим S (Рх) и S(P2)> соответствующие метризованным эквивалентностям Рх и Р2. Из леммы 5 следует, что S (Д) и S (Р2) — метризованные частично упорядоченные множества. Тогда по теореме 3, поскольку расстояние между частично упорядоченными множествами с согласованными матрицами определяется расстоянием между соответствующими метризованными отношениями, мера близости d(S(Px)9 S(P2)) определится однозначно. Но так как Р, и Р2 — метризованные эквивалентности с согласованными матрицами, то d(PlJ P2) = d(5(P1), S(P2)). Следовательно, однозначно определится и d(Pl9 Р2). Теорема доказана. Для доказательства единственности меры близости между метризованными ранжированиями с согласованными матрицами отношений, удовлетворяющей аксиомам 1—5, можно воспользоваться схемой доказательства, избранной в работе [1], лишь несколько видоизменив его с учетом свойств метризованных отношений. При этом аксиома 5 заменяет в доказательстве аксиомы 2—4 из [1 ]. Следовательно, справедлива теорема 5. Теорема 5. Аксиомы 1—5 однозначно определяют меру близости между метризованными ранжированиями с согласованными матрицами отношений. Перейдем к рассмотрению мер близости на метризованных отношениях с несогласованными матрицами. Оказывается, что все теоремы единственности мер близости, доказанные для метризованных отношений с согласованными матрицами, будут справедливы и в этом случае, но для системы аксдяом 1—4,5'. Чтобы убедиться в этом, необходимо повторить проведенные ранее доказательства 147
t некоторыми изменениями. При построении отношений р3, лежащих «между» заданными Рг и Д, будем полагать p?j равным p]j либо р\^ а р3.. равным соответственно р^4 либо p2JV На первом шаге индукции (при к=1) вместо аксиомы 5 будем использовать аксиому 5'. При доказательстве единственности меры близости на метризованных толерантностях и эквивалентностях с несогласованными матрицами отношений будем использовать схему доказательства соответственно теоремы 1 и теоремы 3, а при доказательстве единственности меры близости на метризованных, частично упорядоченных множествах и ранжированиях с несогласованными матрицами отношений — соответственно теоремы 3 и теоремы 5 с указанными изменениями. Теорема 6. Аксиомы 1—4,5' однозначно определяют меру близости между метризованными толерантностями, эквивалентностями, частично упорядоченными множествами, ранжированиями с несогласованными матрицами отношений. Отметим, что мера близости между произвольными метризованными отношениями определяется однозначно также и системой аксиом 1—4,5'. Теорема 7. Мера близости между метризованными толерантностями, эквивалентностями, частично упорядоченными множествами, ранжированиями с согласованными матрицами отношений определяется по формуле <*(А. Р2) = 2.<МА, А), где d4J(pl9 р2) = <\ph-Pb\> если #/■*·· Я/^о = | 0, если р\. = р\. = Ъ (И) I w9 в противном случае, с несогласованными матрицами отношений, а также между произвольными метризованными отношениями — по формуле d(A> Ρ2) = Σ 3i/(Pv А) = 2djj{Pi, P%) + *ij{P%* Pi) MOv 148
Можно непосредственно проверить, что формула (11) ..удовлетворяет аксиомам 1—5, а формула (12)—аксиомам 1—4,5'. Как доказано в теоремах 1—6, меры близости на рассматриваемых в теореме метризованных отношениях определяются однозначно. Следовательно, формулы (11) и (12) однозначно определяют меру близости для перечисленных метризованных отношений соответственно с согласованными и несогласованными матрицами отношений. Теорема доказана. Можно также непосредственно убедиться, что меры близости, предложенные в работах [1]—[3], [5], являются частными случаями мер близости, полученных в данной работе. Так, мера близости, учитывающая веса объектов [5], получается, когда p.j = —- γ^., где w{ и Wj — веса i-ro и ;-го объектов, а если (aiy dj)£P в противном случае. Тогда '"Чо* '(Λ.Α)=2ΐ«,-«,Ι=2|^τί/--=ί·τ!, S 3 ·» 3 *> 3 ЛИТЕРАТУРА 1. Кемени Дж., Снелл Дж. Кибернетическое моделирование. Некоторые приложения. М.: Советское радио, 1972. * 2. Миркин Б. Г., Черный Л, Б. Об измерении близости между разбиениями конечного множества объектов. — Автоматика и телемеханика, 1970, № 5. 3. Bogart К. P. Preference structures I : distances between transitive preference relations. J. of Mathematical Sociology, Vol. 3, 1973. 4. Орлов А. И. Проблемы устойчивости и обоснованности, решений в теории экспертных оценок. — В кн.: Статистические методы анализа экспертных оценок. Ученые записки по статистике, т. 29. М.: Наука, 1977. 5. Кузьмин В. Б., Овчинников С. В. Априорные модели предпочтений. — В кн.: Информационное обеспечение в задачах управления научными подразделениями НИИ, вып. 9. М.: Институт проблем управления, 1976. 6. Литвак Б. Г., Раппопорт А. М. Взвешенное ранжирование объектов. — В кн.: Экспертные оценки и восприятие искусства, вып. 48. М.: НИИ культуры, 1977. 149
7. ЛитвакВ. Г. О выборе делений шкалы. — В кн.: СтатиаГйЧескив методы анализа экспертных оценок. Ученые записки по статистике, т. 29. М.: Наука, 1977. 8. Заде Л. Понятие лингвистической переменной и его применение к принятию Приближенных решений. М.: Мир, 1976. 9. Гусев Л· А .9 Смирнова И* М. Размытые множества. Теория и приложения (Обзор). — Автоматика и телемеханика, 1973, 10. Миркин Б. Г. Проблема группового выбора. М.: Наука, 1974. Раппопорт А. М.9 Шнейдерман М. В. АНАЛИЗ ЭКСПЕРТНЫХ СУЖДЕНИЙ, ЗАДАННЫХ В ВИДЕ СТРУКТУР В последние годы во многих задачах, связанных с прогнозированием, планированием, контролем широко используются иерархические структуры типа «деревьев». На верхнем уровне структуры расположены одна или несколько начальных (общих) компонент, которые на следующих уровнях разлагаются поэтапно на частные, на нижнем уровне находятся элементарные, далее неделимые компоненты. В основе таких структур лежат распространенные идеи о переходе от общего к частному, от более сложного к более простому, о декомпозиции сложного объекта (явления) на составляющие его частные компоненты. Приведем ряд примеров использования подобных структур. В планировании и прогнозировании широко применяется дерево целей, которое, например, лежит в основе известной: методики планирования ПАТТЕРН [1J. На верхнем уровне дерева находится глобальная цель, которая расчленяется по уровням на все более конкретные подцели (мероприятия), осуществление которых есть условие достижения глобальной цели. В квалиметрии качество продукта рассматривается как иерархическая совокупность свойств, представляющих интерес ддас потребителей [2]. Такая структура свойств используется при оценке потребительского качества продукции. 150
В социологических исследованиях - возникает потребность в описании изучаемого явления на языке определенной системы понятий [3]. Вначале обычно имеются общие понятия, эмпирический смысл которых остается неясным. Для того чтобы явление было изучено на эмпирическом уровне, исходные понятия должны быть интерпретированы с помощью эмпирических индикаторов, т. е. фактов действительности, поддающихся выявлению и регистрации. При переходе от абстрактных понятий к их эмпирическим индикаторам формируется понятийная иерархическая структура явления [4 К В многокритериальных задачах принятия решений одним из этапов является формирование набора критериев. При этом желательно иметь не только названия, но и развернутые формулировки критериев, которые позволяют уменьшить неоднозначность в их трактовке [5 ]. Для этого можно использовать иерархическую понятийную структуру, на верхнем уровне которой расположатся названия критериев, на нижнем — достаточно конкретные элет ментарныо подкритерии. Отметим, что во всех перечисленных выше примерах рассматриваемые структуры могут. быть представлены ациклическим орграфом, вершины которого условно отображают множество целей, свойств, понятий и т. ц. Несмотря на широкое использование подобных иерар~ хических структур, в литературе, в частности, в работах [1—5], отсутствуют конкретные методы и процедуры их построения. Указывается только, что во всех выше приведенных случаях задача порождения таких структур возлагается на группу специалистов-экспертов. Таким образом, использование для формирования иерархических структур метода групповой экспертизы не требует дополнительных обоснований. Вопрос состоит в том, с помощью каких конкретных методов и процедур такую экспертизу проводить. Отметим при этом, что речь идет фактически о новом ранее не исследовавшемся виде экспертизы. Большинство известных экспертных методов связано с задачами оценивания совокупности объектов с помощью того или иного типа шкал. В данной статье обсуждаются основные этапы, связанные с экспертизой указанного вида, и рассматриваются некоторые способы обработки экспертных данных в виде структур с помощью мер близости между ними. 151
1. Основные этапы экспертизы Один из возможных способов организации групповой экспертизы состоит в независимом индивидуальном опросе, в ходе которого каждый эксперт формирует суждение в виде структуры, и последующей обработке совокупности собранных суждений. Этот способ целесообразен, если совместная групповая работа экспертов затруднительна в организационном отношении или нежелательна в силу социально-психологических факторов. Кроме того, индивидуальная структура может представлять самостоятельный интерес как отражение целостной точки зрения специалиста на изучаемое явление. Каждый эксперт формирует перечень начальных (наиболее общих) элементов и осуществляет далее процесс их членения на промежуточные до тех пор, пока не будет получен достаточно полный набор неделимых (висячих) элементов. Этот процесс должен контролироваться исследователем, который будет объяснять эксперту задачу, следить за непротиворечивостью и логичностью его работы. В структуре, построенной экспертом, должны обеспечиваться достаточная глубина «ветви» для каждого начального элемента и полнота множества элементов каждого уровня. Существенно, что элементы структуры, подчиненные одному вышестоящему элементу, имеют относительно него в общем случае различную значимость. Поэтому целесообразно получение от экспертов инфор-. мации о значимости элементов структуры, например, в виде весовых коэффициентов (относительной важности, значимости и т. п.) элементов, подчиненных одному вышестоящему. Общепринятым правилом является назначение йесовых коэффициентов при нормирующем условии равенства их суммы какому-либо целому числу, обычно единице. Существенно, что у разных экспертов будут, вообще говоря, различные представления о структуре изучаемого явления (процесса), поэтому исходным материалом для обработки является множество структур, различающихся в общем случае: а) составом элементов, б) связями между ними, в) весовыми коэффициентами. Следует изучить особенности «пространства суждений»; выявить подгруппы экспертов со сходными и отдельных экспертов с особыми (резко отличными от других) суждениями, В этих целях 152
можно использовать некоторую меру, с помощью которой оценивается сходство или различие между суждениями. Отметим, что большинство известных мер сходства (различия) предназначено для анализа экспертных суждений, представляющих собой ранжирование каких-либо объектов, их оценку по числовой шкале или разбиение на классы [6]. В нашем случае при введении меры близости возникают существенные трудности, связанные с особенностями исходных данных, например, с тем, что множества элементов, составляющих структуры экспертов, могут сильно различаться. Будем далее предполагать, что осуществлен предварительный смысловой анализ использованных экспертами терминов; выявлены синонимы и очень близкие до смыслу термины, исправлены терминологические и логические ошибки экспертов и т. п. Тем не менее следует учесть, что мера блиаости должна рассматриваться лишь как инструмент для приближенного анализа сформированных экспертами структур· Меры близости, соответствующие экспертным суждениям рассматриваемого вида, рассмотрены в следующем разделе статьи· Далее проводится поиск единой структуры, отражающей суждения отдельных экспертов. Отметим, что полу* чение единой структуры, обобщающей суждения всей группы экспертов, может, оказаться нецелесообразным^ если суждения экспертов резко различны или в экспертной группе выделяется ряд подгрупп, объединяющих эксперт тов с близкими суждениями. В последнем случае естественно проводить поиск не одной, а нескольких единых структур внутри выделенных подгрупп. Необходимо учи- тывать также, что использование какого-либо формального метода получения «средней» структуры может привести к результатам, лишенным содержательного: смысла» Наиболее эффективным, по-видимому, является применение формализованных методов в сочетании с неформальными процедурами, предусматривающими повторное обращение к экспертам· 2. Меры близости между структурами В качестве экспертных суждений рассматривается лщо-г жество связных орграфов Т<=Т{ (Xi9 Et), 1=^1, Ν, Xt — множество вершин, Ei — множество дуг. Вершины графа: Ti соответствуют элементам структуры. i-ro эксперта,- 153
а дуга — связям между элементами: дуга (х> у) £ £., если χ является непосредственным «предшественником» для у в структуре г-го эксперта. В частном случае, когда у каждой вершины имеется не более одного непосредственного «предшественника», граф Т{ является деревом. Перечислим некоторые особенности графов Т4. Множества вершин X. графов Т4, вообще говоря, не совпадают: Xi\X-^= 0i9 /=1, N9 U Xt = X. В каждом гра^е име- ♦=ι ν ется единственная вершина х0 £ Π^» (корень графа), у которой нет «предшественников»: d+(x0)=Q (d+ (x0) — число дуг, входящих в вершину х0). В графах Т{ отсутствуют направленные циклы. Вершины, соответствующие неделимым элементам, будем называть висячими (хотя в принятой терминологии такие вершины называются висячими, если исходный граф является деревом). Для висячих вершин число выходящих дуг d" (#)=0; для остальных вершин графа d~ (x) ;> 2. Помимо указанных графов Ti (X0 Ef) будем использовать и их транзитивные замыкания Τ (Χ{, 2?,), полученные добавлением всех дуг между вершинами одной направленной цепи, соединяющей х0 с висячей вершиной, от верхнего уровня к нижнему. В графе Ti дуга соответ·* ствует отношению включения между вершинами (это отражает большую общность элементов вышестоящих уровней)* Следует отметить, что мера близости может вводиться как между экспертными структурами в целом, так и между какими-либо частями этих структур. По-видимому, имеет смысл рассматривать два способа введения меры близости: 1) между структурами в целом; 2) между множествами висячих элементов (вершин). В первом способе используются собственно все те данные, которые были получены от экспертов. Второй способ, хотя и использует только часть этих данных, также логичен, поскольку множество висячих элементов достаточно полно отражает всю структуру и содержит наиболее конкретные, однозначно понимаемые элементы. В настоящей работе будет более подробно рассмотрен способ введения меры близости .между множествами висячих элементов. После этого будет кратко освещен способ введения меры близости между структурами в целом. 154
Итак, имеем множества висячих элементов, которые в общем случае различаются составом и весовыми коэф~ фициентами. Заметим, что эксперты назначают весовые коэффициенты (далее веса) h (z, у) для групд элементов, подчиненных одному вышестоящему ζ, причем 2 М*»У) *=■ е=1. Для того чтобы оперировать сопоставимыми весами на множестве висячих элементов, необходимо учесть их значимость во всей структуре в целом (oTHoqm^bHO корневого элемента). С этой целью находится дриведен- ный вес каждого висячего элемента, который обычно получается путем перемножения и суммирования исходных весов по всем путям, связывающим висячий элемецт с корнем графа. Пусть Vt — множество висячих вершин графа Tv V{ Q Q Xr Вес вершины χ £ Vi равен: α«>(*) = Σ Π *(*, У). (1) причем суммирование ведется по всем путям L(x), соединяющим χ с корнем графа. В частном случае, когда граф Tt — дерево, имеется единственный путь L (х) и знак суммы отсутствует. Легко показать, что 2 в(',(а5)==1· •г* Дополним множество* вершин V4 до V=\JV4, \V\ = n, ί-1 Ν считая вершины из F\ U V4 в графе Т4 изолированными, а их веса a(i) (х) равными нулю. Таким образом, множеству висячих вершин V4 соответствует «взвешенный» вектор инцидентности (вектор весов) А = (а[*\ ..., <#)), где ap=a«>(zk), xk£V, k = T^> Из построения следует, что ак*) — 0, если xk^V4, ak^^0 η n2a*)== 2 aii)= 2 aki) = *· Теперь задача введения меры близости на множествах висячих вершин сводится к аналогичной задаче в классе векторов Q = {A\h A = η = («!, . .., αη), определенном условием 2α*=1* α*^0, λ-ι 155
Исследуем вопрос о существовании и единственности функции расстояния в классе векторов Q в несколько более общем случае, когда заданы веса координат векторов ρ (к) ^ 0, &=1, /г1. Для нахождения расстояния между парой точек из Q, удовлетворяющего сформулированным ниже условием, будет определяться некоторый кратчайший допустимый в Q путь. При этом существенную роль будет играть следующее понятие. Будем говорить, что вектор С лежит между векторами А9 В £ Qy если С £ Q и Для всех * (&=!> Ό, либо ак <! ^ ск ^ &*> либо a>k^ ck^ bk. Если С лежит между А и В, будем писать Ы, С, 5]. Очевидно, что если выполнено [А, С, В], то выполнено и [5, С, Л]. Обозначим Ек — единичный вектор с единственной отличной от нуля координатой ek=i. Сформулируем условия, из которых выведем функцию расстояния d(A, В) по «прямоугольной сетке» в классе векторов А, В ζ Q. Если U, С, 5], то d(A, B) = d(A9 C) + d(C9 В) (2) d[A, А+\(Ек-Е<)] = \[р(к)+р®], М=Т7Я (3). где ρ (к) — вес А-ой координаты, О ^λ ^ min {ак9 1— ак}9 Л=1, п. Как будет показано ниже, из этих условий следует и обычные аксиомы метрики. Теорема. Для векторов из класса Q существует единственная функция расстояния: d(A, Β) = Σ/>(*)|β*-υ. (4) удовлетворяющая условиям (2) и (3) Ч Доказательство теоремы состоит из двух лемм и приводится в приложении. Сделаем несколько замечаний относительно функции d(A, В). t Введение этих весов не является необходимым для рассматриваемой задачи, но может оказаться полезным в других случаях. 2 Расстояния подобного вида использовались в ряде работ (например 16]), в настоящей статье функция (4) выводится аксиоматически для рассматриваемого класса векторов. Отметим, что функция (4) является псевдометрикой. 156
1. В формулировке условия (3) при ρ (к) > О, &=1, η можно было исключить случай λ=0, заменив его условием, что при А =^= В, d (А, В) =^= 0. В самом деле, имеем [А, А, А], поэтому из условия (2) следует d(A, A)+ +d(A, A) = d(At А), откуда d{A, Л)=0. 2. Как установлено в доказательстве леммы 2 (см. приложение) при ρ (к) > 0, Л=1, η условие (2) выполняется в обе стороны: d(A, B)=d(A, C)-\-d(C, В) тогда и только тогда, когда [Л, С, В]. 3. Если функция ρ (к) > 0 (fc=l, /г), то d(A, В) удовлетворяет всем аксиомам метрики. В противном случае не исключено, что d(A, 5)=0 при А Ф В. 4. Аналогичный результат получается и в классе векторов с дискретными значениями координат, кратными некоторому фиксированному натуральному числу R. η В этом случае ak = rk/R, 2 ак — ^> гДе г* — целые fc=l числа, 0^г*^Л, &=1, я, а в условии (3) λ полагается равным 0 или MR. Отсюда, в частности, следует аналогичный результат и для класса булевых векторов (включая бинарные отношения) с фиксированным числом единичных координат. В рассматриваемом случае, когда множество векторов Q соответствует множествам висячих вершин: ρ (&) = 1, d(AyB)^±K + h) = 2. Воспользовавшись (4), получим формулу для меры близости между графами Тг и Т2: Ρι(ΪΊ, T2) = d(A, В)= Σ **+ Σ Ък + *к£Г2 *кЪУХ + Σ \ак-Ък\9 (5) где векторы А, В соответствуют множествам висячих вершин Г1} F2, а их координаты определяются по формуле (1). Отметим, что наряду с формулой (5) можно применять и евклидову метрику для тг-мерных векторов А, В. 157
В том случае, когда веса вершин в экспертных структурах отсутствуют, можно определять меру близости с помощью метрики Хемминга κ, примененной к множествам висячих вершин графов Тг, Т2: Pa (Tlt Т2) = χ (Vlt Vz) = I У, φ V21, (6) где знак 0 означает симметрическую разность. Однако в метрике Хемминга це учитывается тот факт, что число несовпадающих висячих вершин в графах Тг и Τ\ может быть одним и тем же независимо от того, одинаковы или различны мощности рассматриваемых множеств Vx и V2. Для учета мощности этих множеств можно использовать предложенную выше метрику, полагая в_фор- муле (5): ак—1/\Уг\ при хк £ Vl9 akj=0 при хк £ F,; h = U\V%\ при хк £ F2, bk=0 при хк £ V2. Теперь коротко остановимся на способах введения меры близости между структурами в целом в случае, когда веса вершин отсутствуют. Простейшим путем является использование метрики Хемминга, примененной к множествам всех вершин графов Т19 Г2: ΜΓρ Т2) = ЦХ1,Х2) = \Х1®Х2\. (7) При этом однако учитываются различия только в списках вершин. Другим путем является применение метрик, учитывающих в первую очередь различий в связях между вершинами и определенных на множествах дуг исходных графов. Для этого, например, можно использовать расстояния, аксиоматически введенные Богартом для бинарных отношений [7, 8], применение которых наиболее оправдано, когда списки вершин в графах совпадают или мало различаются. Пусть А = (акр), В = (Ък), (*, р = Т7^ь = \ Х\) -матрицы, задающие графы ТЛл, Е\ Г2(Х, Ю, рассматривае- мые на объединенном множестве вершин X = U Х{ (в графе 7\. вершины из ϊ\ Χζ изолированы). 1, если (хк, xp)QEl(E2)y —1, если (хр, zk)GEx(EJ9 О, если (хк, хр), (хр, хк)£Ех{Е2). akP(hP) = \ 158
Названными метриками яьляются «расстояние tto прямо* угольной сетке» (Хемминга) между дугами графов Т1у Т2: m m Ρ*(*Ί. Г,) = 1/2 Σ \a*p-hp\= Σ K-W (8) k<p евклидово расстояние: МЛ. ^=1/\/2[Д1(«»,-ь«)«]''= -Γ*£>-νΓ· (9> Указанные расстояния, по-видимому, наиболее целесообразно использовать для Графов ϊχ и Т2, полученных из Тг и Т2 при помощи операции транзитивного замыкания: Ρβί^ι, Т2) = рА(Т1, fa), ρ7(^ι, Τ1) = Λ(ίι1ι f2). Выра- жения для ρβ и р7 получаются из (8) и (9) заменой матриц А и В на А и 5. Заметим, что в последних формулах (8), (9) суммирование достаточно вести лишь по индексам, относящимся к множеству вершин Хг (J Х2 рассматриваемых графов Ти Т2, поскольку элементы матриц акрУ bkpi соответствующие хк1 хр (« Х\(Хг \J Х2), равны нулю· 3. Результаты эксперимента В эксперименте, проведенном в НИИкультуры Министерства культуры РСФСР, рассматривалась задача формирования набора критериев для многокритериальной оценки исполнителей на конкурсах бальных танцев. В настоящее время при работе жюри на конкурсах отсутствует общепринятая система критериев. Предварительный опрос специалистов показал, что в качестве критериев выступают такие обобщенные показатели, как музыкальность, артистичность, техничность и т. п. Существенно*, что расхождения между специалистами касались как перечня этих понятий, так и интерпретации каждого из них* Целью проведенной экспертизы было получение развернутых трактовок критериев в виде иерархических структур, использование которых может уменьшить неоднозначность в понимании критериев членами жюри. *59.
В группу из 9 экспертов вошли ведущие специалисты жанра (педагоги, исполнители, хореографы с опытом работы в жюри). От каждого из них в ходе детального интервью была получена развернутая структура критериев. Структуры содержали от 25 до 73 элементов и имели от 2 до 5 уровней. В структурах использовано с различной частотой повторяемости 268 различных элементов, упомянутых в общей сложности 372 раза. Веса элементов назначались эксперталш Л¥ак- чтобы сумма весок элементов, подчиненных одному вышестоящему, равнялась единице. Мера близости применялась К множествам висячих элементов структур. Эти множества были существенно различными, они содержали от 15 до 47 элементов. Была ист пользована предложенная в^ппе мера близости рг (Tti T2). Полученные результаты были представлены в виде матрицы расстояний (9x9). На основе матрицы расстояний проводилось изучение «геометрии» пространства экспертных суждений. Для этого было осуществлено разбиение множества экспертов на подгруппы так, чтобы в одну подгруппу вошли эксперты, расстояния между суждениями которых достаточно малы. Разбиение проводилось β помощью алгоритма автоматической классификации «Объединение» С9]. Были выделены две примерно равные подгруппы экспертов, суждения которых отражали две точки зрения на оценку бального танца. Сторонники; первой рассматривают бальный танец в основном как художественное явление, сторонники второй — как спортивное. Интересно, что полученное разбиение экспертов почти совпало с априорным разбиением, которое до начала опроса,произвел опытный специалист в данной области, хорошо знающий всех участников опроса. Это является определенным косвенным подтверждением того, что введенная мера близости отражает действительные различия в экспертных суждениях. Проводился также (совместно с А. Ю. Терехиной) анализ собранных суждений с помощью метода многомерного шкалирования [10]. В результате множество суждений было представлено в двухмерном пространстве, оси которого соответствуют факторам, объясняющим различия в суждениях экспертов. Первый фактор характеризует степень участия художественной, эстетичеёкой компоненты в позиции эксперта. Второй фактор указывает 160.
на степень непосредственного участия и знакомства эксперта с практикой проведения конкурсов бального танца. Наибольшее значейие для дифференциации экспертов имеет первый из указанных факторов. Существенно, что визуальная группировка экспертов по этому фактору близка к группировке, полученной по алгоритму автоматической классификации. Таким образом, группа экспертов распадается на две подгруппы, поэтому в данном случае целесообразно сформировать две результирующие структуры, отражающие существование двух точек зрения. Для этого может быть избран способ совместного коллективного обсуждения экспертами своих структур с целью выработки единой согласованной структуры. Такое обсуждение проводилось в одной из выделенных по алгоритму «Объединение» подгрупп. В результате детального анализа аргументов экспертов и пересмотра ими начальных позиций была сформирована единая структура, в целом отражающая согласованную точку зрения экспертов данной подгруппы. В заключение отметим, что в данной работе даны общие представления об экспертизе, целью которой является формирование иерархических структур. Рассмотрен вопрос об оценке близостей (различий) между структурами разных экспертов с помощью ряда мер близости. Дальнейшая отработка подхода связана с решением других формальных и процедурных задач, в частности, с задачей получения единой результирующей структуры. Как показывают результаты эксперимента, экспертиза указанного вида может быть полезной в практических задачах формирования иерархических структур. Приложение Лемма 1. Всякая функция d (А, В), Ау В £ (?, удовлетворяющая условиям (2), (3), представима в виде (4). Доказательство. Для любых векторов А, В (А ^ В) из Q справедливо: Β = Α + Σ*<Ρί9 (Π.1) S С Г 161
Где либо 0<C.ol.<С 1 — ait либо— ai^ai<^0 и Σα* = 0, 1 = {г:а^Ь£). В самом деле, полагая bi — α< = αί и учитывая, что η η η η 2ai=2bi=ι» получим 2α*=2α*=2 (&ί —α»)=°· *=1 t^l ♦ £/ *=1 *=1 Покажем теперь, что *(Α,Α + Σ *<Ελ = Σ Ρ (01 «.· |· (Π. 2) При I /1 = 2 справедливость (П. 2) следует из условия (3). Предположим, что (П. 2) справедливо для всех векторов А, В> для которых в (П. 2) | /1 < к, и докажем ее в случае \1\ = к. Для этого построим некоторую «прямую» (кратчайший допустимый путь), соединяющую А и В. Пусть для определенности /= {1, ..., к) и minIa<| = aA;>0, min|aJ = |aM| = —aM>0. (П. 3) iei «i<o Рассмотрим вектор C = A~\-akEk — akEk_l. к—l Легко видеть, что C£Q, 5 = С-|-2 a^*> гДе α[· = αί при 1 ^i^ft — 2, ак_г = αΛ-1 -\- ак ^ 0 и выполнено [А> С, В\. Из предположения индукции имеем d(c, B)=Si»(oi«;i· •=1 Используя теперь условия (2), (3) и (П. 3) получаем d(A, B) = d(A, C) + d(C, В) = ч[р(к) + р(к-1)) + = 2>(*)ΚΙ· (Π.4) Если min | a. \ = —ak > 0, min | a. \ = ак_г ]> 0, учитывая, 162
что в этом случае | ак_х | = ак__г -f- α^, также получаем (П. 4). Из условия (3) следует, что d(A, A) = 0. Таким образом, d(A, β)=ΣΜ0ΚΙ==Σ/>(0Κ-Μ· η Лемма2. Функция d(A,2?) = 2 p(k)\ak — bh\ в классе Q удовлетворяет условиям (2), (3) и метрическим аксиомам: d{A, Я)>0, d{A, 4) = 0, d(A, B) = d(B, A), d(A, £)<d(4, C) + d(C, В). Доказательство. 1. Очевидно d(A, #)>0, d(A, B) = d{B9 А) и d(A, A) = 0. Если /?(/c)>0 (fc=l, tt), то при А^В, d(A, 5)>0, т. e. d(A, B) = 0 тогда и только тогда, когда А = В. 2. d(4, Β) = Σ Р(Щ**~Ьк\ = % p(k)\(ak-ck) + + (^^-δΛ)'Κ^ρ(Α:)(|αΛ —c&| + |cft —6fc|) = d(.4, С) + -f-d(C, В), т. е. выполнено неравенство треугольника. Равенство достигается тогда (и только тогда при />(&)> 0, когда (ак — ск)(ск — Ьк)^0, что эквивалентно неравенствам ак^ ^ск^Ьк либо йк^ск^Ьк (&=1, /ζ), т. е. условию [А, С, В). Таким образом d(A, B) = d(A, C) + d(C, В) тогда (и только тогда при р(к)^> 0, когда справедливо И, с, в]. 3. d[A, А + ЦЕк-В4)1= 2 p(/)|a,-ay| + p(fc) X ЛИТЕРАТУРА 1. Лопухин Μ. Μ. ПАТТЕРН — метод планирования и прогнозирования научных работ. М.: Советское радио, 1971· 2. Райхман Э. #., Азгалъдов Г. /\ Экспертные методы в оценке качества товаров. М.: Экономика, 1974. 3. Денисовский Г. М., Мацковский М. С, Методика нахождения эмпирических показателей сложных социальных явлений. — В кн.: Актуальные проблемы развития конкретных социаль*· ных исследований. М.: изд. МГУ, 1971, с. 92—110. 4. Лазарсфельд П. Методологические проблемы социологии. — В кн.: Социология сегодня. М.: Прогресс, 1965, с. 81—103. 5. Емельянов С. В., Костылева Н. Е., Матич Б. П., Озерной В. М., Зимоха В. М. Многокритериальная оценка локальных систем 163
управления технологическими процессами. М.: Институт проблем управления, 1974. 6. Миркин Б, Г. Проблема группового выбора. М.: Наука, 1974. 7. Bogart К. P. Preference structure I. Journal of Mathematical Sociology, vol. 3, 1973, p. 49—67. 8. Bogart K. P. Preference structure II. Siam Journal of Appl. Math., vol. 29, 1975, N 2, p. 254—262. 9. Аркадьев А. Г., Браверман Э. М. Обучение машины классификации объектов. М.: Наука, 1971. 10. Терехина А. Ю. Методы многомерного шкалирования и визуализации данных (обзор). — Автоматика и телемеханика, 1973, Ко 7, с. 80-94. Шмерлинг Д. С. О ПОСТРОЕНИИ МОДЕЛЕЙ ПАРНЫХ И МНОЖЕСТВЕННЫХ СРАВНЕНИЙ СО СВЯЗЯМИ В последнее время методы парных и тройных сравнений вызывают значительный интерес как в практическом, так и в теоретическом плане. Метод парных сравнений возник впервые, по-видимому, в работах Фехнера и был возрожден Терстоуном в серии статей 1927 г. Современное состояние предмета представлено в книге Дэвида [22], в его же обзоре [23], в обзоре Брэдли [16] и в [29]. На русском языке имеется обзор [И ] и послесловие Адлера и Шмерлинга к переводу упомянутой книги [22], см. также [7]. Предметом данной работы является изучение моделей парных и тройных сравнений со связями, т. е. таких моделей, где субъект может не только высказывать предпочтение на множестве объектов, но и объявлять некоторые объекты неразличимыми. 1. Модели парных сравнений Имеются объекты (стимулы) Ati i=l, . . .f t, которые сравниваются попарно одним или несколькими экспертами, причем каждый эксперт может сравнивать объекты 164
rtij раз (производить ряд единичных сравнений). Предположение об одинаковом числе единичных сравнений по каждой паре (А^ AJ), 1 ^ i < jf ^ t, незначительно уменьшает общность. В каждом единичном сравнении возможны следующие исходы эксперимента: Ai предпочитается A j (А£ -> Aj), A j предпочитается At(Aj-> A.)9 или объекты объявляются неразличимыми A{~Aj, (декларируется «связь» Ai9 AJ). Каждый из исходов считается случайным событием с вероятностями Ρ (Α{ -> -* А/)= π«/. Ρ (At~A,y=qtJ, πν+ «,4+g,y=i, 1 < t <j < t. Исходы сравнения любых различных пар (Α., Aj) и (Ак* Αι)> 1 ^ i <С 7 ^ *» 1^Α:<^Ζ^ί статистически независимы, так же, как и исходы различных единичных сравнений по одной и той же паре объектов. Объектам Α., ί= =1, . . ., t приписывается некая «ценность» или «полезность» V.. Пусть имеются случайные величины Yit ί = 1, . . ., t, реализации которых YJ, s= 1, . . ., £, s=f^i наблюдает эксперт (испытуемый). Именно при сравнении пары объектов A{Aj эксперт наблюдает пару случайных величин Υ{, Υ)-, i, / = 1, ..., t, iy^j, таким образом, имеется t выборок У», . . ., У % , У i , . . ·5 У t» ι== 1> .. .)*> где У i9 s = 1, .. . . .., t, s=^=i независимые, одинаково распределенные случайные величины1. При этом Y{=Vi-\-eJ, Ee{ = 0, s{ может иметь то или иное распределение. Существует два общих подхода к объяснению механизма образования связей. Первый из них (пороговый) предпЛагает существование некоторой величины (порога) \j такой, что *.·/=P(Y{-Yj> Άα) = P(At^ A,), *Л = Р{¥1-Г',<-Ц{/) = Р{А,+-А,), дч=Р(\У{-У$\<ъ,)=Р{А,~А,). J (i) Второй подход (вероятностный) постулирует существование вероятностей неразличения в парных сравнениях giy, не связанных с пороговыми параметрами. 1 Объекты Aiy A j сравниваются экспертами n{j раз (ntj ^ 0). 165
Развитие моделей со связями в рамках того и другого подхода ведется как обобщение общего класса моделей без связей, названных «линейными» в книге [22] или «типа Терстоуна» в [371. Рассмотрим их подробнее. Для этих моделей вероятность предпочтения ^{~Ρ(Υ{ — —Υ) > 0) может быть выражена при i, jf—1, . , ., U i^j как монотонная функция Н (Ff—VJ), возрастаю* щая от Я (-оо)=0 до Я (+оо)=1 и Я (-я)=1-Я (х), т, е. Я (х)— функция распределения симметрично рас* пределенной относительно нуля случайной величины. Подробнее об этом см. [22]. В дальнейшем будет развиваться модель Брэдли— Терри (1952—1953), для которой 00 - ^. = Я(^-7у) = 4 J sech\yl2)dy, φ функция распределения ztJ- = Y{ — Υ*, равна (In π{ = V., /,</(г) = [1 +e-CMin«i-inv)]]-1f (3) где t —-oo<z<-foo, π.>0, i=l,..M t, 2π.· = 1 имеет логистическое распределение2 с параметром расположения V. — Vj = In π, — In πj. Из (3) легко получить Р(Г/-У^>0) = 1С|/=1С,/(1С#+1С/). (4) Параметры π. >Of i= 1, ..., t интерпретируются в модели Льюса как вероятности выбора объекта At как наиболее предпочтительного из совокупности объектов Л1э ..., Αέ. Первое из обобщений модели Брэдли—Терри («пороговое») было предпринято Рао и Купером [32]. Их модель 2 Плотность случайной величины zu есть Uj (*) = — β1ηπ*~1η7νχ 166
получается как частный случай (I) при η{^ = 1ηθ^ (общий параметр порога), в котором (5) для ί=^\/, г, /= 1, ...Л (Рао и Куппер рассматривали случай θ^. = θ). Из (5) при η = 0 получается модель Брэдли— Терри (БТ) (4). Второе обобщение БТ модели («вероятностное») было предложено Дэвидсоном [24], который использовал следствие из аксиомы выбора Льюса[28]. *ijfrji=*J?j> U 1=!».. о t, t¥*i (6) и постулировал, что g4/ = v^/cy<, f, /=1· —, *· Ιφ], (7) где ν ^ 0 есть константа пропорциональности· Параметр - интерпретируется как коэффициент различения. Формула (7) является геометрическим средним: применение его обосновывается так. Ценности V4 = lnni9i=l9 ..., t могут быть представлены на линейной шкале в БТ модели. Если в качестве вероятностей неразличения объектов Ai9 Ajy брать среднее арифметическое с точностью до константы из Ιηπ^, Ιηπ^, q4j =z с (In π^-\-In πj{)/2 с произвольной постоянной с; έ, ; = = 1, ..., t9 i=^=j, то мы получим (7). Из (6), (7) и условия получается πί/ = **/(*< + */ + v Vvv)» (8) ff</=W^/(*<+«/+W*vv). *./=!, ...t,t*£j (9) При v = 0 из (9) получается (4). Заметим, что в (5) и (9) вероятность неразличения объектов (связи) максимальна1 при njnj и монотонно убывает с удалением π$./π, от 1. 167
Томпсон и Синх [36] дали психофизическое обоснованно моделей Терстоуна—Мостеллера [22] и БТ-модели, исходя из нейроквантовой теории Стивенса [35], некоторых дополнительных предположений и предельных теорем теории вероятностей. Развивая такой подход, Бивер и Рао [13] обосновали модель (5), а Синх и Гупта [34] ввели новую модель πο·=π</Κ+ */ + %)> (Ю) 9,7 = *,//(*, + «у + τ,/)' *· 7 = 1,...,*, i*£U где τ^.^0 параметр неразличения объектов А{ и Aj. Модель (10) имеет t — 1 независимых параметров πν ..., π{_λ и Ι ^ I независимых параметров τ^, 1 ^ i < / ^ t. Различение и неразличение объектов можно поставить в зависимость от параметров «силы» объектов те1э ..., π,, в частности от π., кj. Действуя по формальной аналогии с Дэвидсоном, (7), сделаем следующее предположение о пропорциональности qtj обобщенному среднему по Колмогорову [3] вероятностей π^, π^ ίν = «φ·,[{ΨΚ/) + Φ(«/<)}/2], i¥*J,t, 7 = 1 ,..·.«, (И) где ψ ( · ) — монотонно возрастающая функция, выражающая3 зависимость ощущения субъекта ψ(#) от раздражителя χ (обобщение закона психофизики Вебера, подробнее см. [2]). Тем самым предполагается, что вероятность превосходства π.j рассматривается как раздражитель, а субъект воспринимает вероятность неразличения объектов как среднее из ощущения вероятностей tz.j, π^4·. Предложение 1. Пусть выполняется (6), (8), (И), ψ (#) = #, In χ, .... Тогда вероятности π^., q.j представлены 4 в табл. 1. Доказательство приведем для модели 1. В (8) подставим 7Zji = 7ZiJ^t' ^/ = αΚ· + π^·)/2» откуда получается g.y = = α(α-|~2ρ и xf. = α (π,-f-π^)/2. Для моделей 2—4 доказательство проводится аналогично. 8 Таким образом или ψ (π,-y) < ψ (qtj) < ψ (π^), или ψ (%ji) < < Φ(^·>) < Φ(πν)· 4 Легко видеть, что модели 1—4 являются обобщением модели Брэдли—Терри, что вытекает из использования [6], [7], [10], [11J для получения моделей 1—4. При а=0 получаем БТ-модель. 168
Таблица 1 модели 1 2 3 4 Φ (X) %ij=zP(Ai->Aj) ,1 Χ In χ χ* Χ'1 π* , (ΐ+ !)(*,+IV) πί (π* + π/ + α ^πίπ/) π# (π* + π/ + α ^π*? + π})_1 ί -"'■■ «<+*у+2* ("i+ny)"^^ 4<у = Р(Л<~Лу) α/(α + 2) 2 (πΛπ^ (π,- -J- Тсу + α у/k^Kj)"1 + αν^(π2+π2)/2)71 2a%i%j (πι+π^·)-1 πί+'π>+2απίπ/(π^)_1 Опишем одно свойство моделей парных сравнений. Определение. Функция ί(ρ, ρ'): (О, 1)0(0, *)-»(0f 1), *(Pij>Pj*) = Pi» 1<*<}<*> !</<*<^ !<*<*<*> называется тройной функцией (Triple function). В работе [37] тройные функции моделей без связанных рангов играют основную роль в изучении свойств этих моделей. Для модели Брэдли—Терри (см. [37]) πίλ. = π^π/Λ χ X i*i/V* + KjFkjT1 ··· (^)· Для модели 1 табл. 1 имеет место следующее свойство. Пусть %.j = P (А.-+ Aj) для этой модели, 1<л</<^. Тогда %ik — cTti3Tzjk. [п^%/к-\- Действительно, %г8=съг8 при c = (l +у) , тогда подставляя в (A) irl7=c~X7, nJk = c-1%jk, nik = c~l7tik9 получаем требуемое. Случай с = 1 (а = 0) дает БТ-модель как частный случай. 2. Модели тройных сравнений Метод тройных сравнений был развит как обобщение метода парных сравнений. При его использовании из всех сравниваемых объектов выбираются поочередно все возможные тройки. Каждая тройка Aif A^ Ак ранжируется субъектами (экспертами) niJk раз, nijk^0y либо имеется nijk экспертов для тройки Ai9 Aj, Ak. В дальнейшем мы будем рассматривать случай n.jk^=.n, i, /\ k=if ..., t, 169
Модели тройных сравнений рассматривались в [19, 30, 31]. При этом делались предположения о независимости ранжировок как различных троек объектов (Α., Aj, Ak), (Alt Aq, А8), 1 < * < ; < А; < *, 1 < Ζ < g < < s <^ t, так и повторных ранжирований одной и той же тройки вне зависимости от того, производятся ли ранжирования различными или одним и тем же экспертом. Модели тройных сравнений изучались в [18], а также Блоком и Маршаком, (см. [22]). Модель применялась Парком и Рэем [16]. Однако хорошо известно, что эксперты могут затрудняться в ранжировании объектов, в планировании эксперимента также может встречаться неразличение объектов — связанные ранги могут встречаться при ранжировании объектов с одинаковой числовой характеристикой («ценностью», «полезностью» и т. п.). Исходя из этих соображений, Бивер и Рао [13], используя уже упоминаемый нейроквантовый подход Стивенса, развитый в [35], получили модель тройных сравнений для случая связанных рангов, при построении которой использовался пороговый механизм образования связей. Работа [14] посвящена подробному рассмотрению этой модели и ее модификаций. Рассмотрим модель тройных сравнений Брэдли— Терри [19]. При построении модели предполагается существование неотрицательных параметров π^, ί=1, . . ., t («вероятностей выбора» Α., i=l, . . ., t из совокупности t Av ..., At), относящихся к объекту Ai9 таких, что 2π* = ^· Предполагается, что5 nUh = P(Ai->At-+Ak) = 7—r—*'*' , ,. (12) Если обозначить ранг6 А{ через г., то к^к=Р(г{<^ <]γ·<^γλ) при ранжировании объектов Ai9 Ар Ак. Модель (12) имеет то свойство, что P(rt<r,)=P(rt<r,\rk=l). (13) 6 Выражение [12] есть модель, полученная как результат применения аксиомы и гипотезы Льюса [28 J. Обе модели введены независимо. 6 В совокупности Alt . . ., At. 170
В модели Пендерграсса—Брэдли [30J п ±1 (14) Р(г4<гу|г4 = 3) = Р(г4<гу|гл=1) = = *i/(*< + */)· (15) Желательно иметь модель тройных сравнений, для которой все 4 вероятности P(ri<^rj\rk=l), Ρ (r{ <[ Гу | гк = 2), Р(г,.<Гу|гл = 3), P^i^rj) выражались так же, как и в модели Брэдли—Терри (4), т. е. равнялись бы njfa -f- π^). Однако Пендерграсс [31] показя», что это невозможно. В данной работе предлагается обобщение модели (12) на случай неразличения объектов (связанных рангов). Введем обозначения7: π(ν)* = Р (Л< ~Aj-+ А *). *«j*) = p(Ai г* Л j ~ Ак), Определим параметры неразличения объектов, интерпретируемые так: Х;у — параметр наразличения объектов8 Ai9 Aj9 xiJk — параметр события (А{~ Aj~ Ak). Обозначим b4jk = = π* + π/ + π* + *.·/ + tik -f x/k + xiJk. Предположим, что отношение «неразличимости» объектов есть отношение эквивалентности в каждой отдельной тройке. Тогда, используя гипотезу Льюса [28] об упорядочении объектов, введем в рассмотрение следующую модель (см. рис. 1). (16) πΓ rf* К/а π* + π/ + ν для всех перестановок г, /, s. π(ί/)* = τ<//&</*» *(/кН — х4к1Ьо& 7Z(ik)j^=:fZiklbijk' (17) 1 Запись Α ι ~~Aj -> Ак означает, что объекты Ai% Aj неразличимы в единичном эксперименте ранжирования, например, и они оба предпочитаются Ак. Будем предполагать, что τ^· одинаковый параметр для любой тройки, в которую входят Ait A j. 8 Т. е. отношение ^-рефлексивно, симметрично и транзитивно. 171
λ у / / У У У л- ; У / κι κι к Рис. 1. Возможные исходы эксперимента по ранжированию На графе ориентированные ребра изображают предпочтения, а неориентированные (дуги) — неразличение объектов (—связь; -*■ предпочтение) ™i(jk) «< V* *k(ij) bijk Kj + πΛ + Ук δ*/* π< + *y + τ*7 4* τ*7* У(*&) bijk %i -f %k + τίλ. 4»yfc)" D<yfc (18) (19) Выражениями (16)—(19) задаются вероятности всех возможных при сделанных предположениях исходов ранжирования тройки объектов (Ai9 A ., Ак)9 сумма которых, как легко проверить, равна 1. Учитывая, что тройки не упорядочены, отметим, что τ,7 = τ/§., 1 < i < / < t, xiJk — zkiJ = = bki = zkji = tikj = τα» * 1 <*</<*< f. Перечисленные выше параметры вместе с πν i= 1, .. ., t и условием Σπ^ = 1 составляют t — ^ 4~ ( о J ~f" ( q ) параметров. При доказательстве предложения 1 для парных сравнений для моделей 1—4 из выражения обобщенного среднего π.ρ τζΓι для qij — P{Ai — AJ) (И) параметр х,у = = τ(α, π., π J) получался в виде обобщенного среднего π^, π^ (с точностью до константы умножения): τ„:=α<|Γ·<Κ>(π,)+ψ(*,)1/2}. (20) 172
Выражение (20) дает интерпретацию ψ(·) как (монотонной) функции, выражающей зависимость ощущения субъекта ψ(π^) от раздражителя π; (обобщение закона Вебера психофизики, см. [35, 2]). Таким образом, параметр π. — вероятность выбора объекта А. из совокупности Ах, . . ., At— интерпретируется как величина раздражителя. Аналогично (20), ^=«Ф-1 ЦФК) + Ф(^) + Ψ КП/3] (21) так же, как и для парных сравнений, можно рассматривать частные случаи ψ (χ) = #, In x, ... . Ограничимся Щ> (#) = х9 заметим, что ψ (χ) = In x дало бы нам обобщение модели Дэвидсона9 [24). Предложение 2. При выполнении (20), (21) вероятности различных исходов равны За кг π. <(/*> (2 + а)(3 + 4а) π, + «у + ** _ За ** + яу (22) (23) •4ij)k — 2 (3 + 4а) ^ + «у + ^ *«/*, = «/(3 + 4а) (24) (25) π. 'У* (2 + а) (3 + 4а) («, + теу + я») (*, + π*) для всех 1 ^ i <)? <С к <J £. Все остальные вероятности (всего имеется 13 исходов) получаются аналогично. Доказательство очевидно. Заметим, что все вероятности являются однородными функциями порядка 0. 3. Множественные сравнения без связанных рангов Выше рассматривались модели для тройных сравнений. Аналогично можно рассматривать случай ранжирования всех Α-подмножеств (наборов по к объектов из t объектов, k^t). Опишем постановку задачи. Имеются объекты Ai9 ί = 1, .. ., t. Группе из η субъектов (экспертов) предъявит ляются поочередно все I . I наборы Αίχ, ..., At-2, ..., Aik. Каждый из наборов ранжируется таким образом η раз. 9 Этот случай по существу рассматривался в [14]. 173
Обозначим ранжировку к объектов R = (R(i1)1 ф.., R(ik))9 где R(ij) — ранг объекта Atj в последовательности Aii9... •.., Ai]c. Ранжирование одним экспертом Л<р ..., Aijc в порядке R рассматривается как случайное событие, независимо от исхода ранжирования как этого, так и любого другого набора любым другим экспертом. Кроме того, ранжирования одним экспертом двух множеств объектов, содержащих общие подмножества (например, А19 А2, ...,Ак_2, А0 А/, 4р..., Ак_2, As, Aq содержат общее подмножество Av ... ...,Ак_2), предполагаются независимыми событиями. Обозначим вероятность P(R(il)<^ ... < R (ik)) = π^ ... ifc. Рассмотрим следующую задачу. Пусть wit _ i]c — число экспертов, давших ранжирование (R(^)< ... <R(ik))z=R(iv Ч> · · -j h)> 2l^*i ...ik = n> гДе СУММ& берется по всем к ! перестановкам чисел il9 . .., ik. Требуется найти вектор (количественных «весов») π = (π1, .. ., πέ), наиболее близких в некотором смысле к набору частот ранжирований {wit tttijc, (h> · · ·» h)£ (1» · · ·» *}}· Рассмотрим обобщение модели (12) Брэдли—Терри. Пусть R(i19 ..., ir) = (iv ..., ik), тогда P(iv ..Μί*) = πίι...,4 = Π{«<ι|Σ|«ί·}. (26) Это выражение является формализацией гипотезы Ль юса [98J10 — об упорядочении стимулов (объектов) по предпочтению [1]. Для к ]> 3 модель (26) не изучена из-за сложности преобразований. Заметим, однако, что случай & = £ дает несложную модель, для которой ниже будет предложена методика получения оценок π,., έ = 1, ...,£ по наблюденным частотам {и^1#..*л}· 4. Оценивание в моделях множественных сравнений Для оценивания параметров моделей, таких, как вероятности выбора объектов 1Г1Э ..., πύ, параметров неразличения eiy, 1*0'</Ό в модели (1), α в (10), (И) и Τν д., можно применить метод максимального правдоподобия. Рассмотрим общий случай ранжирования всех элементов под- 10 См. также обзор [10]. 174
множеств из к объектов Αίχ, ..., AiJc. Пусть, кроме того, имеется s возможных исходов с неразличением некоторых из к объектов. Обозначим w%%...it — число случаев, когда R(ix)<l ... <^R(ik), w? . число случаев /-го типа неразличения объектов A'{lt ..., Aik9 / = 1, ..., s, Тогда функция максимального правдоподобия равна11 £(π, θ)= Π " -*». x „ Π «v.. * <П <. ..«»> χ, Π <ν··,;4·)Π(<...*(·Μ...«* . (27) где θ — вектор параметров неразличения объектов, π{ { — вероятность /-го типа неразличения. Первый множитель в квадратных скобках не зависит от оцениваемых пара· метров и поэтому его можно не учитывать в дальнейшем. Кроме того, вероятности ««·,... *Л являются однородными функциями порядка ноль от параметров πν ..., π^, поэтому и L (π, θ) однородная функция порядка ноль. Задача поиска оценок максимального правдоподобия (ΟΜΠ) π.=ρ{1 i = = 1, ..., t9 есть задача максимизации Ζ/(π, θ) по π, θ при условии Σπ|=1, т. е. задача на условный экстремум. Однако Ζ/(απ, θ) = £(π, θ), где απ = (απ1? ..., απ^). Приведенное выше условие есть условие нормировки, т. е. умножения на константу, оно таким образом не меняет L (π, θ), следовательно, вместо задачи на условный экстремум можно решать задачу на безусловный экстремум, а затем нормировать полученные π^, ί = 1, ..., t так, чтобы izi = π|./Σπ0 i = l, ..., t. Таким образом, мы имеем задачу Ζ,(π, θ)-* max , (28) {πΕ, ..., ic/, θ} которая, как обычно12, заменяется на задачу решения уравнений правдоподобия 11 {ij, . . ., ik} означает, что произведение берется по всем упорядочениям чисел {in i2l . . ., *Ά}. 12 См, [8J, § 5е, 175
dlogLldn4 = 0, ί=1 ί 29 3iogL/aey=o, 7 = 1, ...9m, ( где т — число параметров неразличения объектов. Существование и единственность ΟΜΠ π, θ для случая парных сравнений обеспечивается при слабых ограничениях на матрицу \η4^=Ν, U 7= 1, ..., t и матрицу Г = ||^у||, ί, /=1, ..., ί, где t.j число случаев ^неразличения [24]. Для случая й>3 можно использовать для обеспечения существования и единственности оценок максимального правдоподобия условия Сэвиджа [33] или Дэроча и Рэтк- лифа [21]. Приведем уравнения максимального правдоподобия для введенных выше моделей, используя [27]. а) Пороговая модель (5) (обобщение модели Рао—Купера). Вектор оцениваемых параметров равен (π, 6) = (^, ..., π,, θ12, θ13, ..., 6Wf t), состоит из (t—l)4"(o) компонент, так как θ^. = θ^., ί, / = 1, ..., f, i=£j9 Σπ,· = 1. Обозначим w.= 2 w*p м^ = 2 тш причем ^ij + wji + fij = nf (f — i)n — wi = wi + *o гДе h = — Σ tij· Понятно, что w. — число случаев, когда А4-*Ар /=1, ..., t, t. — число случаев Αζ~Α^ j = = 1, ...>t. Используя (29), получим уравнения для оценок максимального правдоподобия pt параметров π,., i = 1, .. ., t jPi + Pj) (30) В,· у —l/n — Wji га — u\-j 176
b) Модель 1 табл. 1. t t t Обозфчим Т= 2 fip w = 2h;. = 2 2 wa* ά — оценка максимального правдоподобия для параметра а. Тогда логарифм функции правдоподобия lnL(a, π) = »GH 1η2 + Γ1ηα — — η „ In '(α + 2) + 2Η7·1ηπ<"~ - Σ К-, + «^)И*. + */)· (31«) Из (29) уравнения максимального правдоподобия для .7 + "V< Pi = u>i Σ Pi + Ρ/ ί=1 ί, (31Ь) & = 2Tlw. Заметим, что оценка максимального правдоподобия вероятности д.. = Р(А.~А;) равна qiJ= Tl(w + T)= Tjn ^ по инвариантности таких оценок [4], откуда видно, что q.j есть частота исходов Ai ~ Aj среди всех экспериментов по сравнению А. с Aj. Кроме того, обратим внимание на то, что для модели 1 табл. 1 без связей (т. е. для модели Брэдли— Терри—Льюса, [22], pt = wJ 2 Щ/Кр* + рА, гДе IU—ι,φί I J m.j — число сравнений А{, Aj. Для моделей 2—4 табл. 1 уравнения максимального правдоподобия получаются аналогично. с) Модель (22)—(25) тройных сравнений. Покажем более подробно выкладки. Будем обозначать буквой w с индексами внизу частоты исходов, представленных индексами. Например, w(ij)k (скобки в индексах — неразличимость объектов Ait Aj) — частота исхода А{ — Aj-^4 и τ· Π· Тогда из (22)—(25) и (27) представим L в виде /ν (α, π, ш) = ф(и?)<р(а, π, w). Для иолучения оценок ма- 177
ем числе ксимального правдоподобия надо максимизировать φ (α, π, w). Обозначим <gl = wsQi + и>.„ + wiet + wl4 -f w8(qn, </* = Σ Wijk + Wiijk) + W'fcCiy, + */(«>» где сумма берется по всем 3 ! перестановкам г, /, fe, ®ijk = wHJ)k + «*(«)/ + ">(,·*)* + ">«/*> + W,(jby) + Заметим, что m(t) — отношение общего числа членов про- изведений JJ для L (α, π, шУчисло параметров, т (£)= = 3i3jjt = (t—l)(t — 2)/2. Тогда при п — общ. ранжирований Л^, Ajy Ak ]ηφ(α, π, ц;)= — η In (3 -f- 4α) -f- 2 ^ο*1ηα — - Σ <Πη(2 + α)+2>;ΐηπ,- — 2 (*—Μ7(.ν*))Ιη(π<+π/+π*)— Σ *<1η(π +π,), где w°. = %w+w сумма по :-всем l^jOO^i, g = t, г = / или g = /, r = i, !<*</<*· (32a) Обозначим # = Σ ®ijk> w°= Σ <,·*· Тогда из (29) ^1 Pi + Pi + Pg "^" 2l Pi + Pq i = l,. ..,f. d) Модель множественных сравнений (26). 178
Выпишем функцию правдоподобия (с точностью дО множителя, не зависящего от оцениваемых параметров) для случая £=313. L (π) ~ (π, -f π2 + π3Γ [π'.π^.(π, + *j-am χ Χ(πι + π3Ριΐ3ΐ (π2 + *зГ*'1231]> где sirapj = 2S»7*» сУмма берется по всем таким наборам i/&, в которых α или β на 2-м или 3-м месте, α, β£ {έ, /, Α:}, se = Σ **./*> sijk — wijk сУмма берется по всем таким наборам ijk, в которых α на 1-м или 2-м месте. Тогда уравнения максимального правдоподобия πΓ Pr = sr\ ", + У -^Г, r=l, 2, 3. ^Г rPl + P2 + P3~ ^J Лг + Рд (33) Будем обозначать я*,...[»>]...^ сумму 2S»\...»> по всем таким ?Ί ... г , где на r-м месте стоит 2Г, Sr = Slrljkl l S4lrVel ~~Г S4jtrVc> 5»·/Γαβ]—сумма 25*ш п0 всем Ο'Λί, где & = α, Ζ = β или Λ = β, Ζ = α. Для случая ί = 4 "', r=l,...,4. (34) ■ ^ sijlrl] + Ζ Pr + P/ Для произвольного £ *a, *4> ...» *г£г Pr + · · · + Pt 4, »». ...» *>^ + Σ *h...4-M-x<i\liPr+/>,,)} (35) 13 Этот случай рассматривался в отчете Брэдли—Терри [19], как указано в [30]. 179
Предложенная методика оценивания может использоваться наряду с методикой, предложенной в работе Тюрина, Василевича и Андруковича [9], где приравниваются частоты и вероятности и решается система t линейных уравнений относительно оценок. Решение уравнений максимального правдоподобия во всех описанных выше случаях можно искать с помощью последовательных приближений, например, для (31Ь) можно использовать процедуру *!"=»./( 2 тоМ· i=1 '· (3β> где p[f) — приближенное значение р. на /-м шаге. 5. Некоторые свойства оценок максимального правдоподобия a) Инвариантность упорядочения объектов. Определение 1. Ранжировкой объектов А„ i = l, . . ., t по количественному признаку 14 / (А{) называется такая ранжировка R (А19 . . ., At)=(R (Аг), . . ., R {At))— = (i?i, . . ., Rt), что из / (А.) > / (Αβ следует R. < R., 1 < i < }f <Ξ t- Для модели 1 табл. 1 имеет место. Предложение 3. Пусть t.j—c, тогда ранжировка объектов А4, i=l, . . ., t по / {A^=wt совпадает с ранжировкой A. ί=ί, . . ., t по оценкам максимального правдоподобия/' (Аг)=р.. Доказательство прямо следует из результата Форда [27]. b) Асимптотическая нормальность оценок максимального правдоподобия. Обозначим N = 2 ги — п I о ) > гДе r*j — общее число сравнений А0 Aj, тогда для модели 1 табл. 1 имеет место Предложение 4. Вектор T = (V7V(d-a), yjN(pl-^)i...iyjN(pt_l-^_l)) распределен асимптотически при iV" -^ оо нормально со средним 2?γ=0 и матрицей ковариации Σ=/_1(α, π), 14 Т. е. / (·) числовая функция. 180
/(·.«) = £ ν [(^)С-^)] ''<«> / у „=!/;, wi=14(^)(^r)]|. ί,/=1, ...,t— 1, т. е. 7 (с, π) — матрица информации Фишера, причем *[(т)>»(1){<1-е)(е+'-(1-^- 2»Ы(1-е) α (α+ 2) ' (а + 2); —i>(i-t)+4-]C 2 (-«+-,)-'- (37) (38) 9(n,t) = n[(t-if-(t-2)]-2(n-i). + &</ — 2&« — fy + &ii + Cij — C.7 — CtJ + C(t> i, /=l...,i-l, i^/, (39) 481
где atJ = с2« (2 [К+ **)(«, + ОГ1 - (» - 1Ж + π/Η. сумма берется по всем к, s=l,.. .,t таким, что одновременно k^=i, s=f^j, Ь;, = пс\пс 2 Σ IK + */)(«/ + π*)]_1 + c<y = гас f nc 2 Σ [Κ+ **)(*/+ «·)Γ4- I λ=ι, #<, ^ «=ι, =£.·, у (π* + «у) · ^ Γ ^ Доказательство. Асимптотическая нормальность γ — — Λτ(0, /_1(α, π)) следует из [17]. См. также [4], § 5.5, с. 319—320. Вычислим /(α, π). Из (31) следует 1η£(α,π)=| к)* — Т 1п2 + Г1по —»Ljln(a + 2)-}- + 2>«lnicf. + ii>,ln( 1 — Ζ *<! + •=1 \ t=l / + Σ Ky + wji)In К 4- «у) — откуда Λ=1, φί Λ=1, φί Получаем Ε (иу*у) = 2 Ε {Wikwj*) + E КЛ) = = η* Σ *·**> + * (η — !) πνπ/ί»где СУММЫ берутся по &, s = = 1, ...,£, Л;τ4*, ^τ4/ и одновременно &=^/ и 5^i. Тогда cov(m\·, Wj) = — ηκ^π^. 182
Аналогично Е (tJtj) = η2 2 qikqj8 + nqfJ [1 -f (n — «>v(fif *,) = ng</(l —g4y). Из (40) следует W^Wf Щ*Ч "»" ^J Ki (Kt + Kk) KtKj *~~ A=l, φί 2u>t(wht + u>th) A=l, φΐ (π<+πΛ)π· "Γ Λ=ι, ^* ι / V u>ih + u>ki\ \ 8=1, φί J , Vi (^л* + u>th) *»j * 2λ (π, + πΛ) π - A=l, =£* V1 (u>kt + и>м) *^ Χ (πΑ + π/) π, Α=ι, =£* Ι Δ Щ + Щ ) [ Δ . π· + π# Ι ^ Λ *< + ** I f \A=1,=£/ / откуда и получается требуемый результат.
6. Проверка адекватности (пригодности) модели Для всех моделей множественных сравнений весьма важным является методика проверки адекватности модели наблюденным частотам wix _ ifc, 1 ^ ix <] ... <С h ^ t· Такие методики могут строиться по-разному, некоторое обсуждение этого вопроса см. в [9]. Методика проверки БТ модели разработана ее авторами в 1952— 1955 гг. и обсуждается в [22], методика проверки модели Льюса обсуждается в [1 ]. Распространим методику Брэдли и Терри на рассмотренные выше модели. а) Случай парных сравнений со связями. Введем обозначения и рассмотрим модель 1 табл. 1. Пусть р (i\ i, 7")·— = V' Ρ ti\i, /) = теу<. Ρ (0|ί, /)=У,у, h 7=1, · · -, t, гфь Наиболее общая модель парных сравнений никак не специфицирует вероятности (не выражает их через меньшее число параметров), которые лишь удовлетворяют условию P(t\U 1)+P(j\i, i)+P(0\i, f)-=U *. 7=1, · · ·, t, i=£j. Оценками максимального правдоподобия для р (k\i, /), k=Q, iy j являются относительные частоты/ (k\i, ])1щ^ fc==0, Ι, /, где / (i\i, j)==wiJ9 f (j\i, j)=*wJit f (0|i, 7')=47, ι, /==i, . · ., r. Если рассматривать адекватность как согласие между наблюдаемыми частотами f (k\i, j) и оценками максимального правдоподобия вероятностей р (k\i, ;), то для вышеописанной модели (р (&|г, /) функции оценок р4), согласие будет точным, так как оценки максимального правдоподобия совпадают с наблюдаемыми частотами. Для специальной модели 1 табл. 1 обозначим ρ (k\i9 ;'), k=0, i, У вероятности в модели: ρ (i\i, ή=2π.ΐ(π.-\-πβ (2+α), ρ (j\i, /)=2π /(π4+π/) (2+α); ρ (0|1, /)=α/(α+2); ρ (к| ί, 7"), к=0, i, j их оценки максимального правдоподобия 15. Проверка адекватности модели состоит в проверке нулевой гипотезы Н0 против альтернативной Нг. Критерий для проверки носит название критерия пригодности (appropriateness) или согласия. В роли такого критерия можно рассматривать критерий отношения правдоподобия, обладающий различными привлекательными 15 Эти оценки получаются при замене π$ на их оценки максимального правдоподобия р;. 184
со said ее Η « се * II Ε* <5Я * — 09 Сб φ CO «Η W в s «. ι иЧу/J ii «5· ^ iu ^й * , о ** II *l >ϋ · w S g.8 11 x • "л ^ x II Ю g S S s н ' К φ ■ 5 β Он» ' So I « . φ ^Рн ^* α lb ίΧΓ 'ft, * 6 я S со * Η . βί о P3vo «Η ·»*-. · "^ со ^ J * μ ί S ° Он ^φ φ И Β о л S * я 5 О Оч~ £11 i ι ι Htf 3 ν V : : V v~ ccj ,έ| ° Oh as и Ο a R Η Ο ее в и V V Г. : V V £ и § о о ° и я φ g Он φ о о И о а н В и о ω н φ g s й и « О й со м An ^ о Q
свойствами (см. [12]): см. табл. 2; где / (к \ i9 j) = n^p (к \ i, j) — оценки ожидаемых частот по P(k\i, j). Статистика U при выполнении гипотезы Н0 и условий регулярности16 имеет асимптотическое при N— 2 rcfy->oo центральное у2 — распре- деление с числом степеней свободы f = r — г\ где г — размерность пространства параметров 2 = (π^, q.j, 1 ^г<0^*}> rf — размерность подпространства ω' = {π., α, i = 1,..., £}, Λ = sup L (π, α) [ sup L (π, q)]~l9 В данном случае статистика £/" асимптотически эквивалентна X2, (см. [6] и табл. 2), обычно используемой статистике согласия. б) Случай тройных сравнений со связями рассматривается аналогично. 7. Экспериментальное сравнение моделей Произведено сравнение моделей Рао и Куппера («пороговая» модель), Дэвидсона («вероятностная» модель) и «вероятностной» модели 1 табл. 1. Использовались данные Флекенштейн и др. [26]. Приведем матрицы |ю.Д |*<Д i> /=1, ..., t Таблица 4 (|| t{j ||) Таблица \ 1 2 3 4 5 Wj 1 X 8 21 4 13 46 2 17 X 18 7 16 58 МП 3 3 8 X 1 10 22 Wij 4 24 17 26 X 23 90 1) 5 13 8 16 4 X 41 Wi 57 41 31 16 62 257 •\ 1 2 3 4 5 1 X 5 6 2 4 2 5 X 4 6 6 3 6 4 X 3 4 4 2 6 3 X 3 5 4 6 4 3 X и 17 21 17 14 17 2= Σ "ν=257· 2 *ί=43„ /=ί(ί_2)=53=15 16 Условия проверялись для статистики χ2, см. [5], § 30.3. 186
Таблица 5 Модель Рао, Куппера Дэвидсона 1 из табл. 1 Простейшая модель Оценка параметров неразличения § = 1.452 v= 0.404 а=0.335 (} = 0.143) а = 0.335 Оценки параметров Pi 0.196 0.183 0.178 0.221 Vl 0.124 0.110 0.121 0.165 ν* 0.410 0.454 0.408 0.314 Pi 0.047 0.034 0.041 0.060 Pi 0.223 0.219 0.231 0.240 и 10.70 13.96 22.4 Xs 16.53 10.80 14.68 19,3 В последней строке приведены оценки по «суммам в строках» Σ«ν(«ν+ *})-*' гдеш.= 2 wij> wi= Σ wjr Исходя из этих оценок и модели 1 табл. 1, вычислены статистики U и X2. Табличные значений χ2 с 15 степенями свободы таковы: Таблица 6 з£ а 10.307 0.80 14.339 0.50 17.332 0.30 22.307 0.10 Отсюда видно, что на уровне значимости а=0.О5 ни одна из моделей не отвергается; здесь вполне пригодны модели Дэвидсона, Рао—Куппера и модель 1 табл. 1, которая немного хуже первой, но лучше второй, однако оценивание по этой модели значительно проще. Замечание 1. Предельное распределение X2 и отношения правдоподобия ?7=—2 log Л для парных сравнений со связями. В работе используется аппроксимация распределения (при N -> оо и нулевой гипотезе) указанных выше 187
статистик χ2 — распределением с соответствующим числом степеней свободы. Для использования этой аппроксимации необходимо проверить условия регулярности. Автором эта проверка выполнена для критерия X2 и к=217. Условия регулярности приведены, например, в [5], § 30. 3, с. 462-463. Замечание 2. Число степеней свободы, приведенное в табл. 2, относится к случаю, когда параметры оцениваются по сгруппированным данным (о способе группировки см. [9]). Если же оценки максимального правдоподобия получены непосредственно из выборки, то число степеней свободы колеблется между г и г—г'. Автор благодарит Б. П. Мутонова, А. И. Орлова и Ю. Н. Тюрина Ι20]. ЛИТЕРАТУРА 1. Аткинсон Р., Бауэр Г., Кротерс Э. Введение в математическую теорию обучения. М.: Мир, 1968. 2. Бардин К. В. Проблема порогов чувствительности и психофизические методы. М.: Наука, 1976. 3. Джини К. Средние величины. М.: Статистика, 1970. 4. Закс Ш. Теория статистических выводов. М.: Мир, 1975. 5. Крамер Г. Математические методы в статистике.М.: Мир, 1975. 6. Кульбак С. Теория информации и статистика. М.: Наука, 1967. 7. ФрумкиНа Р. М., Василевич А. #., Андрукович П. Ф., Герга- нов Е. Н. Прогноз в речевой деятельности. М.: Наука, 1974. 8. Рао С. Р. Линейные статистические методы и их применение. М.: Наука, 1968. 9. Тюрин Ю. Я., Василевич А. П., Андрукович Я. Ф. Статистические модели ранжирования. — В кн.: Статистические методы анализа экспертных оценок. Ученые записки по статистике, т. 29. М.: Наука, 1977. 10. Шейнин Р. Вероятностный выбор. — Автоматика и телемеханика, 1978. 11. Шмерлинг Д. С, Дубровский С. А.9 Аржанова Т. Д., Френкель А. А. Экспертные оценки. Методы и применения. — В кн.: Статистические методы анализа экспертных оценок. Ученые записки по статистике, т. 29. М.: Наука, 1977. 12. Уилкс С. Математическая статистика. М.: Наука, 1967. 13. Beaver Л. /., Rao P. V. The use of limit theorems in paired and triple comparison model building. J. Math. Psychol., 1972, v. 9, 92—103. 14. Beaver R. /., Rao P. V. On ties in triple comparisons. Trabajos Estadist. Rev. Invest. Oper. Madrid, ШЗ, v. 24, 77—92. 15. Bradley R. A. Rank analysis of incomplete block designs. III. Some large samples results on estimation and power for method of paired comparisons. Biometrika, 1955, v. 42, pt. 3—4, 450—470. 1Ί- Τ. е. для парных сравнений. 188
16. Bradley R. A. Science, statistics and paired comparisons. Biometrics, 1976, v. 32, n. 2, 213—232, discussion 233—240. 17. Bradley R. Д., Gart /. /. The asymptotic properties of ML estimators when sampling from associated populations. Biometrika, 1962, v. 49, pt. 1—2, 205—214. 18. Bradley R. Α., Pendergrass R. JV. Ranking in triple comparisons, Bull, de Tlnst. Intern, de Statistique, 1960, v. 37, 1—15. 19. Bradley R. Л., Terry Μ. E. The rank analysis of incomplete block designs. II. The method for blocks of size three. Appendix A, Bi-annual Report n. 4, Blacksburg, Virginia: Virginia Agric. Exp. Station, 1952. 20. Chernoff #., Lehmann E. L. The use of maximum likelihood estimates in χ2 tests for goodness of fit. Ann. Math. Statist., 1954, v. 25, 579"— 586. 21. Darroch /. N., Ratcliff D. Generalyzed iterative scaling for for loglinear models. Ann. Math. Statist., 1973, v. 43, 1470—1480. 22. David #. А. The method of paired comparisons. L., Griffin, 1969. 23. David H. A. Ranking in a Round Robin tournament. Rev. Int. Statist. Inst., 1971, v. 39, 141—147, addendum: 1972, v. 40, 376. 24. Davidson R. R. On extending the Bradley—Terry model to accomodate ties in paired comparison experiment. J. Amer. Statist. Assoc, 1970, v. 65, n. 329, 317—328. 25. Davidson R. R., Farguhar P. H. A bibliography on the method of paired comparisons. Biometrics, 1976, v. 32, 241—252. 26. Fleckenstein M.f Freund R. Α., Jackson J. E. A paired comparison test of tipewriter carbon papers. Tappi, 1958, v. 41, 128—130. 27. Ford L. R. Jr. Solution of a ranking problem from binary comparisons. Amer. Math. Monthly, 1957, v. 54, 28—33. 28. Luce R. D. Individual choice behavior: a theoretical analysis. N. Y., Wiley, 1959. 29. Luce R. D. Coice axiom after twenty years. J. Math. Psychol., 1977, v. 15, n. 3, 215—233. 30. Pendergrass R. N., Bradley R. A. Ranking in triple comparisons, in: Contributions to probability and statistics, I. Olkin ed., Stanford Univ. Press, 1960, 331—351. 31. Pendergrass R. N. Ranking in triple comparisons (Ph. D. diss.), Library Virginia Politechnic Inst., Blacksburg, Virginia, 1958. 32. Rao P. V., Kupper L. L. Ties in paired comparison experiments: a generalyzation of t3he Bradley—Terry model. J. Amer. Statist. Assoc, 1967, v. 62, n. 317, 194—204. 33. Savage I. R. Incomplete contingency tables: conditions for the existence of unique MLE, in: Mathematics and Statistics: Essay in Honor of Harold Bergstrom, Eds. P. Jagars, L. Rade, Gete- borg, Sweden, Chalmers Inst, of Technology, 1973, 87—99. 34. Singh /., Gupta R. S. Derivation of a paired comparison model, in: Applied Statistics, ed. R. P. Gupta, N. Y., 1975, 295—300. 35. Stevens S. S. On the psychological laws. Psychol. Rev., 1957, v, 64, 153—181. 36. Tompson W. A., Singh J. The use of limit theorems in paired comparison model building. Psychometrika, 1967, v. 32, 255—264. 37. Yellot /. /. Jr. The relationship between Luce's choice axiom, Thurstone's theory of comparative judgment, and the double exponential distribution. J. Math. Psychol., 1977, v. 15, 109—144.
III. ВЕРОЯТНОСТНО-СТАТИСТИЧЕСКИЕ МОДЕЛИ КОНКРЕТНЫХ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ СТРУКТУР Бежаева 3. И., Макарчук Н. И, ПОСТРОЕНИЕ ЦЕЛЕВОЙ ФУНКЦИИ ПОТРЕБЛЕНИЯ Изучение динамики и прогнозирование потребительского спроса — одна из основных задач, стоящих перед экономической наукой. Естественным подходом к исследованию механизма потребительского спроса является исследование статистики семейных бюджетов. Под статистикой семейных бюджетов будем понимать набор векторов Χ=(#„ i^=l, /ζ), где х{=(хМ, . . ., х?) — вектор благ и услуг, потребляемых г-ой потребительской единицей в натуральном выражении за базовый период, т — число возможных благ и услуг, η — число обследуемых, потребительских единиц (под потребительской единицей понимается семья). Исследование совокупности семейных бюджетов одного базового периода с социально-демографическими характеристиками потребительских единиц позволяет выявить некоторые закономерности потребительского спроса ([1]— [3]). В частности, много работ посвящено изучению зависимости потребления фиксированного блага от дохода (построение кривых Энгеля) [1]. Изучение корреляционных зависимостей позволяет выявить степень зависимости в потреблении различных благ [2]. В последнее время появились работы по выделению типов потребления и выяснению того, какими социально-демографическими причинами эти типы обусловлены (выделение типов потребителей) [2—3]. 190
Основываясь йа сведениях, полученных из анализа потребительского спроса, можно строить и его прогноз. Прогнозировать можно, например, или с помощью кривых Энгеля, или по средним векторам потребления для выделенных типов потребителей. При такого рода прогнозировании не учитывается один из основных факторов воздействующих на спрос, а именно, розничные цены. Исследование взаимосвязи розничных цен с потребительским спросом особенно важно для задач перспективного планирования, так как розничные цены и доход являются одним из основных инструментов регулирования спроса и предложения со стороны государства. Исследование связи розничных цен и спроса основано на предположении о существовании целевой функции потребления (функции предпочтения или функции полезности) ([4]—[6]). Предполагается, что в основе стихийного поведения совокупного потребителя существуют закономерности «эквивалентные оценке и сопоставлению получаемых наборов благ с точки зрения степени удовлетворения потребностей» [7]. Имеются работы ([4]— [6]), в которых доказывается существование «некоторой степени предпочтения, которая лежит в основе поведения потребителя, и функции потребления, описывающей это предпочтение, исходя из естественных предположений относительно поведения совокупности потребителей при изменении цен и доходов». Ряд работ, использующих существование функций предпочтения, показывают плодотворность этой гипотезы ([8]-[9]). В работах по теории потребительского предпочтения обычно рассматривается лишь порядковое предпочтение потребителя по отношению к разным наборам благ и услуг. Поэтому, говоря о функции предпочтения, мы имеем в виду, что эти функции не дают точного количественного значения насколько один вектор благо предпочтительнее другого, а задают лишь упорядочивание всех векторов потребления. Сказанное означает, что любой метод построения функции предпочтения подразумевает построение одного из вариантов этой функции. Любая монотонная функция от построенной функции предпочтения сама является функцией предпочтения той же группы потребителей. 191
В настоящее время существуют различные методы построения функции предпочтения ([10]—[12]). Остановимся на описании некоторых из них. Будем обозначать через и (Х)=и (х(1\ . . ., х{т)) — целевую функцию потребления, р=(р1, . . ., рт) — вектор розничных цен. Ε. Ε. Слуцкий [10] впервые начал исследование целевой функции потребления (функции полезности) как объективной характеристики поведения совокупности потребителей. Подход Ε. Ε. Слуцкого основан на следующем положении. На практике каждый индивидуальный бюджет подвергается бесчисленным воздействиям, которые непрестанно нарушают его равновесие. По этой причине фактически могут существовать лишь одни устойчивые бюджеты (устойчивым бюждетом называется такой набор благ и услуг, что всякое незначительное отступление от него уменьшает значение функции потребления). Таким образом, на практике могут существовать лишь такие векторы потребления Х= (х{1\ . . ., xim))t в которых функция потребления и (X) достигает своего локального экстремума. Предположим, что существуют вторые цроизводные функции и (X). Из вышесказанного следует, что и (X) должна удовлетворять системе уравнений ЙШ-»,, (ΐ-ΓΪ) (1) т которая является необходимым условием условного экстремума в точке Х = (ха\ . .., х{т)\ при условии т ^p.x(i) — S, где S — фиксированный доход (общая вели- чина расхода). Дифференцируя систему уравнений (1) сначала по 5, а потом по рк (fc=l, m), получаем МХ° = ε° MX* = — ε°Χ* + λε*> (k = *7т)> где Μ = 192 Рт \ / ^ и1
ι — ди д*и ε* — столбец длины (т+1) из нулей и единицы на έ-м месте, fd*w \ /дх№' ^ \ / ^ Х = | : |, *'» = -λ, Х* = \ : , Х°= : dpfc / \ ^ Таким образом, эная коэффициенты эластичности по доходу и ценам можно определить, с точностью до λ, λ°= 1 Л . =:Т^5" неи^веСтные значения первых и вторых производных функций потребления. Подходχ предложенный Ε. Ε. Слуцким, и выведенные им формулы широко применяются для исследования моделей потребления, функций спроса ([8]—[9]). * В [11] Фришем было введено понятие независимости двух благ по предпочтению. Два блага i^e и ;-е называются независимыми по предпочтению, если Написанное равенство означает, что полезность одного блага не зависит от объема потребления другого. Гипотеза независимости по предпочтению позволяет формулировать более простые для последующей эмпирической проверки математические зависимости. В частности, если для целевой функции предпочтения можно написать следующее ιζ(Χ) = η(χ«\...,χ^)=Σ /у(*(/)). (2) то все блага и услуги независимы по предпочтению. Система уравнений Слуцкого (1) в этом случае имеет вид Выбирая функции fj из некоторого параметрического семейства можно строить функцию предпочтения с помощью уравнений (2), например, методом наименьших квадратов [12]. Пусть теперь цены р=(рц . . ., рт) — фиксированы, a Xj—^j (S) — функция зависимости спроса от дохода 193
(функция Энгеля), тогда λ=λ (S) = λ (φ^.1 {xj)). Здесь φ""1 — функция, обратная к φ. Если предположить, что ω=-=---£ (эластичность предельной полезности дохода) постоянна, то с точностью до постоянного множителя • /;(*,)=м?я*,)г. Строя при каждой / функции Энгеля, т. е. подбирая по бюджетным данным параметры для этой функции из некоторого параметрического семейства функций, получают различные аппроксимации функции предпочтения. Особый интерес представляет подход к изучению функции потребления, предложенный в [7], 113]. Подход изложенный в этих работах, основан на гипотезе однородности потребителей. Качественно гипотеза однородности совокупности потребителей означает, что для группы потребителей цз этой совокупности с одним и тем же доходом, при рационировании некоторых благ, наилучший набор благ и услуг одинаков для всех потребителей из этой группы. Лишь множество мелких факторов, неучтенных в модели, мешает всем потребителям группы реализовать этот наилучший набор благ. Формальные предпосылки предложенного В. А. Волконским метода состоят в следующем. 1. Совокупность обследуемых потребителей является выборкой объема η из яг-мерной совокупности с плотностью распределения φ (Χ). 2. На любых гиперплоскостях, определяемых равенствами 2 Ρ*χ{*} = S> xU) = сз (1 ^ / ^ т)у максимум функ- ции предпочтения совпадает с максимумом функции φ (Χ). Исходя из этих предпосылок, в [13] было доказано, что квадратичная аппроксимация функции предпочтения, упорядочивающей все вектора потребления Х=(а;(1), ♦ . ., х{т)) по величине их предпочтительности, имеет вид т / т \2 «(Х)=2л(*с,) — хш) — л 2л(я(|)—x{i))) — *=ι \»·=ι / т — в Σ (ВхШ*{* — xii)№/)xtJ))- В этом равенстве Х=(%(1\ . . ., xim)) — средняя структура объемов потребления в натуральном выражении, 194
Rk — ковариационная матрица объемов покупок, А и В — неизвестдые константы. Если в. качестве исходных данных имеется набор векторов Zj=(z<jl\ . . ., z^m))y где ζψ — объем покупок i-го товара ;-ой семьи в денежных единицах, то квадратичная аппроксимация функции предпочтения может быть представлена в виде т / т \2 *(Z) = 2(*(*-Z(/))-4 Σ(*('}-Ζ(<)) - т где 2— (z(1), . . ., zim)) — средняя структура объемов потребления в денежных единицах, Rz — ковариационная матрица векторов Zj (j=l, η), А и В — неизвестные константы те же, что и раньше. Опишем теперь способ нахождения констант Ау В с помощью коэффициентов эластичности и гипотезы Фриша о независимости по предпочтению. Разделим вектор потребления на две части. Будем считать, что одна часть товаров νχ не зависит по предпочтению от другой части товаров ν2, τ. е. мы будем считать, что желательность для нас товаров из одной группы не меняется от объемов потребления товаров из другой группы. Математически это означает, что для всех пар х«\ *"> (i 6 i;lf / G Щ) J5USL=o (3) или соответственно дЧ (Z) dzi*>dz*J> 0. (4) Иногда имеет смысл рассматривать частные функции предпочтения, т. е. функции предпочтения не для всего вектора товаров Х={хп\ . . ., х{т)), а для некоторой части товаров xv=(x{i\ i £ ν). Будем обозначать такую частную функцию полезности через и9 (X). Независимость по преддочтению для двух групп товаров νχ и ν2 195
бывает в частности в тех случаях, когда относительно функции и (X) естественно предполагать, что a(X) = «fl(x) + PMx)· Уравнения (3), (4) могут быть переписаны в следующем виде А + В(Ня)7} = 0, (5) APiPj + B(R^} = 0. (6) Константы А и В определяются из условий Σ \A + B(RU}7 = min, поэтому Σ {A + B(R,b}) = 0, «ее-,, ye», Соответственно, заменяя (5) на (6), константы А и В можно найти из уравнений Σ (ApiPj + B(Rx)7))piPj=0, Σ (APiPj + B(Rx)7})(Rx)7^0. i£ru j£v2 Из уравнений (7) и (8) можно получить лишь Л/5, так как обе системы — системы линейно зависимых уравнений. При этом (Q) *~ 2 ftp, В (9) «p. — число видов товаров в группе ι^(ί = 1, 2). Для получения второго соотношения для коэффициентов А к В воспользуемся коэффициентом эластичности предельной полезности дохода ω = -τ- —. В этой формуле 196
λ — полезность единицы дохода и удовлетворяет соотношениям ^ = λΑ. (10) Подставим в (10) вместо функции и(Х) ее квадратичную аппроксимацию. Тогда (1 - 2А (р, X - X))Pj - 25 2 (Rx)7}{*(i) - *(") =λΡ/· Отсюда, полагая (ρ, Χ — X) = s9 получаем (l — 2A8)p — 2BR?(X — X) = \p pTRxp(l - 2As) — 2BpTRxR? (X - X) = lpTRxp9 или \ ptRxp) Здесь s = (S — S) — отклонение от среднего дохода, S — средний доход исследуемой совокупности. Поэтому -*("+;£-,) _ S dl _ \ Ρ ΒχΡΙ Ш ~ λ dS ~~ . /_ 26 ρτηΣρ 2В 1-(2Λ+-ψ{Ι—)ι 2SIA 2Β_\ tR*p) i—2(S—S) \ pRxp< (11) {А+ткР) Имеется ряд работ [9], посвященных вычислению коэффициента эластичности предельной полезности дохода. Результаты вычислений, приведенных в этих работах, показывают, что среднее значение ω по совокупности колеблется в пределах от —2 до —4. Из (11) следует, что * ' В ω ' (12) (13) 197 ^1 или Л -г + PTRxP В ~2ω($ 2ω(£- -S) ω •S)- — 2S 2S
Из соотношений (12), (13), (9) и из того, что —2 ^ ^ ω ^ 4 мы можем получить область возможных значений параметров А, В. Множество возможных значений А% В задают соответственно множество возможных аппроксимаций йА%в (X) {&а,в (Ζ)) функций предпочтения. Теперь нужно выяснить, какое же из значений йА%в (X) (иа, в (Ζ)) наиболее соответствует и (X) (и (Ζ)). Для этого нужны дополнительные данные. Мы воспользуемся тем, что через вторые производные функции предпочтения могут быть выражены такие широко используемые и сравнительно хорошо исследованные величины как коэффициенты эластичности. Покажем, как вычисляется через вторые производные функции предпочтения коэффициенты эластичности потребления товаров по доходу [13]). Из уравнений (1) следует, что т yjmxi.^^( (14) Введем обозначения в<я)(х) = (в*/(х). *,/=l7~w)· Тогда (14) перепишется в виде ц(Х)(Х<о') = ^р или (Х<о.)==|(И(2)(ХГР) *» = (*£,...,*§£)'. (15) Если вместо и (X) рассматривать ее квадратичную аппроксимацию вида и (X), то tti2y{X) = -Appr — BRi1. а «7(0) fdZil) dZt*>\T Аналогично, если Z(0)=i--r^-, ..., „ \ , Ζ(β'=;|(α,2)(Ζ))-ΐη, η=(1,...,1Γ, B,.,(Z) = f—.**" . , i, ) = ТГт) 198 то
н используя аппроксимацию и (Ζ), получаем ai2)(Z) = -AT\rlT-BR-21 _ Заметим, что Rz = pRxPT· Коэффициент jo можно найти, используя последнее равенство (1), [Соответственно бюджетного равенства т \ 2 р{х({)=8. I Из этого равенства следует, что (Х(0),/?)= 1. Подставляя в это соотношение (15), получаем jS = {(tti%}{X)YlP,pY\ или же ^ = ((««2,(2))-^^)-'. И, окончательно, получаем х«»=«в,,, (Х)Г л рГ Ы (Х)Г1 ρ или Ζ(0,=((δ(2)(Ζ))->η>η)-·(δ(2)(Ζ)Γη. В качестве коэффициентов эластичностей потребления по доходу рассматривают Х(0) (Ζ(0)). Кроме того часто рассматривают коэффициент эластичности следующего вида ~^~=—T--^-f—т^—). Ьудем обозначать ректор коэффициентов эластичностей этого вида через n s. Вектор коэффициентов эластичностей . ~ через функцию предпочтения может быть выражен следующим образом д]пхЧ)_д*ч> 1 ^ sj /. τ ч где S, — доход /-ой семьи, xW—, как и раньше, потре- оление г-го товара /-ой семьи, а -то-„определяются через 199
вторые производные функции предпочтения указанным выше способом. Итак, имея набор возможных значений пар А и В, мы вычисляем набор векторов коэффициентов эластич- ностей с помощью функции предпочтения. И выбираем среди значений пар А, В ту, для которой коэффициенты эластичностей ближе всего к коэффициентам эластичности, подсчитанным традиционными методами с помощью кривых Энгеля. Описанный алгоритм построения целевой функции потребления был реализован в виде программы на АЛГОЛ е для ЭВМ БЭСМ-6. Она состоит из нескольких процедур и обращений к ним. Ниже будут описаны процедуры и приведен их текст. Но прежде о записи данных· Как уже было сказано выше, под статистикой семейных бюджетов понимают набор векторов Х=(х., i-— =1, 2, . . ., Ν). Вектор благ и услуг χ. состоит из т компонент ,rt. = (^1), xf\ ..., *(«)), где х\1\ х[2\ ..., х[т) — количественные признаки обследуемой i-ой семьи. Все данные по N семьям для длительного хранения и многократного обращения к исходной информации записаны на магнитную ленту (МЛ). На одной зоне магнитной ленты записано η векторов наблюдений. Составлены процедуры, которые считывают данные для любой заданной семьи с МЛ, отбирают среди количественных признаков вектора наблюдения необходимые признаки, приводят исходный вектор наблюдений для любой семьи к виду, удобному для решения поставленной задачи. Процедура koel (cZ, 12, 11). Эта процедура получает коэффициенты эластичности из уравнений регрессии методом наименьших квадратов. Рассматривается уравнение где Sil) — доход Z-ой семьи, у{1) — затраты Z-ой семьи. Коэффициенты а{ и bi находятся из следующих соотношений: п% Ιη^'>.1η«<'>-(2 Ιιι«<'>) · (2 Jm/ИЧ Ui η I П \2 > η ^ (1ηί(/))*—(2 lns(/) /=1 \ /=1 / 200
1=1 Отсюда подсчитываются также следующие величины М" «ί_ 1 V^s(" /=1 ,JCP<=-^= dy[i) _a4 -ycp cp . Коэффициенты эластичности размещаются в массиве dy. Коэффициенты эластичности получаются для заданных различных однородных групп (классов), полученных каким-либо методом классификации. Процедура appeal (d). С помощью этой процедуры находится ковариационная матрица и обратная матрица, производится вывод этих матриц на печать. Параметр с — число, на которое нужно разделить все элементы полученной ковариационной матрицы, чтобы не произошло переполнения в машине при вычислении определителя (det) этой матрицы. На печать еще выдается значение определителя, но оно меньше истинного значения в у раз, где у=с\р (р — размерность ковариационной матрицы). Число с подбирается практически. Обратная матрица размещается в двумерном массиве а. Процедура border (c1, с2). Процедура нахождения границ для с = А-\ γ . Воспользовавшись неравенством —4 ^ <Λ/<·> <—2, подставим о^= — *'с ^ * J Δ \$ι S0) С Получим Si <7'· ί=ι 2c — ^s* s°' Рассмотрим левое неравенство· Если вместо (s{ — s0) подставить s„w = max(s$. — 50), то мы, не изменив этого не- 20(
равенства, получим 2<^—\ -—— , откуда следует *=ι о7 — smx неравенство 1 <с. sQ 4- 2smx * Рассмотрим правое неравенство. Если вместо (s. — s0) под· ставить smi = min (s{ — s0), то получим неравенство с^ Π :· ^ sQ -j- 4swu Примем Cl==s-ZF1—, с^—З--., тогда слежит в пре- делах сх<^ с^с2. Рассмотрим выражение С9 -У- се ^1 2*,· - g ^ 2с · sQ 2(^—s0)c 1 —2с *=1 = 2с-8л _4<-2<*0<~2, 1 ^ ^ 2 Обозначим — через с3, а — через с4, получим второе не- равенство с3<^с^с4. Следовательно, выбрав среди ci и с3 максимальное значение и обозначив его с^, а среди с2 и с4 — минимальное значение и обозначив его через с% получим неравенство для нахождения с?<^с<^с!|. Процедура border находит значения с? и eg. В процедуре они обозначены фиктивными переменными с19 с2. Процедура lots(blt b2, aa). С помощью этой процедуры находится множество возможных значений А и В из соот- - Σ да* ношения «-=—*6Р|' 'бУ* и двойного неравенства с,<; в nvx -по2 1^ в л ^Л+"? ^с0. Обозначив отношение -^ переменной αα? 20?
напдем его значение. Вместо А подставим его выражение через В и аа^А = В · аа) в неравенство сх^В (аа -f- -f- -ψ ] ^ с2. Получим границы изменения В(Ь1^:В ^ Ь2). Ρ RxP) Значение А получается из соотношения А = В*аа. В процедуре границы изменения В обозначены переменными Ъг и Ь2. Процедура tkoel. Эта процедура находит теоретические коэффициенты эластичности Zi с помощью функции потребления. Для этого используя мпожество возможных значений А и В (текущие значения А и В в процедуре обозначены через ас и be), получаем множество возможных аппроксимаций функции потребления двумерный массив и. Для каждого такого множества вычисляются коэффициенты эластичности. Для определения, какое из множеств наиболее соответствует искомой функции потребления, сравниваются коэффициенты эластичности Zt. и коэффициенты эластичности dy{, полученные с помощью уравнения регрессии. Лучшим будет то множество, для которого наименьшее отличие Z{ и ау{=-р-(1 = 1, 2, . .., р). Для каждого множества вычисляются d<=z<-d-£ и d=2d<· J» U/ -^-^ ТЕКСТ ПРОЦЕДУР procedure zxi; begin integer i; for i : =1 step 1 until ρ do ζ [i] : ==z [i]+x [j, i] end; procedure azx; begin integer i, il; for i : =1 step 1 until ρ do for il : =1 step 1 until ρ do a [i, il]: =a [i, il]+(x [j, i]-z [i])X X(x [j, ill—ζ [il]) end; procedure klv (zx); procedure zx; begin integer jl; 11 : =1; ν : =0; 203
%2 : ell : =vxl+l; cl2 : =lx(v+l); read (x, 1, 0, v-fnz, 0); for jl : =k2+l step 1 until lpl+k2 do if ell <кл fjl] Λ кл [jl] <cl2 then begin j : =кл [jl]; zx end; if v=vl then go to zl; ν : =v-f 1; go to z2; zl : end; procedure appeal (c); real c; begin for i : =1 step 1 until ρ do begin ζ [i] : =0; for j : =1 step 1 until ρ do a [i, j] : =0 end; klv (zxi); for i : =1 step 1 until ρ do ζ [i] : =z [i]/n; output (Ч\ 'среднее', 7\ cz8d. 2d', ζ, *2Γ)\ klv (azx); z4 : for i : =1 step 1 until ρ do for il : =1 step 1 until ρ do a [i, il] : =a [i, il]/n; output (Ч\ сков матрица', 7\ cz8d. 2d', a, f2/'); for i : = 1 step 1 until ρ do for j : =1 step 1 until ρ do a [i, j] : =a [i, j]/c; invert 1 (a, p, eps, det, alarm); for i : =1 step 1 until ρ do for j : =1 step 1 until ρ do a [i, j] : =a [i, j]/c; output (Ч\ ^обратная матрица', 7', cz8d. 2d5, a, c2/'); У : =cfp; output (4\ cc=', Έ', c, 4\ cy=', Έ', y, 7'); end; procedure border; begin so : =0; for i : =1 step 1 until ce do begin so : =so+xg [i, 2]; si : =sl+xg [i, 1] end; xg [ce+1, 1] : =sl/ce; xg [ce+2, 2] : =so : =so/ce; 204
write (xg, 4, 0, 138, 0); nl : =n2 : =0; ab : =0; for i : =1 step 1 until ρ do n2 : =n2+ma Γ1 [i]; for i : =1 step 1 until lp 1 do begin lp2 : =lma [i]; nl : =п1+таГ1 [1р2]; for j : — lpl-+ 1 step 1 until ρ do ab : =ab-)-a [lp2, lma [j]] end; n2 : =n2—nl; aa : = —ab/nl/n2; smi : =smx : =xg [1, 2]—so; for i : =2 step 1 until ce do begin si : =xg [i, 2]—so; if smx <^pb1 then smx : =si else if smi >sl then smi : =sl end; cl : =l/(so+2Xsmx); c2 : =2/(so+4Xsmi); c3 : =l/so; c4 : =2/so; cl : = if cl > c3 then cl else c3; c2 : =if c2 < c4 then c2 else c4 end; procedure lots; begin if ab=0 then begin output (ct\ cab=0'); go to cone end; bb ; = aa+l/ab; if bb > 0 then begin bl : =cl/bb; b2 : =c2/bb end else begin Μ : =c2/bb; b2 : =cl/bb end end; procedure trkoel (ac, be); real ac, be; begin integer i, j; for i : =1 step 1 until ρ do for j : =1 step 1 until ρ do u [i, j] : =ac—bcXa [i, j]; output (4', ^коэффициенты u [i, j]', 7', Έ\ u, V); invert 1 (и, ρ, eps, det, alarm); s : =0; for i : =1 step 1 until ρ do begin ζ [i] : =0; for j : =1 step 1 until ρ do ζ [i] : =z [il+и [i, j]; s : =s+z [i] end; for i : =1 step 1 until ρ do ζ [i] : =z [i]/s; output (4', ^коэффициенты ζ [i]', 7', Έ\ ζ, 7') end; procedure lvl (ce); integer ce; begin 205
1 : =(1024 4- (pxn))xn; if 1 >ce then 1 : =ce end; procedure koel (ce, 12, 11, a, b); integer ce, 12, 11; array a, b; begin integer i, j, 1; for i : =1 step 1 until 2xmarp do xi [i] : =0; s : =scp : =0; for i : =1 step 1 until marp do dy [i] : = yep [i] : =0; for 1 : =11+1 step 1 until 11+12 do begin kjl (1); scp : =scp+y [m+1]; if у [m+l]=0 then go to me; s:=ln (y [m+1]); xi [l]:=xi [l]+s; xi [2] : =xi [2]+sf2; for j : =1 step 1 until nl—1 do begin s3 : =V [m+j+1]; if s3=0 then go to me; dy [j]: =dy [j]+s3/y [m+1]; yep [j] : =ycp [j]+s3; si : =ln (s3); xi [2xj+l] : =xi [2xj+l]+sl; xi [2xj+2] :=xi [2xj+2]+sXsl end; go to mp; me : ce :=ce—1; scp :=scp—у [m+1]; mp : end; s : =ceXxi [2]—xi [1] f 2; if s=0 then begin output (V, V, <s=0 при k=\ cz6d\ k, V); go to m7 end; for j : 1 step 1 until marp—1 do begin yep [j] : =scp/ycp [j]; dy [j] : =dy [j]/ce end; for i : = 1 step 1 until marp—1 do a [i]:=(cexxi [2xi+2]-xi [2xi+l]xxi [l])/s; for i : =1 step 1 until marp—1 do b [i] : =(xi [2xi]-a [i]Xxi [l])/ce; for i : =1 step 1 until marp—1 do begin dy [i] : =a [i]xdy [i]; yep [i] : =a [i]/ycp [i] end; output (V, 4', cdy-\ V, dy, 7', 4', <ycp-', V, yep, V); m7 : end; 206
ЛИТЕРАТУРА 1. Волконский В. Α., Левкова Л. А. Зависимость потребления от дохода и возможность ее экстраполяции во времени. — В кн. Математические методы в экономике труда. М.: НИИтруда, 1966. 2—З.А4 йвазян С. А., Бежаева 3. И., Макарчук Н. И. Об одном подходе к анализу и прогнозу многомерных структур. — В кн. Применение многомерного статистического анализа в экономике и оценке качества продукции. М.: изд-во Всесоюзного совета научно-технических обществ, 1977. 4. Houthakker Я. S. Revealed preference and utility function. Eco- nometrica, v. 17, 2, 1950, p. 159—170. 5. Usawa H. Preference and rational choice in theory of consumption. Math, methods of the social Sci. Proc. of 1 st Stanford symp., 1960. 6. Debren G. Decision processes. N. Y: 1954. 7. Волконский В. А. Экономико-математические модели согласованного планирования платежеспособного спроса и розничных цен. — Экономика и математические методы, 1973, № 4. 8. Barten A. Estimating Demand Equation. Econometrica, 1968, v. 36, Ν 2. 9. Михалевский Б. Η., Соловьев Ю. П. Методологические проблемы оценки эластичности потребления от цен. — Экономика и математические методы, т. VI, вып. I, 1970. 10. Слуцкий Ε. Ε. К теории сбалансированного бюджета потребителя. — В кн. Народнохозяйственные модели. Теоретические вопросы потребления. М.: Изд-во АН СССР, 1963. 11. Frish R, A Complete scheme for computing all direct and gross demand elasticities in a model with many sectors. Economet- rica, 1959, 27, 2. 12. Snella Jean—Jacques. Theorie des choix et approches empiriques dans Г etude de la consommation privee: Analyse et experiences. Universite de Geneve. Faculte des sciences economiques et so- ciales. Collection des theses. Editeur, Herbert Lang Berne. 13. Волконский В. А. Об объективной математической характеристике народного потребления. — В кн. Народнохозяйственные модели. Теоретические вопросы потребления. М.: Изд-во АН СССР, 1963,
Макарчук Н. И. ВЫЯВЛЕНИЕ ТИПООБРАЗУЮЩИХ СОЦИАЛЬНО-ДЕМОГРАФИЧЕСКИХ ПРИЗНАКОВ ПРИ АНАЛИЗЕ ПРИРОДЫ ДИФФЕРЕНЦИАЦИИ ПОТРЕБИТЕЛЬСКОГО ПОВЕДЕНИЯ СЕМЕЙ 1. Постановка задачи При исследовании механизма формирования потребностей населения и црироды их дифференциации мы сталкиваемся с необходимостью анализа существенно многомерной исходной информации. Одной из задач при таком исследовании является снижение размерности информации и указание совокупности наиболее информативных признаков. Пусть в результате исследования совокупности семей в «пространстве поведения» Υ удалось выявить небольшое число классов семей таких, что семьи одного класса характеризуются сравнительно сходным потреби^ тельским поведением, т. е. выявлены типы потребления. Обозначим через Sy разбиение на классы в пространстве Y. Теперь необходимо определить характер и структуру семейного потребления внутри каждого класса разбиения Sy e помощью многомерной совокупности «описательных» признаков, т. е. признаков, описывающих социально- демографическую структуру семьи, уровень доходов, жилищные условия и т. д. Задача состоит в том, чтобы в «пространстве состояний» X выявить типообразующие признаки. Нельзя рассчитывать на то, что диапазоны возможных значений каждого из типообразующих признаков окажутся непересекающимися для семей разных типов потребления. Поэтому естественно отобрать наиболее информативные признаки или их наборы, разница в законах распределения которых оказывается наибольшей при переходе от одного класса потребительского поведения к другому. Анализируя поведение различных сочетаний компонент вектора из пространства X в разных классах разбиения SY> назовем наиболее информативными те cq- 208
четания, поведение которых наиболее резко меняется при переходе от одного класса к другому. Выделение наиболее информативных признаков в пространстве будем проводить по следующей схеме. Разбиение семей на классы в пространстве поведенческих признаков будет использовано в качестве «обучающих выборок» в задаче выбора наиболее информативной системы описательных признаков и определения подходящей метрики в пространстве этих признаков. После того, как будет отобрано небольшое число информативных признаков, исследуемую совокупность семей разобьем на классы в пространстве X отобранных типообразую- щих признаков. Обозначим это разбиение через St- Совокупность информативных признаков и расстояние в пространстве % должны быть подобраны так, чтобы классификационная структура исследуемого разбиения SY семей в пространстве поведения наименее отличалась бы от классификационной структуры разбиения St в пространстве типообразующих признаков. При анализе природы дифференциации потребительского поведения семей приходится рассматривать вектор многомерных наблюдений Χ.—(χ(χ\ χψ\ . . . т x^))i смешанной природы. Т. е. среди компонент вектора X, могут быть как количественные, так и качественные (ранговые), и классификационные (номинальные) признаки. Каждый вектор описывает один объект-семью О. (έ=1, 2, . . . , η). Количественный признак позволяет количественно измерить степень проявления какого-либо свойства объекта (семьи), т. е. может быть любым действительным числом, качественный признак позволяет упорядочивать объекты по степени проявления определенного свойства, классификационный признак позволяет разбивать исследуемую совокупность объектов на классы (группы), однородные по анализируемому признаку. Например, под координатой яК1) подразумевается социальная принадлежность г-той обследованной семьи, под х^р — доход этой же семьи, под х^р — ее жилищные условия и т. д. Смешанная природа векторов Xf создает некоторые дополнительные трудности в технической реализации решения поставленной задачи. Поэтому мы в дальнейшем будем представлять исходную информацию в унифицированном виде. А именно, комцоненты вектора много- 209
мерных наблюдений х\1^ будут иметь общий вид: х\1У-= = (ij/,1Uf,2), ..., χγ-ηι^\ где т1 — число градаций (интервалов группирования или не различимых по анализируемому признаку х{*) группа объектов), причем [I х^·4*) ={ в зависимости от того, относится или нет значение признака х(1) в объекте О. к v-ой градации. Например, признаку х^ —«социальная принадлежность семьи»·,— имеющему три градации (семья рабочего, смешанная семья, семья служащего), будут соответствовать три координаты х^=(х[хл\ х\1Л\ х(х·^). Значения каждой координаты равны 0 или 1, в зависимости от того, присутствует ли данная градация или нет. Так если О. — семья служащего, то компонента аК1) будет иметь вид я(1)=(0, 0, 1). Переход к вектору с двоичными координатами вызван удобством вычислительной обработки. Для решения описанной в работе задачи необходимо ввести расстояние между рассматриваемыми объектами. Обозначим расстояние между έ-м и ;-м объектами в пространстве X череа ρχ (О., OJ). В качестве расстояния между разбиениями мы анализировали так называемое расстояние Танимото и Кемени-Снелла. Пусть имеются два разбиения одного и того же множества объектов: SX = {Skl\ Sg\ . . ., SX») И Sy= {8γ\ 8ψ\ . . ., 8Ϋ»), пусть объект X, входит в первом разбиении в класс sjf*, а во втором разбиении в класс s(Yq). Чтобы оценить, насколько различно представление об объекте, используем метрику Танимото (см. [1, 2]) где пг — число объектов, входящих в класс s(/\ ης — число объектов, входящих в класс siq}, nrq — число объектов, которые одновременно входят в оба класса. В качестве количественной меры для оценки различий между разбиениями принимается средняя величина изменения представлений об объекте при переходе от одного разбиения к другому: d(Sj, 5г)=42р(ХД ПО
Расстояние Кемени-Снелла, как известно (см. [3])г определяется по формуле: d{sx, sr)=4 2 irtu-pisi. к, «1=1 где ί 1, если к- и то-ый объекты находятся в одном классе разбиения Sx, 1 q^ если fe_ и т_ы% объекты находятся I в разных классах разбиения Sx. pfy определяется аналогично для разбиения SY. Далее будут описаны алгоритмы для решения поставленной задачи. 2. Алгоритмы выбора наиболее информативных признаков 2.1. Описание алгоритма СП А. Рассмотрим метод случайного поиска с адаптацией (СПА) [3], предназначенный для выявления типообразующих социально-демографических признаков. В пространстве поведения Υ имеется разбиение семей на классы £г, нужно в пространстве описательных признаков X найти разбиение Sx, близкое к SY. С помощью случайного эксперимента построим различные подпространства Хэф (р) размерности ρ пространства X размерности η (η > ρ). В начале поиска задаются априорные вероятности π2, π2, . . . э πρ случайного извлечения каждого из ρ — признаков. Перед началом поиска пет информации о предпочтительности выбора того или иного признака, поэтому полагаем πχ= = π2=. Л 9=πρ=ί/ρ. На следующих этапах поиска в зависимости от результатов предыдущих этапов производится «поощрение» и «наказание» признаков, которые сводятся к изменению вероятностей выбора. Выбираем случайным образом г подпространств Хг (р), Х2 (р), . . . , Хг (р). Каждый раз £-ый признак выбирается с вероятностью π{ (ί=1, 2, . . . , ρ). С помощью алгоритма Хар- тигана, описанного ниже, разобьем множество исследуемых объектов на классы sv s2, . . ., sr. Найдем d^a = 211
mill d($Y% s{) и d^= max d(SY, st), которым соответ- l<t<r l<t<r ствуют разбиения smln и smax. Далее, увеличиваем вероятность выбора каждого из признаков, составивших Xmln (p), на некоторую добавочную вероятность g. После такого «поощрения» проводим «наказание» признаков, составивших Хтах (/>), уменьшая вероятность выбора каждого на величину g. Величины ^min и ^тах запоминаем в ячейках dx и d2. Далее, при измененных вероятностях выбора каждого из признаков рассмотрим новую группу из г-подпространств, найдем новые dffiA и dg)x. Если dj$n < dj^, то делаем новое «поощрение», а при djhav > ^mav новое «наказание» и соответствующие пересылки d(^)n в d, и d^x в d2. Поиск прекращается, если содержимое dx сохраняется на протяжении некоторого числа групп. За подпространство Хэф (р) принимается подпространство, соответствующее d^d^. В пространстве отобранных информативных признаков исследуемая совокупность разбита на классы. Получили разбиение 5хэф. В описанном методе случайного поиска с адаптацией использован алгоритм Хартигана, реализующий разбиение совокупности объектов многомерных наблюдений на заданное число классов, т. е. получение разбиения Sx в пространстве описательных признаков. Этот алгоритм устроен следующим образом. Сначала совокупность разбивается произвольным образом на заданное число классов к 40)> 40)> · · · » 5*0)· После этого подсчитываются центры классов. Центром класса sW является вектор, каждая координата которого есть мода соответствующей координаты вектора из s[PK После этого совокупность разбивается на классы s[l\ sM, . . . , s^K В класс 41} попадают объекты ближайшие к центру класса sW. Затем находятся центры новых классов, строится новое разбиение и т. д. Алгоритм кончает работу, как только центры перестают меняться. Если на какой-то итерации объект будет иметь несколько ближайших центров, то он будет относиться к центру с наименьшим номером. За расстояние между векторами в этом алгоритме берется число несовпадающих координат из этой пары векторов. 2.2. Описание алгоритма, использующего законы рас- пределения типов потребления в пространстве описательных признаков. Пусть имеется исходный р-мерный вектор 212
Х = (я(1), х{1\ . . . , xip)). В пространстве X за расстояние между двумя классами с номерами кг и к2 нримш величину д(*„ h, χ)={2ι^·,(χ)-^.(χ)|. ГД° Рк (X) — относительная частота появления среди семей к-то класса разбиения SY совокупности семей, значение фактора-детерминанты которых равно X. Суммирование производится по всем возможным значениям исследуемого признака X. Для каждой фиксированной размерности р'=1, 2, . . . , ρ—1 и для каждого возможного набора компонент X (p') = (3C/i>f z<j*>9 . . . ? х(/ру) подсчитаем Δ (fclf fc„ X) для fclf &a = l, 2, . . . , & (Л^Ла). Наиболее информативный набор X (р') заданный размерности р' определим из условия к Δ-»(Χ(/>')) = max 2 ^*„*.Δ(*,. **. Χ). * Ζ(ρ') *χ, A2-l где веса И ^ *2, определяются по формуле rr/ __ nkt + nkt _nkt + nk, |Г*«»^— * — (А-1)д 2 (*< + »>) (ь У#1) (тг — число семей всей совокупности, пк — число семей в к-ом классе разбиения SY). Таким образом, определим некоторый р' — мерный признак Х=(ж(1), х(2\ . . . , х(р,)), который можно рассматривать как экспериментальное приближение к некоторому, априори неизвестному нам типообразующему признаку. 3. Выбор метрики в пространстве типообразующих признаков Как уже было отмечено в п. 1, результат разбиения исследуемой совокупности семей {0{} ί=1, η на непересекающиеся классы {Si'}} /=1, к в пространстве состояний X зависит не только от состава компонент вектора X типообразующих признаков, по и от того, как мы вы- 213
числяем расстояние между двумя семьями в этом пространстве pi (0{, Oj). Расстояние между семьями 04 и Oj, задаваемыми многомерными наблюдениями X. и X., определим с помощью соотношения Р' mi Рс/> (04, О,) = 2 Wil) 21 *{'·v) — *</·v) I где ж^·v) — v-ая градация Z-ого признака для г'-ой семьи, значение ее равно 0 или 1. Веса W{1) являются искомыми величинами. Нужно найти такой вектор весов W = — ffiu\ W{2\ ..., ffi(p'^), при котором расстояние между разбиениями Sy и S^\ в смысле расстояний Танимото или Кемени—Снелла, является наименьшим, т. е.: w где Sy — разбиение совокупности семей {0^ζ = 1, η на типы однородного потребительского поведения {Sy )}y = l, к, Sx(W) — разбиение той же совокупности семей в пространстве состояний X двоичных признаков. Опишем один из алгоритмов для решения этой задачи (см. [5]). Рассмотрим векторы наиболее информативных признаков размерности от 1 до pf9 т. е. Х(1) = (*(1,(1))> X (2) = (*<*> (2), *«>(2)). Подсчитаем сколько раз каждая из компонент последнего^ вектора Х(р') встречается в составе компонент векторов Х(1), Х(2), ..., Х(р'). Пусть признак xlh(pr) встречается среди компонент этих векторов р./ раз (1 ^μ/^/>'). За начальное приближение весов возьмем вектор WQ = = ОТ\ W?\ ..., W(0Pr))t где ^ίη=-^-. Выбрав вели- 1=1 214
чину шага δ(0,05 <Ιδ ^0,10), построим «решетку» с узлами вида W(tvt2i..., *,)=(ит}+*А Щ2>+*2δ,..., wjf>+t,b), где /,=0, ±1, ±2, . . ., i=l, 2, . . . , ρ' Две точки W(t'v fv ..., fpf) и W(t"v t"2,..., fp9) называются соседними тогда и только тогда, когда max \t\ — ί*| = 1. Поиск точки минимума W(Wa\ ... . . . , Wipn) функции d (W) ведется с помощью направленного перебора значений этих функций в «узлах» решетки: из какой-либо точки решетки мы переходим в любую соседнюю точку. Поиск заканчивается, когда такой переход не уменьшает значения исследуемой функции, т. е. не уменьшает расстояния Танимото. 4. Описание программы СПА Программа составлена на АЛГОЛе с использованием транслятора «Система БЭСМ—АЛГОЛ» для ЭВМ БЭСМ-6. Вся информация о семьях записана на магнитной ленте (МЛ). О шифровке и записи анкетных данных, о процедурах, позволяющих извлекать для любой семьи любые данные или приводить данные к виду, удобному для обработки, можно узнать из работ [4, 5]. В данной работе будут описаны процедуры, реализующие алгоритм СПА. 4.1. Обозначения: ην — количество описательных признаков в пространстве; Is — количество информативных признаков; и, к1 — число классов в разбиениях пространства поведения и пространства состояний; кл1 — разбиение на классы SY в пространстве поведения; кл — разбиение s4 на классы в пространстве информативных признаков; се — число семец в рассматриваемой совокупности; 215
/ — число целых чисел, которые определяют каждый из ш;-признаков; fpr — массив номеров информативных признаков, полученных случайным образом; g — величина (целое число), на которую «наказывают» или «поощряют» признак; R — количество разбиений s.\ пр — двумерный массив, получающийся после выделения всех признаков с их градациями в каждой семье (первая компонента номер семьи или номер класса по желанию); Ikgn — массив, указывающий количество градаций в каждом признаке; Imagl — массив, указывающий количество ячеек в массиве пр, занятых каждой градацией; lmag2 — одномерный массив, указывающий номера ячеек массива пр для признаков и градаций по порядку, определенному массивами Ikgn и Imagl. 4.2. Работа программы. Для каждой семьи имеется около 25 описательных признаков. Некоторые признаки записаны по нескольку в одной ячейке. С помощью процедур «выделить» и «приз» (см. [3 ]) можно выделить любой признак. Все признаки по одному в ячейке записываются в массив пр. Причем, если какого-либо признака нет, то содержимое соответствующей ячейки массива пр равно нулю. Массив учитывает градации признаков. При обработке данных часто бывают нужны не все признаки, не все градации анализируемых признаков, некоторые градации объединяются в одну новую градацию и т. д. Для удобства обработки данных вводятся число ην — число анализируемых признаков, массив с количеством градаций по каждому признаку, массив с номерами градаций. (Под номерами градаций подразумевается номер второй компоненты массива пр.) Это число Ikgn, массивы целых чисел Imagl, lmag2, длина которых определяется числом пи. Описание массива пр имеет следующий вид: integer array пр [1 : к, 1 : 100]. Содержимым ячеек массива пр являются: пр [*, 1] — число человек в классе; пр [*, 21 — число семей в классе, имеющих дошкольников; 216
np [*, 31 — число семей в классе, имеющих школьников; пр [*, 4] — » » престарелых; пр [*, 5] — » » иждивенцев; пр [*, 6] — » » работающих; с пр [*, 7] — по яр [*, 11] — в семьях соответственно 1, 2, 3, 4, 5 и более человек; с яр [*, 13] — по пр [*, 22] — наличие предметов культурно-бытового назначения; с пр [*, 23] — по пр [*, 35] — отрасли промышленности; с пр [*, 36] — по яр [*, 38] — социальное положение семьи; с пр [*, 39] — по пр [*, 49] — профессия или должность главы семьи; и т. д. Зададим (введем) значение переменной Is — число информативных признаков. Каждый из ην признаков, характеризуется t — целыми положительными числами (t — вводится). Например, первый признак характеризуется целыми числами отрезка [1, *], второй признак — целыми числами отрезка U+l, 2XJ], тииый признак — целыми числами отрезка [tx(nv—i), nvXt]. В начале работы программы длины всех отрезков равны. Теперь случайным образом отберем Is разных номеров признаков. Выбор случайного числа s осуществляется с помощью датчика случайных чисел с равномерным законом распределения по интервалу (0, 1). Проверим, в какой отрезок попало число s. Допустим, что tX(j—1) <s </X*, значит, первым признаком выбирается ;-ый признак. Так отбираются Is признаков на проверку информативности и записываются в возрастающем порядке в массив целых чисел fpr [1 : Is]. С его помощью формируются массивы числа градаций в каждом отобранном признаке и номера соответствующих им градаций. Имея набор Is признаков с помощью процедуры har (Is) осуществляющей реализацию метода Хартигана [5], разбиваем всю совокупность семей на к — классов, получим разбиение sv Результатом работы процедуры har (Is) является массив целых чисел кл. Массивы кл и кл1 имеют следующую структуру. В этих массивах указаны номера семей каждого класса. Например, производится разбиение се — семей на к — классов; первое число в массивах кл и кл1 — число семей в первом классе, за ним идут но- 217
мера семей, входящих в первый класс, затем число семей во втором классе и номера семей, входящие во второй класс и т. д. Всего чисел в массивах кл и кл1 равно се+к. После получения разбиения $г определяем расстояние Танимото, обращаясь к процедуре ptani. Так как мы должны среди г — разбиений s€ (i=l, 2, . . . , г) найти минимальное dmin и максимальное dmax расстояние и запомнить соответствующие им значения массива fpr, то для этого вводится описание массивов целых чисел dml [1 : Is] и dm2 [1 : Is], в которых на каждой итерации сохраняются или изменяются на новые значения fpr в зависимости от того, какое получено расстояние Танимото. «Поощрение» и «наказание» признака i сводите^ у нас к изменению длины отрезка ot [i]=[tx(i—1), txi] на постоянную величину g — целое число: если признак вошел в «удачное» сочетание, то признак «поощряется», т. е. длина отрезка ot [i] увеличивается на g, а в случае, если признак вошел в «неудачное» сочетание, то признак «наказывается», т. е. длина отрезка ot [i] уменьшается на g. В массиве ot хранятся правые концы отрезка. После «наказания» или «поощрения» соседние отрезки ot [i] и ot U+1] могут пересекаться или между ними может появиться целое число, которое не будет входить ни в один отрезок. Чтобы этого не произошло, процедура notR (t, ην, of) раздвигает или сближает отрезки, чтобы они следовали друг за другом без пересечений, т. е. формирует новый массив ot. Таким образом длина каждого отрезка является вероятностью выбора признака: чем больше длина отрезка — тем больше вероятность выбора признака, которому соответствует данный отрезок, и наоборот. Далее, после изменения «вероятностей» выбора некоторых признаков, рассмотрим новую группу из г подпространств. Найдем новые d^)ia, d£gx. Если ά$Λ>ά$Λ, то содержимое dl меняется на d^, изменяется массив dgl, если d^x > d^, то меняется содержимое d2 на значение dSx, соответственно меняется массив dg2. Если dl и d2 не меняется после рассмотрения нескольких г — групп подпространств, то последний набор признаков dgl принимаем за информативные признаки. 4.3. Ввод. Для того, чтобы работала программа, необходимо ввести следующие переменные и массивы: 218
се — число семей, участвующих в анализе; t — целое число, характеризующее длину отрезка ot [i]; κΐ — число классов в разбиении; Is — ^исло информативных признаков; по — число всех описательных признаков; кл1 — одномерный массив длины се+к (разбиение Sy); Ikgn — одномерный массив длины, по (количество градаций в каждом признаке); Imagl — одномерный массив с числом номеров ячеек массива пр, объединенных в одной градации; lmag2 — номера ячеек массива пр для всех признаков по всем взятым градациям. :_. 4.4. Вывод результатов. В программе выводится число и номера информативных признаков. 4.5. Описание процедур: procedure notr (t, no, ot) — задает правые концы отрезка ot [i]. procedure fmas (no) — ввод массивов Ikgn, Imagl, lmag2f длина которых определяется значением переменной по; запись значений этих массивов соответственно в массивы fkgn, fmagl, fmag2; процедуру можно использовать при одном вводе Ikgn, Imagl, lmag2 для нескольких вариантов при изменении переменной Is. procedure dp (t, j, Is, fpr). С помощью этой процедуры, используя библиотечную процедуру random (s), случайным поиском находятся Is номеров признаков, которые записываются в возрастающем порядке в массив fpr. procedure pr (Is, fkgn, fmagl, fmag2, ckgn, cmagl, cmag2); эта процедура из всех по признаков выбирает данные только Is признаков, номера которых хранятся в массиве fpr, формирует для Is признаков массивы ckgn, cmagl, cmag2. real procedure ptani (ce, κ, κΐ, кл, кл1) — процедура-функция, определяющая расстояние Танимото; для работы этой процедуры нужно иметь значения переменных се, к, к1 и значения массивов кл, кл1. procedure nd (fpr) — процедура, определяющая минимальное (dmin) и максимальное (dmax) расстояние Танимото для разных г — наборов fpr и запоминающая 219
набор при изменении drain или dmax в массивах dml или dm2. procedure gamma (dmin, dmax, Is) — определяет минимальное (dl) и максимальное (d2) значение соответственно среди dmin и dmax для нескольких г — групп подпространств (можно для разных Is), при изменениях dl или d2 запоминает набор признаков в массивах dgl или dg2, описанных от 1 до ην. procedure otr (nv, Is, dgl, dg2, ot) —«поощряет» и «наказывает» на величину g признаки, номера которых указаны в соответствующих массивах dml, dm2; перераспределяет длины отрезков ot [i]. procedure har (ην) — процедура, реализующая классификационный алгоритм Хартигана в пространства состояний двоичных признаков. 5. Описание процедур, используемых при отборе наиболее информативных признаков в пространстве % с метрикой pjP procedure /г — реализует подсчет долей рк (X) появления среди семей fe-ой совокупности значений вектора X (р) (у нас р=кп) по всем градациям /^-признаков; результат хранится в двумерном массиве freq (integer array freq [1 : κ, 1 : g3], где κ — число классов в разбиении Sy, gS — число градаций по всем few-признакам). procedure nomer (ί3, κη, и) — эта процедура по заданному числу признаков р' (у нас ρ' = ί3) из ρ (у нас р—кп) организует перебор всех неповторяющихся наборов признаков р' — мерного вектора наблюдений; результатом работы процедуры являются вектора целых чисел и ((integer array и [1 : кп], кп > 13, поэтому кп—13 компонент не участвуют в рассмотрении). procedure cagr — по вектору и процедура формирует вектор tpq (integer array Ipq [1 : Ζ], где I — число градаций во всех признаках, номера которых указаны в и) с померами ячеек массива freq для выбора соответствующих рк (X) для соответствующих значений вектора X (//)· procedure delta (κΐ, κ2) — производит счет по формуле &(kv fe2, X)="2"-2l^* (^) — ^,(^)| для всех значеш1Й χ вектора X размерности р' (у нас i3); результат хранится в ячейке del (для заданной пары чисел кг и и2). 220
procedure cpdelta (max, amax) — определяет наиболее информативный набор X (ρ') признаков но формуле Acp(X(p'))=max 2 WkiikA(kv /c2, X)f Х(р') *t,fc2=l {кгфк2) численное значение Аер записывается в ячейку max, номера р' признаков фиксируются в одномерном массиве атах. procedure mindelta (max, amax) — определяет наиболее информативный набор % (р') признаков Δ„.β(Χ(Ρ')) = πμιχ min A(ulf k2, X(pf)); X(f')(*i.*2) формальный параметр max хранит Afflin, а соответствующие ему номера признаков записываются в массиве атах. procedure inform (i3, и, inf) — записывает в двумерный массив inf (integer array inf [1 : i3, 1 : к/г] все наиболее информативные наборы и (integer array) признаков размерности от 1 до р' (у нас i3). procedure вес (ρ, W, inf) — получение вектора весов для начального приближения W0 = (W^\ W&\ ..., Wtf')), где Wp — ~^— Ρ' 2^ /=1 procedure wes(delt, p, t, W) — получение «узлов» решетки и наиболее информативного вектора W = (Wil\ W{2\ . .. Ρ' ..., WV)), где ^(/)>0, 2^(/) = 1. 1=1 procedure hart(kn, W) — процедура реализует построение разбиения S%(W) в пространстве X двоичных признаков у' mi с метрикой р11У) = 2 Wil) 2 |#^,v)— #(./,v)| методом Хартигана. procedure notr (t, nv, ot); integer t, nv; integer array ot; begin integer i; for i : =1 step 1 until nv do ot [i] :=t χ iend; 221
procedure fmas (fk); integer fk; begin integer i, s, fs; integer array lkgn [1 : fk]; s : =0; input (lkgn); for i : =1 step 1 until fk do begin s : =s+lkgn [i]; fkgn [i] : =lkgn [i] end; begin integer array lmag 1 [1 : s]; fs : =0; input (lmag 1); for i : =1 step 1 until s do begin fs : =fs +lmagl [i]; fmag 1 [i] : =lmagl [i] end; begin integer array lmag2 [life]; input (lmag2); for i : =1 step 1 until fs do fmag2 [i] : =lmag2 [i] end end end; procedure clp (t, 1, Is, fpr); value 1; integer t, 1, Is; integer array fpr; begin integer i, il, j, s, a; s : =1; for i : =1 step 1 until Is do begin 111: s : =entier (random (s)xl00); if s <[ tXnv then begin for j : =1 step 1 until η ν do if s ^ ot [j] then begin for jl : =1 step 1 until i—1 do if fpr [il]=j then go to 111; fpr [i] : =j; go to lfr end end else go to 111; lfr : end; for i : =1 step 1 until Is—1 do for j : =i+l step 1 until Is do if fpr [i] >fpr [j] then begin a : =fpr [i]; fpr [i] : =fpr [j]; fpr [j] : =a end end; procedure pr (k, fkgn, fmag 1, fmag 2, kgn, magl,mag2); integer k; integer array fkgn, fmagl, fmag2, kgn, magi, mag2; begin integer i, j, jl, 11, 12, f, fl, fs; 11 : = 12 : =0; for i : =1 step 1 until к do begin kgn [i] : =fkgn [fpr [i]]; f : =0; for j : =1 step 1 until fpr [i]—1 do f : =f+fkgn [i]; fs : =0; jl : =f; for jl : =jl + l step 1 until f+kgn [i] do begin magi 111] : =fmagl [jl]; fs : =fs+fmagl [jl]; 11 : =11+1 end; fl : -=0; for j : =1 step 1 until f do 222
fl : =fi+fmagl [jl; jl : =fl; for jl : =jl+l step 1 until fl+fs do begin mag2 [12] : =fmag2 [jl]; 12 : =12+1 end end end; procedure ptani (се, к, к1, кл, кл1); integer се, к, κΐ; integer array к л, кл1; begin integer i, j, jl, 1, 11, 12, ρ, 13; integer array in 1 [1 : ce], inn [1 : κΐ]; real ds; 11 : =fl; for i : =1 step 1 until κΐ do begin 12: =кл1 [11]; inn [i] : =12; for j : =11+1 step 1 until 11+12 do inl [кл1 [j]] : =i; 11 : =11+12+1 end; ds : =0; 11 : =1; for i: =1 step 1 until к do begin 12 : =кл [11]; for j : =11+1 step 1 until 11+12 do begin 13: =in 1 [кл [j]]; 1: =0; for jl : =11+1 step 1 until 11+12 do if in 1 [кл [jl]]=13 then 1 : =1+1; ρ : =12+inn [13]; ds : l-l/(p~l)+ds end; 11 : =11+12+1 end; ptani : =ds/ce end; procedure nd (nsig); integer array nsig; begin integer i; if dmin > у then begin dmin : =y; for i : =1 step 1 until Is do dml [i] : =nsig [i] end else if dmax < у then begin dmax : =y; for i : =1 step 1 until Is do dm2 [i] : =nsig [i] end end; procedure gamma (dmin, dmax, Is); integer Is; real dmin, dmax; begin integer i; if dmin < dl then begin dl : =dmin; for i : =1 step 1 until Is do dgl [i] : =dml [i]; for i : = ls+1 step 1 until nv do dgl [i] : =0 end; if dmax > d2 then begin d2 : =dmax; for i : =1 step 1 until Is do dg2 [i] : =dm2 [i]; for i : =ls+l step 1 until nv do dg2 [i] : =0 end end; procedure otr (nv, Is, dml, dm2, ot); 223
integer nv, Is; integer array dml, dm2, ot; begin integer i, il, j, a; integer array 11, li [1 : 2xls]; for i : = 1 step 1 until Is do begin 11 [il : =dml [i]; 11 [i+ls] : =nv+5 end; il : =1; for i : =1 step 1 until 2xls do begin 11 [j+1] : = 11 [j]; 11 [i] : =-dm2 [il]; il : =il+l; if il=ls+l then go to 11m end end; 11m : a : =0; for i : =1 step 1 until lsx2 do a : =li [i] : =if 11 [i] >0 then a+g else a—g; for i : =1 step 1 until 2 χ Is—1 do for j : =abs (11 [i]) step 1 until abs (11 [i+l])-l do ot [j] : =ot [j]+li [il; a : =abs (11 [2 χ Is]); for i : =a step 1 until nv do ot [i] : =ot [i]+li [Is] end; procedure nomer (i3, kn, u); integer i3, kn; integer array u; begin integer i, j; for i : —2 step 1 until i3 do u [i]:=kn+5; u [1] : =0; Ino : for i : =i3 step—1 until 1 do if i3t^1 then begin if u [i] < kn—i3+i then go to lnom end else go to lcn; go to Icon; lnom : u [i] : =u [i]+l; for j : =i+l step 1 until i3 do u [i] : =u [j—11—|—1; cagr; cpdelta (cmax, camax); mindelta (max, amax); goto lno; lcn; for i : =1 step 1 until i3 do begin u [1] : =i; cagr; cpdelta (cmax, camax); mindelta (max, amax) end; Icon : end; procedure fr; begin 11 : =1; for i : =1 step 1 until к do begin 1 : =кл [11]; for jl : =11+1 step 1 until 11+1 do begin k2 : =кл [jl]; kjt (k2); il : =kc [k2]; выделить (kl, a, ab); приз.; for j : =1 step 1 until g3 do gnp [jl : =0; 224
пар; freq [i, 0] : =1; for j : =1 step 1 until g3 do freq [i, j] : =freq [i, j]+gnp [j] end; for j : =1 step 1 until g3 do freq [i, j] : = freq [i, j]/l; 11 : =11+1+1 end end; procedure cagr; begin integer i, il, j, p, q, 11; 11 : =q : =0; 1 : =1; for i : =1 step 1 until kn do begin for j : =1 step 1 until i3 do if i=£j then q : =q+kgn [i] else begin ρ : =kgn [i]; for il : =1 step 1 until ρ do lpq [1+il] : =q+l; 1 : =l+p; q : =q+p; И : =11+1 end; if 11=i3 then go to ner end; ner : end; procedure delta (kl, k2); integer kl, k2; begin integer i, j; real s; for i : =1 step 1 until 1 do begin j : =lpq [i]; s : =abs (freq [kl, j]—freq [k2, j])+S end; del : =s/2 end; procedure inform (i3, u, inf); integer i3; integer array u, inf; begin integer i; for i : =1 step 1 until i3 do inf [i3, i] : =u [i] end; procedure cpdelta (max, amax); real max; integer array amax; begin 1 : =(k—l)Xce; min : =0; for kl : =1 step 1 until k—1 do for k2 : =kl + l step 1 until к do begin delta (kl, k2); min : =min+ (freq [kl, 0]+freq [k2, 0])/lxdel end; if max < min then begin max : =min; pum : =i3; inform (i3, u, inf); for j : =1 step 1 until 20 do amax [j] : =u [j] end end; procedure mindelta (max, amax); real max; integer array amax; begin min: =+10 # 10 225
for kl : =1 step 1 until k—1 do for k2 : =kl+l step 1 until к do begin delta (kl, k2); if min > del then begin min : = del; mkl : =kl; mk2 : =k2 end end; if max < min then begin max : =min; puml : =i3; inform (i3, u, xinf); for j : =1 step 1 until 20 do amax [j] : =u [j] end end; procedure bee (p, w, xinf); integer p; array w; integer array xinf; begin integer i, j, il, mu, s, y; s : =0; for i : =1 step 1 until ρ do begin у : =xinf [p, i]; mu : =1; for j : =1 step 1 until p—1 do begin for il : =1 step 1 until j do if y=xinf [j, ill then begin mu : =mu+l; go to ml end; ml : end ; s : =S+mu; w [i] : =mu end; for i : =1 step 1 until ρ do w [il : =w [i]/s end; ЛИТЕРАТУРА 1. Cormach R. M. A Rewiev of Classification Journal of the Royal Statistical Society Ser. A, 1971, N. 3. 2. Bock H. H. Automatische Klassification Vandenhocek and Rup- recht. Gottingen: 1974. 3. Айвазян С. Α., Бежаева 5. И., Староверов О. В. Классификация многомерных наблюдений. М.: Статистика, 1974. 4. Макарчук Н. И. Запись и обработка бюджетных данных обследования на ЭВМ. — В кн. Алгоритмы многомерного статистического анализа и их применения. М.: ЦЭМИ АН СССР, 1975. 5. Hartigan J. A. Clastering alogithm. London: Willey, 1975. 226
Орлов В. И. МАРКОВСКАЯ МОДЕЛЬ ДВИЖЕНИЯ ТРУДОВЫХ РЕСУРСОВ Проблемы рационального использования трудовых ресурсов в настоящее время приобретают все большее значение. При изучении процессов движения трудовых ресурсов (межотраслевого, межпрофессионального, территориального и т. д.), являющихся сложными социально- экономическими процессами, широкое применение находят марковские модели. Эти модели позволяют учитывать случайный характер поведения отдельных индивидуумов в движении потоков людских масс. Специфической чертой рассматриваемых процессов является необходимость учета прогнозируемого поведения потоков трудовых ресурсов при выборе плановыми органами того или иного решения. Это обстоятельство обусловливает целесообразность развития и применения управляемых марковских моделей. В простейших моделях этого типа рассматриваются управления, обеспечивающие сохранение или достижение некоторой заданной структуры распределения трудовых ресурсов внутри некоторой системы. Двумя основными способами управления являются изменение величины потока ресурсов при обмене с внешней средой и изменение величины потоков внутреннего перераспределения ресурсов. Отметим, что второй способ более сложен и менее изучен, но представляется более эффективным. В предлагаемой работе будет рассмотрен один из вопросов, возникающих при выборе управления, а именно, вопрос описания множества допустимых целей и множества допустимых управлений. Исследуемая модель является открытым вариантом модели1, предложенной в работе [1]. 1. Простейшие закрытые марковские модели. Начнем с рассмотрения регулярной цепи Маркова с конечным числом состояний к и дискретным временем 2. Вероятности переходов некоторой частицы задаются матрицей Ρ и из- 1 Открытыми называются модели, учитывающие возможность обмена ресурсами между рассматриваемой системой и внешней средой. 2 Основные понятия и результаты теории конечных цепей Маркова можно наитп в [2]. 227
вестно начальное распределение g (0). Как известно, распределение g (t) вероятностей пребывания частицы в состояниях системы в момент времени t определяется следующим образом *(f) = *(0)I*, где g (t) и g (0) — векторы-строки. К марковской модели можно прийти при различных исходных предположениях о характере движения трудовых ресурсов. Мы будем предполагать, что поведение каждого отдельного индивидуума в процессе движения потока трудовых ресурсов с помощью случайного блуждания частицы по состояниям некоторой системы, являющегося цепью Маркова. Предполагается также, что движение потока трудовых ресурсов можно рассматривать как движение N независимых одинаковых частиц, где N — общее число индивидуумов. Нас будет интересовать поведение вектора Ng (t) среднего числа частиц в каждом из состояний через достаточно большой промежуток времени3. Из теории регулярных цепей Маркова известно, что существует предел Ng = lim Ng(t), £->со где g=gP — вектор финальных вероятностей, не зависящий от начальных условий. Более реальная модель, известная под названием «mover-stayer model», была предложена в работе [3], являющейся, по-видимому, одной из первых работ, посвященных применению теории марковских процессов при изучении вопросов движения трудовых ресурсов. В основе этой модели лежит предположение, что вся совокупность частиц может быть разделена на две совокупности частиц разного типа. Частицы одного типа (stayer) — с вероятностью 1 остаются в первоначальных состояниях, а частицы другого типа (mover) — перемещаются из состояния в состояние с вероятностями переходов, задаваемыми матрицей Р. В этом случае Ng(t)= Ng (0) S -f Ng (0) (I - S) F*, 3 Вектор g (t) в дальнейшем будем называть также структурой распределения частпц или просто структурой. 228
где S — диагональная матрица, задающая доли числа частиц первого типа в каждом из состояний. 2. Простейшая управляемая марковская модель. Более реальной, чем простейшая марковская модель, является и открытая модель. Пусть f. среднее число частиц, прибавившихся в состоянии i (если /, ^ 0) или покинувших его (если f. ^ 0) за единицу времени в результате обмена. В этом случае Ng(t) = Ng(0)Pt + %fPt-i; при условии, что g(t)>0 (t = 0, 1, 2, ...)· (1) Предполагается также, что общее число частиц N неизменно, а вектор / удовлетворяет условию 2/^0. (2) В рамках этой модели становится возможным обсуждение (см. [4 ]) задачи достижения и устойчивости 4 некоторой целевой структуры g*y при этом вектор / играет роль постоянного по времени управляющего воздействия. Независимо от начальной структуры g (0), устойчивая цель g* достигается при следующем выборе управляющего вектора /=iV(/-P). (3) Отметим, что соотношение (3) можно рассматривать как условие устойчивости структуры g* во времени и получить его непосредственно из уравнения, связывающего g (t+i) и g (t). При обсуждении этих вопросов возможен и другой подход, использующий методы теории поглощающих цепей. В этом случае предполагается, что кроме обмена с внешней средой возможно исчезновение частиц внутри рассматриваемой системы, для чего вводится дополни- Устойчивость структуры g* в литературе по математической экономике принято называть относительной устойчивостью вектора N*. 229
тельное, поглощающее состояние. Вектор / определяется теперь соотношением f = Ng*(I-Q), где Q — матрица вероятностей переходов между непогло- щающими состояниями, и к 2д<у + и>,= 1 (*=1. 2, ..., А), где w{ — вероятность исчезновения частицы из έ-го состояния. 3. Управление в модели с единственным поглощающим состоянием. Дальнейший прогресс в решении задачи управления получен в работе [5] при предположении, что в такой модели при взаимодействии с внешней средой возможно только пополнение системы новыми частицами. Успех в этом случае обусловлен возможностью выражения вектора внешних пополнений через g*. Для поддержания постоянным общего числа частиц N в момент t+i в систему надо добавлять ровно столько частиц, сколько их исчезает за промежуток времени от t до £+1, т. е. Ng (t)w\ где «штрих»— символ транспонирования вектора-строки w. Если структура вектора-строки внешних к пополнений обозначена через г, 2Г*=1» г<^^> то Ng(t+l) = Ng(t)Q + Ng (t) w'r. Условия устойчивости и достижимости структуры g*, принимающие, соответственно, вид g*(I-Q) = g*w'r9 g(t)Q + g(t)w'r^0 (f = 0, 1, 2, ...), позволяют описывать множество G допустимых целей в геометрических терминах (случай к=3 подробно разобран в [6]). Отметим, что становится возможным также и управление путем изменения элементов матрицы (?, правда, только в том случае, когда Q имеет специальный вид. Подробное обсуждение этого круга вопросов, обзор результатов и обширную библиографию можно найти в монографии [6]. Между моделями с поглощением и моделями с сохранением существует взаимосвязь, на рассмотрении которой 230
мы остановимся. Будем предполагать, что в поглощающей цепи Маркова частица после попадания в единственное поглощающее состояние вновь возвращается в систему в соответствии с распределением, задаваемым вектором г. При этом матрица переходов будет иметь вид р*= и справедлив следующий результат. Теорема (Кемени, Снелл [2], гл. 6). Матрица Р1 представляет цепь Маркова с единственным эргодическим множеством 5. Вектор финальных вероятностей (α1? α2) матрицы Р1, где аг отвечает непоглощающим состояниям, удовлетворяет следующим уравнениям] 0^10' = О, α2Γ + αι(? = αι. откуда g(I—Q) = gwfr, а 4. Описание исследуемой модели. Будет рассматриваться открытый вариант модели, предложенной в [1], в которой, на наш взгляд, в некотором смысле синтезированы идеи рассмотренных ранее моделей. Рассмотрим простейший случай, когда основное уравнение, как ив [4], имеет вид Ng(t+l) = Ng(t)P + f9 где Ν, /, Ρ постоянны. Но, в отличие от модели работы [3 ] теперь предполагается, что каждая частица из состояния i может быть в момент времени t либо пассивной и с вероятностью 1 оставаться в г-ом состоянии, либо активной и 6 Результат справедлив и для случая нескольких поглощающих состояний. 231
тогда ее поведение описывается i-ой строкой регулярной матрицы Р. Предполагается также, что поведение частицы является рандомизацией этих двух возможных способов поведения с вероятностью выбора активного поведения, равной тг В этом случае матрица переходов Ρ предста- вима в виде Р=[1-М(1-Р)], где Μ — диагональная матрица, Мн=тг Управление и допустимые цели. В рассматриваемой модели условие устойчивости некоторой структуры g имеет вид Ng = Ng[I-M(I-P)] + f или NgM(I—P) = f. Заметим теперь, что при устойчивой структуре g будет постоянным и вектор NgM среднего числа частиц с активным поведением и общее среднее число частиц А с таким поведением. Теорема. Система уравнений x{l — P) = f хе! = А, (4) где е вектор-строка, все компоненты которого равны 1, разрешима относительно вектора неизвестных χ единственным образом. Доказательство. В силу регулярности матрицы Ρ существует единственный вектор финальных вероятностей, т. е. единственное решение системы х{1 — Р) = 0 хе' = 1. Отсюда следует, что ранг матрицы системы (4) равен #. Расширенная матрица системы (4) имеет вид II —Ρ ef\ \ f Л) и ранг ее меньше к+1, так как в силу (2) первые к столбцов ее линейно зависимы. Таким образом, решение системы (4) существует и единственно. 232
Следствие 1. Необходимым условием устойчивости некоторой структуры g является существование неотрицательного решения а системы (4). Следствие 2. Необходимым и достаточным условием устойчивости структуры g при заданном векторе а является существование решения системы уравнений Ng.m^a, (i = l/2, ..., к) (5) к при условии ^gi—i, gi^Q·* Следствие 3. Необходимым и достаточным условием существования управляющего вектора т, обеспечивающего устойчивость структуры g является существование решения системы (5) при условии 0 ^ т{ ^ 1 (ί=1, 2, . . . , κ). Полученные выше результаты имеют простую геометрическую интерпретацию, помогающую понять связь между множествами допустимых управлений и множеством G допустимых целей. Так, при фиксированном векторе т, множество всех допустимых векторов а, обеспечивающих устойчивость произвольной структуры g, является выпуклой оболочкой точек с координатами Nm{ (ί = 1, 2, . . . , κ). Отметим, что можно легко учитывать и линейные ограничения на векторы т, g, α. Для примера рассмотрим связь множества G и множества допустимых значений компонент вектора т для случая к=2 при фиксированном векторе а=(0.2 А, 0.8 А), А = 1/4 Ν, 0 <; щ <; <0.25, 0 < т2 < 0.267. На рис. 1 изображены три совмещенные системы координат и жирной линией отмечены множества допустимых значений и целей. Отметим, что при условии 0 ^ т2 ^ 0.25 множество G состоит из единственной точки (0.2, 0.8). При описании множества допустимых целей важную роль играет также условие (I) достижимости целевой структуры g*. При выбранных т и / множество структур g, удовлетворяющих этому условию, описывается набором линейных неравенств Л^[/-М(/-Р)] + />0, £*,= 1, gt>o. 233
Легко видеть, что конфигурация этого выпуклого многогранника зависит от выбора вектора т. Отметим, что матрицу Ρ можно считать эргодической, но при этом приходится считаться с возможной ее периодичностью. Если I период, то можно говорить только о Z-шаговой устойчивости и Z-шаговой достижимости (т. е. устойчивости или достижимости через I шагов). Отметим также, что полученные результаты позволяют исследовать вопросы устойчивости структур в системах Рис. 1. Необходимым и доста- с меняющимся общим числом индивидуумов. Пусть N(t+i) — общее число индивидуумов, находящихся в системе в момент времени ί+l и пусть N(t+i) = (l + bt)Ni9 гДе δ/ = ЩТ) >-1· точным условием устойчивости структуры gt от момента t до момента £+1 при векторе ft зависящим от t6 и некотором векторе m является существование неотрицательного решения системы уравнений {i + bf)N(t) = N(t)gfP + fi (6) или, что то же самое, β В отличие от случая постоянного вектора / мы говорим именно об одношаговой устойчивости структуры gt в момент ί, 234
При любом bf > О матрица (1+δt) I—V невырождена, но случай δ, < 0 более сложен. Если в этом случае воспользоваться, например, критерием Адамара (см. 8), то матрица невырождена при |&,|>πιιιχ2(1_α<)γ4. Нахождение вектора т, обеспечивающего устойчивость заданной структуры g] от момента t до момента ί+1 сводится к вышерассмотренному случаю. Действительно, преобразуя (6), получаем N(t)g;M(i~P)=fh где сумма компонент вектора f) = ft — N(t)g*bt равна нулю. Все большая острота проблемы рационального использования трудовых ресурсов настоятельно требует создания и применения экономико-математических моделей, позволяющих не только прогнозировать движение людских масс, но и управлять ходом этого движения и давать прогноз с учетом этого управления (см. например, [7] гл. 10, 12). Существенной особенностью этого управления является то, что управляющее воздействие оказывается на людей, поэтому оно может носить лишь опосредованный характер, изменяя условия и факторы, влияющие на поведение людей. Необходимость учета неопределенности, присущей поведению каждого индивидуума, обусловливает рассмотрение стохастических управляемых моделей движения трудовых ресурсов, которые в настоящее время мало исследованы. Сложность проблем, стоящих перед исследователями, делает логичным рассмотрение сначала простейших моделей, позволяющих осуществлять экспериментальную проверку, используя ЭВМ. При этом естественно в первую очередь рассматривать управление в марковских моделях, находящих самое широкое применение при изучении рассматриваемых процессов. При рассмотрении вопросов управления возникает ряд проблем, как например: необходимость учета различных альтернативных вариантов управления, приводящую к увеличению объема вычислений при прогнозировании, более точное описание «механизма» распределения потоков трудовых ресурсов, оценивание величины ошибки прогноза с учетом управления. Мы не касаемся последнего 235
вопроса, рассмотрение которого является предметом отдельной работы. Результаты, полученные в предлагаемой работе, позволяют описывать множества допустимых целей и управлений, что позволяет при прогнозировании исключать из рассмотрения заведомо неприемлемые цели и способы управления и учитывать ограничения, наложенные на параметры модели. Основное внимание сосредоточено на рассмотрении вопроса выбора управления, изменяющего «механизм» внутреннего перераспределения потоков трудовых ресурсов, являющегося на наш взгляд, ключевым вопросом при рассмотрении класса управляемых моделей. Более подробное обсуждение экономического смысла предпосылок, лежащих в основе модели, можно найти в работе [1]. Предложенная в ней модификация марковской модели применялась при изучении межотраслевого движения трудовых ресурсов в ходе исследований, проводимых в ЦЭМИ АН СССР. Оценка параметров модели производилась на основе межотраслевого баланса движения трудовых ресурсов. Заметим, что рассматриваемая модель является достаточно общей и может быть применена не только при изучении межотраслевого движения трудовых ресурсов. ЛИТЕРАТУРА 1. Староверов О. В., Орлов В. И. Моделирование движения трудовых ресурсов. М.: ЦЭМИ АН СССР, 1975. 2. Кемени Дж., Снелл Дж. Конечные цепи Маркова. М.: Наука, 1970. 3. Blumen I., Kogan Μ., Macarthy P. /. The Industrial Mobility of Labor as a Probability Process. N. Y.: 1955. 4. Кемени Дж., Снелл Дж. Кибернетическое моделирование. М.: Советское радио, 1972. 5. Davis G. S. Structural control in a graded manpower system. Management Science, vol. 20, No 1, 1973. 6. Bartholomew D. J. Stochastic Models for Social Processes, 2 nd ed. Chichester: Wiley, 1973. 7. Воспроизводство населения и трудовых ресурсов. Μ.: Наука, 1976. 8. Гантмахер Ф. Р. Теория матриц. М.: Наука, 1967· 236
Покровский Б. И. ИМИТАЦИОННЫЙ ПОДХОД К РЕШЕНИЮ ЗАДАЧ УПРАВЛЕНИЯ ЭКСПЛУАТАЦИЕЙ МОРСКИХ БИОРЕСУРСОВ Процесс интенсивного освоения биологических ресурсов Мирового океана советским рыбопромысловым флотом ведет к интеграции подсистем рыбного хозяйства страны, таких как добыча, обработка, транспортировка, сбыт. В этих условиях возрастают требования к качеству планирования и управления эксплуатацией морских биоресурсов. Одним из путей повышения качества планирования и управления является решение этих задач на комплексной основе. Существенными особенностями управления в рыбо- хозяйственной отрасли являются: необходимость учета особенностей состояния промысловой популяции [1] (численность, характер распределения во времени и пространстве, степень влияния промысла и т. д.); необходимость принятия оперативных решений в условиях неопределенности с учетом вероятностного характера промысла, влияния условий среды и др.; территориальная разобщенность объектов и баз промысла; влияние гидрометеорологических условий и характера промысла на транспортные связи между районами промысла и базами снабжения. Эти особенности не всегда позволяют в практике управления оптимально маневрировать производственными мощностями и другими средствами, кроме того, это зачастую делает неэффективными традиционные варианты использования экономико-математических моделей управления, таких как, например, линейно-программные. Поэтому для моделирования процессов управления эксплуатацией морских биоресурсов целесообразно применение таких методов, которые: позволяют последовательно обеспечить реализацию основных положений системного подхода, естественно отражающего комплексный характер современных си- 237
стем эксплуатации морских биоресурсов, а также учесть наиболее существенные связи между подсистемами рыбопромыслового комплекса, предусматривают анализ качества работы отдельных звеньев системы управления и оценку эффективности изменений, вносимых в организационную структуру, допускают возможность оценки и сопоставления вариантов управленческих решений, дают возможность конструирования человеко-машинных систем, обеспечивающих разносторонний неформальный анализ ситуаций и возможность принятия высокоэффективных производственных решений в оперативном управлении. Удовлетворить перечисленные требования удается при построении человеко-машинных имитационных моделей для исследования задач управления рассматриваемым объектом. Рассмотрим модель рыбопромыслового комплекса, состоящего из подсистем: добыча морских биоресурсов; производство продукции; транспортировка продукции; сбыт продукции. Динамическая структура модели представляется рядом уровней, связанных между собой управляемыми потоками. Диаграмма потоков, моделирующих деятельность предприятия, дополняется системой уравнений, позволяющих формализовать изменения, происходящие в системе. При описании моделируемой системы, используются следующие термины, введенные в имитационное моделирование в работе [2]: «уровни», характеризующие накопления внутри системы, например, запасы сырья и продукции на плавучих заводах, число заявок на сырец в подсистеме добычи; «темпы потоков», определяющие мгновенные потоки между уровнями в системе, например, количество транспортируемой продукции в единицу времени; «запаздывания», возникающие при принятии решений, транспортировке и других видах деятельности системы. Уравнения темпов (функции решений) определяют то, каким образом имеющаяся информация об уровнях приводит к выбору решений, связанных с величинами текущих потоков. Работа моделируемой системы начинается с момента поступления в подсистему сбыта заказов на отгрузку готовой продукции в требуемых количествах. При нали- 238
чии продукции на складе производится отгрузка с учетом запаздывания принимаемого решения. При отсутствии необходимого количества продукции заявка поступает в подсистему обработки. Имеющаяся продукция сразу же отгружается, недостающая продукция выпускается при наличии сырья, иначе делается заказ на поставку сырья в подсистему добычи. Здесь с учетом запаздывания, присущего данной подсистеме, происходит обработка заказа. Здесь же вырабатывается решение о темпе обработки заказа с тем, чтобы в заданное время удовлетворить поступившую заявку. Минимальная имитационная систему, включающая в себя «обобщенное» добывающее судно, один «обобщенный» плавучий завод и одно «обобщенное» транспортное судно, описываемое системой запаздываний, содержит порядка 20 уравнений уровней. Общее число уравнений в минимальной системе порядка 80. Расширенная система, имитирующая рыбопромысловый комплекс, в котором добывающие суда представлены в виде «квазиобобщенных» по судовладельцам и типам судов, пловучие заводы — поименно, и также поименно представлены транспортные суда, содержит порядка 500 уравнений. Для получения общего представления о системе «добыча — обработка — транспорт — сбыт» перечислим основные переменные уравнений уровней модели: уровень заявок, невыполненных подсистемой; системный интервал времени (декада); темп выдачи заказов на сырье в подсистему «Добыча»; поставки сырья подсистемой «Добыча»; фактические запасы сырья в подсистеме «Добыча»; сырье, добытое в подсистеме «Добыча»; усредненные требования к функционированию подсистемы; запаздывание усреднения требований; заказы, оформляемые подсистемой; запаздывание третьего порядка; темп выпуска продукции; запаздывание оформления заказов на производство продукции; уровень сырья, находящегося в процессе обработки; темп выпуска продукции, обеспечиваемый данным темпом запуска сырья в обработку, заказы на поставку сырья «Обработке», фактический запас сырья в подсистеме «Обработка»; темп поступления сырья в обработку из подсистемы «Добыча»; сырье запущенное в обработку; уровень сырья, находящегося в процессе транспортировки сырья на базу; поставки сырья системой «Добыча»; запаздывание транспортировки сырья на базу; темп доставки 239
сырья; темп отгрузки готовой продукции из подсистемы «Сбыт»; фактические запасы готовой продукции в подсистему «Сбыт»; продукция, полученная сбытом; усредненные требования на поставку продукции к подсистеме «Сбыт»; запаздывание накопления сырья; заказы на поставку продукции «Сбыту» из «Обработки»; готовая продукция, транспортируемая в сбыт; темп отгрузки подсистемной «обработки»; запаздывание транспортировки продукции в сбыт. Система уравнений уровней описывает взаимосвязи этих показателей. Исследование процессов управления на имитационной модели путем проведения планируемого статистического эксперимента позволяет произвести экспериментальное отсеивание второстепенных факторов. После того, как выделены наиболее существенные переменные, представляется возможным описать основные соотношения, определяющие поведение системы, и получать последующие решения. Известно, что основным назначением имитационных моделей является анализ возможных управленческих ситуаций, а не построение прогнозов оптимальных решений. Однако имитационные модели позволяют построить общую картину работы системы и определить области использования других типов моделей, в частности, прогностических и оптимизационных. Ниже рассмотрим две модели, используемые совместно с имитационной моделью рыбопромыслового комплекса. Одной из важнейших задач управления рыбопромысловым комплексом является расстановка добывающего флота по отдельным квадратам промыслового района. Эта задача должна решаться на основе комплекса данных о гидрологической и метеорологической обстановке района промысла, предыстории пространственного распределения объектов промысла, прогноза поведения его в будущем и т. п. Для решения задачи расстановки необходимо иметь математическую модель поведения объекта промысла под влиянием факторов внешней среды. Однако построение такой модели затрудняется тем, что формализованные модели первичных процессов либо достаточно сложны и громоздки, либо просто отсутствуют. В этом случае представляется целесообразным построение статистической мо- 240
дели, обеспечивающей получение результатов при неполной информации о механизме процесса и постепенное уточнение параметров модели при накоплении информации об объекте с использованием методики, изложенной в работе [3]. Схема работы подсистемы добычи рыбопромыслового комплекса представляется следующей. Имеется группа добывающих судов, которые должны распределяться по квадратам промыслового района. Для каждого из квадратов промыслового района производятся измерения ряда параметров (температура на различных глубинах, соленость, скорость течений, биологическое состояние объекта промысла и проч.), позволяющих сделать ряд качественных предположений об ожидаемых результатах работы добывающих судов в данном квадрате. Перед началом очередного этапа -работы добывающего флота или при изменении промысловой обстановки группы специалистов, ответственных за принятие решений о перераспределении флота (в дальнейшем «экспертная группа») производит обсуждение результатов работы добывающих судов за предшествующий период, осуществляет анализ упомянутых выше параметров и дает оценку каждого квадрата по ряду показателей, таких, как ожидаемый вылов в единицу времени для судов различных типов, продолжительность работы, рекомендуемое для расстановки в данном квадрате число промысловых судов и др. Необходимо с целью количественного анализа процесса расстановки и повышения эффективности решения задачи расстановки добывающего флота по квадратам промыслового района построить математическую модель прогнозирования распределения объекта промысла по квадратам с учетом деятельности экспертной группы. Итак, пусть имеется промысловый район, состоящий из N квадратов, каждый из которых характеризуется s факторами. Информация об обстановке по квадратам района промысла представляется членам экспертной группы, т. е. каждому эксперту предъявляется вектор χ. = (χ([\ xf\ . . . , x\s)), i = i, N. В результате экспертного анализа каждый из членов экспертной группы выдает оценку промысловой ценности каждого из квадратов по q показателям jyv = (i/(J)f у$,..., у$), ν — номер эксперта, v=l, 2,...t т. Далее необходимо установить зависимость между X. и у.ч для ϊ = 1, N и ν— 1, m. 241
Предварительная обработка статистических данных о X предполагает выделение в них однородных статистических группировок, например с использованием алгоритмов расщепления смеси нормальных распределений [4]. Требуемая зависимость отыскивается в виде: где Б — оператор, определяющий вид статистической зависимости между у и χ; Δν — параметр, определяющий ошибку эксперта, Δ-^(0, Σ); Σ — дисперсия экспертной оценки. Характерной особенностью данной задачи является возможность корректировки данных об у по результатам работы добывающего флота. Пусть, в данном случае, имеются данные о результатах работы добывающего флота zi по квадратам, позволяющие проанализировать качество прогнозов yt и определить требуемые изменения. Для решения этой задачи строится зависимость между результатами работы добывающего флота zi и прогнозными экспертными оценками у.. Легко видеть, что данная задача аналогична предыдущей и может быть представлена в виде где С — оператор, определяющий вид статистической зависимости между ζ и у, δν — параметр, определяющий «шум» экспертных оценок. Отыскание последней зависимости позволяет решить задачу отыскания max ζ по ^ν, тогда если у0 — точка экстремума функции ζ, то в этом случае расстояние между у0 и у^ позволяет ввести весовую функцию w>v=H?(pv), которая при умножении на соответствующие экспертные оценки позволяет выполнить пересчет моделей у (х) и ζ (у) с целью отработки коэффициентов прогноза. В результате работы указанного выше статистического алгоритма представляется возможным оперативно определять такие характеристики как общий вылов, рекомендуемый по квадратам, интенсивность и продолжительность работы группы судов в каждом статистическом квадрате. Полученные параметры прогноза у, в частности Υi — общее допустимое число добывающих судов, работающих в квадрате с номером i, vtj вылов на планируемый период 242
судном типа / в квадрате с номером г, используются в модели расстановки флота по квадратам промыслового района: Ν Μ тт^Л c{Jy{J% у *=ι >=ι Ν Μ .7=1 Vijv*0, i = U N, / = 1, ЛГ, где c.j — затраты на содержание судна типа / при работе в квадрате с номером ц Ρ — оперативный план вылова; y{j — число судов типа /, назначаемое для работы в квадрате i. Рассмотренная прогностическая модель тесно связана с описанной выше имитационной моделью рыбопромыслового комплекса, которая является средством для принятия оперативных решений по выбору общих вариантов использования добывающего флота, обеспечения его транспортом, организации снабжения. Следующая система, работающая совместно с имитационной моделью рыбопромыслового комплекса, представляет собой линейно-программную модель оптимального планирования совместной деятельности добывающего, обрабатывающего и транспортного флотов по периодам промысла. Пусть в состав рыбопромыслового комплекса входит добывающий и обрабатывающий флоты. Экспедиция оплачивает затраты транспортного флота на вывоз продукции и снабжение добывающего и обрабатывающего флотов. Прибыль добывающего флота предполагается зависящей от объема добычи и ее качества, от затрат, определяемых типом судна. Прибыль перерабатывающего флота предполагается зависящей от объема выпускаемой продукции, номенклатуры и сортности. Затраты перерабатывающего флота зависят от типа плавучих заводов, выпускающих данную продукцию. Затраты на транспортировку продукции предполагаются зависящими от типа перевозимой продукции и типа транспортного судна. 243
В данной модели приняты следующие обозначения: cJk — цена единицы веса рыбы к «качества» (это может быть вес рыбы, размер, технологические показатели и т. п.), выловленной судном /'; cJk — себестоимость единицы веса рыбы качества к, выловленной судном типа ;; x'jk — вылов судами типа / рыбы качества к в промежуток времени с номером г; Cj4P — цена единицы продукции наименования ρ сорта Ζ, выпускаемой перерабатывающим судном типа ;"; ej'ip — себестоимость единицы продукции наименования ρ сорта Ζ, выпускаемой перерабатывающим судном /'; χϊΊ'ΐρ — объем выпуска продукции наименования ρ сорта I перерабатывающими судами у" в промежуток времени г; сп — стоимость перевозки единицы продукции наименования судном типа s на маршруте щ Х1Г8 — объем транспортировки судами типа s продукции наименования ρ в промежуток времени г на маршруте п. С учетом принятых допущений и обозначений линейно- программная модель совместного планирования деятельности добывающего, перерабатывающего и транспортного флота имеет следующий вид: {К J R J' L Ρ R + 2222 (cfip — tyip) xfip — j'=l /=1 p=l r=l N R Ρ N R Ρ S \ 2j Za 2j 2j CpsXps | » я=1 r=l p=\ *=1 ) ΣΣ*5*>^. r=i, 2,.... д, К J L R ^ ^ ^J ^ Cj'lpKj'lp ^ *y fc=l j'=\ /=1 r=l К J Ρ L J' 22*/*—22 Σχ/ρΐ<^ k=l j=\ p=l /=1 >'-l 244
П Ρ L J A R Ρ S ΣΣΣΣ*'„,-ΣΣΣ Σ*?.=ο- Данная модель построена для группы, состоящей из указанных типов судов, работающей по критерию максимума прибыли, при этом предполагается, что часть прибыли затрачивается на работу транспортного флота, вывозящего продукцию плавбаз. Для величин xrJk, χ1' , χ™ максимизирующих прибыль экспедиции, с помощью имитационной модели нетрудно определить наиболее эффективную организацию сбыта продукции, объемы и наилучшие варианты снабжения, наилучшие варианты взаимодействия добывающего и перерабатывающего флота. Предлагаемая система моделей позволяет проводить: 1) построение оптимального плана работы всех видов флота — системы обеспечивающих мероприятий и их корректировку по результатам фактической деятельности; 2) исследование влияния плановых ограничений и нормативных коэффициентов на экономические показатели работы комплекса; 3) анализ различных вариантов выпуска продукции перерабатывающим флотом и организациями сбыта. Анализ результатов расчетов по реальным данным показывает экономическую целесообразность использования имитационного подхода в решении задач управления эксплуатацией морских биоресурсов. ЛИТЕРАТУРА 1. Покровский Б. И. Задачи оптимального управления некоторыми типами сложных биологических систем. Тезисы докладов всесоюзной конференции «Проблемы исследования и освоения мирового океана». Владивосток: 1976. 2. Форрестер Дж. Основы кибернетики предприятия. М.: Прогресс, 1971. 3. Айвазян С. А. Об опыте применения экспертно-статистического метода построения неизвестной целевой функции. — В кн.: Многомерный статистический анализ в социально-экономических исследованиях. М.: Наука, 1974. 4. Айвазян С. Α., Бежаева 3. И., Староверов О. В. Классификация многомерных наблюдений. М.: Статистика, 1974.
IV. НЕКОТОРЫЕ ТЕОРЕТИЧЕСКИЕ РЕЗУЛЬТАТЫ МНОГОМЕРНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА И ТЕОРИИ ВЕРОЯТНОСТЕЙ [Лурье А. Л.[ ОБ ОБРАЩЕНИИ ЗАКОНА БОЛЬШИХ ЧИСЕЛ И НЕКОТОРЫХ ФУНКЦИЙ РАСПРЕДЕЛЕНИЯ Рассматривается последовательность пар случайных величин (%f Ъ). п=1, 2, ... В разделе 1 исследуются условия, при которых из ИтР{|ц,-*|<.|$,=*} = 1, е>0» (1) Я->СО следует, что и ηηΐΡ{|?„-^|<ε|η„ = ί/} = 1, е>0. (2) Я->00 В разделе 2 исследуются условия, при которых \р$.<*\'п.=у)-Р-р{\<2у-*\*.=у))№<р. (3) Я->СО Под условной вероятностью Ρ{4|ξ = #|} для случая, когда Ρ (ξ = χ) = 0, понимается lim Ρ {Α/1 ξ — χ | < h), если *-M) такой предел существует3. 1 Здесь и далее запись «е > 0» означает «для любого е > 0». — Прим. ред. 2 z£ знак равномерной сходимости (по х). 8 Такое же определение дано в кн.: Гнеденко Б. В. Курс теории вероятностей. М.: Наука, 1969, § 52. — Прим. ред. 246
Обозначим через Фп(у\1п = х) условные функции распределения- величин ηη, а через Fn(x)—безусловные функции распределения ξΛ. Для безусловных функций распределения т\п имеем φ„ω= S ф„(г//и^»(У. а условные функции распределения Fn (χ \ т\п = у) величин ?„ будем определять при помощи обобщенной фурмулы Байеса: ) P(\4n-y\<h\UdFn$n) Λ^° J Р(\ъ-У\)<Ь\Ы*Рп£п) 1. Теоремы об обратном законе больших чисел. Указанные выше задачи представляют интерес при рассмотрении статистической проблемы оценки неизвестных параметров по результатам наблюдений: ξ, могут интерпретироваться как неизвестные параметры, η„ — как их статистические оценки. Предельное соотношение (1) обычно устанавливается теоремами о ваконе больших чисел, где оно выводится из предпосылок, определяющих распределения Ф^у/^—х) (прямой закон больших чисел). Изучение условий, при которых из (1) следует (2), может рассматриваться как обобщение теорем об обратном законе больших чисел, т. е. теорем, в которых справедливость (2) выводится из предпосылок, характеризующих безусловные распределения величин ξη и условные распределения величин \. Преобразуем левую часть выражения (2) при помощи формулы Байеса J P(\-4n-y\<mn)dF^,) *-*°ί p(Un-y\<mn)dFn&) — 00 Необходимое и достаточное условие справедливости (2) можно, очевидно, записать в таком виде: 247
lim UeU>! = 0, e > 0. (δ) J P{\T\n-y\<h\i,)dFn£u) y-i В качестве безусловного распределения \п в теоремах об обратном законе больших чисел чаще всего рассматривается равномерный закон распределения или принимается более общее предположение о существовании плотностей вероятности /я( £„)=-?"( У» не зависящих от η и удовлетворяющих некоторым ограничивающим условиям. Так, Мизес при доказательстве обратной теоремы Бернулли принимал, что / (ξ) — функция, ограниченная сверху, непрерывная и не равная нулю при 1=у [1 ]. См. также [2, с. 406—409]. (В условиях теоремы Бернулли ηη — частота наступления некоторого события при η независимых опытах, ξ — вероятность этого события в каждом опыте.) Как показано в [3], обратная теорема Бернулли остается в силе и при более общих предпосылках. Необходимо и достаточно, чтобы F (£) в точке %=у являлась бы возрастающей функцией ^(г/ + е)_^(у-Е)>0, ε>0. (6) При переходе от теоремы Бернулли к более общим формулировкам закона больших чисел «обращение» соответствующих теорем встречает значительные трудности. Так, подчинение случайных величин \ условиям теоремы Чебышева недостаточно для справедливости (2) не только при предпосылке (6), но и при более сильных требованиях к «априорным» вероятностям 4. Можно, однако, сформулировать следующее общее положение. 4 Следующая задача может иллюстрировать сказанное. Пусть измерения некоторой физической величины подчинены нормальному закону распределения со стандартным отклонением σ=(ξ—ι;)2, где ξ — истинное значение измеряемой величины, ν — некоторое действительное число. Возможные значения ζ равновероятны и заключены в интервале (ν— α, ν-\-α), α > 0. Легко убедиться, что если ч\п — средняя арифметическая из η измерений — равна ι;, то не только не имеет места (2), но Ρ (\ξ—ν\ < β|η„-=ΐ7) -> 0 при η -> со, 0 < ε < а. 248
Если для любых χ имеет место (1), то ]imP{/>(|6.-y|>«h, = y)>.0}=0, ε0>0, (7) т. е. вероятность таких значений \ (таких у), при которых условная вероятность неравенства |^—-у\^е превышает ε0, стремится к 0 при /г-> оо; другими словами, вероятность значений \, при которых применим обратный закон больших чисел, стремится к 1. Сформулированное положение является следствием некоторых теорем о безусловном законе больших чисел, опубликованных в [4, теоремы 1 и 2]. Определим некоторые свойства условных распределений величин \, при которых справедливо предельное соотношение (2), если безусловные распределения величин ξ, удовлетворяют требованиям, несколько более общим, чем упомянутые выше условия Мизеса. Для сокращения записей будем в дальнейшем обозначать вероятности Ρ (\\—у\ < h | У через Ρ (ι/, h, %). Теорема 1. Если существуют плотности вероятностей /»(У—^яС U > равномерно ограниченные сверху, а в окрестности точки %п=у — равномерно ограниченные снизу, т. е. если /»(ϋ>λ, λ>0, |ζ-!/|<Α, Δ>0 (8) и при этом при η -> оо J P (if, h, ξη)άξη ]imLl^!>! „ο, ε>0, (9) Л^° J Ρ (у, h, %n)din у-г то имеет место соотношение (2). Теорема 2. Если ξη подчинены равномерным законам распределения, причем ап ^у <^ Ь„, где ап и Ъп — границы возможных значений ^, то условие (9) необходимо и достаточно для справедливости (2). Следствие. Если при подчинении £й равномерным законам распределения и соблюдений условий ап ^ у ^ Ьп, где ап и Ьп — границы возможных значений £„, имеет место соотношение (2), то оно справедливо и при подчинении функций распределения ξ, менее жестким требованиям теоремы 1. 249
В самом деле, из теоремы 2 следует, что в этом случае соблюдается предельное соотношение (9) и тем самым выполняются все условия теоремы 1. Для случайных величин \, подчиненных нормальным законам распределения, справедливы следующие теоремы. Теорема 3. Если η„ подчинены нормальным законам распределения с центрами ξη и стандартными (квадрати- ческими) отклонениями оя: — 00 $<с, е>1. (11) где о'п, с« — любые возможные при данном η величины стандартного отклонения ση б и имеет место соотношение (1), a Fn(^) — безусловные функции распределения ξ, — при значениях ξ,=ί/ равномерно возрастают: Р.{У + *)-Р.(У—)>Ч·). ^>0. λ(β)>0 (12) (в случае Fn(x)=F (χ) достаточно F {ys)—F(y—e) > 0), то справедливо (2). Теорема 4. Если выполняются условия (10), (12) и (1) теоремы 3, а опявляются независимыми от ^ случайными величинами, то справедливо (2). Доказательства теорем 1, 2, 3, 4 сводятся к установлению справедливости соотношения (5). Приведем доказательство для теоремы 4. Доказательство. Обозначим через θη(ζ) последовательность функций распределения случайных величин ап. В соответствии с условиями (1) и (10) Ρ(\ιι„-χ\<*\Κ=χ)= со #+§ "кжМ-'^чг'Ь"*0-*1· (13) 0 х-ш β >0, η -*> оо Под оп можно понимать как фиксированные, так и случайные величины, зависимые или не зависимые от ξη. В любом из этих случаев теорема остается в силе при соблюдении условия (11). 250
Для того чтобы (13) имело место, требуется, чтобы при любом сколь угодно малом Δ > О ИтР(ай>Д) = 0. (14) Я->СО Отсюда КтР(\1„-у\<:е\% = у) = »->оо = °Т-^ . 6>0. (15) \i S ехр( (ξ" v)2)dFn(t„)dd„(,n) О —со Необходимым и достаточным условием справедливости (2) будет поэтому Δ ton0 /У = 0. е>0. 0 у-* (16) Но левая часть (16) меньше, чем Δ !^«р(м) S ■"■■<« л.<°.) (17) Уменьшая Δ, выражение (17) можно сделать сколь угодно близким к нулю. Следовательно, имеет место (16) и (2). 2. Теоремы об обращении некоторых функций распределения. Лемма 1. Если можно указать для любых ε > 0, е0 > 0 сходящуюся к 0 последовательность положитель- 251
ных функций уп{у), которая при достаточно больших η удовлетворяет неравенствам 6 Р(\ъ-у\<?.Ш%.=у)>1-: (18) ^ ™Р(\Ъ-(2У~*)\<>1\Ъ = У)^ <1+«. У-9.(у)<*<У + ?Ли), (I9) iSmSJ»1*-"0""'* <£; i'-укь. (2°) j *(h„-H<*li»)«»S· Г *(1т»-И<*1?«)««« :|V-y[<«<> Пту«(у)<[у-у|<ь (2l) и если при значениях %н = у существуют плотности вероятностей fn{y) = F'n{y), равномерно большие нуля и равномерно непрерывные в данной точке: ШЖ λο>ο. 1/ЛУ + Д)-Ш1<*. λ>0. |Δ|<.(λ)>0, (22) то |^(«|η»=»)-[ΐ-φ.(2ν-*|ξ,=»)]|^ο. (23) й->00 Доказательство. По формуле Байеса имеем: \ ρ (у, h, у<г^,(У Р.{ф. = У) = Ьта^ . (24) — со При достаточно малом ε0 и достаточно больших η формулу (24) для х, заключенных в интервале (г/ — <р„(г/), y-\-fn(y)), можно написать так: 6 Если и в числителе, и в знаменателе при некоторых значениях # и у будут получаться нули (при h > 0), то при проверке соотношения (21) принимаем 0=1. Условие (19) означает, что распределение разности η„—ξ„ при фиксированном ζη слабо зависит от значений ξ„, если они заключены в указанном интервале. 252
*Ί.(*|η«=»)= У~Ч У~<?п(уУ' J P(if,A,?Jd^«lJ+ J P(y,h,tn)fn(Zn)dZn + —со y-e0 = lim y-9«(y) . (25) *"*° J P[V,h,b)dF»(t,) + \tn—y\>4 + f P(*. л, &,)/.(« «» + <?n(y)^\tn-y\ <eo + J P{y.h,U)f{tn)dtn У~<?п(У) Разделим каждый член числителя и знаменателя правой у+Ыу) части (25) на f Ρ (г/, /г, ln)fu (ln)d£u. Последний член зна- у-Уп(У) менателя превратится в 1, а первые два члена примут вид J Ρ (у, h, У dFn (У fn (ξη) f Ρ (у, Α, ξ,) άξη I ^—У l>go и y»(yXlg»—yl<so , у+Ыу) y^niy) h (У J ρ (у. а. ?J ίζη f (у J ρ (у, а, у «я У~<Ря(У) У~<Р»г(у) ГДе /«(У и /ЛУ —сРеДние значения функций /„(£J на соответствующих интервалах. В силу условий (20), (21) и (22) пределы обоих этих выражений (при /г-*0) могут быть сделаны сколь угодно малыми, если взять достаточно большие п. То же самое справедливо и для первых двух членов числителя, представляющих собой части соответствующих членов знаменателя. Вместо (25) можем написать р«{х\-ч„=у)= = ?. + <*+ft)Mm£gj> , (28) f Ρ (». Α. ξ,)/„(?„)«. h-*0! где α„, β„->0 при тг->оо. 253
Отсюда при помощи условия (10) и учитывая свойства /я(£») в окрестности %п = у получим р,(*\-ц»=у)= χ j Р(\Ъ-{2у-*)\<Н\Ъй = у)ах = ^ + (l + TJlta"»S, , (27) j р[\ъ-&у-*)\<ь\Ь = у)** гДе а«» Тя-^0 при и->оо. Выразим вероятности, входящие в (27), при помощи функций распределения Фп(у\%п) и разделим числитель и знаменатель на 2/г. Полагая Фп(у\1п) в точке разрыва (если такие имеются) равными у [Ф„(г/ + 0 |ξΜ) + Φ„(?/~-0| ξΜ)], произведем следующие преобразования: а; {Ф„(20-» + Л|?,=.у)- - ( 2fe J = «,+(1 + т.)Цщ -ф.(2у-»-*1е,=у))Д» = gj j {Фя(2у —z + A|6ft = |f) — У-9й(У) — „ -LM _Lv \ ф* (У + <Р„ (У)/Е„ = У) — Фя (2у - х\%п = У) /9сч — а- + ^ + Т^Фя(У + Тл(у)/?я=у)-фя(у--^(у)/?я=у)· ^ ; В силу условия (18) знаменатель дроби, входящей в правую часть (28), и первый член числителя стремится к 1 при η-+ оо. Следовательно, для х, удовлетворяющих неравенству \х—у\ < %(у), имеет место (23). Но отсюда вытекает, что и для х, лежащих вне интервала (у—%(у), у+%(у)) справедливо это предельное соотношение. В самом деле, оба члена левой части формулы (23) в силу условия (18) при η -> оо равномерно сходятся или к 0 (если χ <Ι < У—ЪгШ) или к 1 (если χ > у+%(у)). Замечание 1. Если функции Fn(x) дифференцируемы при любых х, fn(x) равномерно ограничены сверху, т. е. fXx) < ^ (^ i> 0)» и в точке у соблюдаются неравенства (22), то условия (20) и (21) могут быть заменены одним 254
ί Р(\ъ-у\<ь\Ь»)*Ъп ййш^ <ε (21,) J P{\-nn-v\<h\Hn)din у-Ыу) Замечание 2. Из (23) и (18) вытекает применимость в условиях леммы обратного закона больших чисел. Теорема 5. -Если имеет мебто соотношение (1) и <МИи=в.(У-и. (29) где θη — функция распределения разности (η„—У, причем Fn(x) удовлетворяют условиям, указанным в замечании к лемме 1, то Ι*.(*Κ==ιΟ-[1-Φ.(20-*|ξ,=0)]| = = Ш*\\=у)-И-в.{у-*)]\ £,<>· (30) В справедливости теоремы нетрудно убедиться при помощи леммы 1. Теорема 5 была доказана С. Н. Бернштейном для непрерывных случайных величин [5]. Им же отмечена ее справедливость для более широкого класса случайных величин. Теорема 6. Если ф"<^->=;^Лехр{'=&5г1Ь" <31> — 00 где o)w( у — последовательность положительных функций, причем о)я(У=>0, п-> со, (32) a In ωη(Εη) в точке 1п=у равномерно непрерывен: |1ηω),(ί/ + Δ)-1η«,(Ι(ί/)|<λ) λ>0, |Δ|<β(λ)>0,(33) и если соблюдается условие (22) леммы 1, то при η -> со —со Доказательство. Полагаем cpw( y)=to)n(y), где t > 0. Очевидно, что tu>n(y) -> 0 при η -» оо и что в силу свойства нормального распределения (31) можно, выбрав t доста- 255
точно большим, показать, что неравенство (19) также будет соблюдаться. Средний член этого неравенства выразится так: i Г-(у - *)»] ω„(χ)βΧΡ\ 2ω|(χ) /_Ш,(У)„„.Г-(У-*),К(У)-'4(«)П /о-Л 1 f.I,,f-(y-*),l~M«(*) Р1 2ω«(*)ω2(») /' ^ шг,(г,)еХР1 2«4(у) / Оба множителя правой части (35) сколь угодно близки к 1, если η достаточно велико, а х, в соответствии с условием (19), удовлетворяет неравенству: \у — х\<^уп(у) = = 4(0)· Остается проверить, выполняются ли неравенства (20) и (21). Из (31), (32), (33) следует lim P(\4n-V\<h\%n = x) _ J Р(\Ъ-У\<Щ,)СЦП ">»(* ι i-(y-x)2] :)VSieXpl 2И2(Ж) J ^Rli 3 expl 2»5(,) Γξ" У-'шя(У) J Ρ(Ι η,-if КA/W «. у1тЧп(.»Х\Ьн-!/\<Ч ί ρ (Ι η.-» Κ Α/ω«»?. i + P. Γ , f-(y-U2l r ^t%(,y)<|Sw-yl<e0 (36) У+*<«>й(У) : 1 у-Ы„(у) ι + *„ г rrnf-(y-6»>1.rr е>0, (37) где oin и Ря сколь угодно малы при достаточно больших η и малом е0. Поскольку и>и(х) it 0 при п-> ооэ числитель (36) при #? удовлетворяющих неравенству \у—х\ > ε0, равномерно стремится к нулю; путем соответствующего выбора t 256
знаменатели обоих выражений могут быть сделаны сколь угодно близкими к;«1, а числитель в (37) сколь угодно близким к нулю. Отсюда вытекает справедливость неравенств (20) и (21). Из соблюдения всех условий леммы 1 следует (23), а тем самым и (34). Следствие 1. Если ф»^=тк S ^{=4^}^ <31'> причем оя-> 0 при п-> оо и соблюдаются условия (22) леммы 1, то при и-» оо F«^*=*>-zk S^i11^}* :0. (34') Очевидно, что последовательность величины ап удовлет- воряеФ требованиям теоремы 6 к функциям ωη(ξ„). В частности, теорема 6 применима, если η — средняя из выборки объема η из нормальной совокупности с фиксированным стандартным отклонением σ. В этом случае ая = σ Следствие 2. Если \ — средняя арифметическая из η случайных величин, каждая из которых подчинена нормальному распределению с центром ξ и стандартным отклонением σ = ω(ξ), причем ω(ξ) ограничена сверху, a In ω(ξ) равномерно непрерывен, и если безусловная функция распределения F( ξ) имеет в точке Ъ=у производную / (у) > 0 и непрерывную в этой точке, то при га-» оо '■<-Ι*='>-.Ί&Γ W{=M« —00 : 0.(34") Лемма 2. Если можно указать для любых ε > О, е0 > 0 последовательность положительных функций уп(у), которая при достаточно больших η удовлетворяет неравенствам (20) и (21) леммы 1, если при этом выполняется условие (22) и при достаточно больших η и малых h > О 257
(38) \y — *\<Vn(v)> гДе ^»(ί// U ~* последовательность функции распределения, удовлетворяющая условиям (18) и (19), а у (и, К) — положительная функция от п, Л, то при τϊ-> оо Ι^.(*|η.=^)-[ΐ-^.(2ν-*|ξ.=»)]|^ο. (39) Доказательство. Как показано при доказательстве леммы 1, в силу условий (20) и (21) для #, заключенных в интервале (у— φ„(#), г/+Фя(#)), имеет место равенство (26). Условие (38) позволяет выразить вероятности, входящие в (26), при помощи функций распределения Ψ(ι/| ξη) (множитель ν (/г, К) при этомс ократится), для которых справедливы (18) и (19). Отсюда следует, что, как и при доказательстве леммы 1, мы придем к формуле (39). Теорема 8 (Обратная теорема Лапласа). Если \ -— частота наступления событий А при η независимых испытаниях, а ξ — вероятность наступления этого события в каждом из них, то при и-» оо ^i^)-^rraS«p{^5r}* :0, (40) 0<у<1, если только безусловная (априорная) функция распределения F (ξ) имеет в точке \=у производную f (у) > 0, непрерывную в этой точке. Доказательство. Полагаем —00 В силу локальной теоремы Лапласа lim Pftn=¥\i) «^ = 1, 0<ξ<1. (42) ν2πηξ(1-ξ)βχρ1 2ξ(1-ξ) J 258
Поскольку для ξ, удовлетворяющих условию ε < ξ < < 1—ε, соотношение (42) осуществляется равномердо, из локальной теоремы Лапласа вытекает соблюдение неравенства (38) леммы 2 для г/, представляющих собой значения частоты \, если принять In(y) = tyL(L=J!}9 ί>0, V(n,h) = nh. Обозначая через ωΛ(ξ) выражение 1/ — -,. легко убедиться, что в отношении функции Ψη(#/ξ) соблюдаются соотношения (31), (32), (33) теоремы: .7. Отсюда следует, как показано при доказательстве теоремы 7, выполнение условий (18) и (19). Для завершения доказательстваследует убедиться, что функция распределения χ (частоты) Φη(ι//ξ), представляющая собой биноминальный закон, удовлетворяет неравенствам (20) и (21) и что, следовательно, соблюдаются все требования леммы 2. Так как \ — дискретные случайные величины, то неравенства (20) и (21) примут вид J.Hry]i=x) <*· ι*-*ι<·.. (20') J Ρ(η»=?|ξ)« Л»(У)<|Е—У|<го ^„ С)\1\ Преобразуя левые части этих неравенств при помощи локальной теоремы Лапласа, получим (1 +«») f 1 S ^Ж**р{ Чц§*}<* У/2% J ωη^ς; * ι лш- νς; J //o\ у-Ып{у) \^0) у—Шп(у) у+г0 » ί ^(η.= ^|ξ)« + « J *(ъ = И6)Л У-*р У-И<%(у) ^^ (44) ~71Г 1 "=^?ΓβχρΙ"-ϊϊ(ίΓ/* где ая -> 0 при л -> оо. 259
Поскольку в отношении функций Ψη(ι/1 ξ), определяемых равенством (41), соблюдаются условия (18) и (19), знаменатель выражений (43) и (44) при достаточно больших η сколь угодно близок к 1. Для доказательства (20) и (21) остается убедиться, что числители в (43) и (44) могут быть сделаны сколь угодно малыми. Для случайных величин \, подчиненных биноминальному закону распределения, можно показать (см. [3]) справедливость следующих соотношений: y-r-S^O r, S>Q. Числитель (43) при соблюдении условия \х- удовлетворяет неравенствам пР (\ = y\t = %)<nP (К = У\1 = У + &о)> nP(-n„ = y\t=x)<nP(%=y\t = y—%)· Так как в силу локальной теоремы Лапласа P(\=v\l=y)=(i + K) ^ny(l-y) ' (45) У К εο (46) (47) где β„-»-0 при ге-*оо, то неравенства (46) можно записать в следующем виде: пР(\ = у\1 = *)<(1 + β.) X V^ity (Ι - у) P(n„=y\Z = y±*o) Χ Ρ(4»=ν\ϊ = ν) (48) Отношение вероятностей, входящее множителем в первую часть (48), меньше ехр(—^в^п) в силу (45), и, следовательно, пР(у\п= у\% = х)-*0 при тг->оо. Для Р(т\п = у\1) при условии, что ξ<ί/ — ωΜ(?/) = = У — *Ί/ ~~ > в СИЛУ соотношений (45), локальной теоремы Лапласа и условия (19) имеет место неравенство
p<"-=»ls><v2J,t/-,)8,lpbr)x Xexp[-2(j,-(]/tiiiil-s)1„]. (49) Первый член числителя в (44) удовлетворяет поэтому неравенству η \ РЛ=г|1)*<-Щ^-*»^х = (1+Р,)*» л^\ г (_2^2) dz < —ί2 < 2-, (50) 4Vy(l— у) и путем выбора достаточно большого £ может быть сделан сколь угодно близким к 0. Аналогичным образом проводится доказательство для второго члена числителя. Из соблюдения всех условий леммы 2 вытекает справедливость (39), а тем самым и (40), поскольку Ψ^(ζ//ξ) определяется равенством (41). Замечание. При обычной формулировке обратной теоремы Лапласа (см., напр., [1 ]) требуются существование и непрерывность /(£) для всех точек сегмента [0, 1]. Для приведенного доказательства достаточно существования и непрерывности / (I) в точке, соответствующей полученному значению частоты: \=у. ЛИТЕРАТУРА 1. Mises R. Wahrscheihlichteitsrechmingimd ihre Anwendungen in der Statistik und theoretischen., Physik., W.: 1931. 2. Бернштейн С. Я. Теория вероятностей. Μ.—Л.: 1934. 261
3. Лурье А. Л, Прямой, обратный и безусловный законы больших чисел. ДАН, т. XLIX, 1945, № 8. 4. Лурье А. Л, Об обратной теореме Бернулли. ДАН, т. L, 1945. 5. Бернштейн С. Η. О доверительных вероятностях Фишера· Изв. АН СССР, т. 5, 1941, № 2. Орлов А. И. НЕЧЕТКИЕ И СЛУЧАЙНЫЕ МНОЖЕСТВА 1. Элементы теории нечетких множеств В математических моделях реальных явлений используют, как правило, такие множества, соответствующие употребляемым понятиям, что на вопрос: «Принадлежит ли данный объект данному множеству?» всегда совершенно точно отвечают либо «да», либо «нет». Между тем естественный язык, которым мы пользуемся в обыденной жизни, является в основном нечетким. Всем нам понятна фраза: «Небо — голубое». Можно ли точно указать, при какой длине волны голубой цвет переходит в зеленый? И может ли иметь смысл использование этой границы? Если мы хотим обучить робота понимать нашу речь, то должны иметь аппарат, адекватно отражающий расплывчатость употребляемого языка. На роль такого аппарата претендует развиваемая с 1965 г. Л. А. Заде [1] и его последователями теория нечетких множеств г. Противоречие между расплывчатостью естественного языка и строгой определенностью математических понятий было осознано более двух тысяч лет назад. Как построить математический объект, соответствующий применяемому всеми нами понятию «куча зерен»? Дошедший от древних греков софизм гласит: «Одно зерно не составляет кучи. Если к тому, что не составляет кучи, добавить одно зерно, то куча не получится. Следовательно, никакое количество зерен не составляет кучу». Между тем каждый согласится, что 100 000 000 зерен — довольно боль- 1 Термин «fuzzy» в различных публикациях переводится на русский язык как «нечеткий», «размытый», «расплывчатый», «туманный» и т. д. Мы придерживаемся первого варианта — «нечеткий». 262
шая куча. Таким образом, не удается формализовать понятие «куча» с помощью понятия множества, поскольку не представляется разумным указание границы щ такой, что совокупность зерен называется «кучей» тогда и только тогда, когда число ее элементов не меньше щ. Выход предложен Э. Борелем ([2], гл. 8): каждому натуральному числу η поставим в соответствие рп — долю тех, кто назвал бы совокупность η зерен «кучей», среди всех говорящих на русском языке. Совокупность всех рп, η=ί, 2, . . ., достаточно адекватно отражает понятие «куча». Эта идея была развита Л. А. Заде и его последователями, сделавшими.попытку создать удобный математический аппарат описания нечетких множеств, алгоритмов, отношений и т. д. Подход Л. А. Заде «опирается на предпосылку о том, что элементами мышления человека являются не числа, а элементы некоторых нечетких множеств или классов объектов, для которых переход от «принадлежности к классу» к «непринадлежности» не скачкообразен, а непрерывен» ([3], с. 7). Пусть Υ — конечное множество. Определение 1 (Л. А. Заде). Нечеткое подмножество А множества Υ характеризуется функцией принадлежности μΑ (у), отображающей Υ в [0, 1]: μ^: Υ -> [0, 1]. Число ^а (у) показывает степень принадлежности элемента у нечетному множеству А. С формальной точки зрения нет необходимости различать нечеткое множество и его функцию принадлежности. В дальнейшем изложении эти понятия употребляются как синонимы. Мы показали естественность введения понятия нечеткого множества с точки зрения исследователей, занимающихся проблемами искусственного интеллекта. Разумеется, это понятие является естественным и для многих других областей. Так, с точки зрения психофизики представление человека об оцениваемой величине более адекватно отражать не с помощью числа, т. е. однозначно, а с помощью нечеткого множества [4]. Скажем несколько слов о связи концепции нечеткости с развиваемой автором теорией устойчивости ([5], [6] и др.). Ясно, что они исходят из одних и тех же методологических предпосылок. При формализации реальных явлений исследователь, желая пользоваться математическими методами, зачастую вносит определенность там, 263
где ее нет по существу. Некритическое использование полученных результатов может приводить к иллюзиям и ошибкам. Необходимо иметь аппарат, адекватно отражающий исходную неопределенность. Существует два различных подхода к учету неопределенности. В одном из них мы сначала находим точные решения, а потом оцениваем их вариацию при колебаниях исходных данных в границах допустимых ошибок. При этом нас не интересует неопределенность на промежуточных этапах пути от исходных данных к решению. Именно такой подход формализован в общей схеме устойчивости. Можно действовать и по-другому, именно, с самого начала учитывать неопределенность и прослеживать ее влияние на всех этапах принятия решения. Один из способов учета — представление исходных данных в виде нечетких множеств. Аппарат теории нечетких множеств позволяет представить результаты всех промежуточных этапов вычислений также в виде нечетких множеств. Аппарат теории нечетких множеств достаточно хорошо и подробно изложен в [3], [7,] [8], [9] и др., поэтому мы введем лишь те определения, которые нам понадобятся в дальнейшем. Определение 2. Пусть А и В — два нечетких множества с функциями принадлежности μΑ {у) и μβ (у) соответственно, у £ Υ. Пересечением А П В, произведением АВ9 объединением A \J В, суммой А+В, отрицанием А называются нечеткие множества с функциями принадлежности tVi*(s/) — min(M^ Ыу))> Рав(у)=Ра(у)Ыу)> ^А1)в(У) = т^(^А(У^ ЫУ))· V-j+b (У) = Ра (У) + Рв(у) — \1а(у) Рв (»)· Ыу)=1 — Ра(у)> у£¥> соответственно. Обычные множества получаются из нечетких, если функция принадлежности принимает только значения О и 1. В этом случае определение 2 приводит к обычным понятиям пересечения, объединения и отрицания множеств. Вместо одного понятия — пересечение — в теории нечетких множеств рассматриваются два — пересечение 264
и произведение, а вместо объединения — также два: объединение и сумма. Некоторые из обычных свойств операции над множествами сохраняются и для операций над нечеткими множествами,* другие же нет. Приведем примеры тех и других. Как известно (см., например, [10], с. 32), законами де Моргана называются соотношения (тождества) Ти~В = АПВ, АТ\В = А U 5. Теорема 1. Законы де Моргана верны для нечетких множеств, именно, справедливы тождества А~йВ = АГ)В, АТ\В=ЛиВ, Т+~В = АБ, АВ = Л-\-Б. Таким образом, в теории нечетких множеств законы де Моргана состоят из четырех тождеств, одна пара которых относится к объединению и пересечению, а вторая к произведению и сумме. Доказательство. В соответствии с определением 2 Р1Цв(У) = 1 — тах(М#)> Ыу)> Как легко видеть, 1 — max (μ (у), pB(y)) = mm(l — l>.A(y)i 1—i^(t/)). Теперь остается заметить, что правая часть последнего тождества совпадает с функцией принадлежности нечеткого множества А П Б. Первый закон доказан. Тождество Α Π Β=Λ U Б разбирается аналогично, предоставляем это читателю. Третье тождество вытекает из следующих равенств: = (! — Рм (У)) {1 — Рв (У)) = Η (У) 1хв (У)· Последнее тождество доказывается аналогично. Оставив его читателю, констатируем, что теорема 1 доказана. Теперь приведем примеры, когда типичные и привычные свойства операций над множествами не выполнены для нечетких множеств. Так, А -{-А =^=АЧ за исключением случая, когда А —- четкое множество (т. е, функция при- 265
надлежности принимает значения только 0 и 1). Верен ли дистрибутивный закон для нечетких множеств? В литературе ([4], с. 244) утверждается, что не всегда. Теорема 2 уточняет это утверждение. Теорема 2. Для любых нечетких множеств А, В и С An(B\jC) = (AriB)\J(AnC). (1) В то же время равенство А(В~\-С) = АВ + АС имеет место тогда и только тогда, когда при всех у Q Υ (Й(у) —Μρ))Μρ)Μ») = °· Доказательство. Фиксируем произвольный у £ Υ. Для сокращения записи обозначим α=μΑ (у), 6=μ5 (у), с=рс (у)- Для доказательства (1) необходимо показать, что min (a, max(fe, с)) = max (min (α, &), min (α, с)). (2) Пусть а <J Ъ <[ с. Тогда левая часть (2) есть min (α, с)=а, а правая max (α, α)=α. Пусть Ъ ^ а ^ с. Тогда в (2) слева стоит min (α, с)=α, а справа max (b, a)=a. Если Ь <С с ^ а, то в (2) слева min (α, с)=с, а справа max (ft, с) = =с. Три остальных упорядочения чисел а, ft, с разбирать не нужно, поскольку в (2) ft и с входят симметрично. Итак, (1) доказано. Второе утверждение теоремы вытекает из того, что РИМ) (У)=а(Ь + С — ЪС) = аЪ + аС — аЬс И V-AB+Ao {y) = ab-{-ac — {аЪ) {ас) = ab + ac — a2bc. Эти два выражения совпадают тогда и только тогда, когда a°jbc=abc, что требовалось доказать. Определение 3. Носителем нечеткого множества А называется совокупность всех точек у £ У, для которых μΐ (У) > 0. Следствие теоремы 2. Пусть носители нечетких множеств В и С совпадают с Υ. Равенство А (В+С)=АВ+АС имеет место тогда и только тогда, когда А — четкое множество. 266
Доказательство. По условию [хв (у)\*с (у)¥=^ при всех у £ Y- Тогда из Теоремы 2' следует μ| (г/)—μ^ (^)=0, т. е. μΑ (y)=0 или μΑ(φ)=1, что и означает, что А — четкое множество. Читатель без труда увеличит число примеров, в которых нарушаются привычные свойства операций над множествами, как, впрочем, и число примеров, в которых они сохраняются. Сказанного достаточно, чтобы констатировать, что понятие нечеткого множества является обобщением понятия множества, причем нетривиальным. Мы не имеем возможности развивать здесь теорию нечетких множеств и отошлем читателя к уже цитированным публикациям. В настоящее время появляется много работ по теории нечетких множеств. Общее число публикаций превышает тысячу. Дело в том, что математические объекты определяются, как правило, с помощью теории множеств. Заменяя обычные множества нечеткими, мы можем каждому объекту поставить в соответствие его нечеткий аналог. Рассматривают нечеткие отношения, классификации, алгоритмы, топологии, теоремы и т. д. При этом определение производных понятий требует некоторой математической техники, которая и развивается в публикуемых статьях. Математическая теория нечетких множеств переживает сейчас период экстенсивного развития, интенсификация (т. е. получение достаточно глубоких теорем) еще впереди. Что же касается практических приложений, то, с одной стороны, ясно, что идеи нечеткости полезны во многих областях, например, в проблеме искусственного интеллекта, психофизике, экспертных оценках, географии и т. д. Вместе с тем достаточно крупные и убедительные прикладные работы, использующие концепцию нечеткости, пока единичны, их число не идет ни в какое сравнение с числом теоретических работ. Мы не имеем возможности дать здесь обзор работ по теории нечеткости. На настоящем этапе такому обзору следовало бы посвятить отдельную монографию. На рус- ском языке имеется обзор [8] и добавление С. А. Орловского к переводу монографии [7]. Укажем еще несколько работ по нечетким множествам. В экспертных оценках их применял М. Пинас [11]. Монография А. Кофмана [12] содержит подробный анализ основных понятий, а также много иллюстративных примеров. Р. Ферон применял 267
концепцию нечеткости в математической экономике ИЗ], a -G. В. Иеголта и Д. А. Ралеску в динамических системах [14]. В работе [15] строятся нечеткие аналоги основных понятий теории статистических решений и теории информации. Клод Понсар предложил аксиоматизацию теории нечетких множеств [16]. Мишель Прево [17] сравнивал теорию вероятностей и теорию нечетких множеств. Фундаментальному сравнению этих двух областей посвящена статья Р. Форте, М. Камбузиа [18]. Теории нечетких решений и ее приложениям посвящена диссертация Эммануэля Жоля [19]. Автоматическую классификацию в нечетких условиях рассматривал Эдвин Диде [20]. Этот краткий список показывает широту фронта исследований по теории нечеткости. Авторы работ по нечетким множествам обычно утверждают, что теория нечеткости является самостоятельным разделом прикладной математики и не имеет отношения к теории вероятностей. Наиболее ярко эта точка зрения обосновывается в первом разделе работы [9]. Авторы, сравнивавшие теорию нечеткости и теорию вероятностей [17], [18], также рассматривали эти области исследований как независимые. Однако автору в 1974 г. удалось показать, что нечеткие множества естественно рассматривать как «одномерные проекции» случайных множеств ([21], [22], [23], [6]). Итак, нечеткие множества моделируются в теории вероятностей, но не с помощью случайных величин, а с помощью случайных множеств. 2. Сведение теории нечетких множеств к теории случайных множеств Рассмотрим конечное множество Y={yly у2, . . ., ук}. Совокупность его подмножеств обозначим 2F. Множество 2Г состоит из 2к элементов. Пусть (2, F, Р} — вероятностное пространство (другими словами, поле вероятностей в смысле [24]), где 2 — пространство элементарных событий, F — σ-алгебра измеримых множеств на 2, Ρ — вероятностная мера на измеримом пространстве (2, F). Мы введем понятие случайного множества по аналогии с тем, как в современной теории вероятностей вводится понятие случайной величины. Определение 1. Отображение А : 2 -» 2Г пространства элементарных событий 2 в множество 2Г всех подмножеств 268
конечного множества Υ называется случайным множеством, если прообраз любого подмножества X множества Υ принадлежит σ-алгебре F, т. е. является измеримым, А"1 (X) £ F. Замечание. Поскольку 2F состоит из конечного числа элементов, то проблема определения понятия измеримости для отображения А здесь не возникает, разумное понимание измеримости является единственным, в отличие от случая, когда, скажем, Υ есть континуум (см. литературу, указанную в обзоре [25]). Как и для случайных величин, вероятностная мера Ρ на исходном пространстве индуцирует распределение случайного множества А. Определение 2. Распределением случайного множества А называется совокупность 2к чисел Р(А = Х) = Р({и:А(а>) = Х}), X£2F Числа Ρ (Α=Χ) неотрицательны и в сумме составляют 1. Обратно, по совокупности 2к неотрицательных чисел, в сумме составляющих 1, можно построить такое вероятностное пространство и случайное множество, что эти числа будут представлять собой распределение построенного случайного множества. Именно, можно поступить следующим тривиальным образом. Положим 2=2F, и пусть F — совокупность всех подмножеств 2F, т. е. F=2^r). Тогда 2 состоит из конечного числа элементов, и вероятностная мера Ρ строится по вероятностям Ρ (Α=Χ) этих элементов. Наконец, отображение А пусть является тождественным. Тогда случайное множество А имеет распределение Ρ (А=Х), Х£ 2F. Отмеченное свойство, равно как и способ его доказательства, аналогично тому, что для любой функции распределения можно подобрать случайную величину, имеющую именно эту функцию распределения, и способу доказательства последнего. С помощью распределения выражаются различные вероятности, связанные со случайным множеством, например, вероятность накрытия точки y£Y случайным множеством. Эта вероятность равна сумме Ρ (А=Х) по всем Χ£2Υ, содержащим у: Р(у£А) = Р({*:у£А(<»)}) = Σ Р(А = Х), (1) 269
поскольку события {ω : Α (ω)=Χ} не пересекаются при различных X. Как и для случайных величин, вероятностное пространство часто «остается в тени», а на первый план выступает распределение случайного множества. Рассмотрим еще один пример этого, который нам понадобится в дальнейшем. Пусть / — действительная функция от подмножества множества Υ, т. е. / : 2Υ -► R1. Тогда, как легко видеть, / (А) является случайной величиной для любого случайного множества А. Эта случайная величина принимает конечное число значений, а потому ограничена и имеет все моменты. Распределение и моменты ее выражаются через распределение случайного множества. Так, Mf{A)= Σ f(X)P(A = X). X£2Y Часто оказывается полезным рассматривать не одно, а несколько случайных множеств Аг, А2, . . ., АпУ определенных на одном и том же вероятностном пространстве, со значениями в одном и том же 27. Для описания системы случайных множеств Аг, А2, ..., Ап можно было бы ввести термин «векторное случайное множество» [26], однако нам он не понадобится. Определение 3. Совместным распределением случайных множеств Аг, А2, . . ., Ап называется совокупность 2кп чисел PiA^X,, A2 = X2, ...,Α„=Χ„) = Ρ({ω;Α1(*ή = Χ1, A2(w) = Xv ..., Α„(ω) = Χη}), Χ. e 2', i = 1, ... п. Упомянутые в определении 3 числа являются неотрицательными, в сумме составляют 1. Обратное утверждение, аналогичное приведенному после определения 2, также верно. Предоставляем читателю сформулировать и доказать его. Операции над случайными множествами определяются при каждом ω£2 естественным образом. Так, (А П В) (ω) = Α (ω) П В (ω), Λ (ω) = Α (ω). Обычные свойства операций над множествами сохраняются и для случайных множеств. Распределение резуль- 270
тата операции можно выразить через совместное распределение участвующих в операции множеств. Например, Р(АГ\В = Х)= Σ P(A = XV B = X2). (2) Определение 4. Случайные множества ^41? Л2, . . ., Ап называются независимыми, если для любых Х{ £ 2у, ι=1,.. . . ., /г, выполнено равенство ρμ^χ,, ла=х2) ...,ая=хя)= = Р(А1 = Х1)Р(А.2 = Х2)...Р(Ап = Хя). Рассмотрим совокупность 2к чисел Ρ (XQ.A), Χ£2Υ. Среди них находятся и числа Ρ ({уЛС2А)=Р (у.£А), /=1 к. Теорема 1. Наборы чисел Ρ (А =Х), X G 2Υ и Ρ (ХС4), X£2F выражаются один через другой. Доказательство. В одну сторону доказательство очень просто Р(ХСЛ)= 2 P(A = Xf). X'.XQZ' Для доказательства в другую сторону необходимо сослаться на формулу включений и исключений (см., например, [27], с. 134) из формальной логики, в соответствии с которой P(A = X) = P(kQA)- Σ P(XO{y}QA) + У6Г\Х + Σ Ρ (X \J {У» yi)CA)-...±P(YCA). Ух, y26F\X УхФУг В соответствии с теоремой 1 случайное множество А можно характеризовать не только распределением, но и набором Ρ (XQA), Χζ2γ. В этот набор входят числа Ρ (у£А), характеризующие степень принадлежности элемента у случайному множеству А и тем самым аналогичные значениям функции принадлежности нечеткого множества. Сказанное показывает естественность следующего определения. Определение 5. Пусть А=А (ω) — случайное подмножество Υ. Нечеткое множество В, определенное на У, называется проекцией А и обозначается Proj А, если Рв<]/)=Р{у£А) для всех у(:У, 271
Таким образом, фиксирование проекции случайного множества А определяет часть чисел, задающих распределение А. Теорема 2. Для любого нечеткого подмножества В множества У существует случайное подмножество А множества Υ такое, что S=Proj А. Доказательство. Достаточно задать распределение А. Пусть Yt — носитель В (см. определение 3 § 1). Предположим для простоты, что Y1={yli г/2> . . ., ут} и элементы Yx занумерованы в таком порядке, что 0 < \хв (*/ι) ^ ^ Рв (у2) < · · · ^ Рв (ут). Введем множества · У (1)=*= =У1э У (2) = {р„ . . ., ут}, . . ., Y(t) = {yt, . . ., ум}, . . . Положим Р(А = ¥(\)) = ^В(У1), P(A = Y(2)) = = {*«(&) —Мл)· ···» Ρ (А = Υ (ί)) = н Ы - νΒ (Vt-ι), ~> P(A = Y (иг)) = μ£ (г/,„) — μβ (у_,), ρμ = 0)=ΐ-μβω. Для всех остальных подмножеств X множества У положим Ρ (А=Х)=0. Поскольку i/f входитвУ(1), . . ., У (ή и не входит в У (£+1),..., У (τη), то по формуле (1) Ρ (yt£A)=: = μζ? (у,). Если у § У1э то, очевидно, Ρ (у(*А)=0. Теорема доказана. Отметим, что случайное множество восстанавливается по проекции неоднозначно. Построение примеров предоставляем читателю. Теорема 3. Если Proj А=В, то Proj А—В. Для доказательства достаточно воспользоваться тождеством Ρ (А~Х)—Р (А=Х), формулой (1) и тем, что сумма всех Ρ (Α=Χ) равна 1. Теорема 4. Если случайные множества Аг и А2 независимы, то Proj (Л1П^4г) является произведением Proj Ax и Proj^l2 (см. определение 2 в § 1). Доказательство. Надо доказать, что Ρ(ν£ΑιΓ)Α2) = Ρ(υ£Α1)Ρ(υ£Α2), Yy£Y. По формуле (1) настоящего параграфа Р(у£АхГ\А.г)= Σ ΡΑΧΓ)Α.Ζ = Χ, 273
С помощью формулы (2) получим, что Р(у£А1Г\А2)= Σ Σ Р(А1 = Хи Л2 = Х2). (3) Заметим теперь, что правую часть формулы (3) можно переписать следующим образом: Σ P(AS = X„A2=X2). (4) Действительно, формула (3) отличается от формулы (4) лишь тем, что в ней сгруппированы члены, в которых Х1Г\Х2 принимает постоянное значение. Воспользовавшись определением независимости случайных множеств и правилом перемножения сумм, получаем, что из (4) вытекает равенство Р(у£А1Г)А2) = ( Σ PiA^XM Σ Ρ(Αι = Χύ). ΧΧχΙ&βΧΐ / 4*2^6X2 / Для завершения доказательства достаточно еще раз сослаться на формулу {1). Определение 6. Носителем случайного множества С называется совокупность всех тех y£Y, для которых р(уео>о. Теорема 5. Равенство Proj (А, Г) At) = (Proj A,) П (Proj At) верно тогда и только тогда, когда пересечение носителей случайных множеств A1f]A2 и А1С\Л2 пусто. Доказательство. Нам нужно выяснить условия, при которых Ρ (у G А, П А2) = min (Ρ (у ζΑ^ Р(у£ А2)). (5) Положим Рх = Р{у£АхГ\А2), Р2 = Р(у£АгГ\А2), Ря = Р(у£АгС)А2). Тогда (5) сводится к ρι = τα\η(ρι + ρ29 /?1 + /?з)· (6) Ясно, что (6) выполнено тогда и только тогда, когда р2Рз^-0, причем при всех y£Y, т. е. не существует"^ £ Υ такого, что Ρ (Уо^А^Аъ) >0 и Ρ {у{) £АХГ[А2) > 0. 273
Последнее эквивалентно пустоте пересечения носителей A\f]A2 и АгГ\А2. Определение 7. Вероятностное пространство {2, F, Р) назовем делимым, если для любого измеримого множества A £F и любого положительного числа а, меньшего Ρ (А), можно указать измеримое множество В (ΖΑ такое, что Ρ (В) = ос. Теорема 6. Пусть 2 — единичный куб конечномерного пространства, F — σ-алгебра борелевских множеств, Ρ — лебегова мера. Тогда (2, F, Р) — делимое вероятностное пространство. Доказательство можно провести стандартными приемами, основанными на том, что измеримое множество можно сколь угодно точно приблизить открытыми множествами, последние представляются в виде суммы не более чем счетного числа открытых шаров, а для шаров делимость проверяется непосредственно (от шара А тело объема α < Ρ (А) легко отделить плоскостью). Необходимые результаты и приемы изложены, например, в ([28], с. 48-50, 136-137). Теорема 7. Пусть даны случайное множество А на делимом вероятностном пространстве {2, F, Р) со значениями в 2У и нечеткое множество D на Υ. Тогда существуют случайные множества Сх, С2, С3, С4 на том же вероятностном пространстве такие, что Proj (АПСг) = ВП A Proj (А П Q = BD. Pro'i(A\jCs) = B[JD, Proj(A\jCJ = B + D, Proj С, = Л, i=l, 2, 3, 4, где Β=Ρτο] Α. Доказательство. В силу справедливости законов де Моргана для нечетких (теорема 1 в § 1) и для случайных множеств и теоремы 3 достаточно доказать существование Сг и С2. Рассмотрим распределение вероятностей в 2К, соответствующее случайному множеству С такому, что Proj C=D (оно существует в силу теоремы 2). Построим случайное множество С2 с указанным распределением, независимое от А. Тогда по теореме 4 Proj (A f)C2)=BD. Займемся теперь построением Cv По теореме 6 необходимо и достаточно определить случайное множество Сх (ω) так, чтобы ProjС\ = D и пересечение носителей А{\€х и А{\Сг было пусто, т. е, Ρ (у £ Α Π €}) = ® для т/£ Г, и 274
Р(у£АГ\Сг) = 0 дляг/еП, W Yi={y:pB(y)<H(v)} и Г2 = {г/: μ5 (г/) ^ ^ (*/)]. Построим Сг (ω), исходя из Α (ω). Пусть г/г£ У2. Исключим ух из Л (ω) для стольких со, чтобы для полученного Аг (ω) было справедливо равенство ^ {У\ б ^i) — V-d (У1) (именно здесь используется делимость вероятностного пространства). Для у=^ух, конечно, Ρ (у £ Аг)= = Р (у ζ А). Аналогичным образом последовательно исключаем у из Α (ω) для всех у £ Υ2 и добавляем у в Л (ω) для всех y£Yx, меняя на каждом шагу Р(у£А{) только для у = у. так, чтобы Ρ (у. £ А%) = \xD (y{). Перебрав все элементы, получим случайное множество Ак (ω) = Сх (ω), для которого выполнено требуемое. Теорема 7 доказана. Теорема 8. Пусть В1У В21 В3, .. ., Bt — некоторые нечеткие подмножества Y. Пусть ^Вт = ((.. .((В}оВ2)о Bs)o .. .)oBm_l)oBm,m=l,.. .,t, где о — знак одной из следующих операций: пересечение, произведение, объединение, сумма (на разных местах могут стоять разные символы). Тогда существуют случайные множества Av А2ч Αζ,..., At такие, что Proji4f. = /?,., i=l, 2, . . .,*, и Proj {((... ((Аг* Л2)*Л3)*... )·^..!)· Ам) = В™, т— 1, .. .,£, где * обозначает операцию пересечения, если в определении Вт на соответствующем месте стоит знак пересечения или произведения, и знак * обозначает операцию объединения, если в Вт стоит символ объединения или суммы. Доказательство проводится по индукции. При t=i мы строим распределение случайного множества с помощью теоремы 2, а затем само случайное множество, определенное на делимом вероятностном пространстве. (Нетрудно проверить, что на делимом пространстве можно построить случайное множество с любым распределением именно в силу делимости пространства). Случайные множества А2, Л3, . . ., At строим по индукции с помощью теоремы 7. Отметим здесь же, что наше доказательство проходит и в случае, когда при определении Вт используются отрицания — мы при помощи законов де Моргана (теорема 1 § 1) сведем дело к отрицаниям отдельных подмножеств из совокупности В1ч . . ., Вп а затем с помощью теоремы 3 вообще избавимся от отрицаний. 275
По мнению автора, теорема 8 верна и при произвольной расстановке скобок при определении Вт, однако эта гипотеза пока не доказана и не опровергнута. Доказанные в настоящем параграфе теоремы дают основания полагать, что любое понятие или утверждение из теории нечетких множеств может быть «промоделировано» на языке случайных множеств. Такое «моделирование» для систем нечетких множеств, связанных операциями, и осуществлено в настоящем параграфе. Каково же значение сведения теории нечеткости к теории случайных множеств, почему оно полезно? Обсудим прикладные и теоретические вопросы использования обнаруженной нами связи нечетких и случайных множеств. Аппарат нечетких множеств не позволяет в должной мере учитывать зависимость между понятиями (объектами), моделируемыми с помощью нечетких множеств. Так, для описания общей части двух множеств есть лишь две операции — произведение и пересечение. Если применяется первая из них, то предполагается, что множества ведут себя как независимые (см. теорему 4). Операция пересечения также накладывает вполне определенные ограничения на вид зависимости между множествами (теорема 5). Желательно иметь большие возможности для учета зависимости между понятиями (объектами). Использование случайных множеств предоставляет такие возможности. Именно поэтому в первой публикации автора [21 ] теория случайных множеств рассматривалась как обобщение аппарата Заде. Для описания ряда реальных явлений случайные множества, по мнению специалистов, явно лучше подходят, чем нечеткие. Так, болезнь целесообразнее описывать не нечетким подмножеством множества симптомов Y, а распределением в 2Y (пример Л. Д. Мешалкина). Такой подход облегчает постановку диагноза и выбор правила ведения больного. С прикладной точки зрения случайные множества по сравнению с нечеткими имеют и некоторые недостатки. Случайное множество характеризуется распределением, которое задается 2к—1 параметрами, в то время как для определения функции принадлежности нечеткого множества достаточно к чисел, и уже при умеренных к отноше- ние —τ— является весьма большим (так, при к = 10 276
—£—= = 102,3). Кроме того, в отдельных случаях использование нечетких множеств для описания реальных объектов представляется более согласованным с интуицией, чем использование случайных множеств. С теоретической точки зрения выявление связи между нечеткими и случайными множествами, по мнению автора, имеет большое значение. При чтении работ по нечетким множествам бросается в глаза наличие большого числа определений и почти полное отсутствие содержательных теорем. Отмеченная нами связь позволяет вложить теорию Заде в часть теории вероятностей — теорию случайных множеств. К настоящему времени последняя теория достаточно хорошо разработана и отличается, прямо скажем, более высоким математическим уровнем, чем публикации по нечетким множествам. По мнению автора, с помощью теории случайных множеств удастся достаточно быстро получить в теории нечеткости глубокие содержательные результаты и поднять ее математический уровень. Вместе с тем теория случайных множеств получит новые приложения всюду, где использовалась концепция нечеткости. По теории случайных множеств имеется много работ, она становится все более популярной среди исследователей. Много работ связано с изучением случайных геометрических объектов — прямых, кругов, мозаик и т. д. (см. монографии [29], [30], сборник статей [31]). Работы другого направления используют так называемый измеримый выбор (см. обзор [25]). Рассматривается связь между случайными множествами и точечными процессами [32]. Получены аналоги классических предельных теорем для случайных замкнутых ограниченных подмножеств конечномерного евклидова пространства [33]. Разумеется, здесь указана лишь незначительная часть публикаций. Мы не будем давать обзор работ по случайным множествам, ограничившись приведенными выше отдельными ссылками. Несмотря на наличие указанных публикаций, автору пришлось создавать теорию конечных случайных множеств [34] практически с нуля. «Социальный заказ» был дан теорией экспертных оценок, и поэтому, скажем, множества нельзя считать помещенными в евклидовом пространстве. Впервые в [34] было придумано определение математического ожидания случайного подмножества 277
абстрактного множества, позволившее доказать законы больших чисел. Мы начинаем в [34], [35] с аксиоматического введения расстояния между множествами, затем определяется математическое ожидание и дисперсия, доказываются законы больших чисел. Рассматривается статистическая теория оценки параметров и проверки гипотез, особое внимание при этом уделяется случайным множествам с независимыми элементами. Круг применений теории конечных случайных множеств широк — экспертные оценки и управление запасами, теория нечеткости и математическая экономика, распространение лесных пожаров и фильтрация жидкости и т. д. и т. п. Так, законы больших чисел позволяют прояснить смысл использования медианы для агрегирования экспертных ранжировок, а теоремы о случайных множествах с независимыми элементами — развить теорию независимых парных сравнений. ЛИТЕРАТУРА 1. Zadeh L. A. Fuzzy sets. Inf. Control, 1965, 8, p. 338—353. 2. Борель Э. Вероятность и достоверность. М.: ГИФМЛ, 1961. 3. Заде Л. А. Основы нового подхода к анализу сложных систем и процессов принятия решений. — В кн.: Математика сегодня. М.: Знание, 1974, с. 5—49. 4. Шошин #, Б. Размытые числа как средство описания субъективных величин. — В кн.: Статистические методы анализа экспертных оценок. Ученые записки по статистике, т. 29. М.: Наука, 1977, с. 234—250. 5. Орлов А. И, Проблема устойчивости (общая схема, конкретные результаты). — В кн.: Алгоритмы многомерного статистического анализа и их применения. М.: ЦЭМИ АН СССР, 1975, с. 130—142. 6. Орлов А. И. Проблемы устойчивости и обоснованности решений в теории экспертных оценок. — В кн.: Статистические методы анализа экспертных оценок. Ученые записки по статистике, т. 29. М.: Наука, 1977, с. 7—30. 7. Заде Л, А. Понятие лингвистической переменной и его применение к принятию приближенных решений. М.: Мир, 1976. 8. Гусев Л. А., Смирнова И. М. Размытые множества. Теория и приложения. (Обзор). — Автоматика и телемеханика, 1973, № 5, с. 66—85. 9. Беллмат Р., Заде Л. Принятие решений в расплывчатых условиях. — В кн.: Вопросы анализа и процедуры принятия решений. М.: Мир, 1976, с. 172—215. 10. Столл Р. Р. Множества. Логика. Аксиоматические теории. М.: Просвещение, 1968. 278
11. Pinhas Max. Deux criteres pour l'economic de rincertain: Tine- galite probable et l'indice de depassement. — Annales de l'uni- versite des sciences sociales de Toulouse, 1973, t. XXI, v. 1—2. 12. Kaufmann A. Theory of fuzzy sets. Masson, Paris: 1972. 13. Feron R. Ensembles flous, ensembles aleatoires flous et economic aleatoire flous. — Publications Econometriques, v. IX, f. 1, p. 25—64. · 14. Negolta C. V., Ralescu D. A. Inegactness in dynamic systems. — Economic computation and economic cybernetics studies and research, 1974, n. 4. Bucharest. 15. Okuda Tetsuji, Tanaka Hideo, Asai Kiyoji. Decision-making and information in fuzzy events. — Bull. Univ. Osaka Prefect., 1974, A 23, № 2, p. 193—202. 16. Ponsard Claud. On the axiomatization of fuzzy subsets theory. Universite de Dijon, Institut de mathematiques economiques, Document de travail N 13, July 1975. 17. Prevot Michel. Probability calculation and fuzzy subsets theory. Universite de Dijon, Institut de mathematiques economiques, Document de travail, N 14, August 1975. 18. Fortet i?., Kambouzia M. Ensembles aleatoires et ensembles flous. — Publ. Econometriques, IX, 1976, N 1, p. 1—23. 19. Jolles Emmanual. Contribution a Γ analyse de la decision floue: deux exemples d'application. Universite de Dijon, 1975. 20. Diday Edwin. Classification ajitomatique et selection deparametres sous contrainte floue. C. R. Acad.Sc. Paris, t. 281 (24 novembre 1975), ser. A, p. 925—927. 21. Орлов А. И. Основания теории нечетких множеств (обобщение аппарата Заде). Случайные толерантности. — В кн.: Алгоритмы многомерного статистического анализа, и их применения. М.: ЦЭМИ АН СССР, 1975, с. 169—175. 22. Орлов А. И. Проблема учета неопределенностей реальных явлений в математических моделях. — В кн.: Проблемы педагогической квалиметрии, вып. 2. М.: МГПИ им. В. И. Ленина, • 1975, с. 180—187. 23. Орлов А. И. Связь между нечеткими и случайными множествами. Нечеткие толерантности. — В кн.: Исследования по вероятностно-статистическому моделированию реальных систем. М.: ЦЭМИ АН СССР, 1977. 24. Колмогоров А. Н. Основные понятия теории вероятностей. М.: Наука, 1974. 25. Evstigneev I. V. Methods of random sets. — В кн.: Тезисы докладов Второй Вильнюсской конференции по теории вероятностей и математической статистике, т. 3. Вильнюс: 1977, с. 48-51. 26. Воробьев О. Ю. Методы моделирования процессов случайного распространения. — Известия Сиб. отд. АН СССР, сер. техн. наук, 1976, № 8, вып. 2., с. 90—94. 27. Полиа Г., Сеге Г. Задачи и теоремы из анализа, ч. 2. М.: ГИТТЛ, 1956. 28. Вулих Б. 3. Краткий курс теории функций вещественной переменной. М.: Наука, 1965. 29. Кендалл М., Моран Π. Геометрические вероятности. М.: Наука, 1972. 30. Matheron G, Random sets and integral geometry. Ν.—Υ.: 1975. 279
31. Stochastic geometry, eds. E. F. Harding, D. G. Kendall. Ν.—Υ.: 1974. 32. Fortet i?., Kambouzia M. Ensembles aleatoires, repartitions ponctuelles aleatoires, problemes de recouvrement. — «Ann. Inst. Henri Poincare», sect. B, v. XI, 1975, N 4, p. 299-319. 33. Ляшенко #. Я. Предельные теоремы для случайных множеств. — В кн.: Тезисы докладов Второй Вильнюсской конференции по теории вероятностей и математической статистике, т. 2. Вильнюс: 1977, с. 248—251. 34. Орлов А. И. Элементы теории конечных случайных множеств.— Наст, сб., с. 301—307. 35. Орлов А. И. Случайные множества: законы больших чисел, проверка статистических гипотез), резюме доклада в Математическом институте АН СССР. — Теория вероятностей и ее применение, т. XXIII, 1978, № 2, с. 462—464. О. В. Староверов ОБ ОДНОМ КРИТЕРИИ СВЯЗИ 1. Рассмотрим η > 1 независимых нормальных векторов х4=(ха, xi2, . . ., s<fc)\ (i=l, 2, . . ., η) таких, что Ма^=а+р,-1» где а — какой-либо вектор-столбец, 1 = = (1, . . ., 1)' ft-мерный вектор-столбец, состоящий из одних единиц, и μ{ — некоторые константы. Так как параметр а произволен, то без ограничения общности η можно считать, что ^р{ = 0. Допустим, что ковариацион- пая матрица Σ векторов xi одна и та же для всех i и Σ= = σ2 (Ι+ΑΕ), где Е=1Г — матрица размера (kXk), состоящая из одних единиц, h > 0 — некоторая постоянная величина. Такая последовательность векторов возникает, например, в следующей ситуации. Пусть ξ£Ν (а, σ2Ι) — нормальные А-мерные случайные векторы с независимыми компонентами (модель М0) и пусть η4 £ N (μ., σ2Κ) — случайные величины, независимые при различных i и независимые от ξ. Рассмотрим векторы х4=г =5+^1 (модель Mh), которые будут иметь ковариационную матрицу Σ=σ2 (Ι+/&Ε). Возникает задача проверки, какая из моделей М0 или Mh верна, когда параметры а и σ2 неизвестны, При этом гт
мы должны решить эту задачу, опираясь на η независимых наблюдений хх, х2, . . ., хп. При /г ^ к решение даже более общей задачи не представляет труда [1, 2] и опирается на оценку ковариационной матрицы и распределение Уишарта. Однако при малом η (η < &) выборочная ковариационная матрица вырождена, а распределение Уишарта неопределено. Мы будем рассматривать именно тот случай, когда объем выборки мал. Если все компоненты вектора а одинаковы и ^=0, то поставленная задача решена (см. [2]). 2. Совместная плотность векторов хи х2, . . ., xw, если справедлива модель Mh, равна Pk (χι> х2> · · ·» х»)= (2π)2 У ί=1 ] Наша задача состоит в определении такой статистики у2, которая не зависела бы от а и σ2. Введем стандартные обозначения. Пусть х<=(#д, х^ .. · • · ·> xik) *"ая строка матрицы X с элементами ^.размера (пХк)щ тогда η xmj = — % x.j — среднее по /-му столбу матрицы X; к %;. = η- Ν x.j — среднее по г-ой строке матрицы X; η к Х" = Кк 2 Σ Xij ~ общее с1)елнее. Покажем теперь, что справедлива Теорема. Если верна модель Mk, то при любом а и σ2 статистика 281
1 + kh ~ 1 + kh X 2 #?. — n$2.. X__ i=i_ _ (ft_i) 2 Σ хЬ -n Σ £Ь -k Σ £i + кп*г.. *=ι j—\ j=i распределена по закону F (η—1, (и— 1) (&-— 1), λ) (F (v1? v2, λ) нецентральное распределение Фишера с νχ=η—1 и v2=(ft—1) (Л—1) степенями свободы и параметром нецентральности х=a2{ik+J;h) 214 t=l Доказательство. Пусть С" — ортонормальная матрица с первой строкой -т=-1'. Сделаем преобразование yi = C'xi. Тогда у, распределены нормально со средним значением Ъ4 = С'а-f-μ,.(\/&, 0, ..., 0)' и ковариационной матрицей С;2С = σ2 (I -j- ΑΛΙΧ) (Ie — диагональная матрица с 1 на пересечении Z-ro столбца и Z-ой строки с нулевыми остальными элементами). Теперь распределение yv у2, .. .,уя имеет вид Р(Уц У2>--;Уп) = _[(1+М)«»»] 2 J 1 V (Уп-Ьд)' | — ЕЕ "Pj-^^ 1 + ** г (2π)2 l *'=lL +|(^-ί.,/]}. Следовательно, все компоненты векторов у. распределены нормально и независимы между собой. Рассмотрим вели- п чины z4 = yiS — y%p где £.у = 7г2^7' которые незави- ♦=1 симы между собой при различных / и Μζ ί^μ,/ = ι, * = ι, 2,...,*, " \ 0 / = 2, 3 Λ, i = l, 2,...,д. 282
Отсюда следует, что величины η распределены как χ2 (η — 1, 0) — центральные χ2 с к—1 степенями свободы и независимы между собой, величина Τ — 1 Sz* не зависит от Г. и распределена как χ2(η — 1, λ) — нецентральная χ2 ό η— 1 степенями свободы и параметром Ηθη центральности λ = к 2 Ρ·2/σ2(^ -\-kh)y а величина η — 1 * к — 1 ♦=! * — 1 + kh ~* « (Л — 1) (л — 1) ^J J >ζ=2 ί=ι распределена как F (п — 1, (п — 1) (к — 1)λ)-— нецентральное распределение Фишера с η — 1 степенями свободы числителя, (п—l)(fe—1) степенями свободы знаменателя η и параметром нецентральности λ = к 2 V^fe2 (I ~Ь kh) ПРИ любых значениях а и σ2. Доказательство завершается обратным переходом от у к х с помощью преобразования yt. = (Ухг Непосредственной подстановкой можно проверить, что 2 (Уа — У.у? — =к (±*ι-nxi), а 2 Σ (Уо—К)2 = Σ Σ *? ν.2 . — л 2 ^2у» что доказывает теорему. Критерий, основанный на статистике ν2, для проверки MQ против Mh является равномерно наиболее мощным и несмещенным. Это следует из следствия 1 и теоремы 1 работы [3, глава 5, раздел I]. Проверка всех условий не представляет труда. 283
Таблица 1 { 1 2 3 1 23,47 24,25 576,48 2 8,28 7,80 64,64 3 7,71 7,15 55,20 4 8,31 9,72 81,36 5 10,47 « 11,58 121,66 6 11,01 10,28 113,42 2 & j « 2532,53; У] $|. =407,37; В частном случае, когда параметр нецентральное™ λ=0, легко определить мощность критерия 1—β. Пусть α уровень значимости, т. е. ос=1 — F (w^J, где F (#) —распределение Фишера с ν1==^—1 и »2 = {п—1) (&—1) степенями свободы. Тогда в силу теоремы распределение ν2 равно Р( ?к}\ ι следовательно, мощность критерия 1—β = 1 — — ^(гТм)' где кРитеРический уровень щ_л является решением уравнения F (х) = 1 — а. При близких моделях (параметр k — мал) часто пользуются таким уровнем значимости а, который был бы равен ошибке второго рода β. Для этого следует найти такое значение а*, чтобы i+kh = u^Jfia*. Рассмотрим теперь оценку величины h, которая не зависит от неизвестных величин σ2 и а. Так как Μι;2: (*-i)(fc-0 (Аг_1)(^_1)_2(1+М)' то легко получить несмещенную оценку h для параметра h, а именно h (*-1)(»-1)· ' к (к — 1) (лг — 1) 2 2 1 — и υ к · 3. В качестве примера проверим гипотезу о независимости вероятностей смерти в различных возрастных группах, оценки которых можно получить на основании текущей демографической статистики. 284
7 15,40 14,60 I 225,00 8 . 15,89 16,01 254,40 j 9 18,92 18,97 359,10 10 17,17 20,19 348,94 11 17,78 18,68 332,33 9l £i- 197,12 210,25 £.. = 14,27; V*2y = 5072,14. Эта статистика в году i дает число d.j умерших в течение определенного отрезка времени на тыс. человек населения в /-ой возрастной группе и n.j — численность /-ой возрастной группы. Таким образом, величина d.j служит оценкой вероятности смерти в /-ой возрастной группе. Чтобы свести задачу к уже рассмотренной, сделаем преобразование стабилизирующее дисперсию 2 \Jnij arc sin s/d.j. Эти величины, полученные на основании [4, 5], приведены в табл. 1, где i—i соответствует 1970, a i=2 — 1973 году, а/ соответствует первым 11 пятилетним возрастным группам (/ = 1 соответствует группе 0— 4 года, а )=2 — группе 5—9 летит, д., / = 11 соответствует группе 55—59 лет). Таким образом в таблице приведена матрица X и некоторые вспомогательные величины, В этом примере гс=2, й=11. Величина у2=2,06 и ее следует сравнивать с квантилями распределения Фишера с 1 и 10 степенями свободы. Из-за малой разности во времени (всего 2 года) изменения в средней смертности малы, поэтому можно считать, что параметр нецентральности Х = 112^/а2(1 + 11й) = 0. Величина у2 = 2,06 незначима на 10% уровне (величина ^^=3,28), но значима на 20% уровне (величина ι^_α=1,88). Чтобы понять, стоит ли отвергать модель Mk% определим несмещенную оценку параметра h. Так как ^=0,059 — очень малая величина, поэтому мощность критерия для 20% уровня слишком мала (для fe=0,2 эта мощность около 46%, а ошибка второго рода около 54%), чтобы уверенно делать вывод 285
о независимости между смертностью в разных возрастных группах. Величина ошибки первого рода, когда она (при /г=0,2) равна ошибке второго рода, α* = β*«38%. В этом случае критический уровень иг^а*=0,85 < ι;2=2,06. Проведенный анализ свидетельствует скорее в пользу модели Mhy а не в пользу модели М0. Однако уверенный вывод при имеющихся данных делать рано. В табл. 2 приведена урожайность зерновых культур (в центнерах с гектара) в 1961—1965 гг. (г=1, 2, . . ., 5) для пшеницы озимой(/=1) и яровой (/=2), озимой ржи, ячменя озимого и ярового, овса, проса, риса (/=8), взятая из 16]. Таблица 2 г 1 2 3 4 5 5 1 16,9 16,8 12,9 13,8 16,1 234,09 2 8,2 8,2 5,9 9,9 5,5 56,85 3 10,0 10,1 7,9 8,1 10,1 85,38 4 12,7 15,5 15,1 13,0 13,2 193,21 5 9,6 11,6 9,1 13,2 10,1 114,92 6 7,7 8,2 6,9 9,6 9,3 69,56 7 7,5 6,5 4,6 9,8 6,8 49,56 8 21,1 22,6 25,6 24,3 26,9 580,81 _<> % 137,12 154,72 121,00 161,54 150,06 2 х\. = 1384,38; 2 *?- = 724,47; х.. = 12,02; 2^=7012,23. В этом примере параметр нецентральности также можно считать равным 0, а и=5, &=8, поэтому статистика ν2 при λ=0 распределена по закону Фишера с 4 и 28 степенями свободы. Величина статистики ν2 для данных таблицы 2 равна 1,57 и незначима на 10% уровне (величина и1_а=2,16), но значима на 25% уровне (величина их_а= = 1,43). Несмещенная оценка параметра h по данным таблицы 2 /г=0>057. При 25% уровне значимости и А=0,2 286
мощность Критерия (-—70%) вполне достаточна (ошибка второго'рода достаточно мала ~30%), чтобы не делать вывода о независимости урожайности различных культур. Ошибки первого и второго рода сравниваются (α* = β* = =28% для /&=0,2) при критическом уровне wi_a*=l,35 < < у2=1,57. Все это свидетельствует в пользу модели Mh. ЛИТЕРАТУРА 1. Rogers G. S. and Young D. L. Some Likelchood Radio Tests when a Normal Covariance Matrix has Certain Reducible Linear Structures. Communication in Statistics, 1975, 4 (6). 2. Pao С. P. Линейные статистические методы и их применения. М.: Наука, 1965. 3. Леман Э. Проверка статистических гипотез. М.: Наука, 1964. 4. Народное хозяйство СССР в 1970 г. М.: Статистика, 1971. 5. Народное хозяйство СССР в 1973 г,. М.: Статистика, 1974. 6. Страна Советов за 50 лет. М.: Статистика, 1967.
V. СЕМИНАР «МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ И ВЕРОЯТНОСТНОЕ МОДЕЛИРОВАНИЕ РЕАЛЬНЫХ ПРОЦЕССОВ» ИНФОРМАЦИЯ О СЕМИНАРЕ Семинар функционирует с 1969 г. в рамках Научного совета АН СССР «Оптимальное планирование и управление народным хозяйством СССР» под научным руководством С. А. Айвазяна и Л. Д. Мешалкина (последний присоединился к руководству семинаром в 1973 г.). В настоящем сборнике приводится информация о деятельности семинара в 1976—1977 гг.1 В 1976—1977 гг. на заседаниях семинара было заслушано и обсуждено 55 докладов, авторы которых представляли различные исследовательские центры Москвы, других городов и стран, по вопросам теории и практики многомерного статистического анализа и его применений и в частности: исследования свойств статистик, используемых в теории проверки статистических гипотез и в теории статистического оценивания неизвестных параметров; классификации многомерных наблюдений и снижения их размерности, а также их конкретных приложений; регрессии (включая исследование систем эконометриче- ских уравнений и анализ временных рядов и их применения); теории и практики построения систем экспертных оценок и их статистического анализа; Резюме докладов за 1973 г. см. в кн.: Многомерный статистический анализ в социально-экономических исследованиях (Ученые записки по статистике, т. 26. М.: Наука, 1974, с. 380—414); за 1974 г. — в кн.: Алгоритмы многомерного статистического анализа и их применения (М.: ЦЭМИ АН СССР, 1975, с. 93—175); за 1975 г. — в кн.: Исследования по вероятностно-статистическому моделированию реальных систем. М.: ЦЭМИ АН СССР, 1977. 288
построения вероятностно-статистических моделей механизмов социально-экономических структур; устойчивости (робастности) статистических процедур и математических моделей социально-экономических явлений, использования критерия устойчивости при принятии и обосновании решений; теории нечетких и случайных множеств и их приложений. Несколько заседаний было посвящено анализу результатов посещения зарубежных исследовательских центров (Франция, Канада, ПНР). В настоящем разделе приводятся резюме (или названия) докладов, сделанных в 1976—1977 гг. Как правило, отсутствие резюме компенсируется ссылками на изложение содержания доклада в других источниках. Учений секретарь семинара А. И. Орлов РЕЗЮМЕ (ИЛИ НАЗВАНИЯ) ДОКЛАДОВ, СДЕЛАННЫХ В 1976-1977 гг. Заседание 11 февраля 1976 г. Л. Д. Мешалкин, А. И. Ку- рочкина (4 ГУ при МЗ СССР, Институт кардиологии). Нелинейный факторный анализ одной переменной. Содержание доклада отражено в дальнейших резюме тех же авторов. Заседание 18 февраля 1976 г. А. И. Орлов (ЦЭМИ АН СССР). 1. К теории случайных и нечетких толерантностей. 2. О выборе шага шкалы, согласованного с ошибкой экспертов Первый доклад опубликован в [2], второй — в [1, с. 19-21] и [3]. ЛИТЕРАТУРА 1. Орлов А. И. Проблемы устойчивости и обоснованности решений в теории экспертных оценок. — В кн.: Статистические методы анализа экспертных оценок. Ученые записки по статистике, т. 29, М.: Наука, 1977, с. 7—30. 2. Орлов А. И. Связь между нечеткими и случайными множествами. Нечеткие толерантности. — В кн.: Исследования по вероятностно-статистическому моделированию реальных систем. М.: ЦЭМИ АН СССР, 1977, с. 140-148. 289
3. Орлов А, И. Асимптотика квантования и выбор числа градаций в социологических анкетах. — В кн.: Математические методы и модели в социологии. М.: ИСИ АН СССР, 1977, с. 42—55* 3. А. И. Орлов, Г. А. Гусейнов (ЦЭМИ АН СССР). Математические методы в изучении способных к математике школьников Доклад опубликован в кн.: Исследования по вероятностно-статистическому моделированию реальных систем, М.: ЦЭМИ АН СССР, 1977, с. 80-93. Заседание 25 февраля 1976 г, С. С. Липовецкий (ВНТПТ труда в строительстве Госстроя СССР). Построение обращаемых моделей взаимосвязи многих факторов Пусть ^временные х±, х2, . . ., хп связаны соотношением βο + αΑ + βΛ+···+βΛ = °. (!) а измерения по этим параметрам искажены случайным шумом еу;, т. е. наблюдаются величины ζ^=χ^+ε^ (/=1, . . ., η; i=l, . . ., Ν; Ν^>η). Введем предположения, допустимые в большинстве практических случаев: ошибки &j. стохастически независимы, некоррели- рованы с переменными Xj и между собой, следуют нормальному распределению N (0, έ), где ε — диагональная матрица их дисперсий. В такой ситуации применение метода наименьших квадратов (МНК) приводит к несостоятельным оценкам [1] коэффициентов уравнений (1). Для определения этих коэффициентов следует использовать метод максимального правдоподобия, приводящий к обобщенной задаче на собственные значения [2, 3]: cov · й = λ · έ · α, (2) /\ где cov — выборочная ковариационная матрица наблюдаемых переменных Zj. Собственный вектор Й/ = (а1, а2, . . ., ай), отвечающий минимальному собственному числу Xmin, дает искомые коэффициенты (1), а свободный член а0 определяется прохождением уравнения (1) через точку выборочных средних. Данная задача может быть обобщена на случай отсутствия ошибок по некоторым переменным, когда полная матрица дисперсий е является вырожденной [4]. Пусть, 290
например, первые к переменных (1) измеряются с ошибками, причем έ — матрица дисперсий этих ошибок, а последние п—к переменных от ошибок свободны. Такое построение уравнения (1) сводится к задаче вида (2), где cov является выборочной ковариационной матрицей условного распределения величин zu . . ., zk при фикси- рованных значениях хк+1, ..., хп, т. е. cov = cov^ — c6v^ X X cov~J. · cov^ (последние матрицы также являются выборочными). Решение такой задачи (2) дает собственный вектор dky определяющий первые к коэффициентов (1). Последние η—к коэффициентов определяются через этот вектор соотношением ап_к~ — cov-J. · cov^ · ак, которое указывает, что данный подход является обобщением МНК на случай нескольких переменных (1), подверженных влиянию случайных ошибок. Решение задачи (2) может быть получено, если матрица ε, τ. е. дисперсии ошибок, известна, как это обычно бывает в случае экспериментально измеряемых факторов, или если матрица ε может быть оценена на основе повторных выборок. Имеются также эвристические процедуры для итерационного решения задачи (2) при неизвестной априори матрице е [3, 5]. Рассмотрим следующий подход к построению оценки этой матрицы по данным исходной выборки. Примем в качестве оценки дисперсии ошибки /-го фактора величину остаточной дисперсии в МНК- уравнении регрессии /-го фактора на остальные, которая пропорциональна clcjj — отношению определителя матрицы ё к минору /-го диагонального элемента этой матрицы. Схожие оценки используются при построении структурных уравнений [5]. Для практического вычисления такой оценки можно определить обратную матрицу cov"1; тогда e^diagcov"1)-1. (3) Задачу (2) с матрицей (3) удобно решать сведением ее к обычной задаче на собственные значения V · Ь/= =λ · 5, которое осуществляется преобразованиями V = = e-V2 cov έ-V», δ = έ1/». α — преобразования перехода κ ε — метрике, встречающиеся в методе обобщенных главных компонент [6]. В пространстве стандартизован- 291
ных факторов ζ1 = е~Ч*. ζ искомое уравнение взаимосвязи геометрически отвечает гиперплоскости ортогональной регрессии, критерием построения которой служит минимум суммы квадратов кратчайших расстояний от точек измерений до искомой плоскости. Этот минимум равен Xmin, а через соответствующий собственный вектор ЪЫхк может быть выражено искомое решение: а = е-1/* · 5ш1п или а . = = \Jcjj-bj, поскольку коэффициенты уравнения (1) определены с точностью до постоянного множителя. В случае двух факторов найденное уравнение можно представить в виде χλ — χλ = sign [cov (χιΧ2)]' Vcov (#A)/cov (х2%2) X X(x2—£2)· Это уравнение называют уравнением диагональной регрессии [1, 5], так что данная схема отвечает построению уравнений диагональной регрессии для взаимосвязи многих факторов. Отметим, что если все компоненты [bj] вектора 5min равны между собой, то искомые коэффициенты по модулю равны α^=Vе//· Можно показать, что определяемые таким образом коэффициенты отвечают случаю функциональной связи, когда для частных коэффициентов корреляции любых двух факторов выполняется равенство р2=1/г, т. е. различие компонент bj между собой указывает на стохастический характер взаимосвязи факторов. Существенность полученной связи можно характеризовать величиной R2 = 1 — η ™1П , являющейся аналогом МНК-коэффициента множественной детерминации и меняющейся в пределах О <J Я2 <J 1. Полученное в рассмотренном подходе уравнение (1) является в отличие от МНК-уравнений регрессии обращаемым, т. е. любой фактор может быть выделен по этому уравнению в качестве функции от остальных факторов. Данный метод построения моделей наиболее соответствует большинству практических задач, в которых обрабатываемая информация содержит ошибку по всем факторам. ЛИТЕРАТУРА 1. Лизер С. Экономические методы и задачи. М.: Экономика, 1971, ч. 1, § 2. 2. Кендалл М., Стъюарт А. Статистические выводы и связи. М.: Наука, 1973, гл. 27, 29. 292
3. Липовецкий С, С. Метод многофакторной квазиортогональной регрессии. — Заводская лаборатория, 1975, № 5. 4. Липовецкий С. С. К статистическому оцениванию единого уравнения взаимосвязи произвольного числа факторов, подверженных влиянию ' ошибок измерения.— Заводская лаборатория, 1976, № 5. 5. Маленво Э. Статистические методы эконометрии. Вып. 1. М.: Статистика, 1975, гл. 10. Вып. 2. М.: Статистика, 1976, гл. 20. 6. Айвазян С. Α., Бежаева 3. И., Староверов О. В. Классификация многомерных наблюдений. М.: Статистика, 1974, гл. 4. Заседание 3 марта 1976 г. А. Е. Фридман. Оценка параметра распределения случайного множества методом отображения в гильбертово пространство Заседание 10 марша 1976 г. О. В. Староверов (ЦЭМИ АН СССР). Учет влияния факторов в марковских моделях Доклад опубликован: Экономика и математические методы, т. 13, 1977, № 3. Заседание 17 марта 1976 г. А. А. Плоткин (Информ- электро). Об одном подходе к автоматической классификации с учетом устойчивости Доклад опубликован в кн.: Статистические методы анализа экспертных оценок. Ученые записки по статистике, т. 29. М.: Наука, 1977, 111—123. Заседание 24 марта 1976 г. Б. Т. Поляк (ИПУ). О ро- бастных схемах регрессии Заседание 31 марта 1976 г. Ю. В. Боровских (ЛОМИ). Аналитические методы гильбертова пространства в задачах непараметрической статистики Пусть хг, #а, . . ., хп — независимые случайные величины, равномерно распределенные на интервале [0,1 ]. Положим Обозначим через уп (x)=\Jri'(Fn (х)—х) — эмпирический процесс. Рассматриваются ассимптотические при η -*> оо свойства распределений интегральных функционалов от уп (х) вида ι \V(y„(*))p(x)-dx, υ 293
где V (ζ) и ρ (χ) принадлежат некоторому фиксированному классу функций. Наиболее подробно изучается случай V (ζ)=ζ2, соответствующий известной статистике критерия Крамера— Мизеса—Смирнова ι о Мы трактуем ωη как норму в гильбертовом пространстве L2 (0,1) соответствующим образом нормированной суммы независимых случайных величин y(x) = (b(x — Zj) — z)-^'p(fi, /=1, 2 /t со значениями в L2 (0,1). Пусть yn(t) = Eeiiwl — характеристическая функция ω^. Теорема 1. Пусть параметр t принадлежит конечной части комплексной плоскости, функция ρ (х)^0 — непрерывна и имеет ограниченную вариацию на [0,1]. Тогда ?n(t)=EUexV\Y^-\(b(x-y)-xMJ№.dw(x)\.dy (1) При ρ (z)=l формула (1) согласуется с [1]— [3]. 1 Теорема 2. Предположим, что р(х)^0, \ p(x)dx<^ oo. о Тогда существуют абсолютные постоянные с > 0 и γ > 0, что при всех λ >0и достаточно больших η место неравенство |РК<Х)-Ф(Х)|<С.^.е-т-\ (2) где Φ (λ) — предельная функция распределения Н. В. Смирнова. Неравенство (2) улучшает равномерную оценку А. И. Орлова [4]. Для доказательства (2) можно применить метод одного вероятностного пространства [6]. 294 ■
Пусть λχ ^ λ2 ^ , ... — занумерованные в убывающем порядке собственные числа ядра К{ху у) — \Jp{x)р{у) · (min(#, у) — ху), 0<>, у<1. Следующая теорема важна при асимптотическом сравнении критериев по методу Бахадура [5]. Теорема 5. При больших η и малых χ > 0 справедливо соотношение 11пРк>х.д)~_^-. Этот факт в случае ρ (x)=i был установлен А. А. Боров- ковым и А. А. Могульским. Отметим, что наши методы исследования могут быть применены также к fe-мерным аналогам критерия Крамера—Мизеса—Смирнова, статистике Андерсона—Дар- линга, W\ — критерию Ватсона на окружности, к оценке плотности с квадратической функцией потерь и другим важным статистикам. ЛИТЕРАТУРА 1. Боровских Ю. В. Аналитические методы исследования асимптотических свойств вероятностных распределений в случайных блужданиях, в теории критериев Колмогорова—Смирнова и Крамера—Мизеса—Смирнова. — Теория вероятностей и ее применения, 20, 3, .1975, с. 694—695. 2. Боровских Ю. В. Некоторые результаты асимптотического анализа в двуграничных задачах для случайных блужданий и в теории классических непараметрических критериев согласия. — Теория вероятностей и ее применение, 21, 1, 1976. 3. Черге Ш. Асимптотическое разложение для преобразования Лапласа ω2 — критерия фон Мизеса. — Теория вероятностей и ее применения, 20, 1, 1975, с. 158—162. 4. Орлов А. И. Скорость сходимости распределения статистики Мизеса—Смирнова. — Теория вероятностей и ее применение, 19, 4, 1974, с. 766—786. 5. Bahadur R. R. Some limit theorems in statistics, Society for industrial and applied mathematics., Philadelphia, 1971. 6. Csorgo Л/., Komlos <?., Major P., Revesz i\, Tusnady G. Strong laws of in variance Principle. Carleton Math. Series, 1974, N 106, p. 1-45. Заседание 7 апреля 1976 г. О. М. Черномордик. Непараметрическая оценка однородности характеристик с использованием алгоритма таксономии. 295
Заседание 14 апреля 1976 г. Л. П. Кириенко (ЦЭМИ АН СССР). О некоторых специальных моделях дискрими- нантного анализа Заседание 21 апреля 1976 г. П. И. Литвинов (ФПК МГУ). Вычисление некоторых характеристик коллективных связей между факторами в многомерных статистических моделях Заседание 19 мая 1976 г. Т. Н. Константинова. К вопросу о вероятностных свойствах оценок корреляционных функций и энергетических спектров Пусть χ (t) — реализация стационарного эргодиче- ского гауссова случайного процесса с ненулевым математическим ожиданием μ^Ο, заданная на конечном интервале времени [О, Т]. Требуется определить ковариа- ции (cov) и дисперсии (σ2) оценок корреляционной функции R (τ) и энергетического спектра G (/), вычисляемых по формулам: о τ C(f)= \\(z)A(x)e-№dx9 (2) —τ где λ (τ) — корреляционное окно, используемое для сглажи- т вания спектральной оценки, %—γ \x(t)dt. о Так как о» { Й (τ)} = cov {/? (τ,), R (τ2)} |wt, cov^ft). <?(/,)} = τ = \ \ λ (τ,)λ (τ2) cov {R fa), R fa)} ^«-(/λ+Ζλ)^^, o^{G(/)} = cov{G(/1), G(f2))\/M, то, зная cov {R (тх), R (τ2)},можно вычислить все представляющие интерес характеристики. Введем обозначения: τ Q(i,) = ±\R(u-t)dt, (3) υ 296
Γ-Ιτ,Ι Li{u) = j \ R(u—t)dt, ί=1, 2, (4) о 4_(<p2i(r)' если К1Ж1 Ψ{η~\<?Μ если Ι τ, |< Ι τ, |, (0) где R (τ) = Μ {[* (f) - [*] · [χ (t + τ) - μ]}, ίΓ-Κ| + Γ, если _(Γ_|τ1|)<Γ<-(|τ2|-|τ1|) Ти('-)= Γ-Ι^Ι. если _(|т2|_|Х1|)<г<0 ' Τ — | τ21 — г, если Ο < г < Τ — | τ21, [Γ-ΚΙ + γ, если —(У —[τ1|)<Γ<0 ?ΐ2(Γ)=|Γ —ΙτιΙ. если °<Г<К1 —ΚΙ lr-|t2|_r, если К|-КЮ<Г —ΚΙ· После ряда преобразований можно получить л следующее выражение для ковариации значений оценки Я (τ): соу{/?Ы, Л (^)}= Μ {[R (т,)- - Μ {/? (τ,)}] · [Л (х2) - Μ {R (τ,)}]} = 2*-К| = ТГ J <р(г).{Л(г)Л(г + |^1 —|х,|) + -(Г-|т,|) + R(r + \x2\)R(r-\h\))dr- —г S {$(»)·[Μ»+ΚΙ)+Μ»+ΚΙ-ΚΙ]+ W(«+KI)-[M«)+M«-KI)]- _2(1-1^1)^(ц)^(в + |т,|)}А»- _1 J {^(в)[£а(«+|т1|)+^(«+К1-К1)И- + е(» + К1)-[Ми) + Ми-К1)]- _2(ι_Ι^1)ρ(Μ)ρ(Μ + |τ1|)}ώ,+ Г ЗГ-Ιτ,Ι + ТГ J S {<?(«)[М«) + М* + К1) + +М«-К1)+М* + К1-Ы)1 + 297
+ Ю(«) + С(» + Ы)ЫМи)+М»-|т1|)]- -2(l-\^)Q(u)[Q(s) + Q(g + \xi\)]}dsdu- Τ -^(i-ψ) \\ (ρ(α)[{Μ«)+Μ»-Μ)]- -(t-ЦЦ)^(ц) <?(*)} ώώ. (6) В частном случае τ1 = τ2=τ выражение (6) совпадает (с точностью до обозначений) с выражением для σ2 (β (τ)}, полученным по соотношениям статьи [1]. При μ=0 первое слагаемое (6) совпадает с дисперсией оценки Й0 (τ), A>W=4 J *(')*(*+М)л. о полученной в [2]. ЛИТЕРАТУРА 1. Η у тин Б. Н. О вычислении корреляционной функции стационарного случайного процесса по экспериментальным данным. — Автоматика и телемеханика, т. XVIII, 1957, № 3. 2. Дженкинс Г., Ватте Д. Спектральный анализ и его приложения. М.: Мир. Вып. 1, 1971; Вып. 2, 1972. 3. Коняев К. В. Спектральный анализ случайных процессов и полей. М.: Наука, 1973. 4. Нидеккер И. Г. Вопросы повышения точности вычисления спектральной плотности случайного процесса. М.:ВЦАНСССР, 1968. 5. Микулинская С. М. и др. Корреляционная функция значений оценок спектральной плотности стационарного случайного процесса. — В кн.: Тезисы докладов VII Всесоюзного симпозиума. Методы представления и аппаратурный анализ случайных процессов и полей (Таганрог, 1974, секция 3). Л.: 1974. Заседание 26 мая 1976 г. М. Б. Малютов (МГУ). Применения теоремы о больших уклонениях в отсеивающих экспериментах Заседание 2 июня 1976 г. 1. В. Д. Конаков (ЦЭМИ АН СССР). Оценки скорости сходимости и пуассоновские аппроксимации при изучении максимального уклонения эмпирической функции плотности 298
Доклад опубликован: Теория вероятностей и ее применения, т. 23, 1978, № 2. 2. С. А. Айвазян (ЦЭМИ АН СССР). Исследовательские центры Франции Заседание 13 октября 1976 г. С. А. Айвазян, А. И. Орлов (ЦЭМИ АН СССР). Об основных направлениях эко- нометрических исследований в Польской Народной Республике (по материалам первой советско-польской школы молодых экономистов) Заседание 27 октября 1976 г. Л. Д. Мешалкин (ЦНИЛ, 4 ГУ при МЗ СССР). Применение экспоненциальной весовой функции: 1. Робастная параметризация многомерных распределений. 2. Нелинейный факторный анализ с одной латентной переменной. Первая часть доклада содержится в статье Л. Д. Ме- шалкина в данном сборнике. Вторая часть. Пусть Ар — нелинейная однофакторная модель в Rp вида x=f {L)-\-\ (L), где χ — вектор наблюдений, L — ненаблюдаемая случайная величина, / (Ζ) гладкая вектор-функция параметра Z, f (L) — вектор случайных ошибок, имеющий при L=l нормальное распределение с нулевым вектором средних и диагональной ковариационной матрицей с элементами σ| (Ζ) > 0. Требуется заданное множество независимых наблюдений £ упорядочить согласно убыванию (возрастанию) ненаблюдаемого параметра L. Эта задача решается в два приема. Сначала с помощью специальной вычислительной процедуры F шаг за шагом производится локальная оценка / (Ζ) и of (/) i=l, . . ., ρ для всего диапазона изменений L. При этом по выборочным оценкам взвешенных моментов С = |3срл(я, 8), й = Е(х — v)fh{x, v), \\w\\ = E(x — v)(x — v)T<?h(x, 8), где φΑ (Я, ν) = (yJ2nk)-p exp J- 2 (x4 - v^2h^ av = vk находится в окрестности f(lk), оцениваются вектора d и 5, определяемые разложением / (Z) — ν в окрестности l = lk / (Ζ) — ν ^ d -f- δλ (Ζ). Затем с помощью метода максимального правдоподобия каждому χ сопоставляется оценка 299
СооТве'гствующей точки / (L) и χ упорядочиваются согласно изменению L. Описание процедуры F(C; и; \\w\\; h; d\ 5; д): 1. Вычисление аналога ковариаций: для всех i, j = = 1,...,р 2. Решение методом Спирмена матрицы ||£^||: ί.. = 2ί,.; rff = (*/. — *<)(*.. — 2i(.)_1: i i 3. Оценка «дисперсий»: Щ = ti{ — d2.; a* = Rfi2j(h2 — J?f). 4. Оценка «направления прямой»: ^ = ^(1 — Щк~2)~1. 5. «Перпендикуляр на прямую» в метрике (ж, г;) = = 2 в,*, К + А»)-ь в; = «. (1 - i?^"2)"1 С"1; а,. = /г,. - -(а', 5)ф, Ьрь{. . Теорема 1. Если /(Z) линейна, а σ$. (Ζ) постоянны, то при любых векторе ν и fe>0 по взвешенным моментам ΕφΛ, Ε (χ — г;) φΑ, Ε (ж — г;) (ж — г;)2" φΑ с помощью процедуры /* можно найти а. и восстановить прямую /. В общем нелинейном случае теоретическое исследование итеративного процесса, основанного на процедуре F, удалось провести лишь в окрестности модели Ат с бесконечным числрм наблюдений х. Введем необходимые определения. Обозначим через $1 последовательность по ρ -> оо моделей Ару для которых выполняются следующие условия: 1) распределение Ζ одно и то же для всех р; 2) величины sup max af. (Ζ) и sup maxo^ (Z)/inf min^ (Z) ι % ι % ι % равномерно (по р) ограничены; 3) для любых двух точек lx и Z2 величина /Г1 2 In (^(Zj)/ I ♦ /Gi{h))\~-*Q равномерно по р и Ζ. Будем говорить, что $1 регулярна в окрестности l = lQ, если: 300
1) для некоторых δ>0 и С<^оо, независящих от р, функции о. (I) и fi (I) разлагаются в окрестности \1 — Ζ01 ^δ в ряды по степеням Δ = I — lQ до членов второго порядка малости по Δ: /,.(Ζ0 + Δ) = α,. + /κΛ+Γ^( °Ι(^ + Δ) = ^ο + ^ + ^2. где a., bi9 ai0, d. — константы, ас{ и с. — функции отΔ. Причем max sup max (Ы, |<?t.|)<C<oo, max max(|6j, |rfJ)<C< oo. 2) ρ-1 Σ (/,· (I) - ft № > λ (i - i0)3. где λ > 0; i 3) q(l) — плотность распределения I непрерывна в точке l = l0n д(10)>0. Теорема 2. Если последовательность ЗД регулярна в окрестности l — lQ и объем выборки бесконечен, то применение процедуры F к взвешенным моментам, подсчитанным относительно точки v = f(l0)-\~ а, где а4 = 0(р~л1*) и 2аА/(°?<г~Ь ^2)= ^» дает возможность оценить направление вектора 5 и σ| с точностью до 0(ρ~χ!ή, а вектор а с точностью до 0(р~1). Вычислительная процедура, основанная на описанном выше алгоритме, работала на выбранных для ее проверки математических моделях быстро и достаточно эффективно. Заседание 10 ноября 1976 г. А. И. Орлов (ЦЭМИ АН СССР). Элементы теории конечных случайных множеств 1. Пусть Υ —- конечное множество, 27 — совокупность его подмножеств. Конечное случайное множество — это случайная величина со значениями в 2Υ. Конечность Υ — ограничение, позволяющее, с одной стороны, существенно' упростить математические рассуждения и, с другой — приемлемое почти для всех приложений. Полученные в докладе результаты нацелены на приложения к обработке нечисловой информации, отражающей мнения экспертов. В частности, в теории экспертных оценок часто используются такие бинарные отношения, как ранжировки и классификации [1]. Но бинарные отношения на множестве X — это подмножества X2, а потому в вероятностных моделях экспертных оценок естественно возникают случайные множества. Они полезны и во многих других областях. Так, нечеткие множества сводятся к случайным [2]. 301
2. Введем расстояние между множествами в популярном ныне стиле 13]. Теорема 1. Пусть 51 —- алгебра множеств с единицей X и для функции d: <2l2 -► В1 при любых А, В, С из 51 а) d(A, B)=d(B, A) >0; б) из Af\CQBQA\jC следует, что d(A, B)+d(B, C) = =d(A, С); в) d(A, B)=d(A\B, B\A). Тогда существует и единственна конечно-аддитивная мера μ на *21 такая, что d(A, В) = р(АЬВ). (1) Обратно, если d(A, В) определяется с помощью (1), где μ — конечно-аддвтивная мера, то d (А, В) — псевдометрика и выполнены свойства б) и в). Пусть справедливы а), б), в) и г) из Аг ~D A2 ZD A3 Z) ... и f] Ак=0 следует, что d(An, 0)->О при п->со. Тогда в (1) мера μ является σ-аддитивной. Обратно, если в (1) μ σ-аддитивна, то d является псевдометрикой и выполнены свойства б), в) и г). В случае конечности Х= {хх, #2,. . ., хк) (1) переходит в d(A,B)= Σ \x№A)-x(xt£B)\pit (2) где χ (Η) — индикатор события Η, μ£ неотрицательны при всех I. 3. Мы введем средние множества и докажем законы больших чисел. В частности, будет найден предел эмпирической медианы ранжировок. Начнем с общих теорем. Используется терминология [4]. Теорема 2. Пусть X — сепарабельный бикомпакт, ρ — непрерывная функция из X2 в Д1, а £— случайная величина со значениями в X. Тогда ρ (ξ, χ) — случайная величина и решение задачи / (я) = Μρ (ξ, #)->min, x£X (3) существует. Оно называется средним (относительно р) значением ξ. Пусть ξΐ9 £2, . . ., £и, ... — независимые 302
случайные величины с тем же распределением, что и £. Решение задачи существует и называется эмпирическим средним. Пусть Х0 — совокупность всех решений задачи (3), минимальное значение в (3) есть а и Хе={х£Х, f (χ) ^ α+ε}. Тогда вероятность того, что все решения задачи (4) принадлежат Хе, стремится к 1 при и-> оо для любого ε > О (закон больших чисел). Более того, с вероятностью 1 существует случайный номер щ такой, что при всех η > п0 все решения задачи (4) принадлежат Хе (усиленный закон больших чисел). Теорема 3. Пусть выполнены все условия теоремы 2, кроме того, что X — бикомпакт. Пусть существует х0 £ X такая, что {х : | ρ (χ, х0) | ^ R} являются сепарабель- ными бикомпактами при всех R > 0 и Μ | ρ (£, х0)\ <^ оо. Пусть существует константа D такая, что при всех х, у и z из X -Я<Р(*, z)<Z>(p(s, y) + f(y, z)). (5) Тогда верны заключения теоремы 2. Доказательства теорем 2 и 3 проводятся в стиле [5]. Следствие 1. Пусть хт — единственное решение задачи (3), а хп — произвольное решение задачи (4). Тогда ¥(Итхя = хт) = 1. я->оо Замечание. Пусть X=R1. При ρ (ξ, #) = (£—χ)2 решением (3) является Μ ξ, а решением (4) — среднее арифметическое наблюдений, что и дает основания называть решения задач (3) и (4) соответственно теоретическим и эмпирическим средними, а теоремы 2 и 3 считать обобщениями законов больших чисел. При ρ (ξ, ж) = |£—#| решениями (3) и (4) являются медиана и эмпирическая медиана. Связь между «показателями центральной тенденции» и задачами типа (3) прослежена в [6] (в случае X^R1). Следствие 2. Пусть X состоит из конечного числа элементов. Тогда Хе=Х0 при достаточно малом ε > О, вероятность того, что решение задачи (4) является также решением задачи (3), стремится к 1 при и-> со. Более 303
того, с вероятностью 1 существует случайный номер щ такой, что при п^> щ решение (4) есть решение (3). Какие функции ρ естественно рассматривать в (3) и (4)? Представляется целесообразным искать эмпирические средние как результат минимизации среднего расстояния от ξ. до х. Естественные аксиомы [7 ] приводят к необходимости использования обобщенных средних по Колмогорову. В этом случае (4) имеет вид 7Г 2 F(x&' *))^min· χ£χ> (6) где τ — метрика в X, a F — строго возрастающая функция. Естественно также потребовать, чтобы эмпирическое среднее не менялось при переходе к другой единице измерения расстояния. Тогда из [9, теорема 4.8] следует, что в качестве F можно использовать только степенные функции, ρ=τρ при некотором ρ > 0. Такие ρ удовлетворяют (5) при D=2P. К конечным случайным множествам применимо следствие 2. В качестве τ можно использовать d из (1). Сформулировать определение среднего множества порядка р>0 и соответствующие законы больших чисел предоставляем читателю. Для ранжировок (4) дает эмпирическую медиану при р=1, μ*=1. Для бесконечных случайных множеств в случае расстояния (1) вопрос о справедливости законов больших чисел остается открытым. Иное положение с расстоянием Хаусдорфа. Теорема 4. Пусть τ — метрика Хаусдорфа в совокупности 2Г замкнутых подмножеств метрического бикомпакта У, Х=27, р=тЛ Тогда при произвольном ρ > 0 справедливы теоремы 2 и 3. Доказательство вытекает из того, что 27 — бикомпакт в топологии, порожденной τ [8, с. 55]. Распределение конечного случайного множества называется монотонным, если существует В £2У такое, что из d (В, Сг) > d (В, С2) следует Ρ (А=Сг) < Ρ (Л=С2). Распределения многих случайных множеств, возникающих в теории экспертных оценок, являются монотонными. Легко видеть, что в случае монотонности решение задачи (3) единственно (при условии niin »л. >0), а именно, есть В, и верно следствие 1. 304
4. Статистическая теория конечных случайных множеств общего вида основывается на том, что случайное множество можно рассматривать как мультиномиальную случайную величину, принимающую значения X £ 2Г с вероятностями Ρ (Α=Χ). Проверка гипотез и оценка параметров для мультиномиального случая хорошо разработаны, и мы не будем здесь останавливаться на них. Заслуживает внимания одно ^-параметрическое семейство случайных множеств, где к — число элементов γ={υι, Уг> · · ., Ук}· Определение. Случайное множество А называется случайным множеством с независимыми элементами, если Г{А = Х)= Π h(yt, pt), (7) где h (у, р)=р при у £ X и h (у, р)=1—р в противном случае, т. е. события 2^={ш : yi £ Α (ω)} независимы в совокупности и Ρ (Ω.)=/ν Распределение случайного множества с независимыми элементами задается вектором параметров ρ (А)=(р1У р2, . . ., рк). К случайным множествам с независимыми элементами сводятся независимые парные сравнения, а также случайные толерантности, теория которых развита автором в [10], [11]. Простота аппарата, позволяющая проникнуть глубже, чем в общем случае, основывается на том, что d (А, В) в (2) есть сумма к независимых случайных величин. Не имея возможности изложить здесь статистическую теорию случайных множеств с независимыми элементами, рассмотрим в качестве примера одну непараметрическую задачу. Пусть при каждом натуральном к имеется множество Yk из к элементов и т его случайных подмножеств Al9 A2J . . . . ., Ат с независимыми элементами, распределения которых задаются векторами ρ (Аг), ρ (А2), . . ., ρ (Ат). Требуется проверить гипотезу Н0 о равенстве неизвестных исследователю параметров ρ (A J между собой: ρ (А1)=р (А2) = . . .=р (Апг). Представляется естественным использовать статистики, основывающиеся на векторе попарных расстояний dk={d (Α., A J), 1 <J i < / ^ ^ m}. Этот вектор в силу (2) и независимости элементов Ai является суммой к независимых случайных векторов, соответствующих отдельным элементам Yk, а потому при 305
выполнении условий многомерной центральной предельной теоремы является асимптотически нормальным, т. е. существуют матрицы Ак и векторы Ьк такие, что распределение Akdk-\-bk сходится к распределению нормального вектора £ с нулевым математическим ожиданием и единичной ковариационной матрицей. В силу теоремы 4 из [12] распределение / {Akdk-\-bk) сходится к распределению / (£) для произвольной интегрируемой по Риману по любому кубу функции /. Поэтому для проверки гипотезы Н0 можно использовать критерии, основанные на / (Akdk+bk). Выбор / находится в распоряжении исследователя. Следует отметить, что линейные комбинации координат вектора Akdk-\-bk предпочтительнее статистик типа χ2, поскольку их распределения сходятся к пределу быстрее в первом случае, чем во втором. Для использования указанного класса статистик необходимо уметь оценивать Ак и Ък, зависящие от неизвестных исследователю параметров. При справедливости Н0 можно показать, что Ак и Ък зависят только от трех чисел «(1, 1), α (2, 1), α (2, 2), где *(t, q)= Σ tiiPiV-Pd)9. (8) Если α (·, ·) при к -► оо не являются бесконечно малыми, μ4 < С при всех i, к и найдутся статистики β (·, ·) такие, что or1 (t, q) (β (t, q) -> 1 по вероятности при к -► оо для всех t, q, то, как можно показать, предельное распределение Akdk-{-bk не изменится при замене α на β. В силу закона больших чисел в форме Чебышева для получения β (·, ·) достаточно найти несмещенные оценки (p. (i—Pi))9, ?=1» 2, и подставить их в (8) вместо оцениваемых величин. Лемма (Г. В. Срагович). Пусть проводится т независимых испытаний Бернулли с вероятностью успеха ρ в каждом испытании. При т ^ 4 несмещенными оценками ρ (1— ρ) и ρ2 (1— ρ)2 с наименьшей дисперсией являются соответственно где ν — общее число успехов, 306
Λλ =ζ —α2 — 4α3 — 6α4, Α2 = α2-\- 6α3 + 11α4> Α 3 =s —2α3 — 6α4, ^44 = α4, aj=*(m(m— 1) ... (m — jf+1))"1, /=1, 2, 3, 4. При m=*2,3 несмещенной оценки ρ2 (Ι—ρ)2 не существует. В теории экспертных оценок гипотеза Н0 интерпретируется как гипотеза согласованности мнений экспертов. ЛИТЕРАТУРА 1. Статистические методы анализа экспертных оценок. Ученые записки по статистике, т. 29. М.: Наука, 1977. 2. Орлов A. if.. Нечеткие и случайные множества. Наст, сб., с. 262-280. 3. К вмени Дж., Снелл Дж. Кибернетическое моделирование. Некоторые приложения. М.: Советское радио, 1972. 4. Келли Дж. Л. Общая топология. М.: Наука, 1968. 5. Wald A. Note on the consistency of the maximum likelihood estimate. Ann. Math. Statist., 20, 1949, N4, p. 595—601. 6. Dershem H. L. A relationship between approximation theory and statistical measurements. — Pi Mu Epsilon J., 6, 1975, N 2, p. 69—74. 7. Джини К. Средние величины. М.: Статистика, 1970. 8. Куратовский Я. Топология, т. 2. М.: Наука, 1969. 9. Орлов А. И. Прикладная теория измерений. Наст, сб., с. 68— 138. 10. Орлов А. И. Проблемы устойчивости и обоснованности решений в теории экспертных оценок. — В кн.: [1], с. 7—30. 11. Орлов А. И. Связь между нечеткими и случайными множествами. Нечеткие толерантности. — В кн.: Исследования по вероятностно-статистическому моделированию реальных систем. М.: ЦЭМИ АН СССР, 1977, с. 140—148. 12. Орлов А. И. Асимптотическое поведение статистик интегрального типа. — ДАН, 219, 1974, № 4, с. 808—811. Заседание 24 ноября 1976 г. Д. С. Шмерлинг (ВНИИ «Цемент» Министерства промышленности стройматериалов). О некоторых моделях парных сравнений со связями Доклад публикуется в настоящем сборнике. Заседание 8 декабря 1976 г. Η. Ε. Зигангирова (ЦЭМИ АН СССР). Моделирование экономических структур с помощью систем эконометрических уравнений: проблемы теории и практики (обзор) Заседание 16 февраля 1977 г. 1. А. И. Орлов, А. В. Воскресенский (ЦЭМИ АН СССР, МГУ). Принцип инвариантности в одной модели управления запасами Создание любой автоматизированной системы управления материально-техническим снабжением, базирую- 307
щейся на комплексе экономико-математических моделей, должно включать в себя разработку (в качестве блоков) моделей деятельности отдельных баз материально-технического снабжения. Это обстоятельство объясняет внимание, которое уделяют многие авторы проблеме нахождения оптимальной политики управления запасами на базе (складе). Как известно, в некоторых случаях доказана оптимальность политики двух уровней (см., например, [1]). Это дает эвристическое основание для широкого использования указанной политики также и в тех случаях, когда вид оптимальной политики управления запасами неизвестен, что и обосновывает необходимость развития теории двухуровневой модели. Мы рассматриваем следующую однопродуктовую модель. Заявки удовлетворяются мгновенно. При отсутствии продукта заявки учитываются. Как только запас на складе опускается до уровня R < О, мгновенно поступает партия продукта величиной Q, где R+Q > 0. Пусть у (t) — запас на складе в момент t. Функцию у (t) предполагаем непрерывной справа. Тогда при всех t. Пусть s (t) — накопленный спрос за промежуток времени [0, t]. Нетрудно показать, что y(t) = y(0)-s(t)+Q+[sU + RQ-»M]Q, где квадратными скобками обозначена целая часть числа. Предполагается, что средние затраты за время [0, Т] равны (τ τ Cl\y+(t)dt-]-c2\y-(t)dt + о о +4"Г1+В0-'"»]). (ι, где сх — плата за хранение единицы продукта в течение единицы времени, с2 — издержки от дефицита единицы продукта в течение единицы времени, с3 — плата за заказывание и доставку одной партии, у+=тах (у, 0), У~=У+—У- 308
Мы должйы найти оптимальные R, Q и у (0), минимизировав w (T), если спрос s (t) детерминирован, и минимизировав Μιν (Γ), если спрос случаен. Как видно из (1), Mw (T) выражается через распределения s (t) и у (t). Однако со РМ*)<у} = 2Р{«е--у<*(0<и<?-Д}· Таким образом, Мм; (Т) выражается через накопленный спрос s (t). Примем следующую модель спроса. В случайные моменты времени tl9 t2, ... появляются заявки случайного размера ξ1? ξ2, . . .. Последовательность {ξ{} состоит из независимых в совокупности одинаково распределенных случайных величин. Эта последовательность независима от моментов возникновения спроса tx, t2y .... Пусть τ (t) — число заявок за промежуток времени [0, ί], тогда «(*) = *! + *.+ ·.. +КИУ Теорема 1. Пусть £х имеет первые пять моментов и интегрируемую характеристическую функцию. Пусть P(x(i)=o)=o(MTTJTT). Тогда равномерно по у T>{y{t)^y) = ^+0(MT^). Для доказательства наряду с разложением Эджворта в центральной предельной теореме используется следующий результат, имеющий самостоятельный интерес. Теорема 2. Пусть функция /(#), x£Rl, такова, что а) f(x) дважды непрерывно дифференцируема; 00 б) I f(x)dx существует и равен 1; в) ~Hm f(x) = 0; |ж|->оо г) существует и строго убывает на [0, +00) функция g(x) такая, что |Г(*)К«г(1*1). *№ и g(x) интегрируема на [0, -f-oo). 309
Тогда найдется число С, такое, что при всех 0<^г/^/г 2 S /<*>*-ί —oo<fc<oo &Л <сд2. Доказательство теоремы 2 проводится с помощью разложения f(x) на [kh, (k-{-l)h] в ряд Тейлора в точке kh. Теорема 3. Пусть выполнены условия теоремы 1, Μτ (t) существует при всех t и ^оо \τ(ί)+1/ Тогда Mw(T) = H(R, Q) + bT(R, <?), где Я(Д, (?) = (Cl + c2)-g- + е,Д + ^· + Μτ(У' (2) и НтАг(Л, <?) = 0. Т->оо Теорема 4. Определенная в (2) функция H(R, Q) в области {Л<0, i?-f(?>0} достигает минимума в точке (Я0, <?0), где ^о— ^ Те%{ег + е%) ) ' (d) п _/2Мт(Г)М61с>(с1 + са)\У. Теорема 5. Пусть выполнены условия теоремы 3, а (Rt, Qti Ут (0)) — точка, в которой достигает минимума Мш (Г). Тогда \Rt-R0\ + \Qt-Qo\ = 0(^t(R0, Qq)). Рассмотрим некоторые частные случаи. Если существует Μτ{Τ) lim Г->00 310
то существуют пределы у R0 и Q0 из (3). Если, кроме того, МЫтт)=<). то Мд, 0=0(4^)· Предшественники ([2] и др.) рассматривали лишь случай пуассоновского потока ίχ, /2, . . ., что является существенным ограничением, поскольку в силу плановости народного хозяйства в ряде случаев естественно считать, что в определенные моменты τ (t) фиксировано (ср. [3]). Теорема о равномерности предельного распределения у (t) доказана здесь впервые. В [2] получен лишь бесконечный ряд, в котором функция Лапласа грубо приближается единичной ступенчатой функцией, в результате чего в выражении типа Η (Л, (?) появляются лишние члены (в обозначениях [2]) 2c^(Q + R) + 2c2^B. Полезно отметить также, что в рассматриваемой задаче казалось естественным изучить предельное распределение s (t) (ср. [4]). Однако это оказалось излишним, поскольку определяющим является эффект, найденный в теореме 2. ЛИТЕРАТУРА 1. Рыжиков Ю. И. Управление запасами. М.: Наука, 1969. 2. Лавренченко А. С. Решение задач оптимального управления запасами при нестационарном пуассоновском потоке требований. — В кн.: Сб. научных трудов Моск. авиац. ин-та, вып. 306, М.: МАИ, 1974, с. 62-72. 3. Орлов А. И., Пейсахович Э. Э. Некоторые модели планирования оптимальных размеров поставок и начального запаса. — Экономика и математические методы, т. XI, 1975, №4, с. 681—694. 4. Орлов А. И. Отказ от пуассоновости спроса в одной модели управления запасами. — В кн.: Исследования по вероятностно- статистическому моделированию реальных систем. М.: ЦЭМИ АН СССР, 1977, с, 93-96, т
2. А. И. Орлов, И. В. Орловский (ЦЭМИ АН СССР, МГУ). Равномерная оценка остаточного члена в асимптотическом разложении функции распределения двухвыбо- рочной статистики Смирнова Пусть Fn (χ) и Gn (x) — эмпирические функции распределения, построенные по независимым выборкам объема η из непрерывных функций распределения F (х) и G (х) соответственно. Для проверки гипотезы F (x)=G (x) Η. В. Смирнов предложил использовать статистику Dt = snp(Fn(x)-G„(x)). X Введем Δ (η, λ) с помощью тождества *1^:>х)=г"(1+ЭД-.£.)+эд. В [1] была поставлена задача нахождения оценок Δ (я, λ), равномерных по области А(Ках> Ь *o) = {(*. λ)·°<λ<λπκ«, 7^"<Л' где N — множество целых неотрицательных чисел, и приведена одна из подобных оценок. Нами найдены Δ2 и Δ2 такие, что Δ2 < Δ (τι, λ) < Δ2 при (τι, λ)£Α (Xmax, γ, η0), еще для нескольких конкретных значений Хтах, γ, щ (см. табл.), а для этого предложены верхние и нижние оценки Δ (η, λ) в общем случае, слишком громоздкие, чтобы приводить их здесь. Отметим, что указанные оценки неоднократно улучшались, так что некоторые из приведенных в таблице констант в несколько раз меньше (по абсолютной величине), чем полученные первоначально. В строке 4 приведены для сравнения константы, вычисленные в [1]. Как отмечалось в [1], подобные оценки можно было бы получить для многих практически используемых распределений, что повысило бы обоснованность их применения. Однако последнего можно было бы добиться путем применения численного анализа с использованием ЭВМ. В рассматриваемой области сравнительные достоинства и недостатки теоретического и эмпирического путей пока не очень 312
ясны. Заслуживает обсуждения также и выбор наиболее рационального вида оценок остаточных членов. Таблица Верхние и нижние оценки Л (/г, λ) 1 2 3 4 шах 3,0 2,5 ^3^1,73 3,0 τ 0,5 0,75 0,5 0,5 По 8 8 8 1 А, -16,5 -6,2 -0,71 -86,0 Δ2 69,6 26,0 2,65 121,0 ЛИТЕРАТУРА Орлов А. И, Оценка остаточного члена для функции распределения двухвыборочной статистики Смирнова. — В кн.: Алгоритмы многомерного статистического анализа и их применения. М.: ЦЭМИ АН СССР, 1975, с. 105—108. 3. Р. Ф. Душкесас, А. И. Орлов (МИНХ, ЦЭМИ АН СССР). Нижние границы точности определения коэффициентов в классической модели управления запасами В классической модели управления запасами (строго описана в Ц ]) имеется три коэффициента: μ (спрос за единицу времени), s (плата за хранение единицы товара в течение единицы времени) и g (плата за доставку партии). Оптимальная политика (та, при которой затраты минимальны) зависит от этих трех коэффициентов. Первый из них найти легко, определение s и g требует специальных исследований. Методики, предложенные для определения s и g различными организациями, дают отличающиеся друг от друга результаты, на основе чего некоторые экономисты выражают сомнение в целесообразности использования модели. В [2] был предложен подход, позволяющий указать нижние границы для разумной точности определения коэффициентов и решить вопрос о том, действительно ли выбор методики существенно влияет на рекомендации модели. В настоящем докладе этот подход развивается и опробывается на реальных данных. Нетрудно показать, что оптимальная политика в классической модели содержится среди политик с равными 313
размерами партий и равными интервалами между поставками. Эти политики определяются одним параметром — величиной партии Q. Соответствующие им затраты обозначим / (Q). Затраты минимальны при Q=Q0 (μ, g, s). Предположим, что вместо истинных значений параметров нам известны лишь их приближения μ* = μ+Δμ, g*=g-\- + Ag, s* =s+ Ash мы используем план с Q* ~Q0 (μ*, g*, s*). Тогда с точностью до членов более высокого порядка причем оценка (1) в некотором смысле неулучшаема [3]. Величину Δ μ можно оценить по фактическим данным о спросе. В соответствии с идеей [2] предлагается выбирать Ag и As так, чтобы увеличение затрат, вызванное неточностью определения g я s, было того же порядка, что и вызванное неточностью определения μ. Используя (1), приходим к естественности выбора Ag и As из условий μ g s ' которые уточняют формулу (7) в [2]. Отметим, что использование относительных погрешностей, а не абсолютных, соответствует также результатам [4], поскольку μ, g и s следует считать измеренными в шкале отношений. В (2) участвуют истинные значения параметров, которые неизвестны. Поэтому необходима итерационная процедура — вместо параметров подставляются их грубые оценки, из (2) определяется примерная точность, проводятся исследования, уточняющие значения параметров, и процесс повторяется. Впрочем, можно остановиться (в большинстве случаев) на первом же шаге, поскольку и при грубом оценивании произойдет некоторое уравнивание ошибок. В частности, таково положение для рассмотренных нами реальных данных. Соотношение (2) получено с учетом только линейных колебаний спроса, в действительности же фактический спрос отличается от линейного. Оценим изменение затрат 314 (2)
при нелинейном спросе. Пусть 6 (t) — накопленный спрос за время t, и sup |S(*)—(i*l<e. (3) Будем считать, что склад работает следующим образом: как только уровень запаса опускается до 0, приходит очередная поставка величиной Q, причем мгновенно. Обозначим /г(£(0> (?) средние затраты в этой модели. Чтобы оценить максимально возможное увеличение затрат при отклонении от линейности, решим задачу /г (6 (0, Q)-fr№, <?)-*max (4) при ограничениях (3). В силу общих результатов [5] решение задачи (3)—(4) существует, причем максимум в (4) есть Css, где 1 ^ С 4^ 2 [3, гл. 2, § 3]. Аналогичный результат имеет место при замене равномерной метрики в (3) на метрику в Lp (О, Г), ρ ^ 1. Идея уравнивания увеличения затрат из-за различных причин, именно, из-за отличия спроса от линейного и из-за неточности определения значений параметров g и s, приводит к предложению определять Δ# и ks из условий где D = ·==- \l\bgS · Поскольку sup I (μ -J- Δρ.) t — μ* Ι = ΓΔμ, то в случае линейных колебаний спроса определяемые из (5) kg и As имеют порядок \J Δμ при Δμ -> 0, в то время как в (2) все приращения параметров имеют один и тот же порядок. Условия (5) являются уточнением формул (8) из [2]. Были собраны и обработаны данные о спросе на кальцинированную соду на Реутовской химбазе Управления Мос- химснабсбыта [3]. Параметр μ в (3) определялся по методу наименьших квадратов. Параметры g и 5 в (5) оценивались 315
двумя способами — по методике НИИМСа [6 ] и ЦЭМИ АН СССР [7 ]. Оказалось, что для каждой из методик интервалы (s—-As, s+As) и (g—Ag, g+kg) таковы, что числа, рассчитанные по альтернативной методике, попадают внутрь этих интервалов. Выяснено также, что для большинства отраслей можно при расчете потерь от иммобилизации средств, вложенных в запасы, пользоваться как отраслевой, так и народнохозяйственной нормами эффективности, поскольку отраслевые нормы входят в допустимые пределы колебаний параметра s, порожденные народнохозяйственной нормой. Вместе с тем для некоторых конкретных отраслей народнохозяйственную норму применять нельзя. За счет колебаний параметров модели в допустимых пределах максимальное относительное увеличение суммарных затрат на хранение и транспортировку продукции не превосходят 26% (колебания по кварталам от 22,6% до 25,95%). Фактические издержки почти в 3 раза превышают оптимальные (колебания по кварталам от 260% до 349% от оптимальных). Следовательно, внедрение рассматриваемой модели в практику управления запасами на Реутовской химбазе позволит снизить издержки, связанные с хранением и формированием поставок кальцинированной соды не менее чем в 2 раза. Таким образом, несмотря на то, что параметры модели определены неточно и колебания параметров приводят к некоторому увеличению затрат по сравнению с затратами в оптимальном плане, использование модели для целей управления запасами может дать значительный экономический эффект (ср. [8]). ЛИТЕРАТУРА 1. Орлов А. И. Про управление запасами. — В кн.: Подготовка студентов педагогических институтов к внеурочной работе по математике. Вологда: 1975, с. 10—20. 2. Орлов А. И. Проблемы устойчивости в некоторых моделях управления запасами и ресурсами. — В кн.: Алгоритмы многомерного статистического анализа и их применения. М.: ЦЭМИ АН СССР, 1975, с. 94—105. 3. Душкесас Р. Ф. Проблемы устойчивости в классической модели управления запасами. М.: МИНХ им. Г. В. Плеханова, 1977. 4. Орлов А. И. Прикладная теория измерений. Наст, сб., с. 68—138. 5. Орлов А. И, Некоторые математические свойства общей схемы устойчивости. — В кн.: Алгоритмы многомерного статистического анализа и их применения. М.: ЦЭМИ АН СССР, 1975, с. 143—146. 316
6. Проценко О. Д. Экономико-математические модели управления запасами на базах и складах территориальных управлений. М.: Экономика, 1969. 7. Геронимус Б. Л. Пути совершенствования планирования материально-технического снабжения народного хозяйства. М.: Наука, 1973. 8. Макаров Α. Α., Макарова А. С, Зейлигер А. Н. Исследование зоны неопределенности оптимального развития сложных экономических систем. — Экономика и математические методы, т. VI, 1970, № 6, с. 849—863. 4. В. С. Высоцкий (ЦЭМИ АН СССР). О сравнении шкал В настоящей работе предпринята попытка формализовать такие интуитивно очевидные понятия, как «одна шкала слабее другой» или «одна шкала эквивалентна другой». Определение 1 [1,2]. Шкалой S называется упорядоченная тройка S=(il, 9ΐ, />, где $1=ζΑ, α1? α2, . . ., ak) — эмпирическая система с отношениями (эсо); А — некоторое множество, которое называется носителем эсо, а а1? а2, . . ., оск — отношения на A, 9l=(Rs, р1? р2, . . ., рк) — числовая система с отношениями (чсо) того же типа, что и эмпирическая; Rs — подмножество множества всех действительных чисел, которое называется носителем чсо; Pi» P2> · · ·> ?к ~~ отношения на Н8 и / — гомоморфизм эсо. ΪΙ в чсо. 9?, т. е. / отображение А в Rs такое, что Yi/i= =1, 2, . . ., к, /(«,)=и{(/Ы, /К), .../Ы): (ах, а2, ... аг) £ σΊ] С ρ,. Это эквивалентно тому, что αί£/_1(Ρί). Написанное выше определение гомомор- физхма принято в алгебре и теории моделей [3, 4]. Хотя в теории измерений, следуя Суппесу и Скотту [5], под гомоморфизмом понимают более узкое определение, а именно требуют, чтобы а#.=/-1 (р.), мы по чисто техническим соображениям будем придерживаться более широкого толкования. Все результаты, справедливые для нашего понимания гомоморфизма, легко переносятся на более узкое определение. Кроме того, мы потребуем, чтобы гомоморфизм / удовлетворял следующему условию: если два элемента а} и aj из А «не различаются» отношениями a., i=l, 2,. . ., fe, т. е. если Vi/i=l, 2,. . ., к; v/|/= 1» 2, . .., lt и ах, а2, . . .,ау_р aJ+v . . ., αξ.£Λ (αΑ, α2, . . .yaj^a'jdj^ .. . ah) £ α. ο (alta2,.. .,α^ά'^α^.. . . . .аи)£а{, το/(α}) = /(α;). 317
Содержательно это условие можно проиллюстрировать на следующих примерах. Всем телам, независимо от их формы, цвета и размеров, но которые уравновешивают чашки весов, должен быть приписан один вес, или всем респондентам, независимо от их пола и возраста, но которые одинаково ответили на вопросы теста, должен быть приписан одинаковый тестовый балл. Замечание. Определение 1 шкалы является некоторым видоизменением определений этого понятия, данных Суп- несом и Зинесом в работе [1] и Пфанцаглем в работе [21. Обозначим через W (И, 91) множество всех гомоморфизмов эсо И в чсо. 9?, которые удовлетворяют нижеследующим условиям (а) и (Ь): (а) если два элемента а. и а', не различаются отношениями ai9 i= 1, 2,..., к в том смысле, как об этом говорилось выше, то f{a)) = f (a]) Yf'£W(% 9v); &)/'(«<) С Ρ, 4f'£W(%<X). Определение 2. Назовем шкалу S=<?H, 9?, /> ГДП — шкалой, если существует группа подстановок G множества JRs (подгруппагруппы всех подстановок ГКз) такая, что выполнены следующие условия: 1. V/', f£W(% 91), Eg£G, такое, что f' = gof'; 2. Yg£G и Yf£W(% <X)gof'£W(4l,<X); 3. если g£TRs и Vf£W(4i, 91) gof'£W(% 9ΐ), то 4. Y9i£9i PiQGf(ai)=U{g(f(*i)):g£G}; 5. группа G удовлетворяет следующему условию максимальности: если для некоторого <р£Гд5 G С cpGcp"1, то G= = φ6φ-χ. Определение 2 ГДП — шкал отличается от определения G — шкал, данного Г. А. Сатаровым [6, 7], введением дополнительных условий 3 и 5, которые позволяют установить достаточно глубокие и содержательные утверждения в теории измерений. Множество G называется множеством допустимых преобразований шкалы. Перечисленные выше условия (а), (6), 1, 2, 3 и 4 имеют естественные эмпирические истолкования. Условие (а) было объяснено выше. Условия 1 и 2 определяют группу G как группу допустимых преобразований шкалы и говорят о «естественных» свойствах, которым должны удовлетворять шкалы: 1) если 318
мы с помощью допустимых преобразований перешли сначала от измерения в шкале S± к измерению в шкале 52, а затем от измерения в шкале S2 к измерению в шкале £3, то должно существовать допустимое преобразование, сразу переводящее от измерения в шкале Sx к измерению в шкале S3\ 2) если мы с помощью допустимого преобразования перешли от измерения в шкале S± к измерению в шкале S2, то должно существовать допустимое преобразование, переводящее обратно — от измерения в шкале St к измерению в шкале S±. Условие (в) необходимо для того, чтобы не допустить различных численных истолкований одного и того же эмпирического отношения. Условие 3 показывает, что группа G содержит все подстановки, которые не выводят нас за рамки множества гомоморфизмов W (<21, 91). Условие 4 вытекает из естественного требования отсутствия «довесков» у отношений из чсо, в которые ничего не отображается. Условие 5 носит технический характер. Однако укажем здесь, что группы допустимых преобразований наиболее употребительных шкал: шкал наименований, порядка, интервалов и отношений этому условию, удовлетворяют. В настоящей работе рассматриваются только ГДП- шкалы, мощность множества носителя чсо которых одинакова. Заметим, что все шкалы, построенные исходя из эмпирических систем с отношениями в работах [1,2], являются ГДП-шкалами, у которых носитель числовой системы с отношениями либо вся действительная ось i?, либо полуось R+. Определение 3. Пусть £=<^21, 9ΐ, f) есть ГДП-шкала и ω — некоторое я-местное отношение на Rs- Будем говорить, что ω инвариантно или допустимо в шкале S, если для любого g£G, g (ω) С ω. Множество всех отношений, инвариантных в шкале £, обозначим через 2. Предложение 1 (Сатаров [6]). Любое отношение р^Ф? инвариантно в ГДП-шкале 5=(ЗД, 9Ϊ, />. Предложение 2. Пусть 5=<(<2!, 91, f) есть ГДП-шкала и пусть G={g :£6Г%, g(p.)=p<, ρ^919ί=ί, 2, . . ., *}. Тогда G=G. Из предложения 2 видно, что группа допустимых преобразований шкалы G совпадает с группой автоморфизмов числовой системы с отношениями. 319
Определение 4. Рассмотрим две ГДП-шкалы Sx = = <s2l1, 9?р Д> и £8 = <S2I2, 9ΐ2> /а>» имеющих группы допустимых преобразований соответственно Gx и (?2. Будем говорить, что шкала Sx слабее шкалы S2, если существует биекция φ : Rsl -> Дд2 (i?^ — носитель гсо 9?ι, а Д$2 — гсо 9?2) такое, что для любого ω£Ωχ (2Х — множество всех отношений инвариантных в шкале Sx). φ(ω)£Ω2(Ω2— множество всех отношений инвариантных в шкале S2). (Обозначение SX^S2). Определение 5. Шкала Sx строго слабее шкалы S2 (обозначение Sx < 52), если Sx ^ 52, и существует такое ω(£ Qv что φ (ω) £ 22. Предложение 3. Пусть даны две ГДП-шкалы Sx = = <<2!1, 9?р Д>и iS2 = <01а, 9?2, /2>, имеющих группы допустимых преобразований соответственно Gx и G2. Шкала Sx слабее шкалы S2 тогда и только тогда, когда существует биекция φ: Rsl -> Rs2, что φ-1£τ2φ С Gv Шкала Sx строго слабее шкалы 52, если и только если <flG<$ С Gr (Мы используем знак С для строгого включения и знак С для нестрогого включения). Следствие 7. Рассмотрим две ГДП-шкалы Sx и 52 с группами допустимых преобразований соответственно Gx и G2. Тогда если G2C1GV то SX^S2. Следствие 2. Пусть Sx — шкала наименований, S2 — шкала порядка, S3 — шкала интервалов, 54 — шкала отношений. Тогда SX<^S2<^SZ<^SV Определение 6. Пусть даны две ГДП-шкалы Sx=z = <ч21р 9?,, /χ> и 52 = <512, 9?2, /г>, имеющие группы допустимых преобразований соответственно Gx и (?2. Будем говорить, что шкала Sx эквивалентна шкале S2 (обозначение Sx ~ £2), если существует такая биекция φ : i?^ -> Д&2, что ω £ Sb о φ (ω) £ Ω2. Предложение 4. Пусть даны две ГДП-шкалы Sx и 52 с группами допустимых преобразований Gx и С?2. Шкала Sx эквивалентна пшале S2 тогда и только тогда, когда существует биекция φ:ϋ^-> Rs2, что <p~lGtf = Gx. Следствие 1. Пусть Sx и *52 — две ГДП-шкалы, имеющие группы допустимых преобразований соответственно G1 = {euc + pf α>0} и σ2={α*β, α>0, я>0}. Тогда В качестве φ достаточно взять а*. Пусть 9^ = <Д5, Pi, р2, · · ·> Р^ — числовая система с отношениями и φ — биекция Rs на R's. Тогда через φ (9ΐ) 320
будем обозначать числовую систему с отношениями, получаемую из 9? следующим образом: φ(9ΐ) = <7?^, φ (ρχ), Т(Р2). ··· ?(Р*)>· Предложение 5. Пусть дана ГДП-шкала £ = <($!, 9?, />, имеющая группу допустимых преобразований G. Тогда S' = <^21, φ (9Я), φ0/> есть также ГДП-шкала, имеющая группу допустимых преобразований G1 = у&?~1. Причем S~S'. Предложение 6. Пусть SY ^ S2 и S2 ^ 51в Тогда S\ ~ £2. Предложение 6 показывает корректность определения отношения порядка ^ между ГДП-шкалами. ЛИТЕРАТУРА 1. Суппес П., Зинес Дж. Основы теории измерений. — В кн.: Психологические измерения. М.: Мир, 1967. 2. Пфанцагль И. Теория измерений. М.: Мир, 1976. 3. Tarski A. Contributions to the theory of models, Indag. Math., vol. 16, 1954. 4. Robinson A. Introduction to model theory and to the mathematics of algebra. Amsterdam, 1965. 5. Scott D., Suppes P. Foundational aspects of theories of measurement, J. Symb. Logic, vol. 23, 1958. 6. Сатаров Г. А. Об описании отношений в теории измерений. — В кн.: Педагогическая квалиметрия, вып. 1. М.: МГПИ, 1973. 7. Сатаров Г. А. Об адекватных числовых отношениях. — В кн.: Проблемы педагогической квалиметрии. вып. 2. М.: МГПИ, 1975. Заседание 2 марта 1977 г. С. А. Айвазян, 3. И. Бе- жаева, Н. И. Макарчук (ЦЭМИ АН СССР). Об одном подходе к анализу и прогнозу многомерных структур (на примере типологии потребления) Материал доклада отражен в статьях 3. И. Бежаевой и Н. И. Макарчук, публикуемых в настоящем сборнике. Заседание 9 марта 1977 г. А. Я. Кирута (ИСЭП АН СССР, Ленинград). Аксиоматическая теория полезности для нетранзитивных предпочтений и групповой выбор решений 1. Согласно известной теории К. Эрроу [1], не существует такой функции группового выбора, которая удовлетворяла бы некоторым естественным аксиомам и не определялась бы индивидуальным решением одного лица. Со времени появления этой теоремы были исследованы самые разнообразные модификации аксиоматики Эрроу, 321
но оказалось, что при всех этих модификациях результат остается отрицательным (см., например, [3]). Сущность проблемы состоит в том, что групповые предпочтения, удовлетворяющие аксиомам Эрроу (такие, например, как правило простого большинства), для многих профилей индивидуальных предпочтений оказываются нетранзитивными и не позволяют указать «оптимальную» с групповой точки зрения альтернативу. Е. Б. Яновская [4] предложила новый подход к принятию решений при нетранзитивном отношении предпочтения. Этот подход состоит в том, что отношение предпочтения на множестве альтернатив некоторым образом продолжается на множество всех вероятностных мер на альтернативах, а для этого продолжения уже существуют максимальные элементы. Такое продолжение, однако, существенно не единственно и, хотя приведенная в [4] конструкция продолжения характеризуется простыми аксиомами, эта конструкция не является достаточно естественной для транзитивных упорядочений и обладает плохими топологическими свойствами. Мы сформулируем аксиоматическую теорию полезности для нетранзитивных предпочтений, которая является обобщением обычной теории полезности, и установим в ее контексте существование рандомизированных функций группового выбора, удовлетворяющих всем соответствующим образом переформулированным аксиомам Эрроу. 2. Рассмотрим связь сравнительной полезности и правил выбора. Пусть X множество альтернатив. Любое нерефлексивное бинарное отношение < на X можно представить (не однозначно) с помощью слабого упорядочения -<* на ХхХ в том смысле, что χ < у о (х, х) <* <* (#> У), и притом так, чтобы для всех х, у£Х было (х, х) ~* (г/, у). Функция и на ХхХ, представляющая отношение -<* (в том смысле, что (х, у) -<* (з, w) о о и (х, у) <u (z, w)) и равная нулю на диагонали, будет называться функцией сравнительной полезности. Число и (х, у) интерпретируется как полезность альтернативы у по сравнению с х\ в соответствии с предыдущим, χ -< У о о и (х, у) > 0. В случае, когда множество X является выпуклым, нетрудно указать необходимые и достаточные условия на отношение -<*, чтобы существовала единственная с точностью до умножения на положительную константу представляющая его биафинная функция сравнительной полезности. 322
Пусть £ С 2Г. g — правилом выбора называется любое такое отображение F : £ -> 6, что FoF=Fy F (с)С с для любого с£(£ и, если Л, J5 ^ ®, Л с5и F (В)~В, то ^(Л)=Л. Будем говорить, что правило .F связано с функцией сравнительной полезности и, если для всех с £ © F(c) = (#(Hc|supw(;r, г/) = 0}. 1/€с Предположим, что X — выпуклый компакт и обозначим через (£ множество всех непустых замкнутых выпуклых подмножеств X, наделенное топологией Хаусдорфа. Пространство β имеет естественную афинную структуру. Из хорошо известных в теории бескоалиционных игр результатов следует, что если для каждого х^Х функция и (я, ·) непрерывна и квазивогнута, то существует (£ — правило выбора, связанное с и. Следующая теорема является теоремой о представлении © — правила выбора F с помощью функции сравнительной полезности. Теорема 1. Пусть X — сепарабельный выпуклый компакт. Рассмотрим следующие условия на 6 — правило F: 1) Отображение F полунепрерывно сверху. 2) Если [#, Σ/]={λ#+(1—λ) у\0 ^ λ ^ 1}, то для любых х, у£Х множество F ([х, у]) есть либо {#}, либо {г/}, либо [х, у]. 3) Отображение (х, у) -► F ([#, у]) : XXX -► (£ биа- финно. Для того чтобы F удовлетворяло условиям 1)—3), необходимо и достаточно, чтобы на 1x1 существовала единственная с точностью до умножения на положительную константу такая функция и, что 1) F является (£ — правилом выбора, связанным с и. 2) и непрерывна и биафинна. 3) и (х, у) ——и (у, х) при всех х, у£Х. 3. Доказательство теоремы 1 основано на следующих результатах. Пусть I2 — гильбертово пространство суммируемых в квадрате последовательностей и 1\= {х£ Ζ2|# = = (zi)™sl и arx = 1}. Пусть ZC/?—замкнутое выпуклое подмножество. Подмножество c(ZXn называется η — выпуклым, если при любом /, 1 <1 / <^ гс, для любых χ = = (*<)7-i. y = (y*)7-iGc таких, что х4 = у{ при всех ίφ], lx-\-(i —^)у£с для всех λ£[0, 1]. Обозначим через (12)®п топологическую п-ю тензорную степень пространства Ζ2, 323
а через Φ — каноническое вложение Х*-£»(Г2)®Й (т. е. Φ((*«)?) = *ι®··.®*.). Теорема 2. Пусть С С Хп — замкнутое η — выпуклое подмножество. Тогда Ф(С) = соФ(С) f) Ф(Хп), где со обозначает замкнутую выпуклую оболочку. Если множество Хп \ С п — выпукло, то множество Φ (Хп\С) Π Φ (С) является гиперплоским сечением множества Φ (Χη). Теорема 2 позволяет установить более сильный результат, чем теорема 1, который дает обобщение классической теории полезности (см. [2]) на произвольные нетранзитивные предпочтения. Теорема 3. Пусть X — сепарабельное метрическое пространство смесей (см. [2], гл. 8) и ·<< — бинарное отношение на X, удовлетворяющее следующим условиям. Для любых х, у, ζζΧ 1) χ -К #, 2) x<y\J у<х, 3) x-^y,x^z=>x·^ λ#+(1 — λ) ζ для всех λ£ [0, 1], 4) у -< χ, ζ -< χ => λ*/+(1 —λ) ζ -< χ для всех λ£ [0, 1], 5) множество {(χ, у)\х -К у) замкнуто. Тогда на XXX существует единственная с точностью до умножения на положительную константу непрерывная биафинная функция и, такая, что и (х, у) ——и (у, х) и χ -< у о и (х, у) > 0. 4. Задача группового выбора решений может быть сформулирована в терминах правил выбора следующим образом. Имеется конечное множество альтернатив А (\А\ ^ 3) и конечное множество участников Ν (\Ν\ ^ 2). Профилем индивидуальных предпочтений называется любой набор D — {-^ }ieN слабых упорядочений на А. Обозначим через X симплекс всех вероятностных мер на А, и через <2) — множество всех профилей индивидуальных предпочтений. Правилом группового выбора называется отображение, ставящее в соответствие каждому профилю -D£® (£ — правило выбора Fq на X, удовлетворяющее условиям 1)—3) теоремы 1. Рассмотрим следующую модификацию аксиом Эрроу: А1. Если D получается из D' в результате перестановки элементов N, то Fj)=FDf- А2. Если π — перестановка элементов А, то kFo=Fkd· A3. Для любых х, у ζ Χ существует такой профиль D, что FD {[χ, у]) = {у). 324
A4. Пусть Аг С А и Хг — множество всех мер с носителями в Аг. Если профили D и D' совпадают на А19 то FD([x, y])=F]), ([χ, у]) для любых #, yG^i· А5. Если для пары альтернатив а, Ь, £^4 профили D = {-< } и £>'={-<'} таковы, что FD ([α, Ы) = {Ь} и α Κ (~) δ => а -<' «') Ь для всех ί£ΛΓ, то ^^([а, » » i i Ь]) = {Ъ}. А6. Пусть а, 6, с^, Mi*. &])={*>}, ^([а, с])={с}, и а -< (-г)б =>а -< (=Ос для всех i£ N. Тогда существует * »' * такое λ, 0<СХ^1, что Ъ Уλα -f- (1—Х)с (здесь хУ уо oF{[x, y]) = [x, у]). Обозначим через ив функцию сравнительной полезности на ХхХ, соответствующую Fd по теореме 1. Теорема 4. Отображение D -> ив тогда и только тогда задает правило группового выбора D -> Fb, удовлетворяющее аксиомам А1—А5, когда для любых а, Ь£А »*(«. b) = 4(#{t£N\a4b)-#{i£N\b4*)), где знак 4£ обозначает мощность множества, а φ — такая функция на [— Ν, Ν], что φ (—т) = — φ (т) и φ (τη) > О при т > 0. Если отображение D -+ ив удовлетворяет аксиомам А1—А6, то функция φ монотонна. В соответствии с известным результатом теории игр теорема 4 сводит задачу о нахождении оптимального с коллективной точки зрения распределения вероятностей к решению некоторой задачи линейного программирования. Аналогичный результат можно сформулировать для континуального множества альтернатив и, цользуясь теорией субъективных вероятностей (см. [2], гл. 12—14), на его основе можно построить метод экспертных оценок вероятностей событий. ЛИТЕРАТУРА 1. Arrow К. /. Social choice and individual values, J. Wiley & Sons, 1951 (second ed., 1963). 2. Фишберн Я. Теория полезности для принятия решений. М.: Паука, 1978. 3. Mas—Collel Α., Sonnencheim H. General impossibility theorems for group decisions, Rev. Economic Studies, 1972, 39, p. 185—192, 325
4. Яновская Е. Б. О смешанном расширении бинарного отношения. — В кн.: Математич. методы в социальных науках, вып. 7. Вильнюс: 1976. Заседание 23 марта 1977 г. А. В. Маамяги (ИЭ АН ЭССР). Статистический анализ классификационных признаков Доклад публикуется в настоящем сборнике. Заседание 30 марта 1977 г. Ю. Г. Епишин (Московский кооперативный институт). О различных модификациях регрессионных моделей Резюме опубликовано в тезисах докладов Всесоюзной научно-технической конференции «Применение многомерного статистического анализа в экономике и оценке качества продукции» (г. Тарту, 28—30 сентября 1977 г.). Заседание 13 апреля 1977 г. И. С. Енюков (ЦЭМИ АН СССР), А. И. Нейштадт (ВНИИМП). Оценка дискри- минантного подпространства по неклассифицированной выборке При применении методов кластер—анализа и разделения смесей к выборкам многомерных объектов часто возникает необходимость отобразить данные в пространство малой размерности. При этом необходимо сохранить информацию о неоднородности выборки. Будем предполагать, что имеется выборка Χν= {х19 . . . . . ., χν } объема N /?-мерных векторов из ^-компонентной смеси р-мерных нормальных распределений с плотностью Ρ(χ)=Σα(Ψρ(χ,μ(, S{), (1) t=l где μ,., Siy ol. — соответственно вектор средних значений, матрица ковариаций и вес f-ой компоненты ί 2 а{ = 1 1 ; у ρ (ζ, μ, S) — плотность /?-мерного нормального распределения с вектором средних μ и матрицей ковариаций S. Предположим также, что матрицы ковариаций S. являются невырожденными (i=l, g). Для дальнейшего через μ обозначим общий центр тяжести смеси — [i == я »=1 326
Если матрицы ковариаций равны между собой, т. е. S1=S2 = . . .=S, то вся информация о различии между компонентами смеси содержится в дискриминантном под- пространстве Аг, натянутом на векторы *i = S~l(V4 — V·) (ί = ΪΓί), поскольку в этом случае наилучшее (Байесовское) правило классификации наблюдений, принадлежащих разным компонентам смеси, осуществляется линейными дискриминант- яыми функциями с весовыми векторами а, [2 ]. Размерность подпространства Аг (обозначим ее г) не превосходит min (g—1, ρ). При неравных матрицах ковариаций можно построить ч аналог векторов ai с матрицей £ = 2αΑ· Если распре- деление отличается от модели (1), то все же можно надеяться, что при отображении выборки р-мерных объектов в r-мерное пространство Аг сохраняется значительная часть информации о различии между компонентами смеси (неоднородности популяции). Возникает проблема оценки по выборке Xn пространства Аг, натянутого на вектора аг Если выборка классифицирована, т. е. известна принадлежность векторов Xn к компонентам смеси, то несложно оценить непосредственно векторы ai — это задача дискриминантного анализа [2]. При неклассифицированной выборке оценку векторов а4 можно получить, используя методы разделения смесей [1J (например, метод максимального правдоподобия [1]) для оценки параметров μ{, S. в исходном р-мерном пространстве, но это как раз тот путь, которого желательно избежать. Для дальнейшего нам понадобится следующая лемма. Лемма 1. Подпространство, натянутое на векторы а^, эквивалентно подпространству, натянутому на векторы где Δ. = μ4. — ρ, Sq = S -j- 2 α< (&AO — общая матрица ковариаций смеси. Поскольку оценку матрицы Sq несложно получить по выборке, остается оценить подпространство Л, натянутое на векторы Δ^. 327
1. Оценка подпространства R. Равные матрицы ко- вариаций. Пусть w есть произвольный р-мерыый вектор. Для центральных моментов третьего и четвертого порядков одномерной случайной величины z=(xTw) (проекции р-мерного случайного вектора χ с плотностью (1) на вектор w) имеем <1 т3И=2аЛд2и>)3 »=1 2*,К^)4-з(2 m4M= 2 «,ΚΔ.)*-3 Σ <*,· (* V + 3(wTSQwf (2) Используя (2), докажем следующую лемму. Лемма 2. Пусть по выборке получены векторы N *1 И = (/V-1H/V-2) 2 {wT]Ji)2 У* (3) / N - ^ И = (N - в (Л2 2) (Λί - 3) Ж 2 (" W ^ ~ 4 У=1 — 3(iV— 1)м?(м;2,^м?)К (4) где $, Sq — оценки соответствующих параметров, у^= Тогда для математических ожиданий векторов ύ\ (ιυ), йг (w) верны соотношения Л/г), И = v, (w) = Σ a. (^wfA{, (5) Мйх (w) = и, (ю) = Σ α, (Δ*«>)3 Δ,. - 3 ( 2 α,. Χ Χ(Δ^)2)ί«Λ^)Δρ / ί=1 τ. e. MC^R и Mux£R. 328
Докажем только равенство (5) для вектора (3). Имеем м [(/ν-ιΓ(Λί-2) 2 &%? yj\ = ™з И (в левой части в квадратных скобках стоит несмещенная оценка третьего момента m3 (w)). Возьмем производную по w от обеих частей этого равенства. Так как дифференцирование — линейная операция, то в левой части равенства его можно провести под знаком оператора усреднения Μ, что и дает соотношение (5). Асимптотическое поведение вектора 0г (w) определяется леммой 3. Лемма 3. Пусть матрица C{w) = M{{w*yf{yy*))-{vxv{\ где y=x—iL. Тогда вектор иг (w) при iV" -> оо распределен асимптотически нормально со средним значением иг (w) и матрицей ковариаций -rrC(w), a Μ cos2(γ,) = Μ \ ' = -. L-oi^rr), где ex — единичный вектор, совпадающий по направлению с νχ γχ — угол между векторами ΰ± и ι;χ. Аналогичный результат имеет место и для вектора 6lf хотя матрица ковариаций будет другой. Следующая лемма определяет способ получения оценки некоторого вектора из i?, свободный от произвола в выборе вектора w. Лемма 4. Пусть Η есть некоторая положительно определенная матрица, а „=2α4(Δ?£ΓΔ,)Δ,. (6) Тогда для вектора N О = (/V-1H/V-2) 2 WByJ У* (7) 329
верно равенство Μΰ=ν. Действительно, пусть вектор w распределен независимо от χ с средним 0 и матрицей ковариаций Η и пусть Ею (·) — оператор усреднения по w. Тогда £Β(^Η=ί»(^(4 Операторы МиЕюв левой части равенства можно поменять местами, поскольку w и χ независимы. Но Ею {vx (w)) = =£, a Ew (vx (w))=v, что и доказывает лемму 4. При N -> оо вектор ν распределен асимптотически нормально, и его матрица ковариаций имеет порядок О (1/Ν). Результаты леммы 4 допускают определенное обобщение и на случай неравных матриц ковариаций. Для простоты дадим формулировку для случая Н=1р (1р — единичная матрица порядка рХр). Лемма 5. Пусть матрица ковариаций St (ί = 1, q) ί-ой компоненты смеси (1) имеет вид 5, = £. + »Α + ΨΛ. (8) где S0 — общая составляющая матриц S., G{ — матрица, ортогональная Л, Pt — матрица, отображающая R в R. Тогда для вектора г), задаваемого выражением (7), имеет место Mv£R. Пусть теперь ι?0, . . ., i;r-i последовательность векторов вида Вектор v0 задается формулой (6). Каждый из векторов vf^R. Предположим, что ранг набора векторов v0, ... • · ·> vr-i Равен г- Тогда верна следующая лемма. Лемма 6. Пусть последовательность векторов vi+1 задается соотношением N где v0 определяется из выражения (7). Тогда Μ\0<-νΛ~θ(±) {г = 077^1). (9) 330
Поскольку ранг системы векторов щ, . . ., vr_1 равен г, то подпространство R, натянутое на векторы v0,. . ., 0Г_Х, будет являться оценкой для Л. Хотя в реальной ситуации ранг г неизвестен, можно все же построить оценку R, например, с помощью следующей процедуры. Пусть Ri — есть подпространство, натянутое на #0, . . . . . ., v. а ήί+1 — угол между R4 и ϋί¥ΐ. Можно показать, что углы векторов vr, . . ., 0р_гс Rr, и тем более углы \_±, . .. • · ·» \ должны стремиться к 0. Анализируя последовательность углов ή,., можно определить номер г*, начиная с которого они становятся малы и в качестве оценки для R взять Дг*. 2. Случай, когда средние компоненты смеси лежат на одной прямой (г=1). С одной стороны, этот случай имеет самостоятельный интерес в различных приложениях (задача выделения латентного фактора), а с другой, здесь можно получить в явном виде некоторые результаты относительно поведения предложенных ранее оценок при больших размерностях. Так как все средние лежат на одной я прямой, то μ<=μ+β<Δ, Δ<=β»Δ> ΣαΑ = 0 И выраже- ♦=1 ния vx (w) и ν приобретают следующий вид (Н=1р) (так что векторы ν± (ιυ), ν коллинеарны Δ). Для простоты будем предполагать, что матрица кова- риаций компонент смеси S=Ip. Пусть γ, γχ есть косинусы углов между векторами ν, ν и векторами 01У νχ соответственно. Тогда верна следующая лемма. Лемма 7. Пусть N -> со и р->со, но отношение ρ/Ν ^ Cj^const остается ограниченным. Пусть, кроме того, величина т3 (Δ)=0, а векторы w и Δ не ортогональны. 331
Тогда Ы|а m3 (Δ) cos* p мь У (|| w |p ι», (Δ) cos* P)« + -£ (m4 (») - (w*S9wf) где ρ — угол между векторами и; и Δ; Μγ= "^ |/ «Ι (δ) +17 (15 + m* («) - 0TV)2 + 2 (8%*)) где вектор δ = Δ/||Δ||; Μ (f - Mbf ~ О (1), Μ (γ - Mf )2 -> 0, где /г — одно из чисел (iV, jo). Замечание. Случай, когда S^Ip, сводится к рассмотренному линейной заменой переменных, при этом под скалярным произведением векторов νχ, ϋλ понимается величина (OfS^Vi) (аналогично для ν и и). 3. Случай смеси двух классов. В этом случае можно положить (к1=а и а2=1—α, Δ = μ2—μ1% Вычислив входящие в формулы (10) и (11) моменты, получим следующие выражения: *?»=/ А\ » <12> У Α\+ΎΒι где ^ = α(1-α)(1-2α)(Δνΐ|Δ|, B1 = 2|u;|l + 4a(l-o)(AV|M'P + + a(l — a)(l — 2a)«(A*U7)*· Mf= ,-£-==, (13) ^ где Л = ос(1 — a)(l — 2a)||Af β = 19 + 6α(1-α)||Δ|2 + α(1— α)(1— 2α)21| Δ ||*. 332
4. Результаты моделирования. Формула (13) проверилась статистическим моделированием на ЭВМ. Генерировались выборки из смеси двух распределений и определялся угол γ между ϋτιν. Для каждого набора параметров (α, ρ,'Ν, ||Δ||) эксперимент повторялся 10 раз; для каждой такой серии экспериментов вычислялись среднее значение γ угла γ и среднее квадратичное отклонение σ (γ) от него. Согласно лемме 7, величина λ должна быть близка к j0 — главному члену (13), а σ (γ) должно быть мало и убывать с ростом ρ при фиксированном отношении ρ/Ν. Во всех экспериментах отношение ρАЛГ=0Д. Результаты приведены в таблице. Таблица Результаты статистического моделирования α / 0,2 ] 0,05 Р 5 10 15 20 5 10 15 10 Ν 50 100 150 200 50 100 150 100 II δ II ч . r 2,5 1 I 2 4 To > 0,67 ) 0,45 J 0,83 Ύ 0,62 0,63 0,67 0,60 0,41 0,53 0,47 0,90 »(T) 0,31 0,21 0,11 0,16 0,40 0,25 0,15 0,07 ЛИТЕРАТУРА 1. Айвазян С. Α., Бежаева 3. И., Староверов 0. В. Классификация многомерных наблюдений. М.: Статистика, 1974. 2. Андерсон Т. В. Введение в многомерный статистический анализ. М.: Физматгиз, 1963. Заседание 27 апреля 1977г. 1. Б. Г. Слепцов (ПНИИИС). Некоторые модели многомерного статистического анализа при исследовании физико-механических свойств грунтов В инженерно-геологических приложениях часто возникают задачи исследования статистических характеристик многомерного вектора X количественных показателей 333
Свойств грунтов — физических (пористость, влажность, пластичность и пр.) и механических (модуль деформации, сопротивление сдвигу и пр.), — экспериментально определяемых в отдельных пробах грунта. Основной интерес представляют механические показатели—координаты вектора X. При проектировании инженерных сооружений используются средние значения этих показателей в пределах геологически однородных элементов толщи грунтов на отдельных строительных площадках (т. н. «инженерно- геологических элементов», сокращенно «ИГЭ»). Механические свойства определяются в ходе сравнительно долгих и дорогостоящих испытаний образцов грунта. В связи с этим возникают регрессионные задачи оценки механических свойств грунтов по косвенным признакам — физическим свойствам — на основе исследования корреляции между координатами X. Статистические свойства вектора X и их связь с содержательными инженерно-геологическими особенностями изучаемых объектов удобно проследить в рамках некоторой многоуровневой иерархической системы природных комплексов грунтов. Такой сложный объект, как, например, «глинистые грунты», можно последовательно расчленять на «элементы неоднородности» [5] по основным инженерно-геологическим признакам, отражающим происхождение, геологическую историю и местные особенности грунтов: вещественному составу, генетическому типу, возрасту, регионам проявления местных геологических факторов и пр. В соответствии с этим вектор X раскладывается по схеме, сходной со схемой многофакторного дисперсионного анализа: Х= МХ +±(1) + ... + Р, (1) где XiJ) (; = 1, 2,. . ., /) — вектор флуктуации свойств грунтов, связанных с выделением элементов /-го уровня. Допустимо считать, что все 3tlJ) в принципе имеют некоторые непрерывные распределения, МХ(^=0. Частные суммы к Х* = МХ + 2^(У) (!<#</) (2) дают обобщенные характеристики свойств элементов К-то уровня. 334
Введем в рассмотрение также условные случайные вектора Х№*> = {ХС*)|Х(*)} (!<£<*</), (3) где Х(Х) и Х^х) определяются по (2), — распределения характеристик элементов К-то уровня в пределах некоторого объекта старшего, L-ro, уровня. Их естественно назвать «структурными распределениями на уровнях (L, К)». Результаты, полученные многими авторами при исследовании различных типов грунтов, позволяют сделать некоторые выводы, касающиеся семейства распределений XiL»J\ где L=l, 2,. . ., /—1. Если порядок признаков, по которым строится иерархия, таков, чта первые (старшие) признаки определяют наиболее характерные геолого- генетические особенности грунтов, то увеличение индекса L до некоторого момента сопровождается существенным уменьшением статистической неоднородности распределения X(L>J). Начиная с некоторого уровня «местного геолого- генетического комплекса» (обозначим его индекс через Д), распределения всех показателей—координат XiE>J) или их простейших преобразований (например, логарифмов) не противоречат нормальному закону, что позволяет эффективно исследовать корреляционно-регрессионные характеристики X(R>J) в пределах этих комплексов [Зидр.]. С другой стороны, чрезмерное сужение изучаемого комплекса грунтов (до уровня упомянутых выше ИГЭ) приводит к затушевыванию «физических» зависимостей между отдельными свойствами грунтов хаотической изменчивостью индивидуальных значений показателей. Поскольку на этом уровне нас интересуют средние («нормативные») значения свойств грунтов в пределах элементов, целесообразно выделять в распределениях X(R>Ό две структурные составляющие: Z№ J) = {jOD | ZW) = (XW I jf(*>} + + [(χ™ - Xw) I Z(R)} = Υ + Ξ, (4) где Ν — индекс уровня ИГЭ (R < N < J). После этого необходимо поставить задачу исследования корреляционно- регрессионных характеристик вектора Y={XW |Ζ(β)} 335
при наличии «ошибок наблюдения» Ξ в предположениях YooN(X(R\ Σ), (5а) E<x>7V(0, Ε), (56) где Ε —- диагональная матрица, Σ — произвольная ковариационная матрица, S и Υ независимы [6]. На практике экспериментальный материал представляет собой данные по ряду инженерно-геологических элементов, содержащие повторные параллельные определения всех свойств, т. е. ненаблюдаемым векторам Yj (/=1, 2,. . ., к) соответствуют идентифицируемые группы векторов наблюдений Xji = 7j + SJi (1=1, 2,..., my) (6) суммарного распределения (4) (верхние индексы опущены). По этим группам наблюдений можно оценить дисперсии — элементы матрицы Е, после чего параметры распределения F, а затем и параметры регрессии его координаты у0 (механическое свойство) на у±,. . ., уп (физические свойства), оцениваются с учетом соотношений (4, 5а, 56) [2,7]. Дополнительной особенностью наших экспериментальных данных является то, что выборки показателей физических свойств в пределах ИГЭ обычно значительно превосходят по объему выборки показателей механических свойств, причем объем опробования физических свойств позволяет пренебречь ошибками определения физических показателей—координат У, положив я4/1=у4; (ί = 1, 2, ... . . ., η). Кроме того, с учетом (6) и наших предположений, η xoji = ао + Σ aiVij + "Ίο/ + %ji (/=1, 2,...,fc; Z = l, 2, ...,my), (7) где at (i=0, 1,. . ., n) — параметры искомой регрессии; 71оУ ~ N (0, оЬн); t0ji~N (°> °вн); \j и lQjl не зависят друг от друга и от аргументов у..\ аЬн— условная дисперсия распределения (5а), интерпретируемая как «остаточная дисперсия нормативных характеристик грунтов»; аза
овн — «внутриэлементная дисперсия», оцениваемая статистикой к т 4 2 my — A: >=i/=i Нетрудно видеть, что суммарные отклонения bjU= = η0/+ S0>/ наблюдений от плоскости регрессии имеют ковариационную матрицу Δ = 1<5ον(8Μ, ϊΛι,)] = ^2 I «2 σΟΗ + σΒΗ σΟΗ /τ2 · σΟΗ σΟΗ + σΒΗ 0 0 σΟΗ + σΒΗ σΟΗ σΟΗ ' σΟΗ+σΒΗ • · · • · · 0 0 λ °ΟΗ + °ΒΗ J Для оценки коэффициентов регрессии можно воспользоваться итерационным методом: получить предварительные МНК-оценки ά. (ί=0, 1, . . ., ή) в предположении σ^Η = =0, затем оценить параметр oqH статистикой к Г я "12 ■4н, (Ю) ^=1 337
после чего скорректировать оценки а,, взвешенным МНК [1], и т. д. Практика, однако, показывает, что для большинства природных комплексов грунтов имеет место неравенство 4<авн/°он<25, (11) откуда σΟΗ i^°BH что позволяет ограничиться при отыскании плоскости регрессии одним шагом итерации (обычным МНК). Получив оценки коэффициентов регрессии, можно построить на основе оценки дисперсии gqu (10) односторонние доверительные границы для отдельных нормативных характеристик [2]. Эти границы дают косвенный прогноз «расчетных» значений механических показателей, которые при прямом опробовании определяются методом доверительных интервалов. Описанные модели использованы в методических рекомендациях [4] и апробированы при составлении таблиц нормативных и расчетных показателей свойств грунтов в ряде районов СССР (моренные суглинки Москвы, ленточные глины Эстонии и др.)· ЛИТЕРАТУРА 1. Дрейпер #., Смит Г. Прикладной регрессионный анализ. М.: Статистика, 1973. 2. Кендалл М.у Стъюарт А. Статистические выводы и связи. М.: Наука, 1973. 3. Комаров И. С, Хайме Η. Μ., Бабенышев А. П. Многомерный статистический анализ в инженерной геологии. М.: Недра, 1976. 4. Методические рекомендации по составлению региональных таблиц нормативных и расчетных показателей свойств грунтов. М.: ПНИИИС, 1977 (ротапринт). 5. Рац М. В. Структурные модели в инженерной геологии. М.: Недра, 1973. 6. Слепцов Б. Г. Математическая постановка задачи исследования региональных закономерностей зависимости между нормативными значениями свойств грунтов. М.: 1977 (рукопись депонируется в ЦИНИС Госстроя СССР, per. № 637). 7. Villegas С. Maximum likehood estimation of a linear functional relationship. Ann, Math. Stat., 32, № 4, 1961. 338
2. А. И. Орлов, О. В. Староверов (ЦЭМИ АН СССР). - Международный коллоквиум «Экономические структуры и эконометрика» (Лион, Франция) Доклад опубликован в журнале «Экономика и математические методы» в 1977 г. (т. 13, № 6, с. 1320—1322). Заседание 11 мая 1977 г. 1. И. В. Орловский, А. И. Орлов (МГУ, ЦЭМИ АН СССР). О поправках на группировку При вычислении различных статистических характеристик часто пользуются сгруппированными данными. Однако группировка приводит к искажению характеристик. Представляется естественным исследовать, насколько велико это искажение и при каких условиях можно пользоваться сгруппированными данными. Дадим описание группировки данных в случае п- мерного случайного вектора £=(£ι, £2>· · ·> У с плотностью распределения ρ (хг, #2,. . ., хп). Пусть выборочные значения i4 группируются по интервалам длины /^ со средними точками а4к=а{+кк4, к=0, +1, ±2, .... Вектор h=(hl9 h2,. . ., hn) назовем шагом группировки. При вычислении выборочных характеристик предполагается, что все выборочные значения вектора Е, координаты которых удовлетворяют неравенствам а. ки) γ < ξ,<; а. д.ш+у > i = 1, 2, .. ., η, совпадают с центром (alt Ш), .. ., ап> kin)) данного тг-мерного параллелепипеда, т. е. фактически мы обрабатываем выборочные значения дискретного тг-мерного вектора α=(αχ, α2,. . ., ап) с распределением Р (а=К 1с (1), *2| Тс (2)> - *., kin))) = \ PiXV ■ · · . Xn)dxi ■··*** А где A = H^J» · · ·>Χη) '· ai, Jc(i) Υ <ZXi^(lit к it) I +^-, i = l «}. Представляется естественным разложить разность между сгруппированными характеристиками и истинными по степеням координат шага группировки и оценить возникающий при этом остаточный член. Таким образом, мы 339
хотим получить обобщение поправок Шеппарда для моментов ([1, с. 393—398], см. также [21, [3]). Мы рассматриваем характеристики вида Mf (£), где / (#1» #2»· · ·> хп) — достаточно гладкая функция. Используется следующий многомерный аналог формулы Эйлера— Маклорена: Σ Siai + \K ..·>α* + νΑ)= \g(*i + hixi* .··.«» + χ ?(«ι -f Μι» · · ^an-\-Kxn)dxi · · · dxn, где Ζ" — множество целых точек тг-мериого пространства, С (к, п) — совокупность всех подмножеств мощности к множества {1, 2,. . ., п}, g (x) — абсолютно интегрируемая функция и Имеет место разложение " а? С .^»/W »=1 А'^ Г „ли_*/(*) *W Описан закон получения членов разложения и найдепа оценка остаточного члена. Однако в общем случае они очень громоздки, поэтому мы ограничимся несколькими доведенными до числа примерами. 340
Пусть п=1, вектор (£lt l2) имеет нормальное распределение. Тогда (/="1, 2) №, = Μ*, - R (№,), Daj = Dls. + §+ + R(Mj), covK, «2) = οονίξ,, У + Д'". (1) Получены точные формулы для остаточных членов в (1). Эти выражения хорошо оцениваются и оказываются весьма малыми даже при достаточно большом шаге группировки. Так, 00 *<*у=^2<-<>М-2Шг! X (2) и |Л (Л/|у)|не превосходит 10"9 Оу при fey <^ σ7. и 5·10~3 Оу при hj^ 2oj, где о2=#£у, а Яу— начало отсчета. Полученные оценки зависят от Μ Еу — а·. Так, при Лу — —M%j=hjl4. относительная погрешность определения истинной дисперсии по сгруппированной с использованием поправок Шеппарда, т. е. Dtj-Daj~h)li2 Wj л №j) Wj не превосходит 6,8· 10"2 при hj^. Зоу, 0,25· 10"2 при hj ^ ^ 2оу и 6,8 -10""11 hj <С оу. Таким образом (это подтверждается равномерной оценкой остаточного члена), при шаге группировки, равном среднеквадратическому отклонению, формула становится практически точной. Иным оказывается положение для остаточного члена в формуле для ковариаций. При малых и средних значениях коэффициента корреляции ρ (при |р| 4^0,8) относительная погрешность невелика даже при довольно боль- / Ι Λ ' шом шаге группировки (так, Ρσ1°2 <10~3 при hl = a1 341
и Α2=σ2). При больших коэффициентах корреляции шаг группировки необходимо уменьшать, поскольку основной член в оценке относительной погрешности (|р| -> 1) Ш~*«'Н'-и>«[(*У+(йГ}· В приложениях часто оказывается важным коэффициент корреляции ρ в случае произвольного распределения случайного вектора. Получена следующая приближенная формула для выражения истинного коэффициента корреляции через «сгруппированный» коэффициент корреляции ρ и «сгруппированные» дисперсии Ζ> ^ и D а2: ρ даρ^ι -ή- UDa^ -f- UDa^ - 2g8 Da^Da^ J—Pi и оценена относительная погрешность определения коэффициента корреляции 1 ρ-ρι |<-р ι ί Μι ι *1 V ι 1 R 1 Ι ρ I ^^ Л2> ~Г" 120 \ Ζ>αχ ·" Ζ>α2 / ~Τ~ J ρσισ2 | » где Rb — максимум относительных погрешностей в определении D <хх и Da2 через сгруппированные данные (с использованием поправок Шеппарда). ЛИТЕРАТУРА 1. Крамер Г. Математические методы статистики. М.: Мир, 1975. 2. Куллдорф Г. Введение в теорию оценивания по группированным и частично группированным выборкам. М.: Наука, 1966. 3. Бодин Н. А. Об ошибках округления при многомерных измерениях. — В кн.: Труды матем. ин-та им. В. А. Стеклова, т. 79, М,—Л.: Наука, 1965, с. 76—105. 2. Л. Д. Мешалкин (4 ГУ при МЗ СССР). Структурное программирование и построение правил ведения больного Для ряда хронических болезней без создания логически полных программ ведения больного невозможно дальнейшее существенное улучшение лечебного и восстановительного процессов. Поэтому целесообразно обсудить общие принципы построения таких программ. В качестве отправной точки удобно взять сложившуюся в последние годы в области вычислительной техники теорию, известную под названием структурного программирования [1]. 342
Какие же требования предъявляются сегодня к большой программе для ЭВМ? Это прежде всего возможность управления ее бесчисленными элементами с пресечением присущей им тенденции к изначальному хаосу, наличие удобной структуры, убеждающей в правильности программы, и заранее предусмотренная возможность модификаций. Эти требования актуальны и для медицины, поскольку программа, с одной стороны, должна быть признана практическими врачами, непривыкшими к строгой регламентации их деятельности, и с другой — должна непрерывно модифицироваться, учитывая появление новых средств контроля и воздействия. Среди различных подходов к составлению программ ведения больного наиболее приемлемой нам представляется схема многослойной модульной организации программы, когда от первичных измерений переходят к первому уровню абстракции — обобщенным медицинским понятиям (коронарная и сердечная недостаточность, переносимость расширения режима и т. п.) и на их базе формируют абстракции следующего уровня — таблицы «показания X противопоказания» к употреблению того или иного воздействия, последним же сопоставляются назначения. При этом при рассмотрении назначений также целесообразно ввести несколько уровней абстракций с тем, чтобы различать непосредственные прописи больному от групп медикаментозных средств, обобщенных методик применения и т. п. Этот подход вполне обозрим, так как число таблиц «показания X противопоказания» равно числу типов воздействия. Он следует логике традиционного для медицины мышления и позволяет легко учитывать накопленный опыт, в том числе литературный. Наличие нескольких уровней абстракции и модульный характер организации программы внутри слоев дают возможность сразу же локализовать влияние любого изменения, что делает программу очень удобной для модификаций. Наконец, предполагаемый подход позволяет строить программу до любого уровня детальности, начиная «сверху», что чрезвычайно важно в практической работе. Рассмотрим цепочку отображений Х=Х (t) — пространства «непосредственные измерения статуса больного до момента t X воздействия до момента t» в пространства, более обобщенно описывающие условия назначения: Х-> Хг -> ... -* Хк% и пусть У-> Yx -► ... -> Υι аналогичный 343
ряд последовательных обобщений пространства У=У (t) «назначаемые в момент t+Ο воздействия». Программа ведения больного в идеале должна задавать отображение X -> Y. Исходя из нашего опыта, мы предлагаем начинать построение этого отображения с описания пространств Хк1 Υ\ и обоснования отображения Хк -> Υν а только потом спускаться «вниз». Такая стратегия связана с тем, что наиболее спорные вопросы при выборе тактики ведения больного принадлежат к довольно высоким уровням абстракции и, кроме того, описание пространства X является принципиально более трудным делом, чем описание пространств Хг, Х2,. . . . В докладе приводятся конкретные примеры реализации предложенной выше схемы, разработанные автором совместно с доктором медицинских наук Н. К. Розовой. ЛИТЕРАТУРА 1. Дал У., Хоор #., Дейкстра Э. Структурное программирование. М.: Мир, 1975. Заседание 25 мая 1977 а. В. И. Заруцкий (Мин-во здравоохранения). Новые результаты для классификации случайных векторов простой структуры Доклад публикуется в настоящем сборнике. Заседание 8 июня 1977 г. Я. Пинкава (ЧССР). Вероятностные распределения в задачах статистического ранжирования Заседание 12 октября 1977 г. Ш. Ю. Раудис (Ин-т математики и кибернетики АН Лит. ССР). Исследование статистической классификации при существенно ограниченных выборках Резюме доклада опубликовано в сборнике тезисов Всесоюзной научно-технической конференции «Применение многомерного статистического анализа в экономике и оценке качества продукции» (Тарту, 28—30 сентября 1977 г.). Заседание 19 октября 1977 г. 1. Б. П. Титаренко (МИСИ). О работе статистического отделения университета Беркли (Калифорния). 2. Обсуждение рукописи монографии А. И. Орлова «Устойчивость в социально-экономических моделях» 344
Рукопись, содержание которой доложено автором па семинаре в 1973—1977 гг., решено подготовить для опубликования в издательстве «Наука». Заседание 26 октября 1977 г. 1. П. Майор (ВНР). Строгий принцип инвариантности Доклад опубликован в журнале Z. Wahrscheinlichkeit theorie verw. Geb. в 1975—1976 гг. (т. 32, с. 111—132; т. 34, с. 33-58). 2. И. 3. Батыршин (КХТИ, Казань). О некоторых свойствах мер невероятностной энтропии размытых множеств Понятие меры энтропии размытых множеств впервые введено в рассмотрение авторами работы [1 ]. Мера энтропии является мерой «степени размытости» («degree of fuz- ziness») размытых множеств и может служить мерой неопределенности, внутренней двусмысленности, неоднозначности, присущей системам и ситуациям, описываемым с помощью размытых множеств. В [1] формулируются основные условия, определяющие такую меру, и обсуждается возможность интерпретации ее как меры неопределенности, возникающей при принятии решения в ситуации с нечетко известными исходными данными. В [2] предлагается расширение системы условий, определяющих меру энтропии размытых множеств, и обобщается это понятие на случай, когда размытые множества задаются в множестве произвольной природы. В данной работе предлагается дальнейшее уточнение системы условий, определяющих меру энтропии размытых множеств, изучаются свойства этих мер в метрической решетке размытых множеств и, в частности, показывается, что можно установить взаимно однозначное соответствие между мерами энтропии и метриками, удовлетворяющими некоторому простому условию. Размытое множество / в множестве X есть отображение / : X -> [О, I]. Множество всех отображений £ (X) из X в интервал вещественной прямой [О, I] является решеткой по отношению к операциям V иД, определяемым следующим образом: (/ V g) (х) = max {/ (χ), g(x)), Vx£ X, (/ Λ Β) (*) = min {/ (ζ), g (χ)}, Υ χ £ Χ. В дальнейшем множество Х полагается конечным. 345
В [1] мера «степени размытости» размытых множеств определяется как вещественный, определенный на £ (X) функционал, удовлетворяющий следующим условиям: Pi. d (f)=0 of — неразмытое множество. Р2. d (f) максимально о / (х)=0, 5, Υχ£ Χ. РЗ. d (g) ^d (/), если g является заострением /, т. е., если g (x)<f (χ), при / (χ) < 0,5, g (χ) > / (χ) при / (#) > 0,5, g (χ) — любое, при / (χ) =0,5. В [2] к условиям Pi, P2 и РЗ добавляются условия: PA. d (f)=d (/'), где /' есть дополнение /. РЪ. d (/) есть оценка на £ (X), т. е. d(f\/g) + d(f/\g) = d(f) + d(g). В настоящей работе предлагается усилить условие РЗ: РЗ'. d(g)<^d(j), если g является заострением / и Показывается, что система условий Р1, Р2, РЗ', Р4, Р5 эквивалентна системе условий РЗ', Р4, Р5 и Рб: Р6. d(0)=0, где 0(ж)=0, Va^X. Свойства Р1 и Р2 получаются как следствия из условий РЗ', Р4, Р5 и Р6. Условия Р5 и Р6 эквивалентны условию аддитивности: PL d if\Jg)=d (f)+d (g), если /Д*=0. Таким образом, мера энтропии на £ (X) определяется как аддитивный (Р7), симметричный (Р4) и строго возрастающий с увеличением «размытости» размытого множества (РЗ') вещественный функционал, определенный на £(*)· Устанавливается общий вид функционалов, удовлетворяющих условиям РЗ', Р4, Р7. Теорема. Вещественный, определенный на £ (X) функционал является мерой энтропии на £ (X) тогда и только тогда, когда он допускает представление d (/) = N = 2^у(/у)> гДе Для всех /G Λ Τj (У)—вещественнознач- ные функции от г/£[0,1] такие, что Гу (0)=0, Tj (#)= = Tj(i—y) и Гу (г/) строго возрастают на интервале [0, 0,5]. Здесь в условии теоремы полагается: Х={хи ... .., χΝ], /={1, ...,#}, fj = f(Xj). 346
Примером меры энтропии является рассматриваемая в [1] логарифмическая энтропия: d(/) = -Σ [/у1а// + (1-/,)1п(1-/,)]. Показывается, что в метрической решетке размытых множеств с положительной оценкой ν (/) и метрикой Ρ (/> g)=v(f\/g)—v (/Л#)> можно задать несколько различных мер энтропии просто связанных с ι; и р. В частности, имеет место Теорема. В метрической решетке размытых множеств £(X) функционал <*(/)=*Гр(0, /)-р(/, /')]. где к — положительная константа, является мерой энтропии на X (X). Метрика, удовлетворяющая условию ρ (/, g)= p (/', g'), называется симметричной метрикой. Устанавливаются некоторые ее свойства. Теорема. Соотношение d(/)=0,5p(0, /)-p(/, /.,,), где /i/2 (x)=0,5, Vx£X (1) устанавливает взаимнооднозначное соответствие между мерами энтропии на решетке размытых множеств £ (X) и симметричными метриками в £ (X). Мера энтропии и симметричная метрика, связанные соотношением (1), называются согласованными. N Пример. Мощность размытого множества, Ρ (/) = 2 fj> .7=1 является положительной оценкой на £(Х) и определяет N в £(Х) симметричную метрику: р(/, g)=^\fj— gj\ — обобщенное расстояние Хемминга. С этой метрикой согласована мера энтропии: <*(/) = Ρ(/Λ/')=Σ»™ίη{/,, !-/,·}· .7=1 347
ЛИТЕРАТУРА 1. De Luca Α., Termini S. A definition of a non—probabilistic entropy in the setting of fuzzy sets theory. Information and Control, 1972, 20, p. 301-312. 2. Knopfmacher 7. On measures of fuzziness. J. Math. Anal. AppL, 1975, 49, p. 529-534, Заседание 2 ноября 1977 г. В. С. Высоцкий (ЦЭМИ АН СССР). 1. Латентно-структурный анализ и его применение к изучению социально-экономических явлений В сообщении было рассказано несколько моделей латентно-структурного анализа, имеющихся в [1], и применение одной из них автором сообщения к измерению культурного уровня. Исследование проводилось на материале выборочного обследования городского населения Краснодарского края. 2. Инвариантность коэффициентов связи. При исследовании социально-экономических явлений часто встает проблема измерения связи между переменными. Для этой цели используется достаточно большое число различных коэффициентов связи. В настоящем сообщении рассматриваются вопросы применимости коэффициентов связи в зависимости от типа шкалы. Близкие вопросы рассмотрены в [6], раздел 6. Аналогичные вопросы для средних величин рассматривались А. И. Орловым [2]. Пусть переменные г X и Υ измерены соответственно в шкалах Sx и S2t заданных с точностью до групп допустимых преобразований GxmG2 [3, 4]. Под коэффициентом связи мы будем понимать некоторую функцию μ (Χ, У). Естественное требование, которому должен удовлетворять всякий коэффициент связи, на наш взгляд, следующее: если коэффициент связи между переменными Хг и Υχ больше, чем тот же коэффициент связи между переменными Х2 и У2, то знак неравенства должен сохраниться при любых допустимых преобразованиях Хг, Υ\, Х2, Υ2. Математически это требование формулируется так. Пусть Хг и Х2 измерены в шкале Sly заданной с точностью до группы 1 Под переменными мы в данном случае понимаем векторы из Rk. 348
θτ, a Yx и У2 в шкале £3, заданной с точностью до группы G2. Тогда, если μ (Х^г) > μ (Χ2Υ2), то PiftiXO, ft(Fi))>|i(ft№). ftM (!) где ?χ и £3£б1, a g2 и ?46^2. В этом случае, когда условие (1) выполняется, назовем коэффициент μ инвариантным относительно шкал 5^ и S2. Если шкалы 5Х и *52 совпадают (S1=S2=S), то мы будем говорить просто, что коэффициент связи инвариантен относительно шкалы S. Легко показать, что коэффициент корреляции инвариантен относительно шкалы интервалов и неинвариантен относительно порядковой и номинальной шкал. Предложение. Следующие условия эквивалентны: (1) коэффициент μ (Χ, У) инвариантен относительно шкал S± и S2; (2) для любых X и У из области определения коэффициента связи MX, Y) = p(gl(X), g2(Y) *,€<?, *,€<?,; (3) множество ω.-— {Χ: μ (Χ, y*)=const, У*—фикс.}, рассматриваемое как отношение инвариантно в шкале Sx2. (Аналогично множество (ο'={Υ:μ (X*, У) = =const., X* —фикс.} инвариантно в шкале S2). Доказательство очевидно. На взгляд автора, интуитивный смысл, который мы вкладываем в слова, что коэффициент связи «недопустим» или «непригоден» для одной шкалы и «допустим» или «пригоден» для другой математически формализуется введением понятия инвариантности коэффициента связи. Кроме понятия инвариантности введем еще понятие сильной инвариантности. Определение. Назовем коэффициент связи μ сильно инвариантным относительно шкал S± и *52, если для любых X и Υ из области определения коэффициента μ μ (Χ, Υ) = μ (gx (X), g2 (Y)) gx£Gly g2£G2, но для любого £*(£^ι (аналогично для любого ^Гб^) существует набор (X*, У*) из области определения μ и существует g\£G2, что ρ (Г. Г)¥°М(Г), sl(Y))· Определение инвариантных в данной шкале отношений см. в [5]. 349
Из определения сильной инвариантности следует, что всякий сильно инвариантный коэффициент относительно шкал Sx и S2 является инвариантным относительно этих шкал, но не является инвариантным относительно более слабых шкал 3. В некотором смысле сильная инвариантность означает, что коэффициент связи относительно шкал St и S2 не теряет информации. Например, коэффициент Чупрова может быть применен и к номинальным признакам, и к ранговым, и к числовым. При этом, когда он применяется к ранговым признакам, мы автоматически считаем ранговый признак номинальным и не учитываем порядка между градациями переменных. Аналогично при использовании коэффициента Чупрова к числовым признакам мы не только не учитываем порядка, но и не учитываем также масштаб и фиксированное начало отсчета. Следовательно, использование коэффициента Чупрова к порядковым или числовым шкалам может привести к случаю, когда коэффициент ранговой корреляции для шкал порядка или коэффициент обычной корреляции для числовых признаков имеют значение близкое к единице, а коэффициент Чупрова очень маленький, или наоборот. Использование же неинвариантного в данной шкале коэффициента связи приводит к привнесению информации. Таблица Применимость коэффициентов связи для различных шкал * Наименование коэффициента Коэффициент Чупрова Коэффициент Пирсона Коэффициент информативности Коэффициент Спирмэна Коэффициент Кендалла Коэффициент корреляции Шкала наименований ++ ++ ++ — — Шкала порядка + + + ++ ++ ~ Шкала интервалов + + + + + ++ Шкала отношений + + + + + + * Символом ++ обозначена сильная инвариантность коэффициента связи; символом + обозначена просто инвариантность и символом — обозначена неинвариантность коэффициента связи. 3 Определение понятий «одна шкала слабее другой» см. в [5]. 350
Например, использование коэффициента корреляций для шкал порядка приводит к привнесению масштаба между упорядоченными признаками. Из сказанного выше можно сделать следующий вывод. Для данных переменных X и У, измеренных соответственно в шкалах Sx и S2i лучше всего применять сильно инвариантные в этих шкалах коэффициенты, можно инвариантные и недопустимо неинвариантные. Приведем таблицу наиболее употребительных коэффициентов связи и их применимость для различных шкал. ЛИТЕРАТУРА 1. Lazarsfeld P. F., Henry JV. W. Latent structure analysis. Boston, 1968. 2. Орлов А. И. Допустимые средние в некоторых задачах экспертных оценок и агрегирования показателей качества. — В кн.: Много- мерный статистический анализ в социально-экономических исследованиях. Ученые записки по статистике, т. 26, М.: Наука, 1974, 388—393. 3. Суппес #., Зипес Дж. Основы теории измерений. — В кн.: Психологические измерения. 4. Пфанцагль И· Теория измерений. М.: Мир, 1976. 5. Высоцкий В. С. О сравнении шкал. — В наст. сб. с. 317—321. 6. Орлов А. И. Прикладная теория измерений. — В наст, сб., с. 68-138. Заседание 9 ноября 1977 г. О. В. Староверов (ЦЭМИ АН СССР). Сложные факторы в моделях движения населения 1. Постановка задачи. В исследованиях движения населения, приводимых, например, на данных о межрайонной миграции, обращают на себя внимание следующие факты: 1) сравнительно малое значение критерия значимости для коэффициента множественной корреляции между самим движением и факторами его определяющими; 2) большое значение критерия значимости для свободного члена во всех моделях влияния факторов на движение. Оба наблюдаемых фактора приводят некоторых исследователей к формулировке законов движения населения типа: а) каждый поток населения порождает встречный ему поток. Одновременно с этим б) всегда считается, что движение населения зависит от социально-экономических факторов. 351
Рассмотрим вероятности переходов p{J людей из района i в район / (из группы i в группу /; ί, /=ϊ, к) как одни и те же функции факторов, тогда все различие в вероятностях перехода заключено в отличии самих факторов х£Х. Следовательно, необходимо объяснить встречные потоки людей (встречное движение из группы в группу), основываясь на одних и тех же правилах оценки факторов людьми, безотносительно к тому принадлежат они к одной или разным группам. Но если правила оценки факторов одинаковы для любого человека и условия совершенно одинаковы, то и движение должно быть одинаковым, притом движение как в одну, так и в другую сторону. Это первое условие правильности объяснения движения от факторов. Второе условие состоит в том, что при разных факторах (даже в случае, когда факторы в одной из групп i лучше в определенном смысле, чем в другой группе /) необходимо объяснить встречные потоки людей. 2. Математическая формализация задачи. Прежде всего дадим определение факторам (или, что то же самое, условиям) в различных группах. Для простоты понимания дальнейшего можно иметь в виду условия оплаты труда (фактор—зарплата). Определение 7. Фактором или условием группы i G{ (χ) называется функция распределения некоторого блага, среди членов группы i. Определение 2. Факторы (условия) в группах i и / одинаковы, если равны функции распределения, т. е. Gt (x)=Gj (χ) для любых х£ X. Определение 5. Фактор или условия в группе i хуже, чем в группе ;, если Gt (χ) > Gj (χ) для любых х. Введем показатель движения населения (для простоты рассмотрения χ числа, например, оплата труда или доход конкретного человека, принадлежащего группе i). Тогда доля людей группы ;', имеющих больший, чем х, доход, равна Именно величина qj (x) привлекает в группу / людей из группы ί, имеющих доход х. Доля людей группы i с доходом χ равна dG{ (x), поэтому поток людей из группы i с доходом χ в группу / будет определяться величиной 352
qj (χ) dG. (χ)у а суммарный поток людей с различными доходами будет определяться величиной, пропорциональной q<j= \ ?,(*)«< (*) = S (1 -ад)*?. (*)· X X 3. Свойства показателя движения qij. Легко получить следующие свойства величин q.j, определяющих движение населения (с точностью до постоянного множителя). Свойство 1. Величины О <I qtJ <[ 1 и д,/+£у,=1. Свойство 2. Если в группах I и s условия одинаковы, то ?<ι=ί<·· Свойство 3. Если в группе Ζ условия хуже, чем в группе «. то Q<i<Qis- Свойство 4. Величины qii инвариантны относительно любых взаимно однозначных преобразований х. Все эти свойства позволяют надеяться, что вероятности Pij движения населения, как функции от показателя qiJ% будут лучике отражать реальное положение дел, чем, например, при использовании разности или отношения средних значений факторов. 4. Эксперимент. Для сопоставления влияния на движение населения обычно используемых средних значений условий и показателей q.j был проделан следующий расчет. По данным а) о числе переходов в течение года между 12 различными группами людей (12 отраслей народного хозяйства Латвийской ССР) были оценены вероятности переходов р.^ б) о распределении зарплат были получены средние значения зарплаты и показатели qij. Затем рассчитана регрессия преобразованных оценок p4j на отношения средних зарплат и показатель q^ (преобразования p.j были проделаны для того, чтобы сделать наблюдения равноточными). Результаты расчета представлены в таблице. Заседание 16 ноября 1977 г. И. С. Енюков (ЦЭМИ), Е. П. Кулакова (ВНИИМП). Числовые метки для качественных признаков в дискриминантном анализе 1. Рассмотрим задачу классификации р-мерных объектов в один из классов Dl9. . ., Dk, каждый из которых задан обучающей выборкой (ОВ) объема п. (i=l, /^.Многие реальные задачи классификации характеризуются 353
Таблица Вид аргумента Средние значения Показатели /-статистика для коэф. множеств, регрессий 5,56 32,44 /-статистика для свободного члена 9,77 4,19 /-статистика для коэф. перед аргументом 3,21 5,46 Степени свободы для F- критерия 1 и 142 1 и 142 Степени свободы для /-критерия 142 142 большим числом неколичественных признаков, т. е. признаков, измеренных в шкалах наименований, порядка, отношений, интервалов. Общее свойство этих признаков состоит в том, что они представляют собой характеристики объекта, которые могут принимать лишь некоторое конечное множество значений, называемых в дальнейшем категориями, или градациями. Вместе с тем для метода классификации, использующего линейные дискриминантные функции (ЛДФ), нужно, чтобы все признаки имели количественное представление» Это приводит к необходимости введения «разумных» (в рамках данной задачи классификации) числовых меток для категорий неколичественных признаков. 2. Предлагаемый способ введения числовых меток основан на том, что основной информацией, которую используют ЛДФ для классификации, является различие в средних значениях признаков у классов Dt (i=l, к)у измеренное в единицах дисперсии. Другие компоненты информации о различиях между распределениями JDf(i=l, к) в малой степени используются ЛДФ. Исходя из этого, в качестве набора числовых меток для категорий некоторого признака χ примем такие числа, которые максимизируют значение суммы оценок квадратов расстояний Махалонобиса от общего центра тяжести классов по признаку χ до центров классов Di (i=l, к) по этому же признаку ^) = ^п(^-^\ (1) к где N = 2 пи 354
#T=(zl9. . ., %) —L-мерный вектор числовых меток для категорий признака х; щ («)=Σ νν °2< (*) = Σ (*t—mi (*))2 if«; i=l $=1 iaasl *=1 pqi — оценка по OB вероятности того, что признак χ принимает значение g-ю категорию для объектов из D.. L — число категорий признака х. Тогда верна следующая лемма. Лемма 1. Пусть Ρ=(pqi) — матрица порядка Lxk, элементами которой являются оценки вероятностей Pqi9 У — диагональная матрица порядка кхк с элементами пи=п{, 8 — диагональная матрица порядка LXL с эле- к ментами s^—^^p^n^ Набора меток »0==(ζιο> · · ·> zl0) для категорий признака х9 максимизирующий величину Q2 является решением однородной системы линейных уравнений (ΡΝρη z—\(S—pnpt) *=о, (2) которое соответствует наибольшему собственному числу λ. Поскольку величина Q2 инвариантна относительно преобразований сдвига и масштаба меток ζ, то кроме решения г0, задаваемого уравнением (2), любой вектор вида ^χ=(αζ10+6, . . ., azz0+b) также максимизирует Q2. Замечание. Подход к построению набора меток на основе леммы 1 гарантирует, вообще говоря, только максимум величин Q2 (xj) по каждому признаку^,. . ., хр9 но не максимум соответствующей величины Q2 (х19 . . ., хр) для совокупности признаков (в /ьмерном пространстве). Однако если признаки независимы, то подобный подход дает и максимум величины Q* (хц . . ., хр) по совокупности признаков. В случае двух классов (&=2) систему меток #0 можно представить в виде **м, , + ».*„· (3) 355
Величина Q2 в этом случае совпадает (с точностью до множителя) с квадратом расстояния Махалонобиса t2 между .Οχ и D2, а максимальное значение величины t2, достигаемое на наборе z0 (3) т2 = тах*2= ί_χ2/2 , (За) где ί=ί ^ft + ^f, 3. Если число признаков ρ сравнимо с объемами выборок /ζ,, то использование набора меток, даваемого системой уравнений (2) (или соотношением (3) для к=2) может привести к неэффективной классификации за счет возрастания эффектов многомерного смещения ([1], теорема 1). В связи с этим предложено два подхода: а) первый подход основан на том, что систему меток (3) нужно применять не ко всем признакам. Неколичественные признаки, как правило, имеют некоторую исходную систему числовых меток — номера категорий. Эти номера могут отражать степень выраженности данной характеристики (шкала порядка), либо являются случайными (шкала наименований). Однако важно, что их выбор не зависит от информации, содержащейся в ОВ. Назовем эту систему меток «независимой». Таким образом, для признака Xj (;=1, р) можно использовать либо набор меток (3) либо «независимый» набор. Чтобы эффективность классификации возросла, набор меток (3) следует применять, если выполняется неравенство где τ. определяется из выражения (3, а), С~1=щ1+ +^2Х„ r=7i1+n2—2, Τj — расстояние Махалнобиса для независимой системы меток; б) второй подход состоит в перенумерации категорий, т. е. в преобразовании «независимого» набора следующим образом. Для признака х* категории с номером q присваи- 356
вается новый номер iq, равный рангу величины z0q в оптимальном наборе з0 iq = T*ng(z0q). (5) Пример. Набор меток (3) применялся при решении диагностической задачи «рак — д. о. молочной железы». Число признаков />=33, все признаки категоризованные, из них 13 признаков — дихотомические, так что шкала (3) использовалась для 20 признаков. Объемы ОВ ^=^2=100. По критерию (4) только для трех признаков я2Х, #22, х32 допустимо введение числовых меток (3) (см. табл. 1). Таблица 1 Признак «Независимый» набор меток τ2 Набор (3) *21 0,38 1,31 #22 1,33 2,03 *32 0,002 0,364 В табл. 2 представлены результаты по суммарной ин- формативности набора признаков и величинам частоты ошибочной классификации на ОВ и на экзамене (n1=ra2= =100). Таблица 2 «Независимый» набор меток Применение набора (3) к 20-и признакам Использования критерия (4) Квадрат расстояния Ма- халанобиса 5,93 8,64 8,05 Процент ошибочной классификации на ОВ 13,5 7,5 9,5 Процент ошибочной классификации на экзамене 25 19 17 Таким образом, применение шкалы (3) совместно с критерием (4) привело к значительному повышению эффективности распознавания. Применение шкалы (5) дало практические совпадающие результаты. 357
ЛИТЕРАТУРА 1. Мешалкин Л. Д. Присвоение числовых значений качественным признакам. — В кн.: Статистические проблемы управления, вып. 14. Вильнюс: 1976. Заседание 23 ноября 1977 г. 1. П. М. Блехер ((ИПМ АН СССР), М. Я. Кельберт (АКИН АН СССР). Доказательство сходимости алгоритма «Форель» 1. В настоящее время применяется много алгоритмов классификации многомерных наблюдений. Среди наиболее известных из них — серия алгоритмов, объединенных под названием «Форель» (см., например, [1]), в основе которых лежит следующая процедура. Пусть в евклидовом пространстве Rd отмечены т различных точек {Хг, Х2,. . ., Хт}=Х, которые нужно разбить на кластеры. На нулевом шаге алгоритма задается шар V0 некоторого радиуса Д, содержащий хотя бы одну из отмеченных точек. Обозначим центр тяжести точек, попавших в шар F0, через Ог и пусть Vx — шар радиуса R с центром в Ov Аналогично на тг-ом шаге алгоритма мы находим центр тяжести Оп точек, попавших в шар Vn„XJ и рассматриваем шар Vn радиуса R с центром в Оп. Процедура называется сходящейся, если, начиная с некоторого номера N, все центры тяжести Оп при n^N совпадают. В настоящей заметке мы докажем, что описанная процедура сходится в любой размерности d при произвольном расположении отмеченных точек Х19 Х2> · · ·> %т и шаРа ^о- 2. Приведем следующий простой критерий сходимости процедуры. Пусть существует функция S (О; X, Д), определенная для точек О £ Rd и зависящая от конфигурации Х={Хи Х2,. . ., Хт} и радиуса R как от параметров, такая, что 5(0^; X, R)<S(0„; X, R), (1) если только Оп+1^=Оп. Тогда процедура сходится. Это следует из того, что точки Оп при η ^ 1 принадлежат конечному множеству центров тяжести подмножеств множества X. Построим функцию S(0; X, R) для нашей процедуры. Пусть Xj^ Xj2,..., Xjr — точки, попавшие в шар У = = У(0, К) радиуса R с центром в О. Положим S(0; X, Д) = 2(|ХУ|-0|»-Д1). (2) /=1 358
Проверим, что выполняется соотношение (1). Определим для произвольной точки О1 £ Rd функцию W(0,0>; X, Д) = 2(|*л-0Ч2-Д2), (3) где Xjv 1= 1, ..., г — все точки, попавшие в шар V(0, Л), так что S(0; X, R)=W(0,О; X, R). Покажем, что если Оп+1=^=Оп9 то W(0„, Ош; X, R)<W(On, Оя; X, R) (4) и W{Om, <W X, R)<W(On, Ош; X, R), (5) откуда, очевидно, следует неравенство (1). Неравенство (4) следует из известной теоремы Штей- нера (см. [2], с. 121): так как Оп¥1 — центр тяжести точек Xjtt Xjtf..., Xjr. До- кажем неравенство (5). Положим q<»=V(0„, R)nv(on+l, R). ^(!H= = У(0Я>Д)\7(0Й+1,Л),2«' = = У(Ош, R)\V(0„, R). Тогда W{0^ Ом; X, R)= Σ (|^-О^Р-Д») + + Σ (\Xt-0^-IP), a х,еаш W(Omt Ош; X, R)= Σ (|^-0-иР-Л») + х^(3) 359
Следовательно, W(0„, 0^; X, R)-W(Om, Ош; X, R) = = Σ (1^-оя+1|2-л2)- - 2 (Ι^-^,ΐ2-^), Χ,·£2(3) и остается заметить, что | Xi — Ош | ^ R при X, £ 2(2) и l^-о^кд при xi.e^(3), т. е. 2 (|х, —ow+1|2—д2)>о, xt^i2) а 2 (|х,.-о,,+1р-я*)<о. xt^i3) Тем самым неравенство (5), а , следовательно, и сходимость процедуры доказаны. 3. Как отмечено в книге [3], серия алгоритмов «Форель» может быть включена в рамки общей схемы, так называемых, «эталонных алгоритмов» (алгоритмов MND и MNDS в терминологии работы [4]). Алгоритмы MND и MNDS (преимущество MNDS состоит в том, что используется последовательное обращение к массиву данных) задаются с помощью некоторых множеств В, Η, Ζ/0, разбиения Р0 множества X и функций D (я, A), R (#, έ, Ρ) (см. [4]). Покажем, как выбрать эти элементы, чтобы алгоритмы MND и MNDS реализовывали описанную выше процедуру «Форель» и выполнялись приведенные в работе [4] достаточные условия сходимости алгоритмов MND и MNDS. Положим Б = Д«и{оо}, Н = Х={Хи Х%% ... Хя), L0={{a>}, 0}, P0 = ({X^V(0y Я)}, {Х,ет Я)}, где О — центр шара V0=V(O, R), a Rd\J{co} означает присоединение к Rd еще одной (бесконечно удаленной) точки. Теперь определим при x£Rd D(x, 0) = \x-0\2-R\ D(x, {oo}) = 0, R(z, 1, P) = 0, R(x,2, P)= 2 (|*-Х,|2-Д2), xf.6P(2) 360
где Р=(Р(1\ Р(2)) — разбиение множества X, и Д({оо}, i, P) = 0, i=l, 2. Можно проверить, что при таком выборе исходных элементов алгоритмы MND и MNDS реализуют процедуру «Форель», если в качестве первой эталонной точки всегда выбирать {оо}. При этом достаточные условия сходимости алгоритмов MND и MNDS проверяются аналогично соотношению (5) (см. также п. 4.3 работы [4]). 4. В заключение сделаем несколько замечаний. Доказательство сходимости процедуры остается справедливым, если каждой из отмеченных точек Xj приписать массу Mj. При этом функция S задается формулой S{0; X, /i) = 2Afyi(|Xyi-0|«-JP). Кроме того, отметим, что в процедуре вместо шаров радиуса R можно рассматривать одинаково ориентированные эллипсоиды фиксированного размера. Этот случай сводится к разобранному выше аффинным преобразованием, переводящим эллипсоид в шар. В связи с последним замечанием представляет интерес следующая задача: верно ли, что процедура «Форель» сходится, если вместо шаров (или эллипсоидов) использовать в ней множества, получающиеся из данного (выпуклого) множества преобразованием сдвига? ЛИТЕРАТУРА 1. Загоруйко Н. Г. Методы распознавания и их применения. М.: Советское радио, 1972. 2. Арнольд В. И. Математические методы классической механики. М.: Наука, 1974. 3. Айвазян С. Α., Бежаева 3. И., Староверов О. В. Классификация многомерных наблюдений. М.: Статистика, 1974. 4. Diday E. Classification automatique sequentielle pour grands tableaux, Rev, Franc. Aut. Inform. Rech. Oper., Bl, 1975, p. 29—61. 2. С. А. Айвазян (ЦЭМИ АН СССР). О развитии методов анализа данных во Франции Заседание 30 ноября 1977 г. 1. А. И. Орлов (ЦЭМИ АН СССР). Сходимость эталонных алгоритмов 361
Опишем класс алгоритмов классификации &-мер- ных наблюдений. Рассмотрим функции / : R21c -> R1 и #:#*-> (О, +оо). Положим F(E, R) = {X£Rk : / (Ζ, Ε) *^R}. Алгоритм классификации точек Х1э Х2, . . ., Хп из ir работает следующим образом. В качестве эталона Е0 берется произвольная точка из Rk такая, что F (Е0, R) содержит хотя бы одно наблюдение. Если Ет определен, то Ет+1 строится по индукции, именно, #от+1 является решением задачи Σ №, E)g(Xi)-+m)n. (1) Если Ет является одним из решений задачи (1), то полагаем Ет+1=Ет, на чем процесс останавливается, в качестве первого кластера берется Х={Х{ : X. £F (Em, R)}, а для выделения остальных к {Хи Х2> · · ·> %п}\Х применяется описанная выше процедура вплоть до полного исчерпания совокупности ^расклассифицированных наблюдений. Если же Ет не является решением задачи (1), то на следующем шагу в качестве Ет+1 выбирается по определенному правилу одно из решений (1). Таким образом, для полного формального описания алгоритма помимо функций /, g и числа R надо указать правило выбора начальной точки Е0 (обозначим это правило а) и правило выбора одного из решений (1) в качестве очередного эталона (правило β). Обозначим соответствующий алгоритм ЭД (/, g, R, «, β). Теорема. Алгоритм $1 (/, g, Л, α, β) прекращает работу после конечного числа шагов. Это число шагов не превосходит константы, зависящей только от числа классифицируемых наблюдений п. Доказательство проводится аналогично рассуждениям [1]. Положим W{Em> Ε, {Xl9... Xn), i?) = = Σ (f(Xi,E)-R)g(Xi), (2) S(Em, {Χ, X„), R) = W(Em, Em, {Xlt ..., XJ,R). Если Ет+1=£Ет, то справедливы соотношения (4) и (5) из [1] (с заменой О на Е). Действительно, (4) справедливо в силу определения Ет+1 с помощью (1), а доказательство (5) 362
отличается от такового в [1] лишь заменой частного вида/ на общий. Для завершения доказательства достаточно заметить, что при т ^ 1 точки Ет принадлежат конечному множеству, поскольку суммирование в (1) происходит по подмножеству {Х±, Х2, . . ., Хп}, таких подмножеств конечное число, их не более 2п—1, а каждой задаче (1) с помощью правила β соответствует единственное решение. Алгоритмы ЭД (/, gy R, α, β) составляют подмножество множества эталонных алгоритмов [2, с. 104—110]. Если / (Χ, Υ) — квадрат евклидова расстояния между X и У, то01 является алгоритмом «Форель», рассмотренным в [1]. Для доказательства последнего утверждения достаточно заметить, что в этом случае решение (1) единственно и является центром тяжести Х{1 попавших в F (Ет, Д), что вытекает из тождества Μ (| — а)2 = М{1 — Μ If + (ΜΙ — α)\ следствием которого является теорема Штейнера (ср. [1]). Если / — квадрат расстояния Махалнобиса, что эквивалентно при соответствующем выборе базиса взвешенному евклидову расстоянию, то F (Е, R) — эллипсоид. Решением задачи (1) также является центр тяжести точек, попавших в F (Em1 R). Если / имеет смысл меры различия, то в соответствии с [3] решение задачи (1) можно рассматривать как среднюю точку для совокупности Xi9 попавших в F (Em, R). Следовательно, ответ на вопрос, поставленный в конце [1 ], положительный, если выбор средней точки согласован с выбором выпуклого тела, сдвиги которого образуют F (Е , R). В этом случае / зависит только от X—Y. Из алгоритмов *21(/, g, R, α, β) отметим алгоритм «Медиана», в котором / (Χ, Υ) есть сумма модулей разностей координат векторов X и У, a g=i. Тогда (1) определяет вектор, состоящий из медиан координат X., попавших в F (РтУ R). В качестве значений медианы совокупности к чисел ζ (1) <[ ζ (2) <^ ... ^ ζ (к) будем брать ζ ([й/2]), где квадратными скобками обозначена операция взятия целой части числа (правило β). Этот алгоритм является, в отличие от «Форели», адекватным в порядковой шкале (в смысле теории измерений [4]). 363
ЛИТЕРАТУРА 1. Блехер Π, Μ,, Кельберт Μ. Я. Доказательство сходимости алгоритма «Форель». — Наст, сб., с. 358—361. 2. Айвазян С. Α., Бежаева 3. И., Староверов О. В. Классификация многомерных наблюдений. М.: Статистика, 1974. 3. Орлов А. И. Элементы теории конечных случайных множеств. — Наст, сб., с. 301—307. 4. Орлов А. И. Прикладная теория измерений. — Наст, сб., с. 68-138. 2. В. Б. Фофанов, В. В. Скворцов (КХТИ, Казань). Некоторые типы случайных полей, их свойства, моделирование на ЭЦВМ и прикладные аспекты В настоящей работе дается обзор результатов исследований авторов, связанных с вероятностным описанием полей пластовых параметров нефтяных месторождений. Эти исследования проводились по заданию проектного института ТатНИПИнефть в течение трех лет и преследовали цель повысить степень научной обоснованности решений, принимаемых на начальном этапе проектирования, когда имеются некоторые геофизические сведения, но почти нет гидродинамических сведений о пласте. Работоспособность предложенных методов проверена при решении ряда конкретных задач, возникающих в теории разработки и проектирования нефтяных месторождений. 1. От точности решения задач проектирования разработки нефтянога месторождения зависит в значительной степени объем материальных средств, расходуемых на последующие разработку и эксплуатацию. Для их успешного решения необходимо знать структуру нефтяного пласта в каждой точке. Она описывается специальными функциями, называемыми пластовыми параметрами. Однако на практике значения пластовых параметров можно считать известными лишь в конечном числе точек, в которых пробурены разведочные скважины. Поэтому проектирование приходится начинать с восстановления геофизических пластовых параметров в тех точках, в которых они неизвестны. К сожалению, общепризнанной методики решения задачи о восстановлении пластовых параметров еще нет. В данном случае эту задачу предлагается решать в рамках вероятностного подхода, а именно, каждый параметр описывается не какой-то одной конкретной функцией, а семейством всех функций, одинаково согласующихся 364
с имеющейся о пласте информацией. Это семейство функций рассматривается как выборочное пространство некоторого случайного поля, а само поле — как математическое описание параметра. При таком подходе важная прикладная проблема о восстановлении пластовых параметров превращается в математическую задачу о построении случайного поля, удовлетворяющего определенным условиям. Далее будут рассмотрены два типа случайных полей, при помощи которых предлагается описывать и восстанавливать пластовые параметры. 2. Будем описывать пластовые параметры случайным полем £ (ζ) на Ζν, принимающим значения из конечного множества Υ. Предполагается, что значения случайного поля на конечном множестве A Q Zv известны: Ца) = ха, *£А, χα£Υ. (2.1) Кроме того, предполагается, что условные вероятности вида Р{Цг) = х,\Ц*) = хл, а£А}, χ,^Υ, ζ £Ζ'\Α9 (2.2) удовлетворяют трем следующим условиям. 1°. Для любых различных наборов хл, α £-4, и х'л, а£А, существует ζ : О < \ζ—А| < к, к > О, и значение χζζΥ> что =£Р{Ц*) = хг\Ца) = х'а, а£А). (2.3) 2°. Для любых ζ : \ζ—Α\ ^ к, любых y^Y ж xa(*Y, а£А, Р{Ц2) = у\Ц*) = хл, a.£A) = P{%(z) = y) = p{ij). (2.4) 3°. Для любых ζ : 0 < \ζ—Α\ < к, Р$(Я) = у\Ца) = хл, *£А} = =-ST {*{*(* + '.) = 016 («) = *., «64}+ + />{ξ(ζ —β1) = »|ξ(α) = «β, *£А}+... (2·5) ...+Р{Цг+е,) = у\Ц*)=ха, а£А} + + Р{Ц2~е,) = у\Ца) = ха1, а^А}}, здесь е1=(1, 0,. . ., 0),. . ., ev=(0,. . ., 0, 1) и2v слагаемых. 365
Показано, что условные вероятности (2.2), удовлетворяющие свойствам (2.3)—(2. 5), определяются единственным образом, если заданы конечное множество А, распределение вероятностей {р (у), y£Y} и число к. Предложена [1] монте-карловская процедура, позволяющая вычислять все условные вероятности (2.2). Выделен класс случайных полей, которые описываются условными вероятностями (2. 2) и своим совместным распределением на YA единственным образом. Рассмотрены [2], [3] примеры использования предложенных случайных полей для вероятностной постановки некоторых задач теории проектирования и оптимизации разработки нефтяных месторождений. 3. Будем считать известным лишь локальные свойства пластовых параметров и предположим, что зависимость между их значениями носит марковский характер. Можно показать, что использование г — марковских случайных полей, предложенных Добрушиным Р. Л. [4], связано с затруднениями при задании случайного поля и построении его выборочных поверхностей. Поэтому предлагается другой, более общий подход к понятию марковской зависимости. Пусть V — конечное множество из Z\ не содержащее начала координат. Сопоставим каждой точке c£Zv множество V ({с}), являющееся результатом сдвига на вектор с множества F, и назовем его V — границей точки с. Для произвольного множества В ( Z* определим его V — границу V (В) как объединение V — границ всех его точек, из которого исключены точки, образующие само В, т. е. V(B) = (U V({z)))\B. С каждой точкой c£Zv свяжем последовательность конечных множеств Vj{{c})y /=1,2,. . ., при помощи равенств УЛ{с})= V({c}), Vj+1({c}) = F(Fy({c})). Их объединение Va({e})=\jV)({c}) J'-1 366
назовем «прошлым» точки с£%\ a Vx ({с}) — ближайшим прошлым. Будем говорить, что семейство случайных величин ξ (ζ) на Ζν со значениями из конечного множества Υ называется случайным полем марковского типа, если с вероятностью, равной единице, имеет место равенство *{6(*)=*Д(*)=*,, *егв({с})}= = P{\{c) = xe\%{z) = x„ zeVM)} (3.1) при любых xc£Y, c£Z\ и любых xz£Y, 2^Foo ({с}). При v=l и V={—1} из (3.1) получается классическое определение Маркова А. А. При V=S (0, г)\{0}—другое определение, данное Добрушиным Р. Л. С использованием изложенного подхода построено случайное поле, по своим свойствам напоминающее во многом марковскую цепь, и рассмотрены три возможных аспекта применения этого поля для вероятностного решения задач, возникающих в теории проектирования разработки нефтяных месторождений. 4. В заключение отметим, что в работе кратко описаны два типа случайных полей, определенных на целочисленной решетке и принимающих значение из конечного множества. Эти поля задаются конечным числом условных вероятностей специального вида. Для них написаны простые алгоритмы построения выборочных поверхностей на ЭЦВМ М-220 и продемонстрирована возможность использования их для решения некоторых прикладных задач. ЛИТЕРАТУРА 1. Скворцов В. В., Фофанов В. Б. Об одном методе Монте-Карло одновременного решения нескольких краевых задач для уравнений эллиптического типа. — В кн.: Методы Монте-Карло в вычислительной математике и математической физике. Новосибирск: Наука, 1976, с. 171—179. 2. Николаев М. Л.7 Скворцов В. В., Фофанов В. Б. Об одном классе стохастических задач распределения ресурсов. — В кн.: Управление многосвязными системами. М.: Наука, 1973, ч. 1, с. 10—12. 3. Скворцов В. В., Ильина А. В., Фофанов В, Б. и др. О статистической имитации карт параметров нефтяных пластов. — В кн.: Исследования по подземной гидромеханике, ч. 1. Казань: изд. Казанского университета, 1976, с. 202—213. . 367
4. Добру шин Р. Л. Описание случайного поля при помощи условных вероятностей и условия его регулярности. — Теория вероятностей и ее применения, 1968, т. 13, № 2, с. 201—229. Заседание 7 декабря 1977 г. Б. Л. Каширин (МИСиС). Построение оптимальной модели по результатам наблюдений функций многих переменных Построение модели многомерного реального процесса по результатам наблюдений, сопровождаемых случайной помехой, является важной задачей анализа процессов статистическими методами [1, 2]. Ниже излагается постановка и решение задачи построения линейной относительно параметров модели, удовлетворяющей условию минимума математического ожидания среднего квадрата отклонений модели от неизвестной истинной функции. Пусть имеется система неизвестных нам т функций η переменных yj = fj(xi> х2> · · ·> хп\ ; = 1,.. м т, (1) или в матричной записи у = F (х), у9 = (у1У..., ут\ x' = (xv..., хп). (2) Имеются измерения Υΐ9.. .Υ ν (Ν > т) в точках Х\,. · *Χχ. у;=(г„,..., Ytj, x't=(xa, . ·., xj. (3) Значения X. (i=l,. . .Ν) известны точно, а измерения Υ{ содержат случайные ошибки. Yt = F(Xt)->r^ Δ; = (Δ„, ..., Δ,-J. (4) Положим, что Δ, одинаково распределены, независимы в совокупности и имеют нулевые математические ожидания. ί0 при ъФ]л G = [ ·. . (5) Случай, когда Μ (Α{)^=0 иС- недиагональная матрица, приводится к рассматриваемому путем соответствую- 368
щего невырожденного линейного преобразования векторов Y. [2]. Пусть {?,(*])}· {Μ*2)}> ··· {?, (*■)}» 5 = 0, 1» 2,... — системы функций, ортонормированных соответственно на совокупностях точек {ха}, {#*2Ь · · · {^*»}> i=h · · · W. Введем вектор—функции Ф8(Х), компонентами которых являются все возможные произведения функций <?k.{x.j), 7=1,..., η таких, что £*,=*. (6) φο(Χ) = Τβ(*·ι)?ο(*·«) · · · «Ро(*·-). ^ι(*·ι)?β(*·2)···Το(*·») Φι(Χ)=|Το(*·ι)?ι(*·»)Τβ(*·3)···Τβ(*·.) Ι (7) 4?β(*·ι)Τβ(*·2) · · · ?ο(*·»-ι)?ι (*·«)/ Число компонент функции Ф,(Х) обозначим £(s, re). L(s, n) вычисляется по рекуррентной формуле L(s, re) = L(s — 1, n)-{-L(s, re —1), s>0, re>2, L(0, n) = L(s, 1)=1, L(s, 2) = «+l. (8) Нетрудно заметить, что система функций re переменных ЧГ.(Х)=-=^==.ф.(Х). s = 0' U ··· <9> ν Ь (S, Π) является полной ортонормированной на совокупности точек X., i = 1, ... N системой функций |™(|)™>(;)4?£££ (10> Представим искомые функции yj в виде ряда ν, = ΣΑ'»ν.{Χ), /=!,....и», (11) 369
где Aj8 — есть L(s, тг)-мерные векторы соответствующих коэ ффициентов. Л'. =а('*> *» = {*№...№...· —*1?..*д. (12) Поскольку в разложении (И) учитывается лишь конечное число членов, то при аппроксимации каждой функции уj возникает методическая погрешность iy=2^.«p.(X)-ify = - Σ λ'„ψ,(Χ). (13) Пусть Aj8 — оценки параметров Aj8, полученные по результатам измерений. Вычисленные функции 7,=2л;д(Х) (14) содержат также неустранимые погрешности, обусловленные ошибками измерений. ^ = Ρ,-ΣΑ^Ψ.(Χ) = Σ(Α;,-Α;,)'ΨΛΧ),. (15) С увеличением числа pj членов ряда методическая погрешность δ, убывает, а погрешность Δ^. возрастает. Следовательно, для каждой функции yj существует критическое число pj = p*., соответствующее />*. —}— 1 первым членам разложения функций в ряд, которое определяет оптимальное в заданном смысле число членов модели. При pj ]> ρ*, можно, конечно, получить лучшее согласие pj(j= 1, ... т) с имеющейся выборкой Y.(i=l, ... п)у однако при этом ухудшится согласие у у с у у В качестве критерия оптимальности примем минимум математического ожидания величины среднего квадрата отклонений в точках измерений вычисленных функций у j от истинных функций уг N 370
M[*4Pj)] = JT 2 A'JSAjs+ (16) +жм\%л»-А»У<<А*-АЛ· L5==o J Оценки Aja, полученные, например, по методу наименьших квадратов, несмещены, независимы в совокупности, а компоненты векторов Aj9 имеют одинаковую дисперсию, равную дисперсии ошибок измерений <з2[2]. Поэтому μ\Σ{Α,,-Α^{Α^-αΔ^)±1{8, η), (17) L8=0 J 8=0 и, следовательно, 2 A'JeAJe + ^L{st it) . (18) В общем случае минимум математического ожидания ε2 (ρ^) определяется выражением min[M[e*(/>y)]]=^r24Ar + ^2L<f' ")]' (19) где первая сумма берется по индексам г, для которых AjrAjr<^o2jL(r, η), а вторая — по всем остальным индексам. В случае, когда Aj8AjJL(s, n) монотонно убывают с ростом 5, минимум M[e2(pj)] достигается, если последний коэффициент Ajp* удовлетворяет условию: Μ [ε2 (Pj)] -М[* (ρj- 1)1 = =w № (pp *) - AhA™i\=°> (20) т. е. при L(p*., n) AJP*AjP*j = °r (21) Мы получили, что аппроксимация будет оптимальной, если процесс разложения прекратить, когда для вектора 371
коэффициентов последнего члена разложения впервые будет выполняться условие lnL-A'^Jl^di, s = 0, l,...,/=l,...m. (22) Для построения критической области гипотезы Ho--T(i-n)A'^Ai>>J>°) (23) воспользуемся тем, что величина AjPjAjpJL(pji тг)оЯ, где σ 2 — IzL· *>J 2j *j"~ 2j j* j (24) J PJ *=o ?J имеет распределение Фишера с L(p-9 η) и Ν— ^jL(s, n) степенями свободы. Критерий гипотезы (23) имеет вид: Χ' Ά ^ ^(Ру» п) ( * pJ \ А"л"<т\Т1^;(1^-2^,,).(-» Т« берется из таблиц распределения Фишера с L(pj, n) и PJ степенями свободы для заданного уровня 8=0 значимости а. В частном случае функций одной переменной (я=1) условие (22) примет вид а%<°% J=i> --η· (26) При этом критическая область гипотезы (23) будет определяться неравенством N PJ <*;>/< тт. N-p.-i . (27) где γα берется из таблиц распределения Фишера с одной и N — ρ j—1 степенями свободы. 372
ЛИТЕРАТУРА 1. Айвазян С. А. Опыт и проблемы применения многомерного статистического анализа в социально-экономических исследованиях. — В кн.: Труды Всесоюзной научно-технической конференции. Тарту: 1977. 2. Андерсон Т. Введение в многомерный статистический анализ. М.: Физматгиз, 1963. Заседание 14 декабря 1977 г. П. Н. Сапожников (Пермский университет). Регрессионные модели качества смесей Для оценивания качества смесей т компонент предлагается класс регрессионных моделей на 2т факторах (хи Qi) (* = 1> 2,.. ., т), которыми служат количественные— (хц х2,. . . , χт) и качественные — (ql9 q2J . . ., qm) характеристики смешиваемых компонент. Основное условие применения моделей — единая физическая природа качественных показателей компонент и самой смеси. Требования, предъявляемые a priori к моделям, носят весьма общий характер и представляют собой естественную идеализацию реальной картины. Предполагается качественная однородность компонент и смеси по объему и наличие качества у любой сколь угодно малой порции их. Предполагается, что качество Μ (х1У х2; qly q2) хорошо перемешанной смеси (качественно однородной) двух компонент обладает следующими свойствами: 1) М(хг, х2; ql9 q2)=M(x2, χλ; q2y gx), 2) М(хг-{-х2, x3; M(xv x2; ql9 q2),q3) = = M(xv x2-\-x3; qv M(x2, x3; g2, g3), 3) M(0, x2; glf q2) = q2, M(x19 0; q19 q2)=qx. При этом свойство качественной однородности принимает вид 4) М(сх1У сх2; qv q2) = M(xl, x2; ql9 q2) при любом с >0. Теорема 1. Пусть функция Μ (хг, х2\ gx, q2) имеет непрерывные частные производные по совокупности пере- 373
менных (хх, х2) 2-го порядка и удовлетворяет условиям 1—4. Тогда Μ <*.. ъ«.. ^)=-F[^'i(tx:f'i^\ (1) где F'1 (q) — произвольная монотонная дважды непрерывно дифференцируемая функция, определенная на множестве [gmin, 1Ш]. Из этой теоремы и свойства 2 следует, что функция Μ (#!, x2f ..., хт; ql9 g2, . .., gw = [т XJ хх + х2 + . Л=1 Ы описывает качество идеализированной смеси т компонент и, следовательно, может быть принята в качестве модели регрессии. Регрессионные связи между различными показателями качества каждой компоненты должны быть определенным образом согласованы с законами формирования качества смеси по данным показателям. Пусть Мг (хг, х2, <7i, q2), M2 (хг, х2\ Qt, Q2) удовлетворяют условиям теоремы и определяются по формуле (1) с помощью функций F±, F2. Тогда, если показатель качества Q связан с показателем качества q некоторой функциональной зависимостью Q=f(q), то эта зависимость имеет вид f(q) = F2(c1F^(q) + c2), (2) где сх, с2 — подходящие константы. В частности, если показатель качества q усредняется при смешивании, т. е. М(*„ х2; ?Р q2)=XlH + *xf\ (3) то из (2) следует, что оценка регрессии М2 (xlf х2\ Qly Q2), описывающей качество смеси по показателю (?, сводится к оценке регрессии Q на q. Простейшие классы моделей выделяются из (1), если предъявить требования инвариантности моделей относительно шкал измерений. Будем называть модель (1) инвариантной относительно: 374
a) параметра сдвига, если при любом β M(xv s2; gi + p, g2 + P)=ilf(*i, *2ί ?i> b); b) параметра масштаба, если при любом α > О Л/(жр ж2; а?! ада)=М(ж1э ж2; gp g2); c) параметров сдвига и масштаба, если при любых β и α>0. Μ(χν х2\ α^-f μ, a?a + P)=^(*i» #2; qv q2). Теорема 2. Каждый из классов инвариантных моделей содержит не более одной нетривиальной модели. В классах а) и Ь) эти модели определяются функциями Fl(z) = ±\nz, F2(z) = z» соответственно, а в классе с) определяющая функция линейна и потому модель тривиальна. Аппроксимация модели а) рассматривалась в [1]. Здесь требование инвариантности было выражено в специфической форме: представимости функции Μ (хх, х2\ qlf £2)—£1 в виДе РяДа по степеням (д2—дг) с коэффициентами, не зависящими от qu q2. Нелинейность моделей качества смеси относительно параметров даже в простейших случаях а) и Ь) создает определенные трудности при оценивании функции регрессии. Проиллюстрируем на примере модели а), как можно справиться с указанными трудностями и получить обозримую оценку параметра Θ. Пусть наблюдения представлены в виде ук=М(х{*\ *$*>; q[*\ gj*)) + e* (ft=l, 2,..., Λ), где εΛ — некоррелированные несмещенные оценки нуля с дисперсиями σ2, а х[к\ χψ\ q[k\ qW — уровни факторов. Заменяя функции Ε ук отрезками ряда по степеням θ придем к задаче оценивания полинома от параметра. Используя критерий Лемана—Шеффе [2], нетрудно убе- 375
диться, что несмещенная наилучшая оценка этого полинома в классе линейных оценок существует и имеет вид а*(А*А)-1А*у9 где у ·— вектор наблюдений, А = [ a.j], 1 <С i ^ /ζ, О <J / <С <^ га, а координаты вектора α — первые (т+1) коэффициентов разложения функции Μ (хг, х2; qly q2) в ряд. ЛИТЕРАТУРА 1. Сапожников П. #., Зарубин Ф. И. Регрессионные модели качества смесей. — В кн.: Всесоюзная конференция по применению многомерного статистического анализа. Тарту: 1977. 2. Lehmann E., Scheffe Я. Completeness, similar regions and unbiased estimation. Sankhya of Ind., J. Stat., 1950, 10, p. 305— 340. Заседание 21 декабря 1977 г. 1. P. Η. Карякин, А. И. Орлов, С. Ю. Адамов (ВНИИ «Ироектэлектромонтаж», ЦЭМИ АН СССР). Вероятностная теория высших гармоник помех, создаваемых электровозами Движение электровозов создает помехи, влияющие на проводные линии связи. Создание достаточно эффективных и в то же время экономичных средств защиты проводных линий связи от мешающих влияний, создаваемых тяговыми сетями переменного тока, предполагает в качестве подготовительного этапа разработку математических моделей указанных влияний. Как показано в [1, с. 59], /n-ю гармонику (т ^ 7) создаваемой электровозом помехи можно описать двумерным вектором (ξ1, £2) = (r cos φ, г sin φ), где г — амплитуда, φ — фаза. Считаем, что г и φ — случайные величины, причем независимые. Как априорные соображения, так и результаты экспериментов дают основания принять распределение φ равномерным на [0, 2π] (см. [1]). В случае η электровозов рассматриваемая гармоника суммарной помехи описывается вектором (αΜ, βη), причем из физических соображений К, β„)= Σ McOScp,, Sin φ,). (1) Каждый вектор в правой части (1) соответствует электровозу с тем же номером. Будем считать, что случайные вели- 37G
чины {т\, φ,, ί = 1, 2,. . ., η} независимы в совокупности, а все фазы распределены равномерно на [0, 2π]. Из (1) вытекает, что М(< + Ю= Σ Mr*, (2) если все слагаемые в правой части (2) существуют. Последнее мы будем предполагать выполненным. Обозначим правую часть (2) Щ. Теорема 1. Пусть выполнено условие Линдсберга, lim Ля= оо, lim (-™ max Mr] ] = 0. Тогда для любых чисел х, у —со —со Для доказательства достаточно сослаться на многомерную центральную предельную теорему. Теорема 2. Пусть Ε и η — независимые нормальные случайные величины с математическим ожиданием 0 и дисперсией 1. Пусть функция / : R2 -► R1 интегрируема по Риману по любому квадрату. Тогда lira p{f (■£*„, £ря)<и\ = Р{f$, Ч)<»} (3) при всех и, при которых правая часть (3) непрерывна по и. Доказательство следует из теоремы 4 [2] и теоремы 1. В методиках расчетов, связанных с защитой проводных линий связи, используется математическое ожидание амплитуды (ακ, βΛ). Значит, надо рассмотреть/ (ξ, η) = =\/t>2-\-rf. Кроме сходимости распределений, имеющей место в соответствии с теоремой 2, можно установить сходимость первых моментов, которую нам удобно выразить в следующей форме. Теорема 3. Пусть выполнены условия теоремы 2 и, кроме того, Йт~Дп4 Σ Мп<оэ. 377
Тогда lim —' yJ!L 'h} =1. «-►oo -I · J^ [/ 4 Д. Таким образом, Μ|(αΜ, β„)|«0,886 /?я, в то время как в соответствии с формулой (42) из [1 ], используемой в ныне действующих методиках, надо положить М|(ая, рм)|=Дм. Расхождение объясняется приближенным характером формулы (42). Следовательно, можно ожидать, что результат теоремы 3 позволит получить экономию средств путем снижения стоимости защитных средств проводных линий связи. Однако этот результат — асимптотический, в то время как для приложений наиболее существенным является случай 2 ^ η ^ 10. Пусть сначала п—2. Нетрудно показать, что в случае детерминированных амплитуд rt и г2 М\(*2, |32)| = i?2Mv/l + Tcos<p, (4) где φ — равномерно распределенная на [0, 2π] случайная величина, а _ 2ггг2 2 2 Т_ rf+rf Легко видеть, что при γ=1 (т. е. г±==г2) математическое ожидание в правой части (4) равно 0,897. При γ <^ 1 соответствующий неопределенный интеграл приводится к эллиптическому и в явном виде не берется. Приведем разложение в ряд по степеням параметра γ: _, 1_ 2 15 4 105 6_ — 1 16 Ύ 1024 Ύ 16 384 Τ Вычисленное при п—2 значение 0,897 близко к предельному 0,886. Можно ожидать, что при всех η значения Д^М] (α„, β„)| в случае равных амплитуд всех электровозов лежат между 0,886 и 0,897. Была сделана попытка применить предельные теоремы теории вероятностей, однако оказалось, что даже для оценки скорости сходц- 378
Таблица . Оценки скорости сходимости в теореме 3 методом Монте-Карло * η 1 2 3 4 5 1 1 0,40 0,40 0,40 0,40 2 1 0,009 0,41 0,016 0,40 0,010 0,53 0,031 0,41 0,014 3 1 0,018 0,72 0,029 0,41 0,022 2,52 0,095 0,85 0,041 4 1 0,010 0,64 0,021 0,86 0,030 0,72 0,077 0,56 0,021 5 1 0,012 1,18 0,023 0,80 0,016 0,85 0,067 0,82 0,017 6 1 0,013 0,66 0,022 0,86 0,012 3,00 0,025 0,58 0,007 7 1 0,001 1,60 0,025 0,85 0,009 0,65 0,029 1,63 0,025 8 1 0,001 1,70 0,018 0,90 0,007 1,46 0,017 1,64 0,011 9 1 0,010 0,87 0,008 2,97 0,040 0,63 0,023 0,87 0,009 10 1 0,010 2,60 0,007 0,72 0,035 0,84 0,022 1,00 0,012 * Для каждого из пяти случаев верхняя строка — значения амцлитуд, нижняя — значения δ, оцененные по 10 000 испытаниям. мости в теореме 3 необходимо провести специальные довольно трудоемкие исследования. Поэтому пришлось ограничиться численными методами, а именно, методом Монте-Карло. В таблице приведены значения Ъ = МЩ*Ш-0,88Q (5) V Σ '*< для пяти наборов амплитуд. Математические ожидания в (5) оценивались как среднее арифметическое 10 000 наблюдений |(ай, βΛ)|. Дисперсия одного наблюдения, как легко видеть, не превосходит 1—(0,886)2, а потому средне- квадратическое отклонение табличных значений не превосходит 0,0046. В случае равных амплитуд высказанная выше гипотеза о поведении δ подтверждается данными таблицы. Очевидно, наиболее быстрая сходимость в теореме 3 имеет место в случае равенства амплитуд. Напротив, если значение одной из амплитуд безгранично возрастает, а значения остальных фиксированы, то δ -^ 0,114. С целью изучить сходимость в случае различных амплитуд были 379
взяты четыре независимые выборки значений амплитуд из распределения, заданного гистограммой для 9-й гармоники на рис. 17 [1, с. 40]. Объемы выборок — 10 наблюдений. Они приведены в табл. 1. В каждом случае рассчитаны δ для первых η членов выборки, п=2, 3, . . ., 10. Таким образом, табличные значения одной строки зависимы между собой, но строки независимы. Из таблицы видно, что существенные различия между амплитудами приводит к возрастанию δ, однако при росте η это возрастание становится все менее существенным. Так, для η J> 6 максимальное табличное значение равно 0,040, т. е. при η ^ 6 имеем основания полагать, что ЛГ1К, ЮК0.9261/ 2 г*. (6) Замена 1 на 0,926 в методиках расчета защиты проводных линий сулит значительный экономический эффект. Кроме (6), данные таблицы позволяют дать ряд других полезных практических рекомендаций. ЛИТЕРАТУРА 1. Карякин Р. Я. Резонанс в тяговых сетях и его демпфирование. М.: Высшая школа, 1961. 2. Орлов А. И. Асимптотическое поведение статистик интегрального типа. ДАН, т. 219, 1974, № 4, с. 808—811. 2. А. И. Орлов. Предельное распределение одной оценки числа базисных функций в регрессии Одна из трудных проблем регрессионного анализа —- выбор параметрического семейства, которому принадлежит линия регрессии. Часто представляется естественным считать, что наблюдения (χ., у?), ί=1, 2, . . ., /г, описываются при некотором т регрессионной моделью Vi= Σ с»М*<) + ·*. (!) где ck — неизвестные параметры, {fly /2, . . .} — заданная последовательность базисных функций, (е^ ε2, . . . } — независимые нормальные случайные величины с математическим ожиданием 0 и дисперсией τ2. Однако истинное 380
значение т неизвестно. Для его оценки иногда вводят «кажущуюся ошибку» Δ«* п — т jQ (У* Уш) > где yim — сглаженные по методу наименьших квадратов значения зависимой переменной при использовании модели (1), а затем в качестве оценки необходимого числа базисных функций берут т*=т\п {т: Δ,^ >Δ„„ Δ„,<Δ?Η+1}. Теорема. Пусть (1) имеет место при т=т0. Тогда при некоторых условиях регулярности lim P{m*<m0} = 0, й->00 lim P{m* = m0 + /c} = X(l-X)*-1, A;>0, где = \γ=τβ~Ίάχ& 0,68268. Υ^2π —ι Для доказательства используется геометрическая техника, развитая в [1, § 11, 12]. ЛИТЕРАТУРА 1. Тутубалин В. Н. Теория вероятностей. М.: изд. МГУ, 1972. 3. А. И. Курочкина (МЗ СССР. Ин-т кардиологии). Применение λ-моментов к оценке регрессионных зависимостей Рассмотрим две случайные величины с совместной плотностью вероятности / (х, у). Тогда фиксированному значению χ соответствует распределение вероятностей переменной у с плотностью. где 00 М*)= S /(«ι v)dv· — 00 381
Пусть w (yfx) — весовая функция у при фиксированном значении х. Рассмотрим w — взвешенное среднее и w — взвешенную дисперсию / (у\х): йл*)=5^ы*)/ы*)^/*(*) и **(*) = \y*w(y\*)f(v\*)dylc(*)> где c(«)=jM?(y|a?)/(y|«)iy. Будем называть dw (x) взвешенной регрессией у на х, sl (х) — взвешенной дисперсией относительно этой линии регрессии. Если у двух распределений с плотностями / (х, у) и g (χ, у) одна и та же w — взвешенная регрессия у на χ с одной и той же w — взвешенной дисперсией, то мы будем говорить, что они w — регрессионно подобны. Пусть N (у\х) — плотность распределения нормального закона, λ-связанного с / (у\х), а (х) — его среднее значение, σ2 (χ) — дисперсия. Это означает, что при w (y\x)=Nx его взвешенные моменты равны dw (x) и Назовем плотность Д (х, y)=N {y\x)f1 (χ) λ-связанной с плотностью / (χ, у). Очевидно, что распределения с плотностями / (х, у) и /λ (χ, у) iVx — регрессионно подобны. Будем называть α (χ) λ — регрессий у на х, а σ2 (χ) — дисперсией относительно линии λ — регрессии. Кривая λ-регрессии дает наилучшее представление у среди всех функций g (x) в том смысле, что а (х) минимизирует -Ях [У - 8 (*)Г =\\b/~g (*)]2 /х (*. У) d*dy. Предложена и реализована на ЭВМ М-220 вычислительная процедура для определения линии λ-регрессии в предположении, что а (#) —полином я-ой степени, а о2 (#) = = σ2 не зависит от х. Изложение иллюстрируется примерами по оценке зависимости некоторых параметров флебограммы (кривой венного пульса) от частоты сердечных сокращений. 382
ЛИТЕРАТУРА 1. Мешалкин Л. Д. Параметризация многомерных распределений. — В кн.: Вторая Вильнюсская конференция по теории вероятностей и математической статистике. Тезисы докладов, т. 1. Вильнюс: 1977, с. 27—28. Заседание 28 декабря 1977 г. 1. С. Е. Кузнецов (ЦЭМИ АН СССР). Статистический анализ моделей динамики поведения планируемых экономических показателей. 1. Рассматривается предложенная С. А. Айвазяном модель механизма планирования экономического показателя хп определяющего, например, объем выпуска какой-либо продукции. В соответствии с моделью план xt определяется по формуле *, = Ш (! + <& + *&), ί = 0, 1, 2, ... (1) Здесь: ft (b)=ft — средняя истинная потребность в продукте (предполагается известной с точностью до неизвестного параметра Ъ)\ случайные величины lt независимы, одинаково распределены с плотностью р^ причем Е^=0 и DH/=1; слагаемое <*$ ·£*·/* выражает вклад не поддающихся учету случайных факторов. Наконец, q — постоянная величина, а δ^ — случайная величина, принимающая значения +1, 0, —1. Слагаемое qbt»ft интерпретируется как поправка, вносимая планирующим в зависимости от расхождений плана х8 и поступающих заявок f8 в предшествующие моменты времени. Более точно мы считаем, что δ^ образует двумерную марковскую цепь вместе со случайной величиной =4_i+/* -teh+h- η/1. (2) где 0 < λ < 1 и η^ — независимые одинаково распределенные величины с плотностью ρ , Εη,=0, ϋη^σ*; величина ft · (1 + η,)=/* интерпретируется как заявка в момент t. Величина λ задает сравнительный вес расхождений (я,—/4) в различные моменты времени. 383
Относительно марковской цепи (bt, sf) мы будем предполагать, что нам известна (с точностью до параметра) переходная функция Ρ {δ, = /1 δ,_! = U st_t = s} = PiJ (s, Θ). (3) Мы будем рассматривать следующий конкретный вид зависимости ft (b) и p{j. (s, θ): ft(bv b2, Ь>) = *'■!,, bv b2, b3>0, (4) 1 + b2e s Лу(«. в) = Л/(у). θ>°· (&) Основной задачей является оценка по наблюдаемым значениям xt неизвестных параметров, в первую очередь — fej> Ь2, Ь3. Оказывается, однако, что даже в значительно более простой ситуации для функции (4) состоятельных оценок параметров Ьа и Ьв не существует. В п. 2 мы сформулируем соответствующие общие результаты. 2. Пусть наблюдается процесс *, = /ЛЬ) + ^ * = 0, 1, 2, ... (6) где Ъ — неизвестный параметр, и Е^=0. Теорема 1. Пусть %t независимые одинаково распределенные случайные величины с плотностью р^ (х) = = π2 (χ) > 0, и пусть π" (х) существует и положительна вне некоторого интервала (—i?, R). Тогда, если для некоторых Ъ'^Ъ" 2[/#(Ь')-Л(^)Р<«>. (7) 1 то состоятельной оценки параметра Ь не существует. В случае, когда %t — гауссовские случайные величины, можно отказаться от их независимости. А именно, верна Теорема 2. Пусть ξ/ — стационарная гауссовская последовательность, Οξ, = σ2, и D{SJ£t, s^£}=£0. Тогда, если для некоторых Ъ'^Ъ" выполнено (7), то состоятельной оценки параметра Ъ не существует. Следствие. Пусть b=(bu . . ., bin) — векторный параметр 9 fy*( '. существует, и в некоторой области Г-^г1<с<· ί=0,1·2'··· (8) 384
причем Σ с\ < оо. Тогда в предположениях теорем 1 и 2 состоятельной оценки параметра Ьх не существует. Например, для функции (4) не существует состоятельных оценок параметров Ь2 и Ь3. Аналог теоремы 2 справедлив и для непрерывного времени. А именно, пусть наблюдается процесс *, = Ш + Е*. «СР. оо), (9) где ξ^ — гауссовский стационарный процесс со средним О и спектральной плотностью g (λ). Теорема 3. Пусть для некоторого η и некоторого к *(λ)>Λ(1 + |λ|»)Τ. Тогда, если для некоторых Ъ'=^=Ъ" 00 Н-£[М&')-Л(^)]}'л<«>. (10) О то состоятельной оценки параметра Ъ не существует. Результаты, приведенные в теоремах 1—3, легко переформулировать и на случай, когда наблюдается процесс *, = /,(Ь)(1+&(), или процесс *t = ft(b) + aU где ot — известная последовательность. 3. Дадим ответ на вопрос, когда в модели (6) существуют состоятельные оценки параметра Ь. Рассмотрим сначала случай, когда Ъ — скалярный параметр, и производная f't(b)=—~-i положительна. Теорема 4. Пусть ξ, — независимы, одинаково распределены и Е| £J3 < оо. Если /;(Ь)>гдМ^1п*),/1-«*. (Ц) где at \ оо при £-> оо, то состоятельную оценку Ь*=Ь$ параметра Ъ можно найти из соотношения 2*,=2мь*)· (12) 1 1 385
В случае, когда lim|/i(6/) — ft{p')\=£0 при У =£Ь", t->co можно, во-первых, отказаться от независимости ошибок tt, а во-вторых, считать параметр Ъ векторным. Теорема 5 (ср. [1 ]). Пусть выполняются следующие предположения: A. ft (b) непрерывны по Ь; для любых b\ b" существует (конечный или бесконечный) предел Нт (/,(*>')-/Л = ?(>>', П t->co причем φ (&', 6")τ^0 при Ъ'^Ъп и φ (&', Ъ") непрерывна по Ь', V на множестве {φ <[ оо }. Б. Множество {Ъ : |φ (fe0, fe)| <^ с} компактно для любого Ь0 и любого с > 0. B. Найдется Г0 такое, что Ъ' = Ъ" тогда и только тогда, когда ft (b')=ft {Ъ") при всех t ^ Г0. Г. £, — эргодический стационарный процесс. Тогда состоятельная оценка Ь* параметра Ъ может быть найдена методом наименьших квадратов. 4. Перейдем к изучению модели, описанной в п. 1, (мы будем называть ее модель (1, 2)), и подобных ей. Рассмотрим сначала более простую модель, в которой соотношения (1) и (2) заменены на следующие: ** = Λ(δ) + Λ + <ν&#· ί = 0' *· 2' ··· ί1') st=4-i + №t+°fr — ъ)· (2') Мы будем называть эту модель моделью (1', 2'). Для этой модели (δ,, st) — однородная марковская цепь. Теорема 6. Пусть функции p{J- (s), ρζ (#), ρη (χ) непрерывны и положительны. Тогда (δρ sf) — эргодическая марковская цепь. Из теоремы 6 нетрудно вывести следующее утверждение. Теорема 7. Пусть функция ft имеет вид (4), причем Ь2<#, &з>Р>0. (13) Пусть Ь*, &2> ^з — оценка наименьших квадратов для Ь1э Ь2, Ь3 ПРИ ограничениях (13). Тогда Ъ\ — состоятельная оценка для Ьх. 386
В соответствии с п. 2 оценки Ь* и Ь* несостоятельны, а величина (Т — интервал наблюдения) — несостоятельная оценка fr Тем не менее верен следующий результат. Теорема 8. Пусть ί(Γ)< Γ η*(Γ)->οο при Г-*оо. Тогда |/*(Г),г — /^(Г)|->0 п. н. Естественно задать вопрос, при каких предположениях существуют состоятельные оценки для всех параметров функции (4)? Пусть, например, Ь3 ^ 1· Заменим в модели (1', 2') соотношение (Г) на соотношение оставив соотношение (2') без изменения (это означает, что ошибки как в плане, так и в заявках экспоненциально быстро убывают). Теорема 9. Состоятельные оценки fe*, b\, b*z параметров Ьх, Ь2, Ь3 в модели (1", 2') можно найти, минимизируя функцию Σ «*(*,-/,(*!. К ь3))2. 1 Замечание. Нетрудно показать, что простой метод наименьших квадратов (без весового коэффициента e2t) дает несостоятельные оценки fe2, b3\ Наконец, для модели (1, 2) справедлива следующая Теорема 10. Пусть функции p{J- (s) положительны и имеют ограниченные производные, а функции р^ (χ) и ρ (χ) непрерывны и положительны. Тогда для модели (1, 2) справедливы утверждения теорем 7 и 8. 5. В заключение мы предложим способ нахождения оценок параметров д, σξ, θ в модели (1', 2') (при известных λ и σ ). Определим ftyT формулой (14) и положим t Ζ*, τ = Σ λ "* (#& — /*, 2')· fc=0 387
Из теоремы 6 нетрудно вывести, что существуют пределы lim Ρ {δ, = 0} = р0, lim Ozt — d (величины р0 и d являются функциями неизвестных параметров θ, g, σζ). Рассмотрим систему уравнений ί<?2(1-Ρο(Θ> ί. «)) + ^ = ^ι. |α(1—p0(etflrta))E|s+-f.| + a.p0(etg.a)E|6| = ^„ (15) ■d(6, g, о) = Л,. Обозначим через θ (Л1э Л2, -43)> ffC^i» -42> ^з)> σ (^ι> Л2, Л3) решение этой системы уравнений. Теорема 11. Пусть функции Θ, д, σ зависят от параметров Аг, А2, А3 непрерывным образом. Состоятельные оценки параметров Θ, q, σ можно найти, положив в (15) А,= А,= А3 = 1 Τ 1 τ -П,т)\ -flr\, г)2· Аналогичное утверждение можно доказать (в условиях теоремы 10) и для модели (1, 2). Однако проверка условий теоремы 11 крайне затруднена, так как явно вычислить функции р0 и d в общем случае не удается. ЛИТЕРАТУРА 1. Malinvaud E, The consistency of nonlinear regressions. Ann. Math. Stat., 1970, vol. 41, № 3, 956—969. 2. K. 3. Юшкявичюс (И МиК АН Лат. ССР). Вопросы точности выделения компонент смеси нормальных распределений в задачах распознавания образов При построении ряда классификаторов, основанных на описании классов смесью нормальных распределений, 388
для оценки неизвестных параметров используются методы разделения смесей. При исследовании точности работы этих классификаторов в условиях ограниченной обучающей выборки возникает вопрос о точности получаемых оценок. Точность оценок параметров смесей изучена очень мало, при том почти все работы ограничиваются одномерным случаем. В настоящей работе исследуется случай смеси Μ многомерных нормальных распределений с единой ковариационной матрицей вЧ и средними μχ,. . ., [хж. Дисперсия σ2 известна, а средние оцениваются методом максимального правдоподобия (МП). Найти точные распределения оценок не удается, поэтому для исследования точности используется свойство их асимптотической несмещенности и нормальности. Выражение для асимптотической ковариационной матрицы (КМ) известно, однако ее вычисление, в общем случае, связано с вычислением многомерных интегралов, которых решить аналитически не удается. Поэтому в работе аналитические выкладки получены для частного случая, когда средние \хг,. . ., \^м расположены на прямой, друг от друга на расстоянии Н. В этом случае асимптотическая КМ для каждого отдельно взятого вектора оценок μ-y является диагональной, а основные вычисления сводятся к численному интегрированию одномерных интегралов. Результаты моделирования показали, что смещение оценок МП μχ,. .., рм небольшое даже при малых объемах выборок Ν (Ν > 10) и расстояний между средними Η (Η > 1). Значения дисперсий оценок, вычисленных с использованием асимптотических выражений, хорошо совпадает с модельными для ikf=2, 3, 6 при Η > 2 и N > 20—40. В случае М=3 исследования проводились и для случая, когда средние расположены на вершинах треугольника. Основные вычисления сводились к численному интегрированию двумерных интегралов. Полученные результаты были использованы при исследовании скорости обучения кусочно-линейного классификатора, построенного при предположении, что классы состоят из подклассов, каждый из которых описывается нормальным законом. Было получено выражение для ожидаемой ошибки классификаций и исследована ее зависимость от объема обучающей выборки, числа признаков и расстояния межДу классами и подклассами. Полученные 389
по аналитическим формулам значения ожидаемой ошибки классификаций хорошо совпали с результатами эксперимента с реальными данными. В случае применения кусочно-линейного классификатора к реальным данным число подклассов обычно не известно и его надо задать. Исследование скорости обучения кусочно-линейного классификатора дало возможность построить простую методику определения такого числа подклассов, при котором ожидаемая ошибка минимальна. Данная методика применялась при решении конкретной задачи международного «Соревнования по распознаванию образов — 1976».
СОДЕРЖАНИЕ Предисловие I. КЛАССИФИКАЦИЯ И СНИЖЕНИЕ РАЗМЕРНОСТИ Мешалкин Л. Д. Параметризация многомерных распределений 11 Муганцева Л. Α., Тюрин Ю. Н. Быстрый способ анализа качественных данных 18 Маамяги А. В. Проверка статистических гипотез в пространстве разбиений . - 27 Заруцкий В. И. Классификация нормальных векторов простой структуры в пространстве большой размерности ... 37 Дубров А. М., Турундаевский В. Б., Френкель А. А. О задачах факторного анализа при отсутствии части специфических факторов 51 Гусейнов Г. А. Исследование качества классификации в случае неколичественных признаков 61 И. СТАТИСТИЧЕСКИЙ АНАЛИЗ ЭКСПЕРТНЫХ ОЦЕНОК И ПРИКЛАДНАЯ ТЕОРИЯ ИЗМЕРЕНИЙ Орлов А. И. Прикладная теория измерений 68 Литпвак Б. Г. Меры близости на метризованных отношениях 138 Раппопорт А. М,, Шнейдерман М. В. Анализ экспертных суждений, заданных в виде структур 150 Шмерлинг Д. С. О построении моделей парных и множественных сравнений со связями 164 III. ВЕРОЯТНОСТНО-СТАТИСТИЧЕСКИЕ МОДЕЛИ КОНКРЕТНЫХ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ СТРУКТУР Бежаева 3. И., Макарчук Н. И. Построение целевой функции потребления 190 Макарчук Н. И. Выявление типообразующих социально-демографических признаков при анализе природы дифференциации потребительского поведения семей 208 Орлов В. И. Марковская модель движения трудовых ресурсов 227 Покровский Б. И, Имитационный подход к решению задач управления эксплуатацией морских биоресурсов 237 391
V. НЕКОТОРЫЕ ТЕОРЕТИЧЕСКИЕ РЕЗУЛЬТАТЫ МНОГОМЕРНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА И ТЕОРИИ ВЕРОЯТНОСТЕЙ Лурье А. Л. I. Об обращении закона больших чисел и некоторых функций распределения 246 Орлов А. И. Нечеткие и случайные множества 262 Староверов О. В. Об одном критерии связи 280 V. СЕМИНАР «МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ И ВЕРОЯТНОСТНОЕ МОДЕЛИРОВАНИЕ РЕАЛЬНЫХ ПРОЦЕССОВ» Орлов А. И. Информация о семинаре 288 Резюме (или названия) докладов, сделанных в 1976—1977 гг. 289 Прикладной многомерный статистический анализ Утверждено к печати Центральным экономико-математическим институтом АН СССР Редактор издательства Р. С. Головина Художник Н. П. Фролов. Художественный редактор А. Н. Жданов Технический редактор И. Н. Жмуркина Корректоры Г. Н. Джиоева, Н. И. Казарина ИБ № 5575 Сдано в набор 17.04.78. Подписано к печати 28.09.78. Т-17527. Формат 84xl08V32. Бумага типографская № 1. Гарнитура обыкновенная. Печать высокая. Усл. печ. л. 20,58. Уч.-изд. л. 21. Тираж 1850 экз. Тип. зак. 332. Цена 2 р. 40 к. Издательство «Наука». 117485, В-485, Профсоюзная ул. 94а Ордена Трудового Красного Знамени Первая типография издательства «Наука». 199034, Ленинград, В-34, 9 линия, д. 12
ИСПРАВЛЕНИЯ И ОПЕЧАТКИ Страница 83 107 155 228 274 310 354 377 Строка 10—9 сн. 9 сн. 10 сн. 11 сн. 11 св. 4 сн. 1 св. табл. 2 колонка слева 3 сн. Напечатано ?ι (*) = Ъ X Ъ2=-п N V\{JVi С По теореме 6 0 < у < h ί-статистика теоремы 2 Должно быть <PlO?2 (t) b2 — —η V-Vi можно интерпретировать с По теореме 5 0 <у<h<1 F-статистика теоремы 1
Ρ