Text
                    L.	A. SOSHNIKOVA
V. N. TAMASHEVICH G.UEBE
M.	SHEFER
Multidimensional statistical ANALYSIS
IN ECONOMICS
Edited by Prof V. N. Tamashevich
Textbook

ЮНИТИ UNITY
Moscow • 1999
Л. А. СОШНИКОВА
В. Н. ТАМАШЕВИЧ
Г.УЕБЕ
М. ШЕФЕР
Многомерный СТАТИСТИЧЕСКИЙ АНАЛИЗ
В ЭКОНОМИКЕ
Под редакцией профессора В. Н. Тамашевича
Рекомендовано Министерством образования Российской Федерации в качестве учебного пособия для студентов высших учебных заведений

ю н и т и UNITY
Москва • 1999
ББК 65.051я73
У32
Рецензенты:
кафедра статистики экономического факультета Московского государственного университета им. М.В. Ломоносова (зав. кафедрой д-р экон, наук Ю.Н. Иванов) и канд. физ.-мат. наук, проф. Г.М. Булдык
Главный редактор издательства Н.Д. Эриашвили
Сошникова Л.А., Тамашевич В.Н., Уебе Г., Шефер М.
У32 Многомерный статистический анализ в экономике: Учеб, пособие для вузов/Под ред. проф. В.Н. Тамашевича. — М.: ЮНИТИ-ДАНА, 1999. - 598 с.
ISBN 5-238-00099-5.
Достаточно полно представлены теоретические основы и важнейшие методы многомерной статистики, открывающей для исследователя широкие возможности моделирования сложных реальных процессов, явлений и визуализации данных.
Знание методов многомерной статистики сегодня необходимо не только для аналитической работы, но и для понимания новейших теорий по обработке данных массовых наблюдений. Участие в составе авторского коллектива преподавателей университета Бундесвера (г. Гамбург) позволило включить в пособие последние результаты глубоких теоретических исследований в области статистики и учесть опыт ее преподавания в ведущих высших учебных заведениях Западной Европы
Приведено большое число примеров решения конкретных задач из области экономики.
Для студентов и преподавателей экономических вузов и специальностей, пособие будет также полезно специалистам в области медицины, инженерного дела, психологии человека и другим практическим работникам в качестве справочника по многомерной статистике.
ISBN 5-238-00099-5
ББК 65.051я73
© Л.А. Сошникова, В.Н Тамашевич. Г Уебе, М Шефер, 1999
© ООО “ИЗДАТЕЛЬСТВО ЮНИТИ-ДАНА”, 1999. Воспроизведение всей книги или любой ее части запрещается без письменного разрешения издательства
^^^^^Оглавление
Принятые в учебном пособии обозначения	9
Предисловие	11
Глава 1. Задачи и методы многомерного
статистического анализа (MCA) 15
1.1.	Теоретические основы MCA, его место в социально-экономических исследованиях	15
1.2.	Методы MCA	22
1.3.	Многомерное признаковое пространство. Особенности обработки многомерных статистических данных ,	27
Глава 2. Элементы математики в MCA	32
2.1. Основы аналитической геометрии	32
2.2. Элементы матричной алгебры	41
Глава 3. Случайные величины. Законы распределения и плотность вероятности	89
3.1.	Случайные величины и их распределения	89
3.2.	Некоторые виды параметрических распределений 96
3.3.	Непрерывные распределения	103
3.4.	Математическое ожидание и дисперсия	115
3.5.	Двумерные и многомерные случайные величины	123
3.6.	Статистические методы точечного оценивания	139
Глава 4. Проверка статистических гипотез	172
,	4.1. Статистические гипотезы в анализе данных	172
6
Оглавление
4.2.	Проверка гипотез о равенстве вектора средних значений постоянному вектору	176
4.3	Проверка гипотез о равенстве двух векторов средних значений	183
4.4.	Проверка гипотез о равенстве ковариационных матриц 189
Глава 5.	Робастное статистическое оценивание	196
5.1. Грубые ошибки и методы их выявления
в статистической совокупности данных	196
5 2.	Методы исчисления устойчивых статистических^ t
оценок' Пуанкаре, Винзора, Хубера	200
Глава 6. Многомерный регрессионный анализ	214
6.1. Введение в множественный корреляционнорегрессионный анализ	214
6 2 Линейная регрессия — классический случай зависимости двух переменных X и Y	223
6.3. Свойства статистических оценок параметров регрессионной модели	232
6 4 Статистическое оценивание методом наименьших квадратов — обобщения на случай матричного представления линейной регрессии	239
6.5. Нелинейные регрессионные модели	304
Глава 7. Факторный анализ	5 333
7.1. Сущность методов факторного анализа и их классификация	333
7.2. Фундаментальная теорема факторного анализа Тэрстоуна	340
7 3 Общий алгоритм и теоретические проблемы факторного анализа	341
7 4. Метод главных компонент	347
7.5 Разложение дисперсии в факторном анализе	368
7.6. Метод главных факторов	372
7 7. Метод максимального правдоподобия	379
Оглавление	7
7 8. Вращение пространства общих факторов /	385
7.9. Статистическая оценка надежности решений '
методами главных компонент и факторного анализа 393
Глава 8. Многомерное шкалирование	401
8.1. Многомерное шкалирование в статистических исследованиях	401
8 2. Представление и первичная обработка статистических данных в многомерном шкалировании	407
8.3 Классическая модель многомерного
шкалирования Торгерсона	415
8.4. Неметрические методы многомерного шкалирования	421
8 5 Модели поиска индивидуальных различий	432
8.6. Анализ предпочтений	445
Глава 9. Кластерный анализ	468
9	1 Общая характеристика методов кластерного анализа	468
9	2. Меры сходства	471
9.3.	Иерархический кластерный анализ	474
9.4.	Метод к-средних	486
9.5.	Метод поиска сгущений	493
9.6.	Критерии качества классификации	497
Глава 10. Дискриминантный анализ	507
10,1.	Основные положения дискриминантного анализа	507
10.2.	Дискриминантные функции и их геометрическая интерпретация	509
10.3.	Расчет коэффициентов дискриминантной функции	511
10.4.	Классификация при наличии двух обучающих выборок	513
10.5.	Классификация при наличии к обучающих выборок 516
10.6.	Взаимосвязь между дискриминантными переменными и дискриминантными функциями	519
8	Оглавление
Глава 11. Метод канонических корреляций	.	526
111. Сущность и теоретические основы метода 0 '	526
11 2. Подготовка информации и вычисления канонических корреляций	g 528
11 3 Оценка значимости канонических корреляций	534
11.4 Экономическая интерпретация результатов . канонического анализа	536
Глава 12. Компьютерный анализ многомерных статистических данных	542
12	1 Характеристика и особенности построения пакетов STATGRAPHICS и DSTAT	542
12	.2. Реализация методов многомерного статистического анализа в пакетах STATGRAPHICS и DSTAT	550
Библиографический список	577
Приложения	584
Предметный указатель	592
Принятые в учебном пособии обозначения
Rn	— «-мерное евклидово пространство
(а, Ь) — скалярное произведение векторов а и b х, у	— векторы (элементы) линейного	пространства
(х0_б;х0+б) — 8-окрестность точки х0 А, В	— матрицы
1п	— единичная матрица размерностью п х п
rg (А)	— ранг матрицы
Л’1, А*	— обратная и транспонированная	матрицы
А+	— псевдообратная матрица А = АА+А , применяется при
решении систем линейных уравнений
X, . — случайные величины
var (А)	— дисперсия случайной величины
Е (X)	— математическое ожидание случайной величины
cov (X)	— ковариация случайной величины X
diag (А)	— диагональная матрица
е	—	знак принадлежности множеству
g	—	знак непринадлежности множеству
с	—	знак включения в множество
и	—	знак объединения множеств (событий)
п	—	знак пересечения множеств (событий)
->	—	знак логического следования
— знак равносильности
•=	—	знак	присвоения (придать	значение)
— знак следования логического вывода
	—	знак	завершения доказательства
л	—	знак	конъюнкции («и»)
v	—	знак	дизъюнкции («или»)
V	— квантор общности, соответствует словам «для любого»,
«для всех», «все»
3	— квантор существования, соответствует словам «имеет-
ся», «найдется», «существует»
10	вв	ла Принятые обозначения
г ® Q ю	— параметрическая величина — нормальный закон распределения с параметрами случайной величины математическое ожидание ц и диспер- 2 сия a
х~л/(ц , a2) — подчинение X (эквивалентность) закону нормального рас-
Э<р Э2ф Эх ’ ду dz р lim dim V Uli	пределения — частные производные функции ф - /(х, у, z) — предел по вероятности уровня р — размерность векторного пространства V — норма вектора х
Предисловие
Методы многомерного статистического анализа (MCA), представленные в учебном пособии, сегодня называют интеллектуальным инструментарием исследователя Они составляют неотъемлемую часть фундаментальных курсов университетского образования и активно используются в аналитической практике в странах с передовой экономикой
Постоянно возрастающий интерес к MCA объясняется прежде всего его широкими возможностями в отображении и моделировании реальных явлений и процессов, изначально имеющих, как известно, многопризнаковую природу Кроме того, без базовых знаний по обработке многомерных данных просто не могут развиваться современные математика и статистика Все новейшие разработки, посвященные проблемам приложения нечетких множеств, моделирования катастроф, распознавания образов, сценарного прогнозирования итд, предполагают многомерное представление наблюдаемых объектов
MCA в теоретическом плане представляет собой дальнейшее развитие традиционной одномерной статистики, его отличают трудоемкие алгоритмы реализации вычислительных процедур, практически всегда рассчитанные на привлечение технических средств, и сложная интерпретируемость аналитических результатов Это требует от пользователя достаточно глубокой подготовки как в области математической статистики, так и в области, в которой проводятся конкретные исследования экономики, медицины и т п
Исторически многомерный статистический анализ можно рассматривать как одно из новых самостоятельных направлений развития статистической теории Его появление в начале XX в связывают с публикациями работ К Пирсона, в которых были изложены концептуальные основы построения алгоритмов сжатия статистических данных Первые теоретические разработки
12
Предисловие
MCA, включая и работы К. Пирсона, проводились с учетом потребностей аналитической практики в психологии, социологии, медицине. Наиболее активно формирование теории MCA происходило уже в 40—60-е годы, в это время область ее приложения значительно расширилась (военная промышленность, геодезия), захватывая и экономику.
В СССР изучение и использование методов многомерной статистики долгое время (до конца 50-х — начала 60-х годов) сдерживалось идеологическим неприятием формальной статистики вообще. Применение этих методов начиналось с военной промышленности, позже они вошли в аналитическую практику исследований в здравоохранении, экономике, других отраслях.
В предлагаемом учебном пособии авторы ставили своей целью комплексно и доступно, в том числе для читателей, не имеющих специального математического образования, представить классические методы MCA. Изложение материала построено по общепринятой логичной схеме: от простого к более сложному. Открывают учебное пособие главы (2, 3), посвященные теоретическим основам MCA, где приводятся наиболее важные фрагменты из аналитической геометрии и матричной алгебры.
В последующих главах (4, 5) кратко изложены основные положения многомерной математической статистики (законы распределения, методы оценивания многомерных случайных величин и проверки многомерных гипотез, приемы робастного оценивания случайных величин), а затем представлены сами методы MCA: множественного корреляционно-регрессионного анализа, многомерного шкалирования, кластер-анализа и т.д. (гл. 6—11). Чтобы облегчить восприятие теоретического материала и иметь возможность контроля за его усвоением, эти главы дополняются историческими справками о появлении и развитии методов, примерами их приложения в конкретных экономических исследованиях, а завершают каждую главу вопросы и задачи для самостоятельной работы.
В заключение приводится глава (12) с рекомендациями по реализации методов MCA при помощи стандартных пакетов прикладных программ.
Авторы стремились избегать чрезмерного математизирования. В большинстве глав приводятся только самые необходимые для понимания логической конструкции описываемого метода формулы и доказательства. Несколько выделяются на общем
Предисловие
13
фоне гл. 2, 3, 6, подготовленные немецкими авторами: г-ном проф. д-ром Г. Уебе и г-ном д-ром М. Шефером. В них изложение материала в большей мере ориентировано на формализованное и доказательное представление. Этот материал интересен и весьма полезен для читателя тем, что в нем обобщается опыт большой исследовательской и педагогической работы преподавателей одного из самых авторитетных вузов Германии — Университета Бундесвера. Сам материал доступен даже для читателя, не искушенного в математике, в силу логичности его построения и поистине мастерского изложения. Наконец, именно здесь можно увидеть и ощутить самые тонкие материи теоретической статистики.
В работе над пособием авторы ориентировались на требования профессиональной подготовки в экономическом вузе. Но в общем книга с облегченным изложением основ MCA, достаточно большим перечнем методов и примерами их практического приложения может служить справочником как для студентов, так и для практиков самых различных специальностей: медиков, инженеров и т.д.
Белорусские авторы выражают искреннюю благодарность проф. Г. Уебе и д-ру М. Шеферу за участие в подготовке рукописи. Доверительное отношение со стороны немецких коллег, их бескорыстная и пунктуальная работа позволили подготовить книгу в полном объеме к изданию. Благодаря усилиям г-на Г. Уебе, участию администрации университета Бундесвера в течение работы над рукописью, проходившей без сторонней финансовой поддержки, удавалось находить возможности для встреч и продолжения сотрудничества. Для нас совместная работа, основанная на дружеских и доброжелательных отношениях, была не только полезной, но и весьма приятной. Надеемся, что установленные контакты помогут нам и в будущем вместе приходить к интересным идеям и добиваться их реализации.
Свою признательность мы выражаем также Министру статистики и анализа Республики Беларусь В. И. Зиновскому, заведующему кафедрой статистики БГЭУ проф. И.Е. Теслюку, известному специалисту в области программирования и создания компьютерных систем, автору большого числа книг по языкам программирования А.Н. Вальвачеву. На разных этапах более чем четырехлетней работы над рукописью их советы, поддержка, идеи, редакционные замечания помогали авторам преодолевать со
14	Предисловие
мнения, позволяли устранять многие неточности и наконец довести работу до завершения.
Большая техническая помощь при подготовке рукописи в машинописном виде была оказана сотрудниками белорусского Института статистики Н.А. Курец, Е.Е. Судник.
Для нас работа над проблемами MCA была во многом новой, мы часто использовали информацию из монографий, только что опубликованных, или источников, не переведенных на русский язык. Наверняка какие-то важные моменты могли оказаться упущенными, где-то недостаточно четко проведена систематизация или недостаточно нагляден пример. Мы будем рады, если эта книга вызовет интерес и найдет отклик у читателей. Отзывы и пожелания помогут найти более интересные и прагматичные направления для будущей работы.
В.Н. Тамашевич
Л.А. Сошникова
Авторы учебного пособия:
Л.А. Сошникова — канд. экон, наук, доцент Белорусского государственного экономического университета (гл. 9, 10, И, 12)
Гошц Уебе — проф., д-р Университета Бундесвера (г. Гамбург), директор Института статистики и эконометрии Университета Бундесвера (гл. 6) Мартин Шефер — д-р Университета Бундесвера (г. Гамбург), преподаватель Института статистики и эконометрии Университета Бундесвера (гл. 2, 3)
В.Н. Тамашевич — канд. экон, наук, директор Института статистики при Министерстве статистики и анализа Республики Беларусь (гл. 1, 4, 5, 7, 8, перевод с немецкого гл. 2, 3, 6)
\ Глава -------- - -  ------------
\1/
Задачи и методы многомерного v статистического анализа (MCA)
1.1.	Теоретические основы MCA, его место в социально-экономических исследованиях
MCA следует рассматривать как логическое развитие методов традиционной статистики, обобщенных в курсе общей теории статистики. Принципиальное отличие заключается в том, что объекты, социальные и экономические явления рассматриваются здесь с учетом не одного-двух, а одновременно некоторого множества признаков. Это позволяет добиваться в исследованиях полноты теоретического описания наблюдаемых объектов и объективности последующих выводов. Действительно, если судить о человеке только по уровню его заработной платы, или заработной плате и уровню образования, то наши выводы будут ограниченны и неточны. Другое дело, если мы воспользуемся набором признаков, представляющих состояние здоровья, социальное положение, уровень профессиональной подготовки и т.д. Совместное исследование значений этих признаков позволит моделировать образ субъекта и реально оценивать его поведенческую реактивность. Подобные примеры можно привести и из области экономики, социологии, политики. Так, если на предприятии имеется высокий уровень производительности труда, то это вовсе не обязательно означает, что оно работает устойчиво, имеет достаточное финансовое обеспечение и может выступать надежным партнером. В данном случае для достоверной оценки дополнительно необходимы характеристики ликвидности средств предприятия, структуры капитала, эффективности вложений капитала и т.п.
Реально изучаемые объекты и явления имеют практически всегда многопризнаковую природу, надежное отображение их в
16	Глава 1
экономико-математических моделях возможно при условии учета комплекса присущих им наиболее существенных характеристик.
Переходя к определению MCA, отметим, что это сформировавшаяся самостоятельная область теоретической статистики. Это совокупность глубоко формализованных статистических методов, базирующихся на представлении исходной информации в многомерном геометрическом пространстве и позволяющих определять неявные (латентные), но объективно существующие закономерности в организационной структуре и тенденциях развития изучаемых социально-экономических явлений и процессов.
Для MCA как самостоятельной области науки характерны следующие особенности:
•	Методы MCA в отличие от классической статистики появились сравнительно недавно: факторный анализ — на рубеже XIX и XX вв., многомерное шкалирование — в конце 30-х — в 40-х годах нашего столетия, кластер-анализ — 10—20-е годы и т.д. Основная часть методов еще находится в стадии активной разработки, область их применения четко не разграничена. Отсутствуют строгие рекомендации по приложению этих методов в решении большого числа конкретных ситуационных задач.
•	Для методов MCA характерны, как правило, глубокая формализация, сложная логико-математическая конструкция. Работа с этими методами требует углубленных знаний в области как экономической теории, так и математики. Недостаток в уровне подготовки исследователей обычно проявляется в некорректном приложении методов или в ошибочной интерпретации аналитических результатов.
•	Применение методов MCA требует творческого подхода к решению аналитических задач. В данном случае это требование к исследователю значительно сильнее, чем при работе с методами общей теории статистики. Во-первых, методы MCA весьма многообразны и многочисленны. Для решения даже одного типа задач здесь существуют десятки и сотни различных приемов: в кластер-анализе насчитывается более 200 различных подходов и методов; в факторном анализе, многомерном шкалировании — десятки различных методов и т.д. Чтобы правильно выбрать тот или иной метод или комплекс методов для последовательного решения поставленной проблемы, естественно, необходимы профессионализм и хорошая интуиция.
Задачи и методы многомерного статистического анализа
17
Во-вторых, творческий подход и профессиональная подготовка приобретают особенно важное значение при интерпретации аналитических результатов, часто неоднозначных, когда экономические, социологического плана выводы должны отвечать логической схеме сложных математических расчетов (противоречия в экономических и математических выводах свидетельствуют о некорректности решения задачи или некорректности интерпретации аналитических результатов). Например, в MCA часто используется понятие латентного (скрытого) признака. Этот признак обобщает несколько элементарных признаков, известных из общей теории статистики, таких, как производительность труда, уровень квалификации, стаж работы и т.п. Названия латентного признака первоначально не существует, оно должно быть определено исследователем по комбинации элементарных признаков в латентном. В каждой отдельной задаче приходится иметь дело с особенными латентными признаками, и их нельзя ввести в какой-либо справочник или каталог. Именно исследователь каждый раз решает вопросы, стоит ли оставлять в анализе выделенный латентный признак (насколько он значим?) и как он должен быть назван.
•	В MCA обрабатываются многомерные (многопризнаковые) совокупности данных. Число признаков (или размерность совокупности) при этом может быть любым — от 1 до 100 и более, но обычно более двух, и максимально ограничивается 20—33 признаками. Существует точка зрения, что для описания реальных объектов достаточно 33 измерений, сверх этого — уже излишняя информация. Такой подход оправдывает себя довольно часто, но не может считаться законом, в конечном счете все определяется условиями задачи и целями исследования.
•	Практическое применение методов MCA требует обязательного использования вычислительной техники. Можно сказать, что эти методы в силу сложности и трудоемкости нереализуемы без технических средств. Широкое распространение MCA в исследованиях началось именно с появлением первых ЭВМ.
Идеи MCA не являются открытием XX столетия. Еще Аристотелем в III в. до н. э. был предложен в сущности многомерный подход при классификации предметов по их сходству и различиям. В новейшей истории, в XVIII — до начала XX вв. сама возможность многопараметрического описания объектов, явлений, процессов в научных исследованиях становится осо
18
Глава 1
бенно привлекательной. Ее активно разрабатывают французский ботаник М. Адамсон (60-е годы XVIII в.) при идентификации растений; английский естествоиспытатель Ч. Дарвин (60-е годы XIX в.) — в своей селекции видов и при определении факторов эволюции органического мира; Д.И. Менделеев (60—70-е годы XIX в.) — при систематизации качественных характеристик химических элементов. Не только в естествознании, но и в экономике, статистике многомерные подходы становятся популярны. Уже во второй половине XIX — начале XX вв. русскими земскими статистиками были сделаны успешные попытки многопризнаковых классификаций крестьянских хозяйств (А.П. Шликевич, С.А. Харизоменов, Н.Ф. Анненский, позднее — А.И. Хрящева), многими экономистами России и Западной Европы — классификаций промышленных предприятий, проведения анализа капитализации экономики и т.д. Здесь приведены далеко не все, а лишь наиболее известные исторические факты. Несомненно, что идеи многомерной оценки явлений и процессов эксплуатировались значительно шире. Все дело в том, что именно многомерный подход позволяет адекватно оценивать сложную природу естественных процессов и исследователю было необходимо обращаться к нему.
История MCA как науки с собственной теоретической базой и опытом экспериментальных исследований открывается в начале XX столетия. Собственно это «открытие» связывают с появлением в 1901 и 1904 гг. научных статей английских ученых К. Пирсона и Ч. Спирмена, посвященных теории факторного анализа. Первоначально методы MCA разрабатывались и широко применялись для исследований в области психологии и биологии, а позже — в медицине, военной промышленности, техническом проектировании и, наконец, в экономике. В числе наиболее ярких имен ученых, заложивших фундамент теории MCA: Л.Л. Терстоун, Л.Р. Такер, Р. Хорст, К. Холзингер, С. Барт, Г. Томсон, Т. Келли, Г. Кайзер, Д. Максвелл, С.Р. Рао, Г. Харманн (факторный анализ), Р. Трионон, Р. Льюис, Р. Сокал, Дж. Снит, Р. Сибсон, У. Уильямс, Т. Танимото, М. Жамбю (кластерный анализ), Дж. Б. Краскал, Р.В. Хемминг, Л. Гутгман (многомерное шкалирование), Р. Фишер, Т.В. Хейк, В.Р. Клекка, А. Барр (дискриминантный анализ), С. Райт (путевой анализ), Л. Заде (теория размытых множеств), Л. Гудман, П. Лазарсфельд, О. Андерсон, П. Махаланобис, С. Уилкс (многомерная математическая стати
Задачи и методы многомерного статистического анализа	j 9
стика). Внимательно рассматривая ретроспективу развития MCA, можно заметить, что период его становления и наиболее активного развития фундаментальной теории пришелся на 20—50-е годы, а в числе ученых-теоретиков MCA преобладают представители американской и английской математических школ:
Американская школа — факторный анализ, многомерное шкалирование, концепции новейшей статистической теории: размытых множеств, путевого анализа и т.п., многомерная математическая статистика;
Английская школа — факторный анализ; дискриминантный анализ, многомерный корреляционно-регрессионный анализ, многомерная математическая статистика;
Французская школа — кластер-анализ.
В советской статистике методы MCA получили распространение значительно позже, во второй половине 60-х и в 70-х годах. Такое опоздание было обусловлено длительным периодом неприятия формальной статистики и чрезмерной политизацией отечественной статистики вообще, когда внимание прежде всего уделялось проведению сплошных обследований и представлению, а не анализу данных, причем сами данные, даже в ущерб объективности, должны были соответствовать идеологическим концепциям государства. Известные трудности, однако, не помешали ученым СССР увидеть перспективу практического приложения методов MCA и внести значительный вклад в теоретические разработки. В этом заслуга таких известных отечественных статистиков, как А.Я. Боярский, С.А. Айвазян, П.Ф. Андру-кович, А.М. Дубров, А.А. Френкель, И.И. Елисеева, А.И. Орлов, И.С. Енюков, Б.Г. Миркин, И.Д. Мандель, Л.Д. Мешалкин, В.М. Бухштабер, В.С. Мхитарян и многих других.
В настоящее время работа по освоению методов MCA и внедрению их в аналитическую практику становится особенно актуальной для экономистов и статистиков при переходе страны к рыночной экономике. Обусловлено это следующим.
• Переход к рыночной экономике сопровождается коренными изменениями структуры и связей народного хозяйства, нарастанием негативных кризисных явлений. Отслеживание и адекватная реакция на эти явления возможны при наличии системы объективного отражения и оперативной передачи достаточно полной микро- и макроуровневой информации — это позволяет решать именно MCA.
20
Глава 1
•	Создание разнообразных форм собственности, появление большого числа новых предприятий, в том числе малого размера, заставляют, с одной стороны, обращаться к рациональным методам статистических обследований (выборкам, многомерным классификациям, устойчивому оцениванию и т.п.), а с другой — выдвигает повышенные требования к достоверности и оперативности информации. Частному предпринимателю уже не нужно «поддерживать идеологию», ему необходимы объективная картина развития бизнеса и обоснованный перспективный прогноз. При этом также предпочтительны многомерные данные, позволяющие комплексно описывать процессы и явления и реально их моделировать.
•	В современных условиях особенно значимыми становятся исследования комплексов показателей, представляющих различные сферы общественной жизни: экономику, политику, экологию, социальную жизнь и т.д. Сегодня уже недостаточно просто планировать на каком-либо предприятии рост объемов производства или производительности труда. Необходимо одновременно оценивать, как это отразится, например, на экологической ситуации, социальном положении работников и т.п. Для размещения инвестиций необходимо знание не только экономического положения, но и реальной оценки уровней социальной, политической стабильности, экологичности размещаемых производственных объектов и т.д.
•	Многомерные методы длительное время широко используются в практической статистике передовых стран Европы, Америки, Азии, где созданы и функционируют технологичные системы обработки и передачи многомерных данных в компьютерных сетях. Статистика страны с переходной экономикой включается в международные информационные системы интеграция при этом не может осуществляться без специалистов, обладающих адекватными знаниями по современным технологиям сбора и обработки больших массивов данных.
•	Наконец, знания в области MCA представляются необходимыми для овладения новейшими методологическими разработками в области теоретической статистики, не говоря о ее развитии. Это ступень, на которой формируются базовые знания современной статистики; следуя за классической общей теорией статистики, она предваряет нетрадиционную статистику, статистику на размытых множествах, статистику катастроф и другие новейшие отрасли статистики.
Статистика		
Теория	Математическая	Общая теория
вероятностей	статистика	статистики
Высшая математика		
Аналитическая геометрия	Матричная алгебра	Многомерный математический анализ
Многомерный статистический анализ (MCA)
Методы вероятностного анализа данных (многомерная математическая статистика)
Методы логико-алгебро-геометрического направления
Поиск законов распределения, оценка плотности вероятностей многомерной случайной величины
Оценивание многомерных данных
Проверка многомерных гипотез
•	Множественный корреляционный анализ
•	Множественный регрессионный анализ (линейный и нелинейный)
•	Многомерное шкалирование (метрическое и неметрическое)
•	Метод главных компонент
•	Факторный анализ
•	Многомерных группировок (кластер-анализ)
•	Дискриминантный анализ
•	Канонических корреляций
•	Путевой анализ
Рис. 1.1. Многомерный статистический анализ — наука о статистических методах
22 Глава 1
MCA основывается на теоретической базе высшей математики и математической статистики. Множество его методов разбивается на две большие группы. К первой группе относятся методы, которые предполагают знание законов распределения многомерной случайной величины и позволяют производить статистическую оценку явлений и процессов, проверять статистические гипотезы — это методы вероятностного анализа многомерных данных. Ко второй группе принадлежат методы, для которых не обязательно знание законов распределения, но существенна рациональная логическая конструкция, позволяющая адекватно моделировать реальные процессы и явления. Эти методы называют методами логико-алгебро-геометрического направления. В общем виде классификация методов MCA показана на рис. 1.1. Это одна из возможных классификаций, по нашему мнению, имеющих наиболее логичную конструкцию. При ее построении использованы идеи М. Дэйвисона, изложенные в книге «Многомерное шкалирование» (М.: Финансы и статистика, 1987).
Совокупность методов, которые относятся к двум названным выше направлениям многомерного статистического анализа, позволяют решать разнообразные задачи, в том числе присущие традиционной статистике: оценивания случайных величин, построения группировок, проверки гипотез, моделирования связей изучаемых показателей и т.п., и новые, специфические: сжатия информации, визуализации данных, группировки с «обучением» и т.д.
1.2.	Методы MCA
MCA обобщает большое число методов и приемов для обработки многомерных статистических данных. Исследователю при этом открываются возможности достижения самых разнообразных целей (табл. 1.1).
В основе практического применения методов MCA лежит ряд основополагающих принципов:
1)	эффекта существенной многомерности — изучению подлежит не произвольный набор признаков или объектов, а комплекс органично связанных и взаимно дополняющих друг друга признаков, которые позволяют полно и всесторонне оценивать явление (процесс). Признаки при оптимальном подборе не повторяют
Таблица 1.1. Основные методы многомерного статистического анализа
Метод	Сокращенное обозначение	Тип задачи	Комментарии
1	2	3	4
Статистического оценивания многомерной случайной величины Проверки многомерных гипотез	СО мсв пмг	Оценка параметров многомерной совокупности Проверка гипотез о равенстве параметров многомерных совокупностей и соответствии некоторому закону распределения	Определение: многомерной средней, матрицы ковариаций, вероятностных оценок, робастное оценивание и т.п.
Множественный корреляционно-регрессионный анализ	МКРА	Измерение и моделирование связей изучаемых признаков или объектов	—
Многомерное шкалирование ч	МШ	Визуализация данных, моделирование сложных систем	Представление данных в теоретическом пространстве, описание процессов и явлений, которые ввиду своей сложности или нестабильности не поддаются моделированию традиционными методами
Главных компонент	мгк	Сжатие данных	Сведение множества элементарных признаков к небольшому числу значимых «обобщенных признаков» и выявление латентных факторов
Продолжение табл. J. 1
1	2	3	4
Факторный анализ Многомерной группировки (кластерный анализ) Дискриминантный анализ Канонических корреляций Многомерный дисперсионный анализ Многомерный ковариационный анализ	ФА КА ДА мкк X 1 *• МДА МКА	// Группировка многомерных объектов (или признаков) Группировка с «обучением» Сжатие данных и моделирование связей обобщенных признаков Оценка и исследование дисперсий комплексов признаков Оценка зависимости вариации результативного признака от факторного	Эта же задача может решаться относительно не только признаков, но и объектов Поиск эталонных групп, расклас-сификация новых объектов по известным эталонным группам Устанавливается форма связи комплексов (наборов) зависимых переменных (УД с независимыми факторными переменными (A)). Yи X могут быть обобщенными признаками (см. ФА) Предполагает предварительную классификацию данных и поиск регрессионных связей для каждого класса Затем вычисляются и анализируются оценки ковариаций (ТХх, Тп, Тух)
Задачи и методы многомерного статистического анализа	25
отдельных качественных характеристик, они рациональны по числу и четко структурированы по уровням представления явлений (процессов). Например, размеры предприятий можно характеризовать довольно большим числом признаков, но, ограничивая рамки исследования и допуская определенную грубость в выводах, вполне можно остановиться на трех важнейших признаках: объем производственных фондов, средняя численность работников, оборот капитала. Данную систему признаков неверно было бы дополнять оценками стоимости или мощности оборудования, числом инженерно-технических работников — это признаки более низкого уровня, их информация обобщена уже данными об объеме производственных фондов и средней численности всех работников;
2)	лаконичного описания наблюдаемых многомерных объектов. Под этим понимается необходимость максимально сжатого и строго структурированного представления информации. В определенной мере такому требованию отвечает матричная форма записи, она экономична, остается доступной для прочтения и по ней можно легко определять структуру данных. Исходные данные часто обобщаются в виде матрицы значений признаков (в табл. 1.2), или симметрической матрицы с данными сравнений объектов (признаков), как это показано в табл. 1.3.
В качестве сравнительных характеристик (табл. 1.3) выступают величины соотношений некоторых количественных оценок или величины связей, теоретических расстояний между объектами;
3)	максимального использования «обучения» в настройке математических моделей, т.е. использование информации, позволяющей наиболее точно идентифицировать изучаемые объекты, соотнести их с классом хорошо изученных явлений.
Использование обучающей информации значительно повышает достоверность статистических выводов, дает возможность рационально строить расчеты;
4)	оптимизационной формулировки задач MCA. Имеется в виду рациональный выбор из всего арсенала методов MCA одного или нескольких дополняющих друг друга методов, которые при минимуме вычислительной работы позволили бы получить аналитические результаты с хорошей интерпретируемостью, достаточно полно и достоверно представляющие изучаемые явления (процессы). С целью упрощения выводов и оперативной проверки
26 Глава 1
Таблица 1.2. Матрица значений аналитических признаков (Xj)
Объект		х2	Хз	X,		хт
«1	*11	х12	х13	х14		Х\т
«2	*21	х22	Х23	х24		*25
«3	*31	х32	хзз	х34		*35
«и	Х„1	Х„2	Хпз	хл4			Хп5
Таблица 1.3. Матрица теоретических расстояний между объектами (пу)
Объект	Объект				
	«1	«2	«3		«п
«1	сп	с12	с13		с1п
«2	С21	с22	С23		с2п
«3	С31	с32	с33		СЗп
««	Сц1	сп2	спЗ		спп
их на адекватность реальным процессам методы MCA могут также применяться в комплексе с традиционными методами статистики. В качестве примера назовем здесь группировку объектов по значениям какого-либо одного обобщенного признака (латентного фактора) или индексный анализ по предварительно полученным данным факторного или дискриминантного анализа и т.д.
При реализации MCA можно выделить следующие основные этапы исследовательской работы:
•	формулировка задачи исследования на предметно-содержательном уровне, определение объемов входной и выходной информации, формы выходных данных;
•	определение последовательности обработки входной информации методами MCA. При этом ограничивается сам набор методов и уточняется порядок (чередование) их работы;
•	сбор и систематизация исходной информации для последующей ее машинной обработки;
Задачи и методы многомерного статистического анализа	27
•	предварительный анализ данных: их однородности, соответствия некоторым статистическим гипотезам, подчинения известным законам распределения, содержания грубых ошибок и т.д.;
•	с учетом предыдущего этапа уточняется математическая постановка задачи и определяется возможность применения ранее отобранных методов MCA, в случае необходимости набор методов изменяется;
•	проведение вычислений. Из-за трудоемкости методов MCA практически всегда эта работа планируется и выполняется при помощи вычислительной техники;
•	результаты анализа сводятся и оцениваются на адекватность при помощи статистических критериев. Устанавливается непротиворечивость математических результатов и экономических выводов, оценивается степень интерпретируемости «выходных» данных;
•	результаты исследования обобщаются в наглядных таблицах и на графиках, интерпретируются, формулируются окончательные выводы, даются практические рекомендации.
На практике все перечисленные этапы не обязательно присутствуют и четко разграничены. Некоторые из них могут объединяться или исключаться. Знание всех этапов, тем не менее, позволяет оптимально планировать реализацию методов MCA и учитывать предстоящие объемы работы,
1.3. Многомерное признаковое пространство.
Особенности обработки многомерных статистических данных
Методы MCA базируются на геометрическом представлении данных. Наблюдаемые объекты располагаются в теопетическом пространстве размерностью, соответствующей числу признаков (элементарных или латентных), которыми они характеризуются. Можно предположить частные случаи признакового пространства: с нулевой размерностью — объекты не имеют характеристик; с единичной размерностью (одномерное признаковое пространство) — объекты отражаются значениями одного какого-либо признака; многомерное пространство — объекты
28 Глава 1
представлены значениями двух и более, до некоторого числа т, признаков (от-мерное признаковое пространство).
Рассмотрим простой пример, когда пять промышленных предприятий последовательно характеризуются значениями одного, двух и трех признаков:
I. Одномерное признаковое пространство
Предприятие № п/п	Среднечасовой уровень выработки одного рабочего, долл. США (X)	Его можно представить в виде одной градуированной шкалы-		
		Объект 52	14	3	X
1	6		1—1—1	1—(	1	1—	—1	1—	—
2	4	1 2 3 4 5 6 7	8 9	10
' 3	9			
4	7			
5	3			
II.	Двумерное признаковое пространство.
Наблюдаемые объекты геометрически представляются щ плоскости в двумерной (декартовой) системе координат:
Предприятие № п/п	Среднечасовой уровень выработки рабочего, долл. США (*>)	Средний стаж работы на предприятии рабочего, лет №)
1 2 3 4 5	6 4 9 7 3	5 7 12 14 11
III.	Трехмерное признаковое пространство.
Наблюдаемые объекты представляются в трехмерной системе координат:
Задачи и методы многомерного статистического анализа
29
Предприятие № п/п	Среднечасовой уровень выработки рабочего, долл. США От)	Средний стаж работы рабочего на предприятии, лет №)	Средний уровень квалификации работников по тарифному разряду (*з)
1 2 3 4 5	6 4 9 7 3	5 7 12 14 И	1,2 1,9 3,5 2,7 2,8
Характеристика и пространственное представление наблюдаемых объектов: предприятий, территорий, групп населения и т.д. по значениям признаков — это наиболее распространенная и привычная форма организации статистических данных. Однако в многомерной статистике возможны и достаточно часто встречаются случаи с другой организацией данных, когда оценочные признаки сами выступают в качестве наблюдаемых объектов и помещаются в теоретическое пространство предприятий, территориальных единиц и т.п.
Изменим в предыдущем примере исходное условие: пусть требуется характеристика признаков по предприятиям. Для наглядности отберем два первых предприятия и покажем возможность размещения их на координатной плоскости признаковых значений1:
1 Вопросы приведения признаков к одному основанию в данном случае намеренно не рассматриваются
30 Глава 1
Предприятие II
10
•*2
10
5
•*з
5
Для работы с теоретическим пространством признаков или объектов применяются специальные обозначения. Выше уже использовались привычные символы для записи объектов (л„ / = 1,л) и признаков = Размерность пространства описывается при помощи сокращения французского
Предприятие I слова dimension — размерность, как dim U, т.е. размерность пространства U. Частными случаями многомерного пространства являются 0-мерное пространство — пространство, не содержащее признаков, или объектов, dim Uq = 0, и одномерное пространство dim U\ = I. В общем случае dim Um = т.
В многомерном пространстве признаки или объекты имеют определенные количественные характеристики. Все принимаемые значения признаков (объектов) представляют собой множества вещественных чисел, и это множество обозначают символом Rm, где т по-прежнему указывает размерность пространства. Часто просто говорят Rm — пространство с размерностью т.
В аналитической работе при обращении к многомерному пространству признаков (объектов) принимаются во внимание следующие особенности:
• в m-мерном пространстве сохраняют силу принципиальные положения, аксиомы обычной евклидовой геометрии. Например, в прямоугольной системе координат углы между всеми парами осей составляют 90°; параллельные прямые, плоскости или гиперплоскости не пересекаются, если квадрат расстояния между двумя точками в двумерном пространстве (R2) определяется по известной формуле Пифагора: с2=а2+а2, то в многомерном пространстве — аналогичным образом:
с- =а{ + «2 +«з +...+а„ и т.д.;
•	пространство, размерность которого превышает три, уже не может быть представлено визуально, и все задачи в этом
Задачи и методы многомерного статистического анализа
31
случае решаются при помощи абстрактной логики и алгебраических методов;
•	в многомерном анализе, как правило, используется большое число признаков, разнородных по своей природе. В связи с этим на первом этапе исследований обычно возникает проблема приведения всех анализируемых признаков к одному основанию —- сопоставимому виду. Подобные проблемы решают нормированием данных, что геометрически означает изменение масштаба и другие преобразования координатной системы;
•	обработка /«-мерных совокупностей включает, как правило, большое число сложных и трудоемких для выполнения арифметических операций, поэтому осуществляется на основе пошаговых алгоритмов. Конечный результат при этом достигается последовательным решением отдельных, более мелких задач на вычисления;
•	при работе с /«-мерными данными совместно используются чисто математические, абстрактные методы и методы экономико-статистического анализа, ориентированные на конкретные сферы приложения. Следует обращать внимание на непротиворечивость результатов, получаемых различными методами. Возникающие противоречия указывают на нарушения логики решения экономической задачи и становятся источником ошибочных выводов.
Вопросы --------------; -...............У ' '	=
1.	Что является предметом MCA?
2.	В чем заключаются особенности методов MCA и их отличие от методов классической статистики?
3.	Перечислите методы MCA и задачи, решаемые при помощи этих методов.
4.	Назовите основные исторические этапы развития методов MCA.
5.	Что является методологической и теоретической основой MCA?
6.	Сформулируйте понятие признакового пространства. Приведите примеры одномерного, двумерного и многомерного признакового пространства.
Глава
Элементы математики в MCA
2.1. Основы аналитической геометрии
2.1.1. Введение
Понятие вектора вначале появилось в физике и использовалось для представления величин силы, скорости, ускорения1. Приложение силы в некоторой точке, например, определялось отрезком (вектором), направление которого указывало на направление действия силы, а длина — на величину этой силы. Соответствующим образом векторное отображение использовалось и для представления скорости и ускорения элементарных частиц. Умножение вектора на реальное число указывало при этом на величину положительного или отрицательного прироста силы (скорости, ускорения). Результатом умножения были так же сила, скорость, ускорение.
Несколько сложнее было представление операции сложения сил (скоростей, ускорений): в случае разнонаправленности их действия изменялись не только величина, но и направление результирующего вектора. Вспомним тривиальный пример сложения сил по так называемому правилу параллелограмма.
Выполнение операций сложения векторов, как и умножения, не изменяло природы анализируемых признаков, их результатами всегда оставались сила (скорость, ускорение), только с измененной величиной.
Позднее понятие вектора нашло широкое поле приложения и в экономике. Часто векторное представление используется здесь для характеристики цен и товарных потоков. В отличие от
1 Понятие вектора впервые дано в работах немецкого математика Г. Гроссмана и ирландского математика У. Гамильтона в XIX в. — Прим. пер.
Элементы математики в MCA	33
физики в экономике обычно направление вектора не имеет принципиального значения, более важными видятся его компонентный состав, общая математическая структура, обусловливающие форму визуализации и определенный набор эконометрических приемов для аналитической обработки данных.
2.7.2. Основные определения
Обозначим Г любое непустое множество объектов, a R — множество действительных чисел. Ясно, что объекты из Г могут объединяться, аналитически это представляется при помощи операции сложения (+), говорят еще, что объекты аддитивны. Сложение, или аддитивность, объектов имеет следующие основные свойства:
пусть х, у, z е V, тогда
(x+y)+z = x+(y + z) — ассоциативный закон',	(2-1)
если имеется элемент 0 eV , такой, что х+0=0+х=х, то его называют нейтральным или нулъ-элементом в И;	(2.2)
для каждого хе И всегда имеется элемент х-1 eV,
с которым х+х-1 =х-1 +х = 0. Такой элемент (х-1)	(2.3)
называют обратным к х;
х+у = у+х — коммутативный закон.	(2.4)
Взаимодействие и изменение объектов в V может кроме операции сложения определяться операцией умножения векторов на некоторое действительное число или скалярным произведением (у), имеющим следующие свойства:
а^(р^х) = (a • р)-х	(ассоциативный закон); (2.5)
l^x = xsl=x	(нейтральный элемент); (2.6)
aj (х + У) = а-х + p^j , (первый дистрибутивный закон); (2.7) (а + р) х = a х + р^х (второй дистрибутивный закон). (2.8)
Множество V, в котором определены операции сложения (+) и умножения на скаляр ( f), а выполнение этих операций удовлетворяет свойством (2.1) — (2.4) и (2.5) — (2.8), называют векторным пространством. Элементы множества V есть векторы.
2 Многомерный статистический
34
Глава 2
2.1.3.	Арифметическое векторное пространство
Пусть имеются х = (х1,х2,...,х„) и у-(у},У2,-,уп), nzN и х,-,/,еЛ (/ = 1,2,..., л) — два действительных «-вариантных числа, обладающих аддитивностью, тогда операцию покомпонентного сложения векторов можем записать:
х + у = (х! +У1,х2+у2,...,хп+уп),
по аналогии скалярное произведение будет
а^х = (ах[,ах2,--,охи), aeR
и векторное пространство для х:
И = {х|х = (х],х2,...,х„), n^N, XjeR, / = !,...,n}.
Векторное пространство V называют арифметическим векторным пространством и обозначают Rn. Такое пространство включает подмножества (системы) из п действительных чисел и сохраняет силу следующих утверждений:
•	в И действуют свойства (2.1) — (2.4), так как действительные числа обладают аддитивностью и ассоциативностью, и свойства (2.5) — (2.8) — согласно правилам выполнения арифметических операций над действительными числами;
•	нулевой элемент в V имеет п нулевых компонент (0,0,...,0);
•	для х = (х],х2,...,хи), хе И, всегда существует отрицательный вектор -x = (-xi,-x2,...,-xn).
Особым случаем для пространства V является RX=R, т. е. пространство одного вектора или пространство над простым множеством действительных чисел.
2.1.4.	Непрерывные функции
Пусть И = {/: [<7,Z>]—> R \f непрерывна на интервале[я,/>]}.
Аддитивность непрерывных функций и их скалярное произведение определяются соответствующими равенствами:
(/ +g}(x)=f(x)+g(x) ДЛЯ f.geV', (о^/)(х)=а/(х).
Для суммы непрерывных функций имеют силу свойства (2.1) — (2.4). Это следует непосредственно из сохранения правил выполнения арифметических действий над действительными числами и из того, что сумма непрерывных функций есть также не
Элементы математики в MCA
35
прерывная функция. В качестве нейтрального элемента здесь выбирается нуль-функция:
, с 0(х) = 0 для всех хе[д,Л], тогда (/+0)(х)=/(х)+0(х).
Результат обращения функции будет -/(х), при этом
(/ + (-/))W = /W-/(*) = 0 = 0(x) для всех хе[а,Л].
Свойства (2.5) — (2.8) для скалярного произведения функций также определяются правилами выполнения арифметических действий над действительными числами и той особенностью, что в результате многократного изменения непрерывной функции получают вновь непрерывную функцию.
Один, не очень серьезный, пример на множества
Этот пример показывает, что понятие аддитивности имеет важное значение и может применяться весьма широко.
Пусть имеем множество V {кошка, собака, мышка}. Элементы этого множества принадлежат трем различным видам и находятся в следующей взаимосвязи:
а)	если собака встретит кошку, то она съест кошку и превратится в мышку;
б)	если собака встретит собаку, то одна собака съест другую собаку и превратится в кошку;
в)	если собака встретит мышку, то она съест мышку и останется собакой;
г)	если кошка встретит кошку, то одна из них съест другую и превратится в собаку;
д)	если кошка встретит мышку, то она съест мышку и останется кошкой;
е)	если мышка встретит мышку, то одна мышка съест другую и останется мышкой.
Легко заметить, что в этом замечательном зверинце количество корма для животных каждого вида определяется межвидовой иерархией. Правила «поедания» (а) — (е) можно рассматривать в конкретном векторном пространстве V, обладающем свойством аддитивности:
С + К = М;С + С = К;С+М = С;К+ К = С;К+ М = К;М + М = М.
Следуя аксиоматичному правилу (2.1), можем записать:
(с+с)+к = к+к=с, с+(с+к)=с+м = С, (с+к)+к = м+к = к, с+(к+к)=с+с=к, (р+с)+м=к+м=к, с+(с+м)=с+с=к,
(с+м)+м=с+м=с, с+{м+м)=с+м = с, (к+к)+м=с+м=с, к+(к+м)=к+к = с,
(к+м)+м = к+м = к, к+(м+м)=к+м = к.
36	Глава 2
Относительно других свойств аддитивности отметим:
(2.2)	— нейтральным элементом в V является мышка, так как каждый из зверей, съедающий мышку, остается неизменным, т.е. сохраняет свою видовую принадлежность;
(2.3)	— обратным элементом для собаки является кошка, а для кошки — собака. Для мышки (нейтрального элемента) обратным элементом множества будет тоже мышка;
(2.4)	— это аксиоматичное правило также сохраняется, так как результат встречи зверей не зависит от того, в какой последовательности она происходит, скажем, собака встречает кошку или кошка встречает собаку.
Очевидно, что в примере действуют также свойства (2.5) и (2.6), кроме того
а $ (С + К ) = а $ М кратное а — увеличение корма свидетель-
ствует об увеличении популяции мышей, (2.7)
(а+р) 5 (С + К)=а s С + 3 5 С .	(2.8)
2.1.5.	Понятие подпространства
Подмножество U векторного пространства V называют векторным подпространством V, если в U как самостоятельном векторном пространстве из V, выполнимы операции сложения и скалярного произведения векторов.
Пусть U — векторное подпространство V, тогда существующий в Инулевой вектор О = (о,Ог..,о) является определенным нуль-вектором и для U. Подобный вывод следует из равенства: х+0 = х для всех xeU .
Принимая 0 Gt/, заметим, что любое подпространство в V есть непустое подмножество V.
Требование выполнения операций сложения и скалярного произведения векторов в Г, а также в U позволяет сформулировать основной критерий существования векторного подпространства: подмножество U векторного пространства V будет подпространством V, если выполняются одновременно следующих два условия:
1)	U — непустое множество
2)	Для всех x,yeU, aeR, действует x+yeU и axeU, т. е. U замкнуто относительно операций сложения векторов и умножения вектора на число.
xeU
Элементы математики в MCA
37
□ Доказательство:
а.	Пусть U есть векторное подпространство в V. Тогда если U * Ф , то U содержит по крайней мере нулевой вектор и U замкнуто относительно сложения и скалярного произведения векторов в соответствии со свойствами векторного пространства.
б.	Пусть и^Ф и замкнуто относительно сложения и скалярного произведения векторов. Тогда, с учетом, что V с V, для всех элементов U имеют силу свойства (2.1) — (2.4) и (2.5) — (2.8). Чтобы при этом показать принадлежность подпространства U к пространству V, необходимо подтвердить наличие свойств (2.2) и (2.3). Но так как и*Ф, можем записать xeU, одновременно принимая условие (2): 0 x = 0et/, а это означает, что вектор 0 есть нулевой вектор и, кроме того, нейтральный элемент в U, т. е. действует свойство (2.2). Далее, для каждого xeU существует (-1)^x--xeU , другими словами, для каждого xeU имеется обратный элемент (-х) в U, т.е. действует свойство (2.3). 
2.1.6.	Образующие системы
Линейные комбинации. Пусть И есть векторное пространство и имеются — элементы V. Тогда вектор вида:
п
/=^а,х;, (X/G.R, neN , /=1
называют линейной комбинацией векторов x.-gV . Говорят так-же, что у представлен линейной комбинацией векторов х,.
Пример 2.1. В двумерном пространстве R2 имеется вектор
представляющий собой линейную комбинацию трех
других векторов
ГОД
или у = Х[-2х2+Зх3, а также
J’ = x1 +4х2 .
Очевидно, что, кроме двух приведенных, существует еще достаточно большое число других возможных линейных комбинаций векторов Х|,х2,х3 для у, а также других линейных комби
38
Глава 2
наций векторов хх,хъхз в Л2 для любого элемента, кроме у. Принимая это во внимание, введем понятие линейной оболочки.
Линейной оболочкой некоторого векторного пространства называют множество векторов: х(,. ,,х„еГ. Линейную оболочку обозначают: [х|,...,х„].
Утверждение-, если имеется некоторое подмножество М векторного пространства V, М с V и [ М ] — линейная оболочка для векторов из М , то [ М ] есть подпространство V .
□ Доказательство-.
При условии, что М*Ф, а также	для каждой из ли-
нейных комбинаций:
п
y-^a^^a^R с х,еМ и некоторым определенным i=i
р
имеет силу Ху = £(Ха()х( e[M], очевидно, что Ху с р;=ка; тоже i=i
будет линейной комбинацией векторов х;.
Одновременно можем записать расширение числа линейных комбинаций (z) для векторов из М :
z = £Yi^> Yi
i=i
y + z = £a,x,	= £(«, +Jl)xl.
1=1	1=1	(=1
В конечном счете вновь получаем линейную комбинацию х,- g М. Таким образом, [Л/) согласно критерию существования векторного подпространства является подпространством в V . 
Линейная оболочка обладает следующими свойствами:
1)	Me [JW);
2)	Mi с М2 => [MJ с[М2];
3)	[Af] = М <=> М есть подпространство V;
4)	[[АП] =
Определение'. Пусть U — векторное подпространство V, тогда если имеется такое множество М, что [Л/] = U, то его называют образующим множеством U.
Обычно всегда М = U, и целесообразно рассматривать возможно наименьшее образующее множество подпространства
Элементы математики в MCA
39
U. Образующее множество М векторного подпространства U называют минимальным, если не существует другого действительного подмножества М' а. М, для которого имело бы силу [ЛП = [7WJ = V.
Линейная зависимость. Линейной оболочке для множества векторов х(,х2,.. ,х„ принадлежат все линейные комбинации хьх2,...,х„, в том числе и нулевой вектор: п
0 = £0 X,. 1=1
Так как все коэффициенты подобной линейной комбинации — нули, то говорят о тривиальном представлении нулевого вектора. Последнее, нетрудно заметить, возможно всегда.
Напротив, нетривиальное представление нулевого вектора при заданных х1,х2,...,х„, когда все х(- *0, возможно не всегда:
п
0 = У а.х,, a, eR, и не обязательно все а, =0 . 4	4’4’	I
(=1
Если векторы х1;х2,...,х„ позволяют нетривиально представить нулевой вектор, то их называют линейно-зависимыми. Соответственно линейно независимыми векторы x!,x2,...,x„ будут при условии:	'
п
0 = £а,х, , только когда oq = а2 =... = а„ = 0. <=|
Пример 2.2. Рассмотрим три приведенных ранее вектор»: fol
Х1=Ы’ Х2 U/ Хз=Ы’
Все три вектора, а также пара векторов х2,х3 линейнозависимы. Векторы Х|,х2 и хнх3 являются попарно линейно независимыми.
Для любой системы векторов правомерны следующие высказывания:
1)	два вектора всегда линейно-зависимы, если они взаимно пропорциональны;
2)	векторы х1,х2,...,х„ будут линейно-зависимыми, если из них хотя бы один вектор представляет линейную комбинацию Других векторов;
40
Глава 2
3)	если в системе векторов Х[,х2,...,хп существует нулевой вектор, то все эти векторы линейно-зависимы;
4)	р+1 линейных комбинаций из р числа (любых) векторов — всегда будут линейно-зависимыми.
Базис и размерность. Минимальное образующее множество векторного пространства V называют его базисом.
Пр	имер 2.3. а) Зададим базис арифметического векторного пространства Rn системой так называемых собственных векторов:
Очевидно, можно любой предполагаемый вектор
представить в виде линейной комбинации xt, т. е.
У =	=У1-
/=1
б)	Рассмотрим векторное пространство всех полиномов до полинома высшей степени neN:
V =	рн(х) = Ьо + t\x + Л2х2 + ... + bnxn (а; eR, i =
базисом для V будет множество В е	|/ е {о, 1,2,п}}.
Свойства базиса. 1. Базис В для пространства V представляет линейно независимую систему векторов.
Предположим, что В — это система линейно-зависимых векторов, т.е. имеется по крайней мере один вектор хреВ, который можно представить как линейную комбинацию других векторов базиса. Но тогда j]= [в] и В не есть минимальное образующее множество. Последнее означает, что любое образующее множество М пространства V , включающее линейно независимые векторы, является базисом для V.
2. Если В есть базис то любой вектор у eV может быть разложен по этому базису и представлен в виде:
п
y = ^ialxl, xteB (z = l,...,«).
<=1
Элементы математики в MCA
41
И, наоборот, если имеется любой вектор yeV^Q, который может быть представлен линейной комбинацией векторов из подмножества В и BcU, то В — это базис V .
Пусть векторное пространство V * 0 и В есть базис для V, тогда размерностью V (dimИ ) называют число векторов базиса (Б).
Если имеется U — некоторое подмножество V, то действуют
следующие правила: dimt/ < dim И ,
dimt/ = dimP <=>t/ - V.
Пример 2.4. а) Для трехмерного пространства (J?3) базис будет иметь форму:
и размерность, равную трем: dim/?3 = 3.
б)	Вернемся к векторному пространству всех полиномов, высшая степень полинома равна п. Размерность этого пространства будет и + 1, так как его базис
=
2.2, Элементы матричной алгебры
2.2.1.	Трансформация базиса
Пусть И — это п -мерное векторное пространство, а 5 = {х1,...,хи} и В' = {х{,...,х'„} — два базиса И. Тогда можем х' — элементы из базиса В' представить в виде линейной комбинации векторов из В:
п
х\ =^,ссуху, z = ауеЛ,	, , (2.9)
7=1
и наоборот, Xj — элементы базиса В записываются как линейная комбинация векторов из В’:
п
J =	(2.10)
1=1
42
Глава 2
Подставим (2.10) в (2.9) и получим1:
~ Z «!/ $jk хк ’
*=А/=‘	)
где j^jk=8lk=^ \*=кк	(2.11)
Аналогичный результат получают и после подстановки (2.9) в (2.10): п f п	п
Х/=ЁЁМ<* Хк И ЁРла'*=5У*-	<2-12)
fc=K<=l )	<=1
Как видим, уравнения вида (2.9) и (2.10) позволяют заменить базис В на 2?', и наоборот.
Множества коэффициентов ау и ру; в развернутом виде представляются элементами квадратных матриц А и В , которые называют также матрицами линейного оператора:
Г«11 «12 - «1/
«21 «22	«2л
^«„1 ССЯ2 ^пп,
В матрице А, например, строки состоят из элементов a(I,...,aw, а столбцы — из элементов а1у-,а2/
В дальнейшем мы рассмотрим понятие матрицы и различные ее формы.
Пример 2.5. Имеется векторное пространство К с размерностью, равной 2, т. е. сйтИ = 2 ; для этого пространства существует базис В - {х[,х2}, векторы которого позволяют переходить к другим базисам V, скажем
x'l =Х] -х2,
Х2 = Х1 +х2 .
Матрица линейного оператора для приведенной пары уравнений принимает вид:
Л -П
рп Р12 -
₽21 ₽22	$2п
$п2 • • •	,
1 После подстановки индексация х изменяется с j на к. — Прим автора
Элементы математики в MCA
43
Система уравнений, соответствующая равенству (2.10): 1 , 1 ,
*1 ~2Х1	’
1,1, Х2=~~Х2+-Х2,
г 2
2
и матрица В-
2
1
I 2	2)
2.2.2.	Расчеты в матрицах
Матрица представляет собой обычную таблицу, удобную для систематизации количественных данных, не более того. Порядок выполнения действий над матрицами предполагает, однако, что столбцы и строки матрицы — это не простые наборы чисел, а
определенные системы векторов.
Соответственно представлениям о векторном пространстве рассмотрим операции сложения и скалярного произведения матриц. Примем обозначения пусть в любой матрице будет п строк и т столбцов. Когда п = т, матрица имеет равное число строк и столбцов и называется квадратной, а если п*т, матрица прямоугольная. Совокупность элементов матрицы образует
множество, поэтому для любой из них можем записать: AeRn,m . При выполнении операции сложения необходимо, чтобы слагаемые матрицы имели одинаковую размерность, скажем имеет-
ся AeRn'in и BeRn'm-.
'аи ап
а2\ а22
\ап\ ап2
6|2 ... Ь^' 1>22 ... Л2,„
йл2 • • • Ьпт ,
Сумма этих матриц образуется покомпонентным сложением элементов (azy +btJ):
<а11+^11	а12 + ^12 а\т+Ь\тУ
^4 + р= a2\+b2\ а22+^22  а2т+Ь2т
,ап\ + ^л! ап2 + &г:2	 атп + ^пт j
44
Глава 2
Скалярное произведение матрицы и любого действительного числа (а) также находится путем умножения элементов исходной матрицы на скаляр а:
	'аа,.	««12 .	• “«и/
а А :=	ас2!	а «22 	• ««2,и
		а«„2 .	• « апт ,
При помощи двух описанных операций — сложения и скалярного произведения — получают все возможные матрицы (яхт) определенного векторного пространства. Докажем, что в таком векторном пространстве действуют известные правила (2.1) - (2.4) и (2.5) - (2.8).
□ Доказательство'.
Выполнение аксиоматичных правил (2.1) и (2.4) следует автоматически из свойств ассоциативности и коммутативности операции сложения действительных чисел. (2.2) также выполнимо с нулевой матрицей, а сама 0-матрица при этом выступает как нейтральный элемент:
(О 0)
0= :	: — нейтральный элемент.
0J
Правило (2.3) выполняется, так как элементы любой матрицы —А представляют простую инверсию элементов А: знаки у элементов А в ~А изменены на противоположные.
Очевидно также, что и (2.5) — (2.8) сохраняют свою силу. 
Один из базисов рассматриваемого векторного пространства образует система:
р 0 ... 0\
0 0 ... 0
ГО I ... 0^ о о ... о
ГО О ... 0)
о о ... о
1° 0 -
10 0 ... 0J
1° о ... р
Эта система состоит из пхт элементов. Ясно, что размерность самого векторного пространства для всех (я,ш)-матриц
будет равна произведению пхт.
Остается рассмотреть операцию перемножения матриц. Она производится уже не покомпонентным способом. Пусть имеется
Элементы математики в MCA
45
А — матрица размерностью пхт и В — матрица размерностью (т х р), тогда произведение А • В найдем следующим образом:
cy = Xaikbkj (/ = 1,2,-,л; у = 1,2, ...,/>). k=l
Результатом перемножения А и В является матрица С размерностью пхр. Операция умножения матриц выполнима при
условии согласованности перемножаемых матриц по числу строк и столбцов: число столбцов в умножаемой матрице должно быть равно числу строк в матрице-множителе. Порядок выполнения операции умножения матриц предопределяет ее некоммутатив-ность, т. е. АВ * ВА .
Пример 2.6. Обратимся к примеру из области экономики и рассмотрим процесс товарного производства. Данный процесс
характеризуется последовательным прохождением этапов: подготовка производства (сырье, материалы, техника, рабочая сила), выпуск промежуточного и конечного продуктов. Обозначим век-
Рис. 2.1
тор факторов производства v' = (v1,v2,v3), промежуточный продукт — z' = (zt ,z2), конечный продукт — е/ = (е|,е2).
Представим схематично общий процесс производства (рис. 2.1).
На рисунке цифры над стрелками указывают конкретные объемные величины факторов производства и произведенного продукта. В
конечном счете из производства получают конечного продукта: = 3 и е2 = 4 единицы. Оп
ределим, какие входные характеристики должен содержать вектор v'~ (И, v2, Ъ), чтобы был обеспечен выпуск конечного продукта объемом е} и е2.
Пусть имеем:
3
4
2
2
4
3
(6 3)
Л‘ 5 4 " 4=
<3)
а также е= (рис. 2.1),
46
Глава 2
тогда из произведения матриц найдем:
<3	<152'1
<3 2^
30'
31
4 4
44 .
J53J
2.2.3.	Ранг матрицы и ее элементарные преобразования
Будем рассматривать строки и столбцы матрицы как некоторые векторы, тогда можем сказать, что матрица размерностью п х т состоит из п строчных векторов, компонентами которых являются данные т столбцов или, наоборот, матрица с числом векторов т, каждый с компонентами п из строчных данных. Другими словами, любая матрица А объединяет т столбцовых и п строчных векторов:
a22
<aim a2m
(aIIal2- -alm)>
^пт j
ИЛИ («21a22-a2m)>
(ал1ал2 ••• алт )•
v «2 7
Максимальное число линейно независимых вектор-столбцов называют столбцовым рангом матрицы, соответственно максимальное число линейно независимых вектор-строк определяют как строчный ранг А. Далее мы убедимся, что столбцовый и строчный ранги матрицы всегда равны друг другу, поэтому часто говорят просто о ранге матрицы без уточнения — строчном или столбцовом. Записывают ранг матрицы А кратко rgX, т.е. rg/4 = = ранг матрицы А. Чтобы количественно установить ранг некоторой матрицы А, необходимо определить число линейно независимых вектор-строк или число линейно независимых вектор-столбцов. Мы ограничимся действиями над строками матрицы и будем использовать следующие возможные для них элементарные преобразования;
1)	замена z-й строки в матрице г-й строкой, умноженной на некоторое действительное число а;
2)	замена /-й строки в матрице строкой, полученной в результате суммирования г-й и /-Й строк, i *j, i,j е {1,..., п}.
При помощи преобразований 1) и 2) любая матрица приводится к виду, при котором все линейно-зависимые вектор-строки обнаруживают себя как нулевые векторы.
Элементы математики в MCA
47
Пример 2.7. Определим ранг матрицы А:
А 1 -3 П
1 1 -1
2 -13	1
1^2 -1 14 -2)
Произведем двойное вычитание- первой строки из второй и четвертой строк матрицы А, первая и третья строки матрицы остаются при этом без изменения:
А I -3 Г
0-1	7-3
0 2 -13	1
2 -3 20 -4,
Последовательно сложим вторую строку с первой и умножим вторую строку на (—1):
А 0	4 -2А
0 1-73
0 2-13	1
2 -3 20 -4,
Вновь произведем двойное вычитание, на этот раз из третьей строки второй, и, кроме того, троекратное сложение второй строки с четвертой:
''10 4 -2'
0 1-7	3
00	1 -5 '
,0 0 -1 5>
Сложим третью строку с четвертой:
А 0 4 -2А
0 1-7	3
0 0	1	-5
,0 0 0	0	.
48	Глава 2
Очевидно, что при помощи элементарных преобразований другие строки матрицы А, кроме четвертой, не могут быть обращены в ноль. Следовательно, число линейно независимых векторов равно трем и соответственно rg А = 3.
Покажем теперь, что столбцовый и строчный ранги любой матрицы равны между собой. Пусть имеем матрицу А со столбцовым рангом z и строчным рангом s. Посредством элементарных преобразований получим из матрицы А некоторую трансформированную матрицу Л* со строчным рангом z* и столбцовым рангом 5* следующего вида:
л*=	а <<	... ) ...		)	) ... ) ...			... * о	0	*...*) ... *	0	0	:	: ) ... о 1	:	:• :	0	:	: :	q *	* :	:	।	*	* 	;	о	о	...	о ) ... 0	0	0	0	...	оу
В матрице A* z' — число тех строк, которые не равны нулю, т.е. z! — это число линейно независимых векторов в А* и должно выполняться правило: z! = z, так как линейная оболочка для вектор-строк в А идентична линейной оболочке для вектор-строк А*, а значит и размерность обеих линейных оболочек одинакова.
Для Л* допустим, что z* = 5'*и осуществим обратный переход от Л* к Л. При этом, естественно, все действия со строками будут происходить как бы в обратном порядке. По аналогии с приведенной выше аргументацией тогда устанавливается равенство s* = 5 и соответственно z = -s. Но последнее означает, что определение ранга матрицы может производиться при помощи преобразований строк или столбцов, причем в результате этих взаимозаменяемых действий будет получен один и тот же результат. В общем каждую матрицу ранга г представляется возможным в ходе выполнения элементарных действий над строками (столбцами) привести к простой форме:
Элементы математики в MCA
49
Л	... (Г
0	10	...	о
о о о ... о
О	0	0	1	о	...	о
0	0	0	0	0	о
.0	-	о,
Ir	г
Л, число единиц в матрице равно г.
2.2.4.	Система линейных уравнений
Определения. Систему линейных уравнений в общем виде можно записать:
+ Я12-Л +	+ ЛпЛп = Ь1
a2ixl + а22х2 + •• + «2/Лг = Л
ап1х1 + ап2х2 + ... + аптхт = Ь„, т.е. система состоит из п линейных уравнений и т переменных (xb..., х„,), высшая степень для всех переменных — первая.
При помощи операции перемножения матриц данную систему уравнений можно переписать в сокращенном виде:
Ах = b при А е RA т, х е Rm, b е R".
Здесь коэффициенты atJ и свободные члены (правосторонние переменные) — это действительные числа. В случае, если b является нулевым вектором, систему линейных уравнений называют гомогенной, во всех других случаях — негомогенной1. Решением такой линейной системы уравнений будет вектор:
( *\
Л
х* = • , * xt„ к "V после его подстановки в систему все равенства выполняются. При этом х* представляется решающим вектором, а множество L = {х* е Ах* = Ь} — решающим множеством, в свою очередь L есть подмножество в Rm.
1 В отечественной литературе обычно такие системы линейных уравнений называют однородными и неоднородными — Прим пер
50
Глава 2
Остановимся подробнее на понятии решающего множества и с этой целью рассмотрим три следующих простых случая:
I.	Система не имеет решения:
Зх; — х2 = 4,
6х| _ 2х2 = 7.
Если найти решение первого уравнения для х2 и подставить результат во второе уравнение, получим 8 = 7. Это означает, что решающее множество является пустым (£ = 0) и система линейных уравнений не имеет решения.
II.	Существует бесконечное множество решений:
3xj — х2 = 4,
6х] — 2х2 = 8.
Решая данную систему уравнений, как показано в случае I, всегда будем иметь 8 = 8, т.е. система линейных уравнений обладает бесконечным множеством решений. При этом можем записать:
х2 = Зх[ — 4, Х| е R, и множество решений будет
f f х,''I , fxA f 0 ''i Ш	1
£ = <x= ей2 = +X , Хейк !>x2j \x2) \j-4J !>3J	I
В этом случае говорят, что решение представляется полем действительных чисел уровня, равного трем, проходящим через точку (0, -4).
III.	Имеется одно решение:
3xj — х2 = 4,
X, _ х2 = 0.
Здесь после определения х2 = Зх[ - 4 и подстановки х2 во второе уравнение получим xt = 1 и соответственно ~ ~ 1. Решение одно и оно четко определено:
Рассмотренные случаи вплотную подводят к вопросу о том, имеют ли анализируемые системы уравнений решение, и в случае, когда решение есть, — к вопросу о структуре решающего множества. Ответы на эти вопросы могут быть найдены при помощи элементарных преобразований так называемой
Элементы математики в MCA
51
расширенной уравнений1:
матрицы коэффициентов системы линейных
(А\Ь) =
«21
\ап\
«!2	...	«!от	:
а22		а2т	'	Ь2
ап2	•' •	апт		)
Система линейных уравнений Ах ~ b будет иметь решение, если ранг матрицы А равен рангу расширенной матрицы (А • Ь). В частности, это означает, что гомогенные системы линейных уравнений всегда имеют решения благодаря существованию тривиального решения х = 0.
22.5. Решение системы линейных уравнений
Допустим, что располагаем системой линейных уравнений:
Ах = Ь, А е №'•х ~ Rm, b е Rn,
и эта система имеет решение. Тогда следует рассмотреть два возможных случая, рассмотренных выше:
•	система имеет одно определенное решение;
•	система имеет бесконечное множество решений.
Вначале рассмотрим гомогенную систему линейных уравнений Ах = 0, она обладает тривиальным решением х = 0 при условии, что п > т и rg А = т. При заданных условиях для негомогенной системы уравнений решением будет х* = Ь*, где Ь* — правосторонние члены расширенной матрицы коэффициентов линейных уравнений после проведения с ней элементарных преобразований:
'1	0	... 0
0	1	0 ...	0
А* = 0 ... 0 ... 1
0 ... 0 ... 0
1 В отечественной литературе расширенной матрицы системы — Прим пер
52
Глава 2
Уравнения в А* начиная с т + 1 до и не имеют никакого значения для решения системы. Это линейные комбинации строчных векторов:
х\ = (1, о, о, •, о),	= (о,.., о, 1),
которые в ходе элементарных преобразований обращаются в нулевые строки.
При п > т и rg А = р < т, или п > т, гомогенная система линейных уравнений имеет бесконечное множество решений, так как в матрице А в этом случае всегда имеются вектор-столбцы, линейно-зависимые от р — ее линейно независимых вектор-столбцов. Решение негомогенной системы получают при этом путем обобщения решения, найденного для гомогенной системы, когда после проведения элементарных преобразований расширенная матрица коэффициентов линейных уравнений дополняется правосторонними элементами Ь*, представляющими оп
ределенные суммарные значения:
"10	..	0	*	..	*	:	Ь* "
0 1	0 ...	0	*	...	*	:
6 «Л
0 , Р<т>
0 ............ 0	0 ... 0 :
J) ... 0 ... 0	00:
Обобщая основные положения,
поиска решений
для систем линейных уравнений, отметим, что системы Ах = Ь, со-
держащие п уравнений и т переменных, имеют решение, когда ранг матрицы А равен рангу расширенной матрицы (А  Ь). Если же система уравнений имеет решение, то это решение будет единственным при условии, что принадлежащая исходной гомогенная система Ах = 0 обладает только одним тривиальным решением х = 0. Во всех других случаях система уравнений имеет бесконечное множество решений, которые следует рассматривать как суммы решений гомогенной системы и одного определенного решения негомогенной системы уравнений.
Пример 2.8. Для рассмотренных выше трех случаев с различными системами линейных уравнений покажем элементарные преобразования расширенной матрицы (А : by.
Элементы математики в MCA
53
3 -1 4) 6 -2 7J	р -1 До о -ij	1 Г1 ~1/3 |-До о	4/3) -i J	(случай I),
1 -1 4)	р -1 4)	р -1/3	4/3)	
6 -2 8)	До 0 0/	До о	0 J	(случай II),
3 -1 4)	f4 ° 4Л ,	р 0 °)		
1	1 0 Г	11 1 о j 1	1о 1 -1		(случай III)
Пример 2.9. Возьмем в качестве матрицмгко»ффициентов линейных уравнений матрицу А
1 -3	1'
2 1	1-1
А~ 0 2 -13	1
2 -1	14 -2,
и дополним ее вектором значевдй свободных членов (правосторонних элементов):
Получим:
х{ + х2 - Зх3 + х4 = 1,
2х, + х2 + х2 — х4 = О, 2х2 — 13х3 + х4 = —1, 2xj - х2 + 14х3 - 2х4 = а, а е R.
В приведенной системе уравнений п = т = 4. Производя элементарные преобразования, построим следующие расширенные матрицы коэффициентов линейных уравнений:
54
Глава 2
	Г1 0	0 1	4 -7	-2 3	-Г1 2	I-4-III, II+7I.		р 0	0 1	0 0	18 -32	19' -33
в)	0	0	1	-5	-5		г)-	0	0	1	-5	-5
	.0	0	-1	5	а+4,	IV + I1I,		<0	0	0	0	а~ L
Для представления алгоритма элементарных преобразований используется запись вида III + 2 • II, что означает следующее: элементы второй строки матрицы умножаются на два, затем складываются с элементами третьей строки и заменяют исходные третьей строки.
Очевидно, что приведенная матрица имеет ранг rgX = 3. Соответственно и расширенная матрица приобретает такой же ранг, одновременно выбирается а =1.
При заданных р = 3<4 = п = т для системы уравнений имеется бесконечное множество решений. В то же время, принимая, например, Х4 = 0, можно получить конкретное решение для негомогенной системы:
(у \
х2
*3
Л»,
' 19 '
-33
-5
< 0 ,
В общем для гомогенной системы множество решений формируется при свободном выборе значений для одной из переменных. В нашем случае любые значения принимает Х4, тогда Х[ = = —18x4, х2 = 32x4, *з = 5х4. Формально все множество решений системы при этом записывается:
здесь роль х4 выполняет параметр р.
Пример 2.10. Решение системы уравнений при условии п < т;
X, + 7х2 + х3 + х4 = 10,
х2 + х4 = 2,
X] + х3 = 2,
Элементы математики в MCA
55
Произведем элементарные преобразования:
	Д 7 1 1 : 10'	I	-7 II;	<10 1 -6 : -	-4'	I + III
а)	0 10 1: 2		в)	0 10	1 :	2	II - Ш/6
	Д 0 1 0 : 2>			,0 0 0	6 :	6>	Ш/6;
	Д 0 1 -6 : -	4'	* >	Д 0 1 0 : 2'		
б)	0 10	1 :	2	г)	0 10 0:1		
	J 0 1	0 :	2,	HI-I;	,0 0 0 1 : 1,		
Очевидно, rg/1 = 3 и равен рангу расширенной матрицы. В результате получаем решение линейной системы уравнений: х{ находится в зависимости от х3, т.е.
*1 = 2 — х3, х2 = 1; х3 = 1.
В данном случае для определения четырех переменных мы имели три уравнения, т.е. заданы три условия на входе. Допуская, что система вообще обладает решением, вначале было необходимо найти по крайней мере одну из переменных: хх = 2 — х3, х3 g R. После этого множество решений системы можно пока
зать, используя уравнения связи векторов:
о Пример 2.11. Решение системы уравнений при условии я > т:
Xi + 2х2 + Зх3 = 1,
4xi + 5х2 + 6х3 — 2,
7xj 8х2 + 9х3 — 3,
5х] + 7х2 + 9х3 = 4.
В примере заданы четыре уравнения (входных условия) для определения трех переменных. При помощи уже известных нам элементарных преобразований попытаемся определить неизвестные переменные х;.
Приведенная система уравнений не имеет решения, так как rg А = 3, a rg (А  Ь) = 4 и четвертое уравнение противоречит Другим уравнениям системы, т.е. L = 0.
56
Глава 2
2.2.6.	Квадратные матрицы
Выше показано, что множество (п х т)-матриц, обладающих свойствами аддитивности и скалярного произведения, образует векторное пространство. В дальнейшем из всего множества матриц будем рассматривать квадратные матрицы и основные алгебраические действия над ними. В квадратной матрице, как известно, число строк равно числу столбцов.
2.2.7.	Транспонированные матрицы
Для любой (и х т)-матрицы А, с необязательным выполнением равенства п = т можно найти транспонированную матрицу (ее обозначают АТ, или А'). В транспонированной матрице А строки матрицы А заменены столбцами, или, что то же самое, столбцы заменены строками. В случае, когда п = т, транспонированная матрица представляет собой зеркальное отображение элементов матрицы А относительно ее главной диагонали.
Выполнение арифметических действий над транспонированными матрицами подчиняется следующим правилам. Пусть имеются две матрицы Л и В размерностью п х щ и третья матрица размерностью п * р, тогда:
(А + В)' = А + В,	(2.13)
(САУ^АС,	(2.14)
rg Л == rg ЛС	(2.15)
Правило (2.13), очевидно, не требует доказательства своей правомерности. Правило (2.14) получают исходя из определения произведения матриц:
(/ = !,.,.,д;/ = !,...,/«)
А=1
и, следовательно,
(СЛ)' = '£ajkcki = А'С' (J	i = 1,...р).
*=!
Правило (2.15) вытекает непосредственно из аксиоматичного положения о том, что строчный ранг матрицы всегда равен ее столбцовому рангу.
Элементы математики в MCA
57
2.2.8.	Структура множества квадратных матриц
Будем рассматривать множество Л/1"’ "> всех (я х «)-матриц,
включая матрицы, представляющие всегда определенные результаты произведений квадратных матриц. Векторное пространство над множеством Min-л) обладает рядом примечательных свойств:
пусть А, В и С — матрицы и одновременно элементы Л/"- п\ тогда (АВ) С = А (ВС)
(ХА) В = Х(АВ) = А (ХВ) — свойство ассоциативности (2.16)
А (В + Q = АВ + АС (В + О А = ВА+ СА
Д	О'
1 =
1°	U
— свойство дистрибутивности (2.17)
— единичная матрица, выступает как нейтральный элемент, имеет силу равенство А • I = I • А = А. (2.18)
Для произведения квадратных матриц, как и в общем случае, свойство коммутативности не действует: АВ * ВА.
Наконец, для квадратных матриц выполняется операция об-
ращения, т.е. осуществляется поиск элемента А~1 такого, что
А • А~' = А~[ А = /.
Эта операция более подробно рассмотрена ниже.
Замечание. Свойства (2.16) и (2.17) сохраняют свою силу, поскольку операция произведения квадратных матриц всегда определена.
2.2.9.	Обращение матрицы
Пусть имеется некоторая матрица А размерностью (п х п) и 4 — единичная матрица той же размерности. Попытаемся ответить на вопрос, может ли быть найдена четко определенная (« х л)-матрица Я,, для которой выполняется А А~' = 1п1 Запишем элементы приведенного уравнения более подробно:
А-А"1 =(ay),	i = ,п;	j = 1,...,«;
Л”1 =(Х7А	/=!>,«;	к=\,...,п.
Принимая во внимание, что ААЛ = I,можем записать
л	(1,	если	/ = к
А  А~!	а,^=1
у=1	|0,	если	/ *к.
58
Глава 2
Последняя запись означает, что для некоторого установленного числа к существует следующая система линейных уравнений:
ГОЛ
Ахк = ек с ек =
<- к-я строка матрицы А.
> W
Данная система из п линейных уравнений решается с матрицей коэффициентов А, в расширении которой располагаются элементы b = ек.
Алгоритм, допускающий одновременное решение системы п линейных уравнений и приводящий к обращению исходной
матрицы, покажем на примере:
Пример 2.12. Задача с обращением исходной матрицы:
'12 3 2-14
J 0	2
'12	3
О -5	-2
О -2	-1
'10	2
0	1	1
J) -2 -1
'10	2
0	1	1
0	0	1
'10	0
0	1	0
0	0	1
1 0 О'
0 1 0
0 0	1?
1	0 О'
-2	1	0
-1 0 1J
о о Р
1	1 -3
-1 0	1,
0 0	1'
1	1 -3
1 2
-2	-4
0	-1
1	2
II-2I
Ш-1
1 + Ш П-3 III
1И%Й-ПР*Л‘
1-2 III II-III
2
-5
При решении
задачи преобразования матрицы на третьем
шаге алгоритма произведены с учетом аксиоматичного положения о равенстве строчного и столбцового рангов. На завершаю
Элементы математики в MCA
59
щем шаге алгоритма получаем матрицу, в расширении которой систематизированы элементы обратной матрицы А4:
'-2 -4 1Р
А~‘= 0-12
I 1 2 -5J
Очевидно, что предпосылкой для успешного поиска единственного решения представленной выше системы линейных уравнений было изначальное соблюдение равенства rg А = п.
Обобщим теоретические выводы относительно действия обращения матрицы: для имеющейся полноранговой матрицы A (rg А = п) можно найти единственную матрицу /Г1, с которой выполняется условие: А • А~1 = Я-1 • А = I.
Матрицу А~1 получают расширением исходной матрицы А путем введения соответствующей единичной матрицы и последующим проведением элементарных преобразований в расширенной матрице. В ходе преобразований получают также расширенную матрицу, в ее левой части находится единичная матрица, а в правой — элементы обращенной матрицы А~1.
В качестве наглядного примера решения экономической задачи при помощи разнообразных операций над матрицами, рассмотренных выше, представим общую схему построения межотраслевого баланса, разработанную известным экономистом В. Леонтьевым, ее еще называют таблицей «затраты — выпуск» (рис. 2.2). Такая таблица состоит из четырех квадрантов, четвертый квадрант остается свободным, три других квадранта формируются в виде матриц. Назначение каждого из заполняемых квадрантов определяется содержащейся в нем матрицей.
Первый квадрант: матрица межотраслевых потоков (X =	/,
J = 1, 2,..., k\ X — квадратная матрица). Элементы матрицы x:j представляют объемы производства и поставки продукции из ,-й отрасли в j-ю отрасль.
5| — суммирующий столбец, отражающий общие объемы производства в каждой из к отраслей экономики, т.е. к — строки. Значения 5, легко исчисляются с единичным вектором
, его число строк также равно к: Sx - X ек.
60
Глава 2
	Промежуточный спрос — производственная сфера 1 2	к	к X 1	Конечный спрос 1 2	т	т X 1	к т XX 1 1
1 Промежуточные затраты производственных отраслей !		to —	I квадрант X Центральная матрица межотраслевых потоков (хозяйственных операций)		II квадрант У Матрица конечного спроса	S2 = у	и и
к X I	54		^5		
I 1	Первичные затраты (платежи за факторы производства и импорт — добавленная стоимость)* 1»	Ь->	—	III квадрант Z Матрица первичных затрат		IV квадрант		
п X !	5; = Z'				
к п XX 1 1	S^X'				
Рис. 2.2. Схема построения таблицы «затраты — выпуск» В. Леонтьева (базовая схема межотраслевого баланса)*.
Элементы математики в MCA
61
Соответствующим образом j-й столбец первого квадранта показывает поступление продукции в каждую у-ю отрасль из какой-либо другой, или своей же отрасли (внутреннее потребление). Строчный вектор 54 получают суммированием всех поступлений продукции по к отраслям:
54 = е'к X,, (ек, к), (к, к) -> (ек, к).
Второй квадрант: матрица конечного спроса
Y = (уа), i = !,•••, к; 5 = 1,..., т, где у„ — продукция для конечного потребления, поставленная из отрасли / в 5-ю группу конечного спроса.
Во втором квадранте формируются следующие показатели сумм:
52 = Y  ек — общий объем поставки продукции каждой из к производящих отраслей своим потребителям (для промежуточного потребления);
S5 - е'т Y — объем совокупного спроса в каждой из т групп конечных потребителей;
53 = 5, + 52 — общий объем поставляемой продукции каждой из к отраслей, представляющий суммарный итог поставок для промежуточного и конечного потребления: 53 — S{ + 52 = X • е'к + + Y  е’т =: х. Компоненты вектора 53 отражают общие потребления производственных товаров и услуг — х = (х{,х2, ..., хк).
Третий квадрант: Z~ (zrj),j — 1,..., к', r= 1,..., п,
где zrj — количественная характеристика стоимости факторов производства и импорта (добавленная стоимость), т.е. каждая r-я строка матрицы Z отражает потребление г-го производственного фактора в каждой из к отраслей.
Суммарные итоги квадранта:
56 = Z ек— общее использование каждого из производственных факторов;
5, = ек Z— общее использование производственных факторов в каждой из j отраслей производящей сферы.
Уже известный нам, но только транспонированный вектор х может быть получен при помощи матрицы Z:
54 + 5( = X ек + Z ек	(ху, ..., хл).
62
Глава 2
Таким образом для каждой Л-й отрасли находится общее потребление производственных товаров (услуг) и факторов производства. При этом для каждой из к отраслей производящей сферы сохраняется равенство сумм, отражающих потоки продукции на входе и выходе, и действует равенство: х = (х')'.
Построение таблицы «затраты — выпуск» осуществляется одним из двух методов:
1)	методом «выпуска», когда заполняются строки матриц таблицы,
2)	методом «затрат», когда заполняются столбцы матриц таблицы.
Метод «выпуска»
При формировании матриц X и У выпуск товаров и услуг по отраслям производственной сферы определяется на основе данных статистики сбыта.
Метод «затрат»
Матрицы X и Z заполняются данными о затратах, произведенных в отдельных отраслях, на основе сведений статистики движения сырья и материалов, а также статистики затрат и статистики товарных знаков.
На практике оба метода используют вместе, в комбинации, учитывая возможность получения тех или иных данных.
Информация из таблицы «затраты — выпуск»  широко используется для:
•	изучения структуры центральной матрицы X;
•	исчисления (приблизительного оценивания) структурных коэффициентов прямых затрат:
аь-=—i = [,...,k, при установленном j е {1, ..., к}.
х j
Так как во всех отраслях в произведенный продукт, кроме промежуточного потребления (ху), входят элементы добавленной стоимости, действует неравенство:
к
i=I
ay называют также производственными коэффициентами прямых затрат. Коэффициенты первичных затрат с9 получают по данным матрицы Z:
Элементы математики в MCA
63
cri =—, г = \,...,п, при установленном j е {1,	к}.
XJ
При обобщении данных расчетов коэффициентов лу будем иметь матрицы:
А = (а,7) — матрицу коэффициентов прямых затрат;
С - (с5) — матрицу коэффициентов первичных затрат.
Кроме этого, по данным первого квадранта таблицы «затраты — выпуск» исчисляют коэффициенты полного выпуска, обобщающие относительные величины промежуточного и конечного потребления:
Х(у
Ь„ =— , при установленном j е {1,..., к},
xi.
для коэффициентов by также действует неравенство к
^Ьу<\.
7=1
Множество коэффициентов by образует матрицу коэффициентов распределения: В = (bt).
Наконец данные матрицы X и Y позволяют определять коэффициенты «конечного спроса — выпуска»:
s = l,...,m, при установленном ze{l,...,fc }
xi-
к т
Матрица D = (dis)c^by + '£dis = 1 для всех ie{l,...,k}.
_/=1 1=1
Исчисляемые в рамках межотраслевого баланса коэффициенты открывают возможность построения аналитических моделей «затраты — выпуск».
Аналитическая модель затрат. Вектор конечного спроса у*, как известно, определяется соответствующими объемами прямых (х;у) и первичных (z*j) затрат, именно они составляют величину продукта, используемого затем для удовлетворения конечного спроса. Таким образом, для каждой Лй строки матриц X и Т, I е {1,..., к}, можем записать:
к	т	к
'^хи + ЦУн = Хаихн+У<.>
7=1	1=1	У=1
или уравнение в матричном виде
х = Лх + у <=> х — Лх <=> (I-A) х = у => х* = (7-Л)-1у*.
64
Глава 2
Матрицу вида (Г-А) называют матрицей Леонтьева или матрицей технологических затрат, обратная ей матрица V = (/-Л)-1 — это матрица коэффициентов межотраслевых связей (или просто обратная матрица Леонтьева). Компоненты матрицы V, т.е. vl}, показывают, на сколько следует увеличить производство продукции в каждой из i отраслей, чтобы обеспечить дополнительную единицу конечного спроса в продукции j-й отрасли. Другими словами, коэффициенты уу — это мультипликаторные величины.
Аналитическая модель выпуска. Модель имеет вид:
xj^Yxv + ^rj='LbJ+xl +Zj, ц
<=1	г=1	<=1
или в матричной форме
х' = х' В + z' <=> 3?' = z*' - х'В = z' <=> V (/-В) = zz <=> х*' = z*' (/-В)-1
Последняя из этих записей означает, что на основе данных о величине первичных затрат (z*z) могут определяться прямые затраты х*', и те, и другие затратные элементы участвуют в формировании стоимости продукта, удовлетворяющего конечный спрос (У).
2.2.10. Определители
Определители матрицы и их свойства. Здесь будем рассматривать только квадратные матрицы (п х п), причем матрицы, обобщающие множества действительных чисел.
Определителем квадратной матрицы А называют некоторое число, полученное путем преобразования ее элементов по определенному правилу.
Определитель матрицы det: = М (п, п) -> R обладает следующими основными свойствами:
определитель матрицы представляет линейную форму каждой из ее i строк, т.е. det4 = djay,j = 1,..., т\	(2.19)
rg А < п <=> det4 = 0;	(2.20)
det/= 1	(2.21)
Кроме приведенной формы записи определителя deU, существуют одинаково правомерные другие формы: ДЛ, |Л| и т.д., для удобства выберем и будем чаще использовать deU и | А |.
Элементы математики в MCA
65
Первое свойство определителя означает следующее: пусть имеется (л х л)-матрица А:
	41 •	• а1/
	а<1 .	 ат
	Д«1 •	• апп j
произведем замену одной из строк матрицы А, скажем, -элементы ;-й строки заменим вектором (а,*,. ,а*п):

аП ..	• а\п
а/-1,1	• а1-1,п
*	*
а<1	..	ат
а<+1,1 •	 ai+\,n
ал1	апп
Далее обозначим В матрицу, которая получена из исходной матрицы А заменой в ней одной (/-й) строки, т.е. заменой элементов этой строки а,,..., а,„ новыми значениями о(*,. ,,а*п:
В =
ан •	а1л '
а<-1,1		а<-1,л
*	*
а,1+а,1 •	• ат Jt'am
а(+1,1	• ai+\,n
ал1	•	апп )
Согласно первому свойству определителя матрица для |5( действует:
| 5| = |Д| + |Л* |	0 = 1,..., л).
Предположим, что замена /-Й строки матрицы А произведена несколько иным образом, а именно: д* = a av, и построена матрица С, учитывающая эту замену:
3 Многомерный статистическим
66
Глава 2
Г «и - а\п 'l
«<-1,1 «<-!,« ««</	... а о;„
«< + 1,1	"•	«< + 1,л
аеЛ (/ =	«).
< «л1	••• апп ,
* Тогда по первому свойству определяется:
С = а | А/\	(/ = 1,..., и).
Само по себе определение детерминанта матрицы как det:	") -> J? не дает оснований для формирования алгоритма
его исчисления. Это становится возможным с использованием
уже приведенных выше трех основных свойств детерминанта и следующих правил:
а)	если имеется матрица А*, полученная из Л в результате многократного прибавления элементов одной ее строки к элементам другой, то | А | = | Л*|;
б)	если матрица А* получена из А заменой одной строки на другую, то | А | = - | А *|;
в)	если А' — это транспонированная матрица А, то | А | = | А'\;
У г) для всех матриц А, В е В п) имеет силу |Л5| = | А |  | В|;
д) |аЛ| = а"|Л|;
е) если матрица А имеет хотя бы одну нулевую вектор-строку, то |л| = 0;
и) если элементы двух строк (две вектор-строки) матрицы А находятся в линейной зависимости, то |Я| = 0.
Перечисленные свойства детерминанта связаны так или иначе с преобразованием строк произвольной матрицы А. Понятно, что эти же свойства сохраняют свою силу при проведении аналогичных преобразований не со строками, а со столбцами матрицы А.
Определение детерминанта. Расчет детерминанта для некоторой матрицы А е М потребует введения еще одной матрицы Ay — это такая матрица А, из которой удалены /-я строка и у-й столбец, т.е. матрица A,j имеет размерность (п — 1) х (й - 1). Имея А и Ац, можем записать: п
<=i
Элементы математики в MCA
67
Такую формулу называют Лапласовым разложением детерминанта по у-му столбцу. Ее применение на практике позволяет сжимать любую квадратную матрицу до минимального размера, с включением всего нескольких чисел, а затем по простому алгоритму вычислять сам детерминант.
Пример 2.13. Пусть имеется (4 х 4)-матрица А:
'1 1 4 -1Л
10 3 2
А =	.
1-10 3
Л 2 1
Произведем разложение детерминанта по элементам второго столбца. Выбор столбца в данном случае объясняется тем, что он содержит по крайней мере один нуль:
	'1 3 2>		'1 4
det|4| = (-1)(1+2) 1 -det	1 0 3	+ (-l)(2+2).0-det	1 0
	Л 1 0,		<4 1
Полученные детерминанты размерности (3 х 3) могут быть подвергнуты дополнительному разложению. Обратим внимание, что столбцы, по элементам которых осуществляется разложение, целесообразно выбирать с наибольшим числом нулевых элементов. В данном случае, как видно, разложение первого и четвертого детерминантов второго уровня следует производить по элементам второго столбца, а третьего детерминанта — по элементам третьего столбца:
det А = -(-1)(1+2> • 3 • det^ - (-1)(2+2) • 0 • det^ - (-1)(3+2> • 1  det|
+ (-l)0+3).(-l).detP f|+(-l)(2+3H-detP *L(-l)(3+3)-O-detP I'*/	\	/	\*
+ (-l)(1+2).4.detf	+ (-1/2+2)• 3 detC \+(-l)P+2^-0-detf
68
Глава 2
Продолжая разложение детерминантов (третий уровень), получим |Л|:
det/1 = +з[(-1)(,+2) 3 4 + (-1)(1+1) 0 1 ]+1[(-1)(1+1) 1 3 + (-1)(2+1> 1 2 ]--1[(-1)(1+1) 1 l+(-l/2+1) 4 3 ]-2[(-2 1 + (-1)(2+1) 4 4]--8[(-l/1+1) 1 3 + (-l)(2+1) 1 2 ]+б[(-1/1+1> 2 3 + (-1/2+1) I (-1) ]= = -36 + 1 + 11 + 28-8 + 42 = 38.
Для случаев, когда п < 3, с целью определения детерминанта
матрицы могут применяться более экономные методы по сравнению с рассмотренным в примере выше. Скажем:
п = 2 и А =
1а21
ац'
a22J
	<аи	а12	а13
Если п = 3 и А =	а21	а22	а23
	,а31	а32	а33
, тогда det А = Оц«22 ~ «i2a2i-
, расчет детерминанта может
производиться по так называемому правилу Сарруса:
det Л = «[
1а22а33 +а12а23а31 +а13а21а32 ~(а13а22а31 +а12а21а33+а11а23а32^
В данном случае детерминант А представляет собой сумму произведений элементов, расположенных на главной диагонали, за вычетом сумм произведений элементов, принадлежащих побочной диагонали. Естественно, детерминанты матрицы с п > 3 могут подвергаться разложению до тех пор, пока не станет п = 3, а затем определяться по упрощенному правилу Сарруса.
Линейные системы уравнений и детерминанты. Свойства определителя, в частности (2.19), позволяют делать вывод о том, что элементарные преобразования матрицы не изменяют его величины. Кроме того, следует признать правомерным утверждение: det А = 0 <=> rg (А) < п.
С учетом приведенных высказываний для линейной системы уравнений: Ах = 6, А е К"' х, Ь е Я", существует единственное решение при условии равенства числа уравнений системы числу ее неизвестных переменных (х), т.е. когда rg А = п и det А * 0. Решающий вектор х* тогда определяется по формуле: х* = А~'Ь. Отдельные компоненты вектора х* могут быть исчислены без
Элементы математики в MCA
69
полной обратной матрицы А 1, при этом любая fc-я компонента находится по формуле:
x'k =H3kibi> /=1
где ак1 — элементы обратной матрицы Г1.
Элементы ак1 легко определяются при помощи матрицы Av:
ак> ~ det Л
соответственно можно сделать запись для х'к:
1 п
хк =-7~-л^Ь,^^+к detAkl det A
Следуя основным свойствам детерминанта (2.19) и (2.20), выражение, стоящее под знаком суммы, можно представить также определителем:
det 4, = det
Й11 ••• а1,к-1 Ь1 а1,к+1	••• Й1
Йл1 •  ап,к-\ Зп ап,к+\
Обобщая теоретические выводы по оцениванию вектора х*, приходим к так называемому правилу Крамера: если имеется некоторая система линейных уравнений: Ах = Ь, А е Л", п; х, b е Лп, и эта система имеет единственное решение при условии det Л * 0, то это решение находится последовательным исчислением компонентов решающего вектора по формуле:
хк —----’ к — 1,..., п.
к det4
Пример 2.14. Пусть имеется система линейных уравнений:
Х1 +х2 ~-гЗ =°>
*1	+х3 =1,
2х| — X2	— 2
Следуя правилу Крамера:
det Л = det 1
1 -Р
0 I =2+1+1=4*0 и
-1	0
70
Глава 2
0
D{ = det 1
2
'1
-D2 = det 1
I2
Z>3 = det 1
2
Система имеет единственное решение: х* = -
4
2.2.11.	Собственные числа и собственные векторы
Пусть по-прежнему имеется матрица А размерностью (п х п) и некоторое действительное число X е R. Рассмотрим уравнение вида:
Ах = Ах, где А е R ("> п\ х * 0, X е R.
Число X, как и вектор х, является решением приведенного уравнения, при этом X и х принадлежат друг другу, и X называют собственным числом, ах — собственным вектором матрицы А. Как собственное число, так и собственный вектор для одной матрицы представляют не единственное решение, их может быть несколько. В частности, всегда допускается в качестве одного из решений нулевое значение собственного числа: X = 0.
Если существует X — собственное число матрицы А и Ек — это множество всех принадлежащих этому числу X собственных векторов, то Егк и {0} есть векторное пространство собственного числа X.
Для определения алгоритма исчисления собственных чисел и собственных векторов рассмотрим вытекающую из приведенного выше уравнения систему уравнений вида: Ах - Хх = 0 или эквивалентное ей выражение (А — X/) х = 0 Это по сути гомогенная система уравнений, которая по меньшей мере имеет одно тривиальное решение х* = 0; напомним, что это решение представляется некоторым собственным вектором
Элементы математики в MCA
71
Собственные векторы для матрицы А имеются и тогда, когда линейная система уравнений обладает нетривиальными решениями. Например, хорошо известен случай: rg (А — М)< п.
Задача определения собственных векторов сводится к оценке ранга матрицы (А — X/) и последующему решению приведенной выше системы линейных уравнений.
В п. 2.2.10 мы установили, что
rg (А — Л7) < п <=> det (А — Л7) = 0,
следовательно X точно воспроизводит собственное число матрицы А при условии, что det (А — Л/) = 0. Оценкой данного детерминанта является полином л-й степени. Такой полином назы
вают характеристическим полиномом матрицы А, собственные числа — это исходные (нулевые) точки полинома — одно из основных положений алгебры. Матрица размерностью (п х я) всегда имеет п собственных чисел.
Пример 2.15. Пусть имеем матрицу А:
' 2
-8
0
-2
-2
5
3
-1
-2
-8
0
2
А =
; тогда ее определитель будет:
det(4-X/) = det
1
-1 5
<2-Х
-8
0
-2
-2 5-Х 3 -1
1
-1-Х
5
-2 '
-8
0
2-Х
Произведем разложение детерминанта по элементам его первого столбца:
<5-Х	1	-8 '
det(H-XZ) =(2-Х) (-1)(1+1) det 3 -1-Х 0 [-1	5	2-xJ
(-2
-8 (-1)<2+1) det 3
-1
-4	-2)	(-2
-1-Х 0 - 2 (-1)(4+1) det 5-Х
5	2-XJ	[ 3
= (2 - X) [(5 - Х)(-1 - Х)(2 - X) -120 + 8(1 + X) -3(2 - X)]+
+ 8 [2(1 + Х)(2 - X) - 30 + 2(1 + X) +12(2 - Х)]+
+ 2 [96 + 2(5-Х)(1 + Х) + 6 + 16(1 + Х)] = ...=
= X4 —8Х3 — 16Х2 4-128Х = 0 => X = 0, или X3 — 8Х2 — 16Х +128 = 0.
72
Глава 2
В ходе решения или даже простым предположением получим результат: Х213 = ± 4.
Отсутствующие исходные точки полинома можно определить при помощи факторного расположения последнего:
X3 - 8Х2 - 16Х + 128 = (X - 4) (X +4) => X — Х4.
Последующим делением полинома на (X2 — 16) получим значение Х4:
(X3 — 8Х2 — 16Х + 128): (X2 — 16) = X — 8, откуда Х4 = 8.
Запишем все множество собственных чисел для матрицы А: {—4, 0, 4, 8}. Собственное пространство для X = —4 получим,
решая следующую систему линейных уравнений: 6х{ — 2х2 — 4х3 — 2х4 = О
—8*! + 9х2 + х3 — 8х4 = О
Зх2 + Зх3 =0	'
—2х[ — х2 + 5х3 + 6х4 = 0,	< ' J
г о)	/ 1-	,
и £_4 = {а
I аеЛ}.
Аналогичным образом получим векторные пространства для X = 0, X = 4 и X = 8:
аеЛ} и Е« — {а
ае Л}.
Вопросы поиска собственных чисел и собственных векторов весьма многогранны и имеют широкое поле приложения. Им
уделяется значительное внимание не только в математике, но и в физике и, как мы еще не раз убедимся, в экономической теории.
2.2.12.	Евклидово векторное пространство
Введем метрические понятия: расстояния, угла наклона для наблюдаемых объектов в пространстве, ортогональности. Здесь нам вновь понадобится расширенное определение для произведения векторов, включая так называемое скалярное произведение.
Элементы математики в MCA
73
Скалярное произведение. Пусть V, как и прежде, это векторное пространство над полем действительных чисел R. Обозначим S скалярное произведение векторных пространств:
5 = Г- И-> R, или при записи в векторной форме:
(х, у) -> S (х, у).
Скалярное произведение векторов обладает следующими основными свойствами:
5 (х, у) = S (у, х) для всех х, у е V (симметричность); (2.22)
S (х, у) — линейно относительно х и у (билинейность); (2.23)
5 (х, х) > 0 для хе F \ {0} (положительная определенность).	(2.24)
Векторное пространство над полем действительных чисел, в котором определена операция скалярного произведения векторов, называется евклидовым векторным пространством.
Пример 2.16. Предположим, что в «-мерном векторном пространстве Rn имеем:
RnxRn->R
S'	п
•]((x1,...,xn),(y1,...,yn))-»£xzy/.
1=1
Можем утверждать, что скалярное произведение векторов (5) будет положительно определенной величиной. Данный вывод для S следует из уже известных свойств его симметричности, билинейности и положительной определенности
п
(S (х, х) =	> 0 для всех х * 0).
<=i
Пример 2.17. В векторном пространстве С (I) для непрерывной функции действительных чисел, замкнутой на интервале I = К ^], имеем скалярное произведение:
СхС-»Л
ь а
Основываясь на элементарных правилах интегрального исчисления, можем заключить, что скалярное произведение S в
74
Глава 2
данном случае симметрично, билинейно и положительно определено, так как для всех h е С действует правило:
6
S (й, й) = |й2(г)Л>0, а b
а из S (g, g) = j g2(t)dt = 0 следует, что g (/) = 0 для всех t е [а, й]. а
С другой стороны, если бы было g (f0) * 0 для всех г0 е [а, й], то с учетом непрерывности функции g следовало бы определить окрестность U = U (t0) для точки (t0) такую, в которой g (г) * 0 для всех t е U(t0), но тогда также и [	g2(t)dt*0, что противо-
JWo)
речит исходной посылке задачи.
Замечания. 1. Результат скалярного произведения не следует смешивать с умножением векторов на скаляр, о котором говорилось в п. 2.1.2. Умножение на скаляр связывает определенным образом вектор хе Ис некоторым числом а е R, в то время как скалярное произведение связывает друг с другом два вектора. Кроме того, скалярное произведение выражается всегда некоторым действительным числом, не обязательно являющимся элементом исходного векторного пространства V, и тем самым как бы выходит за рамки обычных внутренних связей V.
2. С учетом положительной определенности скалярного произведения следует вывод о правомерности выражения:
5 (х, х) = 0 <=> х = 0.
В последующем будем использовать при записи скалярного произведения обычную форму представления операции перемножения векторов:
5 (х, у): = ху.
Отметим, что в евклидовом векторном пространстве (V) имеет силу неравенство Коши—Шварца: для всех х, у е И имеет силу: (х, у)2 < х2/. Неравенство превращается в равенство, когда векторы х и у линейно-зависимы. Докажем правомерность неравенства Коши—Шварца в пространстве У.
а)	пусть х и у линейно независимы. Тогда при условии, что х * 0, всегда х2>0иАх + у*0 для всех а е S.
С учетом положительной определенности скалярного произведения имеем:	< <
Элементы математики в MCA
75
О < (Хх + у)2 = х2 (X + ^-)2 + -^-{х2у2 -(ху)2),
X X
и для к = следует О < хУ - (ху)2;
х1
б)	предположим, векторы х и у — линейно-зависимы. В этом случае можем записать: у = ах (аеЛ), и так как скалярное произведение линейно относительно обоих аргументов (билинейно), то:
(ху)2 = (хХх)2 = X2 (хх)2 = Х2х2х2 = х2Х2х2 = хУ.
2.2.13.	Норма вектора
Скалярное произведение позволяет для любого вектора получить некоторое число, интерпретируемое как длина этого вектора.
Пусть И — евклидово векторное пространство, тогда норма вектора этого пространства может быть формально представлена следующей записью:

[x-^2V(x)=||x||.
Норма вектора обладает следующими свойствами:
||х|| > 0 для всех хе Г\ {О}, ||х|| = 0 <=> х = 0 (положительная
определенность);
||Хх|| - |Х| ||х(| для Хе Л, хе И (гомогенность);
(2-25)
(2.26)
||x + y||<|]x]|+||y|j для х, у е V (неравенство треугольника). (2.27)
В евклидовом векторном пространстве существует возможность всегда найти такую норму вектора, для которой будет выполняться равенство:
т.е. в данном случае мы имеем дело со скалярным произведением вектора х на самого себя, извлечение корня квадратного из такого произведения всегда будет давать положительный результат.
Перечисленные выше свойства нормы вектора (2.25) — (2.27) всегда сохраняют свою силу, в частности с учетом того, что для (2.25) действует ||х|| = + Vx2" > 0 для всех х 0;
(2.26)	подтверждается тем, что ||Хх|| = Vx2x2
76
Глава 2
(2.27)	— вывод получаем на основе неравенства Коши—Шварца: ||х + у||2 = (х + у)2 = х2 + 2ху + у2 < IWI2 + 2||х|| Ы + Ы2 = (||х|| + Ы)2.
Иллюстрации теоретического материала: 1. В векторном пространстве Rn норма задается равенством: ||х|| =+ Н2 х2.
v=i
2.	Норма всех непрерывных функций g, существующих в векторном пространстве С ([а, Ь]), на интервале [а, Ь] определяется как корень квадратный из определенного интеграла, построенного для квадратов функций g:
Гь
Ш= +JJ g2(t)dt.
I а
Заметим, что собственно норма, приведенная для функций в векторном пространстве С ([д, 6]), вовсе не обязательно определяется посредством скалярного произведения, она, например, может быть выражена определенной максимизирующей величиной:
II f II = max | /(х) |.
X 6
Вопросы выбора, обоснования преимуществ той или иной нормы векторного пространства требуют самостоятельного, более детального анализа, и в рамках данной работы не рассматриваются.
Замечание. Норму вектора всегда можно получить как результат скалярного произведения при условии, что это скалярное произведение определено в существующем векторном пространстве.
Определение 1. Векторное пространство, в котором определена норма, называют нормированным векторным пространством.
Линейное пространство U нормированного векторного пространства V будет также нормированным пространством, если его элементы нормированы и выступают как подмножество элементов V. При этом норму, определенную в U, называют индуцированной нормой пространства И
Обратное утверждение, что нормированное векторное пространство V всегда воспроизводит евклидово векторное пространство, не является правомерным. На самом деле, чтобы при помощи равенства ||х|| = V? получить скалярное произведение,
Элементы математики в MCA	77
необходимо выполнение так называемого равенства параллелограмма:
||х + у||2 + |]х — у||2 = 2||х||2 + 2]|у||2 для всех х, у е И
2.2.14.	Угол, образованный двумя векторами
Согласно неравенству Коши—Шварца для двух векторов х и у в одном векторном пространстве V, в котором х * 0 и у * О, действует правило: 2
toO_<ls -!< Л_<1.
х2у2 МЫ
При этом всегда имеется некоторое число <р(х, у), такое, что cos <р(х, у) - ———, <р(х, у) е [0,л]. Число (р(х, у) определяется 11*1111 УII
всегда однозначно и называется углом между векторами х и у. Очевидно, cos (р(х, у) = 0 <=> ху = 0, т.е. если ху — 0, то ср(х, у) — прямой угол. Обратим внимание, что скалярное произведение двух векторов х и у может быть также равно нулю и в случае, когда х * 0, у * 0, что невозможно, если мы имеем дело с обычными числами (скалярами).
Рассматривая скалярное произведение векторов и угол, образованный парой векторов, мы подходим к понятию ортогональности.
Определение 2. Два вектора х и у е V, х 0, у 0 называют ортогональными, если их скалярное произведение равно нулю: ху = 0.
Ортогональные векторы часто являются наиболее удобными для организации базиса векторного пространства (например, обычная декартова система координат — примеч. пер.). Конструктивно подобный базис задается множеством ортогональных векторов. При этом непустое подмножество М евклидова векторного пространства V называют ортогональной системой, если 0 г М, но ху — 0 для каждой пары векторов х, у е М, другими словами, если все векторы из М попарно ортогональны.
Векторы ортогональной системы (хь..., хг) линейно незави-
Г
симы. На самом деле неравенство ^azx, =0 предполагает, что
Для любого р е {1,..., г}, с учетом взаимной ортогональности всех
78
Глава 2
пар векторов (хд7 = 0 для i * j) правомерна запись:
£а,х, Ix^ = а^х2 = 0, но при условии х2 * 0, тогда однозначно li=i J
следует а = 0.
Подобным образом можно конструктивно представить л-мерное евклидово векторное пространство как ортогональную систему, включающую п элементов, а точнее п полярно ортогональных векторов. Можно сказать, что такая л-элементная ортогональная система М из л-мерного векторного пространства V является его базисом.
Рассмотрим, каким образом любой базис для V может быть преобразован в ортогональную систему. Пусть Ьх, .... Ьк — система из к линейно независимых векторов пространства V Выберем из множества этих векторов один, первый вектор b{ = для конструируемой ортогональной системы. На следующем шаге примем, что уже имеется i — 1 (; < fc) ортогональных векторов сь ..., с,_|, чья линейная оболочка совпадает с линейной оболочкой векторов bh..., Ь,-{. Следующий ортогональный вектор с, определим по формуле: с, = b, +	+... + Xi-ic,-]; здесь ..., А,-! на-
ходится из системы уравнений, имеющей при с2 0,..., c2_t * 0 единственное решение:
CjC, = C]bt +А]С2 =0,
ci-ici = ci-ibi +A,_Ic2_I = 0.
Полученный в результате вектор с, будет ортогонален по отношению к уже имеющимся векторам с1;..., Более того, с, 0, так как в противном случае, если учесть свойства скалярного произведения векторов, Ь, есть линейная комбинация из сь . ., с,-], и тем самым подмножество векторов blt . , приходит в противоречие с исходным условием линейной независимости векторов bi, ..., bk
Таким образом может быть получен каждый из множества ортогонализированных базисов евклидова векторного пространства. При этом одна из ортогональных систем {с1( ..., с,,} некоторого л-мерного векторного пространства V называется ортогональным базисом V. Особенное значение имеет ортогональный базис {elt ..., еа}, он наиболее часто встречается в различных за
Элементы математики в MCA
79
дачах MCA. Чтобы получить единичный вектор е,, компоненты исходного вектора с, нормируют:
Пример 2.18. Пусть V = R3 — трехмерное арифметическое векторное пространство с базисом {(1, 2, 0), (0, 3, 4), (2, 0, 1)} (см. 2.3.1). При Ь{ = (1, 2, 0) = С| имеем
Го
Г с2 = ^2 "* ^1с1 = 3 +Х] 2 , 0
И.
с произведением С|С2: 2	6
С|С2 = qb2 + С] = 6 +	*•-,
р
откуда с2 =
5
3
5
4
Далее для с3 имеем с3 = b3 + XjC] + Х2с2 с произведением С)С3: 1	2
С|С3 = С|/>3 + Xj С] = 2 + Х]5 = 0 => Х| = — — ;
_ . . , 2 _ 8 , 89 _ Л , _	8
С2С3 ~ с2^3 + ^2С2 — 5+^2"5” —	^2	~•
152 А
89 76
89
57
89 J
2
Следовательно, с3 = 0
1
5 г_2
5
_ 4 5
0
48 '
445
24
445
32
89 )
Полученные результаты
с,с2 =
5 3
5
4
легко перепроверить:
= 0,
5
3
5
4
' 152'
89 _76
89
57
< 89,
= 0.
1
2
0
80
Глава 2
соответственно
Ы*	hll=^=2.014,
В результате получим ортогональный базис:
Л0,4472Л
е
0,8944 , е2 = . 0 ,
' 0,848'
-0,424
< °>318,
Замечание. Приведенный метод ортогонализации не позволяет получать всегда однозначно определенный ортогональный базис, его результаты зависят от первоначального выбора исходного базиса. Скажем, имеется два различных ортогональных базиса некоторого «-мерного евклидова векторного пространства V:	еп} и {ёь ..., ё„}. При условии, что
е, ej - e,ej = 8tJ =
1, если
0, если
i*j
т.е. е и е — ортонормированные векторы, и
('=1,-,я)>
7=1
т.е. каждый вектор из V представляется линейной комбинацией векторов из базиса (/ = 1, ..., л), имеет силу
$ik=eiek = 2L avakmejem~ S aijaknfijm ~ zL, ayaki > j,m=l	J,m=i	y=l
т.е. имеется некоторая матрица А, которая может один ортонор-мированный базис переводить в другой. Такая матрица А будет ортонормирована и для нее выполняется АА' = I. Последнее означает, что вектор-строки матрицы А образуют ортонормирован-ный базис Я". Кроме того, для А действует А' =А~1, откуда следует А~'А = А'А = I, а значит и вектор-столбцы А также образуют ор-тонормированный базис К". Обобщая сказанное, отметим, что условием ортонормированности матрицы А размерностью (л х «) является равенство: А~1 = А'.
Пример 2.19. Имеется ортонормированная матрица (2 х 2):
. («11 «12
А =
1«21 «22
Элементы математики в MCA
81
т.	I Й11 I ( й12 I
Из ортонормированности векторов и следует,
<й22?
что а^+а2}=1 для j =1, 2 и |a,J < 1. Дополняя условие, введем величину £ е [0, 2 л].
Пусть он = cos^, «21 ~ sin£. Тогда согласно теореме Пифагора cos2 £ + sin2 £ =1.
Принимая, что а\ +д22 =1 с / = 1,2, можем записать:
ai2 = 1 - «н = 1 - cos2 = sin2 а22 = 1 - а2! = 1 - s*n2 £ = cos2 <7I2=±Sin£ и <722=±cos£.
С учетом ортогональности вектор-столбцов матрицы А аца12 + + а21а22 = 0, как и (±1) (±1) sin£ cos£ = 0. Сама матрица А с обозначениями, принятыми для «и и а21, оставаясь ортонормиро-ванной, принимает вид:
fcos£ -sinful — fcos£ sin^ '
A =	, или A =
^sm£ cos^ J	(sin^ ~cos£>
При условии, что sin£ cos£ = 0 и значения £ определяются » л 3 ]	« и
множеством ^е<0,—,л,-лЛ, получим по крайней мере две из
Г±1 0 А Г 0 ±П
возможных восьми матриц: Q + J или I 0 , которые яв-
ляются производными уже известных матриц А, А .
2.2.15.	Квадратичные формы
Выше в главе скалярное произведение рассматривалось как симметрическая билинейная и положительно определенная форма (V х V) над полем действительных чисел. При дальнейшем рассмотрении требование положительной определенности опускается и теоретические выводы относительно векторного пространства расширяются при менее строгих исходных посылках.
Симметрические билинейные формы. Пусть имеется векторное пространство V над полем действительных чисел R и функ-
82
Глава 2
г \VxV->R
ция f-Л	линейная по каждому из своих двух аргу-
ментов.
Назовем f билинейной формой. Симметрической билинейной формой функция f будет при условии, что f (х, у) = f {у, х) для всех (х, у) е V х к
Обозначим уп} базис некоторого «-мерного векторного пространства V и (£н,...,	= xi, как и (C2b..., W = х2 - два
вектора из V, тогда билинейную форму f (хь х2) в развернутом виде можем записать:
п п
/(*ь *>) = 'ЕТШяКУьУ/)-
/=1 /=1
В «-мерном векторном пространстве V с базисом {^,..., каждая из существующих билинейных форм f задается квадратичной матрицей:
В = (f(yh уф) (J = 1,..., n;j= 1, ..., «).
Введем обозначение f (yb уф =: siJt тогда билинейную форму /(х|, х2) можем переписать так:
п п
, f(xi, х2) = ££^,1^2-
z=i/=i
В данном случае следует обратный по отношению к предыдущему вывод о том, что каждая квадратичная матрица В определяется посредством билинейной формы, существующей в векторном пространстве V и задаваемой уравнением относительно / (х1; х2). Матрицу В еще называют матрицей коэффициентов билинейной формы f относительно базиса
Квадратичная форма и ее матрица. Введем понятие: квадратичной формой называют функцию, определенную на множестве действительных чисел: q (х) =/(х, х), х е V, где f — симметрическая билинейная форма.
Квадратичная форма может быть получена из каждой симметрической (« х «)-матрицы как результат произведения:
п п
qA(x) =х'Ах =	(2.28)
<=1 J
qA называют квадратичной формой, полученной с матрицей А (А — это матрица квадратичной формы, а ее элементы а1} — ко
Элементы математики в MCA
83
эффициенты квадратичной формы). По определенной симметрической матрице всегда получают также определенную квадратичную форму. Другими словами, для каждой квадратичной формы имеется своя четко заданная симметрическая матрица, для которой выполняется равенство (2.28).
Если имеем «-мерное векторное пространство и А — симметрическую матрицу размерностью (л х «), то квадратичная форма будет: qA (х) = х'Ах, х е V, т.е. квадратический полином уровня п, обладающий свойствами: qA (Хх) =X2qA (х) для X е S.
Матрица квадратичной формы А будет:
•	положительно определена, если qA (х) > 0, х 0;
•	положительно полуопределена, если qA (х) > 0, для всех х;
•	отрицательно определена, если qA (х) < 0, х * 0;
•	отрицательно полуопределена, если qA (х) < 0, для всех х, и остается неопределенной, если имеет место какой-либо другой, не подпадающий под четыре приведенных выше, случай, т.е. если два вектора у, z е V имеют квадратичные формы: qA (у) < 0 и qA (z) > 0.
Пример 2.20. Имеется матрица А размерностью (2 х 2), т.е.
п = 2:
А =
'а Ьу
I* с)
и квадратичная форма с А:
Ча(х) =
det А > 0 =>
det А = 0 => qA (х)
/ах, + Ьх2У 7	7
j х71 ,	= ах;+2Ьх,х7+сх7.
1 \bxj + сх2 J 1	1 z
Сформулируем основные правила для det А и qA (х): положительно определена, если а > 0, отрицательно определена, если а < 0, положительно полуопределена, если а > 0, или а = 0, с < 0, отрицательно полуопределена, если а < 0, или а = 0, с > 0, неопределенна.
det А < 0 => qA (х)
Покажем справедливость выдвинутых правил относительно определенности det А. При условии, что а * 0, квадратичную форму матрицы А легко представить как полином второй степени:
дА(х}=ах2 +2/>Х]Х2 +сх2 ,
84
Глава 2
после введения квадратичного дополнения получим:
а Ял (*) = (дх1 + to2)2 + (det Л) х2,
Отсюда
, . 1 .	, .2 ас-Ьг о
Я А (*) = - (<«1 + Ьх2 ) +-*2
а	а
ИЛИ
/	\ 2	2
qA(x) = a I х(+-х2 I +-----х2 .	(2.29)
(. а ) а
Из уравнения (2.29) видно, что qA (х) > 0, если а > 0 и ^2
------ > 0. Квадратичная форма также будет положительно on-fl
ределенной: (qA (х) > 0) с ас - b2 = det А > 0. Аналогичным образом легко устанавливается, что qA (х) < 0, если а < 0 и det А > 0.
В случае, когда det 4 = 0, равенство (2.29) преобразуется в:
,, _ (	ь А2
Ял W ~ а *1 +~х2 , k	a J
и, следовательно, qA (х) положительно полуопределена, если а > 0, и отрицательно полуопределена, если а < 0.
Последний из представленных случаев, когда det А < 0, очевидно, означает, что при заданных а, b и с квадратичная форма qA (х) независимо от значений х сама может принимать большие или меньшие значения и, таким образом, является величиной неидентифицируемой.
Выводы1
В главе 2, написанной д-ром Мартином Шефером, приводятся основополагающие сведения из двух больших разделов математики: аналитической геометрии и матричной алгебры. Эти сведения — важный элемент подготовки специалистов, занимающихся многомерным статистическим анализом. Необходимость математических знаний обусловливается конструктивными особенностями методов MCA, предполагающих в подавляющем большинстве случаев пространственное представление наблю
1 Параграф подготовлен В.Н. Тамашевичем
Элементы математики в MCA
85
даемых многомерных объектов и рациональное описание этих объектов средствами формального языка, в том числе при помощи векторов и матриц.
В §2.1 последовательно рассматриваются понятия вектора, векторного пространства, функции, подпространства, линейной оболочки и образующей системы. §2.2 начинается определениями трансформации базиса векторного пространства, матрицы, линейного оператора, затем освещаются технические вопросы исчисления ранга и детерминанты матрицы, решения систем линейных уравнений, поиска собственных векторов и собственных чисел матрицы, построения и использования в анализе квадратичной формы.
В изложении основ математики автор не выходит за рамки евклидовой геометрии и понятия линейной связи. Таким образом, глава представляет хорошо разработанную область математической науки и ее материал доступен для восприятия широкого круга читателей. В связи с этим отметим, что новейшие разработки теории MCA нередко опираются на менее известные и более сложные математические методы, использующие в своей основе предположения о нелинейности признаковых связей и расширенные представления о теоретическом пространстве (унитарное, афинное пространства и т.п.). Однако эти методы в настоящей книге не рассматриваются. С одной стороны, в силу сложности и объемности исходного теоретического материала они выступают предметом для самостоятельного изучения, с другой стороны, корректная и эффективная работа с этими методами обусловливается знаниями классической теории MCA.
Вопросы и задачи1	 — —s==
1.	Проверьте: а) являются ли векторы а и b линейно независимыми:
12
1
( 4^1
-2 1
< 5J
1 Подготовлены Л.А Сошниковой и В.Н Тамашевичем
86
Глава 2
б) являются ли векторы «[ = (1, 3, 1, 3), а2- (2, 1, 1, 2) и а2 = (3, —1, 1, 1) линейно зависимыми.
2.	Покажите, что векторы а{ = (1, 0, 0), а2 = (0, 1, 0), «з= (0, 0, 1) образуют ортонормированное векторное пространство.
3.	Найдите скалярное произведение векторов а и Ь:
<4 3
я' = (2 3 8),
Л = 7
4. Найдите произведение матриц А, В и С, если
f 4 3")	(-28 43 Л f-7 3
; В = \	; С =
<7 5/	<38 -12/	< 2 4 J
5. Определите матрицу показателей стоимости продукции по ее видам и сортам, если имеются матрица А — объемов выпуска продукции по видам и сортам и матрица В — уровней цен на каждый вид и сорт продукции:
вид
А =
сорт
'50 26 12(Р
70 9 45 /4 32 225,
вид
В =
сорт -------►
' 5 7 12
25 30 58
^20 22 26
6.	Вычислите определители матриц А и В:
А 2 -Г 2 -3 -1 ; [4 -1 -5J
'-1 2 3
2-3 4
-3 4 4
.43-2
4Л 5
2 '
V
А =
7.	Определите, имеет ли матрица А обратную матрицу (Л-*1),
и если имеет, то вычислите ее:
л =
' 5 -8 -5Л
-4 7 -1. 1'6 5 9)
Элементы математики в MCA
87
8.	Найдите ранг матрицы:
(2 5 6 )
А = 4 -1 5
I2 -6 -1J
9. Определите строк матрицы А:
'2 1
О
.2
О
3
3
3
3 2
1 7
-5 -3
-2 2
максимальное число линейно независимых
Г
5
3 ’
А =
10.	Используя метод Гаусса, решите систему уравнений:
Х1 + 2х2 - х3 = 9,
• 2х] -Зх2 +х3 = 3,
4Х] + х2 -х3 = 16.
И. По приведенным в таблице фрагментарным данным межотраслевого баланса за отчетный период (усл. ден. ед.) вычислите объем валового выпуска каждой отрасли при условии, что:
а)	конечный спрос энергетической отрасли увеличивается вдвое, а машиностроения сохраняется на прежнем уровне;
б)	конечный спрос энергетической отрасли уменьшится в 1,8 раза, а машиностроения возрастет на 20%.
Отрасль		Промежуточное потребление		Конечный спрос	Валовой выпуск
		Энергетика	Машиностроение		
Произвол-	Энергетика	10	15	75	100
ство	Машиностроение	22	25	53	100
12.	В базисе еь е2, е3 заданы векторы а\ = (1, 1, 0), а'2= (1, —1, 1) и а3= (—3, 5, —6). Покажите, что векторы а1г «2, а3 также образуют свой базис.
88
Глава 2
13.	Вектор b = (4, —4, 5) задан в базисе еь е2, ез- Выразите этот вектор в базисе аь а2, а3, который задан векторами: а[= (1, 1, 0), а2 = (1, -1, 1) и а3 — (-3, 5, -6).
А =
14.	Пусть в пространстве Л3 линейный оператор А в базисе еь е2, е3 задан матрицей:
( 3 2 4'
-15 6
1 8 2у
Найдите образ (у = А (х)) вектора х = 4ei — Зе2 + е3
15.	В базисе е); е2 линейный оператор преобразования Я имеет матрицу
<17 6<
А =
I6 8J
Найдите матрицу оператора А в базисе ef = е\ + 2е2 и е2* = = -2ei + е2.
16.	Найдите собственные числа и собственные векторы линейного оператора А, заданного матрицей’
А 4А
А ~ 7 1}
17.	Задана квадратичная форма: q (хь = 2х2 + 4Х]Х2 ~ Зх2. Найдите производную для нее квадратичную форму q' (у15 у2), представляющую линейные преобразования вида хх = 2у| — Зу2; *2 =	+ У2-
18.	Найдите собственные числа и собственные векторы линейного оператора, заданного матрицей:
<5 4^
Л =
1-1 -3
19.	Запишите в матричном виде квадратичную форму: q (х) = = 2х2 + Зх2 — х2 + 4xjX2 — 6xjX3 + 10х2х3.
\ Глава
\ / Случайные величины. Законы V распределения и плотность
вероятностей
3.1. Случайные величины и их распределения
Исследователю нередко приходится сталкиваться с серьезными трудностями при выявлении, адекватном описании закономерностей, лежащих в основе развития стохастических явлений и процессов. Эти трудности в значительной мере преодолеваются, если понятие вероятности использовать относительно не только непосредственно наблюдаемых событий, но и множества всех возможных элементарных результатов их наступления или ненаступления, представленных некоторыми действительными числами. При этом получают как бы новое, в отличие от эмпирического, теоретическое пространство событий, с элементами, также являющимися действительными числами. Понятие вероятности в этом теоретическом пространстве (Л) определяется соответственно понятию вероятности одномерной или многомерной случайной величины.
Случайная величина. Случайной величиной X называют множество элементарных событий, каждое из которых на интервале в поле действительных чисел R определяется с некоторой известной вероятностью Р (Q):
X Q.-+R
Замечание. Если некоторое множество Q используется Для описания случайного (стохастического) процесса, то результаты последнего отражаются четко установленным рядом действительных чисел, представляющим состав определенной случайной величины.
Пример 3.1. Во время теннисного турнира игрок В участвует в трех играх. Победа в каждой из них засчитывается при условии
90
Глава 3
выигрыша двух партий. Представим пространство с возможными результатами игр В.
Q = {(0, 0, 0),
(О, О, 1),	(0,	1,	0), (1,	О,	0),
(О, 1, 1),	(1,	О,	1), (1,	1,	0),	(2, 0, 0),	(0,	2,	0), (0,	0,	2),
(1, 1, 1),	(О,	1,	2), (1,	0,	2),	(1, 2, 0),	(0,	2,	1), (2,	О,	1), (2, 1, 0),
(О, 2, 2),	(2,	0,	2), (2,	2,	0),	(2, 1, 1),	(1,	2,	1), (1,	1,	2),
(2, 2, 1),	(2,	1,	2), (1,	2,	2),
(2, 2, 2)}.
Определим вероятное число выигрышей игрока В в турах по три игры со случайными исходами (X:£1->R):
Х(0, 0, 0) = 0
Х(0, 0, 1) = Х(0, 1, 0) = Х(1, 0, 0) = 1
Х(0, 1, 1) = Х(1, 0, 1) = Х(1, 1, 0) = X (2, О, 0)=Х(0, 2, 0)=
= Х(0, 0,2) = 2
Х(1, 1, 1) = X (О, 1, 2) = ^(1, 0, 2) = Х(1, 2, 0)=Х(0, 2, 1)=
= Х(2, 0, 1) =Х(2, 1, 0)= 3
Х(0, 2, 2) = Х(2, 0, 2) = Х(2, 2, 0) = Х(2, 1, 1)=Х(1, 2, 1)=
= Х(1, 1, 2) =4
X (2, 2, 1) = Х(2, 1, 2) ~Х(1, 2, 2) = 5
Х(2, 2, 2) =6.
Функциональное значение х, принимаемое случайной величиной X, есть некоторое число х е В, появляющееся с определенным уровнем вероятности ЛГ'(х) и представляющее одно из множества событий Лей. Число х = X (Л) называют реализацией случайной величины X.
Распределение случайной величины. Функцией распределения случайной величины X называют функцию F: В -> [0, 1], определенную на интервале (-<», х] с вероятностью
Р ({<о е £2 | X (го) е (-<», х]}).
Замечание. Функция F на всем множестве значений х является монотонно возрастающей, она не может принимать отрицательных или превышающих единицу значений.
Функция плотности вероятностей. Пусть W есть множество с некоторым, бесконечно большим, числом элементов, тогда функцию типа:
f В -> [0, 1], где/(х) =Р(Х = х) = Р({го|Х(го) =х}) называют функцией плотности вероятностей случайной величины X, а X — дискретной случайной величиной.
Распределение дискретной случайной величины. Для дискретной случайной величины X с ранжированными значениями
Случайные величины. Законы распределения и плотность вероятное,
ху <х2< ... <хк функция распределения записывается следую^ образом:
Fk:= F (xj: = Р [Х< х*] =	= ^Р(Х = х,)
/=1 i=i
Функция распределения случайной величины X принимает значения:
а)	0 < Fk< 1,
б)	0 =
в)	1 = Fk — монотонно неубывающая функция (монотонно возрастающая функция).
Доказательство положений а) — в) для Fk следует непосредственно из свойств функций плотности вероятностей. В том, что распределение Fk характеризуется функцией ступенчатого вида, не убывающей справа, убедимся, построив график распределения случайной величины X (рис. 3.1).
Замечание. Если О — некоторое конечное множество, то имеются также и реализации xj, х2,..., хк, и функция распределения X, соответствующие эмпирической функции распределения. Область определения для функции распределения заключена в интервале от нуля до единицы:
Л- = F(xl): =P[X<Xl] =0,
Fk+: = F (х*+1): = P [x < xk + d\ = 1 (rf > 0).
92
Глава J
Понятие распределения случайной величины позволяет определять вероятность появления ее различных реализаций на любом интервале:
Р [и < Х< о] = Fo - Fu.
Обратим внимание на существование различных случаев интервальной определенности вероятностных характеристик:
Р\и< X< о} — F0_i — Fu,
Р[и<Х<о} =F0-l^Fu-l,
Р[и<Х<,о] — F0 — Fu,
Р\и<Х< o]=Fo-Fu-b
Соответственно функции распределения случайной величины определяется и ее плотность вероятностей:
Рк = Р{Х = хк] =Fk-Fk-\ (fc = 2,3,...)'
Pl =P[Z = x1] =Fl
Пример 3.2. В продолжение примера 3.1 рассмотрим случай, когда игрок В выигрывает одну партию, причем выигрыш или проигрыш данной партии не зависит от результатов игры в других партиях.
Найдем оценки плотности вероятностей:
/(0) = Р(Х = 0) =	= Р(Х=1) =
/(2) = Р(1=2)» А;/(3)=Р(х = з) = Л;
/(4)=/>U = 4) = ±;/(5)=/>U = 5) = ±;
/(6)=P(* = 6) = -L
и f (х) = 0 — для всех других реализаций случайной величины 2f(xe R).
Функция распределения принимает при этом значения:
F(0) = Р (Х< 0) =	; F (1) = Р (X< 1) =/(0) +/(1) =	;
Р(2) = Р (Х< 2) »	; F (3) = Р (Х< 3) = 11;
Р(4) = Р(Х£ 4) = ~; Р(5) = Р(Х£ 5) =	; F(6) = Р(Х< 6) = 1.
Определение плотности вероятностей. Если функция распределения F случайной величины X не дифференцируема в некоторой точке из всего сколь угодно большого их множества
Случайные величины. Законы распределения и плотность вероятностей 93
(х,; / = 1, 2,...), то по крайней мере в этой точке существует дискретная функция /(х), представляющая производную от F(x):
/(х) = Дх) = для х *х, (i = 1, 2, ...). ах
Такая функция f (х) называется функцией плотности вероятностей случайной величины X, которая рассматривается как непрерывная величина.
Замечание. Так как F — монотонно возрастающая (не убывающая) функция, то очевидно, что функция плотности вероятностей будет всегда положительно определенной:
f (х) > 0 для всех х е R.
Принимая, что lim г(х)=1, можем записать
X—
j/(x)</x = 1.
R
И, наоборот, функция распределения случайной величины в свою очередь может быть получена из функции плотности распределения:
Г(х): =Р[Х<х]= J/Wu.
Как мы видели выше, вероятность реализации случайной величины X определяется интервалом существования последней:
Р[и<Х<о] = F (о) — F (и).
При предельном сокращении интервала существования X вероятность реализации обращается в нуль:
lim Р [и < Х< о] = 0 и lim Р [и < Х< о] =0.
«->0	0-*и
Другими словами, вероятность реализации некоторого точно определенного значения X равна нулю.
Пример 3.3. Пусть существует функция распределения
Г:	[0, 1]
Р(х) =
0, 1 2 -X , 3
3’
-х-1, 3
1,
х<0
0<х<1
1<х<2
2<х<3 х>3,
94
Глава 3
т.е. F (х) — частично дифференцируемая функция распределения для случайной величины X. График этой функции имеет вид
(рис. 3.2).
Очевидно, что в точках xj = 1, х2 = 2 и х3 = 3 функция F (х) — не дифференцируема. Найдем для F (х) первую производную и тем самым перенесем Г(х) на другие опорные точки. В результате получим частично непрерывную функцию плотности вероятностей f. R R'.
Новая функция f (х) в точках недифференцируемости Fix), а именно Х| = 1, Х2 = 2 и х3 = 3, дискретна (рис. 3.3):
Пример 3.4. Общий случай для любого распределения с графиком любого вида на интервале [а, />]. Пусть
имеется некоторая функция плотности распределения 3
/ [0, 1]чЛи/(х) = | (1 -х2), 0<х< 1.
Случайные величины. Законы распределения и плотность вероятностей 95
Рис. 3.4
Функция распределения, принадлежащая функции
сти f (х), F. [О, 1] -> [О, 1], F(x) = ^x
О < х <. I,
плотно-и имеет
график:
Рис. 3.5
96
Глава 3
3.2. Некоторые виды параметрических распределений
В основе распределений, которые рассматриваются ниже, всегда лежит случайная величина X £1 -> R. Пространство событий содержит при этом вначале только некоторое конечное (счетное) число из всего множества элементов. Предположительно это первоначально счетное число может быть дополнено элементами до бесконечности. Последнее в сущности означает, что результаты случайных экспериментов, представленные в пространстве Q, являются элементами множества действительных чисел или по крайней мере элементами множества действительных чисел на некотором пространстве. Рассмотрим наиболее часто встречающиеся виды распределения случайных величин.
Дискретное равномерное распределение. Говорят, что случайная величина X имеет равномерное распределение, если каждое из множества N событий сохраняет одну и ту же вероятность появления, т.е.
Q = {C0b С02,-- > и
Pt = P(M =Р{Х = к) = ±,k = l,2,...,N	’
Пример 3.5. Имеется равномерное распределение Q = = {-3, 1, 6}. Вероятность реализации каждого элемента из Q равна 1/3:
Pl = Р({-3}) = Р(Х=-3) = ~<Р2 = Р({1}) = Р (X = 1) = |,
Л=/>({6})=Р(Х = 6) = ±.
Пример 3.6. Рассмотрим равномерное распределение для множества целых чисел на интервале от а до Ь (а — -3 и b = 5):
Q ={-3, -2, -1, 0, 1, 2, 3, 4, 5}.
В этом случае для непрерывной последовательности целых чисел с нижней границей а = —3 и верхней b = 5, очевидно, будем иметь поэлементный уровень вероятности, равный 1/9:
Л = Р({со*})=Р(Х = со,) = 7-!-7 = |) к =1,2, ..., 9.
Ь-а + 1 9
Пример 3.7. Имеется равномерное распределение целых чисел от 1 до 6, или П = {1, 2, 3, 4, 5, 6}. Здесь мы имеем дело с дискретным равномерным распределением, описывающим последовательность натуральных чисел без пропусков, на интервале
Случайные величины. Законы распределения и плотность вероятностей 97
с нижней границей а — 1 и верхней Ь = 6. Это так называемый случай с идеальным игральным кубиком, на сторонах которого проставлены числа от 1 до 6. Естественно, как и в предыдущих примерах, вероятность появления каждого из натуральных чисел будет одной и той же:
Pk = Р (со*}) = Р (Х = со*) = , 1 - = |, к = 1, 2, 3, 4, 5, 6.
/>-<7 + 1	6
Распределение Бернулли. Если пространство событий заключает в себя только два элемента Q ={<В], coj} и каждое событие наступает с вероятностью Р (coi) = р, Р (со2) = 1 — р, 0< р < 1, то говорят, что случайная величина имеет распределение Бернулли, или, в сокращенной записи, X ~ В (1, р). Всевозможные результа
ты стохастического процесса в этом случае представляются при помощи двух чисел: 0 и 1.
Пример 3.8. Приведем некоторые из многочисленных примеров бинарной значимости случайной величины из практики:
1.	Загрузка компьютерного чипса
2	Положение выключателя
3.	Пол ребенка
4.	Результат подбрасывания монеты
О Включено Мальчик Орел
1 Выключено Девочка Решка
Случай, когда вероятность наступления каждого из двух возможных событий одинакова (р = 1/2), характеризуется как случай (модель) с идеальной монетой.
Биномиальное распределение. Если случайный эксперимент, результаты которого подчиняются распределению Бернулли, проводится не один, а л раз, причем каждый новый из л экспериментов независим от предыдущих, то в бинарных результатах экспериментов <2 ={<»i, соз) = {0, 1} частота появления единиц описывается биномиальным законом плотности распределения:
рк - Р (X = к) = Г?I р* (1 — р) п~к, 0< р < 1, к — 0, 1, 2,..., л
I К j
или, в сокращенной форме записи, X ~ В (п, р).
Доказательство тому, что биномиальная плотность распределения чисел согласуется с тремя основополагающими аксиомами вероятности, легко найти в теории биномов. На самом деле случай плотности распределения Бернулли является, очевидно, частным случаем биномиального распределения при п = 1:
Ро = ^Р° (1 “ р)1-0 = 1 _ Р, Pi = ^Р1 (1 “ р)1-1 = Р-
4 Многомерным статистическим
98
Глава 3
Закон биномиальной плотности распределения можно наглядно представить в виде дерева (рис. 3.6). Пусть левые ветви такого дерева отражают случайный процесс появления единиц, а правые — нулей. С учетом взаимной независимости проводимых экспериментов, следуя вниз по ветвям, можно получить мультипликативные вероятностные результаты р и (1 - р). В конце дерева определяется точное число появившихся единиц:
Рис. 3.6
Особенное теоретическое значение в подобного рода экспериментах приобретают случаи совершенно симметрического (идеального) распределения при р — 1/2.
Пример 3.9. Идеальная монета подбрасывается некоторое определенное число раз. Определим вероятность числа раз появления орла, равного в общем числу появлений решки:
(2«)'<1Л2л
Для 2п = 4 — числа экспериментов и возможных случайных результатов: А — орел, Z — решка, X — число выпадения орла в четырех подбрасываниях, имеем пространство событий О:
ZAAZ
ZAZA
	ZAAA	AZAZ	ZZZA	
	AZAA	ZZAA	ZZAZ	
	AAZA	AZZA	ZAZZ	
АААА	AAAZ	AAZZ	AZZZ	ZZZZ
Х = 4	X — 2	Х= 2	Х= 1	Х = 0
Случайные величины. Законы распределения и плотность вероятностей 99
wn4
При этом Р(Х = 2) =
Wlfm4-2 2;Ы Ы
4! (1 у 2!2!uJ
3
8’
Геометрическое распределение. В отличие от двух предыдущих примеров распределений пространство событий данного распределения не конечно, а предположительно включает бесконечное
число результатов:
Q = {СО], С02,	со„, ...} = {0, 1, п — 2, п — 1,
Плотность геометрического распределения при этом определяется по формуле:
pk = Р (X = к) = р (1 — р) к, 0 < р < 1, к = 0, 1, 2, а сама случайная величина X называется в этом случае геометрически распределенной.
Наглядно плотность вероятностей геометрически распределенной случайной величины представляется, по аналогии с биномиальным распределением, в виде дерева событий (рис. 3.7), ветви которого слева отражают случайный процесс наступления события, а справа — его ненаступления:
Геометрическая плотность распределения рк описывает вероятность появления положительного результата (наступления события) после получения первых к отрицательных результатов. Аналогично биномиальной плотности распределения геометрическая плотность распределения также укажет на вероятность появления первой единицы, однако с тем решающим отличием, что эксперимент здесь продолжается именно до появления этой первой единицы. Теоретически эксперимент может длиться бесконечно долго.
Геометрическое распределение, очевидно, можно представить как сумму вероятностных характеристик:
к к	1	Л+1
- Хй(1 -р)к = р, . = 1 -pk+l-
,=о	,=о	*-(i-p)
100
Глава 3
Формальная запись геометрически распределенной случайной величины имеет вид: X ~ NB (1, р).
Распределение Паскаля. Представляет собой обобщение геометрического распределения, его также определяют как отрицательное (негативное) биномиальное распределение, записывается: X-NB (г, р, г = 1, 2, 3, ..).
В данном случае имеют дело с вероятностью того, что Кг > 1) — число положительных результатов опытов — появляется после к отрицательных опытов (ненаступления события):
Р {к отрицательных результатов перед r-м положительным ре-(г + к —
зультатом, г >1} = Р (X = к) =	у(1 — р)к,
к- 0, 1, 2, r = 1, 2, ....
Для частного случая г = 1 имеет место геометрическое распределение плотности вероятностей Х~ NB(\,p).
Гипергеометрическое распределение. Для натуральных чисел М, N, п, к при 0 < к < т = min {п, М}, М < N с пространством событий Q = {соц (02, , со»} плотность гипергеометрического распределения задается величиной вероятности, равной:
I к II п-к I
р-. = Р(Х = к) = .0—-----к~0, 1, 2,..., п.
(N} I п I
В сокращенной записи: X ~ Н(М, N, п).
Моделью данного распределения может служить эксперимент с урной, в которой находятся N шаров, в том числе М шаров имеют определенный цвет, а оставшиеся N — М шаров — какой-либо другой цвет (скажем, красный и голубой цвета). Из урны шары выбираются случайным образом и без возврата; после отбора п шаров (л < т), при этом получаются следующие результаты (табл. 3.1).
Исходя из равенства п сумме различных комбинаций результатов эксперимента, показанных в правом крайнем столбце, следует признать существование плотности распределения случайной величины, для которой правомерна запись: м
Q <рк<\, ^Рк =1-к=0
Случайные величины. Законы распределения и плотность вероятностей
Таблица 3.1
Красные шары	Голубые шары
0	п-0
1	п- 1
2	п — 2
3	п — 3
к	п~к
п	0
Различные комбинации результатов эксперимента
MYN-M\ 0| л J MYN-МУ 1	п-1 J
MYN-W} 2 )[ п-2 ) MYN-M\ 3 Л "~3 J
л/уА-лп
k n-k J
MYN-M\ n У ° J
Пример 3.10. Обратимся к проблеме выигрыша в лотго <6 из 49». На бланке лотерейного билета записано 49 чисел (А = 49), из них следует указать 6 чисел (М = 6), которые впоследствии могут оказаться выигрышными.
Пусть на билете зачеркнуты какие-либо 6 чисел (п = 6). тогда рк будет вероятностью попадания из п зачеркнутых к выигрышных чисел. Обычно вероятность для к > 3 остается весьма малой, в этом можно убедиться по данным табл. 3.2. Хотя игры-лотто весьма распространены в Европе и Северной Америке, по данным таблицы видно, что скорее они иррациональны и предполагают некоторый психологический настрой (как, например, стать миллионером), нежели обоснованный научный расчет.
Определим вероятность правильного выбора чисел на карте лотто:
102
Глава 3
Таблица 3.2
к______________________________Рк____________________
/6Y43A /49/
0	/’о= к L И 6 = 6096454/13983816 = 0>436
/6Y43/ /49/
1	J 5 / 6 = 5775588/13983816 = 0,413
/6//43/ /49/
2	/Ъ = L L / г = 1851 150/13983816 = 0,1324
I 2 II 4 J I о I
/6Y43/ /49/
3	р3 = L 3 / 6 = 246820/13983816 = 0,017
/6//43/ /49/
4	Р4= 4 2 И 6 Г 13545/13983816 = 0>001
/6//43/ /49/
5	Р5= 5	1	И 6	Г	258/13983816 = 0,00001845
/6//43/ /49/
6	р6= L	0	/L =	1/13983816 = 0,000000072
Пример 3.11. Рассмотрим задачу статистического оценивания случайной величины по данным некоторой генеральной совокупности. Ниже будет показано, что такая задача предполагает решение с определением неизвестных параметров распределения, например, определение неизвестного параметра //для распределения Н (М, N, п).
В случае гипергеометрического распределения часто возникает ситуация, когда параметр М известен, а параметр У нет, например, при определении величины популяции вида птиц, которому угрожает вымирание. Через некоторый промежуток времени после того, как с исследовательской целью М птиц отловлено, окольцовано и вновь отпущено на свободу, предполагается проведение контрольных мероприятий. Птицы данного вида, на этот раз их число п, вновь отлавливаются и проверяются по признаку наличия кольца, таких может быть к птиц. Полученные данные позволяют установить общее число птиц в популяции — N. Так как плотность распределения рк = рк (N) представляет одно из всех У значений унимодальной функции, запишем равенство соотношений:
Случайные величины. Законы распределения и плотность вероятностей Q3
pk(N) / pk(N - 1) = [(N - М) (N ~ п)] / [N - М - п - к].
При максимальном значении N наибольшая из оценок плотности вероятностей для наблюдаемой выборки {М, п, к} равна единице:
D = 1,
откуда следует условие М/ N = к / п, т.е. как в генеральной совокупности, так и в выборке удельные веса наблюдений, обладающих признаками «наличие кольца» и «нет кольца», распределяются равномерно.
Из последнего равенства получим:
N = Мп /к.
Зададим конкретные значения: пусть первоначально окольцовано 100 птиц, при повторной выборке проверено 50 птиц, из которых 20 оказалось с кольцами. Тогда общее число птиц данной популяции, согласно нашей формуле, будет N = 250.
Распределение Пуассона X - Р (X). Пространство описываемых событий содержит бесконечное множество элементов:
Я{СО|,(О2,...,(Ол,(Оя+],...} .
Функция плотности распределения случайной величины принимает вид:
-X кк
рк=Р(Х = к)-е —, 0 < Хе R, к = 0, 1, 2,...
При этом возможен переход к простой рекуррентной формуле вычисления вероятностных характеристик:
Рк =Рк-\ 7. к = 1, 2,..., при р0 = е"\ к
Интерпретировать распределение Пуассона можно как оценку вероятности очень редких событий. В прошлом толчком для разработки теории этого распределения послужило предположение о возможной в течение года смерти кавалериста от удара копытом его же лошади. Сегодня эмпирически более важным представляется вероятность несчастного случая, скажем, на шоссе или появление помех при телефонных переговорах в некоторый заранее определенный период времени.
3.3.	Непрерывные распределения
В основе этого класса распределений всегда лежит непрерывная случайная величина: X: Q -> R.
104
Глава 3
Непрерывное равномерное распределение X - U (а, Ь)
Рис. 3 8. График непрерывного равномерного распределения U (а, Ь)
Пусть имеются некоторые значения a, b е R. Тогда случайную величину, имеющую плотность распределения /• [a, Z>] -> R и f (х): =
= —— ,-°о<а<х<Ь<°о, называют Ь-а
равномерно распределенной на интервале [а, />].
Функция распределения в этом случае, очевидно, будет точно такой же, как и для дискретной случайной величины (3.8):
F (х) = ——— , —о°<а<х<Ь<°°.
Ь-а
Треугольное распределение. Пусть имеются a, b, с е R. Тогда треугольным распределением на интервале [а, с] называется случайная величина с плотностью распределения f.[a, Z>] е R и
ah hx
/М~
a-b b-a ch hx
,c-b b-c ’
Константные значения a, b, с и h выбираются таким образом, чтобы получить треугольник площадью, равной единице. Например, а = О, b = 0,5, с = 1 и h = 2, т.е.:
, ,	(0+4х, 0<х<1/2,
|4-4х, 1/2<х<с.
Для данной плотности вероятностей соответственно можем записать функцию распределения:
/(х) =
0
	2х2
4х-2х2-1
х<0 0 <х< 1/2 1/2<х<1.
Распределение Парето. Пусть имеется a, b е R, тогда случайная величина X называется распределенной по Парето при усло
вии, что для нее существуют:
функция плотности вероятностей вида:
Z , X д+1
/:=[а, Z>] —> R, f(x) — — при 0<а, 0<Ь<х, Ь\х)
Случайные величины. Законы распределения и плотность вероятностей 05
и функция распределения
О при х< b
р .	(ь\а
1 - — при 0 <а, 0< Ь<х.
(х 7
То, что f (х) может быть в данном случае получено из F (х), и наоборот, следует непосредственно из связи первой производной f (х) и F (х), трансформирующих величину и = — и соответ-х
ственно описывающих плотность распределения и само распределение случайной величины X.
Типичным примером данного вида распределения является распределение доходов населения (рис. 3.9).
Рис. 3.9
Экспоненциальное распределение X ~ Р (1, X). Пусть имеется a, be R. Тогда случайная величина X с плотностью распределения \	длях50
[Хе	для х > 0
и функцией распределения:
\	",ЯХ£0
[1-е	для х > 0
называется экспоненциально распределенной с параметром X. Причем параметр X выполняет условие:
О < X - г(х).- — —— = const.
1-Т(х)
106
Глава 3
График плотностей экспоненциального распределения случайной величины с заданными параметрами Х=1, Л = ЗиХ = 5 имеет вид, показанный на рис. 3.10.
Рис. 3.10
Обратимся к примеру из теории надежности. Пусть величина X отражает результаты контроля за продолжительностью горения лампочки и имеет экспоненциальное распределение. При этом А представляет некоторую минимальную продолжительность горения лампочки t0 (t0 > 0), а В — более продолжительное, чем t0 — горение лампочки > г0). Определим вероятность того, что лампочка после того, как продолжительность ее горения была t0, будет гореть еще до периода
Уровень вероятности вычислим по известной формуле:
Р(В\А) = ^^-
Р(А)
для результата А: Р (А) = е-Х/°, для результата А п В: Р (Л п В) = = е-^1, так как можно получить только зная t.
После подстановки функциональных значений Р(А) и Р(А п В) получим:
-ц
Р( В | А) = --= е-Х/1+Х/° = e“Z(,|~'o).
е-^о
Подобный результат обычно характеризуется как экспоненциальное распределение без фиксации (запоминания) временного периода. В данном случае речь идет только о развитии событий
Случайные величины. Законы распределения и плотность вероятностей 107
в различные временные периоды, но различия самих временных периодов как таковых не рассматриваются.
Распределение Эрланга X - Р (п, Л). В качестве обобщения
экспоненциального распределения рассмотрим двупараметрическое унимодельное распределение Эрланга. Случайная величина называется распределенной по Эрлангу с параметрами Лил, если
она имеет плотность распределения: f:R->R,
fix'):
О р-Ах • Я-1л п с
(к-1)!
для х < О
для х > О
сие N и Л > 0. Значение п — 1 трансформирует распределение Эрланга вновь в экспоненциальное распределение. Параметрические значения Л = 3 и п = 3 или п = 6 определяют форму распределения Эрланга, как это показано на рис. 3.11.
Распределение Вейбулла. Еще одним обобщением экспоненциального распределения является двупараметрическое унимодельное распределение Вейбулла.
Случайная величина имеет распределение Вейбулла с параметрами Ли п, если ее плотность описывает функция вида:
/: Л-э R, 0	для х< 0
пхп~'}£~и"	ДЛЯ X > 0
при ле N и Л > 0.
Распределение Вейбулла, как и предыдущее, при и = 1 обращается в экспоненциальное, а при заданных параметрах Л = 0,25 и п = 2 принимает вид, показанный на рис. 3.12:
Г(х):=
108
«('SsA-
Глава 3
Гиперэкспоненциальное распределение. Может рассматриваться как третье обобщение экспоненциального распределения. Данный вид распределения предполагает наличие случайной величины, имеющей плотность распределения:
f.R^R,
/(*)•=
Л Л -Х,х
Clj С
для х < 0
для х > 0
п
с 1, >0 и	=1, neN.
о
Как и прежде, при п = 1 происходит трансформация в обычное экспоненциальное распределение
Двустороннее экспоненциальное распределение. Это четвертое обобщение экспоненциального распределения.
Двустороннее экспоненциальное распределение с параметром Л имеет случайная величина с плотностью распределения:
f-R-^R,
ре+Ал для X < 0
/(*)=!? •>	^>0
Л. -Хх
1уе для х > 0
На рис 3 13 представлен график плотности распределения случайной величины с двусторонним экспоненциальным распределением при Л=1,Л = 2иЛ = 3:
Случайные величины Законы распределения и плотность вероятностей Q9
Рис 3.13
Область практического приложения данного вида распределения иллюстрируют примеры статистического вероятностного оценивания:
•	средней продолжительности «жизни» технических приборов;
•	затрат времени на обслуживание клиентов в банке или магазине;
•	вероятность умереть в младенческом возрасте.
Нормальное распределение (распределение Гаусса) — Х~ N(p, ст2).
Случайную величину с плотностью распределения:
(х-Ц)2
f-R~>R, f(x) =—==& 2а2
W
называют нормально распределенной с параметрами де R, о2 > 0.
Отметим следующие особенности графического изображения плотности вероятностей нормальной случайной величины:
1)	значения f распределяются симметрично, влево и вправо от экстремальной параметрической оценки д, т.е. f'(p) = 0;
2)	функция f является строго монотонно возрастающей на интервале [-«>, д] и строго убывающей на интервале [д, +°°];
3)	функция f имеет две точки перегиба — в д ± ст
В общем виде график нормального распределения напоминает колокол (рис. 3.14);
110
Глава 3
Рис. 3.14
Количественные характеристики плотности вероятностей нормального распределения табулированы. В связи с этим отметим, что график нормального распределения не имеет каких-либо закрытых областей, т.е. для него не существует некоторой определенной интегральной функции F (х). Тем не менее представляется возможным произвести количественную оценку площади графика, находящегося под кривой функции /(х). Именно это позволяет строить таблицы для значений F (х) и быстро находить в них интересующие исследователя величины.
В теории вероятностей предлагается одна из модификаций нормального распределения — полунормальное распределение, описывающее плотность вероятностей:
_ О^2
/•’ l-°°> м! -> Л, /(*):=	- е 2°2 , х < ц,
vW
при этом значения /(х) по сравнению с нормальным распределением ограничиваются половиной ординатной оси.
Логнормальное распределение. Это распределение родственно нормальному, предполагает наличие случайной величины с плотностью вероятностей:
f '.R-tR, f(x) := —Ц- — е	2 °2	х > 0,о2 > 0, a еЛ.
2 яс 2 х
Случайные величины. Законы распределения и плотность вероятностей j j
Логнормальное распределение имеет два параметра: а и о2. , Приведенная функция плотности вероятностей в данном случае 'выполняет ту же роль, что и распределение Парето в распределении случайной величины.
Распределение Коши. Имеет параметры к и т, используется для случайной величины с плотностью вероятностей:
к.
f :R-> R, /(х):=---=г-----0 < £, -оо < х < оо.
л(к2+(х-т)2)
Максимальное значение функции плотности вероятностей достигается при х = т (рис. 3.15):
Рис. 3.15
«-распределение (распределение Стьюдента). Случайная величина с плотностью вероятностей
имеет «-распределение с v = п параметрическим числом степеней свободы.
При п=1 и	распределение Стьюдента (/-распре-
деление) трансформируется в распределение Коши с к = 1.
112
Глава 3
График /-распределения с числом степеней свободы п = 5 и
п = 9 имеет следующий вид (рис. 3.16):	--	1
Бета-распределение. Имеет параметры а и fl, описывает случайную величину с плотностью вероятностей:
f.R->R,
К*): =
Г(а+р)ха-1(1-х)рч
Г(а)Гф)
О во всех других случаях.
О < х < 1,
0<а,р,
Здесь Г(г) — это гамма-функция:
Г(г): = Jxz-1e'~’*a5c, 0<z, 0<х<°°. о
Бета-распределение представляется одним из наиболее важных, именно оно лежит в основе целого ряда других представленных ниже распределений.
/-распределение Фишера. Имеет два параметрических числа степеней свободы vi и v2, используется для случайной величины с плотностью вероятностей:
J V1+v2 \.У1/2 v2/2 у,/2-1
I 2 J 2
f. [О, о») -> R, f(x) = /	/---------------
WyK+V2^’’1+’’2)/2)
где 0 < v,, v2 — целые числа и 0 < х <	{
График распределения Фишера при V! = v2 = 10;	= уг = 6 и
vi = v2 = 4 имеет вид, показанный на рис 3.17.
Случайные величины Законы распределения и плотность вероятностей 3

08-
0	1	2
Рис 3 17
При vj = 1,	= v w х — t1 плотность вероятностей Фишера
переходит в /-плотность Стьюдента, при а =:	/2, b =: v2 /2,
F • = (vj/v2) [х/( 1 - х)] и целочисленных значениях vb v2 ^-распределение Фишера может рассматриваться как особый случай Бета-распределения.
Обратим внимание также на связь распределения Фишера с биномиальным распределением. В этом случае происходит как бы обмен ролями у величин и параметров: а и b — целочисленные значения величины, ах — это параметр р
Гамма-распределение ]Г(а,р)]. Имеет два параметра аир, применяется для случайной величины с плотностью распределения: а-i -х/р
/ (0, о°) —> R, f(x) =--------, 0<а, р;0<х<о°
₽аПа)
Хи-квадрат (%2)-распределение. В краткой записи %2 (у) имеет один параметр у, который характеризуется так же, как число степеней свободы Предполагается наличие случайной величины с плотностью вероятностей-
Л/2-1 х/2
/. [О, оо) R, f(x) =—---------, 0 < у; 0 < X < оо.
2Y/2(y/2-l)'
Распределение %2 при у = 6 и у = 10 показано на рис 3.18.
Сравнивая ^-распределение с гамма-плотностью распределения вероятностей, можем записать:
Х2(т) = Г (у/2,2), %2 (2у) = Г (а,2).
Распределение %2 может быть получено также из распределения F-Фишера и соответственно бета-распределения. В этом случае устанавливается, что х : = %2 = х/у; Y  ~ fi и fi -»
Распределение Вейбулла-гамма. Имеет три параметра: b, d, к и используется для случайной величины с плотностью вероятностей:
/(х)::
bkdxb 1 (xb + d)k+} О,
, х > 0, 0 < b,d,k, х<0.
Для распределения Вейбулла-гамма можно выделить два особых случая. Первый случай — с так называемой плотностью Бёрра (d = 1):
bkxb 1
/(*):=
' (хь)м ’
О,
х > 0, 0 < Ь, к, х<0.
Второй случай предполагает Парето-плотность вероятностей, d = b = 1 и у : = 1 + х:
к
f.R-^R, f(y):=
ук+}, у>1, 0<к, о, у<1.
Общая схема взаимосвязей непрерывных статистических распределений представлена на рис. 3.19.
Случайные величины. Законы распределения и плотность вероятностей *| ”| 5
Распределение◄-----^-распределение ◄— F-распределение ◄------ Бета-распределение
Коши
2
X -распределение
Двойное
экспоненциальное распределение
Г ипер-
экспоненциальное
Гамма-распределение
I
Распределение
Эрланга
I
Экспоненциальное распределение
Распределение Вейбулла
распределение
Урезанное
Нормальное распределение
нормальное Биномиальное Логнормальное
распределение распределение распределение
Распределение
Вейбулла-гамма
Равномерное распределение
Распределение Распределение
Парето	Берра
Рис. 3.19. Взаимосвязи непрерывных статистических распределений
3.4. Математическое ожидание и дисперсия
В предыдущих параграфах мы видели, что в рамках дескриптивной статистики эмпирические распределения представляются с помощью параметрических величин, определяющих их положение и степень рассеяния в координатной системе. Похожим образом распределения случайных величин оказывается возможным грубо описывать некоторыми числами, задающими положение и степень рассеяния самих случайных величин. В этом случае роль показателей уровня вероятности берут на себя характеристики относительной частости появления того или иного события.
Математическое ожидание, а) Пусть X — дискретная случайная величина с плотностью вероятностей pk = Р (X = хк) (кеК),
116
Глава 3
где К — индекс некоторого множества, включающего элементы пространства событий О, Q = {соА | /се А}, тогда число
Е(х) = Y,Pkxk
кеК
называется математическим ожиданием X
б) Пусть X — непрерывная случайная величина, имеющая функцию плотности вероятностей f: D -> R, тогда число
Е(х) =\xf(x)dx
D
есть математическое ожидание X
Пример 3.12. Рассмотрим случай с подбрасыванием игрального шестигранного кубика:
О = {/се К\ К= {1, 2, 3, 4, 5, 6}} = {1, 2, 3, 4, 5, 6},
Л = |(/с= 1, 2, 3, 4, 5, 6),
математическое ожидание случайной величины X будет 6	1 6
Е (х) ~ ^Ркхк=-7^к = ^5-
Пример 3.13. Имеется случайная величина X, X: Q. -> R, при этом О = {к е Af| К = {1, 2,..., 7V}} = {1,2, 3, ..., 7V} и рк = ак {к = = 1, 2, ..., АО-
Определим математическое ожидание для X, приняв во внимание свойства статистической оценки уровня вероятности:
i = Sa t=l
* aN(N+l)
2
#(#+!)’
следовательно, N	N i 2N+ 1
Е(Х)=^Ркхк =a£k =—;—•
k=l	k=l J
Пример 3.14. Пусть имеется X — случайная величина с функцией плотности вероятностей:
f (х) = ах11, 0 < х < b, т. е D — (0, 6)
Из условия, что j f (x)dx = 1, получаем
D
г	abM	b + \
Jo	b + 1	bM
Случайные величины Законы распределения и плотность вероятностей 117
£(Х) = jxf(x)dx	dx =	•
D (ДО J	0 + 2
Пример 3.15. Случайная величина X имеет экспоненциальное распределение с параметром Л, ее математическое ожидание будет:
£(х) - jx f(x)dx =|хХе-^(& = — . do
Подобный вывод базируется на справедливости следующих утверждений:
e~udx = du и v — х, а также е-Ал=и и dv = dx.
X
В данном случае следует обратить внимание, что
^-хе~Алпри х-> оо.
Замечание. О трансформации случайной величины.
Пусть g- R—> R — интегрируемая функция, тогда £[#(.¥)] = Y,S(xk)Pk^ если х — дискретная величина, и к
£[g(Ar)] = Jg(x)/(x)o!r, если X — непрерывная величина. о
В частности, это можно увидеть на примере простой линейной зависимости двух величин Хи Y: Y: = а + ЬХ(a, b е R): Е (У) = = а +Ь[Е(Х)].
Неравенство Маркова. Пусть X — случайная величина, принимающая только неотрицательные значения, тогда можем записать следующее неравенство Маркова:
Р[Х>с]<^-, с>0. с
□ Доказательство: Обратимся к случаю с дискретной случайной величиной:
=	= X Pkxk+ Е Pkxk- '£lPkxk=c YPk=cP(.^^c) 
k	k xk<c k xk>c kxk>c k xk>c
Если X непрерывна, доказательство существования неравенства Маркова строится аналогичным образом.
Дисперсия, а) Если X — случайная величина с плотностью вероятностей pk= Р (X = хк), то ее дисперсией называют число (var X)' var(.¥) = £Л[х*~ад]2 кёК
118
Глава 3
б) Если случайная величина X непрерывна и имеет плотность вероятностей f (х), хе D, то ее дисперсией будет:
var(A') := j[x- Е(х)]2 f(x)dx.
D
Дисперсия может быть представлена при помощи математического ожидания случайной величины как разность:
var (Л) = Е (X2) — [Е (Л)]2-
Это равенство часто используется как удобная форма расчета дисперсии.
□ Доказательство: Для дискретной случайной величины X действует:
var(A') = £ aJx*-E(X)]2= ХлЙ-2х^ад + [вд]2]= кеК	кеК
= YxkPk -22?(Х) £ хкРк + to]2 ^Рк = Е(Х)2 - to]2-кеК	кеК	кеК
Если случайная величина X непрерывна, то соответствующим образом, как доказано выше, получим:
var(A') = J[х - ЕМ] 2 f(x)dx = j [х - 2хЕ(Е) + [e(^)] 2 ]/(х> = D	D
= j x2/(x)dx - 2Е(х) j х Дх). ..dx + [Е(Х)]2 J f(x)dx = D	D	D
= E(X2)-[E(X)]2. 
Пример 3.16. (Продолжение примера 3.12). Вернемся к примеру с подбрасыванием идеального игрального шестигранного кубика:
6	6 । ( зЛ2
var(X)= ^Pjt[xfc-E(X)]2=	=—
k=i	л=16<	2 J 12
Пример 3.17. (Продолжение примера 3.13)
N	, N	{К 2 । v
ум(Х)=^Рк[хк-E(X)\2= ^Pkx2k-E{X)2 =-------------.
k=l	k=l	18
Замечание. Линейная трансформация случайной величины. Если X — случайная величина и существует зависимость вида: Y = а + ЬХ, a, b е R, т.е. X линейно трансформируема, то действует равенство:
var (У) = /г2 var (X).
Случайные величины Законы распределения и плотность вероятностей *1 *19
□ Доказательство: Пусть случайная величина X дискретна, тогда
уаг(У) = £ pk\yk -Я(У)]2= '£pk\a + bxk -а-ЬЕ(Х)]2=
keK	ksK
= ъ1 ^Pklxk -Ж)]2=^2 varW
keK
В случае, если X — непрерывная случайная величина, то и У непрерывна и дисперсию получим в результате следующих формальных преобразований:
var(X) = J [у - Я(г)] 2f(y)dy = J[a + bx - а - ЬЕ[Х)]2 f[x}dx =
D	D
= j [bx - ЬЕ[Х)] 2f(x)dx = p2 [x - Е(йГ)] 2f(x)dx = b2 var^). 
D	D
Рассмотрим примеры, позволяющие перейти к обобщению понятий математического ожидания и дисперсии.
Пример 3.18. Определим математическое ожидание и дисперсию для случайной величины, имеющей распределение Бернулли:
ЯРО =1/,+0(1 -р) =р,
var (Л) = (1 - р)2р + (0 - р)2 (1 - р) = р (1 - р) = pq (q := 1 - р).
Пример 3.19. Для случайной величины, подчиняющейся биномиальному закону распределения, математическое ожидание и дисперсия будут:
Е (X) = пр и var (X) = пр (1 — р) = npq
Формулы для определения математического ожидания и дисперсии при этом получают непосредственно преобразованием биномиальных коэффициентов:
Е(Х)=&(ПДрк(1-р)к и varW=fp-«P)2rV(l-p)\
откуда для математического ожидания имеем:
т (т\
=пр X •	=пр, т.=п-\, Д.=к-Л.
j=o /
120
Глава 3
Пример 3.20. При условии, что случайная величина X имеет распределение Пуассона, математическое ожидание и дисперсия находятся весьма просто:
ОО	ОО	00	00 "1
к=0	к=0	К- 4=0	к=0
Дисперсию найдем, используя связи моментов:
»	°°	°°	“ АА~2е-^
Е[Х(Х-1)] =	-\)Рк = £ к(к -1)——=к2 X -т——=
к=0	Л=0	К‘ к=2
ОО Л к =Х2е-хУ^-=Х2,
Откуда
уаг(Л) = Е[Х(Х~1)] ~ Е (X) [£(JV) -1] =Х2-Х(Х-1) = Х.
Математическое ожидание и дисперсию для плотности вероятностей Пуассона определяют аналогично, как и для самой случайной величины, имеющей распределение Пуассона.
Пример 3.21. Покажем пример плотности вероятностей, для которой не существует математического ожидания:
р =p\x=J] = —Ц-, у = 1,2...
Приведенное выражение действительно задает плотность вероятностей, так как
"	1 п	п
У —-----=----- и lim ---= 1.
у_£ У (У “Г 1) tl + 1 W—tl + 1
При определении математического ожидания случайной величины X имеем:
п	п
E(X)=YpjJ=Y
/=1	/=1
J
JU+V)
Введем некоторые определенные значения:
2У+' 1	1
4=2'+1 Л	2
у = 0,1,2,...
Эти значения формально при условии
^2У+1-2У =2У) пред-
2у+ -2У 1 ставляются минимальными -----;— = -,
2'+l	2
минимальных. Но тогда
у = 0,1,2..., или больше
Случайные величины. Законы распределения и плотность вероятностей 121
" 27+1 1	"1 п
hm X — > hm jP — = lim — ,
k=2J+lk n^°° 7=02	n~>“’ 2
т.е. £(Л) бесконечно велико.
Пример 3.22. Приведем без доказательства оценки математического ожидания и дисперсии для нормального распределения случайной величины:
Е (А) = ц, var (А) = о2.
Выводы для ц и о2 получают разнообразными статистическими способами, широко представленными в теоретической литературе.
Утверждение. Случайная величина X, симметрично распределенная вокруг некоторой точки 5, имеет математическое ожидание, равное 5.
□ Доказательство: Предположим, что X — дискретная величина, но тогда для каждого из ее значений S + хк = : ук плотность вероятностей будет рк = Р [X = yj, то же для значений $ — хк = ук плотность вероятностей рк = р, = Р [Л' = у,] — тем самым доказательство исчерпывается.
Если X непрерывна, то с учетом заданного условия можно записать равенство функций плотности вероятностей: f(S + х) = = f(S — х), что также является достаточным доказательством выдвинутого утверждения. 
Коэффициент вариации. Пусть X — некоторая случайная величина, дискретная или непрерывная, имеющая математическое ожидание Е (Л) и дисперсию var (Л), отличные от нуля, тогда ее коэффициентом вариации V (X) выступает отношение:
Е(Х)
Например, для биномиального распределения коэффициент! вариации будет:
для геометрического распределения:
K(.Y):=-=J=,
для распределения Пуассона:
V Л
122
Глава 3
Коэффициент вариации для стандартизованной случайной величины. Пусть имеется нормально распределенная величина с математическим ожиданием Е (Л) =: ц, дисперсией и средним квадратическим отклонением, соответственно равными: vai(.¥)=:o2, ^var(X) = о. Стандартизируя значения X по формуле v Х-ц Y:=----имеем:
о
E(Y) = e[	= —(£(%) - И) = 1(И - И) = О,
к о ) о	о
var(K) = var| ——- | = -Д var(X - ц) = -Д var(X) = -Д- • о2 = 1.
I о J о2	а2 о2
Далее систематизируем наиболее распространенные виды статистических распределений и покажем для каждого из них алгоритмы вычислений математического ожидания и дисперсии (табл. 3.2).
Таблица 3.2. Виды и параметры статистических распределений
Статистическое распределение	Математическое ожидание	Дисперсия
1	2	3
Биномиальное		
В (п; р)	пр	пр (1 - р)
Геометрическое	1-р	.	\-р
NB(\,p)	р	Р2
Паскаля	г(1-р)	г(Х-р)
NB (г, р) м	р	Р2
Гипергеометрическое	Мп	M(N-M)(N-n)n
Я (М, N, п) '		W2(W-1)
Пуассона	2	2
Р(Х)		
Непрерывное равномерное	а + Ь	(b-a)2
U {а, Ь)	2	12
	ab	«й2
Парето			5	у, а^ 1,д*2
	а-1	(а-1)2(д-2)2
Случайные величины. Законы распределения и плотность вероятностей j 23
Продолжение табл. 3.2
1	2	3
Экспоненциальное Р(1, Л)	\/К	1Д2
Эрланга Р (п, Л)	п/К	л/А2
	1 + я>|	j2+«	fI+«H
	Г 		Г 	1-1 г 	
Вейбулла	\ п )	V п ) \ \ п ))
	ч/к	Л?
Двустороннее	о	1
экспоненциальное		X2
Нормальное N (ц,о)	и	о2
Логнормальное	2	в3в+а2(ее2 _})
Коши	нет	нет
/-Стьюдента	0	Л 	, п>2
		п-2
	а	ар
Бета			
	а + р	(а + р)2(а+р +1)
	А	2/12(/2 +/1 -2)
/-Фишера	А-2	Л(/|-2)2(/1-4)
Гамма		
С (а, р)	а р	а р2
Кси-квадрат		
G(a,2) = Z2(g)	g	2g
3.5.	Двумерные и многомерные случайные величины
Обратимся к проблемам статистического изучения дву- и многомерных случайных величин. Наиболее важные и сложные вопросы при этом — оценка силы и определение мерного масштаба взаимосвязей таких величин.
Дискретные случайные величины. Пусть имеются X и Y — две дискретные случайные величины с некоторой ограниченной общей областью их оценивания, тогда показатели вероятности
124	v • Глава 3
совместных реализаций определенных значений этих величин могут быть обобщены в так называемой таблице контингенций (табл.3.3).
Таблица 3.3. Контингенции для двумерной дискретной случайной величины (X, Y)
Г	У\	У2		Ут 2	
*1	Ри	Pl2		P\ni2	Р1.
*2	Р21	Р22		Pirn-}	Р2.
					
	Рпц!	Pmf2		Рт 1ГП2	Ртх .
	Р-1	Р-2		Рт2	Р
В клетках таблицы, окаймленных жирными линиями, представлены величины, которые указывают на совместную вероятность появления конкретных значений двумерной случайной величины (X, У), а в клетках, расположенных за жирными линиями, т.е. в клетках последнего столбца и последней строки, — показатели условной вероятности, существующие раздельно для значений каждой из случайных величин X и Y. Напомним о статистическом анализе условных вероятностей одномерных случайных величин X и Y, о которых говорилось выше в пп. 3.2.1—3.2.4; для нового понятия совместной вероятности введем обозначение р1р при этом 0 < pv < 1, 'Е.Т.ру— 1 (/ = 1, 2, ..., т; j - 1, 2, ..., л) с целью упрощения записи примем, что т\=: т и т2—. п.
Пример 3.23. Условное и совместное распределение. Покажем, что различные совместные распределения двух случайных величин X и Y могут приводить к образованию идентичных условных распределений.
Случайные величины. Законы распределения и плотность вероятностей 125
Первое совместное распределение:
Р[Х=-1,У = 0] =Р[Х = 0,У = 1] =Р[Х= 0, У = -I] = 1/4.
Условные распределения при этом:
Р[х = -1] = 1/4
prv - m - 1 /э и согласно условию ' метричности
Р [X — 1] = 1/4
Второе совместное распределение:
р[х = -1,У = 1]= Р[Х = -1,У = -1]= Р[х = 1,У = 1]= Р [X = 1,У =-!]= 1/8
и
Р[У= -1] = 1/4 сим’ Р[у=0] = 1/2
Р[У= 1] = 1/4.
Р[Х = 0,У = 0]=1/2.
Условные распределения здесь такие же, как и в предыдущем случае:
Р[Х = -1]=1/4
Р[Х = 0] = 1/2
Р[Х =1]= 1/4
P[Y = -1]= 1/4 и соответственно условию р[у = о]=1/2 симметричности
Р[У = 1] =1/4.
Для наглядности проиллюстрируем пример рисунками, показывающими распределения совместных вероятностей (рис. 3.20
Рис. 3.21
Таким образом, можно утверждать, что для совместной вероятности существуют и могут быть найдены соответствующие условные вероятности. Обратное утверждение, что некоторые условные вероятности задают совместную определенную вероятность, как правило, не действует. Исключением выступает
126
Глава 3
только случай с независимыми величинами, допускающими образование совместных вероятностей из условных.
Анализ многомерных случайных величин предполагает введение параметрических оценок по аналогии с математическим ожиданием и дисперсией, используемых для обычных одномерных величин. Исходными и весьма важными в числе таких оценок являются показатели ковариации.
Ковариацией случайных величин X и Y [cov^y)] является некоторое число:
cov(x,r)~ х ЕЬ - ад] Ь -ад]^ 
У=1(=1
Для исчисления характеристик ковариации может применяться формула, значительно упрощающая расчеты:
cov(X, Y )= E(XY)-Е(Х }E(Y).
□	Доказательство'.
соу(х,У)= £ X h -£(*)][у7 -	=
у=1/=1	..	-
=ххЬл- -х/ад-уУад+ададИ-= у=1/=1
= lLlLxiyjPij-EiYy^XjPj.-E^X^yjp.j +E(X)E(Y) = i=l	y=l
=E(XY)-E(X)E(Y\
Полученное новое выражение ЕрЛ) можно рассматривать как простое математическое ожидание (см. §3.4):
E(XY\.= ^Xl.y.jPij.m j=l i=l
Определение независимости случайных величин. Две случайные величины X и У называются независимыми, если для них имеет силу:
Pij =p(x = Xi< У=уу)=/’(йГ=х,)р(у=у/)=Л..р.у.
Ковариация двух независимых случайных величин равна нулю: cov(/,y)=0.
□	Доказательство: Само доказательство в данном случае вытекает непосредственно из определения независимости
Случайные величины. Законы распределения и плотность вероятностей 27
случайных величин. Для независимых величин X и Y действует, как показано выше, p^-pj pj, откуда следует
п iy-jp-j м
e(xy)=
т ^Xj.Pi. .1=1
Замечание. соу(А\У)=0
= £(Х)£(Г).И
=> независимость X и Y. Обрат-
ный вывод о том, что если cov(x,y)=0, то X и Y — независимые
величины, неправомерен. В этом легко убедиться на последую
щих примерах, представляющих ковариацию и связи независимых величин.
Пример 3.24. Имеются данные распределения двух случайных величин Хи Y:
\ У X \	-2	-1	1	2	
1	0	1/4	1/4	0	1/2
4	1/4	0	0	1/4	1/2
	1/4	1/4	1/4	1/4	
При этом Е(Х) = 5/2, var(X) = 9/4,
E(Y) = 0,	Уаг(У) = 5/2.
E(XY)=0,
т.е. cov(Ar,y)=0, хотя X и У, как видно из данных таблицы, — не независимые величины.
Пример 3.25. Пусть имеются две независимые и идентично распределенные случайные величины U и V, которые, скажем, представляют результаты подбрасываний двух игральных кубиков. Тогда можем записать:
X := U + V — сумма результатов подбрасывания кубиков,
Y := U — V — разность результатов подбрасывания кубиков.
128
Глава 3
Для показателей ковариации X и Y имеем следующий набор равенств:
Е(Х) = E(U) + E(V); E(Y) = E(U) - Z(K) = 0;
E(X,Y) = E[(U + V\U-И)]=E(U2-V2) = E(U2)-E(V2) = 0: '
cov(X,Y)=E(XY)-E(X)E(Y)=0-E(X) 0=0
По условию U и V — две независимые величины. Величины X та Y конструктивно построены таким образом, что находятся в тесной связи друг с другом, но в то же время их ковариация равна нулю.
Понятие коэффициента корреляции р. Коэффициентом корреляции называют оценку ковариации двух стандартизованных случайных величин (X*, Y*):
п т\ /	\1Г	/ \1
р=cov^*,y*)=-Ф ik
/=1/=1
Коэффициент корреляции отражает линейные связи, для него имеют силу:
а)	-1<г<1,
б)	г=±1<=>У-а+ЬХ (a,belt).
□ Доказательство:
Для свойства а)
Предположим, X и Y — две любые случайные величины, имеющие совместную плотность вероятностей и определенные величины математических ожиданий E(X),E(Y) и дисперсий var(X), var(K). Тогда для дисперсии суммы Z : = X + Y действует:
0 < var(Z) = E[z - E(Z)] 2= z[x + Y - E(X + Г)]2=
= E{[x - E(X)\+ [Y - E(Y)P = E{[X - E(X)} 2+ [y - E(Y)]2 +
+ 2[X - E(X)] [Г - E(Y)^ = var(X) + уаг(У) + 2cov(X, Y).	(3.1)
Чтобы показать справедливость а), перейдем к рассмотрению стандартизованных величин X* и У*, запишем для них:
0 < var(X* + Г*) = 1 +1 + 2р = 2(1 + р),	(3.2)
для дисперсии разности Z: = X — Y или Z:= Y — X) соответственно будет:
0< var(X*-У*) = 1+ 1-2р = 2(1-р).	(3.3)
Случайные величины Законы распределения и плотность вероятностей 129
Из (3.2) и (3.3) непосредственно следует правомерность установленных нижней и верхней границ колебаний коэффициента корреляции.
Для свойства б):
Пусть имеются две любые случайные величины X и Y, они линейно взаимосвязаны, т.е.
У = а + Ьх (где а, b — параметры), тогда
Е (У) = а + ЬЕ (А) И var (У) = fi var (А).
Для стандартизованных величин X * и У* соответственно по-
лучим:
*_Х-Е(Х) Л
(3.4)
= Г-~-(Г)-, а(У) = 7 var(K). о(Г)	v
Следовательно, коэффициент корреляции р для случайных величин X и У при условии их полной линейной зависимости будет равен единице:
р = cov(X*,Y*) = Е {аг*-£(%*)][/*-£(г*)}= '[АГ-Е(%)][Г-£(Г)Г|
(3.5)
= E(X*Y*) = E
ФЗГ) о(Г)
X - Е(Х) а + ЬХ -а-ЬЕ(Х) ~ДХ) ЬДХ) .
Х-Е(Х) Х-Е(Х) о(Л а(Х)
4(ЙГ -£(ЙГ))2]=^^ = 1. о2(Х)	<з2(Х)
Аналогично доказывается, что может быть р = -1.
Доказательство для свойства б) строится от обратного: если коэффициент корреляции двух случайных величин равен единице (р = 1), то эти две величины находятся в полной линейной связи. Начнем с аксиоматичного утверждения: var (X*—Y*) = 0. Это означает, что разность двух стандартизованных случайных величин есть некоторая постоянная величина: X* — У* = к. При подробной записи X* и Y* имеем:
Х-Е(Х) Г-^У)
о(ЗГ) о(Г)
или
х=
~-^Е(У) + к<з(Х) + Е(Х)
С(Х)
У=а+ЬУ.
Ммпгпмрпныи статистическим
130
Глава 3
Соответствующим образом существование полной линейной зависимости X и Y доказывается при значениях р = -1 и уаг(Т + У) = 0. 
Приведенные доказательства сохраняют силу вне зависимости от единиц измерения случайных величин.
Пример 3.26. Пусть известна вероятностная характеристика двумерной случайной величины (X, У)’ P\X=6,Y = 2]=1/2, Р[Т = 1,Y = 1]= 1/3, />[Лг = 2,К = 0]=1/6, очевидно при этом: р = -1 и Y = 2 — X. Отметим, что при оценке коэффициентов корреляции р используются все промежуточные значения величины
соу(Т*,У*), а именно: E(X),E(Y),E(X2),E(Y2),g(X),g(Y'),E(XY)
Понятие определенности. Мерой определенности представляется величина р2=Я2, очевидно 0<Я2<1 Для независимых
случайных величин р = 0 и R2 =0. При этом р выступает как эмпирический коэффициент корреляции, его статистической оценкой будет величина г:

где {х,} и {у,}
s(X) и ДУ)
sCiW)
— два множества количественных данных наблюдений, /= 1, 2,..., л;
— оценки эмпирических величин стандартных квадратических отклонений:
?(Х):=-£(х, -х)2; 52(r):=-XU-У)2-
n,=i	«,=1
При определении коэффициента корреляции может использоваться и другая формула, которая дает полное представление обо всех вычислительных процедурах для значений двух элементарных признаков X и Y:
пУ'х.у, -Ух, У у, r(X, Y) = . .	—-^--'4---.
Говоря о коэффициентах корреляции (измерителях стохастической определенности), необходимо сделать некоторые замечания. Дело в том, что практическая статистика нередко злоупотребляет теоретическими выводами о линейной связи. Так, если
Случайные величины Законы распределения и плотность вероятностей "131
г по величине приближается к значению ± 1, часто говорят о тесной корреляции признаков (X и У), соответственно предполагая их тесную взаимную причинную обусловленность. Однако подобное заключение вне оценки логики и формы связи признаков, как правило, служит примером всего лишь бессмысленной, или ложной, корреляции. На самом деле при г->±1 можно говорить о тесной взаимосвязи X и Y, если по крайней мере подтверждается линейность связи этих признаков. С другой стороны, даже анализ на линейность не обязательно свидетельствует о надежности корреляционных оценок, как в случае, если г2 принимает малые значения, или, скажем, принимаются некорректные обобщения для специфических совокупностей данных (данные панельных обследований, данные опросов населения и т.п.). Обычно низкие значения г2 указывают на то, что метод моделирования, в частности линейный подход, выбран для анализа явлений неверно.
Двумерная непрерывная случайная величина X, У. Вопросы теории распределения непрерывной двумерной величины представляются важными, если учесть чисто технические сложности статистического анализа. Как известно, двумерная случайная величина предполагает не суммирование, а интегрирование значений изучаемых признаков. Достаточно эффективным приемом для исследователя при этом может быть простое распространение на случай с непрерывной величиной результатов анализа двумерной дискретной величины посредством интегрирования последней. Следует только принимать во внимание, что такое распространение аналитических результатов не всегда допустимо, о чем уже говорилось, например, выше в данной главе относительно распределения одномерной случайной величины.
Определение 1. Совместным распределением случайных величин X и У называют интегральную функцию вида:
х у
Р[Х<х и K<y]=F(x,y)= j j/(w,v)dwdv
Первая производная от F (х, у), или f (х, у), есть функция совместной плотности вероятностей.
Интерпретация функций распределения и плотности вероятностей двумерной величины производится аналогично, как и для одномерной случайной величины.
132
Глава 3
Определение 2. Раздельной (граничной) плотностью вероятностей двумерной случайной величины называется соответствующая интегральная функция:
J/(x,y)rfy=/(x,.)=:/(x),
D
\f(x,y)dx = f(,y)=-.g{y).
D
Определение 3. Ковариацией случайных величин X и Y называют характеристику связи этих величин, имеющую следующее формальное выражение:
cov(X,r):=jj[x-E(X)][y-E(r)]/’(x,y)dxdy.
DD
Как в случае с дискретными величинами, может быть предложено также другое формальное представление ковариации:
cov( X,Y) = E(XY) - E(X)E(Y), где E(XY) ~ j $xyf(x,y) dxdy.
DD
Определение 4. Две случайные величины X и Y называются независимыми, если для них имеет силу:
т.е. совместная плотность вероятностей есть произведение условных вероятностей.
Пример 3.27. Равномерное распределение в кубе со стороной единичной длины (рис. 3.22):
/М = 1>
Дх, у) =ух;
(х,у)б ([0,1]х[0,1]), (х, у)е{[0,1]х[0,1]}.
Рис. 3.22
Замечание. Ковариация независимых случайных величин. Если случайные величины X и Y независимы, то их ковариация равна нулю.
□ Доказательство'. Следуя определению независимости случайных величин, можем записать
f(x,y) = f(x) g(y),
Случайные величины. Законы распределения и плотность вероятностей 33
значит
E(X,Y)= jj ху f(x,y)dxdy = j ^ху f(x)g(y)dxdy =
DD	DD
= jxf(x)dxjyg(y)dy=E(X)E(Y).
D	D
Как и в случае с дискретными величинами, здесь сохраняют силу отношения
{Независимость} => {Ковариация = 0}, но не наоборот,
{Независимость} ф {Ковариация = 0}. 
Определение коэффициента корреляции р. Коэффициент корреляции р есть ковариация двух стандартизованных случайных величин X* 1Л Y*'.
р - со v(x *, Y * )= j j [г * - е(х * )][у * - Е (у * )]/ * (х,у )dxdy,
DD
где /*(х,у) — функция совместной плотности вероятностей случайных величин X* и У*.
Замечание. Коэффициент корреляции и линейность. Для коэффициентов корреляции, характеризующих связи непрерывных величин, сохраняют силу свойства:
а)	-1<р<1,
б)	р = ±1<=>У = а + ЬХ (a,beR).
Определение. Показатель определенности есть р2 =: R2, Q< R~ <1. Для независимых случайных величин Л'и Убудет р = 0 и Я2=0.
Двумерное нормальное распределение. Рассмотрим вначале случай многомерного случайного распределения. Вектор X = Rm назовем многомерной нормально распределенной случайной величиной: X~N(p,,"L) с математическим ожиданием, равным E(X) = \ie.Rm, а также матрицей ковариаций соу(й') = £еЛ'я’'" и функцией плотности вероятностей
/М- И~’/2 eJ
/<)-(2П)"/2 Т. 2 J
Теперь распределение двумерной случайной величины будем рассматривать как частный случай распределения многомерной величины при т-2 (ц^О):
V КТ, Vi fPl ) V	V	а12^ п
X~2V(u,Z), ц= , .¥= I , S =	, т-2.
{mJ 1*2J l°2i
134
Глава 3
Если случайные величины X] и Х2 взаимно не коррелированны и соответственно о12=о21 = 0,о11 = о2,о22 = о2, Фуьу<ция совместной плотности вероятностей будет
/(х1>х2)=-------ехр
1 Г(*1-М-1)2
Ч °12	<^22 J
(х1,Х2)е{(-оо,+«»)х(-оо,+«>)}.	(3.6)
Особый случай’, т = 2, ц = 0. Пусть о12 = а21 =0; ои =о22 =1,
Р] = ц2=0, тогда имеем дело со случайной величиной (условие
Pi = ц,2 = 0 значительно упрощает ее параметрическое представление), имеющей стандартизованные значения. Если эта величина нормально распределена, то функцию плотности вероятностей для нее можем записать так:
(2	2\
f. \ 1 I 2 2
Ж>^2) = —е
2л
или, вводя обозначения х -х^ у Ьцлучцм
Для этой случайной величины функции условных вероятностей принимают вид'
„2	2	2
, Л	1	<
-=е 2 (j=1,2) или -т=е 2 и -т=е 2 ,
у2л	у2л у2л
другими словами, имеются две функции условных вероятностей для каждой из двух одномерных нормально распределенных случайных величин.
Ковариация X и Y при заданных условиях выражается единичной матрицей: cov(A’,lz) = S = /2.
Кроме показанной выше, существует другая возможность представления бивариантного распределения' при помощи коэффициента корреляции р (возможно в ходе репараметризации параметров распределения). При этом, как видно из табл. 3.4, для обоих способов представления статистического распределения случайной величины прослеживается взаимосвязь параметрических оценок:
Случайные величины Законы распределения и плотность вероятностей *135
Таблица 3.4
Параметрические оценки	Первый способ представления	Второй способ представления
Математическое ожидание	НЬЙ2	И1,Й2
Дисперсия	О]1’°22	о?,
Ковариация, Корреляция	°12 =сг21	р=^1^== уа11 va22
При втором способе представления распределений (посредством перехода к р — параметрической оценке) функция плот-
ности вероятностей будет:
Дх1,х2) =
1
2ло1о2 yl-p2
'Х1 ~И1
< °1
/	ч2
2р	*2 -Й2 + х2 -Й2
°2’ I ° 2 >
Без доказательства можно привести несколько основных положений относительно вариативности и связей случайных величин и Х2
1)	Х\ и Х2 — вариативны, нормально распределены и соответственно имеют параметры — Xi~N(pi,ol) и X2~N(\t2,02),
2)	условные плотности вероятностей, т.е. /(х,\хД для Х\ и Х2 также имеют нормальное распределение с параметрами:
Ц=Ц, +—р(х -цД о2=о2(1-р2), /,/=1,2,
3)	каждая из линейных комбинаций А) и Х2, скажем Z = aXl+bX2, вариативна относительно значений Xi и Х2 и нормально распределена:
Z - lV(ap.] +b\i2,a<3] + 6о2),
136
Глава 3
4)	случайная величина Z, образованная из Х\ и Х2 как
1	/ *	* \2
Z =----~\Xi -Х2) , или в более подробной записи:
1-Р
/	ч2	Z
1	| ^1 ~Н1 |	^2 ~Н2 , | ^2 ~Й2
1-Г О] у О] 02 V °2
имеет экспоненциальное распределение с параметром % = -. Особый случай этого распределения, при р = 0, обнаруживает
связь с положением 1), функция плотности вероятностей при этом будет:

~И1
. °1
^2~И2?
к °2 J
Сумма двух независимых нормально распределенных случайных величин. Пусть X и Y — две независимые нормально распределенные случайные величины:
X ~Мцьои) и У ~ ]V(p2,O22),
тогда сумма Z = X + Y имеет нормальное распределение Z =(X+Y)~N(p.i +Р2>°и +о2г) • Плотность вероятностей величины Z также распределена нормально.
Сумма двух зависимых нормально распределенных случайных величин. Пусть X и У — две зависимые нормально распределенные случайные величины, другими словами, имеем бивариант-ную нормально распределенную случайную величину, тогда сумма Z = X+Yтакже нормально распределена:
Z .= (Х +У)~Л,(Ц1 +р2,Оц + о22 +2^12),
где 012 =Р 7^77^7 и
(Здесь о12 — общая ковариация о12 = о2), ар— коэффици
ент корреляции, -1 < р < 1).
m-мерное нормальное распределение. Случайный вектор V
х.2 = X G R‘
имеет нормальное распределение при условии, что
Случайные величины. Законы распределения и плотность вероятностей 137
т
каждая из линейных комбинаций '^_lalxl =a’x-.= Z^R вариативна /=1
относительно х и нормально распределена, т. е. Z ~ 7У(ц,о2).
Заметим, что из т вариативных нормально распределенных случайных величин всегда можно образовать одну т-мерную нормально распределенную случайную величину. В данном случае действует и обратное утверждение.
Линейные трансформации. Пусть имеем m-мерный нормально распределенный вектор beR‘n, заданную матрицу A^Rn,m и заданный вектор 6 g Rn, тогда у = Ь + АХ также имеет нормальное распределение. В частности, если х — единичный вектор, то каждая /-я его компонента нормально распределена и 6 = 0, Д = (000...010...0)е/?1,т.
Ковариация и независимость. С точки зрения теории сотно-шение ковариации и независимости представляется весьма важным. Пусть по-прежнему х — нормально распределенный случайный вектор:
=хеЯтл, XiGT?m Х2ей";
7
здесь %; и х2 имеют совместное нормальное распределение с 6ц.| А
математическим ожиданием ц= и матрицей ковариаций 1^2 J
Z = f °п °12>]
La21 °22 J
Независимость и ковариация. Два вектора х1 и х2 взаимно независимы тогда и только тогда, когда о12 =а21 = 0-
Прямое утверждение, что независимость случайных величин обусловливает их нулевую ковариацию, всегда сохраняет силу. Этого, однако,хнельзя сказать об обратном утверждении, что нулевая ковариация означает независимость анализируемых случайных величин. Последнее как раз не всегда правомерно, так же как, например, нельзя считать достаточным для утверждения о нормальности распределения вектора нормальное распределение его части. Для более наглядной демонстрации сказанного обратимся к примеру с линейной трансформацией случайных величин.
X!
Х2
138
Глава 3
Пример 3.28. Исчезающая ковариация в случае зависимости двух случайных величин возникает в ходе их линейной трансформации.
1. Пусть х — нормально распределенный случайный вектор: xeRm, X ~ N(p,<521т),
И AlGRp’m, A2eRq,m, A^^eRP’4, ¥:=АгХ, YeRp,
Z:=A2x, ZeRq.
При заданном условии ковариация линейно-зависимых величин Yи Z будет равна нулю, в чем легко убедиться:
соЧУ,7)=Д(Л1Х-ДЛ1Х))(Л2Х-£(42йЭ)')=
=А^Е(х-Е(х-Е(ХУ)Е(х-Е(Х))' А2 =
=А{ соу(Х)А2 =<52AiA2 =0.
2. Пусть имеется нормально распределенная величина Y ~ 7V(0,l) и некоторая случайная независимая от Y величина b с распределением Бернулли, принимающая значения: +1 или —1с одинаковой вероятностью, равной 1/2, при этом Z := bY. В данном случае можем утверждать, что имеем дело с двумя нормально распределенными величинами: У — по исходному условию и Z — так как эта величина представляет собой смесь, состоящую наполовину из значений +Y и наполовину из значений — Y Более того, Z и У — отнюдь не независимые величины, что следует из состава Z и принятой формы связи Z := bY. Но в то же время ковариация Z и У остается равной нулю в соответствии с принятым в примере условием независимости У и Ь:
cw<(Y,Zy=E(Y 6(У)-£(У)£(6У)=£(У />(У))-0 0=£(6У2)=0.
Построение стандартных таблиц с количественными данными статистических распределений. Построение таких таблиц значительно упрощает практическое приложение статистических законов распределения; при этом отпадает необходимость в громоздких вычислениях в каждом отдельном случае. Достаточно найти нужную таблицу и на пересечении соответствующих графы и строки выделить необходимую оценку, например, плотности вероятностей или др.
Для нормального распределения, наиболее часто применяемого в исследовательской практике, определение количественных характеристик, аккумулируемых в стандартной таблице,
Случайные величины. Законы распределения и плотность вероятностей “| 39
обычно производится при помощи приближенных оценок из распределения Бёрра.
Количественная аппроксимация нормального распределения распределением Бёрра предполагает выполнение следующего равенства:
Ф(х) = /(х) = 1-(1 + хс)_\ х>0, с>0, £>0.
Например:
/fx) = !1~[1 + (0’644693+0’161984 х)4’874]"6’158] -3,97998<х
'	0	j х<-3,97998.
Аппроксимация нормального распределения (плотности распределения и самого распределения) распределением Бёрра достигает достаточно высокого уровня, ошибка при этом не превышает 1%. Для наглядности покажем аппроксимирующие свойства нормального распределения графически:
Рис 3.23. Статистические распределения: нормальное (а) и Бёрра (б)
3.6.	Статистические методы точечного оценивания
Истинные параметры статистического распределения для исследователя, как правило, неизвестны. Поэтому их пытаются определить посредством приближенного оценивания по данным неко
140
Глава 3
торой выборочной совокупности. Эта задача решается таким образом, чтобы вычисляемые параметрические оценки максимально соответствовали истинным, но неизвестным характеристикам генеральной совокупности. Так как количественные оценки параметров не обязательно полностью согласуются с эмпирическими величинами, в них предполагается наличие определенной ошибки — ошибки оценивания. При этом исходят из того, что изучаемый признак в генеральной совокупности подчиняется определенному закону распределения и оценка его параметров становится возможной по данным части генеральной (т.е. выборочной) совокупности, имеющей такой же, как генеральная, закон распределения. Рассмотрим это положение с формальной точки зрения.
Пусть имеется /(х,0) — функция плотности распределения для некоторой случайной величины X с неизвестными параметрами 0еЛр (для упрощения выводов предположим, что р = 1, хотя в общем случае р> \). И пусть Х1,Х2,...,Хп — случайные выборки из наблюдаемой генеральной совокупности. Допускаем, что все X, (i- 1,2,...,л) имеют плотность распределения, соответствующую /(х,0). Тогда оценка случайной величины будет одной из реализаций функции оценивания (выборочной функции):
g:Rn ~^RP,Q=g(X\,X2,...,Xn),
или для конкретной реализации выборки (х1,х2,...,х„):
0=g(xi,x2,...p:J,
Множество из п наблюдений (Хх,Х2,...,Хп) представляет собой реализации независимых, идентичным образом распределенных случайных величин и определяется р-мерным параметром. Очевидно, что 0 — также случайная величина.
3.6.1,	Принцип максимального правдоподобия Фишера
Пусть (ХЬХ2,. .,Х„) — случайные выборки, т.е. все X, (/ = 1,2,...,л) — независимые и идентичным образом распределенные случайные величины, имеющие плотность распределения с неизвестным параметром 0. Тогда функцией максимального правдоподобия называют функцию вида:
п
Ь=П/(х,|0),	(3.7)
/=1
Случайные величины. Законы распределения и плотность вероятностей 141
логарифм этой функции
L=fln/(x,)0)-	(3.8)
(=1 логарифмическая функция максимального правдоподобия.
Функция максимального правдоподобия максимизирует количественную оценку в для © — оценки истинного параметра 0. При этом оценка 0 выбирается таким образом, что реализация функции (3.7) или эквивалентной ей функции (3.8) будет иметь наибольшее значение.
Переход от функции максимального правдоподобия к ее логарифму осуществляется на практике довольно часто и позволяет значительно упростить процедуру поиска оптимальной оценки (максимума), причем, как увидим ниже, результаты оценивания в ходе логарифмирования не претерпевают изменений.
Оптимизация при помощи монотонной трансформации. Как и прежде, будем считать р = 1. Пусть /(z) — любая функция R-*R и пусть для этой функции в окрестности U(z$) оптимальная точка будет zo-
/(z0)>/(z),	Zel/(Z0).
Тогда можем утверждать, что при монотонной трансформации функции f(z) положение ее оптимальной точки z0 с окрестностью U(z0) остается неизменным:
g:R-*R, g(/(z0))>g(z)), z<=U(z0).
□ Доказательство: Экстремальные значения функции, как известно, определяются приравниванием первой производной этой функции нулю: /'(z) = 0. Для монотонно трансформируемой функции /(z) соответственно будем иметь:
dg dg df df	dg	d2g dfdgdH f dg Vd2/'
dz df dz dz	dz	dz2 dz^df dz J yd/ J[dz2
Учитывая монотонность функции g , знак для второй производной, а следовательно и заключение о том, достигнут максимум /(z) или нет, принимается исключительно по данным самой функции f(z). Особым случаем монотонной трансформации функции максимального правдоподобия является ее логарифмирование. 
142
Глава 3
Пример 3.29. Оценивание методом максимального правдоподобия в случае экспоненциального распределения случайной величины
В данном случае плотность вероятностей
[ 0	для х < О,
Л*)
[Хе	для х > О,
и функция максимального правдоподобия для одной из случайных выборок (Хь Хг, , Х„) величины X
L=nXe-Xx',
п
а после логарифмирования L = п In X - х,
Введем условие достижения экстремума =
и ~	d2L п п
Найдем вторую производную —~ —у < 0 ГГ Г
Таким образом, решение, полученное методом максимального правдоподобия, принимает вид' •	- - 1 "
/	Х=Х =-£%,,
п^\
те Г — максимизирующая оценка для Г
Пример 3.30. Оценивание методом максимального правдоподобия случайной величины, имеющей нормальное распределение Гаусса
Запишем функцию плотности вероятностей для нормального распределения
Ж) = -=е ^2ло2
Эта функция имеет два параметра peR и о2>0 Для одной из случайных выборок (Х\, Х2, , Х„) функция максимального правдоподобия
п j -Ml
Ь = П^=е 20 >
Случайные величины Законы распределения и плотность вероятностей 43
а ее логарифм
(3 9)
п
Ё(*,-ц)2
L = -n 1п(У2л) - — In о2 - —-з 
2	2сг
Известно, что приравнивая первую производную функции максимального правдоподобия (3 9) нулю, выдвигают условие достижения L экстремума и получают возможность формального определения параметров нормально распределенной случайной э	dZ
величины (ц и о ) В то же время производная — = 0 как бы исчезает, не позволяет установить, действительно ли в некоторой определенной точке дифференцируемая функция достигает своего максимума Этот вопрос решается уже при нахождении вторых производных
Найдем первые производные для L: п oL 1=। Эц о2
= 0,
(3.10)
-V)2
= 0
(3 11)
д2 L _ -п да2 2о2	2(о2)2
Нормальное уравнение (3 10) решается относительно ц при любом о2>0, нормальное уравнение (3 11) позволяет определить а2 после того, как стала уже известной оценка математического ожидания ц 1 " -
62 =-£(*, -|x)2=s2
«,=1
Теперь определим вторые производные функции L
п
-,2,	л2 г	“ И)
Э L п д L /=1
-----=-----<0, --------7Г = -~---=-5-= 0,	,1 ч
ЭцЭц 2 Эц Эо2 (о2)2
п
,2.
....Li... = _isl___= 0
ЭцЭо2 (о2)2	’	р-
144
Глава 3
Эо2Эо2
£(*, -и)2 п /=1	п п п
2о4 о6 2о4 о4 2о4
Построив матрицу Гессе, видим, что ее детерминантный критерий действительно указывает на достижение функцией L с д и о2 максимума:
Н о2 О
О
1
2о2>
det(7/) = -4A<0-о2 2о2
Статистическое оценивание двумерного (бивариантного) нормального распределения. Запишем функцию максимального правдоподобия для случая, когда т = 2 и д = 0:
L=f—J1
1 п ех₽Г 2^
о2 05 J
/	Г	о 1
I 1
—7= ех₽ -тХ— ^О1<2л) L 2<=> а1 .
к°2
ехр
7 Л
[ 2/=1 °2 J
-Lr4«
или
4 =
exp.

I л у 2
. 2'=l J
Необходимое условие для максимизации функции L (L = InL = In L1 +I11L2):
iL=o=>o2 = X^.,-^=o=>o2=^-,
Эо[	n Э02	n
т.е. для m-мерной нормально распределенной случайной величины X оценка дисперсии:
-2 М
о^ = -	-	(^ = 1,2,...,/п).
п
Обобщим выводы, сделанные на случай с независимыми переменными. Пусть щ * 0 и ц2 * °> т°гда функция плотности ве-
роятностей принимает вид:
Ж1Л2) = —------ ехр
2ЛХУ ](У 2
(yVj -Ц])2 (yV2 -Ц2)2
2	+	2
о, о2
Случайные величины. Законы распределения и плотность вероятностей j45
и соответственно следует факторизация функции максимального правдоподобия: с \п
L =
1
О| У2л ,
f
exp -Е—г
I 2°Г)
1
о2
” f X2
ехр-£—\ =LrL2.
I 2о2;
Последнее уравнение после дифференцирования по ц и о2 позволяет получить оценки параметрических величин:
й -^2' -X 
М-2 -	-А2,
П
-2 Х^2/_Р2)2
°2 ----------•
П
п .2 Ж-pi)2 °! -----;
п
Очевидно, что проблемы статистического оценивания двумерных величин при условии зависимости или независимости переменных Х\ и Х2 имеют прямую связь с уже рассмотренными ранее проблемами оценивания одномерных нормальных распределений.
Функция плотности вероятностей в общем для /и-мерной случайной величины с независимыми переменными может быть записана следующим образом:
I-1/2
для одномерной случайной величины эта же функция:
I 2Г1/2
Лх)=м^“р
2
2
, цеЯ"1, £<=Я
, ЦеЛ1, £=о ей1’1,
для двумерного случая в подробной записи:
1 2л/оцо22-р2
Гоц р Л	_
где	— упрощенная запись обычной матрицы ковариации:
V Р °222 ''О]] о]2
ехр -|(х1-Ц|,х2-ц2)|
Оц Р Х1 -Р1
Р °22 J 1*2-Н2
1=
Р
V Р °22 7
У°21 °22
здесь 0(2=021 обозначаются символом р.
146
Глава 3
В двумерном случае, как видим, возникает проблема статистического оценивания пяти параметров: 0 = ]ц1,ц2,о11,о22,р}. Использование функции плотности вероятностей в оценивании 0 предполагает определение следующих дисперсионных характеристик:
•	корня квадратного из определителя матрицы ковариаций (считается, что детерминант |е| положительно определен)
|Ц |-ап°22 _Р2 •’
1
|	|/о11°22 ~Р2
•	обратной матрицы ковариаций — ленной:
положительно опреде-
1
1
2 а11°22 ~Р 1“Р °П/ ,	• показателя дисперсии по выборочным наблюдениям
*1-М1 )
°22 ~Р
° 22
-р
а22 “Р
в) $:=(*!-^,*2-^2)
(_Р ан7
l-p
,D-.=-----------
°11°22 ~Р
(*2~Ы
= О22(*I "Pl)2 +<Ч1(*2 “Иг)2 -2р(х, -И1)(х2 -Ц2).
б) £-' =
= D

Для нахождения всех пяти параметрических оценок 0 вос
пользуемся уже известным методом максимального правдоподобия (при т = 2) и соответственно логарифмом максимизирующей функции L. Обратим внимание, что в последующих выводах
знак У применяется только как знак суммы У
и не связан с
представлением матрицы ковариаций. Логарифм функции максимального правдоподобия в данном случае принимает вид:
£ = -%(опО22 -p2)-yE[°22Ul -И1)2 +011(^2 -И2)2 ~
- 2p(xi -М-!\х2 - ц2)]=1п(х |)-1D^S.
Чтобы найти оценки двух математических ожиданий для Х' = (Х}Х2\ продифференцируем функцию L последовательно по
И1 и Р2:
Случайные величины. Законы распределения и плотность вероятностей “| 47
^ = 0 = -^[-2^o22(xi -gj + 2p(x2 -р2)], ЭЦ1	2
Ч^ = 0 = -т1“112ои(*2 -И2)+2p(xi -Hi)]
(/{Л?	2.
или запишем в виде нормальных уравнений:
-°22£(*1 ~И1)+р£(*2 -И2М .
~<*11 £(*2 - Р2)+Р1Ъ -Н1) = 0.
(3.12)
(3.13)
Уравнения (3.12), (3.13) представляются для определения ц2 совершенно равноценными, при этом всегда
л	л _Х*2, -
Н1~----~Л1> И2-------— Л2-
П	П
Для нахождения трех оставшихся оценок 0 также произведем дифференцирование функции L, но уже по соответствующим величинам оц.о^.р:
^ = 0,^ = 0, 22L.0;
Эр Э(У||	^22
dL = п 2р 1 pZ> S + D
Эр 2 оно22-р2 2 (Эр Эр;
Э£	л о22	1 ЭД s dS ^_Q-"
Эоц	2 оио22 -р2 2(Эоц Эоц J
-^=-1 °u
Э<*22	2 ОцО22—р 2(Эст22 Эо22 j
Кроме этого нам понадобятся частные производные по дис персионным показателям D и 5:
ЭД (	2)*2/ 9 ) 2р
— = 4опо22-Р ! (-2р)=т-------------о-;
эр	(<*11<*22-р2Г
ЭД I
-----(ОИО22 -р
Эо„
ЭД _	о22 Д _ 1
Э<*11	(<*Ц<*22-Р2^	Э°2	(<*11<*22 -РЧ
~-=Е(*2/-И2)2,	-И/)2’ |f-=-2E(*h-PiXxai-Нг)-
Э<*11	Эо22 /=1	Эр /=1
) 2 	, если i = 1, j = 2 и если / = 2, j - 1, т.е
<*22
<*11
148
Глава 3
Система нормальных уравнений		, _	dD для дифференциалов —; Эр
Э£> dS 		 принимает вид: ЭОц 3(722		
°11°22 ~Р	A!^£s--dY—, 2 др	2 др	(3-14)
0=-^Ч °11°22 -Р		(3-15)
0= -	у °ll°22 -Р	Э(У22	3(722	(3-16)
При установленных щи щ решение системы нелинейных уравнений (3.14) — (3.16) приводит к получению наилучших оценок дн, б22,р. Это, как можно заметить, обычные показатели дисперсии и ковариации:
- _Z(*12- *1)2 - _S(*22-*2)2 -	E(x12-^l)2fe2-^2)2
а ------------• О22_---------; а --------------------_
п	п	п
Замечание 7. Факторизация функции максимального правдоподобия. Введем обозначение: пусть d:=|^ | = опо22-р. Тогда функцию максимального правдоподобия можем переписать в виде:
£ = -^lnd-^-£(x1 -щ)2 -^£(х2 -И2)2	-И1Хх2 -н21
откуда, например, методом моментов получаем O11=^1-P1)2, <*22=£(х2-И2)2> <*12 =^(-*1-И1Х*2-Иг)-
Следовательно,
L = --\nd-2
°22а11п а11а22п ! 2Р 2d 2d 2d
®12« =
^(lnd + 2).
Таким образом, запись функции максимального правдоподобия может быть существенно сокращена и сведена по сути к формальной увязке только двух, заранее известных, константных величин (п и d). Важным представляется, что редуцированная запись L сохраняет силу для любой выборки и любой совокупности выборочных данных.
Случайные величины. Закон распределения и плотность вероятностей j 49
Замечание 2. Проверка нормальных уравнений. Покажем справедливость утверждения, что максимально правдоподобные статистические оценки будут удовлетворять некоторым уравнениям (3.17)—(3.19), приведенным ниже. С этой целью обратимся к частным производным, для которых имеют силу следующие равенства:
dD _ 2р. 3D	О22 3D _ Oj ।
Эр d2 ’ Эе; [	d2 ’ Эо22	d2 ’
y-. 3S	Э5	r-, 3$
~nc22’	Хз--~2по12;
S s = О22/Ю1J + Oj JWO22 - 2pno12n(2o11O22 - 2o12o2 1)=2nd-
Соответственно построим систему нормальных уравнений:
2nd-~± (-2яо12)=0 (о12 =р по определению), (3.17)
=	2р+р)=0;
d d d d
_^22_C£^\2/7d_l.(„o )=0, d \ d2 ) d 221
-(-o22 +2o22 -o22)=0;
a
_C£u.l2Hd-j-(iran)=0,
d V d ) d
(3.18|
(3.19)
П/	\ „
-(-o11+2o11-o11)=0. d
Примеры смеси нормально распределенных случайных величин. Предположим, что имеются две нормально распределенные случайные и независимые величины X и У. При условии N (О, 1)
можно рассматривать следующие варианты суммирования этих
величин.
1. Первая вариация дисперсии. Пусть имеется
Z:=0,8-A'+0,2 У, X-N
' 1
, 0,8+0,2а2
ч 0,8+0,2а2 J
1 -<а<1.
8
Тогда принимая, что величина Z, как X и У, нормально распределена, и Z - N (0, 1) для любых а, можем построить два графика смесей (рис. 3.24 а,б):
150
Глава 3
Рис 3 24
2. Вторая вариация дисперсии. Пусть имеется'
 J Z =0,7 Z+0,3 Y, X~NР-,1 , У~ЛП,1 I, 0<ц<1
<0,7 J V ОЗ /
Здесь также Z — нормально распределенная величина и Z ~ N (0, 1) для любых ц Построим два графика смесей: для ц = 0,9 и ц = 0,7 (рис. 3.25 а,б).
Рис 3 25
Случайные величины Закон распределения и плотность вероятностей 151
Двумерное ненормальное распределение с нормальными раздельными плотностями вероятностей1. Утверждение. Двумерная случайная величина, не подчиняющаяся нормальному закону распределения с плотностью вероятностей f (х, у), может иметь нормально распределенные раздельные плотности вероятностей:
Дх,у) = 28(х у) g(x) g(y),8(x у) =
О для ху < О,
где g — функция плотности вероятностей, имеющая нормальное распределение N (0, 1).
□ Доказательство'. Совместная плотность вероятностей двумерной величины может рассматриваться как результат интегрирования раздельных плотностей вероятностей. При этом для одной из двух переменных, например X, правомерно записать:
\f{x,y)dy=2 J8(x у) g(x) g(y)dy=
-too	1
= 2g(x)- J5(x-y)-g(y)rfy = 2g(x) -.
Появление в формальной записи значения 1 /2 объясняется тем, что функции g (у) и g (х) согласно 8-условию интегрируют на интервале [0; °о) Но тогда X и Y — симметрично распределенные величины, что и исчерпывает наше доказательство. 
Пример 3.31. Оценивание методом максимального правдоподобия распределений: биномиального и Бернулли.
Для распределения Бернулли функция плотности вероятностей имеет вид:
рх(1-р}1~х; х=0,1-,
(3.20)
при этом некоторая случайная выборка
{х],х2,...,хл|х, е{0,1} / = 1,2,...,л}
позволяет построить следующую функцию максимального правдоподобия:
«I 1 1
ь=П ра,(1-р)
1 В отечественной литературе встречаются термины- раздельные, граничные или маргинальные {Прим пер)
152
Глава 3
логарифм этой функции: л ( ( 1
£ = Х 1п
/=1
+х, lnp+(1 - x, )ln (1 - p)
(3.21)
или, учитывая последующую оптимизацию, в приближении к исходной функции L можем записать:
п
L-^x, lnp+(l-x,)ln(l-p).
/=1
Введем первое условие достижения L экстремальных значений: п п
= 0,
dp р 1-р
откуда непосредственно находим решение: р=X.
Таким образом, полученные алгебраические результаты представляются соотношением числа испытаний, другими словами, удельным весом успешных испытаний (их квотой).
Дальнейшее исследование экстремумов функции максимального правдоподобия требует определения второй производной:
п
d2L~
dp2 р1
откуда следует: р задает максимум оценивающей функции L, именно это и требовалось доказать.
Выводы, полученные при анализе распределения Бернулли, непосредственно распространяются и на случай биномиального распределения. Исходная функция плотности вероятностей при этом имеет вид:
рх= рх(1-р)К~х, х = 0,1,2,...Х
n
<0,
(3.20')
Функция максимального правдоподобия для некоторой случайной выборки {jc1,x2,	g{0,1,2,...,^}; z = l,2,...,n } будет:
(
L = Y to
n
+ xt lnp + (/i -x;)ln(l-p) .
(3 2Г)
Случайные величины Закон распределения и плотность вероятностей j 53
В отличие от распределения Бернулли здесь область определения функции плотности вероятностей не {0,1}, а {о, 1,2,. ,,х}
При оптимизации решающей функции L получаем р=—.
К
3.6.2. Метод моментов
Достаточно часто в случаях, когда при оценивании статистического распределения становится невозможным использование метода максимального правдоподобия, положительного результата добиваются при помощи метода моментов. В статистической теории уже давно доказано, что несмотря на то, что оценки, полученные методом моментов, по своим свойствам уступают максимально правдоподобным оценкам, в отличие от последних практически всегда могут быть найдены для параметрического распределения с заданной плотностью вероятностей На практике это означает, что решение может быть получено даже тогда, когда не представляется возможным статистически описать все особенности структуры наблюдаемой совокупности данных, или когда имеющееся формальное выражение функции плотности вероятностей ставится исследователем под сомнение в силу своей специфичности
Основной принцип оценивания статистического распределения методом моментов. Пусть имеется множество из п случайных независимых величин (Х[, Х2, , Хп), подчиняющихся одному закону распределения Плотность вероятностей для такого множества определяетсяр — числом параметров. © = (©[,02, ,0р), что в свою очередь позволяет говорить об (Xlt Х2, , Х„) как о параметрически определенной случайной выборке Структура последней поддерживается существованием некоторых моментов, в числе их математическое ожидание (г = 1,2,3, ) При г = 1, г = 2 структура данных выборки обусловливается существованием £ (Л) и var (А). Впрочем, как показывает распределение Коши, существование именно математического ожидания не всегда обязательно.
Эмпирические моменты являются выборочными функциями. Принимая это положение за исходное, обратимся непосредственно к рассмотрению проблем оценивания методом моментов Процесс оценивания предполагает получение некоторой колйче-
154	Глава 3
ственной характеристики 0 для неизвестных параметров случайной выборки (Ху Х2,..., Х„). С этой целью априори допускается равенство эмпирических и теоретических моментов, и сама оценка 0 выбирается таким образом, чтобы, например, для плотности двупараметрического нормального распределения иметь:
E(X)=gl(Q)=gl(Q)=X,	(3.22)
уьт(Х)=Е(Х2)-Е(Х)2 =g2(O)=-f*2-X2.	(3.23)
Подобный подход характеризуется как оценивание методом моментов по Пирсону.
Пример 3.32. Ситуация с оцениванием нормального распределения видится особенно простой, так как в этом случае оценки, полученные методом моментов и методом максимального правдоподобия, полностью совпадают:
р-Е(Х}-.Х = р, о2 =var(X)- s2 =б2.
Пример 3.33. Оценивание методом моментов экспоненциального распределения. Для экспоненциального распределения имеем:
О	для х<0,
Хе	для х>0;
E(JV) = 1/X и var(JV) = l/x2.
Оценка X, полученная методом моментов, будет:
3.6.1 Основные свойства статистических оценок
Представив выше различные методы точечного оценивания случайных величин, обратимся к вопросам критериального выбора наилучших параметрических оценок.
Понятие несмещенности и состоятельности математического ожидания. Пусть имеем случайную выборку достаточного объема Х = (Ху Х2,..., Х„) и соответствующую для X, функцию плотности вероятностей /(0),	; кроме того, пусть Qk-fk(X)
(к = 1,2,...,К)— выборочная функция для неизвестного параметра
Случайные величины. Закон распределения и плотность вероятностей j 55
Qk. Тогда Qk называют несмещенной и состоятельной оценкой, если E(Qk)=Qk (k=\,2,...,K).
При этом существующая гипотетически величина bias(0(t)= -E(Qk}-Qk (k = l,2,...,K) характеризуется как результат смещения параметрической оценки.
Пример 3.34. Несмещённость оценки средней. Пусть имеем р-Х, тогда Е(Х) = р . Этот вывод непосредственно следует из правила по определению математического ожидания.
Пример 3.35. Несмещённость оценки, полученной методом моментов для распределения 17(0,6). Пусть случайная величина X имеет равномерное распределение 17(0,6) и 2Х=Ь , тогда имеет силу равенство:
Е(Ь)=2Е(Х)=2^=Ь.
Смещенность оценки дисперсии. Пусть имеем случайную величину X с любым распределением, но с математическим ожиданием, равным и, и дисперсией о2. Тогда для оценки
o2=-S(T,-T)2 E(d2)-E(-Y(Xl~X)2) = — о2,	(3.24)
«,=1 «/=1 п
т.е. оценка б2 смещенная. Доказательство выдвинутого положения с целью упрощения может быть проведено первоначально при условии, что п = 2, а затем индуктивным способом распространено на общий случай, когда п > 2.
Устранение смещённости дисперсионной оценки достигается заменой (3.24) на модифицированную формулу:
б2 —-^(Х.-Х)2.	(3.25)
п 1 /=1
В формуле (3.25) оценка дисперсии уже несмещенная.
Существует также и другой способ избежать смещенности дисперсионной оценки — увеличение размера выборки, т.е. необходимо асимптотическое предположение, что
Определение: Асимптотическая несмещенность.
Пусть некоторая оценка 0—fk(X) (k = l,2,...,K) для неизвестного параметра 0^ смещенная. Это означает, что:
(к = 1,2,...,К).
156
Глава 3
Эту же оценку называют асимптотически несмещенной, если ее смещенность исчезает при условии п-»°о, т.е. действуют равенства:
Um£(0A)=0t (£ = 1,2,. ,К)	(3.26)
п—
и соответственно lim bias(0jfe)=O	(3.26’)
Пример 3.36. Асимптотическая нормальность оценки дисперсии.
Пусть X — выборка любой величины с любым распределени-
9 ем и имеющая характеристику дисперсии ст , тогда
lim £(б2)= lim E(s2)= lim ^-о2 =о2
п—>оо	п-*<х>	п—*х> П
Эффективность статистических оценок. Определение: Оценку О называют по отношению к оценке 0 более эффективной, если при прочих равных условиях выполняется неравенство:
var(O) < var(0).
С введенным понятием эффективности тесно взаимосвязано понятие наилучшей оценки, т.е. имеющей наименьшую дисперсию в некотором классе оценок (например, в классе линейных несмещенных оценок).
Пример 3.37. Оценка средней.
Сравним три оценки средней величины:
Д = Г, Е(Х) = р,
| л-1
Й =  ;£*,)+(!-«)*„, 0<а<1, £(ц) = Щ
и-1
0<а1 <1> Е°<=1>
(=1 (=1
при этом даже для а, будет выполняться равенство: Е(Ц) = р. п
Для дисперсии случайной величины X имеем:
о2
var(p.) = —,
~	7
var(p) = о
па2
—+(1-2а) , п-1
Случайные величины Закон распределения и плотность вероятностей “| 57
var(jl) = o2 '^а? >var(|i)=—
Определение: Асимптотическая эффективность.
Оценку О называют асимптотически более эффективной относительно другой оценки 0 , если
hm var(0) < hm (0)
Л—
п—>°°
Средняя квадратическая ошибка. Определение. Величина
MSE =E\(Qk-0*)2] (Л = 1,2, -,К),
или MSE =£[(0-0)2] для К = \, характеризуется как средний квадрат ошибки (“Mean Square Error”) оценки Qk (или просто 0)
Определение Разложение дисперсии MSE.
Запишем MSE как
М5£ = £[(О-0)2] = Е{[[©-£'(©)]-[0-£'(©)]]2}=
= £[0-£(0)]2 +{£[©-£(0)]}2 +2£[0-£(0)]£[0-£(0)]} =
= var(0) + bias(©)2
Подобная запись представляет разложение дисперсии среднего квадратического отклонения Очевидно, что средняя квадратическая ошибка тогда и только тогда равна нулю, когда равны нулю дисперсия и смещение статистической оценки.
Замечание Условие равенства нулю для дисперсии статистической оценки целесообразно вводить при необходимости нивелирования средней квадратической ошибки. В сущности такое условие означает, что сама статистическая оценка перестает быть случайной величиной и устанавливается детерминистическим путем. В аналитической практике известен по крайней мере один из примеров, когда логично требование устранения MSE — когда мы имеем дело не с выборочной, а с генеральной совокупностью.
Состоятельность статистических оценок. Определение- Сходимость по вероятности. Некоторый ряд, состоящий из независимых, идентично распределенных случайных величин, называют сходящимся по вероятности к х, если выполняется равенство:
hm£ [|%„ -х|>£] = 0.
/7—
158
Глава 3
Определение. Состоятельность. Статистическая оценка ® называется состоятельной, если по вероятности сходится к истинной оценке 0, т.е.:
limP [|©-0|>с]=О,	с>0
Замечание: Вывод о состоятельности может быть сделан относительно оценки (0) самой случайной величины, но не относительно ее среднего значения. На деле это означает, что 0 не должна отклоняться от 0 , или что вероятность такого отклонения очень мала (см неравенство Чебышева).
Для несмещенных и состоятельных оценок действует общее правило: при увеличивающемся числе наблюдений их дисперсия уменьшается и постепенно с увеличивающейся плотностью концентрируется вокруг оцениваемого параметра. Проиллюстрируем это графически (рис. 3.26):
В статистике для состоятельной оценки используется следующая сокращенная запись: р11ГП0 = 0.
Случайные величины Закон распределения и плотность вероятностей j 59
Замечание. Состоятельность статистической оценки представляет собой асимптотический результат, полученный при условии:	Это, однако, не исключает получение подобных
же результатов и для относительно малых выборок, скажем, когда л >30.
Пример 3.38. Оценка средней.
Оценка средней является состоятельной оценивающей функцией для р:
2
= lim var( J) = lim — = 0,
следовательно 0 < lim Р(\х - £(Х)| > с) < lim	= 0
Пример 3.39. Пусть имеется некоторая оценка 0 для двухточечного распределения:
7>[<Э = 0] = 1-— и Р[0=л]=-[£(0)=1, var(0)=«-l] п	п
При условии состоятельности оценки 0 можем записать: hm£[|0-G|]=O, или р1ип(Э = 0 = О, и, учитывая возможность существования некоторого, сколь угодно малого положительного числа (е):
1>Р[[©|<е]>1--.
1 1 п
Другими словами, сама оценка & может быть сколь угодно малой.
Отметим, что в данном случае мы не имеем дело с известным неравенством Чебышева. Последнее для нашей задачи не несет ничего рационального, так как при дисперсия становится величиной неопределенной:
10-£(0)|<Л]>1—
'	1	Л2
P[j0-1 j<^]>l--(Для п-»«).
В заключение сделаем обзор некоторых взаимосвязанных свойств статистической оценки <Э для неизвестного параметра & (рис. 3.27): (
160
Глава 3
Рис. 3.27. Обзор некоторых важнейших свойств статистической оценки для неизвестного параметра 0:
-------► возможные переходы
Выводы1 ..................................   "	==
Наличие данной главы в составе пособия по многомерному анализу объясняется большим набором методов, в которых исследователю приходится сталкиваться с изучением характера
1 Параграф подготовлен Л А Сошниковой и В Н Тамашевичем
Случайные величины Закон распределения и плотность вероятностей j 6 j
распределения случайных величин. В соответствии с законом распределения оценивают математическое ожидание и дисперсию случайной величины X = (Xi, Х^.. Хт), проверяют различные статистические гипотезы. Знание характера распределения случайной величины позволяет исследователю корректно подходить к применению тех или иных методов MCA. В частности, корреляционный анализ применим лишь в том случае, если две случайные величины (Y и X) нормально распределены. При этом, если гипотеза о нормальности распределения не подтверждается, считается, что парный коэффициент корреляции не дает адекватную оценку степени тесноты связи. Более того, проверка значимости парных и частных коэффициентов корреляции осуществляется при тех же предпосылках нормальности их распределения. Подобные предположения используются и в методе канонических корреляций. В регрессионном анализе предположение о нормальности распределения выдвигается (и должно быть проверено!) при проверке значимости отдельных коэффициентов регрессии по /-критерию Стьюдента, а также при оценке коррелированности остатков по критерию Дарби-на—Уотсона. Можно привести примеры и других видов распределений, встречающихся (и проверяемых) в ходе реализации методов многомерного анализа: в пошаговой регрессии при включении или исключении какого-либо факторного признака используются величины F-включения и F-исключения, имеющие распределение Фишера; при анализе таблиц сопряженности для проверки гипотезы о наличии связи между двумя признаками используется величина, имеющая ^-распределение; в факторном анализе используется предположение о нормальном распределении значений общих факторов (главных компонент) и т. д.
Распределения подразделяются на два больших класса: дискретные и непрерывные. Дискретные распределения отражают прерывность значений случайной величины, среди них наиболее известны биномиальное, гипергеометрическое распределения, распределение Пуассона.
Непрерывные распределения составляют более многочисленный по сравнению с дискретными класс распределений. Они представляют случайные величины, в значениях которых априори нет пропусков (разрывов). К непрерывным относит-( Многомерный статистический
162	Глава 3
ся и нормальное распределение, которое широко известно и особенно часто встречается в теоретических разработках и аналитической практике. Доказано, что с помощью нормального распределения можно описать подавляющее большинство реально происходящих процессов. Кроме того, с увеличением числа наблюдений нередко другие виды распределений принимают вид нормального. С учетом своих свойств, хорошей разработанности и сравнительно простой формальной структуры нормальное распределение чаще других применяется в многомерной статистике. В классе непрерывных распределений, кроме нормального, известно большое число других видов распределений: гамма-распределение, распределение Стью-дента, распределения Вейбулла и Рэлея, распределение Парето и т. д.
В зависимости от того, по каким данным строятся распределения (наблюденным или вычисленным), их называют эмпирическими или теоретическими.
Важно отметить, что бывают одномерные и многомерные распределения. Многомерные распределения учитывают значения нескольких признаков одновременно и при числе аналитических признаке!! превышающем 3, не поддаются графической интерпретации
В этой главе автор рассматривает большое число разнообразных распределений, показывает особенности их практического приложения и взаимные связи. Эти распределения широко известны и успешно используются при решении многочисленных задач в экономике, социологии и т. д. Для исследователя выбор и область приложения законов распределения в анализе будут определятся прежде всего уровнем его профессиональной подготовки и возможностями располагаемых статистических пакетов программ для ЭВМ. Это объясняется трудоемкостью операций по вычислению функций и плотностей вероятностей статистических распределений. В настоящее время в специальных статистических пакетах программ для ЭВМ реализованы практически все наиболее распространенные семейства дискретных и непрерывных распределений.
Случайные величины. Закон распределения и плотность вероятностей “| 63
Вопросы и задачи -—.-s.— ..-.................-..
1. Имеется функция плотности вероятностей: -х-1 -2<х<-1
/(x)=J 1/2	0<х<1
[ 0	для других значений X .
График функции f(x) имеет вид:
Определите соответствующую f(x) функцию распределения случайной величины.
2. Продолжительность работы элементов электрического аппарата часто описывается случайной величиной со следующей функцией плотности вероятностей:
/(*Н
т хт~^с 2*о 2х0
О,
х>0
х<0.
а)	Найдите функцию распределения X;
б)	Определите показатели вероятности: Р(х<0,75) и J°(0,25<x<0,75).
В анализе используйте параметрические значения хо = 1 и т ~ 2.
3.	Обратимся к примеру из жизни животных, скажем, зайцев Пусть в начальное время (время-нуль) заяц находится в исходной позиции (позиции-нуль). В момент времени kt, т.е. по прошествии определенного времени начиная от времени-
164
Глава 3
нуль, заяц прыгает на расстояние, измеряемое в X-единицах, вперед или назад с одной и той же вероятностью, равной 1/2:
Пусть при этом т и п — целые числа. Какова будет в этом случае вероятность того, что заяц через какое-то время (nt) после своего последнего прыжка окажется в позиции mkl Очевидно, эта вероятность должна учитывать возможность (т+п) /2 прыжков вперед и (п — т)/2 прыжков назад: (т + п)/2 ~ (п — - т)/2 = т.
Покажите, что распределение вероятностей для определения случайного местонахождения зайца в каждый определенный момент времени подчиняется биномиальному закону и при этом:
Р [в момент времени nt заяц находится в позиции тХ] =
п
п + т
1
2”
Г П п-т
1
2"'
4.	Урезание распределения. Пусть случайная величина X имеет любое распределение на интервале [гц, Ь[] и А — такое вероятностное событие, при котором X получает на отрезке интервала [о2, 'У ограничение <02, например, для нормального распределения:
7V(0,O2) Я|=-оо, 6|=-К*’ И	^2=+О •
Покажите, что если F (х) есть функция распределения на интервале [О|, Ь\\, то ~ функция распределения на интервале [о2, и
W)= ^^.^2) .
1 F^-Fia.)
5.	Пусть величина U имеет нормальное распределение
JV(p,o2). Покажите, что при этом действует равенство:
+~о2.
Случайные величины. Закон распределения и плотность вероятностей 65
Этот случай имеет в эконометрике весьма важное значение, например, при оценивании логлинейных уравнений. Он также демонстрирует действие простого правила линейной трансформации.
6.	Коэффициенты вариации v (х) имеют большое прикладное значение в теории надежности, где в зависимости от значений, которые они приобретают (большие, малые или равные единице), производится классификация распределений случайных величин. Важнейшим с точки зрения теории при этом представляется распределение с v (х) =1, например, экспоненциальное или логнормальное с параметром (о2 = 1п2) распределения.
Покажите, что Гамма-распределение и распределение Вей-булла также имеют v (х) = 1.
7.	Пусть известны три координатные точки функции плотности вероятностей:
Р[Х=п/3]=1/п
Р[Х=п2/3]=1/п2
Р[Х=п2/3{п2 -п-Х)]=(п2 -п-\)/п2.
Покажите, что для любого п математическое ожидание: Е (х) = 1, а дисперсия при п -»<» не существует.
8.	Имеется дискретная случайная величина:
г	] ( 1 у
Р =2”-11= — , /7 = 1,2,...
1 "	J (2;
а)	Покажите, что X — случайная величина.
б)	Найдите математическое ожидание для заданной случайной величины Р.
Замечание. Проблема, с которой сталкиваются при решении данной задачи, носит название санкт-петербургского парадокса.
9.	Имеется следующая таблица с характеристиками контин-генций:
166	Глава 3
	0	1	2	3	
1	2?	0	0	Q	з?
2		6?	6?	0	18<?
3	0	6?	0	0	
X	8?	I2q		Q	Tlq
а) Определите уровень ковариации переменных Хи К б) Являются ли X и Yнезависимыми переменными?
10.	Имеется функция распределения вида:
F(x,y)=yaixa2, (х,у)б{[0,1]х[0,ф.
При каких значениях параметров а\ и F становится функцией распределения над квадратом с единичной стороной?
11.	Покажите, что функция Дх,у) = 3у, 0<х<у<1 есть функция плотности вероятностей.
Сделайте обобщения для случая с функцией f(x,y) = uy, 0<х<_у<р.
Как взаимосвязаны константные величины а и р ?
12.	Имеется функция:
где 0<х; у = 0,1,2,...; 0<р<1; ц>0.
Покажите, что данная функция есть функция плотности вероятностей и что условные (граничные) плотности вероятностей имеют геометрическое (с параметром р = л/Ц, т.е. величиной, кратной математическому ожиданию случайной величины X) и экспоненциальное (с параметром ц) распределения.
Указание: при решении задачи следует обратить внимание, что функция плотности вероятностей f(x,y) включает одну непрерывную, а другую дискретную переменные. Используйте
Случайные величины Закон распределения и плотность вероятностей 167
расходящийся ряд для ег и произведите многократное интегрирование этого ряда с частной производной и'=е~^.
Приведенная в задаче функция плотности вероятностей играет важную роль в теории очередей. При этом для случайных величин предполагаются следующие эмпирические значения: X — время ожидания в очереди (системе), К — число человек (покупателей) в очереди (системе).
13.	Имеется функция плотности вероятностей:
/(х,у) = хе^(1+>,), 0<х, 0<у.
Покажите, что в данном случае получим раздельной (граничные) функции:
плотности вероятностей:
/(х)=е~х и g(y) = l/(l+y)2,
распределения:
Г(х) = 1-е~* и G(y)=y/(l+y).
14.	Имеются следующие функции плотности вероятностей:
/1(х,У) = 4ху	(х,у)е([0,1]х[0,1]),
/2(х,у)=Хг(х,у)е([0,~)хМ,
Гз(х,у) = у (X2 +~) (Х,у) е {(0,1) х (0,2)}.
Соответственно приведенным функциям плотности вероятностей определите совместные и раздельные функции распределений.
15.	Данная задача наглядно показывает, что даже когда характеристика связи 7?2 = 0, между переменными X и Y может существовать взаимосвязь, другими словами, что малые уровни показателя определенности (А2) еще ничего не говорят о фактической взаимосвязи признаков вида: P[Y = й'2] = 1.
Пусть имеются данные наблюдений, описываемые параболой:
{Xt} = {—4, -3, —2, -1, 0, 1, 2, 3, 4},
{У,} = {16, 9, 4, 1, 0, 1, 4, 9, 16}.
Следует показать, что при этом R2 = 0.
168
Глава 3
16.	Случайные величины X и Y имеют совместную функцию плотности вероятности:
У=1
хе{1,2}.
О,
У = 3
для других значений у
а)	Постройте таблицу (таблицу контингенций) для определенных значений функции f
б)	Ответьте на вопрос о правомерности равенства:
Л1,1)=А(1) Г/1).
в)	Являются ли переменные Хи У независимыми?
г)	Вычислите совместное математическое ожидание Е (X, У).
17.	Покажите, что для величины р из равенства:
ч2 xl -Н1
<*1 J
/*(Х],Х2) =
•ехр
Х2-Ц2
-2р------------
О1 о2
О|2 име^тфилу р=-=^
\2
Х2~Й2
О2 J
18.	Для дискуссионного обсуждения предлагается вопрос о форме статистического распределения, представляющего смесь
двух раздельных нормальных распределений:
0,5 х ехр
(х + |1)2 2о2
+ 0,5 хехр
(х-р)2 2о2
f(x,y)
1
41 3
1
1_
гх2
Следует найти также математическое ожидание и дисперсию случайной величины X.
Решение: В данном случае математическое ожидание будет равно нулю, а дисперсия — единице. Такой результат становится очевидным на рис. 3.28:
Случайные величины. Закон распределения и плотность вероятностей “| 69
Рис. 3.28
Функцию /(х) нельзя считать простым результатом объединения двух независимых плотностей вероятностей. Для ядра (центра распределения) имеем:
(х+ц)2 ехр------—
L 2о2 J
(х-ц)2
ехр------5—
2о2
и
и соответственно подходящими функциями здесь могли бы быть:
g(x) = -p=L=rexp У2ло2
А(х)= -—zz^rexp VW
(х + ц)2 2о2
(х - Ц)2 2о2
У-Лг(-Ц,о2),
Й'~Лг(|1,о2),
т.е. сумма принадлежащих ядру плотностей вероятностей Z~7V(0,2о2) должна была бы выражаться следующей функцией
плотности вероятностей:
f (х)= /=^=ехр V4no2
4о2
170
Глава 3
В то же время исходя из приведенной в условии задачи функции плотности вероятностей f (х) мы получим область ядра:
0,5 ехр
(х + й)2 2о2
+ 0,5 ехр -
(х-|х)2 2о2
= 0,5 ехр
(х+р)2 2о2
+ехр
*ехр
4о2
19.	Случайная величина X имеет функцию плотности вероятностей вида:
Р(% = х) =
И* (1+ц)х+1 ’ 0,
х = 0,1,2>...
при других значениях х,
где ц — положительная константная величина.
При условии, что имеются данные выборочного наблюдения (2, 3, 0, 1), найдите методом максимального правдоподобия оценку для ц.
20.	Случайная величина X имеет следующую функцию плотности вероятностей:
2bxe~bx2, х > 0
Лх) =
0, при других значениях х.
Выборочной совокупностью данных с числом наблюдений п = 4 и плотностью вероятностей, функционально описываемой /(х), задаются следующие значения X.
С з 4 3 (х1,х2,х3,х4)=1 2,— -,11.
Методом максимального правдоподобия произведите оценивание параметра Ь.
21.	Произведите для случайной величины X, принимающей два значения и имеющей соответственно две различные плотности вероятностей, оценивание математического ожидания и дисперсии:
Случайные величины Закон распределения и плотность вероятностей
Х = 0	и Х=Т
=	/(х) = р
(Решение: Е(%) = 1, var(^') = 7’-l)
22.	Пусть случайная величина X имеет распределение Пуассона с параметром X. По данным выборки тогда из всего множества различных оценок (статистик) X можно по крайней мере привести следующие три:
/1W=£l+£l+£i.
1	4	2	4
,	X,	х2	х3
f2(.X) = —+—-+— 8	8	4
f	(X) - х' + Х2 + Хз
Л(П-Т+—+т
Обсудите, попытайтесь доказать несмещенность и эффективность трех приведенных оценок (/j, f2, /3). Почему вообще в данном случае употребимо понятие наилучших оценок?
\ Глава
\4/
у Проверка статистических гипотез
ЙвДиДй—Нм" ЙГ"мГ"
1
4.1. Статистические гипотезы в анализе данных4
Статистические гипотезы служат инструментом проверки выдвигаемых теоретических предположений. Предположения могут быть сделаны относительно параметров статистического распределения (в случае нормального распределения — математического ожидания ц или дисперсии о2), тогда гипотезу называют параметрической, или относительно распределения случайной величины (подчинение ее нормальному закону распределения, закону Пуассона и т. д.) — в этом случае проверяемую гипотезу называют непараметрической.
Проверка статистической гипотезы предполагает наличие выборочной совокупности данных, которая параметрически (своей функцией распределения) сравнивается с генеральной совокупностью или другой выборкой. Скажем, производится сравнение среднего уровня урожайности сельскохозяйственных культур, среднего уровня заболеваемости населения и т. д. какой-либо из областей республики (выборочная совокупность) со средним уровнем по всей республике (генеральная совокупность).
При проверке статистических гипотез используется понятие нулевой (прямой) и альтернативной (обратной) гипотез. Прямая гипотеза (Но) является основной и обычно содержит утверждение об отсутствии различий между сравниваемыми величинами. Альтернативная гипотеза (Hi) представляется конкурирующей по отношению к нулевой и принимается после того, как отвергнута основная. Приведем примеры статистических гипотез относительно параметров нормально распределенной одномерной и многомерной случайных величин:
Проверка статистических гипотез
173
Нулевые	Альтернативные
гипотезы
гипотезы
Одномерная случайная величина
//О:Д = ЦО	ц<ц0, ц>ц0
Н{:о*о0, 11,111 °2 <о0> °2 >°о
Многомерная случайная величина
Hq'V-j = Ио;
Но:Е = Ео
Hy-V-j =Ио;
Я1:2 = £о
Я0:о2 =о0
В зависимости от выдвигаемых предположений параметрические гипотезы подразделяют на простые и сложные. Простая гипотеза содержит только одно предположение относительно оцениваемого параметра: Hq: а = 0, или Н$ : а = 1 и т. д. Сложная гипотеза состоит из конечного или бесконечного числа простых гипотез. Например, Hq : а > 4 означает, что могут быть Hq : а = 5; Hq : а = 5,5 и т. п., т.е. здесь гипотеза состоит из бесконечного набора гипотез вида Hq : а = о;-, где i = 4,00...01;
Суждения об истинности или ложности статистической гипотезы строятся на основе критериальной (тестовой) проверки. Существуют статистические критерии, отражающие результаты сравнений и принимающие наблюденные значения по выборочным данным, а также критерии критических значений, установленные теоретическим путем. В ходе сопоставления критериальных величин выясняется: можно принимать или следует отвергнуть нулевую гипотезу. Если наблюденное значение критерия не превышает критического, то по крайней мере теоретически отсутствуют основания, чтобы отвергнуть прямую (нулевую) гипотезу. В противоположном случае целесообразно предположить справедливость альтернативной гипотезы Hi.
Критериальная проверка статистических гипотез допускает определенную вероятность ошибки в выводах. При этом разделяют вероятность ошибки первого рода (а) — отвергнуть нулевую гипотезу, когда она справедлива, и второго рода (Д) — принять нулевую гипотезу, когда она ложна. Графически вероятностные оценки ошибки представляют некоторые области плотности распределения значений статистического критерия. Область с малой вероятностью попадания критериальных значений а характеризуется как критическая (пороговая), а область,
174	Глава 4
остающаяся за вычетом критической, т.е. 1—а — как область допустимых значений1 (рис. 4.1):
В экономических исследованиях из двух вероятностных характеристик ошибок, которые допускаются при проверке гипотез (а и Р), обычно используется а — вероятность ошибки первого рода. Наиболее распространенными в практике значениями а являются: 0,01; 0,05; 0,1, что соответственно указывает на вероятность получения достоверного вывода (1~а), равную: 0,99; 0,95; 0,90.
Критериальная проверка гипотезы в сущности означает сравнительную характеристику параметрических значений или самого распределения случайной величины. Так, значения нормально распределенной величины, расположенные в непосредственной близости от центра распределения (математического ожидания ц) и априорно имеющие более высокую степень (вероятность) принадлежности изучаемой совокупности данных, соответственно будут принимать критериальные значения, подтверждающие несущественность их отклонений от ц.
1 Статистический критерий не обязательно имеет нормальное распределение.
Проверка статистических гипотез	175
Схематично графически все множество значений нормально распределенной случайной величины можно показать следующим образом (рис. 4.2):
Рис. 4.2
Если мы имеем дело с многомерной случайной величиной, то доверительная область будет представлять собой зону пересечения доверительных областей всех составляющих ее одномерных величин. Это хорошо видно на примере двумерной случайной величины с нормальным распределением (рис. 4.3):
Рис. 4.3
176
Глава 4
Заметим, что приведенный выше рисунок является упрощенным. На самом деле область двумерной величины будет принимать форму не простого прямоугольника, а эллипса — результат наложения двух нормальных распределений:
Рис. 4.4
В многомерном случае используются те же статистические критерии соответствия, что и в одномерном, но они изменяются с учетом многовекторной природы случайной величины. Чаще всего это критерии для проверки параметрических гипотез: /-Стьюдента, F-Фишера, проверки непараметрических гипотез — %2. С целью упрощения расчетов, а в последующем и выводов в анализе многомерной случайной величины часто принимается предположение о нормальности ее распределения.
4.2. Проверка гипотез о равенстве
вектора средних значений постоянному вектору
Критериальная проверка многомерных гипотез основывается на теоретических подходах, принятых для одномерного случая и хорошо известных из курса математической статистики. Так, гипотеза о равенстве вектора средних значений постоянному вектору, когда число анализируемых признаков т = 1 и значения
Проверка статистических гипотез
177
случайной величины распределены нормально, оценивается по /-критерию Стьюдента:
где х — среднее значение случайной величины Х' = (хь х2, .. хл);
ц — математическое ожидание (некоторое стандартное или заданное значение);
s — среднее квадратическое отклонение, оцененное по выборочным данным X,
п — объем выборочной совокупности, т.е. данных, участвующих в проверке.
Наблюденное значение /-критерия сравнивается с критическим /кр при заданном а/2 или а — уровне значимости и числе степеней свободы v = n-l. Гипотеза о равенстве х = ц (Hq .х = ц) подтверждается, когда /н < /кр, в других случаях допускается существенность различий х и ц.
Пример 4.1. На склад магазина поступила большая партия апельсинового сока По стандарту содержание натурального сока в упаковке, рассчитанной на 1 л продукции, должно составлять 80%, остальное — консерванты и пищевые добавки. При проверке 49 упаковок оказалось, что средний процент содержания натурального сока фактически составляет 75% при среднем квадратическом отклонении 5 = 4%. Проверим гипотезу на соответствие полученной продукции стандарту качества.
Запишем прямую и альтернативную гипотезы по условию задачи:
Но : х = 80; Н\: х 80.
Рассчитаем значение /-статистики-

х-ц г 75-80 ---=----------
5	4
49 =-8,75
При а = 0,10 по таблицам /-критерия Стьюдента найдем критическое значение: /0,05,48 = 1,678, т. е. /н > /кр. Следовательно, мы не можем считать партию сока отвечающей норме. С вероятностью допустить ошибку в выводах равной 0,05 следует признать существенность различий качества сока, отвечающего стандарту и попавшего в выборку.
С учетом значений /кр могут быть рассчитаны доверительные интервалы для х: x + s! Jn -tal2n^
178
Глава 4
Для нашего примера
s	4
-^х /„/2„-|= ~г= х 1,678 = 0,960 и
Vn ' '	V49
75 - 0,96 < х<75 + 0,96, т.е. 74,04% < х<75,96%.
Таким образом, доверительные интервалы для значений интересующего нас признака X, определяющие границы колеблемости х в генеральной совокупности, не покрывают заданного значения (ц = 80%). Подтверждается ранее сделанный вывод о несоответствии уровня качества сока в поставленной партии стандарту.
В многомерном случае имеем дело уже с т — числом выборочных средних, т.е. вектором средних значений: X' = ( хь х2,..., хт). Вектор X сравнивается с постоянным вектором ц' = (ць ц2, •••> йт)-Прямая гипотеза имеет вид Яо : X' = ц.' при альтернативной Н\.~Х' * р'.
Согласно двум приведенным гипотезам все ху соответствуют или существенно отличаются от Цу.
При построении критерия для проверки многомерной гипотезы воспользуемся известной формулой /-статистики:
х-ц г-
Z —---у П .
S
Возведем в квадрат правую и левую части равенства: /2=п(х-ц),(^2)’|(^-11)-
Воспользуемся характеристиками многомерной случайной величины:
•	вместо значения (х — ц) примем вектор (X — ц), где X и ц — в свою очередь векторы средних и постоянных значений;
•	вместо л2 — ковариационную матрицу Е и получим:
Т^=п(Х-^-\Х-\1),
где £=—^— {К’К) — ковариационная матрица и К — матрица с п-1
центрированными данными: ку =||х(у -ху ||.
В анализе обычно ковариационная матрица по генеральной совокупности данных неизвестна и вместо нее используют ковариационную матрицу по выборочной совокупности данных (5);
Проверка статистических гипотез
179
тогда 7(2 = п(х~р)	-ц). /^-критерий известен как критерий
Хотеллинга.
Наблюденное значение 7Н2 сопоставляется с критическим, исчисляемым при заранее заданном уровне вероятности а — допустить ошибку в выводах и числе степеней свободы У] = т и v2 = п - т :
г2 .... ffl(n-l)
*а..т,п-т	*о.,т,п-т 
п-гп
В формуле Fai п-т — табличное значение /’-критерия Фишера для известных v{ = m и v2=n-m. Многомерная гипотеза подтверждается при Г2 <Т^т п_т и не может быть принята, если Т2 >Т2 х н	*
Приведенная выше формула Т2 -критерия Хотеллинга является общей и рассчитана на проверку гипотезы сразу по всему числу m анализируемых признаков. Однако реально, даже при отрицании гипотезы Hq.Xj = Цу, значения одних признаков могут существенно отличаться от некоторых постоянных значений, а другие — несущественно. Возникает необходимость проверки гипотезы по каждому отдельному признаку или нескольким признакам {k < т) при условии нивелирования значений остальных признаков, представляющих одно и то же явление или процесс. Для решения подобной задачи можно использовать частный критерий Хотеллинга Т2, наблюденное значение которого оценивается по формуле:	1	1	' >
—	1
и(сДх;-И;))
HJ~ c'jscj ’
где Cj — специальный вектор, нивелирующий значения всех признаков, кроме одного или нескольких, участвующих в проверке статистической гипотезы. Компоненты вектора с, — нули и единицы, единицы указывают на признак или признаки, по значениям которых осуществляется проверка гипотезы. Скажем, анализируются данные по четырем признакам, для проверки гипотезы используется один третий признак (A3), тогда с’з = (001 0).
Доверительные интервалы для многомерной случайной величины в общем определяются по значительно более сложным
180
Глава 4
алгоритмам, чем в случае проверки одномерной гипотезы. Здесь следует выделить три возможных различных подхода:
Первый подход применим при расчете только частного критерия Хотеллинга. Исследователь решает максимально упростить задачу расчета доверительных интервалов и абстрагируется от существования всех других признаков, кроме одного. Решение будет заведомо грубым, так как не учитывает ковариации анализируемых признаков и сводится к расчетам по известной простой формуле:
5
Х± /—^а/2,п-1 •
УП
Второй подход применим при условии также выделения и анализа значений только одного из комплекса признаков, но при этом принимаются во внимание многомерность случайной величины и соответственно параметры многомерной статистической совокупности. Доверительные интервалы определяются здесь с учетом ограничивающих значений F-критерия Фишера:
с/х±( -xcjSCj xFт )1/2.
J п(п-т) J
Третий подход, когда определяются не отдельные интервалы, а доверительная область, охватывающая одновременно допустимые значения всех анализируемых признаков, представляющих некоторую многомерную случайную величину.
Выше (§1.3) показано, что такая доверительная область описывается эллипсоидом или при т > 2 — эллипсом. При числе анализируемых признаков, равном двум (т = 2), доверительную область можно легко показать графически (рис. 4.5).
%2 ± Л
Доверительная область и доверительные интервалы для значений каждого из признаков Х}
± д
(Х), х2)
Рис 4 5 Совместная доверительная область для значений двух аналитических признаков Ху и Ху
Проверка статистических гипотез
181
В общем случае (т > 2) совместная доверительная область ограничивается поверхностью, задаваемой уравнением:
{X-р)'Ъ~Чх=
п(п-т)
Данное уравнение задает эллипсоид с центром (хъх2,...,хт)-Нетрудно заметить, что при т = 1 и извлечении квадратного корня из левой и правой частей уравнения мы возвращаемся к простейшей формуле:
s
Х±р = ±-7=/а/2 р
•Jn
Решение уравнения с одновременным поиском доверительных интервалов для всех т анализируемых признаков сводится к последовательному определению собственных чисел, собственных векторов, интервальных величин и приведению их к натуральному масштабу
Пример 4.2. Для предприятий, торгующих продуктами питания в административном районе, установлены нормативные экономические показатели эффективности деятельности; уровень рентабельности товарооборота — 20% и средняя оборачиваемость товарных запасов — 12 дн. Более низкие значения показателей рентабельности и скорости оборота запасов означают нарушение ритмичности товарно-денежных операций и опасное снижение конкурентоспособности предприятия.
С целью оперативного контроля результатов коммерческой деятельности в одной из торговых фирм района проведен анализ эффективности торговых операций за последние 10 месяцев и получены следующие данные:
Месяц	Рентабельность товарооборота, %	Продолжительность оборота товарных запасов, дн.
01	14	19
02	12	15
03	16	19
04	14	17
05	15	24
06	18	12
07	22	10
08	20	15
09	13	18
10	9	20
Среднее значение	15,3	16,9
182
Глава 4
Оценим существенность различий экономических показателей торговой фирмы и нормативных. Уровень а зададим равным 0,05.
Решение:
1.	Определим параметры многомерной совокупности данных Вектор средних величин: X' = (15,3 16,9);
Ковариационная матрица:
п-1
1	<14-15,3 12-15,3 16-15,3
9 Х^19-16,9 15-16,9 19-16,9
14-15,3 15-15,?
17-16,9 24-16,9
... 9-15,3 '
... 20-16,9
'14-15,3
12-15,3
16-15,3
* х 14-15,3
15-15,3
19-16,9)
15-16,9
19-16,9
17-16,9
24-16,9
1 < 134,1 -87,7) _ <14,90 -9,74^
9 1^-87,7 148,9 J <-9,74 16,50,
<9-15,3 20-16,9 J
Обратная ковариационная матрица будет:
,	1	< 0,0987 -0,0645)
э = — adjS =
S	^-0,0645 0,1093)
2.	Рассчитаем 7'2 -критерий Хотеллинга:
Тн2 = п(Х-ц)'5-1 (X-р) = 10 х (15,3 - 20 16,9 - 12) х
х
0,0987 -0,0645'
-0,0645 0,1093
'15,3 -20"
J6,9 -12,
28,1.
3.	Найдем критическое значение Т^-критерия:
Т’кр =	Fq 05 2.8 = 2(10 П х 4,459 = 10,03.
п-т	10-2
Как видим, наблюденное значение /^-критерия значительно больше критического (28,1 > 10,0). Следует сделать вывод о существенности различий фактических значений экономических показателей, оцененных по выборочной совокупности предприятий, и значений, принятых за нормативные.
Проверка статистических гипотез
183
Теперь посмотрим, величиной какого из признаков определяется существенность различий. Рассчитаем частные значения Г2 -критерия Хотеллинга:
2 _л(с;.(ху-ц))2
ч/'“	с'Sc
Для значений первого йризнйка —?• рентабельйгостй товарооборота — получим	* ’
с
ю- (1 о)
<~4,8ТГ
< 4,9 1
14.90 -9.74YP
-9,74 16,50д0;
230,4 14,9
= 15,46.
Для значений второго признака — продолжительности оборота товарных запасов — частный критерий Хотеллинга:
Тн2 =
(, /-я
10 (о 1)
I 49
\2
<14.90 -9,74Y0'\
11
1^-9,74 16,50Д1 J
240,1
16,5
= 14,55.
По значениям обоих оцененных признаков торговая фирма не может быть отнесена к числу устойчиво работающих предприятий.

4.3. Проверка гипотез
о равенстве двух векторов средних значений
Для одномерной нормально распределенной совокупности данных проверка гипотезы о равенстве двух средних величин: Н0:х1= х2 осуществляется с использованием известных t-распределения и /-критерия Стьюдента. Наблюденное значение /н исчисляется по формуле:
Stjni +п2
где — средние для двух выборочных совокупностей значения анализируемого признака;
л2 — объемы выборочных совокупностей;
184
Глава 4
s* — корень квадратный из объединенной дисперсии двух выборочных совокупностей:
St
(nj-l)s?+(п2-1)S2 (И1-1)+(«2-1)
1/2
Наблюденное значение Z-критерия сравнивается с критическим (табличным), которое определяется с v = n1+n2-2 — числом степеней свободы и при заданном уровне значимости а.
Доверительные интервалы для разности средних значений Дх = (х;-х2) определяются с учетом величины объединенной дисперсии 5* и критического значения f-критерия
X-S&x x^a/2,v >
здесь s^ — корень квадратный из дисперсии разности двух выборочных средних значений (х[ — х2). Дисперсия разности средних исчисляется по формуле:
2	2
2 _51 , s2 _Я1 + п2 2 □ —-------1---—---------о * .
«I «2
Пример 4.3. В фермерском хозяйстве апробируется новый вид удобрения. Чтобы узнать его эффективность, под опытные посевы зерновых выделено 40 делянок. На первом опытном участке — 15 делянках — вносились старые удобрения и полученный урожай оценивался средней величиной 18 ц/га. На 25 делянках — втором участке — были внесены новые удобрения и средний уровень урожайности оценивался 20 ц/га. Средние квадратические отклонения в уровне урожайности по первому и второму опытным участкам соответственно составили 2 и 3 ц/га.
С вероятностью допустить ошибку в выводах 0,05 следует ответить на вопрос: случайно ли расхождение в уровне урожайности на опытных участках и действительно ли новые удобрения существенным образом повышают урожайность зерновых?
Решение'.
1. Исчислим объединенную дисперсию по данным двух опытных участков с посевами зерновых:
2 _ («! -	+ (Л2 -1)4 _ (15 -1)4 + (25 -1) х 9 _ _.
5* —	'	—	1		— /,1Эо,
(Я1-1)+(л2-1)	(15-1)+ (25-1)
т. е. л =Д158 =2,675.
Проверка статистических гипотез
185
2. Определим наблюденное значение t-критерия:
{	(18-20)^5x25^ 22g?
sty[ni +п2	2,675^15 + 25
Наблюденное значение /-критерия по абсолютной величине (/н =2,287) превышает t критическое (йэ,05;38 = 1,687). Нулевую гипотезу о равенстве средних значений х[ и х^ следует отвергнуть, тем самым признаем, что уровни урожайности зерновых культур на двух опытных участках различаются и зависят от вида вносимых удобрений.
3. Найдем доверительный интервал для разности средних значений (Дх):
<15 + 25	W2
x±s.-xta/2v' х± -------7,158	х2,026=1,773,
Дх О./2Х’	1^15x25	)
или — 3,773 < х	<	— 0,227.
Предположительно для генеральной совокупности отклонение двух одинаковых по величине средних значений будет равным нулю. Нуль не попадает в интервал для х (—3,773 + —0,227), т.е. Дх^Дц и вывод о существенности различий х^ и х^ подтверждается.
В многомерном статистическом анализе проверяется гипотеза о равенстве векторов средних значений:
Яо: (^113Г12Й'1з...^1ш) = Й'21АГ22^Г23-^2т >
Я! •• (Й'11Й'12Й'13...Й'1т)/Й'21^22^23-^2т , или в векторной форме:
яо: х{=х2-, НС Х^Х2.
Построим многомерный Т2-критерий, используя в качестве исходной соответствующую формулу одномерного /-критерия:
t _ (*1 -х2)^п}п2
Н 5» y/ni +п2
Возведем в квадрат обе части равенства и перегруппируем элементы в его правой части, получим
'н =	-X2)(s?) '(Х]-Х2).
Л] +п2
186
Глава 4
Последняя формула может служить для расчета многомерного Т2 -критерия, если в нее ввести многомерные параметры:
г 2 = «1«2(	у s-\
П[ + п2
здесь Х{, Х2 — векторы средних значений;
УТ1 — матрица, обратная объединенной ковариационной матрице: У, -------------5---+^2^2) по вы~
+п2 -2
борочной совокупности данных, где К — матрица центрированных значений с элементами
л(/“|| У -Иг
Критические значения для Т2 находятся по специальной формуле, включающей F-критерий Фишера, определяемый при заданном уровне значимости а и с числом степеней свободы V] = m, v2 = П] +п2 -т-1:
Т2	(»1+п2-2)т
1	, Лra,m,«i+«2-zn-l •
**1 **2	~
При Тн2 <Та>т>П1+П2-т-\ нулевая гипотеза Hq : Х{=Х2 принимается, и вывод о равенстве векторов средних значений следует с вероятностью (1 — а). Если же Т„ >T^m>ni+n2-m-i , то гипотеза о равенстве векторов средних значений не может считаться достоверной и отвергается.
При этом также существует возможность расчета частных критериев Т2 для сравнений одного или нескольких средних значений из каждой выборочной совокупности:
у,2 _ П1П2(С;(^1 ~^2))2
47	(«j +n2)c'jStCj
где Cj — вектор, нивелирующий средние значения, не участвующие в сравнении, 1 < J < т
Для частных оценок различий средних значений критические величины определяются формулой:
2	_(Hi+n2-2)j
^а,ЛИ1+л2-;-1 Я1+„2_у_1хга,/,Л1+«2-2-1 ’
Проверка статистических гипотез
187
> Доверительная область для векторных разностей (A X = Х} -Х2) [задается уравнением эллипсоида:
1	— _i — л, + п2 (П|+п?-2)т
(А¥ - Др)' S, (А¥ - Др) =--х —!--------- х F +п х,
п\п2 п^+п2-т-\	' z
где (A X — Др) — вектор, представляющий разности отклонений средних значений по выборочной (А<¥) и генеральной (Ар) совокупностям. Подтверждение гипотезы Hq. = Х2 , или Hq\ XX = О в сущности означает признание правомерности другой гипотезы Hq : Ар = 0.
Когда число признаков, участвующих в анализе, ограничивается, 1 < j < т, и используется критерий Т2 частного вида, доверительная область определяется уравнением, содержащим вектор с, нивелирующий по выбору исследователя значения отдельных признаков:
(с'ДХ-с'Др)'(с'5*с)4(с'ХХ-с'Ар) = х (/i| +”2хFa j +п {.
П\П2 П] +п2-J-1	1 z
Пример 4.4. С целью оценки воздействия состояния окружающей среды на здоровье населения обследованы два административных района. В первом районе, с низким уровнем техногенной
Населенный пункт	Первый район		Пасе-ленный пункт	Второй район	
	Младенческая смертность (Xi)	Заболеваемость злокачественными новообразованиями (Хг)		Младенческая смертность (Xi)	Заболеваемость злокачественными новообразованиями (Х-2)
1	8	206	1	15	215
2	11	210	2	16	212
3	12	212	3	14	214
4	10	216	4	18	225
5	9	184	• 5	22	230
6	14	201	6	12	207
7	6	165	7	17	256
8	12	195	8	14	236
			9	20	302
			10	24	220
			11	10	214
			12	18	198
Т	10,3	198,6	X	16,8	225,2
188
Глава 4
нагрузки, проверено 8 крупных населенных пунктов, во втором, имеющем крупные химические и нефтехимические предприятия и соответственно высокий уровень техногенной нагрузки — 12 пунктов. По данным обследований населенных пунктов, приведенным ниже, следует определить при а = 0,01 существенность различий двух районов по Л) — уровню младенческой смертности (%о) и Aj — уровню заболеваемости населения злокачественными новообразованиями (на 100 000 чел. населения): Решение'.
1. Определим исходные векторы и ковариационную матрицу, необходимые в последующем для расчета Д-критерия:
= (10,3 198,6}	^=(16,8 225,2}
S.=------J----(К',К<+К!,К2)=	1
/?! + п2 - 2
(173,68 443,32'1
<45,52	174,74'
8 + 12-2 (J74,74 2027,88.
(219,20	618,О6Л
тогда S.
443,32 8759,68^ (0,0977 0,0056'
_1 181^618,06 10787,56
(12,2 34,ЗЛ
34,3 599,3
0,0056 0,0020j
2. Теперь можно рассчитать наблюденное значение общего Т2 -критерия Хоттелинга:
г2_ «1«2 (у у \'
7н “-----И1 ~Л 21 ‘
+Л2
96
= — (-6,5 26,6)
20
3. Найдем критическое значение Д-критерия и сравним значения Ткр2 и Гн2:
(i±b-2>x	Мх
п{ + п2 -лг-1	17
(0,0977 0,0056V-6,5 )
0,0056 0,0020Д-26,6;
= 36,0.
Наблюденное значение Д-критерия более чем в два раза превышает критическое и следует сделать вывод о существенных различиях условий проживания населения в первом и втором территориальных районах. Очевидно, наличие крупной химической промышленности во втором районе обусловливает существенные негативные отклонения значений показателей младенче
Проверка статистических гипотез
189
ской смертности и заболеваемости злокачественными новообразованиями.
В дальнейшем, как и в предыдущем параграфе, с использованием частных критериев Tj может быть оценена существенность отклонений по каждому из анализируемых признаков
4.4.	Проверка гипотез
о равенстве ковариационных матриц
Сравнение ковариационных матриц, отражающих взаимосвязи изучаемых признаков, открывает возможность дополнить и уточнить гипотетические предположения относительно самих признаков. Это приобретает особенное значение, если принять во внимание, что даже специфические индивидуальные признаковые характеристики могут совпадать случайно.
В социальных и экономических исследованиях существует множество задач, требующих идентификации признаковых связей. Особенно часто они возникают при классификации наблюдаемых объектов, распознавании образов и т.п., например, при оценке кредитоспособности клиентов банков, группировке предприятий по уровню устойчивости финансового положения или при оценке эффективности производственной и коммерческой деятельности. Кроме этого, изучение взаимосвязей показателей представляет самостоятельный интерес при решении многих аналитических вопросов. Наконец, сами решения многомерными методами статистики большинства задач изначально предполагают равенство ковариационных матриц различных выборочных совокупностей.
На практике учет ковариаций (корреляций) изучаемого комплекса признаков и проверка равенства ковариационных матриц значительно снижают возможность появления ошибки в выводах. Это происходит из-за весьма малой вероятности случайного совпадения одновременно большого числа сложных характеристик признаковых связей. Наглядными здесь могут быть примеры из области медицины. Так, часто встречаются случаи, когда один или несколько симптомов (признаков) совпадают, указывая на определенную болезнь, но на самом деле заболевание
190
Глава 4
может быть иного рода. Диагностика заболевания становится гораздо более точной, если характеристику состояния какого-либо органа (например, печени) дополнить статистическими оценками связей с характеристиками состояния других органов (сердца, почек, центральной нервной системы и т.д.). Окончательный вывод о заболевании позволит сделать проверка гипотезы о существенности различий признаков, дополненная проверкой равенства ковариационных матриц для двух групп людей: с устанавливаемым и уже известным диагнозом.
Для одномерных выборочных совокупностей проверка гипотезы об однородности дисперсий осуществляется при помощи критерия Бартлетта:
Хн =-^^(«-*)lgs*2- S((n; -1) Igs2)
с	j=1
i i 1
при c=l+------ >-----------,
3(к-1)[^п}-1 n-k/
где к — число нормально распределенных выборочных совокупностей;	, ,
tij — объемы каждой из к выборок, j = \,к ;
п — общий объем всех выборочных совокупностей п = Xй/ »
S7; — дисперсия признака в /-й выборочной совокупности, j=1Д;
si — объединенная (средняя) по выборкам дисперсия,
Для /2-статистики критические значения находят по таблицам квантилей ^-распределения по заданному уровню значимости а и числу степеней v = к - 1. Нулевая гипотеза о равенстве дисперсий отклоняется, если Xh-X<x,v> и принимается, когда ^Xa,v-
В многомерном анализе формула расчета статистики /2 преобразуется с учетом того, что сравниваются ковариационные матрицы двух /и-мерных выборочных совокупностей и вместо скаляров используются многопараметрические оценки: векторы и матрицы Критерий приобретает вид: = b(-2\nv}),
Проверка статистических гипотез
191
где параметры b и -2 In г, определяются по формулам-( \
2m2 +3/П-Р
6(m + l) ,
где т — число признаков, представляющих многомерную выборочную совокупность
Величина многомерного Ж-критерия сравнивается с %2 v —
табличными значениями и v = «,+/j2-2
Пример 4.5. Произведем расчет И'-критерия по уже известным данным ковариационных матриц (по данным примера 4.4 из § 4 3):.
'173,68	443,32'
1/443,32 8759,68/
45,52	174,743
7 (174,74 2027,88/
; = А
5. =
'12,2	34,3^
/4,3 599/
и и, = 8; «2 = 12, |5,| = 1260,0; |52| = 10949,96 ; (5,| = 6134,97.
Чтобы упростить вычисления Ж-критерия Бартлетта, произ
ведем предварительные расчеты параметров b и -2 In v,:
6=I-[1+—-(7 11
1¥2.^^х2-13 = 18 J( 6(2+1) )
-2 In v, = 18 In 6134,97 - (In 1260,0+11 In10949,96) = 13,724
Остается вычислить наблюденное значение Ж-критерия:
И/ =0,871x13,724=11,954
Критическое значение И7-критерия найдем по таблицам %2-распределения при а = 0,05 и числе степеней свободы т (т + 1)/2 или v= (2 х 3)-2 = 3; /о,О5,з =7,815 Так как И7>Хо,о5,з, мы от" вергаем нулевую гипотезу о равенстве ковариационных матриц (5, и 53) и считаем, что при заданном уровне значимости а= 0,05 их различие существенно.
192
Глава 4
Выводы — 	1	1	—1 
Проверка статистических гипотез проводится с целью оценки соответствия распределения случайной величины известному закону распределения, а также соответствия параметров статистической совокупности заранее заданным величинам или параметрам другой совокупности. Параметрами многомерной совокупности, подчиняющейся нормальному закону распределения, выступают вектор средних значений и матрица ковариаций.
Суждения об истинности или ложности проверяемой гипотезы строятся на основе вычисления наблюденных значений специальных критериев и последующего их сравнения с табличными (критическими) значениями. Качество проверки задается уровнем а — вероятности допустить ошибку в выводах.
При проверке статистических гипотез для многомерных случайных величин возможны различные подходы: использование общего и частных критериев с выделением и анализом различных комплексов признаков, определение доверительной области, охватывающей одновременно допустимые значения всех признаков многомерной случайной величины,и т.д.
Вопросы и задачи	———................. =====
1.	Что понимают под статистической гипотезой и какие характерные признаки для нее существуют?
2.	Что означает: простая и сложная, одномерная и многомерная статистические гипотезы?
3.	Какого рода ошибки могут допускаться и чем определяется достоверность выводов при проверке статистических гипотез?
4.	Покажите графически доверительную область для двумерной случайной величины: Л".= (А) Х2), если Л) — уровень оплато-емкости продукции — принимает параметрические значения —
= 0,20 с предельно допустимой колеблемостью (%] _х(1) ^0,5, а Х2 — уровень энергоемкости продукции при х2 — 0,8 и (*2 - х/2)	%
Проверка статистических гипогцез
193
5.	Повторите решение задачи №4, при условии трехмерной случайной величины X, к уже известным признакам X, и Х2 добавляется характеристика — удельный вес производственных налогов в стоимости продукции: х3 = 0,45 при (х3-х/3)<0,25.
6.	Будет ли статистической гипотеза:
а)	о равенстве двух ковариационных матриц, представляющих связи признаков здоровья людей в двух группах: не имеющих хронической заболеваемости и с заболеваемостью;
б)	о несущественности различий характеров двух человек? И если решать этот же вопрос относительно макроэкономического положения двух стран?
в)	о том, что многомерная случайная величина X' = (%] Х2 Х3), представляющая совокупность предприятий, подчиняется нормальному закону распределения?
Приведите собственные примеры многомерных статистических гипотез.
7.	На частном предприятии с численностью работников 70 чел. средний уровень выработки одного рабочего составляет 500 деталей в день при среднеквадратическом отклонении 16 дет. С целью корректировки среднего нормативного уровня выработки в сторону повышения администрацией была отобрана группа наиболее подготовленных рабочих и по ним установлен средний уровень выработки, равный 580 дет. Можно ли вводить новый нормативный уровень выработки на предприятии, не опасаясь конфликтов с рабочими? Решите задачу при заданном уровне значимости а = 0,05.
8.	Чтобы оценить производственную эффективность предложенной к внедрению технологии, проведена проверка качества продукции, выпущенной на старой и новой автоматических линиях, при этом получены следующие данные об удельном весе продукции высшего качества, %:
Партия №	Старая линия	Партия №	Новая линия
1	2	3	4
1	58	1	74
2	62	2	59
3	51	3	69
7 Многомерный статистический
194	Глава 4
Продолжение
1	2	3	4
4	67	4	78
5	41	5	82
6	53	6	75
		7	86
		8	63
Средний	55,3	Средний	73,3
уровень		уровень	
При а = 0,001 следует установить, действительно ли новая линия, налаженная на передовую технологию, позволяет получать более высокий уровень качества продукции?
9.	Для оценки существенности воздействия состояния окружающей среды на здоровье людей в районе с неблагоприятной экологической обстановкой проведены медицинские обследования 12 отобранных случайных групп населения:
Половозрастная группа населения	Средний уровень продолжительности жизни, лет	Заболеваемость онкологическими болезнями, на 100 000 жителей	Уровень младенческой смертности, %
1	64	590	18
2	58	604	17
3	67	598	15
4	66	610	17 .
5	71	690	14
6	56	540	21
7	58	624	'	18
8	62	670	16
9	64	656	14
10	61	711	15
11	63	630	16
12	68	705	11
Известно, что средний по республике уровень продолжительности жизни составляет 69 лет, заболеваемости онкологическими болезнями — 580 случаев на 100 000 жителей, уровень младенческой смертности — 12%о. При а = 0,020 определите, действительно ли экологические условия района оказывают существенное негативное влияние на уровень здоровья населения. После про
Проверка статистических гипотез
195
верки гипотезы по всем трем характерным признакам повторите проверку по каждому из признаков и сформулируйте выводы.
10.	Проверьте существенность различий уровня эффективности работы предприятий двух отраслей «А» и «Б» по следующим данным (а = 0,1):
Отрасль «А»			Отрасль «Б»		
Предприятия Ns	Рентабельность производства, % (Х1)	Среднегодовая выработка на одного работника, тыс долл США	Предприятие Ns	Рентабельность производства, % (*1)	Среднегодовая выработка на одного работника, тыс долл США
1	14	3,6	1	4	2,8
2	18	4,4	2	7	2,6
3	12	4,2	3	12	4,1
4	16	3,9	4	6	2,3
5	11	3,4	5	8	3,5
6	9	2,8	6	11	3,8
			7	5	2,2
			8	11	3,7
Средняя	13,3	3,72		8,0	3,12
величина					
11.	Оцените существенность различий двух рынков сбыта легковых автомобилей, если на первом рынке средний уровень реализационной цены автомобиля составляет 15 тыс. долл., а экспертная оценка качества обслуживания (по 5 балльной системе) — 3,4 балла, на втором рынке соответственно: 18 тыс. долл, и 4,2 балла. Пусть а = 0,05, объединенная ковариацион-
ная матрица имеет вид:
'9,4 0,28" ф,28 2,0 }
& =
12.	Проверьте предположение о равенстве двух ковариационных матриц, представляющих связи экономических показателей за два различных периода времени:
6050 18203	(8400 2060
, s2 =
1820 3690/	(2060 4170

\ Глава
\5/
у Робастное статистическое оценивание
5.1.	Грубые ошибки и методы их выявления в статистической совокупности данных
При исследовании статистических совокупностей часто приходится иметь дело с данными, отклоняющимися от основного массива, т.е. с ошибками, или выбросами. Приведем простой пример: на десяти предприятиях отрасли легкой промышленности произведены контрольные расчеты уровня рентабельности производства по итогам работы в первом полугодии и получены следующие результаты:
Предприятие	1	2	3	4	5	6	7	8	9	10
Уровень рентабельности продукции, %	15,4	13,2	18,3	47,1	12,0	16,3	65,2	17,4	11,0	12,9
В приведенных данных имеются два значения: 47,1 и 65,2, которые значительно больше всех других значений, покрываемых интервалом [11,0; 18,3]. При выявлении подобных «выбросов» возникают серьезные вопросы: являются ли отклоняющиеся данные действительно ошибками (например, регистрации) или это реальные значения и как получить адекватные оценки для параметров изучаемой совокупности. Решением подобных вопросов занимается специальный раздел статистики — робастное (устойчивое) оценивание.
Методы робастного оценивания — это статистические методы, которые позволяют получать достаточно надежные оценки статистической совокупности с учетом неявности закона ее распределения и наличия существенных отклонений в значениях
Робастное статистическое оценивание
197
данных. У истоков развития методов робастного оценивания стояли американский статистик Д. Тьюки и швейцарский математик П. Хубер.
При решении задач робастного оценивания выделяют два типа данных, засоряющих статистическую совокупность. К первому типу относят данные, несущественно отличающиеся от значений, которые наиболее часто встречаются в изучаемой совокупности. Эти данные не вызывают значительных искажений в аналитических результатах и могут обрабатываться обычными методами статистического оценивания.
Второй тип данных — резко выделяющиеся на фоне изучаемой совокупности, их называют «засорением» или «грубыми ошибками», они оказывают сильное искажающее воздействие на аналитические результаты. Эти данные должны подвергаться специальной обработке.
В практике устойчивого оценивания различают следующие основные причины появления грубых ошибок:
•	Специфические особенности отдельных элементов изучаемой совокупности. Как правило, они приводят к появлению случайных, или «нормальных» («обычных») отклонений.
•	Неправильное причисление элементов к исследуемой совокупности, например, ошибки группировки, ошибки при организации наблюдения и т. п.
•	Грубые ошибки при регистрации и обработке данных.
Если грубые ошибки являются результатом неправильных причислений элементов или ошибок регистрации (§ 2,3), то их появление и уровни непредсказуемы, а распределение может значительно отклоняться от гипотетического распределения основного массива статистических данных.
При обработке «грубых» ошибок (засорений) легко выделить два основных подхода. Первый ориентирован на устранение из выборочной совокупности ошибок и оценку параметров по оставшимся «истинным» значениям. Второй подход предполагает в каждом случае с грубой ошибкой выделение истинных значений признака и собственно ошибки х=хНСТ+^; при этом осуществляется модификация данных таким образом, чтобы искажающий элемент £ получил нормальное распределение с нулевым математическим ожиданием. Тогда для некоторого множества грубых ошибок вариативной величины х сумма £ приближается к ну
198
Глава 5
лю, а оценки х — к истинным значениям параметров выборочной совокупности.
Алгоритм обработки «засорений» включает последовательное выполнение шагов:
1)	распознавание ошибок в данных;
2)	выбор метода и проведение робастного оценивания данных;
3)	критериальная или логическая проверка и интерпретация результатов устойчивого оценивания.
Выявление грубых ошибок и оценка степени засорения выборки возможны при визуальном анализе данных или проверке статистической гипотезы на наличие ошибки. Во втором случае предусматривается расчет специальных статистических критериев.
Простой формальный прием для обнаружения грубых ошибок основывается на расчете Т- критерия Граббса:
где х — выборочная средняя. Ее оценка предпочтительна по
" х истинным данным, в противном случае х = У — ;
1 п
s — выборочное среднеквадратическое отклонение случайной величины. Для 5 также предпочтительна оценка по истинным данным, в противном случае расчет производится, как и в первом случае, по данным всей выборочной совокупности.
Наблюденные значения Т-критерия сравнивают с пороговыми, заданными соответствующим распределением. Проверяемые признаковые значения относят к классу выбросов, если Гн >Ткр (Гкр =Tah). Если Гн<Гкр, то считается, что эти значения несущественно отличаются от других данных и не будут давать сильного искажающего эффекта.
Критерий Граббса прост и легко применим в анализе, но как установлено, имеет существенные недостатки. В частности, исследователи обращают внимание на его недостаточную точность (часто дает весьма грубые оценки) и, кроме того, он «нечувствителен» к маскирующим эффектам, когда выбросы группируются достаточно близко друг от друга в отдаленности от основной массы наблюдений.
Робастное статистическое оценивание
199
Более точными по сравнению со статистикой Граббса оценками грубых ошибок признаются L- и Е-критерии, предложенные американскими статистиками Г. Титьеном и Г. Муром:
1.	1-критерий исчисляется для выявления грубых ошибок в верхней части ранжированного ряда данных:
л-к
где xt — выборка i наблюдений по какому-либо одному, у-му признаку;
п — объем выборки;
к — число наблюдений с резко отклоняющимися значениями признака;
х — общая для выборочной совокупности данных средняя величина;
хк — средняя, которую рассчитывают по п - к наблюдениям, остающимися после отбрасывания к грубых ошибок
«сверху» ранжированного ряда данных: хк = —— п-к
2.	Е'-критерий применяется для выявления грубых ошибок в данных, расположенных в нижней части ранжированного ряда данных:
п
L' = ix^L
где х — средняя, рассчитанная по п - к наблюдениям, остаю-
щимся после отбрасывания к грубых ошибок «снизу»:
3.	Е-критерий используется, когда в выборке имеются предположительно грубые ошибки с наибольшими и наименьшими
200
Глава 5
значениями, т.е. расположенные в верхней и нижней частях ранжированного ряда данных:
п-к'
£(*,-**' )2
_i—k+\._____ п____________5
-х)2
/=1
где хк, — средняя, рассчитанная по «истинным» данным после отбрасывания из выборки наименьших (к) и наибольших (к’) значений засоряющих совокупность дан-п-к' Iх.
ных: хк'=~
п-\к+к )
Все три критерия L, L' и Е имеют табулированные критические значения для заданного уровня значимости а при известном объеме выборки п и предполагаемом числе ошибок к. Если наблюденные значения критериев оказываются меньше пороговых Сак, то ошибки в данных, подвергаемые проверке, признаются грубыми, существенно отклоняющимися от основного массива данных. При L, V, Е>Сщк данные гипотетически предполагаются типичными для изучаемой выборочной совокупности.
5.2. Методы исчисления устойчивых статистических оценок: Пуанкаре, Винзора, Хубера
После обнаружения выбросов в данных решается задача оценивания параметров выборочной совокупности. При этом, как выше уже сказано, используются два основных подхода: экстремальные значения (грубые ошибки) отбрасываются либо модифицируются.
Наиболее простыми представляются оценки по усеченной совокупности данных, остающейся после отбрасывания грубых ошибок. Американский статистик Пуанкаре предложил следующую формулу для расчета средней по усеченной совокупности (урезанную среднюю):
1 п-к
Т(а)=----- Ух, .
«-2^=Т+1
Робастное статистическое оценивание
201
В формуле к — число грубых ошибок, к<ап — целая часть от произведения ап, где п — объем выборочной совокупности, а а — некоторая функция величины засорения выборки £. Значения а находят по специальным таблицам (см. табл. 5.5). Обычно а колеблется в пределах от нуля до 0,5.
Другой подход демонстрирует оценка Винзора, она предполагает замену признаковых значений, засоряющих выборку, на модифицированные (винзорированные) значения с устраненными или уменьшенными ошибками.
Средняя по Винзору определяется также с известным заранее уровнем а (0<а< 1/2) по формуле: j (п-k-l	'
ИДа) = -	.
Ч,=Л+2	J
По аналогии с оценками Т(а) и И'(а), т.е. соответственно по усеченной совокупности, или винзорированным данным, могут быть найдены не только средние величины, но и другие оценки параметров статистической совокупности, например, вариации, моды, медианы и т.п.
Приемы робастного оценивания Пуанкаре и Винзора дают хорошие результаты на выборках с симметричным распределением засорений, когда грубые ошибки группируются примерно на одном расстоянии от центра в нижней и верхней частях статистической совокупности.
Наряду с уже названными методами робастного оценивания, широкое распространение имеет ставший классическим подход Хубера. Он напоминает процедуры для последовательного «улучшения» данных по Винзору. При этом используется некоторая исходная величина к, определяемая с учетом степени «засорения» статистической совокупности и определяющая шаг модификации резко отличающихся наблюдений (см. табл. 5.6).
Оценка средней величины по методу Хубера производится по формуле:
(	л
ё=-	,
где 0 — устойчивая оценка, определяется при помощи итеративных процедур;
к — величина, которая допускается в качестве отклонения от центра совокупности, принимает постоянные значения
202
Глава 5
с учетом удельного веса грубых ошибок в совокупности данных
«1 — численность группы наблюдений из совокупности, отличающихся наименьшими значениями: х , < 0 - к, или значения в интервале (-~; е - к);
п2 — численность группы наблюдений из совокупности, отличающихся наибольшими значениями: х, < 0 + к, или значения в интервале (0 + к; °°).
При расчетах по приведенной выше формуле в качестве начальной оценки 0 может приниматься обычная средняя арифметическая или медиана, оцененная по выборке. Затем на каждой итерации производится разделение выборочной совокупности на три части. В одну часть попадают «истинные» признаковые значения, которые остаются без изменения (|х, - 0| < к). В две другие части совокупности (для х, > 0 + к и х, < 0 - к) попадают «ошибки», они не исключаются из рассмотрения, а заменяются соответственно на величины х, - к и х, + к. По «истинным» и модифицированным данным каждый раз определяется новая оценка средней 0 и итерация возобновляется. Итерации повторяются до тех пор, пока все наблюдения не оказываются в интервале «истинных» значений: -0)<Л .
Оценка 0. найденная по методу Хубера, представляется достаточно эффективной, но быстро теряет оптимальные свойства с увеличением засорения выборки (ростом $;).
Пример 5.1. По 20 городам с различным уровнем насыщенности промышленного производства имеются данные о заболеваемости верхних дыхательных путей у детей, на 100 000 детей:
Город	Уровень заболеваемости верхних дыхательных путей	Город	Уровень заболеваемости верхних дыхательных путей
1	1258,7	11	1307,2
2	1060,2	12	1078,5
3	1186,5	13	4020,1
4	1263,7	14	1285,8
5	100,9	15	919,3
6	3610,7	16	1389,4
7	1037,5	17	1161,7
8	1507,9	18	1015,8
9	1291,9	19	124,2
10	1403,3	20	965,8
Робастное статистическое оценивание
203
На основе приведенных данных найдем обычные оценки средней и дисперсии и устойчивые оценки, учитывающие наличие в данных грубых ошибок.
В исходной совокупности выделяются значения: 100,9; 124,2 и 3610,7; 4020,1. Можно предположить, что эти данные записаны неверно, взяты из другой графы отчетности или, наконец, представляют города с резко отличающимися от основной совокупности своими экологическими характеристиками. Проверим эти данные на «засорение», применив критерий Граббса:
w-iw
897,8	J 897,8
124,2-1349,5	4020,1-1349,5
It =--------------= 1,3о5, 1л =----------------= 2,9/5.
897,8	897,8
В расчетах использованы обычные оценки: х = 1349,5 (х =
= 2 х/п) и <5 = 897,8 (о =
' л V/2
^(х-х)2 In ).
Сравнивая наблюденные значения Г-критерия с критическими для а - 0,10 (см. табл. 5.2), к грубым ошибкам следуетютне-сти только два значения: 3610,7 и 4020,1, для них Тя > Гкр, 7кр = 2,447. Тем не менее очевидно, что два оставшихся значения; 100,9 и 124,2 также значительно отличаются от основного массива данных. Уточним результаты проверки при помощи более чувствительного £-критерия Титьена и Мура; при этом предположительно отнесем к числу ошибок все четыре значения
выделяющиеся в данных:
20
Zfc-x)2
(919,3-1195,8)2 +(965,8-1195,8)2+„ +(1507,9-1195,8)2 (100,9-1349,5)2 +(124,4-1349,5)2 + .+(4020,1-1349,5)2
436462,7
16119810,6
=0,027.
18
Ух,
„	_	,=з	919,3+965,8+...+1507,9
Здесь хи = ——=—-—*— -------------—=1195,8.
п-к'	16
204
Глава 5
При критических значениях = 0,027 (табл. 5.4) все четыре значения, подозреваемые на грубые ошибки, следует действительно признать «засорением» совокупности, так как £„ значительно меньше £о,О5> или 0,027 < 0,221.
Для проведения расчетов устойчивых статистических оценок построим специальную таблицу с данными, систематизированными соответствующим образом (табл. 5.1).
Таблица 5.1. Систематизированные данные об уровне заболеваемости верхних дыхательных путей у детей, проживающих в 20 различных городах
№ п/п	Номер города	Уровень заболеваемости верхних дыхательных путей, на 100 000 детей	Усеченная совокупность данных	Винзориро-ванные дан- ные
1	5	100,9	—	919,3
2	19	124,2	—	919,3
3	15	919,3	919,3	919,3
4	20	965,8	965,8	965,8
5	18	1015,8	1015,8	1015,8
6	7	1037,5	1037,5	1037,5
7	2	1060,2	1060,2	1060,2
8	12	1078,5	1078,5	1078,5
9	17	1161,7	1161,7	1161,7
10	3	1186,5	1186,5	1186,5
11	1	1258,7	1258,7	1258,7
12	4	1263,7	1263,7	1263,7
13	14	1285,8	1258,8	1285,8
14	9	1291,9	1261,9	1291,9
15	11	1307,2	1307,2	1307,2
16	16	1389,4	1389,4	1389,4
17	10	1403,3	1403,3	1403,3
18	8	1507,9	1507,9	1507,9
19	6	3610,7	—	1507,9
20	13	4020,1	—	1507,9
Итого		26989,1	19133,2	23987,6
Средняя величина (х )		1349,5	1195,8	1199,4
Робастное статистическое оценивание
205
В табл. 5.1 наряду с исходными данными приведены результаты расчетов, необходимых для исчисления устойчивых «средних:
• средняя арифметическая простая:
- Ух, 100,9 + 124,2+919,3+...+ 4020,1
х = —— =----------------------------= 1349,5:
п	20
•	средняя, исчисленная по усеченной совокупности данных (средняя по Пуанкаре):
\	1 V	919,3 + 965,8 + 1015,8+... + 1507,9 ,,пго
Ца) =----~ Xх, =-----------------------------=1195,8 ;
п k+i
16
•	средняя, исчисленная по винзорированным данным:
। 6n-k-l	Л
^(а)=- У х, + k(xk+i + xh_k) =
п U+2	J
=	[(919,3 + 965,8 +... +1507) + 2(919,3 +1507,9)] = 1199,4
Как видим, средние значения, рассчитанные по формулам устойчивых оценок Пуанкаре и Винзора, близки по величине, но отличаются от обычной средней примерно на 11%.
По упорядоченным данным табл. 5.1 могут быть рассчитаны и другие статистические оценки: дисперсия, среднее квадратическое отклонение и т. д.
Расчет оценки Хубера в отличие от уже рассмотренных алгоритмов поиска оценок по Пуанкаре и Винзору предусматривает итеративно повторяющиеся вычислительные процедуры.
На первом шаге в качестве исходной оценки 0 выберем простую арифметическую среднюю: 0 =х = 1349,5. При числе ошибок к в выборочной совокупности, равном 4, найдем значение параметра к (£,):к (£) = 0,862.
Для последующего улучшения 9-оценки разобьем всю имеющуюся совокупность данных на три класса. В первый класс войдут значения, незначительно отличающиеся от предварительной оценки 0 (истинные), во второй класс — значения, существенно меньшие величины 0, и в третий класс — значения, существенно превышающие 0. Затем соответствующим образом модифицируем х„ если х, > 0 + к, или х, < 0 - к:
206
Глава 5
	I класс |х, -0| <к	11 класс х, > 0 + к (х, >1350,4)	III класс х, < 0 — к х, <1348,6
Исходные значения		1389,4 3610,7 1403,3 4020,1 1507,9	100,9	1015,8	1161,7	1285,8 124,2	1037,5	1186,5	1291,9 919,3	1060,2	1258,7	1307,2 965,8	1078,5	263,7
Модифицированные значения		1388,5 3609,8 1402,4 4019,2 1507,0	101,8	1016,7	1162,6	1286,7 125,1	1038,4	1187,4	1292,8 920,2	1061,1	1259,6	1308,1 966,7	1079,4	1264,6
Рассчитаем оценку 0 по данным, модифицированным первый раз 0]:
|х,- ()!<А
ё,=-п
Возобновим итерацию по данным, модифицированным да предыдущем шаге:
	I класс |х, -8|<£ 1349,0<х;< 1350,8	II класс х, > 0 + к (х, >1350,4)	III класс х, < 0 — к х, <1348,6
Исходные значения		1388,5 3609,8 1402,4 4019,2 1507,0	101,8 1016,7 1162,6 1286,7 125,1 1038,4 1187,4 1292,8 920,2 1061,1 1259,6 1308,1 966,7 1079,4 1264,6
Модифицированные значения		1387,6 3608,9 1401,5 4018,3 1506,1	102,7 1017,6 1163,5 1287,6 126,0 1039,3 1188,3 1293,7 921,1 1062,0 1260,5 1309,0 967,6 1080,3 1265,5
Для второй итерации оценка 0 будет:
02 =-^(26997,7+(15-15)0,8б2)=1350,3 и т. д.
Очевидно, что для данных, имеющих большой разброс значений, число итераций будет достаточно велико.
Робастное статистическое оценивание
207
В многомерном случае «засорением» совокупности данных уже будут не отдельные значения, а вектор значений, представляющий аномальный объект.
Чтобы удостовериться, что многомерное наблюдение является действительно выбросом, обычно используют расстояние Ма-халанобиса:
d^X-X^^X-x),
где X — вектор признаковых значений, подозреваемых на «выброс»;
X — вектор средних значений для многомерной совокупности данных;
£ — матрица ковариаций.
Критерий Едля проверки гипотезы о существенности отклонения случайного вектора X строится следующим образом:
Для F-критерия существуют числа V[= т и v'2 = п ~ т - 1 степеней свободы. При заданном уровне значимости ос, если FH > Fav v , проверяемое наблюдение действительно признается аномальным. В противном случае, т. е. когда FH <Гал v , отклонение случайного вектора от вектора средних значений считается приемлемым, а гипотеза о «засорении» совокупности отбрасывается.
В случае значительного засорения многомерная совокупность подвергается проверке итеративным способом:
а)	одно из наблюдений, которое предположительно является «засорением», подвергается проверке. Если предположение оправдывается, «выброс» устраняется из выборки;
б)	по усеченной совокупности многомерных объектов определяется новый вектор средних значений;
в)	проверке подвергается следующий объект, повторяются шаги а и б, и т. д.
К выявленным грубым ошибкам в многомерной совокупности можно применять уже известные для одномерного случая приемы обработки данных: их устранение, или винзори-рование.
208	t Глава 5
Выводы — - - "" - - -...... ~ - -............ -	- =
При обнаружении «засорения», или «грубых ошибок», в совокупности данных, т. е. значений, резко отличающихся от медианных, используются принципы проверки статистических гипотез. Наиболее простыми и распространенными являются методы поиска ошибок Граббса, Титьена и Мура. Если в статистической совокупности действительно выявлены «грубые ошибки», то для уменьшения их влияния на аналитические результаты рекомендуется применение специальных приемов обработки данных. Их сущность сводится к одному из двух решений: устранению из совокупности аномальных наблюдений, т. е. усечению совокупности, или модификации резко отличающихся значений с целью уменьшения ошибок в данных. Первое решение представлено в подходе Пуанкаре, второе — в подходах Хубера и Винзора, при этом само изменение данных, направленное на минимизацию ошибки в них, определяется как винзорирование.
Получение устойчивых характеристик статистической совокупности носит название робастного оценивания.
Проверка статистических гипотез и робастное оценивание в экономических исследованиях используются часто как самостоятельные статистические приемы в решении задач оценки качества товаров, оценки адекватности заданным производственным, технологическим, экологическим условиям и т. п. Представленные методы в комплексе с другими статистическими методами позволяют предварительно анализировать наблюденные значения характерных признаков, выявить в них несоответствия и грубые ошибки, провести модификацию данных, повышающую гомогенность изучаемой совокупности.
Вопросы и задачи	г г  --	„ g„.
1.	Что понимается под грубыми ошибками и каковы причины их проявления в статистической совокупности?
2.	Какие существуют подходы при обработке грубых ошибок?
3.	Назовите основные методы устойчивого оценивания параметров выборочной совокупности.
Робастное статистическое оценивание	209
4.	На предприятии за 14 месяцев собраны данные об удельном весе брака в общем объеме продукции:
Месяц	1	2	3	4	5	6	7	8	9	10	11	12	13	14
Удельный вес брака продукции, %	3	4	2	3	14	2	3	8	95	5	3	4	2	4
Используя приемы Граббса, Титьена и Мура, определите наличие грубых ошибок в совокупности данных.
5.	Имеются сведения о размере прибыли, млн. руб. (Л^) и объеме основных производственных фондов, млрд. руб. (Л^) по 16 предприятиям:
Предприятие		^2	Предприятие	*1	
1	15	9	9	22	0
2	20	12	10	7	94
3	380	14	11	18	8
4	-90	68	12	14	6
5	24	15	13	-120	14
6	10	6	14	450	-20
7	8	11	15	16	12
8	11	4	16	9	18
Рассчитайте обычную и устойчивую средние, используя методы Пуанкаре и Винзора, сравните полученные результаты.
При расчетах примите во внимание наличие двух ошибок «снизу» и «сверху» ранжированного ряда данных.
6.	По 10 наблюдаемым объектам имеются данные о средней концентрации загрязняющих веществ в воздухе:
Объект	Пыль, мг/лР	Окись углербда, мг/лР	Объект	Пыль, мг/лР	Окись углерода, мг/ьР
1	0,12	1,2	6	0,27	2,8
2	0,10	1,6	7	0,18	1,1
3	0,16	1,8	8	0,10	1,3
4	0,14	1,7	9	0,16	1,4
5	0,20	3,0	10	0,21	2,9
210
Глава 5
Используя критерии Титьена и Мура, определите наличие грубых ошибок по каждой переменной и рассчитайте устойчивые средние по методу Пуанкаре.
Табулированные значения статистических критериев, применяемых при обработке совокупностей данных с грубыми ошибками
Таблица 5 2. Процентные точки критерия Смирнова—Граббса (Т)
Ns п/п	Доверительная вероятность (1 - а)			№ п/п	Доверительная вероятность (1 — а)		
	0,9	0,95	0,99		0,9	0,95	0,99
3	1,412	1,414	1,414	27	2,749	2,913	3,239
4	1,689	1,710	1,728	28	2,764	2,929	3,258
5	1,869	1,917	1,972	29	2,778	2,944	3,275
6	1,996	2,067	2,161	30	2,792	2,958	3,291
7	2,093	2,182	2,310	31	2,805	2,972	3,307
8	2,172	2,273	2,431	32	2,818	2,985	3,322
9	2,238	2,349	2,532	33	2,830	2,998	3,337
10	2,294	2,414	2,616	34	2,842	3,010	3,351
11	2,343	2,470	2,689	35	2,853	3,022	3,364
12	2,387	2,519	2,753	36	2,864	3,033	3,377
13	2,426	2,563	2,809	37	2,874	3,044	3,389
14	2,461	2,602	2,859	38	2,885	3,055	3,401
15	2,494	2,638	2,905	39	2,894	3,065	3,413
16	2,523	2,670	2,946	40	2,904	3,075	3,424
17	2,551	2,701	2,983	41	2,913	< 3,084	3,435
18	2,577	2,728	3,017	42	2,922	3,094	3,445
19	2,601	2,754	3,049	43	2,931	3,103	3,455
20	2,623	2,779	3,079	44	2,940	3,112	3,465
21	2,644	2,801	3,106	45	2,948	3,120	3,474
22	2,664	2,823	3,132	46	2,956	3,129	3,483
23	2,683	2,843	3,156	47	2,964	3,137	3,492
24	2,701	2,862	3,179	48	2,972	3,145	3,501
25	2,718	2,880	3,200	49	2,980	3,152	3,510
26	2,734	2,897	3,220	50	2,987	3,160	3,518
Робастное статистическое оценивание
211
Таблица 5.3 Критические значения Са-оценки для L- и L'-критериев Титьена и Мура (а = 0,05)
№	1	2	3	4	5	6	7	8	9	10
3	0,003									
4	051	0,001								
5	125	018								
6	203	055	0,010							
7	273	106	032							
8	326	146	064	0,022						
9	372	194	099	045						
10	418	233	129	070	0,034					
11	0,454	0,270	0,162	0,098	0,054					
12	489	305	196	125	076	0,042				
13	517	337	224	150	098	060				
14	540	363	250	174	122	079	0,050			
15	556	387	276	197	140	097	066			
16	575	410	300	219	159	115	082	0,055		
17	594	427	322	240	181	136	100	072		
18	608	447	337	259	200	154	116	086	0,062	
19	624	462	354	277	209	168	130	099	074	
20	639	484	377	299	238	188	150	115	088	0,066
25	696	550	450	374	312	262	222	184	154	126
30	730	599	506	434	376	327	283	245	212	183
35	762	642	554	482	424	376	334	297	264	235
40	784	672	588	523	468	421	378	342	310	280
45	802	696	618	556	502	456	417	382	350	320
50	820	722	646	588	535	490	450	414	383	356
212
Глава 5
Таблица 54 Значения Са -оценки для /Г-критерия Титьена и Мура (а = 0,05)
№	1	2	3	4	5	6	7	8	9	10
3	0,001									
4	025	0,001								
5	081	010								
6	146	034	0,004							
7	208	065	016							
8	265	099	034	0,010						
9	314	137	057	021						
10	356	172	083	037	0,014	>				
11	386	204	107	055	026					
12	424	234	133	073	039	0,018				
13	455	262	156	092	053	028				
14	0,484	0,293	0,179	0,112	0,068	0,039	0,021			
15	509	317	206	134	084	052	030			
16	526	340	227	153	102	067	041	0,024		
17	544	362	248	170	116	078	050	032		
18	562	382	267	187	132	091	062	041	0,026	
19	581	398	287	203	146	105	074	050	033	
20	597	416	302	221	163	119	085	059	041	0,028
25	652	493	381	298	236	186	146	114	089	068
30	698	549	443	364	298	246	203	116	137	112
35	732	596	495	417	351	298	254	214	181	164
40	758	629	534	458	395	343	297	259	223	195
45	778	658	567	492	433	381	337	299	263	233
50	797	684	599	529	468	417	373	334	299	268
Робастное статистическое оценивание
213
Таблица 55 Значения а для расчета устойчивых оценок Т (а ) - Пуанкаре и W (а ) — Винзора
ij	а	ij	а
0	0	0,20	0,194
0,001	0,004	0,25	0,222
0,002	0,008	о,з	0,247
0,005	0,015	0,4	0,291
0,01	0,026	0,5	0,332
0,02	0,043	0,65	0,386
0,05	0,081	0,80	0,436
0,10	0,127	1	0,500
0,15	0,164		
Таблица 56 Значения к = /( О для расчета устойчивой оценки Хубера
	к		к
0	0	0,20	0,862
0,001	2,630	0,25	0,766
0,002	2,435	0,3	0,685
0,005	2,160	0,4	0,550
0,01	1,945	0,5	0,436
0,02	1,717	0,65	0,291
0,05	1,399	0,80	0,162
0,10	1,140	1	0
0,15	0,980		
Глава
V Множественный регрессионный анализ
6.1.	Введение в множественный корреляционнорегрессионный анализ
Корреляционно-регрессионный анализ, как известно, является одним из наиболее широко распространенных и гибких приемов обработки статистических данных. Его появление связывают с именем английского исследователя Фрэнсиса Гальто-на, предложившего в 1795 г. теоретические основы регрессионного метода, а в 1801 г. рассчитавшего с его помощью траекторию полета планеты Церера. Известны также имена Огюста Браве, Густава Теодора Фехнера, Фрэнсиса Эджворта, высказывавших в середине—конце XIX в. первые идеи о количественном измерении связей явлений. В разное время над теорией анализа работали известные в области теоретической статистики ученые: Карл Фридрих Гаусс, Андриан Мари Лежандр, Карл Пирсон и др.
Наиболее простой формой корреляционно-регрессионного анализа являются парная корреляция и парная регрессия. Многомерный анализ, как известно, отличают процедуры обработки множественных характеристик, комплексно представляющих взаимосвязанные признаки (объекты). При этом в множественном регрессионном анализе:
•	исследуется зависимость результативной величины — отклика (у) от нескольких независимых переменных — предикторов (Л,), т.е.
•	выделяется понятие чистой регрессии — зависимости между некоторыми парами предикторов из их множества при условии нивелирования действия остальных предикторов;
Множественный регрессионный анализ
215
•	учитывается возможность наличия тесных связей (когда коэффициент корреляции превышает уровень 0,7—0,8) между парами предикторов, искажающих конечные результаты регрессионного анализа отклика. Это явление носит название мультиколлинеарности, устраняется оно, как правило, одним из двух способов: один из пары предикторов, подверженных мультиколлинеарности, выводится из модели или заменяется другим новым предиктором — новым факторным признаком;
•	существует необходимость установления определенного соотношения между числом наблюдаемых объектов и числом предикторов. Корректное проведение анализа требует обычно, чтобы это соотношение было 6—8 к I;
•	принимается во внимание, что при числе предикторов, превышающем два, графическое изображение результатов регрессионного анализа становится невозможным и Все выводы формируются в ходе формального решения аналитической задачи;
•	в связи с тем, что в множественном корреляционно-регрессионном анализе (МКРА) определяется большое число параметров, проверке на достоверность подлежат не только регрессионная модель в целом, но и каждый из ее параметров, а также всевозможные парные и частные коэффициенты корреляции.
Приведем основные положения теории МКРА.
Парная корреляция. Коэффициенты парной корреляции используются для измерения силы линейных связей различных пар признаков из их множества. При этом учитывается, что связь каждой пары признаков находится под воздействием связей всех других признаков между собой и с признаками из данной пары.
Для множества признаков объектов матрицу парных корреляций R получают в ходе следующих преобразований матрицы исходных данных X.
X^>Z^>Z'Z^>-ZZ = R, п
где Z — матрица стандартизованных значений, ее элементы по-
лучают из хц как ztJ = ——— и Z - ||zy || •
°?
Частная корреляция. Коэффициенты частной корреляции также представляют линейные связи признаков, но при этом во внимание принимается чистая связь пары признаков при условии, что связи всех других признаков с признаками из данной пары не действуют, нивелированы. Элементы матрицы коэффи
216
Глава 6
циентов частной корреляции можно получить по данным известной матрицы парных корреляций R\
Г =__________
4 (4Л)1/2’
где AtJ, Аи и Ау — алгебраические дополнения к соответствующим элементам матрицы парных корреляций R.
Знак коэффициенту частной корреляции присваивается согласно знаку соответствующего коэффициента регрессии в линейной модели.
Коэффициент множественной корреляции Rq представляет собой численную характеристику силы связи отклика со всеми предикторами. Если известна матрица парных корреляций R, то л’/2
R
R^= 1-
R
где | — определитель матрицы парных корреляций;
|яу| — минор к матрице парных корреляций R. В матрице R вычеркиваются строка и столбец, представляющие характеристики связи с у-м признаком, выступающим в качестве отклика.
Коэффициент множественной детерминации R$ — численная характеристика доли вариации признака, объясненной вариацией всех предикторов:
R
-=<V-
лЬ1-
R
Коэффициенты множественной корреляции и детерминации представляют собой оценки силы линейных связей изучаемых признаков.
Коэффициент неопределенности — численная характеристика доли вариации отклика, не поддающейся объяснению вариацией предикторов: R^=\-Rq.
Регрессионные модели используются для представления формы связи изучаемых признаков.
Наиболее простым классом регрессионных моделей являются линейные:
J> = Z>O + ^Xj + Ь2х2 +... + Ьтхт + £, .
Множественный регрессионный анализ
217
Вектор параметров такой модели находят при условии минимизации ее ошибки £ . С использованием метода наименьших квадратов (МНК) легко выводится формула для определения множества параметрических значений Ь/.
•	выдвигаем МНК-требование:
£^2 =£(W)2 ~>о;
•	перепишем Л//7Л’-условие, заменив у на произведение матрицы X и вектора В, т.е. у = ХВ, а множество значений у, представим вектором Y и получим
(Y - XB)'(Y - ХВ)-^0’,
•	выполним операцию умножения и продифференцируем полученное выражение относительно параметра В:
YT-IB'XX + B’XXB-+Q-, ^^~ = -2X'Y +2ВХ'Х -О, откуда
-ХХ = -ВХХ и В = (ХХГ'ХТ.
При определении вектора В матрица исходных данных может
принимать вид Xj или Х2:
*12 ...
*22  х2т
Хя2 хпт ,
Если в анализе используется матрица вида Х{, то в ходе решения регрессионного уравнения находят все bj, кроме Ьо, а затем Ьо вычисляют как разность:
Ьо= у-Х'В*,
где у — среднее значение отклика;
X — вектор средних значений предикторов X =(X\,Xz,...,Xт);
В* — неполный параметрический вектор, В'*=(Ь[,Ь2,...,Ьт).
Если в анализе используется матрица вида Х2, то одновременно находят все множество параметрических оценок, т.е. полный вектор В.
Регрессионное уравнение у = ХВ называют уравнением в натуральном масштабе. Его коэффициенты показывают, на сколь
218	Глава 6
ко натуральных единиц изменится отклик при изменении значений соответствующего предиктора на одну единицу.
Кроме регрессии в натуральном масштабе, может быть построена регрессия в стандартизованном виде:
+	zi]-~---
здесь коэффициенты регрессии показывают, на сколько средних квадратических отклонений изменится отклик при изменении соответствующего предиктора на одно среднее квадратическое отклонение. Построение регрессии в стандартизованном виде предполагает решение системы нормальных уравнений:
Й2 = ₽2 +Рзг32 +---+Pmrm2>
ЙЗ =₽2ЙЗ +Рз +"-+РтйпЗ’
Йт -P2r2m +Рзг3т +"-+Рщ-
Вектор значений р -коэффициентов определяется при известной матрице парных корреляций R просто:
где |/?| — определитель матрицы парных корреляций или определитель матрицы системы нормальных уравнений;
(Л,( — определитель матрицы системы, в которой столбец, включающий неизвестные параметры, заменяется свободными членами системы.
От стандартизованных коэффициентов регрессии всегда можно осуществить переход к коэффициентам в натуральном масштабе:
где о, — среднее квадратическое отклонение значений отклика У;
о7 — среднее квадратическое отклонение значений соответствующего предиктора хг
На основе значений Р7 рассчитывают частные и множественный коэффициенты детерминации:
Множественный регрессионный анализ
219
•	частные коэффициенты детерминации: rj = Руг1у;
•	коэффициент множественной детерминации: = XP/iy •
Хотя линейная регрессия — наиболее удобная и простая форма описания взаимодействия изучаемых признаков (объектов), она далеко не всегда является достаточно надежной моделью для реально происходящих явлений и процессов. В исследованиях поэтому нередко используются нелинейные регрессионные модели, а чтобы избежать сложностей с определением параметрических оценок и интерпретацией регрессионных коэффициентов, такие модели стараются привести к линейному виду и находить их решение по хорошо известной формуле: B=(XX)~lX'Y. В табл. 6.1 приведены наиболее распространенные нелинейные модели, а также показана возможность их преобразования в линейные.
Надежность решений, полученных методами корреляционного и регрессионного анализа. Корреляционно-регрессионный анализ логично завершается оценкой достоверности полученной модели и ее параметрических характеристик, а затем интерпретацией результатов.
В общем числе критериальных оценок надежности МКРА выделим следующие группы.
•	Статистические оценки надежности регрессионной модели в целом:
а)	коэффициенты множественной детерминации и корреляции. Допустимые значения для коэффициента множественной детерминации следующие;
0,01—0,09 — связь отклика и предикторов слабая, теоретически подтверждена недостаточно;
0,09—0,49 — связь средняя;
0,49—1,00 — связь достаточно сильная, использование регрессионной модели в анализе теоретически обоснованно;
б)	MSE — средний квадрат модельной ошибки, MSE =
Наилучшей считается модель с минимальным значением величины MSE;
Таблица 6.1. Избранные нелинейные регрессионные модели и способы их приведения к линейному виду
Нелинейная модель	Преобразование исходных данных для приведения модели к линейному виду	Описание явлений, процессов
Полиномиальная: Ух = а0 + «1*1 + а2х2 + ... + атх™ Линейно-логарифмическая: у = ах°1х°2 ...хатт Экспоненциальная: у - e°0+fllxl+fl2x2+--+flmxm Сложная экспоненциальная: y=l/(l + eflo+01X1+a2x2+- +i,mxm ) Обратная: у = 1/(а0 +а]Х] + а2х2 +...+атх™ )	(„	v2	т	A Хц	х12	...	х1т У* = У; Х*= Х'2 %22	Х"т у	у2	т \л1л	Л2п	•••	лпт у y*=lg(y>; ** = ||й, lgx;y|| У* = In (У); А* = X з “J У* = 1п(У~'-е); X* = У У*= Г1; Х* = X	Гибкая модель для описания разнообразных процессов, меняющих направления своего развития (имеющих точки перегиба) Модель с быстрой реакцией на изменения в данных, описывает процессы с этапами ускорения (замедления) Процессы, имеющие этапы ускоренного (замедленного) развития Процессы, имеющие всплески в развитии, обусловленные постепенным накоплением количественных изменений в прошлом
Множественный регрессионный анализ
221
в)	МАРЕ — коэффициент аппроксимации, или средняя отно-1 |у ~~ сительная величина модельной ошибки, МАРЕ = -5/--------100.
п у
Данный критерий принимает известные пороговые значения:
Оценка МАРЕ. %	Характеристика качества регрессионной модели
< 10 10-20 20-50 > 50	Высокая точность Хорошая точность Удовлетворительная точность Неудовлетворительная точность
г)	F-критерий Фишера,
F (ХВ)'(ХВ)/(т+1)
" (Y-XB)'(Y-XB)/(n-m~l) '
Наблюденные значения F -критерия FH сравнивают с критическими (табличными) при заданном уровне значимости а и числе степеней свободы V[ = m + 1 и v2=«-m-l. Надежность регрессионной модели подтверждается при условии, что FH > Ета6л.
•	Статистическая оценка надежности коэффициентов регрессии:
производится при помощи /-критерия Стьюдента. Для некоторого J-го параметра регрессионной модели наблюденное значение /-критерия определяется по формуле:
?Н(у) ~bj/SJ ’
где — средняя ошибка /-го коэффициента регрессии iy = (5’оСТ -Cjj)V2, дисперсионная характеристика S2CT = (Y-XB)'(Y-— XB)/(n-m-l),a Cjj — это соответствующие (bj) диагональные элементы матрицы (Х'Х)~1, при условии, что X — матрица, расширенная за счет введения в нее единичного вектора, т.е. X = Х2 (см. с.217).
Наблюденное значение /-критерия также сравнивается с табличным при заданном а и числе степеней свободы v = п - т - 2. Значимость коэффициента регрессии подтверждается, когда ?н > «табл- При этом могут устанавливаться допустимые пределы колеблемости статистической оценки /-го параметра:
222
Глава 6
•	^табл^j - bj — bj +	
• Статистические оценки достоверности коэффициентов корреляции:
частные и парные коэффициенты корреляции проверяются при помощи t-критерия Стьюдента:
/н = —Г-Г—.. у/п-т-2 .
При известном пороговом значении /-критерия (/0;Л_т_2) значимость коэффициентов корреляции подтверждается, если > ^табл-
Коэффициент множественной детерминации (корреляции) оценивается с использованием /’-критерия Снедекора:
(п - т)1$
(ОТ-1)(1-Я2)
Значимость Aq считается подтвержденной при Уи > F^. находят по таблицам при известном уровне а и числе степеней свободы Vj = т — 1; v^ — п — т — 1.
В главе изложение материала построено по принципу: от простого к более сложному. Вначале рассматривается простейший случай линейной зависимости двух переменных Y и X , здесь Y выступает как зависимая переменная, определяемая факторной переменной X и случайной ошибкой U: Y = b0+blX + U .
Y характеризуется так же, как линейная функция объясняющей величины X и ошибки регрессии, или как величина, определяемая систематической величиной X и стохастически аддитивной случайной величиной U. В §6.2 показано решение исходной задачи: как на основе известных данных выборочного обследования У, и Л", (/ = 1,2,...,л) произвести статистическое оценивание неизвестных параметров регрессионного уравнения b0, h], а также дисперсии ошибки о2.
В §6.3 представлены методы проверки статистических гипотез, с помощью которых оцениваются качество регрессионных моделей и параметрические значения: Ьо, />,, о2.
В §6.4 теоретические положения обобщаются для случаев с любым числом факторных переменных X , т.е. когда системати
Множественный регрессионный анализ
223
ческая часть объединяет т независимых переменных X: Xj,
Завершающий §6.5 посвящен вопросам распространения выводов теории линейной регрессии на нелинейные регрессионные модели.
В конце главы читателю предлагаются задачи и иллюстративный материал, которые должны помочь более глубокому пониманию и овладению техникой вычислений при использовании методов регрессионного анализа на практике.
6.2. Линейная регрессия — классический случай зависимости двух переменных Ли Y
В регрессионном анализе в качестве исходной рассматривается линейная модель вида:
Yl=b0+blxl +U,,	U,~N(O,<J2), / = 1,2,. ,п,	*	(6.1)
где U, — случайное слагаемое или ошибка модели,
U^Y.-bo-biX,.
Функция плотности вероятностей для случайного слагаемого будет:
f(U,)=-]=^e или /(£/,)=—=е	2^
v2no2	v2no2
Для определения трех неизвестных параметров регрессионной модели bQ,l\ &R и о2 по данным некоторой случайной выборки может быть использована эффективная функция максимального правдоподобия:
t	X	П	п ,
L(z>0A,o2)=L = n/^J=n-^=e	20 •
;=1	;=1 V 2 710 2
Эта же функция после логарифмирования принимает вид:
£(^,61,o2)=£ = -^lno2--!T|£(r,-^-Z>1^)2L	(64)
2о /=1
224
Глава 6
Символом У здесь и в последующем обозначается обычная
п сумма У . /=!
Необходимым условием для параметрической оценки методом максимального правдоподобия является решение системы нормальных уравнений:
ЭА) о2
(2)
о2
<3»
Э(72 2сН 2 (72 Г
Решая уравнения (1), (2) при любых о2 >0, будем иметь:
k YX-Y X ?_у
А — *==—_—=г И ио — / *- th л .
XX-X X
Средние значения переменных X,Y,XY находят по известным формулам:
x=-^xlf r = -yr(, хМу*,2 и =	•
п	и	п	п
Решение дифференциального уравнения (3) по д2 позволяет при заданных модельных параметрах и получить оценку ошибки регрессии:
d2 =	= у^2,
п	п
й^-ь^-ь^.
С определением второй производной для L-функции появляется возможность, используя матрицу Гессе для функции максимального правдоподобия1, обобщить алгоритм статистического оценивания параметров регрессионной модели
1 О матрице Гессе см Пшеничный БН, Данилин ЮМ Численные методы в экстремальных задачах — М , 1975, Фадеев Д К, Фадеева В Н Вычислительные методы в линейной алгебре 2-е изд — М , 1963 (Прим пер)
Множественный регрессионный анализ
225
Пусть И =	(/с,/ = 1,2,3, 9'=(МЛ
OU/
Введем новые обозначения для нормальных уравнений:
М - V,)=о;
=Х(г;-б0-/>л^=о.
Теперь можем построить сайгу матрицу Гессе для вторых производных:
Матрица Н отвечает известному критерию главных миноров для существующего максимума. Матрица МкН характеризуется как матрица моментов:
п
пХ
М =
пХ ) Г 1 X '
___ =п _ ____ пХХ J	XX'
Оценивание параметров регрессионной модели по центрированным данным. Исходные данные, используемые в регрессионном анализе, с целью упрощения вычислений могут быть центрированы, т.е. вместо xv используются отклонения от соответствующих средних значений. Обозначим центрированные величины строчными буквами у, и х,
Xl=X,-X- y,=Y,-Y .
В этом случае формулы для определения модельных параметров преобразуются:
£-У ДУ s2_Zfc-^-^)_Z^2
°! - - --- .., 00 - Г -OjA , О ---------------,
2>(	п п
8 Многомерный статистический
226
Глава 6
U^Yt-b^-b^,.
Введенные при записи параметрических данных символы ~ над буквой соответствуют обозначениям, принятым в эконометрике, на самом деле они могут быть опущены, так как гипотетически А> = 4), А = А > 52 = б2.
Простейшим доказательством правомерности формул для нахождения значений bQ, b\ и о2 служит соблюдение в регрессионном уравнении равенства его левой и правой частей, а также выбор самого решения уравнения методом максимального правдоподобия:
Yi-Y=bQ-bQ+b{Xi-bxX+Ui, Uj~ Л/(0,о2) (/= 1, 2, ..., и) (6.Г)
y^b^+Uj, Ui~ W(0,o2) (/= 1,2, ..., и)	(6.1")
Использование метода максимального правдоподобия в данном случае означает переход к анализу функции L с двумя неизвестными параметрами (^ и о2):
1|И=ь=1Ш=1Ь=<	
'='	;=] ^2ЛО2
Эта же функция максимального правдоподобия после логарифмирования запишется:
о2)- L = -~1п<у2 —-b{Xi)2}.	(6.2')
L 1<5
Статистическое оценивание параметров регрессионной модели методом максимального правдоподобия предполагает построение системы нормальных уравнений:
<2')	=
<3')	=	+ wi-
de 2сГ 2(о2)
Решение уравнений (2') и (3’) относительно Ь} и б2 приводит к результатам, соответствующим анализу функции L для случая с тремя неизвестными параметрами: 4’ А и б2. При этом оценка Ьо может производиться при помощи полученного выше дифференциального уравнения (1).
Множественный регрессионный анализ
227
Первый особый случай: регрессионная модель не содержит параметра Ьо. Если в исходной регрессионной модели отсутствует свободный член Ьо, то задача параметрического оценивания сводится к определению ио2, соответственно как и в случае с центрированными данными:
r^btXi+Ui, Ui~ W(0,o2), (/= 1, 2,	п).
Решение такого уравнения показано выше: п	п
Имея дело со значениями центрированных переменных».-следует учитывать, что их сумма всегда равна нулю:
у, = ° ,	~ ° ’ Т0ГДа как в общем случае, как; правило,
i=i	/=1
и Х^*о-
1=1	1=1
Второй особый случай: регрессионная модель содержит один коэффициент регрессии йрЕсли регрессионная модель содержит только один из двух коэффициентов регрессии Ь{ и не включает , то ее решение сводится к задаче так называемого оценивания средней:
Y^b^+U,, U,~ /7(0, о2) (/= 1, 2, ..., л).	(6.1”)
В этом случае параметр Ьо есть среднее значение случайной величины Y и, определяя среднюю для у(ц), соответственно находим Ьо. Покажем это: пусть случайная величина Y имеет плотность вероятности:
(г-м)2
/(у)=—1=е 2о2 .
^2ло2
Для случайной выборки {yj,y2,-,E„} функция максимального правдоподобия имеет вид:
п	tb-м)2	п
Ь = П-у=— е 2°2	=> Л = -л1п(Т2л)-^1по2-—^Х^-ц)2 .
/=172л<72	2	2(7 '=1
228
Глава 6
иг-^-k-
Экстремальные значения функции L найдем решением дифференциальных уравнений:
Эц о
Эо2-2о2+^2(4 ’°-
Получаем статистические оценки;
д = 4 = £21 = у и = 1=1п	,=1	«	«
Оценивание методом наименьших квадратов. Для нормальных уравнений (1), (2) (см. с. 224) в качестве альтернативных могут быть предложены решения, базирующиеся на значительно более простых исходных посылках. Например, не обязательно предположение об известном законе распределения изучаемых случайных величин X и Y и соответствии этого закона нормальному. Для исходной модели: У, =b0 +blXl +Ut достаточно принять, что ненаблюдаемая ошибка Ut является любой случайной величиной
с математическим ожиданием, равным нулю:
Ф,)=0,
ФА)=
var((7,)=cj2,
cov(tf„tfj=0,
s = i
s,i = 1,2, ,.,n . s*i
По выборочным данным с оцененными параметрами Ь§ и Ь{ ошибка регрессионной модели будет вполне определенной величиной: U, := У, - bQ - blXl.
При этом остается выдвинуть условие минимизации ошибки, что фактически означает выдвижение принципа наилучшей адаптации модели к эмпирическим наблюдениям. Метод, реализующий такой принцип, называется методом наименьших квадратов'.
п
Cta^bLfr-VV,)2 ->Min, ,=1	Wi
или и, '^Y'-bo-btX, , Q(bQ,/>,):= Ji/,2 ->Min.
,=i
Условие минимизации компоненты U, в регрессионной модели означает правомерность построения дифференциаль
Множественный регрессионный анализ
229
ных уравнений для первой производной гипотетической функции:
^- = -^(Y,-bQ~b,Xl)Xl}=G.
О 0{
Для второй производной гипотетической функции 2(^оА) построим матрицу Гессе Н:
н = откуда Я =	Г э2е э2е '	|| и ЬЭ	/**' " S3	ГО -	у ^1	и 4—:—z	M	M 2ч
	Эйр dbg dbg db\ э2е d2Q	
	ч ЭЛ>| dbg ЭЬ1 ЭЬ] п пХ 2М:=2 _ 	 пХ пХХ	
С учетом правила нахождения детерминанта минимизация функциональных величин Q достигается при следующих значениях элементов матрицы Н:
/гн=1>0; hi2 = XX>0;	= ХХ-Х2 <0.
Последнее неравенство называют неравенством Шварца. Зная вторую производную функции Q, статистическую оценку дисперсии ошибки при известных параметрах bQ, b{ можно ус
тановить достаточно просто:
2 = "
,=1 п
Таким образом, статистическое оценивание параметров нормальной регрессионной модели методом наименьших квадратов и методом максимального правдоподобия дает одни и те же результаты.
Метод моментов. Для нормальных уравнений вида 1, 2 (см. с. 224), построенных для линейной регрессионной модели, решения могут быть найдены не только методом максимального правдоподобия или наименьших квадратов, но также методом моментов.
Оставим в силе нестрогие посылки метода наимейьших квадратов (МНК-метода) о существовании некоторого любого
230
Глава 6
закона распределения случайных величин X и Y , и пусть имеются оба первых момента для ошибки модели U , причем объясняющая величина X не коррелирует с U , т.е.
E(X,Us)=0 для всех i и 5 (i,s = 1,2,...,п ).
Тогда имеем исходное регрессионное уравнение вида: г^о+ьл+и,,
после перемножения левой и правой частей данного уравнения на X, имеем:
X,Y, = b0X, + biXlXl +и,х,.
В первом регрессионном уравнении просуммируем все наблюдения и заменим эмпирические моменты теоретическими:
п	п и
е(у)=Ьо+Ь1е(х)+е(й)^У=Ь0+Ь1Х .
Для второго регрессионного уравнения получим аналогичные результаты:
-^x.y,	+-2Ж;
п	п	п	п
г(уу)= b^X^E^ e(xu)~ XY = b0X +b(XX .
Тем самым оба первых регрессионных уравнения получают новую форму записи — через математические ожидания случайных величин. Теперь последовательно найдем статистические оценки параметров Ьо, Ь}, о2:
£х2 XX-XX п^
Обратная регрессия. Многообразие существующих подходов в оценивании параметров регрессионной модели позволяет рассматривать случай, когда вместо стохастической определенности, предполагающей нормальное распределение и причинную обусловленность случайных величин (X u U определяют Y), согласно принципу лезвия Оккама постулируется просто, насколько это возможно, линейная связь1. При этом становится возможным анализ так называемой обратной регрессии.
1 Принцип лезвия Оккама — принцип минимальной достаточности (Прим пер)
Множественный регрессионный анализ
231
Пусть имеет место исходная регрессионная модель: •
Y, = bQ+bxX, +Ut, E(U,)=0, ^(U,)=e(u2]=g2 ,
cov((7;,Us}=E(jJtUs)= 0 , /*5.
Очевидно, что данную модель можно переписать с учетом замены зависимой переменной с Y на X :
X, =^+b{Y,+Y, , £(И,) = 0, var(Z()= £(и,2)=р2,	(6.3)
cov(K„Kj=£(K, Иу)=0, i*s.
Модель вида (6.3) будет обратной относительно исходной модели (6.1).
При условии использования данных, отклоняющихся от средних значений (т. е. центрированных данных) xt Xt-X , у, :=У, - У, или в векторной записи
х' = (х1,х2,...,хл), у' = {ух,уъ...,Уп},с U’ = ^X,U2,...,U„],
V'^VbV2,...,Vn),
и при следующих определениях для оценок случайных «величин, параметров и ошибки:
у;=6]Х, х-.-Ь{у, U:=y-y, V:=x-x
найдем модельные параметры для обычной регрессии:
l\= — , bQ^Y-b^X , б2= — х'х	п
и соответственно для обратной регрессии:
b\ = —, bo =X-blY, р2=^—^-.
у'у	П
Так как в регрессионном анализе используются многочисленные приемы статистических исчислений, представляется важной апробация его алгоритмов вручную. Отметим, что практически на всех больших и малых вычислительных машинах имеется программное обеспечение, реализующее разнообразные методы регрессии. В то же время на небольших массивах данных расчеты могут быть проведены и без технических средств.
Пример 6.1. Пусть имеются данные случайной выборки:
{(У,,%,)},/=1,2,3,4 и {(60, 10),(75, 20),(85, 30),(100, 40)}.
Определим неизвестные параметры для обычной регрессии:
4 = Z£ = ^2 = 13 4=7-6,1 = 80-1,3 25 = 47,5, х'х 500	1
232
Глава 6
= 1,25
.2 U'U 5
О -----= —
п 4
и для обратной регрессии
= °’765 ’ 4' = * -	= 25 - 0,76>8й - -36,2,
у у 850	“ ’
р; = "=^=0,735.
п 4
6.3. Свойства статистических оценок параметров регрессионной модели
При формировании суждений о статистических оценках линейной регрессии весьма важным представляется подход Гаусса — Маркова
Подход Гаусса — Маркова. Утверждение', статистические оценки параметров Ьо и Ь{ являются наилучшими, линейными и несмещенными (правило НЛН, или по общепринятой аббревиатуре, — BLU).
Прежде всего отметим, что Ьо и Ь{ — наилучшие оценки, так как алгоритм их вычислений определяется при помощи оптимизирующих методов: максимального правдоподобия и наименьших квадратов.
Свойство 1: Линейность статистической оценки Ь{
Оценка есть линейная функция наблюдаемой величины Y :
-b г . ХхЛ ЙЕХ Xх/7/
1" Xх? ~ Xх? ~ Xх-2 ' Xх? ’
так как £х( =0 (центрированные значения).
Введем обозначение:	, тогда 4 = XWA •
Lxi
При этом имеем: У и>, = 0 , так как Хх/=°> X w,2 =	2 ’
Хх<
^Xw(x(=l, ХИ’/^<=1-
Множественный регрессионный анализ
233
Имея в качестве исходной модель вида: У, =Ь0 и принимая во внимание, что =0 , ^w,x, =1, запишем *
К=^Хи'1+лХи'Л+Хи’(^=bi+Yuiwi >
т.е. оценка является линейной функцией от зависимой переменной У( и ошибки модели £7,.
Свойство 2: Оптимальность математического ожидания оценки Ь\
Свойство 3: Оценка by имеет наименьшую дисперсию
var(A) =	-E(by)]2j =	-by]2j = E^wJJ,}2 =
= £(и>]2Ц2 +w1m>2£/1£/2 + . + wlwnUlUn + + W2WlU2Ul	+- - + w2w/f^2^«+
+ • • + И’Х2) =
+ КпК{ипи{ +wnw2^n^2	+ - + wn^n
= E	и?Ж2] = <?2Хw,2 •
Предположим, что имеется некоторая линейная оценка й, , отклоняющаяся от таким образом, что весовое значение w, необходимо скорректировать на величину dt:
by = £(w, +dt)У, = £с,У, , где с, =w,+d,
При этом для математического ожидания Ьх остается в силе:
Е^Е^с,^ + ЬуХ, +и1)}=Ь0^с, + b^c,X, ^c.E^U^
= +bl^clXl =b{, и весовые коэффициенты с, и d, сохраняют свои свойства:
£С(=0; £сЛ=1 и Х4 = 0; £фХ,=1.
234
Глава 6
Следуя определению xt как центрированной величины, имеем:
YdiXi = 'УДД +^)= H,dixi + XYdi = YdiXi '
Таким образом, для дисперсии можем записать:
var(&[)=	— с учетом несмещенности;
var(&] )= E '^JciUt ]2	— с учетом линейности;
var(?J=£ +^)С(]2}=.Е'{^£и'(С; +£d(C(]2}— принимая во внимание, что с,- = н>; +dt.
Из приведенных равенств следует, что дисперсия параметра Ь{ может рассматриваться как некоторый линейный оператор математического ожидания над суммами значений определенных случайных величин и имеющий стохастическую природу:
£(i/,)=0, E(fJtUs)= о2, если i = s, и E(UjUs)=0 , если i*s, таким образом, получаем
ИЬи’/^< +££/А]2}=о25>2 +<*21Х2 = varjdj+o2^/ .
Доказательство свойств для параметра Ь$ строится аналогично.
Смещенность оценки дисперсии ошибки регрессионной модели.
Утверждение', статистическая оценка
б2 =-Х(^' ~b\xit не совпадает с истинными значения-п
2
МИ (Г .
Гд Доказательство'.
Из U, = Yi-Yl = Y,-tb-blX, и Y^bo+biXi+Uj, U, - tfffto2), следует й, = - 4 + (l\ - 4 )у,- +£/,-.	'
С учетом того, что Y = b0 +blX+U и bo-Y -Ь{Х , получим 1% -Ьц + (b\ -b^pf = U .
Тогда U, = (&! - b{ \Xj - X)+U; - U и
i/,2 = (&i - Ь. J2 (Т,- - f J2 + (V; - uf + 2^ - b. \xi - х\и, - );
£^2	-t)2 +х(г/; -f/)2 +2^ -x\ui-u)=
=(*1 - J zfc -	+z k -u I2+2h - h	(x> - *)-	- *)] 
Множественный регрессионный анализ
235
Так как	и ]>>(*, ~т)=0, бу
дем иметь
£С2 = -Ь^(х,-Х? +£((/,-U? -2^ -^Х(Т, -т)2 =
Чтобы перепроверить предположение о смещенности оценки -2 с , найдем ее математическое ожидание:
=1£Й)+хФ2)-21Ф/^)-°2 =
/  \ 2	।	I
= na2+nE\U2 --УЕ U2+SU.U, -о2 =
\	i*s )
= пс2+пЕ и}+Ъи<и>
i*s
--l
п L i*s
-<72 =
п
= п<з2-—У E\U2\-'X e(u}U2) -о2 =па2-—па2-0-о2 = (л-2)о2 . п L	J "
Очевидно, что несмещенную оценку о2 можно рассчитать по формулам:
1 п	1 И
л-2;=1	п-21=
Распределение и критериальная проверка надежности статистических оценок параметров регрессионной модели. В соответствии с подходом Гаусса — Маркова при оценке параметров регрессионной модели выдвигаются следующие предположения:
bo~N \b0,-^~
I n2-,xi J
I п2 b,~N\
Г2>2.
Так как о2 остается величиной неизвестной, произведем замену и вместо дисперсии ошибки будем рассматривать оценки ее математического ожидания, которые можно получить из анализа распределения %2 -статистики, а также двух t -статистических распределений Стьюдента, каждое из которых имеет число степеней свободы п-2:
236
Глава 6
ZW());“ И) ~^() ) ,	~ {п-2 и 4^1)-= У>1-^1)-;-?«-2 >
a,lw	°
z := Z~T >	'= Y>-bo-biX, ИЛИ U, = у,-b.X,, Z ~ %п-2 •
сг
Симметричные доверительные интервалы с доверительной вероятностью 1-а. Известный закон распределения статистических оценок параметров Z?o, bh и о2 позволяет легко для них устанавливать доверительные интервалы и критериальные характеристики надежности. При допустимом уровне ошибки в выводах, равном а, и уровне доверительной вероятности 1-а будем иметь доверительные интервалы:
•	для параметра
t>0 ±?а/2^
b0 + ta/2
b0 ~fa/2
♦ для параметра Ь{
Ь\ ±^а/2
b\ + tal2
•	для дисперсии ошибки регрессионной модели о2: а2 (и-2) б2 (л-2)
2	’ 2
Хи-2,1-а/2 Хп-2,а/2
Статистические гипотезы для Ьо, и а2. Знание представленных выше статистических критериев и предполагаемый уровень вероятности допустить ошибку в выводах (а) позволяют сформулировать следующие решающие правила:
Симметричные гипотезы: Семейство гипотез имеет вид:
: bQ = t>Q против Н{:
Но. b1=bl против Н{  ф Ь] \
И0 : о2 = Oq против //,: о2 .
Множественный регрессионный анализ
237
Гипотезы этого же семейства, записанные для существующих доверительных интервалов, будут:
Схема проверки статистических гипотез во всех случаях остается общей:
Левосторонняя критическая область (критическая область 1)
Статистика (критерий)
Правосторонняя
< критическая область (критическая область 2)
Односторонние статистические гипотезы:
Но: Ь0>Ь0 против На: ^<£0;
Но : b{ > Ь\ против На : bl<b];
Hq : о2 > против На : о2 < Оц, и
Но : bQ < Ьо против На : b0 > bQ ;
Но : b\ < против Ha :	;
Hq : о2 < Gq против На: <52 > Gq .
Гипотезы этого семейства для определенных доверительных интервалов будут:
PHQ k-2,a - f(b0 )] = 1 - а ;
Лг0 к-2,а 4^1 )]=!-«;
Хп-2,а
РН0 кл-2,1-а
< (^~2)б2 = G2 <г(У]=1-а;
РНо к-2,1-а - {(Ь1)]-1 ~а ;
238
Глава 6
рнй
у2 < (^-2)д2
ли-2,1-а - п О
= 1 -ос.
Схема проверки статистических гипотез:
Доверительная область < Статистика (критерий).
Примеры определения доверительной области и критериальной проверки статистических гипотез. По данным примера 6.1 проведем проверку параметров регрессионной модели в соответствии
с изложенными выше правилами
Пример 6.2. Определим доверительный интервал для пара-
метра bQ
ОС
при заданном уровне значимости а = 0,05 (— = 0,025 и
а.
1- — = 0,975):
К/ц =^0“ <2,0,975^^ >	+/2,0,975^ ] =
= [47,5-4,3 1,0897,47,5 + 4,3 1,0897] = [42,8142, 52,1858],
здесь о2 = °	= 1,25 3000 = 1,875, д- =1,0897, г2 о 975 = 43.
А° 4 500 °
Пример 6.3. Найдем доверительный интервал для дисперсионной оценки о2 при а = 0,10 (у = 0.05 и 1—у = 0,95):
„ f 62(и-2) о2 (п -2)1 Г 2 1,25 2 1,25
а2 ~	2	’2	~	2	’ 2	”
Хл-2,1-а/2 Хл-2,а/2	%2,0,95 %2,0,05_
2,5 2,5 5,99 ’ 1,03
= [0,4174, 2,4272]
Пример 6.4. Проверим при а = 0,01 гипотезу Но -Ьх =0 с альтернативной гипотезой Я] -Ьх * 0. Согласно правилу проверки нулевая гипотеза отбрасывается, если:
Ы 1,3
----> С-2,1-а/2 <=> Т- > С,0,995 <=> 7Г77 > 9,92 ,
СУ г	СУ;	0,Од
И
Множественный регрессионный анализ
239
здесь б? = > °	= 0,0025 , б; = 0,05, /2,0,995 = 9,92.
1 ж-лу 500
Нулевая гипотеза отвергается, так как наблюденное значение /-критерия больше критического, /н > /кр.
Пример 6.5. Проверим при а = 0,05 гипотезу //0 :Ь{ >1,5 с альтернативной гипотезой Я| 7>i <1,5.
Согласно правилу проверки нулевая гипотеза не принимается, если Но <=> ". -1 < t„_2 а. В нашем случае имеем: /2 о 95 - -2,92 , %
_	4-А 1,3-1,5
а наблюденная величина критерия ——- = ----— = -4 и нулевая
0,05
гипотеза отвергается, так как /н < /кр. Можно констатировать, что = 1,3 существенно меньше = 1,5.
6.4. Статистическое оценивание методом наименьших квадратов — обобщения на случай матричного представления линейной регрессии
6.4.1. Применение МНК при решении линейных регрессионных моделей
Обобщим ситуации, проанализированные в §6.2, 6.3. Вместо уравнения (6.1) рассмотрим случай, когда число экзогенных переменных (факторных признаков) равно двум или больше двух, т.е. т>2:
У, = Yxubj +ui > E(ui )= 0 >	o2v„ , М = 0,2, . ,п).
j=l
Последняя формальная запись регрессионной модели (6.1) при помощи простых преобразований может быть легко специализирована или, напротив, обобщена с целью отображения большого числа встречаемых в реальности разнообразных явлений и процессов. При этом всегда будем иметь т > 1 параметров (коэффициентов), подлежащих оцениванию, в систематической части модели регрессии. В простейшем случае оценивается (на
240
Глава 6
пример, методом наименьших квадратов) только т параметров bj, в других, более сложных, случаях, учитывающих стохастическую природу регрессии, дополнительно определяются случайная компонента о2, представляющая величину ошибки модели (и), и параметр случайной компоненты v. При решении перечисленных задач целесообразно использовать матричное представление данных. Возникающие на начальном этапе при переходе к матрицам некоторые сложности, связанные с введением новых обозначений (например, вместо У, используется обозначение у,), в последующем не будут препятствием для понимания теоретического материала. Легко убедиться, что матричная запись сравнительно проста, существенно экономичнее обычной, более наглядна. Кроме того, работа с матрицей приобщает исследователей к общепринятой в научном мире символике и накопленному интернациональному опыту по систематизации и обработке больших массивов статистических данных.
Матричное представление регрессии. Линейная регрессионная модель (6.1), отображающая в том числе и линейность своих параметров, записывается в матричном виде следующим образом:
y = Xb + u, E(u) = 0, cov(w)= Е(ии') = о2И ;	(6.4)
y&Rn, X<=Rn’m, rg(x)<m<n, b eRm , ueR", 0eRn ,
Ke/?"’", o2gR++
и V с P есть неединичная, положительно определенная матрица. В формуле (6.4) приняты обозначения:
рГ
Уг
Уз
^12 ^22 4<52
Хп2
••• х3т
пт у
Выше рассматривался частный случай многомерной регрессионной модели, когда
Множественный регрессионный анализ
241

£/2
Различие регрессионных моделей может в значительной степени определяться различием матриц ковариаций V .
Расширенные представления о ковариации остатков регрессионной модели. С учетом возможного появления остатков (ошибок) регрессионной модели (U) логично предположить существующие между ними взаимосвязи. Последние находят отображение в матрице ковариаций (cov£7). Состав элементов covC
позволяет выделять дополнительно ряд стандартного вида моделей: гомоскедастичных, гетероскедастичных, с эквивалентной корреляцией остатков и авторегрессионные. Рассмотрим эти модели. Чтобы упростить ход рассуждений, предварительно примем, что общее число остатков (ошибок) модели (к) равно числу наблюдений (п) : к = п.
Гомоскедастичная модель. Гомоскедастичностью называется случай постоянства дисперсии случайной компоненты. Предполагается, что величина U не меняется от наблюдения к наблюдению. При этом ковариации остатков модели для различных наблюдений не рассматриваются, считается, что все = 0:
{yeR" , XeRn>m, т<п, beRm, £’(и) = 0,
cov(w) = Е(ии')= V = о2In , о2>о},
	W)	£(и]М2) .		*	"о2 0 .	.. 0 '
	4"гм1)	42) .		f	0 о2	0
и =		£(илм2) •	 ^л) у	= о2/„ =	° •	 <
Здесь V — скалярная матрица. Общее число параметрических оценок модели будет: 1 = т + \, т. е. т оценок для регрес-
242
Глава 6
сионных коэффициентов bj и оценка дисперсии о2. Гипотетическое предположение о равенстве дисперсий остатков и соответствующий ему алгоритм решения модели являются классическими и в регрессионном анализе используются чаще всего. Для поиска модельных параметров при этом может применяться метод наименьших квадратов без каких-либо модификаций.
Гетероскедастичная модель. Гетероскедаетичностъю называется явление, когда дисперсии случайной компоненты U по наблюдениям принимают различные величины. Ковариаций остатков модели, как и в предыдущем случае, не предполагается (0(/=О):
{yeRn , XeRn’m , т<п, beRm, E(u)=0, cov(u) = Е(ии'} - V = diag(<yy)};
f°n ° - О A
О О 22
cov(w) = V =
0/(- >0 (/ = 1, 2,
о о ... ол„;
где V — неотрицательная диагональная матрица.
С учетом различия дисперсий остатков оценке подлежит 1 = т + п параметров — по числу коэффициентов регрессии т и дисперсий остатков модели о((.
Модель с эквивалентной корреляцией остатков. Данный случай дополняет понятие гомоскедастичности. Он допускает возможность коррелированности остатков регрессионной модели оу?ь0, но одновременно предполагается, что уровни связей остатков одинаковы и равны некоторому числу а, а с целью соблюдения требования положительной определенности матрицы ковариаций остатков налагается ограничение 0<а<1:
{y = Xb+u, E(u) = 0, cov(u)~ Е(ии')= V = а2А ,
A-(l-a)l + аЕ = (1-а)/п +aE„t„ , 0<а< 1};
Множественный регрессионный анализ
243
Ч а
а 1
ee.Rn, ее'=; Епп е R'! n.
{а а а ... 1J	W
Число параметров, оцениваемых в регрессионной модели;
I - т + 2 .
Авторегрессионная модель. Имеет вид:
у = Xb+u<^>yl = Х1Ь + и1, где / = 1,2, ...,п , или
Авторегрессионная модель представляет случай коррелированное™ наблюдений, например, во времени (последующее событие часто зависит от совершения предыдущего).
Согласно элементарным рассуждениям матрица ковариаций для остатков модели, учитывающая их авторегрессионные связи, строится следующим образом:
Г 1	р	р2 ... р"~р
р	1	р ... рл-2
cov(«) = V = Е(ии') =  ? А, А = 1-Р	..................
<P"-‘	р«-2 ри:’ ...	1 у
Статистические оценки модельных параметров, полученные методом наименьших квадратов (МНК-оценки). Выше нами принималось исходное предположение только о нормальности изучаемой регрессии. Дополним его условием оценивания параметров регрессии методом наименьших квадратов. Такой подход наиболее ясно представляет основополагающие идеи регрессионного анализа.
Оценивание методом наименьших квадратов, как собственно и проективное оценивание методом моментов, осуществляется
244
Глава 6
на основе важнейшего предположения о гомоскедастичности стохастической структуры регрессионной модели:
y = Xb+u, E(u) = 0, cov(w) = E(uu')= с21 или
у,=Х,Ь+и1 (/ = 1,2,
«), •£(«/) = °, E(uiUs) =
о2 J = s
О ,i*s-
Количественная определенность МНК-оценок не предполагает даже существование математического ожидания и ковариаций остатков регрессии, гипотетически они полагаются равными нулю.
Алгоритм оценивания методом МНК при использовании матричной формы записи выглядит весьма кратким и включает только два шага:
Шаг 1. Определение основополагающего требования метода наименьших квадратов — минимизации остатков регрессионной
модели:
->min L = (y-Xb) (у-Ай)—>min . b	b
Шаг 2. Оптимизация оценок параметров регрессионной модели.
Процесс статистического оценивания предусматривает выполнение ряда условий, необходимых для достижения в решении задачи экстремума. Эти условия в общем определяются четырьмя простыми правилами дифференцирования матриц1:
Пусть /(х) — любая функция:
дифференцирование постоянного вектора а
f(x) = a, a&Rn , — = 0, aeRn , 0<=Rn;	(6.5)
дх
дифференцирование линейной функции вектора а
f(x) = a'x = x'a , aeR" , x&Rn,	-а', a&Rn;	(6.6)
дх дх
дифференцирование линейной функции матрицы А с правосторонним умножением на вектор х
f(x) = Ax, AeRm’n,xeRn, — = А, AeRm’n;	(6.7)
дх
1 См., например, Dhrymes. 1978 Die Ableitungsregeln fur Matrizen (Драймес П Дж Правила дифференцирования матриц. Нью-Йорк, 1978). Прим, пер
Множественный регрессионный анализ
245
дифференцирование симметрической квадратичной функции матрицы А
f(x)-x'Ax, A&Rn,n, А = А', x&Rn,
^^ = 2х’А, A eRn’n, x&Rn.	(6.8)
Эх
С учетом действия четырех правил дифференцирования (6.5) — (6.8), применяя метод наименьших квадратов, получим наилучшие оценки bj для параметров регрессионной модели Ь}:
— = -2у'Х + 2b'XX = Q=> 'b -[XXy''Х'у. д b
МНК-оценки как матричные проекции. Одной из предпосылок реализации метода наименьших квадратов является нестрогое предположение о МНК-оценке как проекции. Известно, что проекция yeRn вектора y&Rn на матрицу XeRn,m характеризуется двумя важнейшими свойствами: линейностью и ортогональностью. Эти же свойства постулируются и для оценок beRm:
y-Xb, beRm	(линейность),
(у - у)1 X <=> у'Х = у'Х	(ортогональность).
Принимая во внимание шаги (1) и (2) алгоритма оценивания, получим МНК-оценки: из Ь'ХХ = у'Х следует b = (ХХ)~'Х'у. Последнее равенство позволяет рассматривать сумму остатков регрессионной модели с точки зрения возможности ее разложения, точнее говоря, разложению может быть подвергнута сумма квадратов ошибок модели:
(y-Xb}(y-Xb)=s2n + (b-b) Xx(b-b),
b := (X X'y, s 2 ~ ~ (у - Л®) (y - Xb).
Тем самым устанавливается, что параметрические оценки s2 и Ь являются минимизирующим решением для функции наименьших квадратов.
Оценивание методом наименьших квадратов и линейное программирование. Описанные выше шаги (I) и (2) алгоритма метода наименьших квадратов могут рассматриваться как некоторые
246
Глава 6
фрагменты общей теории квадратично-линейного программирования:
Фрагмент 1
МНК-оценка для b в у = ХЬ + и есть b = (ХХ)~1Х'у .
□ Доказательство: Исходное условие
L = (y-Xb)'(y-Xb) —> min ,
ь
тогда
L = (у - Xb)' {у - Xb) = у 'у - у 'ХЬ - Ь’Х' у + b’X Xb = у'у -2y’Xb + Ь'ХХЬ ;
= 0-2у'Х +2Ь’ХХ = 0 <=> у'Х = Ь’ХХ <=> Xty = дЬ
= XXb==>b = (XX)~lX'y.U
Результат, как видим, полностью соответствует решению методом наименьших квадратов.
В случае с линейным программированием вывод опосредуется предположением, что ранг матрицы исходных данных X равен числу анализируемых признаков т, т. е. все признаки, определяющие размерность выборочной совокупности данных, линейно независимы. В действительности такая теоретическая посылка представляется слабой.
Обобщения для метода моментов как инструментария статистического оценивания. Теория метода наименьших квадратов позволяет делать широкие обобщения и рассматривать моменты в качестве особенных инструментальных приемов оценивания регрессии. Будем исходить из модельного равенства, записанного в матричной форме:
у = Xb+и .
Умножим обе части равенства слева на X', затем сократим запись, сохранив детерминированную часть модели и опустив случайную компоненту Х'и. После этого поиск параметрического вектора Ь сводится к решению простой алгебраической задачи оценивания методом моментов:
X’ у = XXb => b = (XX)~} X'у.
Идея обобщения сводится к операции сквозного перемножения модели на некоторую (любую) матрицу Z и определению
Множественный регрессионный анализ
247
ожидаемой статистической оценки таким образом, чтобы нивелировать влияние случайных возмущений:
= ZXb =>b~ (ZX)~lZ' у .
Это так называемое обычное оценивание при помощи инструментальных признаков. При сравнении с исходной моделью следует обратить внимание, что здесь мы имеем дело не с некоторой экзогенной, а с дополнительной величиной, выступающей как некий новый инструментарий.
Пример 6.6. Статистическое оценивание параметров уравнения линейной регрессии
Чтобы легче было производить расчеты, используем уже полученные выше результаты решения примера 6.1, и будем строить только те матрицы, которые необходимы для определения параметров Ь,:
по условию имеем
*1
z2
Хп)
Z2i
У12'
*22
'1 10'
1 20
1 30
J 40,
XX =
4
100
100'j
3000
<47,5
Ь-(ХХ)~}Х'у =
I 1,30
, \ 1>5 (XX)~} =
1-0,05
-0,05'
0,002
<320''
8650^

248
Глава 6
Некоторые особые случаи регрессионной модели, не включающей константную величину Ьо (Приемы оценивания средних величин для простейшей модели с одним уравнением). Теоретические выводы, полученные в предыдущих параграфах главы, могут быть наглядно представлены на простом примере регрессионной модели с одним объясняющим (факторным) признаком = При этом легко обнаруживается связь с другими методами оценивания, например, с методом максимального правдоподобия, а также появляется возможность продемонстрировать различные подходы к оцениванию средних величин для элементарной модели с одним уравнением.
Случай 0: Модель с одним факторным признаком
Модель общего вида
\у = ХЬ +и, у eRn, X е Rn,m, E(u) = 0, cov(m) = g2/} сужается до
{y = Xb + u,b = bx,y&Rn,X&Rn’L&X-=xeRn, E(u)=0, cov(«) = o2z}.
Методом наименьших квадратов получают оценку:
г - ( ,	, х'у у'х
Ь[ = )1 = (хх) ху = — = — . х'х х'х
МНК-оценки как проекции. Альтернативную оценку для модели в случае 0 особенно легко представить как проекцию. Так, проекция у е R” вектора у е Rn на вектор x<=Rn характеризуется двумя основными свойствами:
а)	у - е R	— линейность,
б)	(у - у)1х у'х = у'х — ортогональность.
Посылка а) в б) дает результат: у'х - 1\х'х:.Ьх = — .
х’х
а у'х
Оценка Г -— есть не что иное, как МНК-оценка. В осо-х'х
бом случае, если модель в правой части имеет только одну константу Ьо, в силу вступает условие равенства вектора значений факторного признака х единичному вектору: х = е, где е' = (ill. j) — единичный вектор и тогда Ь{ =р = у- —.
е’е
Приведенная спецификация рассматривается в теории статистики как простое усредненное оценивание и одновременно как
Множественный регрессионный анализ
249
важнейший канонический случай. В дальнейшем это станет очевидным при сравнениях полученной оценки с максимально правдоподобной оценкой.
Случай Г. Оценивание одной средней величины и дисперсии — канонический случай (Нормальная регрессия с одним параметром).
В регрессионной модели обычно предполагается нормальное распределение остатков
у, = Xlbl +и, =ц.,+и,, при ut - Л/(о,о2)
(выдвинутое условие о нормальности распределения ст2 не обязательно для МНК-метода, см. выше).
E(ut) = 0 * #(у,) = ц; £(и,м5)=£’(у/у,) =
2
<5	I = S
О	I ф S
Функция плотности вероятности нормально распределенной случайной величины записывается как:
(x-Н)2
/(х)=-==е 2°2 .
^2ло2
Следуя правилам метода максимального правдоподобия, оценку параметров нормально распределенной величины получим при непосредственном дифференцировании функции l(u,g2 ):
п
2 ехр -
(ч-ц)2  2а2
^2ло2
\п
ехр
п
-и)2
2о2
(”~1)о2 2о2
2о2
"	1
1
при условии достижения экстремумов:
Эр
3L л
и --— = 0 ИЛИ, что
Э(72
то же самое, для прологарифмированной функции максимального правдоподобия: — = 0 и -^- = 0. Решая систему диффе-Эц Эо2
ренциальных уравнений, получим:
250
Глава 6
•	оценку средней и смещенную оценку дисперсии остатков
Д:=х = -£х. и б2 :=? = -£(х;-х)2 , «/=] «/=1
•	скорректированную (несмещенную) оценку дисперсии остатков
1 п
Принимая б2 := s2 и Д := х, сделаем соответствующую подстановку и перепишем функцию максимального правдоподобия:
ь(д,б2j = (2лег2 )~2 exp^-	'
Полученные оценки s2 и х максимизируют функцию ь(д,б2):
d2L	п( , Г Л-1А п
Э2б2	2	V 2 J
Обобщения для регрессионной модели, имеющей т > I параметров. Параметрические оценки, полученные методами максимального правдоподобия и наименьших квадратов, полностью согласуются. Такой теоретический результат следует при распространении приведенных выше выводов на регрессионные модели с числом параметров т > 1.
Обратимся еще раз к функции максимального правдоподобия и запишем ее логарифм:
ьМ=П/Ы=ГЬ=е = г=1	<=1^2лсг
(^2ло2 J	\	2°	>
l(m2)=-- 1п(2ло2)-X-{y-Xb){y-Xb).
2 '	' 2сг2	.
Последовательным дифференцированием функции £|/>,о2) по
b и о2 получим результаты, совпадающие с МНК-оценками:
— = 0=эЬ = (ХХ)~1Х'у и -Ц- = 0=>б2 =? = — (у-А») (y-Л»).
ЭЬ	fa2	и
Множественный регрессионный анализ
251
Вывод о согласованности оценок, найденных методами МНК и максимального правдоподобия, не является универсальным, подтверждаемым во всех возможных случаях. В этом можно убедиться, рассмотрев следующие три варианта усредненного оценивания.
Случай 2: п — средних и одна дисперсия.
Если каждое наблюдение характеризуется константной величиной, но остается предположение о соответствии ее распределения нормальному закону, метод максимального правдоподобия оказывается неприменим, это пример так называемой пере-параметризации [116, с. 114].
Пусть имеем модель вида:
{у g Rn ,Х g Rn,m, X = 1„ = 1т, т = п, ц' = (ц]Ц2 -Цл), Ц & Rm,
£(w)=0, соу(и)=(72/}, у, = Xjbj+Uj =p.j+и, и w( ~ w(o,c72),';
fo2 i = s
£(«<) = °* £(у,) = ц; Е(и,иJ = E(ytyJ = 1
0 i Ф s.
Используя метод наименьших квадратов, имеем b = р = (XX)~l Х’у = Гу = у = р, т = п — линейность оценки,
- ц	— оптимальность оценки,
cov(p)=cov(y)=	}= Е(ии')= <з21т = а21п.
В то же время для оценки о2 > 0 в силе остается необходимое условие:
~£(Л -Ц)2 = о ст2 = о,
ni=l
т.е. оценивание параметра становится невозможным.
Метод максимального правдоподобия приводит к аналогичным результатам:
после логарифмирования !nL=:Z выдвигаем необходимые условия
(6.9)
252
Глава 6
Поясним возникающую проблему перепараметризации. Общее число параметров в данной ситуации составляет « + !('), их оценивание для исследователя становится весьма непростой задачей, если учесть, что функция максимального правдоподобия
гипотетически имеет вид:
_1___
2 лет2
Ll
L =
ехР~—(Pz-Hi)2 > . 2о
и дает оценки
л=|1,.<=и. Л и ^>-^4
п
Подстановка оценки ц в формулу для б2 приводит к равенству б2 = 0, а это бессмысленный результат, поскольку действует предположение 0 < о2 < °°.
Объяснить подобный парадокс можно, рассматривая плотность вероятности функции максимального правдоподобия. После подстановки |1, и о2 в функцию L получим:
L ~ -	------ ехр , lim L —> оо .
т е функция максимального правдоподобия дискретна и стремится к бесконечности.
Случай 3: Оценка одной средней и п — дисперсий.
Предлагаемая спецификация может рассматриваться как случай, в некоторой мере противоположный предыдущему:
в модели у = ХЬ + и имеем
{у е Rn, X е R"’1, X &еп, т = 1, ц е R, Е(и} = 0, cov(w)= diag(p2)},
yt =Xlbl +и,=ц,+и, (и и, ~ Л/(о,с72) не обязательно, см. выше),
Е[щ) = 0 * E(yJ = ц,
0 ItS
Множественный регрессионный анализ
253
Здесь возникает как бы обратная задача — оценивание одной средней и п дисперсий против п средних и одной дисперсии, как это было в случае 2, т. е мы имеем дело с гетероскедастич-нocтыo•
у, =ц + и,, и, ~ w(o,o2), i = 1,2, ,п.
Основная трудность в оценивании параметров регрессии при этом обусловливается невозможностью применения метода максимального правдоподобия:
»	1 -Ato-M)2
П7-Че '
;=1 y2lt0(
после подстановки inL = L и дифференцирования будет
|4 = 0=>f^ = 0,	f (6.11)
,=1 <*;
2£ = _J_+_L(>,( _и)2	=(у(-ji)2,	(6 12)
Эо, о; о;	(
подставляя результат из (6.12) в (6 II), получим:
Лй = 1-^ = 0.
,.1Л “И
Последнее уравнение относительно ц вообще не имеет решения и, кроме того, функция /(ц) дискретна.
Иллюстрация. Пусть имеется три наблюдения у = {-1,0,1}, тогда
е. .	!	1	1	1-ц3
f (ц) —----1-----1----—-----------.
-1-ц 0-р 1-ц р(1+р)(1-ц)
На интервале [—2; 2] функция /(ц) принимает вид (рис. 6 1)
На графике в двух точках пересечения с осью абсцисс, где у = 0, параметр ц принимает значение ц12 =±-^= = + 0,57735.
Случай 4: п оценок средних при известных дисперсиях
Рассмотрим в заключение еще один случай, когда для модели у = ХЬ+и принимаются следующие предположения:
{уей", XeR*’1, X =еп, т = 1, цей, Е(и)=0, cov(w)-diag(o2)}. t
При условии, что значения всех дисперсий о2 известны, переходим к так называемому варианту оценивания по Айткину
254
Глава 6
(подробнее см. пп. 6.5.3, 6.5.4). При этом вместо исходной модели вида у,-=ц+и; оценивание производится по трансформиро
ванной модели:
у,	1	ui
Zi=Xjii +Vj, Zi~—, Xj-—, v;:=—.
О,-	О/	<5 j
Метод наименьших квадратов при этом позволяет получить результаты:
E(uj)= Е(у))= 0, var(w;)=o2, var(v;)= 1 = о2.
Отсюда соответственно будем иметь оценку средней:
. .	1	У,-
" 1	’
jp 1 /=1 °;
/=1
Предложенный теоретический вывод представляется весьма важным. Следует учитывать, однако, что практика далеко не всегда подпадает под известные правила. Например, в каждый момент времени может производиться более одного наблюдения, скажем, некоторое равное число наблюдений более одного. Такое условие приводит к модели с усредненным оцениванием при многократно повторяющихся сериях наблюдений — для ка-2 ждого (У, .
Множественный регрессионный анализ
255
К рассмотренной двухпризнаковой модели, представляющей связи величин X и Y , относится понятие парной корреляции, в последующем остановимся на этом подробнее1.
Количественная определенность корреляционной связи в регрессии с двумя параметрами. Регрессионная модель, имеющая два параметра, имеет стандартный вид:
Yj = b\ + b%Xj + Uj Yj =	+ b[Xj + Uj
4^ Yj £ /?, Xj € R. ^1,^2 £ R', Uj g R, Yt R, Xj € R't b^ b\ ; b^ := />2 j
{y, =bXj +u„ у/ :=Yj-Y, xs := Xj - x}<^> {y = bx + u},
yl e R, Xj e R, b e R, Uj e R; у e Rn, x e Rn, и e Rn.
Статистические оценки параметров b e R (величин beR) определяются на основе известных теоретических выводов о том, что:
г у'х .	. „	- у’х ,	, V
й =—, м:=у-у, y.= xb = x—, yx = \yjXj, xx=\xsxs .
XX	XX	j	*
Существующая линейная связь х и у при этом имеет количественную определенность и может быть измерена:
х'у , У'х
г2 ,= Уу = bx’xb = р х'х = 1с;хХХ^х = (х>)2	= У'± = Х'У
У'У У'У У'У У'У х'ху'у ь1 У'У У'У'
Замечание 1. Переход к обратной регрессии.
Обратная регрессия подразумевает отображение связи признаков в модели вида: х; = Ьйу( + v;, соответственно имеем:
дО У X „ ла £0 У х	y’	,
Ь = —, v:=x-x, x.= xb - х—, у х = ^yjX,, у у =	,
УУ	У У j	У
У'х , х’у
Г2 ~	= b°y'yb0 уУ_= у’у^_ У'У = (х>)2 г2 = /X _ х'у_
х’х х’х х’х х’х х'х-у’у ^о2 х'х х'х
1 В отечественной литературе связь только двух изучаемых признаков обычно
определяется как простая (простая корреляция). Связь двух признаков из их комплекса при условии действия связей всех пар признаков в комплексе называется парной (парная корреляция). Наконец, если выделяется связь двух признаков из их некоторого множества при условии, что все другие парные связи признаков этого множества нивелированы, то такие связи называются частными (частная корреляция). — Прим. пер.
258
Глава 6
В другой ситуации, при совершенной мультиколлинеарности, когда x = b°z и y = bz, числитель коэффициента об
ращается в нуль
х'у
Рху PxzPjy ~ i-------
4х х у'у
bz'z bQbz'Zj
- Рху Ф
одновременно, в силу некоррелированности х и у, появляется необходимость в делении рх? на нуль, что невозможно Таким образом, случай частной корреляции двух переменных при условии полной связи каждого из них с третьей переменной с точки зрения количественной определенности рассматриваться не может
Приведем примеры для иллюстрации теоретических выводов
Пример 6.7. Пусть имеются некоторые гипотетические данные четырех наблюдений-
X	У	Z
0,5	1	1
5	4	2
7	9	3
15	16	4
В ходе расчетов получим р™ = 0,9835, р„ = 0,9692, pv. = 0,9844 , а также рх>,и =0,6773, рх>г1>, =0,0362, ркг1х =0,6992 Обобщая аналитические результаты, построим матрицы дю значениям всех трех переменных
Множественный регрессионный анализ
259
₽У	X	У	z
X	1	0,9835	0,9692
У	0,9835	1	0,9844
z	0,9692	0,9844	1
Рц/к	X	У	z
X	1	0,6773	
У	0,6773	1	0,6992
z	0,0362	0,6992	1
P« P</A	X	У	z
X	1	0,9835	0,9692
У	0,6773	1	0,9844
z	0,0362	0,6992	1
Обратим внимание, что достаточно сильная парная корреляция х и z (pxZ = 0,9692) наблюдается при малой величине частной корреляции двух переменных, исключающей воздействие третьей переменной у • рХЛ/у = 0,0362 Объяснение подобной закономерности находится просто, при более детальном анализе связей трех любых переменных и исчисленных по их значениям коэффициентов частной корреляции- РХ1,Х2/Хз,рХ1,Хз/Х2> РХ2,Хз/Х1
Наличие корреляции переменных предполагает существование линейных моделей, отображающих форму их связей-
^1 = ^1,3 + ^1,3^3 + vl,3 или vl,3 = ^1 ~<Й,3 ~А,3^3 =х1_^13хз;
2^2 ~ <22 з + зА'з + V2 з ИЛИ 3*23 — Ху ~ @2 3 ~ ^2 3^3 ~ х2 ~	3Х3
V[,3V2,3
Рх1,*2/х3 - / , I, - Pvbv2 -
Vvl,3vl,3 Vv2,3v2,3
Xj =	2 + 2^2 + 2 ИЛИ V[ 2 ~^1~^]2~^2^2~-^[~^1 2% 2 *
JT3 ~ ^3 2 ^3 2^2 + v3 ИЛИ V3 2 ~ -^3 ~^3 2 ~~ ^3 2^2 “ ^3 ~~ ^3 2^2 И
v12v3,2
Pxi,x3/x2 - I	ГГ- -Pvi.vj ’
Vvl,2vl,2 Vv3,2v3 2
%2 =^2,l + ^2,1^1 +v2,l или v2,l - %2 ~^2,I	= x2 ~h,lxl J
А'з = ay j + b3 lXi + V31 или v3>1 = Лд-<23,1 - 63,1^ = x3и
260
Глава 6
v2,lv3,l
Рх2,х3/Xj -	I ;	 - Pv2,v3 •
VV2,1V2J VV3,1V3,1
Согласно логике расчетов оценка ошибки регрессионной модели v есть центрированная величина и из	:= pXk<Xj следует
Pxi,xj/xk =Pv/>vy,T.e. частный коэффициент корреляции представляет корреляцию ошибок соответствующей пары линейных регрессионных моделей:
г x'z	f	y'z
Чз =: V1 =*1 ~ *1,3*3 =*-И v2,3 =:v2 = *2-*2,3*3 =У-------
zz	zz
В заключение запишем основные выводы:
,	,	(x’z?	x'x-z'z-x'z-x'z
Vj V! = x x - -—— -----------------;
z’z	z'z
,	(y'z?	x’x-z'z-y'z-y'z.
zz	zz
,	,	x'y z'z-x’z y’z.
v2V] = г, v2 =-----------;
z'z
_ x'y-z'z-x’z-y'z
••Pxbx2|xj Px.j'lz - I—,---------—	;-------— •
Jyyzz-y zyz y/xx zz-x'z-xz
Пример 6.8. Имеются данные:
X	2	3	3	4	5	5	6	6	6	7	7	8	8
У	2	2	5	3	3	6	4	5	7	7	8	7	9
Z	1	2	4	5	3	5	6	7	5	7	9	8	10
Построим матрицу парных и частных коэффициентов корреляций:
\pv7A: Р/2 \	X	У	Z
X	1	0,208	0,673
У	0,832	1	0,488
Z	0,908	0,869	1
Множественный регрессионный анализ
261
Свойства статистических оценок. НЛН-свойства по Гауссу-Маркову1. Утверждение. Оценка параметра регрессионной модели b , полученная методом наименьших квадратов, является наилучшей линейной и несмещенной (НЛН).
□ Доказательство: Согласно методу наименьших квадратов b = X'у . Зная, что у-ХЬ + и, можем равенство относительно b переписать в виде:
b = (ХХ)АХ'(ХЬ + и) = (ХХУ'ХХЬ + СХХГ1 Х'и = Ь + (ХХ)~1 Х'и ,
отсюда следуют выводы о линейности и несмещенности оценки Ь:
е[ь]= Ь + (ХХ)~1 Х'Е(и).
Так как X — величина нестохастическая и не коррелирует с и, имеем:
Определим матрицу ковариаций для оценок параметров рег-рессионой модели b:
= (ХХГ1Х'Е(ии')Х(Х'Х)~1 =о2(ХХ)~1ХХ(ХХ)-1 =<з2(ХХ)~1.
То, что оценка, найденная при помощи метода наименьших квадратов, обладает наименьшей дисперсией относительно других линейных несмещенных оценок, подтверждается ее сопоставлением с некоторой гипотетической величиной Ь* .
Пусть Ь*-Ну, тогда
Ь*=Ну = НХЬ + Ни и E(b*)=HXb.
Здесь, по предположению, Н — это МНК-оценка плюс некоторая матрица константных значений С, определяющая отличие Н от (Х'Х'Г'Х’:
Н = (ХХ)-1Х'+С.
Несмещенность статистической оценки требует, чтобы НХ = I, значит
НХ = (хх)-\хх)+сх = 1+СХ :.НХ = 7 <^СХ = 0 .
1 НЛН — наилучшая, линейная, несмещенная оценка статистической величины
(BLU — bester, linearer und unverzerter Schgtzer). — Прим. nep.
262
Глава 6
Положительная определенность ковариационной матрицы, построенной исходя из условий существования b *, становится очевидной при разложении этой матрицы на составляющие, т. е. декомпозиции ее элементов: дисперсий и ковариаций:
E{b*-b\b*-Ь)\= Е^Нии'Н')-Е^ХХ)~{ X'+ с\ии'\х{ХХ}~1 + С'])=
= о2[(ХХ)~1 ХХ(ХХ)~1 ^-(ХХ^ХС' +СХ(ХХ)~1 +СС']=
= е>2(ХХ)~1 + о2СС'.
СХ = 0, как установлено ранее, XX и СС' положительно определены в силу собственных конструктивных особенностей. Но если СС’ — положительно определенная матрица, дисперсия Ь* всегда будет больше или равна дисперсии b, так как разность двух ковариационных матриц даст также положительно определенную матрицу. 
Замечание 1. Эффективность'. Оценка b по сравнению с любой другой является линейной и несмещенной оценкой для b. МНК-оценка есть также НЛН-оценка и полностью отвечает ее свойствам — она наилучшая, линейная и несмещенная.
Замечание 2. При переходе от регрессионной модели с двумя параметрами (т = 2) к модели с любым числом параметров более двух (т = 1,2,..) теоретические подходы к доказательству свойств статистических оценок и формированию выводов об их надежности по Гауссу—Маркову сохраняют свою силу.
Распределения статистических оценок. Методом наименьших квадратов получают b = (хх)~‘Х'у. Это означает, что оценка дисперсии остатков модели может быть исчислена по отклонениям:
б2=-^-, у = у(ХХ)~1Х’у, й-у-у.
п-т
Оценки био2 при этом статистически независимы и в основном описываются следующими двумя видами распределений:
t -распределение параметра b : b ь
t(bt)=-^==:~tn-m> i =	т с числом степеней свободы:
v = п-т-,
Множественный регрессионный анализ
263
9	* 2
% -распределение параметра о :
й'й 2
Тт Хл-Л1 • о
Здесь S’’1 — f-e диагональные элементы обратной матрицы моментов, т.е. (ХХ)~1.
Параметр b имеет п -т — число степеней свободы и подчи-няется закону t -распределения, параметр сг — закону %2 -
распределения.
Отметим, что теоретические выводы сделаны на основе простейшей двухпараметрической линейной модели (т = 2), одновременно осуществлен переход от двух показателей кросспроизведений S1’1 (i = 1,2 для т = 2) к обратной матрице моментов (ХХ)~1 и к оценке дисперсии б2 как средней характеристике
ковариации модельных остатков.
Пример 6.9. Обратимся вновь к данным из §6.3
1,5 -0,05'
-0,05 0,002/
47,5'
. и/
Рассчитаем оценки регрессии при условии расширения мат-
рицы предикторов, т.е. перейдем от
( 60 А
10
660
т-2
(1 10
к случаю, когда т = 3: 2/
75
85
100
20
30
40
2,57759
-0,0413793
-0,431034
75
85
100
-0,0413793
0,00206897
-0,00344828
20
30
40
-0,431034Л
-0,00344828
0,172414
48,7931'1
1,31034
-0,517241
У =

(XX)"' =
3
1
1
1
5
2
Ь =
£ =
б2 = 0,862069.
264
Глава 6
Как видим, алгоритм решения задачи по построению регрессионной модели в общем не изменился. Соответственно этому обычным способом можем также проверить гипотезу о существовании некоторой другой экзогенной величины, незначительно отличающейся от оценки параметра 62 • Пусть а = 0,01, прямая гипотеза выдвигается для равенства: = 0, или Но :Ь2 = 0 , против альтернативной гипотезы	Согласно правилу проверки
статистических гипотез нулевая гипотеза отбрасывается, если
|^2-й2о|	|^21
но -	> tп-хх-а/г —>^1,0,995 <=>
°i>2
, ....	^31,03? $ ?ф0 995 = 63,7.
70,00206897 70,862069
Тестовое неравенство не выполняется, соответственно прямая гипотеза Но не может отбрасываться и следует признать, что значение Ь2= 1,31034 при заданных а = 0,01, т = 4 и т = 3 несущественно отличается от Ь2 = 0.
Трансформации регрессионной модели. Для рассмотренных случаев статистического оценивания регрессии важно отметить, что на практике довольно часто встречаются специфичные типы моделей, для которых принципиальные подходы Гаусса—Маркова становятся недействительны. Далее при изложении теоретических вопросов о трансформации регрессионной модели и репараметризации ее ограничений этой проблеме уделяется больше внимания.
Оценивание методом наименьших квадратов с обобщениями (трансформация и оценивание по Айткину, репараметризация данных). Оценивание по Айткину требует нетрадиционных формулировок и введения новых обозначений. Вместо y-Xb + и будем рассматривать Ру = РХЬ + Ри , где Р задает исходное условие оценивания для метода наименьших квадратов с обобщениями P'P = V~{. При этом оценка параметра b представляется следующим образом:
b = (Х'Р'РХ)-1 Х'Р'Ру = (хГ~1хУ XV~ly.
Чтобы наглядно показать значение метода оценивания по Айткину, в последующем тексте приведены примеры, а также
Множественный регрессионный анализ
265
объясняются общие принципы трансформации данных, которые не отвечают GLS-условиям (условиям оценивания методом наименьших квадратов с обобщениями)1.
Линейная трансформация и оценивание. При линейных преобразованиях данных соответствующим образом трансформируется и рассмотренный метод статистического оценивания. Так, при переходе от y-Xb+и к Ру-РХЬ + Ри с Р — некоторой величиной, полученной при трансформации данных и принимающей ранговые значения, формальная оценка параметров регрессии изменяет свой вид: b = [Х'Р'РХУ' Х'Р'Ру .
Обратим внимание, что после трансформации данных, а затем введения GLS-условия ограничения, заложенные в подходе Гаусса—Маркова, становятся необязательными.
Из большого числа существующих приемов трансформации данных приведем два простейших: первый предполагает предварительное умножение матрицы исходных данных на некоторую диагональную матрицу, второй — центрирование исходных данных. Эти виды трансформации имеют важное теоретическое значение и более подробно рассматриваются ниже.
Переход к центрированным данным, дешкалирование статистической величины. Пусть для обычной линейной модели с одним уравнением:
у = ХЬ + и, Е(и) = Ъ, cov(w) = E{uu')=V, u,yeRn, XeRn’m, beRm имеем центрированные данные, т. е. все значения признаков уменьшены на величину средней. При этом могут рассматриваться три различных случая:
1.	Новые шкальные значения (другой масштаб) получает объясняемая величина у:
Z,=y,- У, i = 1, 2,..., п, у - £ .
,=1п
2.	Новые шкальные значения приобретает объясняющая (экзогенная) величина X :
ху:=Х1}-Х}, i = l,2,...,n, Xj-X.j-^!-, j =
i=l n
1 GLS-условие (generalized least squares) — условие для метода наименьших квадратов с обобщениями. (Прим пер.)
266
Глава 6
3.	Новые шкальные значения по отклонениям от средних получает статистическая величина и :
_	_	11 и
v, := и, -и, i = 1, 2,п, и = У — .
,=1 п
Третий случай имеет только теоретическое значение, так как величина модельной ошибки и реально не наблюдается.
Использование в качестве исходных данных центрированных значений признаков позволяет наглядно продемонстрировать процесс последовательной трансформации данных с использованием некоторой определенной матрицы М:
М := Iп-е-~, М М = М2-М, Ме = 0, е'М = 0, e' = (ll...l), rg(M)<«-l. п
Конструктивно матрица М есть идемпотентная и, кроме того, ортогональная по отношению к собственным векторам е.
Использование М для центрирования данных представляет одну из основных областей приложения идемпотентных матриц и одновременно особый случай проекционной матрицы:
, Г ао'	,
А = 1п----, aeR (а = е или ate).
а'а
При этом сами исходные данные для построения регрессионной модели записываются весьма просто:
Z' = (z}Z2-Z„), У' = (У[У2-УП\ «?' = (111...1Х Z,y,eeRn
и для трех случаев центрирования исходных данных имеем:
Z - У - еу <=> Z = Му	e'z = 0 е Я,
Xj = Xj -Xje <=> Xj = MXj	it e'Xj =0eR, j = 1,2,...,/я <=>
x = MX	&e'x = 0eRl’m,
v = u-ue <^>v = Mu	e'v = Q.
Как видим, суммы значений новых, центрированных, признаков как бы исчезает, становятся равными нулю. Причем равенство нулю выступает правилом и может служить элементарной проверкой корректности выполнения операции по трансформации данных.
Для особого случая, когда в матрице исходных данных первый вектор есть величина постоянная (см. выше для одновременного определения параметров регрессионного уравнения Ь}
Множественный регрессионный анализ
267
и константы Ьо в матрице исходных данных первый признак Х{ представляется единичным вектором), имеем:
:= Х.{ '.= boe, bQ е/?\{0} и х, = Л/Т[ = ЛАое =/>0Л/е = 0 е/?" .
Другими словами, при центрировании данных первый вектор (единичный) трансформируется в нуль-вектор и из модели устраняется. Если же в модели для центрированных данных константа Ьо все-таки появляется в ходе расчетов, то ее следует рассматривать с учетом двух последующих замечаний.
Замечание 1. Обычная регрессионная модель, включающая свободный член (константу — bQ), при ее параметризации может быть представлена с учетом векторной записи матрицы исходных данных следующим образом:
(м
7=1
+ и, Е(и) = 0, Cov(w) = о21п.
\^т /
Если вектор-столбец Х1 в матрице X представляет значения
признака, дополнительно введенного для определения константы t>Q, т.е. является единичным вектором, то получим привычное представление модели:
У-ebi +XfjbQ +и, bQ:=(b2bj...bm\ X :-(е Хо), и после трансформации посредством центрирования с использованием матрицы М будем иметь:
Z = xb0 + v, £(v) = 0, cov(v) = E(vv') -,Q&Rnn, rgQ - n -1, где v,z&Rn, x e Rn,m~l, vgx < m-\, b^-={Ь2,Ь2,. ,.bm\ bQ&Rm~^.
Из приведенных выше аксиоматических положений следует, что трансформированная матрица ковариаций Q является единичной и имеет искаженное ранговое число, также равное единице. С учетом ортогональности е и М можем записать:
£(v) = 0, cov(v) = М соу(и)М' М .
Таким образом, если в случае центрирования исходных данных появляется константа Ь§ , то это фактически означает нару
268
Глава 6
шение гипотетического распределения случайной величины и. Альтернативный подход, позволяющий устранить такие нарушения, рассматривается в замечании 2.
Замечание 2. Введем требование, что первоначально трансформация распространяется только на систематические величины у и X, а после трансформации исходных данных — также и на случайную величину и. Тогда модель приобретает вид:
Z = xb0+v, E(v)=0, cov(v) = о2In =: 0 е Rn’n, igQ = n,
v,zeR",xeRn'm~l, rgx<m-l; bQe.Rm~l.
Обратим внимание, что модели в замечании 1 и замечании 2 различаются.
6.4.2. Репараметризация вектора модельных параметров
Кроме центрирования данных, другим весьма существенным моментом, обусловливающим решение проблем трансформирования данных и реформирования моделей, является репараметризация модельных параметров. Остановимся на ней более подробно.
Пусть в обычной линейной модели вектор b трансформирован y-Xb + u, £(u) = 0, cov(w) = о2/;	(6.13)
b=Zy, beRm, yeR^zeR"’1, b-+y:Rm, 1<т .	(6.14)
Сделаем подстановку из (6.14) в (6.13) и получим: у = (XZ)y + и <=> у = Ху + и.	(6-13)'
Используя метод наименьших квадратов до и после трансформации, будем иметь:
Ь = (хх)~1Х'у, для (6.13),
^(ZXXZ^ZXy и b ,= z(zxxzyxZX‘y = Zy для (6.13)'.
При этом закономерно
rg Z < rg X, rg(zXXZ) < Min(rg(Z), rg(Z)), т.е. основанием для репараметризации является сокращение числа модельных параметров. Соответственно трансформационная модель (6.14) предполагает оценивание меньшего числа параметров (у вместо й,/<т).
Множественный регрессионный анализ
269
Иллюстрация 1: Лаг треугольника: увеличение или сокращение?
, J	. . „ fl 2	т -1 т 1
J т + 1	(т + 1 т + 1	т + 1 т + 1)
. т + 1-j . , „ f т т-1	2	1 1
X .=------, J = 1,2,...,т <=><-,---,...,-,----к
J m+1	т+1 т+1	т+1 т+1|
<=> у = XZy+u <=> у, == Х,у+и„ X, := ^X^jkj, X е R"’m ->XZ = Xe R”'1.
j=i
Иллюстрация 2: Лаг Альмона: лаговый подход при задании т опорных точек. Пусть имеем	~ некоторые извест-
ные реальные числа, не равные нулю, причем эти числа являются не обязательно равновесными при задании опорных точек. Матрица репараметризации тогда может принимать вид:
	"1 'i	ii		
	1	‘2	'2	•		
II. N q: T s o:	1 6	'3	/-1 '3	/-1 6 Rw,‘ «9» p S'/y* **	•
	•			, J=°
	,1	‘m 	• lm 7	
Тем самым модель у = ХЬ+и, редуцированная по числу пара-
метров, записывается как:
y = XZy+u+^y = Xy+u, X eR,n’n -+Х eR1’”, beRm -+bQeRl, 1<т.
Иллюстрация 2.1 (дополнение): Лаг Альмона с равными интервалами.
Пусть в числе экзогенных переменных имеются переменные с различной скоростью изменения (например, с замедлением) их значений:
I	г
у- Xb+u++yt = ^X^jbj +w(, m = / + l, Ь} - ^ysjs, r<l ++b = Zy,
j-Q	j-0
270
1
Глава 6
r ~ ~
У) =	+и/ У = (xzh+u оу = Ху+и.
s=0
При условии, что число опорных точек {/}={';} у = 1,2,г,
общее количество модельных параметров, подлежащих оцениванию, может быть сокращено с т = 1 + 1 до г+1.
Иллюстрация 3: Распределенный лаг в модели Койка, лаг бесконечной величины.
Предположим, следует произвести оценивание линейной мо
дели с одним уравнением:
Л- = Y,ajx<-j+u^yi =a0xi+alxi_l+a2xi_2+a3xi_3+...+u,,	(6.15)
7=о
=а0, b2=al,..., bj-aj... /-><».
Подобная модель, имеющая бесконечное число параметров, в общем не подлежит статистическому оцениванию. В то же время при помощи подхода репараметризации Койка число коэффициентов регрессии может быть сокращено весьма существенно, скажем до двух, а затем, оценено:
aj = bcJ (у = О,1,2,3,...), b>Q, 0<c<1<=><2q =b, ax=bc, a2=bc2,
a3 - bc\.{j = 0,1,2,3,...),
у;=б£с7х,_у+и,.	(6.15')
7=0
1 При лаговой инвариантности из (6.15) следует
У/ = Ьх,- + bcxj-x + be2 Xj_2 + 6c3x,_3 • • ,
су;_! =bcxl^j+bc2x^2+bc3xl_3---+aii^l
Множественный регрессионный анализ
271
и в общем виде
у, -cy,4=bXcJX/_j-Ьс^с}х1Л_} +ui-cui_l=bxl +и,--си,^ .	(6.16)
у=0	7=0
Сжатие модели с любым исходным числом параметров до двухпараметрической модели носит название метода Койка или трансформации Койка:
у, = bx, +cyi_l +и, -си,_х « у,- = Vi +62у,_] +v„ vz :=«, -си,^ . (6.16’)
Собственно это обычная модель с одним уравнением, вклю-
чающим два параметра, для оценивания которых могут использоваться различные методы. Например, приложение методов
GLS-оценивания в данном случае требует использования матрицы ковариаций остатков модели и, х считается величиной, ли-
нейно независимой от и о2,
0,
£(«,)= 0, Е(м,мг)=
и одновременно гомоскедастичной: z — г
i + r.
Исходя из предположения о стохастичности и, можем для v
записать:
Е^-си,^)2 = <у2(1 4-е2
E(v,)=0, е(у,уг)=-
E[(u, - \ur - CUr_{)]-
i = r
-co , / = r±I
О, в других случаях.
При этом ковариационная матрица cov(v)=o2E в развернутом виде будет:
	''l + c2	-с	0	0	0	
	-с	1+с2	-с	0	0	
	0	-с	1+с2 .	0	0	
						= т (1+с2,1+с2,1+с2;-с
	0	0	0	-с	0	
	0	0	0	’. 1+с2	-с	
	< о	0	0	-с	1+с2?	
272
Глава 6
В дальнейшем доказательство нашего исходного предположения получим в результате непосредственного обобщения теоретических выводов, например, для £(v,v/-i), если объясняющие признаки Xj и )>i_i коррелируют с ошибкой модели, то:
Е(УМ_1)=Е
I 00
V у=0
= E^-cUj-iUj-i )= -со2 .
Аналогично можно получить и другие показатели.
Иллюстрация 4: Оценивание с лагом: процесс сжатия формы регрессии (VAR!р! -процесс), реализуемый для простейшей линейной модели.
а) Специализация модели процесса редуцирования (сжатия) регрессии, или AR!р! -процесса, имеет вид:
Л = ',1Л-1+Г2Л-2+ЗД-з+-+^Л-/’+мг’	var(«,) = o2.
В сущности данная модель может рассматриваться как гомо-скедастичная, для которой существуют два различных случая:
j = yeR", XeRn'p, b = reRp, E(v)=0, E(w'}=V = a2l} и
z = yeRn~p, XeRn~p,p, b = rERp, E(y)=0, K = o2/n_J.
Принимая во внимание область определения переменных и учитывая принятые ранее обозначения, построим производную модель первого порядка для EAR -процесса (EAR/U -процесса):
zi=Rzt^+vi,
f У1 '
Л-1
Л-2
>1 г2
1	О
О	1
/з
О о
гр-2 рр-1
о	о
о	о
ГРУ 0 0	> Л =	0 0	,г =	<2
Приведенная модификационная модель определяется эндогенным вектором z и матрицей исходных данных X . На основе
Множественный регрессионный анализ
273
исходной модели можно получить следующие важные теорети-
ческие выводы:
1) задавая величине р стартовые оценки (ум, Ум> У/-з,---, У/-р), будем иметь:
Л		( Ум	Ум	Ум	-	У1-Р+1	Ур-р
У/+1		У1	Ум	Ум	- У,-р+2	У)-р+1
Ум	, х =	Л'+1	У/	Ум	 У/-р+3	У.-Р+2
Ум-1,		Ум-2	У/+Л-3	Ум-4	Ум-р	Ум-р-
2) допуская замену стартовых оценок значениями эндоген-
ной переменной (yh yl+i, у,-+2,--, yt+p-i), перейдем к сокращенной в сравнении с предыдущим случаем модели для тех же z и X:
г У1+Р		У1+р-1 У1+р-2 У/+р~3
У i+p+\		У1+р У1+р-\ У1+р-2
У1+Р+2		У i+p+1 У i+p	Уi+p-\
Z —	. ,Х =
Ум
Ум
Ум
Ум
Ум

^i+n-2 У/+П-3 Ум-4 ••• УМ-р У i+n—p—\
y = Xb+u, y = zeRn-P, X eRn~p,p, b = reRp.
6.4.3. Параметрические ограничения для регрессионной модели
Обзор случаев с параметрическими ограничениями. Параметрические ограничения с учетом аксиоматических положений оценивания по Айткину имеют силу и для обычных, и для модифицированных форм регрессии. Основополагающим при этом является предположение априори о линейных ограничениях для
274
Глава 6
модельных параметров. Будем различать следующие случаи ограничений:
1)	нуль ограничения,
2)	гомогенные детерминированные ограничения1,
3)	общие линейные детерминированные ограничения,
4)	общие линейные стохастические ограничения.
Введение ограничений и их учет предопределяют изменения форм регрессии и существенно увеличивают потенциальное число вариантов оценивания методом наименьших квадратов. В качестве одного из таких вариантов, например, можно рассматривать случай 4, принадлежащие ему алгоритмы позволяют имеющуюся некоторую стохастическую систему как, собственно и модели, представленные в п. 6.4.6, привести к стандартному виду (см. п. 6.4.1). Теоретической основой подобной трансформации выступает подход Гаусса—Маркова, определяющий статистические свойства параметрических оценок b (п. 6.4.1, с. 264). Все это еще раз указывает на широкий спектр практического приложения метода наименьших квадратов.
Исследование ограничений в регрессионной модели в последующем подводит нас к весьма важным заключениям относительно GLS-трансформаций и возможности расширенной демонстрации подхода Гаусса—Маркова.
С целью упростить изложение материала процесс параметрического оценивания при помощи различных модификаций метода наименьших квадратов, обусловленных накладываемыми ограничениями, рассматривается главным образом без описания структуры стохастических величин («,?). При этом, однако, сохраняется предположение о существовании остатков модели, как и оценок их математического ожидания Г(и) и ковариации cov(u).
Линейные параметрические оценки при нуль-ограничениях. Репараметризация урезанной модели. В линейной регрессионной модели посредством наложения нуль-ограничения соответствующая компонента параметрического вектора обращается в нуль, например, Ь2=0, и
b~
h)
beR'”, b^R-h, b^R», j\+j2=m-
1 Детерминированные, т.е. основывающиеся на жестких, функциональных связях (Прим пер.)
Множественный регрессионный анализ
275
^=0,0eR^}«{^ = 0}« (оу2 71/л)
Л,
= 0, OeR72
Наиболее просто и естественно рассматривать нуль-ограничение (нуль-коэффициент) как результат элиминирования соответствующих компонентов параметрического вектора b столбца в матрице исходных данных X. Сокращенная (урезанная или редуцированная) регрессионная модель принимает вид:
у = Xibi +и.
Решение модели опосредуется процессом репараметризации:
= XS'Sb+u = ZSb+u, 5 = (/Л0Л)Л}5'5=	(/ 0)=
7 (Л
0 °J
Z:=A'5' = (A'1|A'2)
(Г\
= Xx,SX'XS' = Z'Z~
X, Хх
. 0
=:М,
м+
Х,'х>
V
А,
=*!.
х 0
Z'y = SX'y = (l 0)
у = Х\Ьх +и у - XS'Sb+u = ZSb+u.
Для урезанной модели y = Xlbl+u получим оценки:
b=(Z'Z)+Z'y =
= (Х{Х} )-1 Х{у вместо Ь=(ХХ)~[ Х'у .
Параметрические линейные оценки для модели с гомогенными ограничениями, отличными от нуля. Для модели вида:
1)	y = Xb+ui, E(ui) = 0, cov(z/1)=K = o27 найдем оценки параметра b при условии, что г = Rb, г = 0, R * I,S (нуль-ограничение);
2)	X &Rn,m,rg(z)= т	(т — число независимых столбцов
матрицы X);	> * -
3)	R e R4'm, rg(«)= q < т- (q — число независимых строк . матрицы R).
276
Глава 6
С учетом введенных гомогенных ограничений для параметрического вектора получим сокращенную форму модели. Пусть
= 0
и либо Л, =-Ri {R2b2 (7?i — неединичная матрица), либо />2 =~R2lRlbl (R2 — неединичная матрица).
Модель 1) в таком случае принимает вид: у —	— X2R2 R\ +w <=> у = Xjbj+u.
Обобщая выводы, отметим, что при условии:
R2 )| 1 । — 0bj = —Rj 1 R2b2 или	= — R21 Rjbjj
(6.17)
у —	— X2R2 J./?! jbj +u У — X:— Xj —X2R2
будем иметь обычную МНК-оценку:
b[ -^i X\ у .
Любые негомогенные ограничения
1)	у = Xb+Uj,E(uj)= 0, cov(«j)= И = о2/,
2)	r = Rb, r*0, R*I,S
3)	X eRn,m ,rg,(x)=tn
4) ReR4’m^R^q<m
(m — число независимых столбцов матрицы Л);
{q — число независимых строк матрицы R).
При помощи соответствующих замен, как и в предыдущем случае с гомогенными ограничениями, перейдем к сокращенной форме регрессионной модели и если R — некоторая неединичная матрица, например, R2, то получим1:
<=>/>2 =R2\r-Rjbj), откуда следует
г -
(bA
y = (Xj Х2)
<=>у = X\bj+u.
{Xi-X2R2Rijbl
(6.18)
1 Здесь матрица ограничений Л не имеет ничего общего с характеристикой
связи А2 (Прим авт )
Множественный регрессионный анализ
277
Смешанная регрессия. Альтернативным и в то же время обобщающим подходом для рассмотренных выше задач с ограничениями является следующий. Будем исходить из условия существования некоторой модели с некоррелированными остатками, включающей более одного уравнения.
у = ХЬ+и}, Е(щ) = 0, cov(u1) = o2Q1,	(6 19)
rg(Z) = /« (т — число независимых столбцов в матрице Л). Эта же модель после трансформации будет
r-Rb+u2, E(u2) = 0, cov(u2) = o2^2 >	(6.20)
rg(j?)=? <m (q — число независимых строк матрицы R),
E^u\u2 ^ = Q12=0 (некоррелированные остатки моделей (6.19) и (6.20)).
Такая модель представляет более высокий уровень обобщения, поскольку в ней допускаются ограничения с ошибками, соответственно в ней присутствует стохастическая величина и2 Обобщенная форма модели при этом записывается следующим образом:
y = Xb+u, e(u)-Q, cov(«)=o2Q.
Это обычная линейная модель или так Называемая МЗДвЛЬ смешанной регрессии. Введение дополнительных условий означает в сущности ее трансформацию.
Пусть:
г7„ --Wi , р„
.°	79 J [° 7q J
тогда следует у = ХЬ+и с
278
Глава 6
О
РХ =
— X 2^2
Ри =
*4
-X2Ri
Л,
«1
\и2)
X1-X2R;Г‘Л1	о
Л| л2
Л2
*2,
W| —X2R2 'и2
%21 а22
и2
.’.	= Xb + u)<^> у= X; 6] +«! .
Иллюстрация. Обобщение данных.
Покажем пример смешанной модели при обобщении данных двух выборочных совокупностей:
о
*2
+
A^J lM2 J (У2>^2)
(данные временного ряда),
(выборочные данные из временного ряда),
у = Xb+и, Е(и)=0,
cov(u)= о2К = о2
%
/21
V22 j
1 п
о
1 п
о
Я
= и ,

Результаты решения подобной модели, т.е. параметры Ьх и
/>2 — обычно неравные, причем это не зависит от того, каким
образом произведена выборка: поперечным, продольным срезом или по типу панельной выборки.
Замечание. Замена детерминированных ограничений.
В общем случае система регрессионных уравнений представляется смешанной моделью, но при условии, что %2 — случай
ная величина, модельный остаток нивелируется и устраняется из
модели:
В результате прямого расширения МНК-оценки (х'Х^Х'у
получим:
b = (at)-1 X' у = (XX+R'R)-1 (X'y+R'r).
Применение МНК-оценивания после соответствующих замен и сжатия модели приводит к следующим выводам:
у —Xb+й <=>У[ = Аий) +«|, е Rm q и
Множественный регрессионный анализ
279
У1 ~	"^^2^2 Г ~ G^l

^=(^11^1^ Х11У1 
Статистическую оценку для получают из обычной уре
занной линейной модели. Оценку для fr? соответственно получают на основе изменения формы регрессии посредством введения в нее ограничения после определения первого параметрического вектора:
.•.Zb := А£1 (г — /?1^1).
Замечание. Обзор особых случаев введения ограничений.
Запишем спецификации для различного вида ограничений:
•	Нуль-ограничения —
Aj = 0, R2 = I и г = 0, как и и2 = 0.
•	Гомогенные ненулевые ограничения —
А, — любая матрица, А2 — неединичная матрица и г = 0; и2 sO s
•	Обобщенный случай негомогенных ограничений —
А) — любая матрица, А2 — неединичная матрица и г * 0; и2 = 0.
•	Смешанная модель —
А] — любая матрица, А2 — неединичная матрица и г * 0; и2 * 0 .
Вместо ограничений могут рассматриваться также возможности замещения переменных и стандартизации регрессионной формы.
Линейные оценки при дополнительных детерминированных условиях. Для линейной гомоскедастичной модели с одним уравнением (Q] =1, Q2 s 0) вида
y-Xb+u, E(u)=Q, cov(u)=rr = Rb, r*0,	(6.21)
методом наименьших квадратов получим оценку
? = ^+(Л'%)"1А/[а(2Г%)“1 А'^г-Аб); b:=(XX)~lX'у.	(6.22)
□ Доказательство-. По определению, метод наименьших квадратов минимизирует ошибку модели:
L] = (y-Xb} (у-Лг>)->Мт , при этом r = Rb.
280
Глава 6
Подобный результат может быть достигнут также при помощи функции Лагранжа:
L2 = (у -Xb') {y-Xb)-2X(r- Rb)Min «
АД
« L2 = у 'у - 2 у 'ХЬ+Ь’Х ХЬ - 2 Хг + 2 К Rb Min.
АД
Решение для функции Лагранжа следует из предположения о существовании экстремумов:
Г-2 = о = -2у'Х +2b'XX+2XR, db
^ = 0 = -2(г-М)';
.-.ь = (XX)~lX'y-(X'X)~lR'X = b-(XX~)AR'k,
r = Rb<^% = ~{r(XXY1 R'\l (Rb-r}= -s(Rb-r\ S ;= (л(2Г%)-1 Л')'1,
b = b-(X'X)~lR'(r(xX)~1 R'y[Rb-r)=b + (xXY}R'S^-Rb) 
GLS-оценка при дополнительных детерминированных условиях и с любой неединичной матрицей ковариаций. Для обобщенной формы линейной модели с одним уравнением:
у = ХЬ+и, Е(и)-0, cov(u) = o2P, r-Rb	(6.23)
методом наименьших квадратов можно получить следующую параметрическую оценку:
b = b+(XV ~1 Х)~1 R'[r(XV ~1 X)-1 R']~1(r - Rb),
Ь:=(ХГ~1ХГ1 Х'у.	(6.24)
Замечание. Параметрическая оценка в случае гомоскеда-стичности модели будет:
*1
Ь= (*{
_	+Х2Х2)	+Х2У2),
(Х{ х^
У\ '
т.е. она эквивалентна оценке для модели смешанной регрессии
У
b= (X' R')
= (XX + R'R)-l(X'y+R'r),
или то же, у =ХЬ+и<^>
Id
но в привычной форме записи регрессионной модели у
(X}
ь+
Ji) И2у
b+
"1
R
"1
("2;
Множественный регрессионный анализ
281
GLS-оценки для особых случаев гомогенных детерминированных ограничений. Линейная модель с одним уравнением является частным случаем модели, содержащей систему уравнений:
у = ХЬ+и, E[u)=Q, соу(и)=о2/, y.ueR", X е Rn<m, rg,(x)=m, b<-Rm
и Rb = r = 0, O^reR9, RtR9’m, q<m.
Оценивание параметров модели общего вида с любым числом уравнений производится специфичным образом:
b = (у-(XX)~l R’(r(XX)~1 R'\l R^b = (/-(XX)~l R'SR\b =
= b- (XX)~l R'SRb,S' = S = (r(XX )"1 Я')'1.
При отсутствии ограничений для общей регрессионной модели, очевидно, будем иметь неизменную оценку: {?р = /-,0 = я}= = b:=(XX)~1 X' у так же, как и после введения условия Rb =0, когда сама оценка начинает выполнять роль ограничения и появляется возможность непосредственно проводить вычисления:
е(ь)=Ь, cov(b)= о2[/R'Sr\xX)~} .
Иллюстрация. Отдельные примеры распространенных случаев гомогенных и негомогенных линейных ограничений.
Пусть имеем:
Rb = r, beRm, reR9, R<=R9’m, q<m.
Выделим несколько возможных случаев:
1.	Все коэффициенты регрессии принимают некоторые определенные значения’. Ь = bG
f=o s
r = bo; R = Im, Api > Жт .
*0
2.	Некоторые коэффициенты регрессии принимают определенные значения:
b} =bj0, jе{1,2,..,т},
r = bQ\ R = (lq$}, q<m
Наиболее важным здесь выступает частный случай, когда bj :=0, т.е. имеем дело с нулевым коэффициентом регрессии или нуль-ограничением.
282
Глава 6
3.	Нуль-ограничения.
3.1.	Имеется подмножество нулевых коэффициентов регрессии.
Допустим, что из модели удалено некоторое число объясняющих переменных:
0, ^2=0, Л:=(о|/'9); r:=0eR? (нулевой вектор), при этом отдельные модельные параметры неоправданно обращаются в нуль. Данный случай связывается с проблемой идентификации линейной модели, для которой по возможности предполагается определение значений отсутствующих параметров на основе представленных объясняющих переменных.
Проанализируем решение подобной задачи. Следуя подходу Гаусса—Маркова, можем записать:
у = ХЬ+и = (х1 |Л'э)( 1 |+и, Е(и)=0, cov(u)=o27„.
‘ \b2 )
‘ Вместо Ь = (ххУ}Х'у используем = (X{Xl)~i}^ly^ устанЫвЙй
также, что :=0, тогда имеем:
х{(хф1 +х2Ь2 +«)}=/>! +(x'lxi''r-x:x2b2.
Последнее означает смещение частной оценки , поскольку />2^0:
cov^ = £{(ЛZ2^>2+Я«XЛY2^>2+Лu), с А~(Х{Х1У1Х[ =
= AX2b2b2X2A' + E(AX2b2u'A')+ E(Aub2X2A')+ Е(АшГА) =
= AX2b2b2X2A'+АЕ(ии')А = AX2b2b2X2A'-то2(XfXi)
Вывод: поскольку /0, не может быть эффективной оценкой.
3.2.	Иерархия статистических гипотез.
На основе одного имеющегося уравнения регрессии, при последовательном введении альтернативных нуль-ограничений, можно получать множество модифицированных моделей. Покажем это на примере трехпараметрической модели:
у, = Eq+b]Xu +b2X2l +и, (исходная модель)
Множественный регрессионный анализ
283
Л =^)	+U,
У1 ~b() + b2X2l+ul
У1 =bl^ii +^2i +ui
У^Ь() +“t
У1 =bl^h +ui yl=b2X2l+u, У, =+u,
(двупараметрическая модификация) (двупараметрическая модификация) (модель без константы)
(оценивание средней величины)
(однопараметрическая модификация) (однопараметрическая модификация) (чистый стохастический процесс)
4.	Ненулевые ограничения.
Введем условие существования для коэффициентов регрессии с заданными весами некоторых суммарных значений:
^Cjbj - г, reR<^> Rb = c'b-r, c = evc*e ;
y=i
Я•= (cic2---cm)=;с?> cj *0, jе{1,2,г-0 или г*0.
Используя известный метод Лагранжа, а также принимая во внимание коммутативные свойства скаляров, произведем прямую корректировку параметрической оценки i> = (x'x)~l X' у и получим:
b =(Х'Х)~1[ X' у+^-^-с\.
s
(я(ЛГХ)-1/г)'1 =(с'(й'%)чс)'1 =: —>0.
АЛ .Оценивание производственной функции Кобба—Дугласа.
Нелинейная модель сокращенной производственной функции (производственной функции Кобба—Дугласа с заданной эластичностью шкалы признаковых значений и мультиплицированной ошибкой) после ее логарифмирования и замены обозначений трансформируется в обычную линейную модель:
- aoKta‘£“2 е"', eq +а2 = г > 0«
<=> In 2( = In ад +«! In Kt +а2 InZ; +ut.
Пусть у, =1п2(; Xh =1;X2l = 1пК(;X3l = 1п£()Ь1 :=1па0;
by ‘.= а2, тогда
у, = ^X^bj +ut «у = Xb+u, +by = r^>Rb = r; R = (0,1,1), у=1
ЛеЯ1,3,г>0.
284
Глава 6
Здесь г представляет эластичность шкалы признаковых значений.
Очевидно, что в модели заложена возможность расширения числа независимых производственных факторов (k,l), т.е. модель для Q может быть с т >2 числом факторных признаков (к,1,....).
5.	Условие существования для пары регрессионных коэффициентов определенного соотношения.
С точки зрения практики весьма важным представляется случай линейных ограничений при установленной заранее величине соотношения между парами модельных параметров. Как
показывают последующие рассуждения, задание таких соотношений означает в сущности введение обычных линейных гомогенных ограничений типа Rb = 0:
— - а <=> bk - abj <=> bk-abj = 0 <=> {г bi
0; Я = (0...010...0-а 0...0)}.
Т Т
k-я и i-я позиции
6.4.4. Ограничения для модели с мультиколлинеарностью
Параметрические ограничения и нарушения ранга матрицы исходных данных. При введении детерминированных ограничений можно получить еще один класс моделей, представляющих значительный интерес с точки зрения их изучения. Таким моделям и посвящен данный раздел.
До сих пор решение задачи параметрического оценивания производилось при условии существования матрицы (й'%)-1. Эта предпосылка в свою очередь базировалась на предположении о том, что матрица исходных данных X является полноранговой, т.е. rg(x)=m. Ограничения, накладываемые на регрессию, приводили к сокращению регрессионной модели до (m-q) параметров, которые могли бы быть оценены статистически. При этом само оценивание всегда принципиально оставалось возможным.
Для класса моделей, представленных в данном разделе, ограничения используются уже с целью обеспечить процесс оценивания, который изначально нереализуем. Роль ограничений меняется. Они становятся необходимыми, для того чтобы устранить соответственно конструктивным особенностям матрицы данных X нарушения в ее ранге. По терминологии экономет
Множественный регрессионный анализ
285
рики явление, которое мы будем исследовать, носит название мультиколлинеарности.
По определению матрица моментов А := XX называется мульти коллинеарной, если для X е Rn,m, п>т, rg(>4) = rgpf X)=rg(%) < т .
Иллюстрация: Регрессионная модель с одним уравнением, подверженная мультиколлинеарности из-за пропорциональности значений изучаемых факторных признаков (т = 2).
Для случая с двумя объясняющими переменными (т = 2),
Х/2 = pVz (то же и в случае, если имеем дело с двумя константа-
ми, когда, например, и вторая переменная — тоже константа). Это приводит к неидентифицируемости модели и действительно:
Приведенное обоснование несколько расширяет наше представление о двухпризнаковой модели следующим аксиоматиче
ским положением: если имеется Xl * X по меньшей мере для /
286
Глава 6
наблюдений, то объясняющая переменная в окрестности константы должна быть вариативна. Одновременно с помощью неравенства Шварца (<=>s>0) постулируется нормальность произведения XX:
1 f XX ns[-x
1J
Чтобы преодолеть нарушения
в статистическом оценивании
модельных параметров регрессии с мультиколлинеарностью, необходимо использовать определенные ограничения. Последние вводятся одновременно с дополнением ранга матрицы исходных данных. Покажем это на примерах с количественными данны
ми, в которых для матрицы моментов вначале решается вопрос
корректировки ранга, а затем на основе уже скорректированных
данных — поиска допустимой оценки параметра b. Пример 6.10. Ранговые дополнения.
11.. Г
0 0.. 0,rg(^)=2,
1 1 ... 1,
rgC¥% + r/?)=3,
<п 1 n+i7
'п + 2 — п -п'
M-iXX + R'RY1 =— — п п + 2 п-2 4п
— п п-2 n+2J
Множественный регрессионный анализ
287
б) Пусть имеется				
	'1 ]	1	р	
	1 0	0	0	,rg(T)=2
у = Xb+u, X =	1 0	0	0	
	<1 0	0	0,	
Первый из альтернативных подходов к устранению дефектов в ранге матрицы предполагает введение гомогенных ограничений, например
	Т 1 1	Р		((Г	
r = Rb, R-	1 0 0	0	, r =	0	-0<=>Й]=0л62=0л/>з = -b4
	k0 1 0	oj		.oj	
Отсюда следует' у, = (Xl4-Xl3)b4 +и, ;.yt =ut(i-1,2,..,n). Здесь b3 и b4 — по-прежнему любые величины, в так называемом чистом
линейном стохастическом процессе они не играют никакой роли и вообще не подлежат оцениванию.
Гомогенные ограничения имеют широкие возможности для решения разнообразных задач регрессионного анализа, и это наглядно демонстрирует второй, альтернативный, подход их
приложения:
!г1
г = Rb, R = 1
<0
1 2
0 0
1 а
<^Ьу=0лЬ2= -аЬ$ л = (а - 2)&з
В дальнейшем решается тривиальная задача по оценке параметров простой модели с одним уравнением при условии, что анализируются данные четырех наблюдений: исходная матрица R — полноранговая и существует только один модельный параметр:
yl=^-aXl2+Xl-i+(a-2)Xl4}bi+ul<^yl= Z^+u,	(/ = 1,2, ,п),
Zt =-aXl2+Xl3+(a-2')Xl4.
Третьим альтернативным подходом к устранению ранговых нарушений в регрессии является введение негомогенных огра
288
Глава 6
ничений. Например, пусть матрица R останется неизменной, но г*0:

r = Rb, R =
*0.
После введения дополнительных условий: о числе анализируемых наблюдений (четыре), полноранговости R и существовании единственного параметра устанавливаются значения всех трех коэффициентов регрессии. Оцениваемая модель при этом представляется трансформированной в простейшую, с одним уравнением:
(л-^з)=(^4-^з)^+«/	= Z,a+«, (/ = 1,2,..„и),
Z(:=y,-Z(3, Z,:=Z(4-Z/3, a:=Z>4.
Таким образом, нарушения в рангах матрицы устранимы с введением некоторого числа q ограничений. Тем самым реализуется возможность перехода от необращаемой матрицы XX к инверсионной сумме матриц XX+R'R. Метод наименьших квадратов, который в общем случае обеспечивает поиск т параметров регрессионного уравнения, при этом используется в сокращенном виде, для нахождения m-q параметров (по числу столбцов с нарушениями ранга, устраняемых при помощи дополнительных условий). В последующем мы увидим также, что решения задач «с нарушениями ранга матрицы исходных данных» дают основания делать теоретические обобщения для метода ранговых дополнений.
Обобщения для метода ранговых дополнений. Определение. Матрица М = (ХХ+ R'R)~‘ является неединичной и представляет своего рода обобщение для алгебраической операции обращения мультипликативной матрицы вида XX.
□ Доказательство', справедливость приведенного высказывания подтверждается результатом произведения: (ХХ)м(ХХ)=ХХ .
Дополнением рангов добиваются оценок, которые соответствуют оценкам, полученным при помощи метода моментов; так, после предварительного умножения модели у = ХЬ+и вначале на X’, а затем на (XX + R'R}~1 получают
Множественный регрессионный анализ
289
у = ХЬ + и=$Х'у	= ХХЬ+Х'и^>
=> (ХХ+ R'R)~l Х'у	=(ХХ + R'R)~' XXb+(X'X + R’RY} Х'и=^
=> ХХ(ХХ+ R'R)~i Х'у =X'X(XX + R'R)~iXXb + X’X(XX + R'R}-lX‘u =
= XXb+XX(XX +R'R}~1 Х'и.
.-. В то же время при использовании метода моментов
хх(хх + R'R)-'Х'у = ХХЬ&хх[(хх + №)~'X'y-b]=Q , причем '
b = ХХ(ХХ +R'R)~lХ'у является возможно даже несмещенной оценкой. 
Метод ранговых дополнений с обобщениями для случая, когда rg(x)<m. Запишем для регрессионной модели аналитическую систему в целом:
, Х =
У =
<=>у = ХЬ+и.
Используя метод моментов в оценивании модели, умножим ее левую и правую части на X', получим:
X' у = ХХЬ+Х'и.
При решении последнего уравнения относительно параметра b случайная величина и изначально не определена и может быть отброшена как аддитивный стохастический линейный элемент модели, тогда получим:
Х’у = ХХЬ.
(6.25)
Если матрица X имеет нарушения ранга, то параметр b для модели у = ХЬ+и в принципе не может быть оценен. Однако, если вводятся ранговые дополнения, то на основании того же уравнения (6.25) найдем:
b = (XX + R'R'Ti(X'y+R'r).
Матрица, обратная XX+R'R, в отличие от XX существует, а значит нарушения ранга исходной матрицы с введением ограничений устраняются.
Ридж-оценивание. При помощи рассуждений, аналогичных приведенным выше, можно также сделать простейшее обоснование для так называемого ридж-оценивания.
Пусть, как и раньше, XX неинверсионна из-за нарушения ранга X . Введем корректирующий элемент а/ . Скорректирован-
10 Многомерный статистический
290
Глава 6
ная матрица ХХ+а.1 будет всегда обращаемой и ность получить параметрическую оценку вида: b =(ХХ + al)-xХ'у .
- GLS-оценка смешанной модели у = ХЬ+и, Е(и)=0, соу(«) = о2И, Х2
даст возмож-
где у
"1
ен
Л1 я2>
= diag(lzi),
У
R
и :=	,
1“2)
, И:=
О
О
И
5 = 1,2.
В соответствии с подходом Айткина имеем:
b = (хГ-1х)ЧХГ“1у .
Пример 6.11. Пусть имеется любая гомоскедастичная модель.
Тогда в особом случае, при К, = о2/ (s = 1,2), будет:

v~' =
0
V°2
XX R'R „2 + ^2 °1 О2
Х'у R'r
2 + 2
<°!	°2 7
и
ь =
О
6.4.5. Регрессионная модель ANOVA
регрессионный анализ
ANOVA (analysis of variance model) — дисперсионной модели. В этом анализе матрица исходных данных X состоит исключительно из нулей или единиц. Все модели типа ANOVA подразделяются на два класса: с одинаково большим и неодинаково с. 61-120; 112, с. 27-28; общий вид:
большим числом наблюдений [103, 113, с. 197). Исходная модель имеет
y!jt = \i + ai+bj+сд+uIJt
7 = 1, 2,..., G; j = \,2,...,Tt
G
f = 1,2,
Параметрический вектор включает компоненты:
а
0 =
b
, рб/г1'и;+7’'и;7’, к = i+g+t+gt .
с
Множественный регрессионный анализ
291
Для того чтобы в дальнейшем упростить представление матриц, примем часто используемое в теории равенство 7] := Т . Символами i и j обозначены значения двух факторных признаков, которые либо обнаруживают свое воздействие на отклик (уу7), либо нет. Обозначение t принято для представления определенного класса наблюдений (выборочного элемента) типа {/,у}, всего имеется неравных множеств наблюдений каждого типа пу > 1. Оцениванию в модели подлежат параметры: ц. — общая средняя (или общий эффект — grand mean); а, и bj — средние значения специфических признаков (или факторных эффектов) информационного блока i или j; су — общая величина (общий или интегрированный эффект, индивидуальная константа).
Пусть имеем определенный собственный вектор:
е'=(lll...l), eseRs, se{G,T,GT},
в этом случае можно рассматривать три эквивалентных представления ANOVA-модели:
•	скалярный тип'. .	.
у У =ц+а,. +bj +Су +иу \i = },2,...,G; j = l,2,...,T ) ;
•	тип модели для уравнения (признака) относительно i:
у, =реТ +ateT +b+ct +ut ;
•	тип модели для уравнения (признака) относительно j :
У]=^в+а + Ь}ев+с}+и} .
В перечисленных моделях приняты обозначения:
\GJ
292
Глава 6
ванной с целью дальнейшей ее идентификации. Подробно такая
следующим образом:
модель записывается
«1
о ... о А
У12
У1Т
УС1
}'G2
.Уст) 1°
ь2	...	о
О	...	Ь-р
о	...	о
ь2	...	о
о ...
' С11'
с12
'«11
«12
С1Т
CG\
CG2
U1T
uGl
UG2
Sgt J \ugt J
О
О
Приведенная модель является обычной, линейной. Здесь мы не будем говорить собственно об анализе факторов и его возможностях. Теоретически более важным представляется вопрос о многообразии линейных форм регрессионной модели ANOVA. С этой точки зрения рассмотрим более подробно некоторые особенные случаи, демонстрирующие возможности построения практически необозримого числа специализированных моделей.
О необходимости использования ограничений для модели ANOVA. Естественно полагать, что отдельные коэффициенты регрессии в модели могут присутствовать, оказаться незначимыми, принимать нулевые значения (выше нами рассматривались нуль-ограничения для параметра Ь). Соответственно с учетом числа комбинаций значимых коэффициентов в модели уже можно предположить достаточно большое число особых случаев для
Множественный регрессионный анализ
293
модели ANOVA. В то же время сопровождающие различные модельные спецификации нарушения рангов изначально делают невозможным параметрическое оценивание. Как известно, выход заключается при этом во введении дополнительных ограничений. Наиболее часто встречаются четыре следующих ограничения (нуль-ограничения для сумм с симметрическим расположением):
Ца1=ИЬ1=Иси=^си=^  i t i t
ANOVA — модель простой классификации.
Иллюстрация 1 (one way layout). Рассмотрим модель с дополнением рангов при условии b = 0, с = 0. ANOVA — модель про
стой классификации — представляет такой класс моделей, в котором регрессионные уравнения содержат только один признак:
Уу- =g + a; +Ujj (/ = 1,2,...,G; j = 1,2,...,//;);
О
О
1
О
е«2

О
1
G
а+и\
е.
е Rs (s = //j,л2 ,п);
О
О
enG,
у = Лр+«, X =(xiX2) = (enX2')ERn’!'+G, rg,(x) = G<n, h =

&RM
а
При устранении ранговых нарушений различие в значениях «; не играет никакой роли, так как это происходит при условии
//,=1V/, или «;>1, /' = 1,2,...,G :
^а1=0&е'а = 0&ЛР=г, е' = (111...1)е/?‘’С, /?:=(oe')e/?1,G+1, г:=0, i=i
или
'^п,а1 = 0 <=> п'а = 0 <=> Rfl = г, R :=(0n')=(0n1n2..j7G)eR,’1'l'e, г:=0.
/=1
(По данной проблеме составлены практические задания № 14, 15, 21).
Оценивание в модели ANOVA средних величин.
Иллюстрация 2. Рассмотрим вопросы о ранговых дополнениях для модели ANOVA при условии, что ц = 0, а или b = 0, с = 0 .
294
Глава 6
Оценивание средней по значениям признака первого фактора I (ц = 0, Ь = 0, с = 0 ):
К = G < GT (i = 1,2,...,С; t = 1,2,....Т);
Уи = +ult «у, =а,ет +и, &у, =цет +и,, т.е. ц = а, .
Оценивание средней по значениям признака второго фактора j (ц = 0, а = 0, с = 0):
К = Т <GT(i = 1,2, ...,G;t = 1,2, ,Т);
Уа = b, +ult <^у,= bteG +ut<^yt = \xeG +ut, т.е. здесь ц = bt.
Оба приведенных случая не идентичны, в то же время можно рассматривать их связь и идентичность с моделями, отображающими динамические процессы.
Иллюстрация 3. Динамические процессы и их моделирование. Ранговые дополнения для ANOVA-модели при условии b = G или а = 0, с = 0 .
•	Модель эквивалентной корреляции с одной константой
В частном случае, когда присутствуют только одна экзогенная величина и константа, общая модель эквивалентной корреляции с одним уравнением сокращается и переходит в модель типа “оценивания средней”:
Пусть в матрице исходных данных X t-я строка, или вектор Xt, сжимается до единственного значения, равного единице, т.е. Xt = 1, тогда:
у = Х$ + и, yeRT, X = eeRT, 0е/?;
E(u)=0, E(«u')=cov(«)=K = o2[(l-a)/+aee/], 0<а<1;
yt=Xt$ + ut (t = 1,2,...,?)<=>у, =)i+ur<=> у =[ie + u с
Е(И/) = 0^£(у,)=ц, E{utus)=E{ytys) =
Подобного типа модели возникают при отображении специфических стохастических процессов, показанных ниже.
•	Модель для временных рядов с двумя ошибками.
При условии
{ yeRT, X=eeRT, peR, E(u)=0, V = o2[(l -a)J +aee'], 0<а<1 }
7 aa , tts
сама модель принимает вид yts =p+u, +v5,
Множественный регрессионный анализ
295
при этом £(uz)=0, var(uz) = £(uzuz) = o2, E{utus)=Q для t*s',
jE(vJ=O, хаг(г5)=£(г5г5)=р2, £'(v/vs)=0 для i^s;
E[utvs)=Q (остатки модели представляют собой независимые
величины, не коррелирующие между собой, т.е. и и v Vt,s).
Здесь случайная величина ставится в зависимость и определяется двумя другими случайными величинами. Первая из них и — зависима от наблюдений, другая величина v — в общем независима от наблюдений и определяется самим анализируемым
признаком:
о2 +р2, t = S, р2,
£(у,) = ц, Е(у, -ц)(у,-р)=<
t s
и в матричной форме: Р+Р2 Р2
-h)U -и) =
р2 2	2
О +р
Р2
Р2
Р2
Р2
2	2
... a2 +pj
— $ Й Р £» *
• Модель факторного анализа с оцениванием средней. Конструктивная схема построения данной модели базируется
также на модели с дисперсионными компонентами, в сущности это всего лишь другая форма записи последней:
£(wf) = 0, £’(az) = 0, var(wJ) = o2, var(az) = p2, E{atws} =
где t — индекс анализируемого признака,
5 — индекс для 5-го наблюдения по г-признаку,
ц — неизвестная общая средняя,
az — стохастическая величина отклонения от общей средней, — стохастическая спонтанная вариативность.
6.4.6. Значение подхода Гаусса — Маркова
в оценивании параметров регрессионной модели
С целью показать значение подхода Гаусса — Маркова остановимся подробнее на ряде примеров с количественными данными. В первом производятся оценивание данных по Айткину и сценарное моделирование параметрических оценок.
296
Глава 6
Пример 6.12. Гетероскедастичная модель. Пусть т = \, п = 2, а случайная величина и задается двумерным дискретным распределением со следующими численными характеристиками:
«2	«1	-1	1
-2		0,25	0,25
2		0,25	0,25
При помощи двух первых моментов найдем среднюю и дис-
Персию для модельных остатков: («| E(uj)= £(u2)=0, £(u) = 0, u =
"2
Е(ии')= Е

«jUj ii\U2 A AEtu^iif]	fl ОЗ
«2«2J [e(u2ih) E(u2u2)) 1^0 4y
это гетероскедастичная модель с уравнениями:
У1 = Xlb + ul, у2 — X2 & + ^2 •
При условии, что двумерная экзогенная величина {XiX2}, как
и истинный параметр Ь, известна, скажем X^l, Х2=2 и Ь = 2 для каждой комбинации можно рассматривать некоторую соответствующую комбинацию {у^}. Сведем в таблице четыре различные комбинации входных и результативных показателей:
Z>=2	ut = -1, и2 = -2	«1 =-1,«2 =2	= 1, и2 = -2	= 1, и2 = 2
2^=1, Х2=2	У1=1,У2=2	Ki =1, Г2 =6	Ki =3, Г2 =2	У!=3,У2=6
т Хад 2=1	5	13	7	15
Т 17? (=1	5	5	5	5
Ь	С/1 | СП II	13 =2,6 5	~ = 1,4 5	^ = 3 5
Множественный регрессионный анализ
297
Приведенные в таблице параметрические оценки вычислены по известной формуле:
Уровни вероятности появления каждой из параметрических оценок [b] остаются равными и принимают значение 0,25:
ь	1,0	1,4	2,6	3
Вероятность появления параметрической оценки	0,25	0,25	0,25	0,25
Таким образом можем определить математическое ожидание для b (е[ь]=Ь):
е(ь)= 0,25 1+0,25 1,4+0,25 2,6 + 0,25 3 = 2 = 6;
уаг(фо,25 (1-2)2 +0,25 (1,4-2)2+0,25 (2,6-2)2 +0,25 (3-2)2 =0,68 .
Пример 6.13. Вернемся к рассмотрению гомоскедастичной модели.
Чтобы наглядно показать свойства GLS-оценки, обратимся к трансформации по Айткину и осуществим ее для второго уравнения следующей модели:
У] = X\b + U\, Etp^-O, var(«j)=o2 =1;
У2 = Х2Ь + и2, #(и2)=0, var(u2)=o2 =4 ;
, 1 1 умножим левую и правую части второго уравнения на - = — и
2
получим
1„	1 v	, 1	„fl	'I	n fl	'I (if	2 ,
—Y't =-X')b +—u-), E —u-> =0, var — u-> = — Gn = 1.
2	2	2	U	)	\2	)\2.)
Построим таблицу с гипотетическими данными гомоскедастичной модели:
«1 «2	-1	1
-1	0,25	0,25
1	0,25	0,25
298
Глава 6
ЕМ=ЕМ = О, Е(и) = О,и = Г1 , £(ИИ')=4"1И1 ",И2 = lu2)	\и2и\ и2и2)
= р(«1«1) E(uiu2)}i [E(U2U\) E(u2u2))	2'
Соответствующим образом, как и в предыдущем ^ййере, получим плотность распределения параметрических оце^ок^.
ь	1,0	2	3
Вероятность появления параметрической оценки	0,25	0,5	0,25
Теперь можем с учетом плотности рассеяния параметрических оценок вычислить математическое ожидание и дисперсию параметра b (е(ь)=е[ь)=Ь и var6 ):
£(б)=0,25 1+0,50 2+0,25 3 = 2 = 6;
уаг(б)= 0,25 (1-2)2 +0,50 (2-2)2 +0,25 (3-2>2 =0,50 .
Полученные оценки являются эффективными по Айткину. Сходный результат для рассматриваемой модели может быть достигнут при авторегрессионном оценивании.
Пример 6.14. Авторегрессионная модель.
Будем исходить из следующей плотности распределения случайных величин:
«2	«1	-1	1
-1		0,125	0,375
1		0,375	0,125
Математическое ожидание модельных остатков, как обычно, полагается равным нулю:
Ё(и\)= Е(и2)=0, Е(и)=0, и-
“1
"р° Р1 £(«2«1) Е{и2и2}] [р1 р°
Е(ии'}=Е
' и\Щ f£(wlMl) ^(И1М2)
Л2«1 «2«2>
Множественный регрессионный анализ
299
р И
Г 1
ч-0,5
-0,5"
1 )
р=-0,5
После умножения левой и правой частей модели на Р полу-
чим:
1
0 '
1
( 1
о" 2 7з,
' 1 о
ч0,57735 1,1547
Имеем: PY = PXb + Pu^Y* = X*b + v с e(Vi)=e(v2)=0 и
E(v)=0,
M V1=“1
, v =~P»i+«2, E(yv')=E
bj 7^7
J2V1
hv2
V2V2>
= PE(uu')P' = I2,
v =
В результате получим трансформированные данные
Ь = 2	ut =-1, и2 =-1	U\ =-1, и2 =1	ut =1, u2 =-l	«! =1, U2=l
	v,=-l v2 =-1,73205	v1=-l v2 =0,57735	v,=l v2 =-0,57735	Vl=l v2 =1,73205
Х> =1, Х2 = 2	/1=1, /2=з	Yt =1, /2=5	/j=3, /2=3	/1=3, /2=5
%,=!, Х2 =2,88675	/1=1, У2 =4,04145	/1=1, Y2 =6,35085	/,=3, /2 =5,19615	/!=3, /2 = 7,50555
Т /=1	7-> 12,6	11-» 19,3	9-» 17,99999	13-» 24,6
т /=1	5 —> 9,3	5-» 9,3	5-> 9,3	5-> 9,3
ъ	5	Н — = 2,2 5	СП 1 О II 00	—=2,6 5
ъ	1^=1,35714 9,33	1933 —^— = 2,07143 9,33	17,99 —-2— = 1,92857 9,33	^6=2,64286 9,33
В таблице переходы а->Ь означают трансформационные изменения данных.
Произведем сортировку вероятностных характеристик появления параметрических оценок, полученных до и после трансформации данных:
300
Глава 6
ь	1,4	1,8	2,2	2,6
Вероятность появления параметрической оценки до трансформации модели	0,125	0,375	0,375	0,125
b	1,375	1,928	2,072	2,643
Вероятность появления параметрической оценки после трансформации модели	0,125	0,375	0,375	0,125
Обе оценки b и b — несмещенные. Дисперсионные показатели указывают на повышение эффективности параметрической оценки после трансформации регрессионной модели. Действительно,
var^)= 0,12 5 • (1,4 - 2 )2 + 0,375• (1,8-2)2 + 0,375 (2,2 - 2)2 +
+0,125 (2,6-2)2 =0,12 против
var(k)= 0,125 (1.375-2)2 +0,375 (1,928-2)2 +0,375 (2,072-2)2 +
+ 0,125 (2.643-2)2 =0,107248.
Разложение ковариационной матрицы. В ходе оценивания по Айткину обобщаются отдельные показатели ковариации модельных остатков. Рассмотрим на примере различных моделей, каким образом решается обратная задача, а именно разложение матрицы ковариации остатков. Результаты показанных решений могут затем использоваться в трансформационных преобразованиях моделей:
• Гетероскедастичная модель
Множественный регрессионный анализ
301
• Модель с эквивалентной корреляцией остатков:
V -
А а а
а
1
а
а
а
а
а
а
= (1-а)/л +аЕп, а е R,
е =
1
1
, eeRM,
а
а
а
1
ее’ =: Еп
И-1
е R"’"
а
1
1-а’
1 а
V =Р'Р, Р = Ь11„-Ь2Еп> 51 = • Авторегрессионная модель
'2 -~ П
У =
1 ь
b
Ь2
ь
...
Ьп~2
, И"1
= т
Ьп~1
Ьп~2
' 1
-Ъ
О
-Ь 1+/>2
-ь
•• 1
О
-Ь
1+62
о о о
о
о
о
о
о
о
.2
1-Е
-ь
о
о
о
о
о о о
о о о
... 1+Ь2
... -ь
... о
-Ь 1+/>2
-Ь
о
-ь
1
1-62
/> =
о о
о
о
1
-ь
О о о
О ...
О ...
1
о ...
о ...
о ...
о о о о
о о о
о о о
-ь
о
О 1 -Ь
о о
1
302
Глава 6
• Модель Койка (а*±1)
1+а2	-а	0	•••	О
-а	1+а2	-а	...	О
у_ 0	-а	1+а2	...	О
О	О	0	...	1+а2
v О	О	0	...	-а
/	4~а 0 О'
(-а 1 О (П
,	1 -а О
АД = 0 -а 1 О
= т (1 + а2,1 + а2,1 +а2; -а
CQa°Cn-l C0alCn-2 C0°lCn-2 С1а°Сп-2
СОа С п-3	^1а ^п-3
Сйа2Сп_3 С]а'Сл_з
С2а°С„_3
чСоал-1Со Cja^Co С2ап~3С0
-а 1 + а2
~а
1 *
Со^-'Со' Qa^Co С2«"'3С0
Cn-ia°C0>
1 _<?(->) 1-а2
№
л=о
О
-а
1 + а2
7
к-1
О
(/= 0,1,2,...,л).
С целью трансформации регрессионной модели для матрицы Р не задается условия, что Р'Р = И'1, одновременно становится возможной реализация GLS-