Text
                    Владимир Боровиков
ДЛЯ ПРОФЕССИОНАЛОВ
STATISTICA
ИСКУССТВО АНАЛИЗА ДАННЫХ НА КОМПЬЮТЕРЕ
2-е ИЗДАНИЕ
Москва - Санкт-Петербург - Нижний Новгород - Воронеж Ростов-на-Дону  Екатеринбург - Самара Киев - Харьков - Минск
2003
В. Боровиков
STATISTICA. Искусство анализа данных на компьютере: Для профессионалов
2-е издание
Г чанный редактор Заведующий редакцией Художник Корректор
Верстка
ББК 32.973.233
УДК 661.301
Боровиков В.
Б83 STATISTICA. Искусство анализа данных на компьютере: Для профессионалов 2-е изд. (+CD) — СПб.: Питер. 2003. — 688 с., ил.
ISBN 5-272-00078-1
Во втором, исправленном н дополненном, издании книги, написанной няниным специалистом. научным директором компании StatSoft Russia. изложена концепция и технология современного анализа тайных ua компьютере На основе элементарных hoiixihh описываются ji дубленные методы анализа в системе STATISTICA (StatSoft) с многочисленными примерами из жоиомикн, маркетинга, рекламы, бизнеса, медицины, промышленности и tpyriix областей Второе издание дополнено описанием языка STATISTICA VISUAL BASIC Книга адр_совзна самому широкому Kpyiy читателей, желающих стать профессионалами в компьютерном анализе
К книге прилагается компакт-диск. BKnwiamuiuu учебник StatSoft по анализу данных, учебннк UO .'роыышлепной статистике материалы обучиющих курсов, демо-версии STATISTICA и SNN I iieiipouiibtc cent) и большое количество данных для обученна и проведения самостоятельных неследоваипй u STATISПСА it SNN
© ЗАО Издательский дом «Питер». 2003
ISBN 5-272-00078-1
Лицензия ИД № 05784 от 07 09 01
пм 2 953005 - литература учебная
Краткое содержание
Введение............................................................13
Вступительное эссе: приглашение к анализу данных на компьютере......14
Глава 1. Краткая экскурсия по системе STATISTICA...................44
Глава 2. Элементарные понятия анализа данных......................105
Глава 3. Вероятностные распределения и их свойства................146
Глава 4. Подгонка вероятностных распределений к реальным данным...185
Глава 5. Двумерный визуальный анализ данных.......................210
Глава 6. Трехмерный визуальный анализ данных......................251
Глава 7. Визуальный анализ категоризованных данных................307
Глава 8. Пиктографики.............................................333
Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA.... 341
Глава 10. Описательные статистики.................................409
Глава 11. Построение и анализ таблиц..............................429
Глава 12. Т-критерий сравнения средних в двух группах данных .....487
Глава 13. Непараметрическая статистика..........................  504
Глава 14. Анализ выживаемости......................    —.....-....533
Глава 15. Анализ соответствий...................................  561
Глава 16. Примеры анализа данных в системе STATISTICA.............577
Глава 17. Нейронные сети..........................................611
Глава 18. Язык 5TATISTICA VISUAL BASIC (SVB)......................641
Приложение 1......................................................667
Приложение 2...................................................   669
Приложение 3................................................      677
Алфавитный указатель..............................................687
Содержание
аведение......................—..—-..-—
Вступительное эссе: приглашение к анализу данных на компьютере............... 14
Для кого эта книга’......................................................................  40
Глава 1. Краткая экскурсия ло системе STATISTICA............................................. 44
Вступление ................................................................................44
Командный язык STATISTICA (5CL).............................................................К
Кнопки аптозадач..........................................................................
Взгляд в будущее.......................................................v—.................
гсряые шаги в системе STATISTICA..........................................................85
Графический анализ таблиц сопряженности................................................... 97
Глава 2. Элементарные понятия анализа данных .............................................. 105 ню икос переменная’.............................................................................   —	*05
гростсйшие описательные статистики..............................................................105
Свойств описательных статистик................................................................  1°7
шкалы измерений.......................................................................—-........И®
Какие статистики выбирать?--------------------------------------------------------------------- 111
Распределение переменной.......................................................................  И?
Зависимости между переменными.............................................,.........—-----------112
Исследование связей между наблюдаемыми переменными в сравнении
с экспериментальными исследованиями...............................  г...............ИЗ
Корреляции.............................................................-.............И4
Почему зависимости между переменными являются важными..............—................120
Зависимые и независимые переменные...........................  ...	• ...........121
Как измерить величину зависимости между оеременчьми..............................   122
Дее чер1ы зависимости между переменными.............................................123
Что такое статистическая значимость (руровено)?....................,	.............. 123
Как определить, является ли результат действительно значимым.......—— К.............124
t .а1ис1ичсская значимость и ко личество выполненных анализов..-....................124
Величина зависимости между переменными в сравнении с тчздежностъю зависимости.......125
Почему более сильные зависимости между переменными являются более значимыми.........125
Почему объем выборки влияет на значимость зависимости...............................125
Почему слабые зависимости могут быть значимо доказаны только на больших выборках....126
Можно ли рассматривать отсутствие связей как значимый результат’............... ,........... 127
Общая конструкция статистических тестов..........................-.....—. .....—....127
Как вычисляется статистическая значимость...........................................127
Содержание
Значимость коэффициента корреляции..........................................................128
Как определить, являются ли два коэффициента корреляции значимо различными..................128
Почему важно нормальное распределение.....................................................  129
Иллюстрация того, как нормальное распределение используется в статистических рассуждениях.......................................................................131
Как проверить нормальность наблюдаемых величин..............................«..............131
Рее ли статистики критериев нормально распределены?......................................   136
Как узнато последствия нарушений предположений нормальности?................................137
Оценка объема выборки.....................................................................  137
Визуальный подход к анализу мощности ......................................................141
Понижение размерности данных.....................,......................___________________144
Глава 3. Вероятностные распределения и их свойства—.—........................... 146
В чем состоит идея вероятностных рассуждений?----------------------------------------------146
Нормальное распределение...................................,............................... 147
Равномерное распределение..................................................................151
Экспоненциальное распределение................................................................... 152
Распределение Эрланга  .................................................................... 153
Распределение Лапласа................S......................................................154
Гамма-распределение........................................................................ 155
Лот нормальное распределение............................................................    157
Хи-квадрат распределение..................................................................  15?
Биномиальное распределение..................................................................16С
Распределение арксинуса..................................................................   16S
Отрицательное биномиальное распределение..................................,.................166
Распределение Пуассона......................................................................167
Геометрическое распределение................................................................170
Гигерсесметрическое распределение......................................................... 171)
Пот иномиальное распределение...............................................................171
Бе :а распределение...................................................... . ................171
Распределение экстремальных значений......................................................  172
Распределения Релея...........................я...........................................  1??
Распределение Вет-булла.....................................................................173
Распределение Парето........................................................................17/
Гогистическол распределение .	........................178
Хотеллинга Р-распределение.................... ....................... .. ..................179
Распределение Максвелла...............................................—«..................  180
Распределение Коши.......................................................................   161
Распределение Стьтодента........................... ........	....... ................... 182
F-распределение...	.............. .........................................._.183
Глава 4. Подгонка вероятностных распределений к реальным данным.............................185
Пример 1. Подгонка распределения к данным: посещение непопулярного сайта....................16/
Пример 2 Подгонка распределения к данным: посещение популярного сайта......................193
Пример 3. Скачки вверх и вниз курса акций ... .	.....................................19/
11ример 4. Количество покупок в магазине....................................................197
Пример 5. Подгонка распределения Бейбулла к данным об отказах.............................. 200
Глава 5. Двумерный визуальный анализ данных.........................---------------------..............210
I  .......................................................................................  210
Гистограммы и описательные статистики ......................................................212
8
Содержание
Годгсика теоретических распределений к наблюдаемым распределениям...................216
Пересекающиеся катеюрии...........................................................  219
Диаграммы рассеяния.................................................ж.............. 219
Однородность распределений двух переменных (формы зависимостей).....................221
Выбрось.........................................................................    222
Диаграммы рассеяния с гистограммами.............................................    226
Диаграммы рассеяния с диаграммами размаха............................   —...........226
Нормальные вероятностные графики ....................... ........................... 227
Графики вероятность — вероятность..................... -	 , -W|iflHr“i—1 —.....230
Диаграммы диапазонов........,.......................................................231
Диаграммы размаха..................................................................232
Столбчатые диаграммы...............................................................234
Линейные графики (для переменных)........	....................... 2 36
Линейные графики (профили наблюдений)........	...........................241
Последовательные/чаложенттыеграфики ....... ...	......................242
Круговые диаг ранмы.......................................... .....................247
Диаграммы пропущенных значений и интервалов__________________..____________________248
Графики функций пользователя..............	„............	......249
пава 6. Трехмерный визуальный анализ данных-------------------------............................251
Гистограммы двух переменных....................—....................................256
ЗМ диаграммы диапазонов............................................................ 26С
ЗМ диаграммы размаха..............................._...	.... 264
Трехмерные диа< раммы рассеяния...................................................  269
Графики поверхности..............................................................   776
Карты линий уровня................................................................  28С
Трассировочные графики..........................................................    281
Тернарные графики.................................................................  283
Трехмерные категоризованные графики........................................     ....289
Категоризованные тернарные графики...............................................   293
Графики пользовательских функций.......................................	.	.... 298
Матричные графики................................................................   299
лава 7. Визуальный анализ категоризованных данных................................... 307
Что такое категоризованные графики’...............................................  307
Категоризованные графики и матричные графики......................................  309
Г ис юграммы и описат сльные с  атист аки.....................................  _	,...311
Категоризация значений в каждой гистограмме...................................  ....312
Категоризация значений в составных графиках..................... .	.............312
Категоризованные гистограммы и диаграммы рассеяния................................  315
Подгонка теоретических распределений к наблюдаемым распределениям...................316
Подгонка распределений к множественным гистограммам.........._................_...	317
Категоризованные диаграммы рассеяния......... ...	....318
Нелинейная зависимость ..........____,... ..................................  ....	319
Категоризованные вероятностные графики..............................................320
Катет оризогоннье графики квантиль — квантилг......	...............321
Ка гег ормзованные г рафики верен г нос  ь - вероятность.......................... 322
Категоризованные линейные трафики ...	............... ..........................322
Методы сглаживания...........................................,..............  ....	323
Категоризованные прямоугольные диаграммы...........................  .,... .	. 323
Содержание
Связанные графики...........................— . ....... ....................     325
Категоризованные круговые диаграммы..........................................    327
Круговые диаграммы рассеяния................_...............................  ..	328
Категоризованные диаграммы пропущенных данных и диаграммы диапазонов .	.....329
Категоризованные трехмерные графики.................................    ........	329
Категоризованные тернарные графики....	............................. _____....331
Глава 8. Пиктографики ..........................................................    333
Анализ пиктографиков..........................................................   333
Классификация пиктографиков............................................. ........334
Глава 9. Примеры визуального анализа и настройки графиков в STATISTICA.... 341
Пример 1. Настройка двумерных и трехмерных графжоа.............................. 341
Настройка двумерных графиков............. —.......... ....................  341
Насройка трехмерных графиков...............................................  ЗЫ
Пример 2. Подгонка функций, увеличение и закрашивание........................... 374
Построение диаграммы рассеянии..............................................374
11рибли.жение полиномами................................................... 375
Интерактивное удаление выбросов (Закрашивание)..............................372
Увеличение	.......—>.... -......................................    379
Рисование пользовательской функции..._ .................................    381
Добавление зависимости................................._ —-................ 382
Пр»»*® 3. Динамическое закрапывание (Кисть) —...............— ..............—. 384
Файл данных.....................................................—— .—. 384
Пос'роение наличного графика.......	...........................384
Закрашивание в редакторе данных графика................................     386
Г ример 4. Связывание и внедрение..................... .	,....................387
Расгровье изображения....................................    -.............387
Метафайлы Windows («картинки»)............................................  387
Собственный графический формат системы STATISTICA......---------—----------388
Копирование и вс’эвка графических объекте.....	—...........388
Вставка в виде текста.................._...................................—• 391
Вставка в виде растрового изображения.................................—- 391
Вставка в виде собственного графическою объекта системы STATISTICA.	393
Сепса............................................ .....------------ 394
Функции клиента и сервера в OL=.................. »......................   395
Создание трехмерной гиоограммь........................................      395
Внедрение диаграммы рассеяния...................................л...........395
Редактирование внедренного графика........................................  397
Внедрение или связывание графиков из файлов...............................  392
Автоматическое обновление связанных г рафиков......,	.....398
Управление несколькими графическими объектами...........................  —	398
Изменение очередности изображения графических объектов....................  399
Управление графиками системы STATISTICA в других приложениях Windows средствами OLE...................................._.....................  400
Связывание графика системы STATISTICA-------------------------------------— 401
Редактирование связанного графика...........................................402
Пример 5. Добавление заданных пользователем статистических графиков в окно Галерея графиков и в меню Г рафика........................................-............403
Файл данных..............................................................   404
Определение параметров графика...........................................   404
10
Содержание
Создание нового графика пользователя..........................................405
Выбор заданного пользователем графика.........................................406
Просмотр и редактирование списка графиков пользователя......	.... 407
ава 10. Описательные статистики —...............................................................409
Корреляции..................................................................................414
Вычисление описательных статистик для группированных данных................................ 420
Вчу-ритрупповые корреляции.......................................................—........  424
ава 11. Построение и анализ таблиц................................................................429
Вводный обзор.............................................................................  429
Таблицы частот............................................................................. 434
Таблицы сопряженности и таблицы флагов и заголовков...................... ..................436
Таблицы флагов и заголовков...........................................................440
Статистики таблиц сопряженности.......................................................442
Статистики, основанные на рантах..................................................... 445
Многомерные отклики и дихотомии.......................................................445
Многомерные отклики...................................................................445
Многомерные дихотомии................................-................................447
Кросс табуляция многомерных откликов и дихотомий.................................... 4-*7
Парная кросстабуияция переменных с многомерными откликами.............................448
С(>едс1Вд построения таблиц системы STATISTICA............................................  449
Таблицы частот......................................-.................................449
1аблицы сопряженности и таблицы флатств и заголовков................................. 450
Многомерные отклики и дихотомии........................................  «.«..........4Ы
Примеры ...................................................ф.... г ........................................ 452
(’.ример 1. Таблицы частот........................................................... 452
Гример 2. Таблицы флагов и заголовков................................................ 456
Пример 3. 1аблицы сопряженности.......................................................461
Пример 4. Табулирование многомерных откликов и дихотомий..............................463
Пример (анализ продаж)................................................................474
ава 12. Г-критерий сравнения средних в двух группах данных ...................487
Г-критерий для независимых выборок..........................................................489
Формальное определение t-критерия.........................................................  491
Г-критерий для зависимых выборок............................._....,.......................  492
Гример 1................................................................................... 493
Пример 2....................................................................................495
Множественные сравнения.................................................. «...........498
Однофакторный дисперсионный анализ и апостериорные сравнения средних..................500
ава 13. Непараметрическая статистика ...........................................................504
Краткий обзор непараметрических процедур 504
Описание непараметрнческих процедур на примерах.............................................507
Стартовая ганель модуля Непараметрические статистики..................................5С7
Таблицы частот 2 > 2- статистики Хи/v/Фи-квадрат, Макненара, точный критерий Фишера.........5С8
Наблюдаемые частоты е сравнении с ожидаемыми........................................  511
корреляции (Спирмена R, тау Кендалла, Гамма)... ......... ...	....................512
Матричная диаграмма...............................................................    515
Критерий серий Валтм-,в--Вогьфооица.....................................................    516
U критерий Манна—Уитни............................................».................. 516
Содержание
Двухвьборочный критерий Колмогорова—Смирнова--------------------------------------517
Пример. Критерий серий Вальда—Вольфовица, Манна—Уитни и-критерий, двухвьборочный критерий Колмогорова—Смирнова.......................................517
AKOVA Краскала—Уоллиса и медианный тест............................................522
Критерий знаков................ .............— ..................................  $26
Критерий Вм/жоксона........—........................................   —............	527
ANOVA Фридмана и коэффициент конкордации, или согласия, Кендэлла...................528
Q-критерий Кэхрена................................................................ 529
Описательные статистики............................................................S3U
Медиана------------------------------------------------------------------------    530
Мода.......................———---------— —.........................................-._... 530
Геометрическое среднее ....—..........— ——......................................   531
Гармоническое среднее.......................................-......................531
Дисперсии и стандартное отклонение ....................._........................  531
Размах.................................-................. ——.....................  S31
Квартальный размах.—........................    —	........—....................  531
Асимметрия ..............--—-----------............-----—...................... ,..... 532
Эксцесс..........................................................................  532
Глава 14. Анализ выживаемости	..^.........................533
Введение в анализ выживаемости........................ .........-	----------—--------— 533
Таблицы времен жизни............_............................................      534
Сценки Каплана—Мейера.............................................................      538
Сравнение выживаемости в группах........................................................541
Регрессионные модели в анализе выживаемости--------------------------------------------..... 543
Модель Кокса.......................................................................544
Экспоненциальная регрессия__________________________.............................  5*5
Нсрмалиная и логнормальная регрессия................ ..............................547
Сб.юр системы	.................................................................... 548
Альтерна1ивные процедуры.........................-—.....—.	.......... 549
11ример 1. Таблицы времен жизни..---------------------------------------------—.-.......550
Задание параметров анализа.........................................................55С
Пример 2. Регрессионная модель Кокса________.........____............._..............-.......... 554
Задание параметров анализа.—...______......... -----............ 555
Оценивание параметров_____________, , , ................ ...............---------.......... 556
Результаты------.... ......^  ......................».................... ..........	558
Глава 15. Анализ соответствий...............................................................561
Пример 1 (анализ курильщиков)...........................................................571
Прннер 2 (анализ продаж)........,.......................................... —	-574
Глава 16. Примеры анализа данных в системе STATISTICA.......................................577
Построение плана...................................................................589
Задание имени и сохранениеэкслеринентальногоплана  —,——	- 591
Анализ .экспериментальных данных.............................. ——— 591
Глава 17. Нейронные сети-611
Пре/постлрсцесгироеаняе.....................................................,	---------625
Оценка качества работы сети...................«_»......... .	-------------62/
Диалог в модуле Нейронные сети STATIST ICA .»....»......................................62/
Заключительные комментарии........................................... —................ 636
12
Содержание
Глава 1В. Язык STATISTICA VISUAL BASIC (SVB)----------------------------------------------------------641
Структура языка STATISTICA Visual Basic....	----- ...	-------..— 641
Запись макросов...........................—	— 642
Макрос анализа........................................................................................ —	642
Запись макроса анализа	.	 643
Создание графика.............	 646
Мао ер макрос...................................................................... •........................648
Клавиатурные макросы.... .......................................................................    649
Среда npoi раммирования....................................................................................  649
Основные соггаиения STATISTICA Visual Basic.........................................................	650
Тигы данных, массивы, функции......................................................-.—	652
Операторы управления порядком выполнения команд----------------------------------------------655
Глобальные переменные, передача ар. унесоа по значению и по ссылке	656
Примеры программ с комментариями ..............................—	~...........	. — — 658
Пример: формирование коллекции таблиц данных.....................-........—-....-------------658
Создание таблицы данных и запо/атенме ее случай|ыми числами.... ......................-.............654
Вывод индикатора состояния —..................................   —.....................................—	659
Построение гистограммы г подюнкой нормальною распределения.....................——— ।	— 660
Создание пользовательских диалогов........................................................................   662
Просмотр объектов и функций...............................................................................   663
Приложение 1............_________....---.....--------------------------------------------------------------  667
Приложение 2...............................................................................................—.669
Приложение 3.........................................................................................................б??
Словарь терминов пакета SNA (версия 4.С).....................—...........................................    677
Функции активации, реализованные в SNN.....................— .,— -...........................683
Функции ошибок, доступные в SNN-------------685
PSP-функции  ...................................................................................    686
Алфавитный указатель--------------------..........---------------------------------------------—------6В7
Введение
В книге, написанной научным директором компании StatSoft Russia, изложен концепция н технология современного анализа данных на компьютере. На основ элементарных понятии описываются углубленные методы анализа в систем STATISTICA (StatSoft), иллюстрированные многочисленными примерами и экономики, маркет инга, рекламы. бизнеса, медицины, промышленности и други областей. Большое внимание уделяется основным понятиям анализа данпьг разведочному анализу данных, группировке, анализу и построению таблиц -важным этапам анализа данных, на которых формируются и проверяются гнпотс зы о структуре данных и связях между ними.
В книге изложены классические п современные методы анализа данных, позы ляющпс получить всестороннее описание данных (например, в задачах массовог обследования и мониторинга), провести классификацию, найти закономерности зависимости между переменными, - иными словами, ответить на важные вопрс сы, которые задает исследователь, впервые столкнувшийся с огромным массиве информации
Подробно описан визуальный анализ как первый этап сложного исследования. -сотни типов графиков в STATISTICA. включая двумерные, трехмерные, катсгорп зоваиные графики и пиктографики подробно рассмотрены с описанием опции з настроек.
Все это делаеткнигу настольной для многочисленных пользователей STATISTICS Предлшасмая книга адресована самому широкому кругу читателей, жслаюшн стать профессионалами в анализе данных па STATISTICA в бизнесе, маркетинге ф| । нэ| icax, управлении, эконом i ikc. промыт ценности, страховании, медпш i не и дру гих приложениях.
Книга дополнена компакт-диском, включающим последнюю версию зпамс питого учебника StatSoft по анализу данных, а также учебник по промышлеп ной статистике, материалы обучающих курсов, демо-версии STATISTICA и SNI (нейронные сети), огромое количество данных для обучения и проведения само стоятетьпых исследований в STATISTICA и SNN.
Во второе издание книги добавлены новые материалы, исправлены ошибки пер вого издания, а также написана новая глава о языке STATISTICA VISUAL BASIC (SVB), появившемся в 6-й версии STATISTICA Кроме того, произведено обнов ление диска с добавлением некоторых программ на SVB. снабженных коммента рпями на русском языке.
вступительное эссе: риглашение к анализу энных на компьютере
Окружающий нас мир насыщен информацией — разнообразные потоки данных окружают нас, захватывая в полссвоего действия, лишая правильного восприятия тсиств|ггелы|ости. Не будет преувеличением сказать, что информация становится чаи ью действительности и нашего сознания.
Без адекватных технологии анализа данных человек оказывается беспомощным в жестокой информационной среде и скорее напоминает броуновскую частицу, испытывающую жестокие удары со стороны п не имеющую возможности рационально принять решение.
Статис гика позволяет компактно описать данные, понять их структуру, провести классификацию, увидеть закономерности в хаосе случайных явлений. Удивите 1ыю, что даже простейшие методы визуального и разведочного анализа данных позволяют существенно прояснить сложную ситуацию, первоначально поражающую нагромождением цифр.
Особенность этой книги заключается в том, что в ней всесторонне, с подробными примерами описано применение разнообразных методов анализа данных.
Вообще, наша идея состояла в том, чтобы вывалить из мешка различные мето ды, написав своего рода популярную энциклопедию всевозможных методов анализа данных, и позволить пользователю, применяя систему STATISTICA, свободно экспериментировать с этими методами, работая как с собственными данными, так и с предлагаемыми нами. Мы дополнили книгу компакт-диском, на котором записаны демо-версии системы ST ATISTIC А,файлы данных, материалы курсов и многое другое. Запустите диск и одновременно читайте книгу — это позволит всесторонне освоить технологии анализа данных.
Мы описываем как классические методы анализа, так и современные, включая нейронные сети, в частности, чрезвычайно интересный анализ соответствий, позволяющий исследовать сложные многомерные таблицы, возникающие в экономике, маркетинге, медицине и других областях. Даже традиционные методы мы стараемся рассмотреть под новым углом зрения, акцентируя внимание на нестандартных приложениях.
Визуальные методы анализа данных чрезвычайно важны, и мы посаящаем им несколько глав. Многие явления, остающиеся за кадром, становятся отчетливыми, если найти подходящее графическое представление
Вступительное эссе: приглашение к анализу данных на компьютере 15
I lanpii.wp. на фафике, прннедеш1<1мнюке. мы видим дна временных ряда: цены па нсф| ь и долларах за баррель и куре доллара по отношению к рублю за несколько лет Рассматривая график. вы видите, какие тенденции имеются в данных. Конец но, это простейший вариант графического представления!
Далее вы можете перейти к построению более сложных моделей, однако первые акоиочсрностя. найденные визуально, сохранятся и в углубленных моделях Нмеп-KI поэтому мы уделяем низу из изашш столь большое внимание.
Множество практических примеров рассмотрено в данной книге. Чтобы сде-шть изложение систематическим, мы начинаем с простейших понятий — которых. : счастью, нс так и много — и учимся говорить па языке анализа данных, рассмат ривая простые и понятные всем примеры, постепенно развивая их до сложных д»аач
М ы не следим тщательно за строгим обоснованием методов, а просто говорим: имею гея такие-то методы и там-то их применение принесло успех Исли вы жслае-попробуйте применить яти методы для анализа собственных данных и, быть лет, по.|уч1ГТС обнадеживающий результат.
Рис. 1. Динамика цены 1-го Барреля нефти (в долларах) и реального курса доллара (покупательной способности доллара, выраженной в рублях)
Но что значит обнадеживающий результат? Если из множества возможных ва-। лантов действий вы с большей вероятностью, чем ваш противник, выбираете правильный вар| 1ант или добиваетесь более ясного noiiимя шя деистыггелыгости, «снимая» случайность, то, очевидно, вы находитесь в лучшей ситуации, чем ранее, когда слагались на волю случая и отдавали себя во власть неопределенности.
Итак, разнообразие методов и обилие примеров — вот основная идея книги, ко-1 эрая по этой причине может быть названа энциклопедией методов анализа и об-астеи их применения. Строгое обоснование методов — не наша цель, так как многие интуитивно понятные методы н родились из решения практических задач и тишь позднее получили строгое математическое обоснование, что никак не уменьшает их прагматической ценности.
Для широкого круга пользователей полезно знать, где и какие методы применялись на практике и когда приве л! к успеху, и мы хотим максимально развить интуитивное представление пользователя об анализе чайных, не предполагая наличия
16
Вступительное эссе: приглашение к анализу данных на компьютере
у него специальной подготовки Таким образом, мы хотим познакомит ь чнтатетя с к1/1ът!)ры1 анализа данных.
В качестне источника данных мы используем, например, Интернет п иллюстрируем применение методов анализа на этих данных Популярность Интернета общеизвестна, но что нового может дать анализ данных в этой области? Вот один из примеров. Вы производите поиск по различным ключевым словам в некоторых поисковых системах и отмечаете количество ссылок; спрашивается, различаются системы поиска или пег? Именно с такого рода примерами мы будем иметь дето.
Ниже приведены графики количества посетителей сайта. Скрашивается, как строго доказать, что реклама имела успех9 Правило 3-сигма позволяет оценить эффекта в । гость рекламной кампан! ш и. следовательно, работу' менеджера по рекламе.
ДНИ
Рис, 2. Оценка эффективности рекламы
График спектральной плотности показывает, что в данных имеется отчетливая периодичность с лагом 7. так как пик спектральной плотности приходится на 7 дней

Спектр, анализ. HOST Число набл.: 72
Веса Хемминга: .0357 J2411.4464 J2411.0357
Рис. 3. График спектральной плотности
Вступительное эссе: приглашение к анализу данных на компьютере
17
График недельной составляющей позволяет увидеть, как изменяется (впршк н-чх) число посещений сайта в зависимости от дня недели. Иссл* и ра.м к*ть па- рузки Интернета в рабочие и выходные дни. можно оценить долю «домашних» подключений к сети.
11одоб| । ого рода закономср! юетн возникают в самых разд и ч 11 ых областях. в тор- овле, бизнесе, промышленности, — важно уметь находить их н использовать н с hoi IX це."ях.
Рис. 4. Зависмость заходоа на сайт от дней недели
Прогнозирование* представьте, что вы имеете данные ежемесячных продаж. Вам нужно спрогнозировать продажи па текущий месяц. Как вам поступить? Вполне разумный подход состоит в гом, чтобы взять в качестве прогноза продажи предыдущего месяца. Далее вы можете развить этот подход, использовать для прогноза продажи нескольких предыдущих месяцев, усреднить их, например, с разными весами Как крайний случай, вы усредняете все продажи. Так из вполне естественных рассуждений возникает метод скользящего среднего.
Если вы хотите учесть сезонный фактор, например прогнозировать продажи в январе текущего года, используя информацию о продажах в январе предыдущего года, то следует использовать сезонное скользящее среднее Если вы хотите учесть псе продажи, но с разными весами, то используется экспоненциальное ci тажлва Пне (exponential smoothing) с очевидными вариациями- сезонное или нессзонное. с трендом (отчетливо выраженной тенденцией) пли без тренда. Обобщение модели скользящего среднего приводит к моделям АРПСС — авторегрессии и проинтегрированного скользящего среднего, или. в английской терминологии, ARIMA (Autoregressive Integrated Moving Average).
Какую из этих моделей выбрать? Ответ: запустите STATISTICA и поэксперн-ме 11 тируйте с различными моделями Разбейте данные на две группы — используйi-те данные второй группы для проверки качества прогноза (для проверки можно оставить, например, пятую часть ряда). STATISTICA позволяет экспериментировать с методами анализа, а это огромное достижение!
В тех ситуациях, когда классические методы нс работают, можно испытать нейронные сети. Мы рассматриваем их как полезный инструмент анализа, пмеюшни своп достоинства и ограничения (см. главе* 17).
18
Вступительное эссе: приглашение к анализу данных на компьютере
Вот типичный пример. Рассмотрим данные о розничных продажах бензина в США (данные доступны на сайте www.economagic.com в разделе Census Bureau; Retail Sales by Kind of Business). В численном виде данные приведены в приложении 1. Прогнозирование тех желанных с помощью нейронных сетей описано в приложении 2.
На графике данные имеют вид:
Рис. 5. Розничные продажи бензина в QUA
С помощью графика можно выделить два временных интервала, на которых поведение ряда существенно различается.
Технологии прогнозирования, описанные в книге Боровиков В. П. Ивченко Г. И. «Прогнозирование в системе STATISTICA в среде Windows», М.: Финансы и статистика, 2000, позволяют построить прогноз продаж бензина с помощью моделей ARIMA — АРПСС (авторегрессии и проинтегрированного скользящего среднего).
Рис. 6. Модуль анализ временных рядов в STATISTICA
Вступительное эссе: приглашение к анализу данных на компьютере______________19
Рис. 7. Построение прогноза продаж с помощью моделей АРПСС
Рис. 8. Прогноз продаж бензина с помощью моделей АРПСС
В качестве альтернативы можно использовать экспоненциальное сглаживание. На следующих рисунках показан прогноз, построенный с помощью экспоненциального сглаживания, который сравнивается с прогнозом на основе модели ARIMA — АРПСС. Мы использовали часть данных для построения модели, а па оставшихся данных сравнивали прогнозы.
20
Вступительное эссе: приглашение к анализу данных на компьютере
« 5 i S3 11 л * % £ Si 8 Hi I t « i ' 1 ii I
Рис. 10. Сравнение прогнозов
Хотя в книге мы обращаем внимание на тонкие моменты исследования, более важная наша задача — показать читателям, на какие результаты вообще можно рас-СЧ1П ывать, применяя данный метод, и как избежать явных ошибок
Итак, нам хотетось бы донести до читателя клише анализа данных: от визуального анализа данных, описания данных с помощью простейших дескриптивных статистик дос южных продвинутых методов, позволяющих понять структуру данных. классифицировать данные и оценить связи между ними.
Рацее, до появления персональных компьютеров, анализ реальных данных был чрезвычайно сложным, требующим больших шпеллектуальиых усилий делом, и пи о каких технологиях нс могло быть и речи. Это было дело небольшого круга посвященных.
Благодаря таким системам, как STATISTICA, открылся путь к новым технологиям анализа данных, максимально сокращающий рутинные процедуры и делающий анализ максимально доступным для широкого круга пользователей.
Наследующих рисунках показан типичный диалог в STATISTICA.
Рис. 11. Рабочее окно STATISTICA с файлом данных о проблемных банках
Вступительное эссе: приглашение к анализу данных на компьютере 21
Рис. 12. Логит-регрессия в STATISTICA — выбор метода оценивания
Рис. 13. Задание начальных приближений и оценки параметров модели
22
Вступительное эссе: приглашение к анализу данных на компьютере
Если раньше каждый шаг исследований: представление данных, перевод их в нужный формат, проверка, группировка, сортировка, сжатие, графическая интерпретация, запуск программы обработки, задание параметров анализа, просмотр результатов, был трудной задачей, то теперь достаточно двух-трех щелчков мыши, чтобы огромные объемы данных чрезвычайно быстро преобразовались, обработались и появились на экране в виде графиков, диаграмм, таблиц, статистик критериев
Наша точка зрения состоит в том, что при современном развитии компьютерных технологий начальные этапы анализа данных, визуальный и описательный анализ, а также пробное применение сложных методов вполне могут проводить специалисты из конкретных областей — те, кому результаты анализа в первую очередь нужны и кто располагает реальными данными, «вжился» в них
Представьте, вы анализируете некоторый рынок, то есть множество товаров, цен, продавцов, покупателей и т. д. Прежде всего, ваша задача состоит в том,чтобы разумно описать рынок, например рынок недвижимости. — ввести данные, провести визуальный анализ, сгруппировать данные и найти некоторые первые устойчивые «акономерности в организации рынка. Уже первые шаги такого анализа показывают. что па цены, в основном, влияет тип квартиры и рапой. Остальные характеристики менее значимы. Так, первый этаж снижает стоимость квартиры примерно на 1 '10, последний — в 2—3 раза меньше. Отсутствие балкона или лоджии также снижает стоимость (примерно на ту же величину, что последний этаж). Наличие или отсутствие телефона практически не влияет на цену, но продать телефонизированную квартиру значительно проше. В общем, разница цен между кирпичными и панельными домами невелика, скажем, процентов 5, — имейте в виду, что данный пример во многом искусственный, — но ближе к центру больше ценятся кирпичные дома и т. д.
Проведение такого рода описательного анализа, построение попятных графиков и ответы на разнообразные простые вопросы типа: «А что у нас по пятницам?» и 1. д. — это первый естественный шаг всякого исследования При этом используются самые простые описательные статистики, графики, группировка данных..
Вступительное эссе: приглашение к анализу данных на компьютере
23
Далее, после разбиения жилья на однородные группы, возникают более слиж-ные аналитические вопросы, например, как влияет па стоимость типового жилья появление элитных квартир9 Или как повлияют большие продали муниципального жилья на пены9 Как зависит спрос от сезонной составляющей9 Как зависят продажи от текущего строительства в городе? Мы рассмотрели рынок недвижимо iTU. но точно такие же методы применяются при исследовании других рынков: финансового, фондовых, товарных, сырьевых..
Здесь нужно перейти от описательного анализа к более сложным статистическим моделям, например регрессионным
Любой рынок но существу своему многомерен, то есть описывается многими параметрами, поэтому необходимо применять многомерные методы, например факторный анализ, чтобы понять, какие факторы в основном влияют на цену квартиры. многомерное шкалирование, деревья классификации п т. д Для апал пза динамики цеп п прогнозирования изменения цен в зависимости от времени применяются методы анализа временных рядов.
Очень многие сложные задачи успешно решаются довольно простыми статпс-1 нческимн методами. Например, известно, что краткосрочная финансовая политика США строится на основе модели линейной регрессии с учетом сезонной ияфор-пип о финансах Однако применение даже простых методов приносит эффект
В бурно развивающейся отрасли средств телекоммуникации важно решать еле у. клипс задачи:
О прогнозировать пиковые нагрузки в сети,
J оценивать недельные колебания нагрузки
> рационально выбирать место строительства новой станции для эффективного развития сети.
В принципе, задача рационального выбора места строительства станции может быть ретена с помощью методов множественной (многомерной) регрессии. Она 1 цолне аналогична разбираемой нам и задачи о строительстве атомной станции.
Оценка колебаний нагрузки сети в зависимости от дней недели решается с помощью метода сезонной декомпозиции. Для npoi позирования нагрузки в сети можно использовать модели авторегрессии и проинтегрированного скользящего среднего.
Регрессионные модели также используются для процентной) выражения прибыли магазина определенного типа в текущем году. В качестве регрессоров всполь-тотся величина спроса, качество товаров, рост доходов и др. (см например, статью Tliurik A. R. (1985). Retail margins d iiring recession and growth. Econ Lett., 17 N- 3, p. 281-284, где даются расчеты по данным реальных наблюдений и финансово-экономический анализ результатов)
Регрессия эффективно применяется для анализа экономической активности в [езл ичных регионах.
Такая модель, например, с успехом применялась для анализа реальных данных б Швеции. Степень вариации пли изменчивости параметров модели для различных муниципалитетов интерпретировалась как пространственная изменчивость, а для эффективного оценивания неизвестных параметров принимались некоторые априорные допущения о величине их изменения, см например, работу Westlund Anders Н. (1986) On econometric analysis of regional structural variability. Adv. Model!. \nd Simul., 5. hfc 3, p. 25-44.
24
Вступительное эссе: приглашение к анализу данных на компьютере
Интересные результаты регрессии д чя прогнозирования доходов телевизионных компаний в зависимости от трех факторов: числа продаваемых телевизоров, общего числа рекламных объявлений и правительственных мер, ограничивающих некоторую рекламу (например, рекламу сигарет), можно также получить с помощью регрессионных моделей и т. л.
Мы употреби чи слово «регрессия», которое в анализе данных имеет почти магическое значение и, возможно, отпугивает своей странностью mhoi их
Но что такое регрессия? В денет вптелыюстп, регрессия — это очень просто, и если отбросить статистический жаргон, включающий такое малопонятное слово, как «регрессия», то вы легко поймете, в чем здесь дело.
Представьте, вы изучает е годовой доход телевизионных компаний. «От чего он может зависеть7» — спрашиваете ны себя и перечисляете следующие факторы, от которых зависит доход: число зрителей, смотрящих ТВ, затраты па рекламу в гад и некоторые дру! не.
Тогда регрессия — это просто уравнение, в котором в левой части стоит интересующая вас переменная, например годовой доход, а в правой число зрителей, умноженное на некоторый коэффициент, плюс затраты на рекламу, умноженные па другой коэффициент, плюс другие параметры. То есть вы имеете уравнение:
ДОХОД = А1 х ЧИСЛО_ЗРИТЕЛЕЙ + А2 х РРКЛАМА+
Итак, у вас есть просто зависимость одной переменной от дру| их. Замечательно, что все параметры (коэффициенты уравнения в правой части) рассчитываются но реальным данным, а не назначаются умозрительно.
«А для чего мне нужна эта зависимость, выраженная в явном виде?» — спросите вы. Предположим, ны расширили сеть кабельного телевидения. то ест ь увеличили число зрителей, тогда вы можете спрогнозировать свой доход. Именно так и поступал R. Sassonc в исследовании, выполненном в 1978 году в США (данные были подучены частично от McCann-Enckson, Гпс., частично от 1 elevision Bureau of Advertising).
Аналогично вы можете спросить себя, каким обра,юм изменятся внутренние цепы на нефть при изменении иен на международном рынке, и попытаться ответа п> на этот вопрос с помощью регрессионного анализа. Типичная задача анализа качества: вы имеете группы поставщиков сырья и показатели качества продукции. Как зависит качество продукции от качества сырья?
Слово «регрессия» мы часто будем заменять словом «зависимость» и надеемся, нас правильно поймут. Вообще, мы будем стараться макепмалыгоуходитьел статистического жаргона и выражаться доступным для ка кдого здравомыслящего человека языком Потому что на этом языке изначальноформулпруютсязалачп апализаданных.
Известны сотни эффективных применении статистических методов в регрес-с ли, в том числе в экономике, маркетинге, финансах, медицине, промышленности и т. д. Результаты выглядят очень простыми, естественными н впечатляющими
Невозможно проведение актуарных расчетов без анализа конкретных данных — клиента интересует реальный риск, а не виртуальный, так как от оценки риска зависит конкретная процентная ставка и реальный платеж.
Важным полем применения статист нческих методов являются современные системы электронной торговли. Успешные действия систем онлай новой торговли требуют от фирм предсказания поведения пндишщуальных покупателей.
Вступительное эссе: приглашение к анализу данных на компьютере
Крупнейшие фирмы, занимаясь электронной коммерцией, несут ежегодно и ромные убытки из-за того, что 5—10% покупателей меняютфпрму или переходят в пассивное сос гояиие (см. Greg М. Allcnbv. Robert Р Leone and Lichung Jen (1999). X dynamic model of purchase timing with application to direct marketing. J. American Statistical Association, v. 94. № 446. p. 365-374). Системы регистрации элсктрон->ii торговли позволяют зафиксировать моменты прихода каждого покупателя в магазин, сумм)' сделки, количество товаров и другие параметры. Здесь уже все го-1>вол’1Я проведения статистического анализа. Важно спланировать его и провести .zinnia системно.
Одна из возможных задач состоит, например, в том, чтобы оценить периоды меж- покупками и изменить страта ию воздействия на покупателя — например, проги более активную рекламную кампанию, если покупатель нс обращается на фирму в течение чрезмерно долгого времени.
Для описания интервалов времени между приходами посетителей в электронный магазин можно использовать, например, гамма-распрсделеппе
На модельных данных, отражающих рсальиуюситуацию. памп подробно разби-згтся пример СУ ПЕРМАРКЕТТ or первичного, описательного анализа данных о «супках в течение дня до у гчублениогоанализа и получения неочевидных выводов
Мы начинаем с корреляционной матрицы продаж:
Рис. 15. Корреляции между покупками различных товаров
Затем рассматриваются графики, исследуется вариабельность покупок в завн пмпсти от дней недели, применяется многомерный анализ. анализируется погре ^чпецьская корзина для различных категории пользователей, различных дней Пеле 111 и т. д.
Рис. 16. Продажа спиртного в зависимости от дней недели
26
Вступительное эссе: приглашение к анализу данных на компьютере
Рис. 17. Продажа колбас в различные дни недели
Рис. 18. Зависимость суммарный покупок от дней недели

Как уже говорилось, много примеров связано с Интернетом. Имея файл с час-1 стами посещений различных страниц сайта, можно изучить структуру посещений разшчных страниц
Рис. 19. Посещение страниц сайта пользователями
Вступительное эссе: приглашение к анализу данных на компьютере
27
В частности, можно получить выводы типа: из 100 человек, посетивших страницу ОФИРМЕ, 70 человек посети ди страницу ПРОДУКТЫ, 50 человек посетили страницу ПОДДЕРЖКА, 20 человек посетили страницу ВАКАНСИИ Все это делается в модуле Основные статистики и таблицы системы STATISTICA. Нетрудно также оценить вероятность того, что пользователь с определенной страницы сайта, например страницы А, перейдет на страницу В. Блуждание пользователя по сайту вполне описывав гея вероятностной моделью. Имея исходные данные, можно оценить параметры этой модели и рассчитать типичный «путы».
В отдельной главе нами всесторонне описываются различные распределен ня вероятностей и их применение на практике. Зная вероятные распределения, можно описать многие реальные явления, например спрогнозировать число покупателей в определенные промежутки времени.
Рис. 20. Приход покупателей в магазин электронной торговли
Рис. 21. Гамма-распределение может быть использовано для моделирования моментов посещения электронного магазина
28
Вступительное эссе: приглашение к анализу данных на компьютере
Общеизвестно применение с i атлетики в медицине и фармаколец j j и. Оценка эффективнее ut лекарств, классификация больных по степени тяжести заболевания, нч юдоваппс кардиограмм, самые разнообразные т< •ты, позволяющие диагностировать пациентов па раннем .этапе заболевания, и многие другие задачи хорошо изндетны. Только математика открывает пуп, к доказательной медицине.
В знаменитом фрэмииiхсмском исследовании, выполненном в США (см. Truer J . Cornfield. J„ and Kendall. W. (1967). Л Multivariate Analysis of the Risk ol Coronary Heart Disease in Framingham, Journal of Chronic Disease 20. p 511—521),» гатистпческпй аиал из применялся для оценивания зависимости рис ка pa jhu гня ишемической болезни сердца от семи факторов.
В тгом исследовании в течение 12 лет были собраны данные о проявлениях и ше-мической болезни у 1929 мужчин и 2540женши1| в возрасте от 30 до 62 тет. В нача-п’ обследования все пациенты были здоровы. Факторами риска служили: возраст, ы |цчеств« холестерина в крови, систолическое давление, вес, количество темен п.юина в крови, количество выкуриваемых вдень сигарет (0—для некурящих, 1 для выкуривающих меньше одной пачки. 2 — одну пачку, 3 — больше одной пдчкн). электрокардпецрамма (0 — нормальная, 1 — ненормальная или неясная).
Проведенный анализ позволил изучить влияние факторов риска на развп-' иг ишемической болезни сердца н стимулировал петый ряд подобных примеров । • 1мых различных медицинских приложениях
Ра<к мотрим классические данные Гринвуда и Юла о влиянии прививки на за-<«. 10В,.-мость холерой (данные относятся к началу XX века, см., например, Спра-I* «ник по прикладной статистике, т. 1,М.: 1989. с. 245)
В приведенной ниже таблице показаны 2663 пациента, части из которых были t деланы прививки против холеры (привитые пациенты), а части пет (непривитые Пациенты)
	Не заболевшие	Заболевшие	Сумма
Привитые	1625	5	1630
Не привитые	1022	11	1033
Сумма	2 647	16	2 663
Ч го можно сказать, глядя на эту таблицу’ Прежде всего, видно, что среди тех, мо сделал прививку, число заболевших меньше, чем среди тех. кто нс сделал приник । (второй столбец таблицы, первая и вторая строка).
Кроме того, число не заболевших средн привитых пациентов больше, чем неза-б . гевших среди кс привитых (первый столбец таблицы). Это делает правдоподобием заключение об эффективности прививки.
11о как перевести эти рассуждения на рациональный язык’ Имеется ли вообще ткойязык?
I Гредставы с. нашелся критик результатов (uoboiu метода лечения, нового ле-ырства), который, заняв крайнюю позицию, резонно ммечает, что и в том и в дру-1ом случае, то есть и среди привитых пациентов, и средн не привитых, были отмечены случаи заболевания, иными словами, полученные результаты носят чисто с лучайный характер, и утверждение об эффективности прививки весьма сомиц-ютьно.
Как рационально ответить на подобную критику?
Вступительное эссе: приглашение к анализу данных на компьютере
Лучше всего воспользоваться вероятностными рассуждениями и подходящим , । атпстическим критерием Для такого рода таблиц, называемых таблицами сопря-кеиноьти, имеются специально разработанные критерии, например критерий хи-квадрат и критерий Фишера, названный по имени знаменитого английского статистика Р. А. Фишера-
Эти критерии измеряют силу связи между признаками (переменными) таблицы, в данном примере между признаком прививка и признаком бояезиь.
Для представленной выше таблицы величина сташстики хи-квадрат раина 6,08, । о значимо па уровне 0,0136 (чтобы получить эти цифры, мы сделали два щелчка мыши в системе STATISTICA).
Следовате шно, с небольшой вероя гпостыо ошибки (меньше 0,0136) вы может е ,-исрждать, что среди привитых пациентов количество заболевших существенно меньше, чем средн непривитых. Поэтому вероятность того, ч го суждение критика неэффективности вакцины справедливо. равна всего 0,0136 (примерно один шанс 11} 70). Ваша же опенка достоверности резу-штатов существенно выше.
Весьма полезным визуальным метолом изучения зависимостей между призна-. ,»чи таблицы являются графики взаимодействий:
Рис. 22. График зависимости БОЛЕЗНЬ—ПРИВИВКА
Здесь показаны две прямые, соответствующие категориям больных: привитые — ie привитые. Если прямые пересекаются, то говорят, что признаки взаимодействуют. влияют дру1 на друга. Если прямые параллельны, то говорят, что взаимодействия или зависимости между признаками нет. Это визуальный подход, точные ।  -зультаты дают статистические критерии
Первые применения стат котики в медник не, по-видимому, относятся к XVI [I веку, когда в Англии было замечено, что относительная частота смертности мужчин и кеццлш одного возраста, живущих примерно в одинаковых условиях, из года в год колеблется, но колеблется в весьма узких пределах. Самым интересным здесь является замечание: «колеблется в узких пределах», — всем известно, что колебании происходят, — неожиданным фактом являются узкие границы колебания, что позволяет с большой точностью предсказать долю умерших в той и in иной категории населения и служит основой актуарных расчетов
Итак, в случайном явлении — смертности или. наоборот, выживаемости людей — была открыта устойчивая закономерность, относительная частота пли допя для
30
Вступительное эссе: приглашение к анализу данных на компьютере
нолей очного пота и близкого возраста примерно постоянна. А эти удивительное открытие, повлекшее за сивой множество событий, в частности современное страхование.
В современной медицине накопились огромные архивы данных, н их исследование с помощью новых технологий чре шычайно важная задача. STATISTICA позволяет реализовать системный подход к анализу данных.
У кажтого врача имеется собственный архив данных, отражающий многолетний опытен»работы, — огромный массив знании, имеющий большую познавательную ценность
Ценность этой информации может бы гь многократно увеличена, если воспользоваться методами анализа данных. И в этот момент на помощь нрачу приходит ин тема STATISTICA. позволяющая перевести клинический опыт на язык количественных оценок (подробнеео применении статистики в медицине см.: Ст. Глани. Медико-биологическая статистика. М., 1999).
В STATISTICA реализованы множество методов, чрезвычайно полезных врачам для анализа их данных, в частности описательные статистики и таблицы, анализ выживаемости, непараметрическая стат нстнка. дискриминантный анализ и др.
Рис. 23. Анализ выживаемости в системе STATISTICA
Анализ выживаемости позволяет проанализировать неполные или цензурированные данные, например, о выживаемости больных после операции (рис. 24).
Рис. 24. Данные по трансплантации сердца
Одной ил важных характеристик является функция выживаемости (вероятности того, чго пациент проживет! дней после операции. Для оценки функции выживаемости по неполным данным используют так называемую оценку Каплана—Мейера, которая может быть легко получена в STATISTICA (рис. 25).
Вступительное эссе: приглашение к анализу данных на компьютере 31
Рис. 25. Функция выживаемости после операции
Этот график легко «читается»: вы легко видите, например, что доля пациентов, проживших больше 10ОО дней, равна 0.4.
Можно сравнить функции выживаемости в разных больницах, для разных возрастных групп (рис. 26).
Рис. 26. Сравнение выживаемости е разных группах
Рис 27. Модуль Непзранетрические статистики в системе STATISTICA
32
Вступительное эссе: приглашение к анализу данных на компьютере
Опишем еще одну важную область применения статистических меоi юн — современное высокотехнологичное производство.
Традиционную область применения статистичевшн о анализа данных < с i авляет промышленность.
Обычно любая машина или станок, используемые на производст ве, позволяют операторам производить настройки, чтобы воздействовать на качество производимого продукта. Изменяя настройки, инженер стремится добиться максимального эффек та, а также выяснить, какие факторы играют наиболее важную роль в улучшении качества продукции Использование этой информации позволяет достигнуть оптимального качества в условиях данного пронзиодсгна.
Например, на производстве (см. например, книгу: Box, Draper (1990), Empirical inudel-binkling and response surfaces. New York: Wiley, 115) проводился эксперимент по нахождению оптимальных условий для и иотовлеиня красителя ткани. Кпчтшю красителя описывается насыщенностью, яркостью н стойкостью.
Другими словами, в этом эксперименте нам хотелось бы выявить факторы, наиболее заметно (значимо) влияющие на яркость, насыщенность и стойкость производимого красителя. В примере Бокса и Дрейпера рассматривается 6 различных факторов, влияние которых оценивается с помощью так называемого плана 2**°* В данном плаце первоначально рассматривались 6 факторов, принимающих 2 значения, то есть всего имелось 26 “ 32 различных вариантов установок. Результаты эксперимента выявили три наиболее важных фактора: Polysulfide ( Поли сульфид). Time (Время) и Temperature (Температура).
Можно представить ожидаемое воздействие на интересующую нас переменную (например, светостойкость окрас кн) в виде так называемой кубической диаграммы. которая показывает ожидаемую (предсказываемую) среднюю стойкость краски. нанесенном на ткань, на верхних и нижних уровнях каждого нз трех факторов, и определить тс значения факторов, которые обеспечивают максимальное качество продукции (рис. 28).
Рис 28. Кубическая диаграмма показывает значимость факторов, установленных на разных уровнях
Вступительное эссе: приглашение к анализу данных на компьютере
33
Глядя на эту диаграмму, легко можно понять, что наилучшее расположение факторов для максимина цин качества красителя следующее: Poly sulfide установлен на верхнем уровне HIGH. Time — на верхнем уровне LONG, Temperature — на верхнем уровне HIGH Таким образом, оптимум достигается на дальней вершине ку ба (см. рис. 28).
В описанном эксперименте присутствовало 6 факторов, нередки, однако, случаи, когда очень много (до 100) различных факторов являются потенциально важными на производстве, однако заранее вы не знаете, какие факторы важны, а какие нет.
Специальные планы, например план Плакетта—Бермана или планы с матрицей Ддамара, позволяют эффективно «просеять* или, как говорят на статистическом сленге, ироскри пировать большое число факторов, используя минимальное число наблюдений.
Например, вы можете спланировать и проанализировать эксперимент со 127 факторами, используя всего 128 опытов, азатем оценить главный эффект каждого фактора, определив, какие факторы играют доминирующую роль, а какие нет.
Выход продукта многих химических реакций является функцией времени и температуры. Ксожалению, эти переменные влияют на выход нелинейно. Другими товамп. нельзя сказать: «чем больше продолжительность реакции, тем больше выход» и «чем выше температура, тем больше выход». Цель экспериментатора заключается в определении оптимального выхода или экстремальной точки поверхности выхода, образованной двумя переменными: временем и температурой.
При проведении таких экспериментов используют так называемые центральные композиционные планы, позволяющие инженерам-технологам оценить поверхность регрессии (рис. 29 и 30) и найти экстремумы этой поверхности, или точки, отвечающие заданному значению зависимой переменной.
Подоб] ibie планы применялись, например, для исследования ракетного топлива, в состав которого входили три компоненты: связывающее вещество, окислитель и горючее, а характеристикой качества являлась эластичность продукта (см. также планы для смесей в модуле Планирование эксперимента в системе STATISTICA)
Требовалось найти такие пропорции (доли) компонент, чтобы эластичность дожигала заданного значения (см. Kurotori I. S. (1966). Experiment with mixtures of components having lower bounds. Industrial Quality Control, № 2, p. 592-596).
Рис, 29. Поверхность регрессии
34
Вступительное эссе- приглашение к анализу данных на компьютере
Рис. 30. Визуальные методы STATISTICA при планировании экспериментов
Это типичные задач и планирования эксперимента, возникающие на производстве, и система STATISTICA предоставляет эффективные методы их решения.
Ниже показаны методы планирования эксперимента, доступные в системе.
Не менее важны в промышленности задачи контроля качества.
Для всех производственных процессов возникает необходимость установить пре-зелы характеристик изделия, в рамках которых произведенная продукция удовлетворяет своему предназначению. Вообще говоря, существует два «врага» качества продукции:
1. Уклонен ня от значений плановых спецификаций изделия.
2. Слишком высокая изменчивость реальных характеристик модели й относительно значений плановых спецификаций, что говорит о несбалансированности процесса
Вступительное эссе: приглашение к анализу данных на компьютере
35
На Л шее ранних стадиях отладки производственного процесса для оптимизации этих двух показателей качества производства часто используются описанные выше методы планирования эксперимента.
Методы контроля качества предназначены для построения процедур контроля качества продукции в процессе ее производства, то есть текущего контроля качества Детальное описание принципов построения контрольных карт и подробные примеры можно натп и в работах: Buffa (1972) Operation management: Problems and models (3"1 ed), New York: Wiley', Duncan (1974) Quality control and industrial statistics, Homewood, IL: Richard D. Irwin, Granl and Leavenworth (1980) Statistical quality control (5lfc ed.) New York: McGraw-Hill. Juran and Gryna (1988) Quality planning „ »d analysis (2n,,ed.) New York: McGraw-Hill. Montgomery (1985) Statistical quality control New York: Wiley. Montgomery (1991) Design and analysis of experiment (34 cd ) New York: Wiley, Shirland (1993) или Vaughn (1974).
В качестве превосходного вводного курса, построенного на основе подхода «ь.|К — чтобы», можно указать монографию Hart and Hart (1989) Quantitative methods юг quality improvement. Milwaukee, WI. ASQC Quality Press.
Особенно интенсивно методы контроля качества используются в США, Германии, Японии.
Общий подход к текущему контролю качества заключается в следующем.
В процессе производства из произведенной продукции или поступающего । лрья проводится отбор выборок изделий заданного объема. После этого на специально разлинованной бумаге строятся диаграммы средних значений и измен-.шости выборочных значений плановых спецификаций в этих выборках и рае-< магрпвастся степень их близости к плановым значениям. Если диаграммы обнаруживают наличие тренда выборочных значений или выборочные значения иываются вне заданных пределов, то считается, что процесс вышел из-под контроля, и предпринимаются необходимые действия для того, чтобы найти лри-11 «ну разладки.
Гакпе специальные карты называются контрольными картами Шухарта(назван-। де в честь W. A, Shewhart, который! общепризнанно считается первым, ггримеи пищим их на практике в начале 30-х годов XX века).
Один из примеров карты Шухарта показан па рис. 33. Смысл этой карты ясен. В нес цдовательно поступающих партиях нефтепродуктов измерялась примесь вредных веществ. Строятся два линейных графика: для средних и размахов (разит теп между максимальными и минимальными значениями выборки, что характеризует изменчивость характеристик производственного процесса).
Вначале посмотрим на график средних. Если средние выходят за определенные границы, то мы говорим о неудовлетворительном качестве сырья. На графике сред- 'качений партии неудовлетворительного качества имеют специальную М1тк>.
Далее рассматриваем график размахов. Размах — это разность между максимальным и минимальным значением выборки. Прагматическая ценность этой характеристики в том, что она служит мерой изменчивости. По расположению точек иа I рафике размахов принимают решение о случайности или система! цчиости от-*• юнсния в качестве продукции.
Ниже показаны карты контроля качества, доступные в системе
36
Вступительное эссе: приглашение к анализу данных на компьютере
Рис. 32. Контрольные карты системы STATISTICA
На практике могут возникнуть трудности при выборе наилучшей контрольной карты. Чтобы сделать выбор осознанно, нужно учитывать специфику производства, например, если исследуется концентрация определенных веществ в химическом процессе в режиме реального времени, то сложно провести группировку данных п следует применять карты для индивидуальных наблюдений В отличие от этого, в машиностроении при измерении параметров продукции, например диаметров поршневых колец, легко разбить партию данных на подгруппы и применить соответствующие X- и R-карты (рис. 33).
Еше одной типичной проблемой, с которой сталкиваются инженеры по контролю качества на производстве, является следующая: определить, сколько именно изделий из партии (например, полученной от поставщика) необходимо исследовать, чтобы с высокой степенью уверенности утверждать, что изделия всей партии обладают приемлемым качеством.
Допустим, что у вашей автомобильной компании есть поставщик поршневых колец для небольших двигателей, и ваша цель — разработать процедуру выборочного контроля поршневых колец в присылаемых партиях, обеспечивающую требуемое качество.
Процедуры выборочного контроля применяются в том случае, когда нужно решить, удовлетворяет ли определенным спецификациям партия изделий, не изучая при этом все изделия.
Рис. 33. X- и R-карты Шухарта для группированных данных
эссе: приглашение к анализу данных на компьютере
В силу природы проблемы — принимать или не принимать партию изделий — эти методы иногда называют статистическим приемочным контролем. (acceptance sampling).
Очевидное преимущество выборочного контроля над полным, или сплошным, контролем продукции состоит в том, что изучение только выборки (а не всей партии целиком) требует меньше времени и финансовых затрат. В некоторых случаях исследование изделия является разрушающим (например, испытание стали на предельную прочность), и сплошной контроль уничтожил бы всю партию.
Наконец, с точки зрения управления производством отбраковка всей партии или поставки от данного поставщика (на основании выборочного контроля) вмес-браковки лишь определенного процента дефектных изделий (на основании си юшногоконтроля) часто заставляет поставщиков строже придерживаться стандартов качества.
Если взять повторные выборки определенного объема из совокупности, скажем, поршневых колец и вычислить их средние диаметры, то распределение этих средних значений будет приближаться к нормальному распределению с определенным средним значением и стандартным отклонением (или стандартной ошибкой; для выборочных распределений термин «стандартная ошибка* предпочтительнее, чтобы отличать изменчивость средних значений от изменчивости изделий в генерал ь-। юй совокупности).
К счастью, нет необходимости брать повторные выборки из совокупности, что-ы оценить среднее значение и изменчивость (стандартную ошибку) выборочного аспределения. Располагая хорошей оценкой того, какова изменчивость (стандарт-? отклонение, или сигма) в данной совокупности, можно вывести выборочное распределение среднего значение. В принципе этой информации достаточно, чтобы оценить объем выборки, необходимый для обнаружения некоторого изменения । ачества (по сравнению с заданными спецификациями).
Обычно технические условия задают некий диапазон допустимых значений. Например, считается приемлемым, если значения диаметров поршневых колец лежат в пределах 74,0 мм ± 0,02 мм. Таким образом, нижняя граница допуска для данного '•роцесса равна 73,98; верхняя граница допуска — 74,02. Разность между верхней границей допуска (ВГД) я нижней границей допуска (НГД) называется размахом допуска
Простейшим и самым естественным показателем пригодности производственного процесса служит потенциальная пригодность. Она определяется как отношение размаха допуска к размаху процесса; при использовании правила 3 сигма данный показатель можно выразить в виде
Ср = (ВГД - НГД)/(6 X сигма).
Данное отношение выражает долю размаха кривой нормального распределения, «опадающую в границы допуска (при условии, что среднее значение распределения является номинальным, то есть процесс центрирован).
В книге Bhote (1988) World class quality. New York- AMA Membership Publications отмечается, что до повсеместного внедрения методов статистического контроля качества (до 1980 г.) обычное качество производственных процессов в США состав-чя то примерно Ср = 0,67. Иными словами, два хвоста кривой нормального распре
38
Вступительное эссе: приглашение к анализу данных на компьютере
деления, каждый из которых содержал 33/2% общего количества изделий, попадали за границы допуска.
В конце 80-х годов лишь около 30% производств в США находились на этом или еще худшем уровне качества (см. Bbote, 1988, стр. 51). В идеале, конечно, было бы хорошо, если бы этот показатель превышал 1, то есть хотелось бы достигнуть такого уровня пригодности процесса, чтобы никакое (или почти никакое) изделие не выходило аа границы допуска. Любопытно, что в начале 80-х годов японская промыш тонкость приняла в качестве стандарта Ср 1,33! Пригодность процесса, требуемая для изготовления высокотехнологичных изделий, еще выше; компания Minolta установила показатель Ср - 2.0 как минимальный стандарт для себя (Bhote, 1988, с. 53) и как общий стандарт для своих поставщиков
Заметим, что высокая пригодность процесса обычно приводит к более низкой, а ие к более высокой себестоимости, если учесть затраты на рекламацию, связанную с низким качеством производимой продукции.
Как правило, более высокое качество обычно приводит к снижению общей себестоимости. Хотя издержки производства при этом увеличиваются, но убытки, вызванные плохим качеством, например из-за рекламаций потребителей, потери доли рынка и т. п., обычно намного превышают затраты на контроль качества.
На практике два или три хорошо спланированных эксперимента, проведенных в течение нескольких недель, часто позволяют достичь высокого показателя Сг
В качестве одного из интересных примеров применения статистики в промышленности отметим задачу классификации сортов бензина, решаемую с помощью дискриминантного анализа.
Важная роль статистики в управлении экономикой США отмечена в статье: Moynihan D. Р. (1999) Data and dogma in public policy, J. American Statistical Association, v. 94, № 446, p. 359—364: «статистика, — no словам автора, — помогает понять си ты, воздействующие на экономику». Без статистики трудно выделить основные факторы, влияющие на экономику, и предпринимать шага, позволяющие минимизировать неблагоприятные флуктуации рынка.
Разнообразные задачи могут быть решены с помощью статистики на региональном уровне, начиная с задач описательной статистики, например цел на потребительском рынке продуктов питания, зависимости внутрирегиональных цен от цен в соседних регионах, ввоза товаров из других регионов в пределах экономической террцторш 1 pel иона доходов населения» описания рынка труда, уровня жизни, экологической ситуации, здравоохранения и т. д.
Также могут быть решены задачи оценки технического состояния транспортных средств города, расчет налоговых льгот для осуществления инвестиций в транспортную систему, классификация объектов незавершенного строительства, классификация должников, классификация источников выбросов зшрязняющих веществ и множество других, гае до сих пор применяются эмпирические правила
Методы множественной регрессии позволяют исследовать рынок сельскохозяйственной продукции. В качестве примера укажем статью Ношпа Masayoshi, Hayami Yujioro (1986) Structure of agricultural protection in industrial countries, J. Int. Econ., 20. Nsl —2, p. 115—129, в которой исследована система протекции 10 индустриально развитых стран и дан социально-экономический анализ коэффициентов регрессии. Известно, что сельскохозяйственная политика индустриально развитых стран ха-
вступительное эссе: приглашение к анализу данных на компьютере
39
растеризуется сильными протекционистскими (защитными) мерами в отношении собственных производите лей, иными с швами, создаются такие торговые ограничения и система управления ценами, которые позволяют собственным производителям находиться в заведомо выгодном положении. Система протекции включает, в частности, экспортные налоги и завышенные обменные курсы валют. Следствие такой политики — дискриминационное положение сельскохозяйственных производителей развивающихся стран и неравномерное распределение продовольствия в мире. Подобные методы можно, конечно, применить и к изучению российского рынка
Kai. и все математические науки, статистика родилась из практики. Подобно ,, лу как древние египтяне после разливов Нила вынуждены были заново измерять свои участки и для этого разработали начала геометрии, так и современные тю гп, вовлеченные в стремительно меняющиеся потоки данных (Интернет, газеты, ТВ. слухи, сплетни, мнения экспертов и т. д.), вынуждены анализировать их. (ля этого попросту нет ничего иного, кроме статистики и анализа данных.
Классическая математика имеет дело с детерминированными величинами и принципиально не приспособлена для работы со случайными данными. Конечно, мы стремимся интуитивно сузить пределы случайности, максимально уменьшить неопределенность, но сделать это полностью не удастся.
По-видимому, случайность является важным элементом мироздания- выброшенные в открытый хаотически меняющийся мир, мы вынуждены либо приспосабливаться к нему и побеждать, либо погибнуть или влачить жалкое существование, нс понимая ни сущности вещей, ни событий, происходящих в нем
Ни у кого не вызывает сомнения, что при строительстве дома следует исподьзо-wгь начальныезнания геометрии. Попробуйте точно начертить прямоугольник на 'чап ке земли, и вы увидите, что сделать это нс так просто.
Как проверить, что начерченный четырехугольник действительно является ||рям!>угольн11ком? Если вы не знаете, что диагонали прямоугольника равны, то то жнетесь с непростой задачей.
Точно так же при исследовании сложных систем, хаотических явлений и пото- в информации вы применяете статистику, в которой для измерения случайнос-। • й разработаны как простейшие, но очень полезные инструменты, подобные цнр-тю и транспортиру, так и весьма тонкие и совершенные методы.
Интересен следующий пример, приведенный Ж. Бертраном в его курсе «Исчнс-генпе вероятностей*: Некто, прогуливаясь в Неаполе, увидел человека из Базиликаты, который держал пари, что теперь же выбросит 3 шестерки, бросив 3 игральные сти... Удивительный человек из Базиликаты на глазах изумленной публики сделал >тп я затем повторил фокус 2,3,4 и 5 раз подряд. «Черт побери, — воскликнул Hi что, — кости же, конечно, налиты свинцом!» — и был прав, потому что наблюдаемое событие, бросить 3 кости 5 раз подряд и каждый раз получать 3 шестерки, имеет ничтожно малую вероятность, равную ((1/6) х( 1/6 х(1/6)У'5 = 4,71 х 10 " Другими словами, он имел лишь 471 шанс из 10 х 1012 ошибиться в своем .гаклю-‘1СНШ1. Заметим, что склонность использовать случай в свою пользу быласвойствеп-на еще египетским фараонам, в гробнице которых обнаружены игральные кости со смещенными центрами тяжести.
Классическим, и вместе с тем забавным, является пример шевалье де Мере, когда ставший известным в веках благодаря своей любознате imiocth, азартный
40
Вступительное эссе: приглашение к анализу данных на компьютере
игрок спросил себя: стоит ли ему ставить на выпадение двух шестерок одновременно при бросании двух костей 24 раза пли нет? Его собственные вычисления показали, что стоит, так как вероятность данного события при 24 бросках костей больше 1/2. Как же он удивился, когда с течением времени обнаружил, что постоянно оказывается в проигрыше! Оскорбленный игрок во всем обвинил статистику. И только знаменитый Паскаль нашел, в чем состоит ошибка игрока: оказывается, вероятность данного события 0,49 (меньше 0,5’), следовательно, в длинной серии игр, состоящих в 24 подбрасываниях двух костей, выигрыш происходит лишь и 49%, а не в более 50% игр, как ожидал де Мере.
В STATISTICA эта задача, то есть вычисление вероятности выпадения двух шестерок, решается несколькими щелчками мыши.
Интересно, что не стоит делать ставку на выпадение двух шестерок при 24 бросках пары костей, но стоит это делать при 25 бросках, так как вероятность выпадения хотя бы раз пары костей при 25 бросках больше 1 2, следовательно, в длинной серии игр игрок, поставивший на две шестерки, будет в выигрыше чаше, чем в про-игрыше. Если бы правила игры были изменены и проводи чось25 бросков, то в длинной серии игр де Мере оказался бы в выигрыше.
Конечно, теперь этот пример кажется забавным. Современное взаимодействие статистики с практикой много изощреннее, но суть остается той же- применяя статистические методы, вы должны найти устойчивые закономерности в случайных данных и воспользоваться ими с пользой для себя.
Применение даже простых статистических методов позволяет добиться эффектов там, гае непосвященные опускают руки.
Одной из таких задач является пересчет голосов при голосовании. Предположим, что в ходе выборов одни из кандидатов уступил другому несколько десятых процентов голосов. Так как разница очень небольшая, то потерпевший неудачу может усомниться в правильности подсчета и поставить вопрос о пересчете. Если пересчет подтвердит результаты голосования, то, во закону, ему нужно будет оплатить расходы, связанные с пересчетом. В противном случае он окажется победителем. Формально, на языке статистики, эта задача сводится к проверке гипотезы о неравенстве математических ожиданий двух биномиальных величин, см. например, работу, Harns Bernard (1988) Election recounting, Amer. Statis., 42, № 1, p, 66-68
Для кого эта книга?
Книга рассчитана на самый широкий круг читателей, для которых важен анализ данных: статистиков, экономистов, маркетологов, аналитиков, актуариев, бизнесменов, инженеров, лиц, принимающих решения, и многих дру1 их
Иными словами, она полезна тем, кто интуитивно понимает, что из анализа данных можно извлечь реальную пользу. Всех их мы хотим научить искусству анализа данных на компьютере.
Она также чрезвычайно полезна врачам, инженерам, научным работникам, преподавателям и студентам.
Разбираемые нами примеры охватывают самый широкий спекгр приложений.
Предлагаемая киш а является синтезом двух частей: описания разнообразных статистических методов — от элементарных понятий и принципов до возможных
Вступительное эссе: приглашение к анализу данных на компьютере
41
.онкретнык приложении, и описание анализа данных с помощью этих методов в системе STATISTIC А в среде Windows и отражает многолетний опыт автора ватой ufi части
Система STATISTICA включает в себя все известные истоды статистического ;мытпза (Энных и позволяет сделать процесс анализа высокотехнологичным. Ме-।, 5ы. известные ранее по учебникам и научным публикациям, теперь доступны всем
В книге содержится подробное описание основных возможностей системы STATISTIC А. описаны основные диалоговые окна и команды системы. Особое внимание уделено повой технологии компьютерной обработки данных, максимально . вмещенной со стандартами Windows.
STATIST ICA позволяет реализовать системный подход к анализу данных, в час-. <ч и. средсч вамп STATISTICA можно создать своп модули анализа данных <4-и. рис. 34). Дополненные методами визуального программирования, эти сред-гт моткрывают захватывающие перспективы.
Каждая глава книги наряду с примерами содержит большой справочный мате-I. Книга написана в двух срезах — для неподготовленного пользователя, нпер- лакомящегося с методами анализа, и для тех, кто имеет специальную матема-
। iлуЮ подготовку и опыт работы па компьютере.
Начнем мы с изложения элементарных попятим. Вообще эти понятия следует , । j- тш ь на два класса понятия, относящиеся собственно к статистике, и попя-- относящиеся к анализу данных. И здесь есть некоторая тонкость. В статнети--их исследованиях, например в эконометрике (приложении методов статистики в н ономпке). мы исходим из априорной экономической модели и пытаемся оце-Mirrj, параметры. Это так называемый дедуктивный подход, в котором первична ь. а данные используются для оценки неизвестных параметров и проверки «з очных гипотез относительно модели Здесь возникают понятия качества оце-। < >к. 7] >вця значимости и т. д.
Рис. 34. Настройка STATISTICA на конкретный проект
Вступительное эссе: приглашение к анализу данных на компьютере
В анализе данных мы желаем исходить из данных как таковых, имея минимум априорных идей относительно их структуры. Далее мы стремимся понять, как организованы данные, какие переменные или группы переменных связаны (коррелируют) между собой, иными словами, стремимся понять структуру данных, исходя из них самих. Наиболее известная крайняя точка зрения этого подхода выражена в лозунге Бепзекри (Benzecri), одного из создателей анализа соответствий: «Модель должна соответствовать данным, а не наоборот’* Насколько правомерен такой подход, судить философам, но он существует и его нельзя отвергать.
Приверженцы анализа данных зачастую критикуют эконометрику, утверждая, что она имеет дело с абстрактными гипотезами, которые никогда не работают па практике
В действительности, между этими направлениями нет бездонной пропасти — известно, что анализ данных черпает свои идеи из классической статистики и наоборот. Типичный пример — анализ соответствий, чисто индуктивный метод, корни которого «тем не менее» лежат в математической статистике и свойствах знаменитого критерия хи-квадрат, открытого Карлом Пирсоном.
Рис. 35. Рабочие окна STATISTICA
Пример индуктивного подхода можно найти в интересной статье F.-X. Micheloud, бывшей долгое время доступном насайте http://www.micheloud.eom/FXM/cor/e/genera.htm.
Вступительное эссе: приглашение к анализу данных на компьютере
43
где разведочный анализ данных (анализ соответствий) применяется к исследованию уровня образования жителей Лозанны (Швейцария). Автор, не используя прямо статистические рассуждения, работаете выборкой из 169 836 человек. Спрашивается. а почему нс с выборкой, состоящей из 100 человек? Очевидно, что для него интерес представляют перманентные, или устойчивые, выводы Но понять, с какой выборкой нужно иметь дело, можно тишь с помощью теоретико-вероятностных и статистических рассуждений.
В данной книге мы стремились синтезировать классические методы статистики с методами анализа данных и таким образом открыть новые возможности для ис • гдедователей.
Лейтмотивом нашей книги является утверждение, что невозможно умозрительно научиться анализу данных. Если вы хотите овладеть анализом данных, вам следует совместить основные принципы анализа данных с работой в системе STATISTICA.
Ключевым является понятие технологии, совмещение идей (Хоуо^) с действием (теХУ’аш), иными словами, вы нс просто мыслите, но и производите с помощью компьютера действия, которые усиливают и развивают ваши мысли.
Мы трактуем нейронные сети как развитие классических методов анализа, основное отличие состоит в том, что в нейронных сетях используется специальный оазис исходных функций, и собираются сложные многомерные зависимости из элементарных одномерных функций, реализуемых нейронами. Таким образом, вы можете использовать нейронные сети для построения сложных нелинейных зависимостей или нелинейных классификаций, которые недоступны другим методам. Формально нейронные сети woiyr быть изложены чисто математически, без привлечения понятия нейрон, однако биологический язык и нейронная интерпретация создают новую реальность, открывающую массу возможностей для исследователя.
Математическим основанием нейронных сетей является знаменитая теорема Колмогорова, утверждающая, что сложные нелинейные функции могут быть собраны на двухслойных или трехслойных сетях персептронов. В частности, если нужно приблизить непрерывную и-мерную функцию, то достаточно сети с одним • крытым слоем, содержащим 2п + 1 нейрона. Ник го не утверждает, что вам удастся быстро построить нужную сеть, которая хорошо приближает сложную зависимость на имеющихся реальных данных, однако заведомо невозможно сделать это чист . умозрительно. Используя компьютерные технологии, вы можете испытать как классические методы анализа, так и нейронные сети.
В нашем наложении мы опирались на фундаментальные тексты Кендалла Ы. Дж. и Стьюарта А., особенно на их замечательную книгу Статистические выводы и связи. М: Наука, 1973
Д 1я описания функций распределения мы использовали фундаментальное издание: Вероятность и математическая статистика. М.: Большая российская энциклопедия, 1999.
В ряде случаев нам оказались полезными справочники:
Айвазян С. А, Енюков И. С.. Мсшалкпн Л. Д. Прикладная статистика: основы Моде пирования и первичная обработка данных. М,: Финансы и статистика, 1983.
Справочник ио прикладной статистике под редакцией Э. Ллойда и У, Ледерма-на> 1 1,2. №.: Финансы и статистика, 1989.
На этом позвольте закончить наш, возможно, слишком продолжительный экскурс в анализ данных и перейти к систематическому изложению материала.
Краткая экскурсия
по системе STATISTICA
Вступление
STATISTICA — это интегрированная система анализа и управления данными STATISTICA — этоикструментразработки пользовательских приложений в бизнесе, экономике, финансах, промышленности, медици не, страховании и других областях. STATISTICA легка в освоении и использовании.
Все аналитические инструменты, имеющиеся в системе, доступны пользователю и могут быть выбраны с помощью альтернативного пользовательского интерфейса. Пользователь может всесторонне автоматизировать свою работу, начиная с применения простых макросов для автоматизации рутинных действий вплоть до углубленных проектов, включающих, в том числе, интеграцию системы с другими приложениями или Интернетом. Технология автоматизации позволяет даже неопытному пользователю настроить систему на свой проект.
Процедурысистемы STATISTICA имеют высокую скорость и точность вычислений.
Гибкая и мощная технология доступа к данным позволяет эффективно работать какстабдидах5иданныхналокальномдиске,такисудаленнымихранилищамнданных.
Система обладает следующими общепризнанными достоинствами:
О содержит полный набор классических методов анализа данных: от основных методов статистики до продвинутых методов, что позволяет гибко организовать анализ;
о является средством построения приложений в конкретных областях;
о в комплект поставки входят специально подобранные примеры, позволяющие систематически осваивать методы анализа:
О отвечает всем стандартам Windows, что позволяет сделать анализ высокоинтерактивным;
О система может быть интегрирована в Интернет;
О поддерживает web-форматы: HTML, JPEG, PNG;
О легка в освоении, и как показывает опыт, пользователи из всех областей применения быстро осваивают систему;
о данные системы STATISTIC А легко конвертировать в различ ные базы данных и электронные таблицы;
О поддерживает высококачественную графику, позволя ющую эффектно визуализировать данные п проводить графический анализ;
Вступление
О является открытой системой: содержит языки программирования, которые позволяют расширять систему, запускать ее из других Windows-приложений. например, из Excel.
STATISTICA состоит из набора модулей, в каждом из которых собраны тема-м,  и связи ые Группы процедур. При переключении модулей можно либо остав-•. । «крытым только одно окно приложения STATISTICA, либо все вызванные . модули, поскольку каждый из них может выполняться в отдельном окне (как , состоятельное приложение Windows).
При исполнении модулей STATISTICA как самостоятельных приложений влю-' й м «пент времени в любом модуле имеется прямой доступ к «общим» ресурсам ( пк ицам данных, языкам BASIC и SCL. графическим процедурам).
При инсталляции системы программа установки [Setup) создает на рабочем столе ; .пну при вожений под названием STATISTICAn помещает туда значки окна Лере-<чючатечь модулей (пиктограмма STATISTICA — первая в группе, см. рис.), моду-< 'новные статистики и таблицы и некоторых других программ [Help, Setup). Пользователю может показаться более удобным запускать модули, щелкая по их зпач! , м на рабочем столе (вместо того чтобы пользоваться окном Переключатель моду чей); поэтому он, вероятно, захочет создать дополнительные пиктограммы для моду чей помимо тех, которые будут автоматически созданы программой установки (Setup). для Того чтобы создать еще один значок в данной группе, следуйте стандартной процедуре Windows (выберите пункт Новый в меню Файл в окне Диспетчер программ (Program Manager) и создайте новый программный элемент).
Настройка системы STATISTICA. В системе предусмотрена возможность на-<трпйкн множества характеристик и интерфейса программы в соответствии с пред-
Глава 1. Краткая экскурсия по системе STATISTICA
почтениямн пользователя. Можно изменить, например, процессзапуска,а именно — отмен»! ь установленный по умолчанию полноэкранный режим, изменять вил стартовой панели, панели инструментов, таблиц с данными и другие параметры.
Настройка общих параметров системы. Настройку обицгх параметров системы можно изменить в любой момент работы с программой. Эти парамет ры определяют:
О обил te аспекты поведения программы (максимизация окна STATIS ПСА при запуске. Рабочие книги, инструмент Переглядеть и отпустить — Drag-and-Drop, автоматические связи между графиками и данными, многозадачный режим н т. Д-):
О режим вывода (например, автоматическая распечатка таблиц пли графиков, формат ы отчетов, буферизация и т. д.):
Э общи if вид окна приложения (значки, панели инструментов и т. д.);
Э вид окон документов (цвета, шрифты).
Каждый из этих параметров можно настроить в соответствующем окне, доступ к которому осуществляется через меню Сервис. На следующих рисунках показаны тва примера таких окон.
Вступление
Все общие  мрамстры могут быть настроены i независимо от ч ипа окна документа (например, таблица или график), которое активно в данный момент.
Настройка пользовательского интерфейса. При работе с системой STATISTICA имеется возможность настройки пользовательского интерфейса программы таким образом, >ггобы он стал более «продуманным» сточки зрения потребностей конк-пг гного пользователя.
В зависимости от требований задачи и личных предпочтений (а также эстетических соображений) можно использовать разнообразные «режимы» и условия обиты программы.
48
Глава 1. Краткая экскурсия по системе STATISTICA
Поддержка нескольких различных конфигураций системы STATISTICA. До внесения специальных изменений STATISTICA будет хранить все текущие настройки и параметры по умолчанию.
То обстоятельство, что сведения о конфигурации системы хранятся в той же папке, из которой вызывается программа STATISTICA, позволяет иметь в своем распоряжении различные варианты конфигурации программы для разных проектов или видов работ. Например, можно вызывать программу из разных папок на диске, каждая из которых содержит определенный связный набор документов, и для каждой из этих папок система может быть сконфигурирована со своими настройками вывода, параметрами графиков по умолчанию и т. д. Можно создать несколько значков STATISTICA в разных группах приложений на рабочем столе Windows (каждая из которых соответствует определенному проекту или виду работ) и задать для них различные значения в поле Рабочая директория (Working Directory) (с помощью диалогового окна системы Windows Свойства программного элемента (Program Item Properties)).
Многозадачность. STATISTICA поддерживает режим многозадачности (между своими модулями или другими приложениями).
При обработке очень больших объемов информации или выполнении сложных процедур анализа можно переключиться в другой модуль STATISTICA (или другое приложение Windows), используя возможность вести процесс обработки данных в фоновом режиме.
Работа в одном окне приложения STATISTICA (вместо многооконного режима). Один из вариантов глобальной системной настройки пакета STATISTICA позволяет пользователю задать режим, в котором по умолчанию будет работать про-
Вступление
49
грамма — н одном окне приложения или же как набор приложений (каждое в своем окне). Одним из непосредственных следствий этого выбора будет то, в каким режиме будет работать окно Переключатель модулей: при двойном щелчке на имени модуля в этом окне выбранный модуль будет открываться либо вместо утке открытого, либо для него будет открываться новое окно приложения, причем предыдущее окно останется открытым.
Выбор того или другого режима работы производится в поле Переключение мо-пгяей:режим одного приложения в диалоговом окне Параметры по умолчанию: общие настройки (вызывается из меню Сервис). Если это поде отмечено, STATISTICA Гл'дет работать в режиме одного приложения.
Режим одного приложения. При выбранном режиме одного окна приложения переключение с одного модуля на другой будет происходить без открытия новых окон. Новый модуль всякий раз будет открываться в том же самом окне, заменяя предыдущий. Некоторые пользователи предпочтут именно такой «простой» режим работы, поскольку весь анализ будет происходить в одном окне приложения, а количество активных программ на рабочем столе будет минимальным.
Примерно такого же эффекта можно достичь, нажимая кнопку Закончить и переключиться в диалоговом окне Переключатель модулей: при этом окно приложения текущего модуля закроется, но не будет заменено новым окном; вместо этого система откроет «следующее» окно приложения.
Режим нескольких приложений. Основное преимущество режима нескольких приложений — возможность параллельного выполнения различных процедур ана-1 иза (модули) в разных одновременно открытых окнах приложения. При этом мож
50
Глава 1. Краткая экскурсия по системе STATISTICA
но переключаться между модулями, не закрывая предыдущие. и использовать все преимущества работы с независимыми очередями таблиц результатов и графиков для окон приложений разных модулей. Этот режим имеет очевидные преимущества для большинства задач аиал нза данных п даст возможность использовать различные методы анализа (и сравнивать полученные результаты).
Интерактивный анализ данных в STATISTICA. Система не требует, чтобы пользователь еще до проведения анализа указал всю информацию, которую следует вывести на экран Ведь анализ даже простого плана может породить большое число таблиц результатов и просто необозримое количество графиков, поэтому при проведении реального анализа, до изучения основных результатов, трудно представить, какие графики пли таблицы следует анализировать в первую очередь. Именно поэтому STATISTICA предоставляет пользователю возможность выбрать определенные типы вывода и интерактивно провести последовательные сравнения и моделирующий анализ уже послетою, как данные обработаны и получены основные результаты.
Количество выводимых окоп также может быть настроено, чтобы нс перегружать экран компьютера.
Гибкие вычислительные процедуры STATISTICA и широкий выбор методов графического представления данных любого типа открывают перед пользователем безграничные возможности проведения разведочного анализа и проверки статистических гипотез.
Какие возможности предоставляют рабочие книги Рабочие книги помогают организовывать наборы файлов (например, таблиц результатов, графиков, тек-
Вступление
cTOHiJx/графлческнх отчетов. пользовательских программ п т д.). которые были созданы ичн использовались (например. просматривались) во время анализа набора данных. Рабочие книги хранят список всех файлов, использовавшихся с те-( . щим набором данных.
Обновленный список этих файлов автоматически сохраняется с файлом дан-Еслн поставить пометку в поле Авто	около имени файла,то он будет автома-
ки открываться с текущим набором данных
52
Глава 1. Краткая экскурсия по системе STATISTICA
Справочная система и интерактивное (электронное) руководство. Чтобы подучить дополнительную информацию о некоторых функциях системы, нажмите клавишу справки (F1), когда выделена соответствующая команда или пункт меню. STATISTICA содержит Электронное руководство — справочную информацию по всем процедурам и функциям программы, доступную в контекстно-зависимом режиме при нажатии клавиши F1 или кнопки справки в строке заголовка всех диалоговых окон (справочник содержит свыше 10 мегабайт документации в сжатом виде). Благодаря динамической организации Электронного руководства с помощью г нперссылок (и различным возможностям его настройки), как правило, быстрее использовать эту справочную систему, чем искать нужную информацию в напечатанном виде. Справку также можно вызвать двойным щелчком на поле сообщений строки состояния в нижней части окна приложения STATISTICA (в поле сообщений тоже отображаются краткие комментарии о функциях выпадающих меню или кнопках панели инструментов соответственно при выделении пункта меню или нажатии кнопки).
Статистический советник. Статистический советник представляет собой интерактивную справочную систему. После выбора пункта Советник из выпадающего меню [Справка) программа задаст вам несложные вопросы о характере решаемой проблемы и типе исходных данных, а затем предложит список наиболее подходящих процедур (и объяснит, где их найти в системе STATISTICA)
С помощью гиперссылок можно непосредственно перейти из раздела Статистический советник к подробному описанию соответствующих статистических методов и процедур в разделе Вводный обзор.
Мультимедийный учебник CD-версия STATISTICA включает ряд анимационных примеров, иллюстрирующих некоторые из наиболее часто используемых возможностей STATISTICA. Эти примеры шаг за шагом показывают, как провести типичныйстатистический анализ и построить графики. Полный список имеющихся
Вступление
53
в данной версии системы мультимедийных обзоров находится в подменю Л/^льтд-“"Энйныйучебник выпадающего меню (Справка)
Отметим, что длязапуска этих мультимедийных иллюстраций нсобходимазву-. вая карта. Если ваша версия STATISTICA не содержит мультимедийный учсб-ннк (или содержит лишь часть примеров), вы можете загрузить соответствующие г ай ты из Интернета (http://www.statsoft.com) или заказать их в компании StatSoft.
Приложения Все рассмотренные возможности (доступные в любой момент ра- ты с системой) могут служить весомой альтернативой или дополнением к обыч-•му интерактивному пользовательскому интерфейсу, поскольку они позволяют шатизировать рутинный процесс многократного выполнения одних» тех же, » юм числе весьма сложных, задач. Например, макрокоманда (вызываемая щелч->м мыши по кнопке на панели инструментов Кнопки автозадач или одним нажа-1 нем клавиши) может содержать длинный список переменных, часто используемый I рафик, операцию внедрения и т. и.
Автоматические отчеты и автоматическая распечатка таблиц результатов. Не-висимо от того, происходит ли обработка в пакетном режиме пли интерактивно запрашивается пользователем, может быть выбран режим вывода Автоотчет Этот ' • ’Жим позволяет автоматически, без каких-либо действии со стороны пользователя распечатывать ( или направлять в окно отчета или в файл) содержание всех окон вывода, которые получаются в процессе анализа.
Режим автоматического вывода каждой строящейся на экране таблицы резуль-1 <п< ш и цЛ11 графика может оказаться полезным не только для создания полного
54
Глава 1. Краткая экскурсия по системе STATISTICA
отчета о результатах анализа, но и при разведочном анализе данных, когда возникает необходимость вернуться к предыдущему шагу и просмотреть результаты, полученные на ранних этапах обработки данных. Для этого всю выходную информацию (таблицы результатов и графики) можно направить во временное Окно тек-ста/вывида с прокруткой и уже затем в случае необходимости сохранить ее, распечатать или скопировать в файл текстового редактора.
Автоматическая печать графиков. Режим автоматической печати всех возникающих на экране графиков особенно полезен как средство пакетной графической печати.
Как правило, печать графиков занимает довольно много времени. Поэтому имеет смысл воспользоваться этим режимом для распечатки последовательности (•♦каскада») графиков, получающихся при применении определенных методов анализа (например, для зрительного представления конфигураций средних при исследовании связей высших порядков в дисперсионном анализе необходима длинная последовательность графиков, а для многомерных таблиц — каскад трехмерных гистограмм для двух переменных).
Однако гораздо эффективнее направить создаваемую последовательность графиков в Окнотекста/вывода. В STATISTICA предусмотрена возможность пакетной печати всех ранее сохраненных графиков и таблиц результатов; для этого нужно выбрать пункт Печать файлов в выпадающем меню Файл.
Буфер обмена. Наиболее быстрый и во многих случаях наиболее простой способ получения данных из других приложений Windows (например, электронных таблиц) — это использование буфера обмена, который в STATISTICA поддержи-ваетспециальныеформаты данных, создаваемые такими приложениями, как MS Excel или Lotus для Windows. Например, STATISTICA правильно интерпретирует форматированные (например, 10ОО ООО пли $10) п текстовые значения. Буфер обмена и преобразование файлов данных можно также использовать для экспорта данных из системы STATISTICA в другие форматы. При импорте и экспорте данных STATISTICA использует один и тот же набор форматов и типов данных.
Вступление
55
функции импорта файлов. Файлы данных из приложений Windows и другнр операционных систем также можно переводить в формат системы STATISTICA с помощью функций импорта файлов, которые включают доступ ко всем базам данных (через поддержку метода ODBC), а также возможности импорта форматированных текстовых файлов и текстовых файлов свободного формата (ASCII).
Импорт файлов без использования буфера обмена имеет свои преимущества:
) он позволяет пользователю точно указать, как должен проводиться импорт (например, выбирать из файлов диапазоны значений, импортировав ь или не импортировать имена переменных, текстовые значения и имена наблюдений и указывать способ их интерпретации):
> он предоставляет пользователю доступ к типам данных, которые недоступны (или труднодоступны) при операцияхе буфером обмена (например, длинные метки значений или специальные коды пропущенных данных).
Связи DDE. STATISTICA поддерживает соглашения динамического обмена данными (DDE), что позволяет динамически связывать диапазон данных в таблице ис-• тных данных с набором данных других приложений (Windows). Эта процедура ни самом деле гораздо проще, чем опа может показаться, и ее легко освоить, не имея гех|П1чсскихзнаш1йомеханизмеРРЕ’,особе1П1опрп использовании команды Усто-чонито связь (вместо ввода описания связи). Связи DDE (динамического обмена
•иными) можно установить между файлом-источником (сервером), например ровной таблицей MS Excel, и файлом данных системы STATISTICA (фай-ам-кдцентом), так что при внесении изменений в файл-источник данные в cool -вегп вугощей части таблицы исходных данных STATISTICA (фай че-клиенте) буду 1 автоматически обновляться.
56 Глава 1. Краткая экскурсия по системе STATISTICA
Обычно два файла динамически связываются в промышленных установках, koi да к последовательному порту компьютера, на котором находится файл данных системы STATISTICA, подключено измерительное устройство (например, для ежечасного автоматического обновления определенных измерений).
Связи DDE можно установить с помощью команды Установить связь выпадающего меню Правка таблицы исходных данных или введя определение связи в поле Длинное имя (метка, формула, связь)- диалогового окна спецификаций переменной.
Если связь установлена, то можно управлять ею в диалоговом окне Диспетчер связей (вызывается с помощью команды Связи... выпадающего меню Правка).
Форматы Дата и Время. В файлах данных системы (которые организованы как базы данных) формат отображения значений применяется ко всей переменной, а не к отдельным ячейкам (как в Excel). Поэтому значения, которые в Excel были отформатированы как даты, в файле системы STATISTICA будут отображаться как юлианские (целые) значения (например, 34092 вместо Мау 3, 1993), если для соответствующих переменных не установлен формат Дотла или Время
Поддерживает ли STATISTICA интерфейс ODBC? Да, для того чтобы реализовать эту возможность, существует список команд Импорт данных, который вызывается из выпадающего меню Файл любого модуля. Интерфейс ODBC STATISTICA включает возможности для объединения полей из нескольких таблиц н предоставляет доступ к множеству файлов баз данных, включая форматы больших И персональных компьютеров ( например, d BASE д ih Windows. Paradox. Sybase, Oracle, SAS и т. д.).
Вступление
57
Импорт через ODBC можно автоматизировать с помощью функции ODBC/UIao-iHiii пли программ на языке SCL.
Типы объектов. Если задан режим Новый объект, то тип создаваемого объекта хит быть выбран из списка приложений Windows, которые поддерживают сред-'t OLE. После выбора типа и нажатия кнопки ОК будет открыто окно соответ-। 01 цего приложения для создания нового объекта. Если задан режим Объект из  . л то тип объекта для вставки также выбирается из списка приложений s, поддерживающих средства OLE- после выбора типа будут показаны все . .рптельно сохраненные файлы этого приложения. В режиме Картинка из на можно вставить объект, несовместимой с методом OLE, но записанный в . ом из графических форматов Windows: в формате метафайла (файл с расшире-.ксм * umf) или растрового изображения (файл с расширением *.Ьтр).
Связывание и внедрение. STATISTICA поддерживает средства OLE(связыва- и внедрения объектов) как в режиме клиента, так it в режиме сервера. Таким м, возможна не только динамическая настройка графиков STATISTICA в их приложениях (режим сервера), но также внедрение и последующее преоб-Р - займе OLE-совместимых объектов других приложений (например, графиков п-it- таблиц) или собственных объектов в графики STATISTICA. Другими словами. помимо присоединения внешних элементов к графикам STATISTICA с помощью вставки можно обращаться непосредственно к объектам, содержащимся в » 1 на диске (например, перетащить их непосредственно из окна Диспетчер Фаи /и, яяи Проводник (Windows Explorer) и поместить на график STATISTICA).
58
Глава 1. Краткая экскурсия по системе STATISTICA
STATISTICA поддерживает как связанные (то есть динамически присоединенные), так и внедренные (то есть статически «встроенные») объекты При этом они могут быть расположены в любом файле, созданном приложениями Windows, включая файлы в собственном графическом формате STATISTICA (с расширением *stg). Более того, STATISTICA одновременно может являться как клиентом, так п сервером в методе OLE, поддерживая при этом уникальную возможность создания вложенных составных документов (до четвертого порядка включительно), то есть документ STATISTICA с внедренным документом может быть, в свою очередь, внедрен в другой документ этой системы.
Заметим, что каждый из этих двух способов присоединения (связывание it внедрение) имеет свои преимущества и недостатки.
Связанные объекты. Графики со связанными объектами медленнее перерисовываются, поскольку при этом мохут быть задействованы связи с внешними файлами. В то же время, эти графики обновляются автоматически (статус связей может быть установлен в диалоговом окне Связи донныхи графика, которое вызывается из графического меню Правка), а это позволяет легко создавать составные документы, которые включают именно «текущее» содержимое других файлов
Вступление
59
Внедренные объекты Графики с внедренными объектами перерисовываются быстрее, чем со связанными объектами, поскольку здесь отсутствуют связи с обновляемыми внешними файлами. Если дважды щелкнуть на внедренном объекте, то будет вызвано приложение-сервер (то есть источник), в котором можно изменить данный объект. При этом обновить внедренный объект можно двумя способами отредактировать его или заменить вручную.
В меню Правка можно настроить все параметры внешних объектов {связанных ичи внедренных), а также их связи с другими компонентами графика. Кроме того, щелкнув на объекте правой кнопкой мыши, можно выбрать нужные команды па-стройки из контекстного меню. Единственным исключением является способ присоединения объекта {связывание или внедрение), который определяется в момент подключения файла (после этого только связанный объект можно преобразовать во внедренный, но не наоборот (см. команду Преобразовать во внедренный уз выпадающего меню Правка)).
Настройка связанных или внедренных объектов OLE. Объекты ОЛЕ-графиков STATISTICA могут быть отредактированы после двойного щелчка мышью на объекте; при этом приложение-источник будет открыто в режиме сервера OLE с готовым к редактированию объектом. Если этот объект является графиком STATISTICA, то в текущем модуле откроется новое графическое окно, что позволит гистсме одновременно выступать как в роли клиента, так и сервера
Когда редактирование завершено, можно применить любое из стандартных со-’ лишений OLE для выхода из режима сервера и обновления графика в системе S ГА riSTICA (используя команды Обновить, Обновить и вернуться к_ и т. д.
60
Глава 1. Краткая экскурсия по системе STATISTICA
я выпадающем меню приложения Файл, эти команды доступны только в случае, если приложение запущено в режиме сервера).
Графические форматы Метафайл и Растровое изображение. Для вставки графического файла в приложения, не поддерживающие методы OLE, используются команды Сохранить метафайл или Сохранить растровое изображение (из выпадающего графического меню Файл). График в формате метафайла Windows будет записан в файл с расширением * кт/ ав формате растрового изображения — с расширением *.Ьтр. Эти форматы, описанные в двух следующих параграфах, не позволяют полностью реализовать все возможности настройки графиков STATISTICA, но в тоже время совместимы со всеми приложениями, поддержива-Ю] цимп графические форматы Windows.
Что такое метафайл Windows? Графический формат Метафайл — это один из стандартов для записи графических файлов (с расширением * ш/ и их представления в буфере обмена Windows. Он содержит картинку в виде описаний и определений всех компонент графика и его атрибутов (например, элементов линий, их цветов и шаблонов, шаблонов заполнения, описания текста и его параметров).
По сравнению со стандартом растрового изображения (см. ниже) формат метафайла дает возможности более гибкой настройки OLE-несовместимых объектов в приложениях Windows.
Например, при открытии метафайла в программе Microsoft Draw можно «разложить» изображение графика, выделить и изменить отдельные линии, шаблоны заполнения или цвета, а также отредактировать текст и изменить его атрибуты.
Однако не все приложения Windows полностью поддерживают все возможности формата метафайла, доступные в системе STATISTICA Некоторые параметры графиков, записанных системой STATISTICA в этом формате, могут измениться при их воспроизведении в других приложениях. Например, может исчезнуть поворот некоторых шрифтов. Поэтому по возможности используйте графический формат STATISTICA и методы OLE для работы с графиками в других приложениях, чтобы иметь доступ ко всем возможностям настройки самой STATISTICA
Вступление 61
Ограничения стандартного формата Метафайл Windows. Сложные графические изображения, создаваемые системой STATISTICA, могут оказаться слишком большими (по числу представленных точек данных) для записи в формате метафан «и, [.нторый по умолчанию используется системой Windows для большинства операций по связыванию и внедрению графических объектов. В таких случаях нужно использовать растровое изображение. За дополнительной информацией обратитесь к 31ектроиному руководству из диалогового окна Дополнительные пара-л<е,,рг' егорое вызывается из вкладки Графика диалоп!Вого окна Пара-метры страницы. 'вывода
Что такое формат растрового изображения? Формат Растровое изображение -это второй стандартный графический формат системы Windows, который используется «ля представления графических файлов (с расширением * Ьтр) и передачи изоб-1 лженпя чер< -.-буфер обмена (как и формат Метафайл). В этом формате несохраня-tun-Я никакие дополнительные данные или параметры, кроме изображения самой ь/ртпнки
?. ст ычие от метафайла растровое изображение представляет собой «пассив-
•	эчечнне отображение графического окна. Возможности настройки такого
графика в других приложениях Windows очень ограничены. Обычно они включа-ю । лью операции растяжения, сжатия, вырезания, вставки и рисования поверх гр«фика. Как уже отмечалось выше, для работы с графиками в других приложен 11-ях уд- Знсе использовать запись в графическом формате STATISTICA и методы OLE. чтобы иметь доступ ко всем возможностям настройки самой системы STATISTICA.
Что такое собственный графический формат STATISTICA? Графические фай-э( системы STATISTICA имеют расширение *-s(g. Их основное отличие от метафайлов и растровых изображений состоит в том, что они содержат не только картин -у, но и всю информацию, необходимую для настройки графика и анализа данных Здесь записаны все представленные на графике данные, их связи, уравие-ш 11 агонии, параметры внедренных объектов, связи графиков и рисунков и т. п. Записанные в таком формате графики можно впоследствии открыть в любом из м . -й системы STATISTICA для продолжения настройки и анализа данных. К;	того, их можно распечатать в пакетном режиме с помощью команды Печать
1 из выпадающего меню Файл Графические файлы в собственном формате • т»яы STATISTICA можно динамически связать с документами приложений 'Л ’ । г 'low s с помощью методов OLE.
Экспорт через буфер обмена {вставка или специальная вставка методами OLE) Использование буфера обмена — это самый быстрый способ экспорта графика в другое приложение. При копировании в буфер обмена создается три графи-• представления объекта: в собственном формате STATISTICA, в формате ' файла Windows и в формате растрового изображения. Каждое из них может быть и юльзовано в других приложениях,
Графики системы STATISTICA могут присутствовать в других приложениях (pt торах или электронных таблицах) как в качестве связанных, так и внедренных < йъектов. При использовании методов OLE они сохраняют свою связь с систе-- й STATISTICA и, следовательно, могут интерактивно редактироваться в рам-ьз* j, угих приложений.
62
Глава 1. Краткая экскурсия по системе STATISTICA
Доступ ко всем данным графика. Данные, представленные на графиках системы, можно непосредственно просматривав и изменять независимо от их типа во встроенном Редакторе данных графика. Это метут быть исходные данные, части таблицы результатов или ряд рассчитанных значений (например, вероятностный (рафик)
Для каждого графика создается связанное с ним «дочернее» окно Редактора, которое закры вастся вместе со своим графическим окном. Редактор организован в виде групп столбцов, представляющих отдельные зависимости данного графика (см. следующий параграф).
Вступление
Категоризованные графики Для созда| 11 |Я категоризованных графиков данные разбиваются на подфуппы. На одном изображении будет одновременно представлено несколько [рафиков, по одному для каждой из заданных подгрупп. Например, можно построить [рафики отдельно для субъектов .мужского нженского пола, раздел нть пациентов па группы женщин с высоким давлением, женщин с низким давление», мужчин с высоким давлением, разделить товары по качеству, странам-производителям пт. п. Разбиение данных на однородные труппы и исследование связей между этим» группами — чрезвычайно важный прием анализа данных.
Категоризованные графики широко применяются в системе STATISTICA:
> Они доступны в большинстве диалоговых окон с результатами анализа (эти графики автоматически создаются в тех процедурах, i де анализируются группы пли подгруппы данных, например при классификации, проверки t-критериев, в дисперсионном, дискриминантном и непараметрическом анализе).
j Эти типы графиков присутствуют в списке Быстрые статистические графики в контекстных меню всех таблиц исходных данных и таблиц результатов.
> Их можно вызвать из списка Статистические графики (в выпадающем меню Графика), при построении которых предлагается большой выбор раз тпчных методов категоризации данных.
Методы категоризации, предлагаемые в системе STATISTICA, описаны в сле-|1) нищ м пункте.
64
Глава 1. Краткая экскурсия по системе STATISTICA
Каким образом задаются «категории* для категоризованных графиков? Итак, вначале нужно разбить данные на группы. При построении категоризованных графиков из диалоговых окон с результатами анализа подгруппы данных определяются автоматически (поскольку такое разделение является частью исследования цяпных). При построении статистических графиков предлагаются различные способы задания подгрупп по одной или двум группирующим переменным. Кроме того, разбиение на подгруппы может организовать сам пользователь, используя любые комбинации переменных из текущего набора данных.
Существует несколько методов выделения категорий:
о по целым значениям группирующих переменных (Целые числа);
о разделением группирующих переменных на заданное число интервалов (Категории)',
о разделением группирующих переменныхна интервалы с заданными гранггч-пыми значениями (Границы)',
о с помощью задания конкретных значений (кодов) группирующих переменных (Коды)’,
О путем формирования сложных подгрупп (Сложные подгруппы); для этого пользователь может ввести условия выбора наблюдений практически неограниченной сложности и использовать значения любой переменной текущего файла данных, кате показано ниже.
На следующем рисунке показан достаточно сложный график, категоризованный по двум признакам. При этом использован смешанный метод выделения подгрупп. Категоризация по двум признакам означает, что элементы графика располагаются как элементы двухвходовой таблицы, полученной после использования двух различных методов категоризации.
Вступление
65
Две строки на приведенном выше графике предстааляют разделение на под-гр\ ппы по значениям переменной Ноте_2 (на наблюдения, для которых значение тгий переменной меньше либо равно 104,624, и наблюдения, для которых оно Г. .(ыле 104,624). Три столбца графика представляют подгруппы, заданные специальным образом по номерам наблюдений (нулевая переменная) и значениям переменной Ноте_7. Ниже показано диалоговое окно, где задавались параметры этого графика
PuMBiUtHMe
! BS *• QuW"**»
53 Двруюяишг- | Каг-Х: Сл.подгруппы KSr.Y: HCJME_2
«•рем. К WORK 1
Пчюм-Y: WORK.*'
Переменная: Сд.пМГМПЛ» ' ЛершчепншсЯОМО ' Целые числе	' Г" Целые числа
Г Категории- г? g 1« р g t~ Грашмес: нет	С Грениаы: и<И
Г Кодае кет	I Г* Коды, нш
<• Сложные иадгиппы	Сложные подгрцям
ST 3<wot> поагИ|ОПм £ |£Д Иомднггь поременнзю ]
КООРДИНАТЫ
IIjXaEISS^ “ Поачзные
На каждом маленьком графике представлена зависимость между переменными Work_ 1 и Worh_2 (в качестве X и Yсоответственно). Первая категоризация (Кате-tuu поХ— «столбцы* графиков) проводится методом Сложные подгруппы в диа-
k.-i окне, вызываемом кнопкой Задать подгруппы:
66
Глава 1. Краткая экскурсия по системе STATISTICA
Второй класс (Категории по Y или «строки» графиков) определяется группирующей переменной Ноте_2. Диапазон этой переменной разделен на два равных интервала. Для этого в диалоговом окне задания параметров графика в поле Категории введено значение 2 (при этом распределение переменной Ноте_2 разделено на две группы: наблюдения, для которых значения меньше либо равны 104,62, и наблюдения со значениями данной переменной, большими этого числа).
Тернарные графики поверхности и карты линий уровня. При выводе результатов анализа по составлению смесей в модуле Планирование эксперимента можно построить тернарные графики в виде трехмерных поверхностей или карт линий уровня.

Вступление
67
Тернарные графики можно построить из подменю Статистические XYZ-гра-фики. Статистические категоризованные графики и Пользовательские графики выпадающего меню Графика.
Графики в полярных координатах. Некоторые типы графиков можно построить в полярных координатах. К ним относятся графики рассеяния, линейные графики и последовательные вложенные графики из подменю Статистические 2М графики (оно вызывается из выпадающего меню Графика).
R полярных координатах можно построить и категоризованные графики.
Многие графики, построенные в обычной прямоугольной системе координат, полно представить в полярных координатах. Для этого нужно установить со-111 Мтствующпй переключатель в диалоговом окне Общая разметка в положение Молярные.
Глава 1. Краткая экскурсия по системе STATISTICA
Как поместить на трафик системы STATISTICA графический объект из другого приложения? Для вставки любых графических объектов, совместимых с системой Windows, можно использовать все описанные выше операции вставки посредством буфера обмена (включая связывание и внедрение методами OLE) Эти операции можно совершать над растровым» объектами, метафайлами Windows, графиками в формате STATISTICA, а также любыми OLE-совместимыми объектами.
Как поместить текст на график STATISTICA (отчеты, таблицы и т. п.)? С помощью описанных выше операций с буфером обмена на графики STATISTICA можно поместить очень большой текстовый объект (например, отчет длиной несколько страниц). Этот текст редактируется и изменяется в окне Редактор текста графика системы STATISTICA или в соответствующем приложении, которое является сервером в методе OLE.
Все описанные в предыдущем разделе операции вставки и использования буфера обмена применимы к любым совместимым с Windows графическим объектам, а операции связывания и внедрения выполняются для всех объектов, поддерживающих методы OLE.
Галерея графиков STATISTICA. С помощью этой кнопки открывается диалоговое окно Галерея графиков STATISTICA. Эта кнопка присутствуете диалоговом окне каждого типа графиков.
Вступление
69
Отсюда быстро и легко вызываются все статистические и пользовательские графики, пустые графические окна и статистические графики полъэовате тя. Для этого нужно выделить название нужного чипа графика и дважды щелкнуть на нем (или нажать кнопку ОК)
Пользовательские и статистические графики Помимо специализированных графиков, которые вызываются непосредственно из итогового диалогового окна любой программы статистической обработки, существуют еще два основных типа графиков, доступных из меню или панели инструментов любой таблицы: пользовательские графики и статистические (и быстрые статистические) графики.
Главное различие между двумя основными типами графиков заключается в источнике данных для отображения. Более подробно эти различия описаны в следующих разделах.
0[^1ЙЕ)^^ользовог”ельски€ гРаФики Пользовательский график дает возможность отобразить любую заданную пользователем комбинацию значений из таблиц исходных данных или таблиц результатов (а также из любой комбинации их строк и/или столбцов). В меню предлагается пять типов таких графиков: 2М пользовательские графики, ЗМ пользовательские последовательные графики, ЗМ пользовательские диаграммы рассеяния и поверхности, пользовательские матричные графики и пользовательские пиктографики. При выборе одного из них открывается соответствующее диалоговое окно, где для отображения на графике можно задать диапазон данных текущей таблицы. Содержание этого диалогового окна зависит от выбранного типа пользовательского графика. Начальный выбор данных для построения графика, предлагаемый в этом диалоговом окне, определяется положением курсора в текущей таблице В каждом диалоговом окне пользовательского графика при задании параметров предусмотрена возможность выбора определенного вида графика (в рамках основного типа). Вид графика также можно подобрать и после построения (с помощью диалоговых окон Общая разметка или Размещение графика, которые открываются при двойном щелчке мышью на области фона графического окна или при выборе соответствующей строки выпадающего .меню Разметки).
Ц® Й?	«Л Стат истические графики. В отличие от пользовательс-
ких графиков, которые представляютсобойсредствонаглядногоотображения числовых данныхлюбых таблиц (исходных данных или результатов, с.м. выше), статистические графики предлагают сотни заранее определенных типов графических представлений,включаюшиханалитическоеобобшеннестатистическихданных. Они вызываютсяиз диалоговогоокна Галерея графиков, которое открывается с помощью одноименной кнопки панели инструментов |gj или из выпадающего меню Графика.
70
Глава 1. Краткая экскурсия по системе STATISTICA
При построении таких графиков используются значения непосредственно из файла данных, которые не зависят от содержания текущей таблицы, выделения блоков и положения курсора. При этом предлагаются либо стандартные методы графического анализа исходных данных (различные графики разброса значений, гистограммы, графики средних значений, например медиан), либо стандартные аналитические методы исследований (графики нормальной плотности распределения. вероятностные графики с исключенным трендом или графики доверительных интервалов линий регрессии). При построении статистических графиков программа учитывает условия выбора и веса наблюдений.
^Быстрые статистические графики. Наиболее широко используемые типы статистических графиков (вызываемых из меню Графика, см предыдущий параграф) представлены в меню Быстрые статистические графики. Эти списки графиков не предоставляют такой широкий спектр возможностей, как меню Статистические графики, но в отличие от последних упрощают и ускоряют процедуру построения графика. Быстрые статистические графики:
О вызываютсяиз контекстныхменюилиспзнели инструментов любой таблицы (обычноонн не требуют обращения к выпадающим меню или диалоговым окнам),
О не требуют от пользователя выбора переменных (этот выбор определяется теку щим положением курсора в таблице) и промежуточной настройки параметров (формат соответствующих графиков определяется по умолчанию).
При выборе пункта Быстрые статистические графики (с помощью кнопки на панели инструментовиз контекстного меню или из выпадающего меню Графика) появляется меню выбора статистического графика для текущей переменной таблицы, то есть той, на которую в настоящий момент указывает курсор.
Если курсор не указывает ни на одну из переменных, то перед построением любо го графика из меню Быстрые статистические графики будет предложено выбрать переменную из списка. При создании таких графиков система STATISTICA учи тывает текущие условия выбора и веса наблюдений.
Блоковые статистические графики. Эти типы (пользовательских) графиков вызываются из пунктов контекстных меню Статистики блока по столбцам и Статистики блока по строкам или из диалогового окна Галерея графиков.
Любой из этих вариантов дает возможность построить итоговый статистический график для выделенного блока, чтобы сравнить значения в строках (Статистики блока по строкам) или в столбцах таблицы (Статистики блока по столбцам). Данный тип графиков похож на те пользовательские графики, на которых отображаются данные текущего блока таблицы.
Другие специализированные графики Помимо стандартного набора быстрых статистических графиков некоторые таблицы позволяют строить и более специализированные статистические графики (например, временные последовательности в модуле Временные ряды, пиктографики регрессионных остатков, а также контурные графики в модуле Кластерный анализ). Как уже упоминалось ранее, специализированные графики, которые связаны нес конкретной таблицей результатов, а с определенным методом анализа данных (например, графики аппроксимирующих функций в модуле Нелинейное оценивание или средних в модуле Дисперсионный анализ), вызываются непосредственно из диалогового окнас результатами анализа (то есть из окна, содержащего выходные параметры используемого метода обработки данных),.
Настройка графика до и после его построения. Любые изменения параметров графика в STATISTICA осуществляются из активного графического окна (после отображения графика на экране). Как правило, сначала имеет смысл построить график, приняв значения параметров но умолчанию, а затем уже вносить различные изменения, Однако в тех редких случаях, когда построение графика занимаетслишком много времени (при создании сложных составных графических изображений или обработке больших наборов данных), можно вмешаться в этот процесс, чтобы
72
Глава 1 Краткая экскурсия по системе STATISTICA
сделать необходимые настройки. Прервать рисование можно одним нажатием клавиши или щелчком мыши в любом месте экрана, а затем продолжить его после ввода необходимых изменений.
Предусмотрено два основных метода настройки графика — добав тение и редактирование пользовательских графических объектов, изменение структурных элементов графика.
Применяются ли к различным типам графиков различные методы настройки?
Нет. Независимо от способа создания графика для его настройки и изменения можно использовать любые возможности, предусмотренные в системе STATISTICA. К любому графику можно добавить новый график, объединить его с другим графиком, поместить в него связанный или внедренный объект. Кроме того, график можно любым образом изменять, рисовать на нем и использовать различные методы подгонки функций. Эти же методы настройки доступны при работе с графиками, которые были предварительно сохранены и вызваны из дискового файла.
Настройка статистического графика до и после его построения. В разделе Как настроить график STATISTICA показано, что большинство возможностей настройки (сотни различных вариантов графического представления) доступны непосредственно после построения графика. Для этого достаточно щелкнуть на конкретном элементе графика или выбрать соответствующий пункт в диалоговых окнах Общая разметка или Размещение графика, которые вызываются из выпадающего меню Разметки.
В то же время, отдельные параметры, которые определяют источник данных, нужно задать до построения графика, например переменные, метод категоризации, значения меток, имена наблюдений, метки осей. В данном примере перед построением графика нужно выбрать переменные и метод категоризации, а также при необходимости задать значения некоторых параметров с помощью кнопки Параметры (которая здесь не исполъзовзна).
Теперь вернемся к нашему примеру. После построения графика при щелчке на любом месте фона графического окна появится диалоговое окно Общая разметка, в котором регулируются параметры общего расположения графика.
В этом окне можно изменить тип графика и задать построение карты линий уровня (используйте для этого поле Тип графика). Кроме того, можно изменить пара-
Вступление
73
метр Число сечений с установленного по умолчанию со значением 15 х 15 на 25 х 25 (этот параметр определяет точность построения карты линий уровня):
После внесения изменений нажмите ОК, и вы увидите новый график-
Снова вернемся к диалоговому окну Общая разметка и выберем для типа кон туриой линии значение Зона. Кроме того, в первые три строки заголовка графика
Глава 1. Краткая экскурсия по системе STATISTICA
поместим управляющие символы @F(1,1], @F| 17| н @F11,3]. чтобы записать там уравнения аппроксимирующей квадратичной функции для первой зависимости (цифра 1 на месте первого параметра в квадратных скобках) для каждого из трех отдельных графиков (цифры 1,2 и 3 в качестве вторых параметров):
Для быстрейшего отображения и всестороннего форматирования уравнений функций лучше использовать аналоговое окно Параметры, которое вызывается из диалогового окна Статистические графики Нажмите ОК, и вы увидите измененный график:
Вступление
75
Теперь можно продолжить знакомство с различными способами настройки графика. Самый простой (и самый быстрый) способ изменения параметрон какого-либо элемента — это двойной щелчок на нем кнопкой мыши. Кроме того, с помощью одного щелчка правой кнопкой мыши на данном объекте можно вызвать соответствующее ему контекстное меню.
Например, при щелчке правой кнопкой мыши на одной из осей графика появится показанное ниже контекстное меню, в котором предлагается выбор вариантов настройки для данной оси:
На показанном ниже графике с помощью кнопки панели инструментов подобраны другие пропорции графического окна, кроме того, изменен статус условных обозначений с фиксированного на перемещаемый, а их текст отредактирован, упорядочен и перемещен на другое место.
Метут ли графики автоматически обновляться при изменении файла да иных? Да, могут. Все графики сохраняют связи с таблицей исходных данных, по которым они построены. При этом, если обновление не происходит вручную и связи не отменены, график автоматически обновляется при изменении исходных данных Для управления связями имеется специальное диалоговое окно Связи данных и графика. Оно вызывается из выпадающего меню Графика.
76
Глава 1. Краткая экскурсия по системе STATISTICA
Здесь можно установить автоматический режим связи, когда график автомата чески обновляется при изменении данных, по которым он построен. Можно также задать режим Вручную или временно заблокировать связь. Кроме того, можно установить режим Связь с текущим файлом данных и построить такой же график или серию графиков для других файлов данных. Способ связи можно i тобалыю изменить с помощью команды выпадающего меню Сервис.
STATISTICA поддерживает и «вложенные» связи с другими приложениями. Например, можно установить связь графика с данными электронной таблицы Excel 5 путем динамического обмена данными (DDE). При нажатии клавиши F9 для пересчета таблицы Excel произойдет автоматическое обновление как данных этой таблицы, так и соответствующего им графика в системе STATISTICA. См. также два следующих пункта.
Графический формат STATISTICA. Графики и рисунки могут быть сохранены в графическом формате STATISTICA в файле с расширением * stg. Для этого используются команды Сохранить и Сохранить как., из выпадающего меню Файл. Именно этот формат рекомендуется д.чя записи графического фай та, если предполагается в дальнейшем снова открывать его в системе STATISTICA или присоединять к другим приложениям методами OLE. В отличие от других графических форматов формат STATISTICA хранит не только саму картинку, но и Редактор данных графика со всеми представленными на графике данными, все аналитические параметры (уравнения подгонки, эллипсы и пр.), а также другие параметры, позволяющие впоследствии продолжить анализ графических данных. Этот формат наиболее удобен при связывании или внедрении графика в другой график STATISTICA. Сохраненные в данном графическом формате файлы можно распечатать в пакетном режиме с помощью команды Печать файлов из выпадающего меню Файл.
Командный язык STATISTICA (SCL)
STATISTICA содержит два встроенных языка программирования: STATISTICA BASIC и SCL (командный язык). Оба языка предназначены для работы в среде
Командный язык STATISTICA (SCL)
11
STATISTICA и содержат встроенные операции для обращения к таблицам исходных данных, таблицам результатов и графическим функциям.
Язык STATISTICA BASIC представляет собой простой и одновременно достаточно мощный язык программирования. С его помощью можно создать широкий спектр приложений, начиная от простых программ преобразования данных и кончая сложными пользовательскими процедурами комплексного анализа и вывода информации.
Этот язык программирования пригоден для решения больших вычислительных задач, поскольку обрабатываемые массивы данных могут иметь до 8 измерений и нет ограничений на размеры массивов. Таким образом, пользователь может использовать всю доступную память и создавать процедуры, включающие операции с боль-щими многомерными матрицами.
Встроенный язык STATISTICA BASIC доступен в любой момент анализа вместе с интегрированной средой, которая позволяет писать, редактировать, проверять, отлаживать (предварительно прогонять) и выполнять программы.
Язык STATISTICA BASIC как обычный язык программирования поддерживает циклические операции и условные переходы, функции и подпрограммы, а также работу с динамическими библиотеками (DLL). В то же время, он «понимает* структуру файлов данных системы STATISTICA и позволяет организовать интерактивную обработку данных в среде самой системы с помощью пользовательских диалоговых окон. С помощью этого языка пользователь может создавать свои собственные сложные программы анализа данных, одновременно используя готовые алгоритмы расчетов и построения графиков, предусмотренные в системе STATISTICA.
Командный язык SCL (STATISTICA Command Language) предназначен для организации пакетной обработки данных и создания собственных приложений на основе процедур, содержащихся в системе STATISTICA. Для того чтобы пользователь мог при этом реализовать собственные алгоритмы расчетов, предусмотрена возможность интеграции языков STATISTICA BASIC и SCL.
Программы, написанные на встроенных языках системы STATISTICA, доступны в любом модуле системы и на любом этапе анализа данных, при этом их можно вызывать и выполнять как с помощью кнопок автозадач, так и непосредственно из окна редактирования. Пользователь также имеет возможность создавать собственные библиотеки функций и подпрограмм и таким образом значительно расширять предлагаемый набор процедур обработки данных и представления результатов.
Ввод и исполнение SCL-программ. STATISTICA может работать в «истинном» пакетном режиме как система, управляемая командами, с помощью встроенного языка управления приложениями SCL (STATISTICA Command Language), доступного в любом модуле системы из выпадающего меню Анализ. Можно ввести последовательность команд для выполнения определенных действий, а затем сколько угодно раз исполнять ее в пакетном режиме.
Возможен и другой способ действий — использование диалогового окна Мастер команд для быстрого выбора и ввода требуемого списка команд.
78
Глава 1, Краткая экскурсия по системе STATISTICA
Для написания и отладки «пакетов* команд используется интегрированная среда языка SCL. Она включает текстовый редактор, совмещенный с окном Мастер команд (см. иллюстрацию выше — кнопка Мастер команд на панели инструментов Командный язык), систему помощи по синтаксису языка с примерами и интегрированные средства проверки правильности программ (доступны из выпадающего меню Сервис).
Пользовательские расширения языка SCL. Программы на языке SCL могут включать не только предопределен ные параметры и команды для выполнения действий по статистической обработке, управлению и графическому выводу данных (см. кнопки Справка-примеры и Справка: синтаксис на панели инструментов), но и пользовательские «команды», определенные с помощью инструмента Назначить клавиши (Send Keys) (в соответствии с правилами, принятыми в MS Visual BASIC).
Написанные таким образом программы могут выполнять, например, операции с буфером обмена (Копировать, Вставить), менять параметры вывода, принятые I по умолчанию в различных процедурах, и выполнять другие функции.
^Сопрограммы могут также включать в себя программы и процедуры, написанные на языке STATISTICA BASIC (языке STATISTICA предназначенном для преобразования данных и графиков и управления ими, который доступен на любого модуля пакета). Например, определенные пользователем графические или вычислительные процедуры наязыке STATISTICA BASICMoiyr выполняться как часть пакета команд SCL
Пользовательский интерактивный интерфейс для SCI-программ Несмотря на то что в командном языке SCL не заложен в непосредственном виде специальный пользовательский интерактивный интерфейс, тем не менее для этих целей можно использовать программы на языке STATISTICA BASIC, вызываемые из SCi-npo- '
Командный язык STATISTICA (SCL)
79
грамм, например для создания диалоговых окон, позволяющих выбирать переменные, файлы данных и т. и. в ходе выполнения программы (см. примеры в Электронном руководстве).
Исполняемый модуль STATISTICA. Командный язык содержит специальный Исполняемый модуль, позволяющий разрабатывать приложения «подключ», которые вызываются двойным щелчком на значке соответствующего «пользовательского приложения» на рабочем столе Windows.
Эта возможность позволяет экономить время пользователя, когда многократно повторяется одна и та же процедура или последовательность процедур анализа, а также дает возможность использовать 5С£-нрограммы пол ьзователямн, которые не знакомы с соглашениям» системы STATISTICA.
Чтобы создать такое приложение «под ключ», сначала нужно написать саму SCL-программу и сохранить ее обычным образом (например, в файле Programiscl). Затем в окне Диспетчер программ системы Windows нужно создать пиктограмму для исполняемого модуля с именем Sra_run.exe (оно находится в папке STATISTICA надиске).
Модуль
80
Глава 1. Краткая экскурсия по системе STATISTICA
Б поле команд нужно задать имя SCL программы, подлежащей исполнению (например, d:\data\program1.set). Теперь при щелчке мышью на этом значке будет начинаться выполнение программы (в данном случае Programi .set). Описанным способом можно создать любое количество пользовательских приложений а с помощью окна Диспетчер программ дать им содержательные имена, соответствующие тем задачам анализа данных, которые эти приложения выполняют.
Кнопки автозадач
Кнопки автозадач — это всплывающая настраиваемая панель инструментов (включить или выключить ее можно клавишами CTRL+M).
Кнопки на этой панели инструментов можно назначить, переопределить с помощью кнопки Настройка... (или нажатия на соответствующую кнопку при удерживаемой клавише CTRL). В диалоговом окне, которое при этом открывается, можно присвоить имена уже имеющимся и новым кнопкам
кнопки автозадач 81
Перейдем к более систематическому изложению.
Часто при выполнении сложной задачи возникает необходимость выполнять одну и ту же последовательность действий, например открывать ранее сохраненные графики, данные или листинги программ. Постоянная потребность выполнять мало относящиеся к основной работе операции может отнимать время или даже раздражать. В системе STATISTICA предусмотрены возможности, которые избавляют пользователя от однообразных операций и способствует созданию комфортных условий работы.
Кнопки автозадач — это настраиваемая панель, которую в случае необходимости вы легко можете убрать с экрана или снова восстановить (восстановить или скрыть эту панель можно с помошью комбинации кнопок CTRL+M).
На панели «Кнопки автозадач» нажмите кнопку Настройка...
Откроется окно настройки кнопок автозадач В центральной части окна расположен столбец кнопок, позволяющий:
о Изменить или задать кнопку. Нажав на эту кнопку, вы можете задать последовательность нажатий кнопок клавиатуры. Для организации такой последовательности достаточно нажать кнопку Запись в правой части диалогового окна. С этого момента система автоматически начнет запоминать и переводить на язык команд ваши действия. Нажав, например, на клавиатуре кнопку Alt, вы попадете в главное меню, по которому сможете передвигаться с помощью стрелок и клавиши Enter. Свободно перемешаться внутри диалоговых окон вам поможет клавиша Tab и т. д. Для окончания записи нажмите CTRL+F3. В нижней части окна Настройка кнопок автозадач будут описаны кнопки перемещений по окнам и соответствующий им синтаксис.
о Удалить кнопку. В любой момент вы можете удалить ставшую ненужной кнопку.
О Задать последовательность функций или операций на Командном языке STATISTICA (SCI).
О Использовать написанные на языке STATISTICA BASIC процедуры вычислительного характера, преобразования данных, операции по управлению данными, графические процедуры, а также процедуры, написзнные на любом другом языке программирования, вызываемые из STATISTICA BASIC.
о Открывать файлы данных и любые вспомогательные файлы системы STATISTICA.
О Создавать и редактировать макрокоманды (последовательности нажатий клавиш), соответствующие часто выполняемым процедурам, заданиям или настройкам. Такие редактируемые команды можно вводить в текстовом виде или, например, как последовательности движений мышью.
В каждом из описанных выше окон предусмотрена возможность создания сочетаний 'горячих клавиш». Вы можете назначить сочетание клавиши CTRL и любой буквы от А до Z или цифры от 0 до 9. После сохранения этой установки вам будет Достаточно нажать определенную комбинацию клавиш, что будет равносильно нажатию на кнопку автозадачи.
82
Глава 1. Краткая экскурсия по системе STATISTICA
Панель инструментов может быть глобальной или локал ьной и содержать большие библиотеки пользовательских заданий и процедур. Локальная панель инструментов связана с конкретным модулем или проектом. Имя открытой в данный момент панели высвечивается в строке заголовка диалогового окна.
Настроенную панель инструментов Кнопки автозадач можно затем сохранить, используя команды диалогового окна Настройка...
Панель инструментов Кнопка автозадач можно использовать как удобный интерфейс для пользовательских расширений стандартных процедур.
Кнопки автозадач
Ее можно ле1 ко настроить так, чтобы она занимала очень мало места на экране.
Размеры панелей инструментов можно менять с помощью мыши:
Панель можно зафиксировать, переместив ее к границе окна приложения системы STATISTICA, как показано на следующем рисунке.
84
Глава 1. Краткая экскурсия по системе STATISTICA
Как уже былоотмечено, кнопки панели инструментов Кнопки автозадач можно настроить или переназначить в диалоговом окне Настройка кнопок автозадач (которое открывается с помощью кнопки Настройка.. на панели инструментов). Кроме того, отдельные кнопки можно отредактировать и/или переназначить непосредственно в соответствующем окне настройки; для этого нужно щелкнуть мышью по этой кнопке при нажатой клавише CTRL.
При этом откроется окно настройки данной конкретной кнопки.
Выбирая последний пункт контекстного меню, которое появляется по щелчку правой кнопкой мыши где-либо на панели инструментов, можно быстро переключаться между различными предварительно сохраненными панелями инструмен тов Кнопки аетоэадач.
Взгляд в будущее
STATISTICA постоянно развивается, открывая новые возможности для пользователей Если говорить кратко, то развитие системы происходит в духе развития современных Windows-технологий. Гибкая настраиваемость для задач конкретного проекта, широкий набор статистических опций, доступных пользователю из других приложений, глобальная интеграция с другими приложениями, например, с помощью VB, C++, Java, оптимизация для Web и мультимедийных приложений — ближайшие перспективы STATISTICA.
Первые шаги в системе STATISTICA
85
В таблицы с данными (мультимедийные электронные таблицы) можно будет встраивать различные объекты: звук, фото и т. д.
Первые шаги в системе STATISTICA
Наше знакомство с системой STATISTICA, конечно, следует начать с ввода данных. Вы увидите, как легко вводятся в STATISTICA самые разнообразные данные. Предполагается, что система STATISTICA установлена на вашем компьютере и вы последовательно повторяете описываемые действия.
В качестве конкретной области выберем медицинский пример.
Как вы уже знаете, исходные данные в системе STATISTICA организованы в виде таблиц. Если у вас имеется опыт работы с электронными таблицами (типа MS Excel), то вы быстро привыкнете к таблицам STATISTICA. Заметим, что табличная структура данных STATISTICA позволяет естественно отобразить большинство реальных данных.
Электронная таблица состоит из строк и столбцов. Столбцы таблицы STATISTICA называются Variables — Переменные, а строки Cases — Наблюдения.
Например, в медицине наблюдения — это пациенты, переменные — пол,возраст. Дата поступления в больницу, дата диагноза, дата операции, перевода в другую больницу, выписки и т. д. Вы можете представить такую таблицу как страницу записной книжки врача, где строки — это, например, имена пациентов, столбцы — характеристики (переменные, описывающие течение болезни).
86
Глава 1. Краткая экскурсия по системе STATISTICA
Для того чтобы создать таблицу с данными, проделайте следующее"
1.	Запустите программу STATISTIСА.
2.	Откроется меню Статистических модулей (STATISTICA Module Switcher).
3.	Выберите из меню модуль Основные статистики и таблицы и щелкните по нему мышью.
4.	Теперь вы находитесь в модуле Основные статистики и таблицы, в котором можете выбрать любую статистическую процедуру, входящую в этот модуль. Но поскольку у вас другая цель, просто щелкните мышью по кнопке Выход (Cancel).
Итак, вы находитесь в рабочем окне модуля Основные статистики и таблицы системы STATISTICA. В основном рабочем окне системы подведите курсор мыши к строке меню Файл и щелкните левой кнопкой. В выпадающем меню выберите команду Создать данные. На экране компьютера сразу же появляется окно Создание данных (см. рисунок ниже)
В этом окне можно ввести имя файла, например medicinel sta (файл может быть назван и по-русски, однако по ряду причин целесообразнее использовать английские имена).
Теперь поместите курсор мыши в поле Filename — Имя файла и наберите с клавиатуры нужное имя.
После нажатия клавиши Enter на клавиатуре или кнопки Save программа со здаст пустую таблицу, содержащую 10 строк и 10 столбцов
Первые шаги в системе STATISTICA
87
Вы легко можете увеличить или уменьшить как количество строк, так и количество столбцов этой таблицы. Создайте в таблице столько строк и столбцов, сколько н\'жно. Для этого используйте кнопки Пяре*«ииы* J Навлвдвниг! иа панели инструментов.
Нажмите, например, кнопку Наблюдения. После нажатия кнопки на экране возникнет меню, предлагающее следующий выбор для наблюдений таблицы: Доба-вить, Пере честить, Копировать, Удалить, Ввести имена наблюдений. Выберите, напри мер. пун кт Добавить, дважды щелкнув левой кнопкой мыши. Откроется окно, в котором можно задать число наблюдений, добавляемых в таблицу:
Нажмите ОК, и количество строк (наблюдений) в таблице увеличится на 2, то есть станет равным 12. Аналогичным образом измените число переменных в таблице. В данном случае понадобятся 11 переменных. Нажмите кнопку Переменные на панели инструментов. С помощью курсора мыши в выпадающем меню выберите пункт Добавить. На экране появится окно, где выполните установки, как показано ниже.
Нажмитееще раз кнопку Наблюдения и выберите пункт меню Имена. На экране появится диалоговое окно, в котором можно определить, сколько символов в таблице будет зарезервировано для имен наблюдений. Раздвинуть поле для имен наблюдении можно также с помощью мыши.
Итак, вы сделали первый шаг к достижению цели — создали электронную таблицу, которая имеет 11 столбцов и 12 строк, атакже место для ввода имен наблюдений (см. рисунок).
Теперь необходимо ввести название таблицы (ее заголовок) и имена переменных Н работаете, используя мышь и клавиатуру. Запомните основной принцип: дважды
88
Глава 1. Краткая экскурсия по системе STATISTICA
щелкая мышью по полям заголовков, вы открываете диалоговые окна, позволяющие вводить заголовки, описывать переменные и т. д. Введите заголовок таблицы. Для этого дважды щелкните мышью на верхней строке таблицы, пустой строке, которая находится над переменными. В появившемся окне введите заголовок таблицы
Наберите с клавиатуры заголовок, нажмите ОК. Введенный текст отобразится в заголовке таблицы В поле Информация о файле и примечания можно записать дополнительную информацию, которая будет полезна при работе с файлом.
Аналогично редактируются имена переменных и наблюдений. Например, чтобы ввести имена, необходимо дважды щелкнуть мышью в поле Имя наблюдения и в появившемся окне ввести имена пациентов:
Для того чтобы описать переменную, необходимо дважды щелкнуть мышью по ее имени — например, после щелчка по заголовку переменном (VAR1) откроется окно, в котором можно задать ее имя (или переименовать ее), формат переменной метку, связь ит. д.
Первые шаги в системе STATISTICA
89
Теперьзалолните созданную таблицу данными. Данные вводятся непосредственно с клавиатуры. Возмож! юсти экспорта, например в MS Word, мы обсудим позднее. Если нужно ввести числовые данные, используйте клавиатуру и стрелки перемещения курсора. Поставьте курсор на нужную ячейку таблицы и введите числовые данные. Текстовые значения вводятся иначе. Подведите курсор к ячейке переменной с текстовыми значениями и дважды щелкните мышью. В ячейке появится код 9999 — это код пропущенных значений. Сотрите код, используя кнопку DEL на клавиатуре. Затем введите нужное текстовоезначение В итоге можно получить следующую таблицу:
Таким образом, вы научились создавать таблицы и вводить в них данные. Повторив несколько раз описанные действия с другими данными, вы прочно закрепите полученные навыки.
Поскольку система STATISTICA является обычным Windows-приложением, можно легко и быстро импортировать данные, полученные в системе STATISTICA, в другое Windows-приложение, например в MS Word.
Лучше всего проделать это следующим образом: нажмите одновременно кнопки ALT и F3. На экране вместо курсора мыши появится значок «прицел». Используя мышь, поместите прицел в верхний левый угол таблицы. Затем нажмите левую кнопку мыши, зафиксируйте прицел и. удерживая кнопку мыши, переместите прицел в новое место таблицы. Выделенная часть таблицы будет отмечена прямоугольной рамкой. После того как вы отпустите кнопку мыши, отмеченная часть таблицы будет помещена в буфер обмена. Если теперь открыть нужный документ Word и набрать на клавиатуре комбинацию кнопок CTRL и V, то выбранный сегмент таблицы будет скопирован в документ.
Замечания. Вы работали в модуле Основные статистики и таблицы, подобным же способом можно ввести данные в любом модуле системы STATISTICA. С точки зрения общих возможностей по управлению данными, модули системы одинаковы.
В системе STATISTICA имеется специальный модуль Управление данными (Data management), который содержит расширенные возможности, позволяющие быстро создать электронную таблицу, объединить две таблицы, вырезать часть таблицы, отсортировать наблюдения по какому-либо признаку: например, расположить имена пациентов в алфавитном порядке или упорядочить их по возрасту и т. д. (см. рисунок ниже).
Упражнение. Проведите сортировку данных файла medicine1.sta по возрасту пациентов и по городам. Используйте модуль Управление данными и опцию Сортировка набчюдений
Глава 1. Краткая экскурсия по системе STATISTICA
Еще один пример
Из переключателя модулей системы STATISTICA запустите модуль Основные статистики и таблицы. Для этого выберите в меню модуль Основные статистики и таблицы и щелкните по нему мышью. Модуль будет выбран из списка модулей. Затем подведите курсор мыши к кнопке Переключиться в и нажмите ее. Произойдет запуск системы STATISTICA, и на экране появится рабочее окно модуля Основные статистики и таблицы. Именно в этом модуле мы будем работать.
Первые шаги в системе STATISTICA 91
В модуле Основные статистики и таблицы создайте файл данных, как показано на рисунке.
В файле содержатся результаты опроса 10 женщин (данные являются модельными) относительно их семейного положения и состояния уровня тревожности Первая переменная СЕМ_ПОЛ описывает семейное положение женщин. Эта переменная принимает два значения: П_семья — полная семья, Нсемья — неполная семья. Вторая переменная, ТРЕВОГА, описывает самооценку личностной тревожности женщины. Она принимает два значения; низкая, высокая. Известно, что личностная тревожность характеризуется устойчивой склонностью воспринимать жизненную ситуацию как угрожающую (содержащую в себе тайную угрозу). Вы видите, что первая опрошенная женщина — наблюдение номер 1 (первая строка в таблице) — имеет полную семью и характеризует свое душевное состояние как тревожное. Вторая опрошенная женщина — наблюдение номер 2 (вторая строка таблицы) — имеет неполную семью и оценивает уровень своей тревожности как низкий и т. д.
Назовите этот файл a omen 1.sta.
Заметьте, переменныев этом файле принимают текстовые значения, что типично для социологических опросов.
Примите совет, позволяющий эффективнее организовать ввод текстовых данных. Переменные принимают текстовые значения, и если каждый раз вводить текст в таблицу, то это займет слишком много времени. Для удобства лучше использовать численные значения, а затем перейти в текстовый режим, нажав кнопку на панели инструментов. Удобно закодировать значения переменных. Покажем, как это делается. Начнем с переменной СЕМ_ПОЛ. Дважды щелкните по ее заголовку левой кнопкой мыши, и на экране отобразится окно Диспетчер текстовых значений - СЕМПОЛ.
В этом окне в колонке Текст наберите в первой строке П_семья, а в колонке Число наберите 1. Это приведет к тому, что текстовому значению П_семья будет присвоен код 1. Во второй строке Диспетчера текстовых значений наберите Н_семья, а в колонке Число наберите 2 — текстовому значению Н семья будет присвоен код 2. Далее нажмите кнопку ОК.
92
Глава 1. Краткая экскурсия по системе STATISTICA
Теперь введите значения 1 в те ячейки переменной СЕМ_ПОЛ. и которых должно стоять текстовое значение П__семья.
Введите значения 2 в те ячейки переменной СЕМПОЛ, в которых должно сто -ять текстовое значение Н_семья
Теперь достаточно нажать кнопку	на панели инструментов STATISTICA
чтобы получить нужные текстовые значения.
Точно такимжеобраэом введите текстовые значешы в ячейку переменной ТРЕВОГА.
Итак, вы создали файл women 1 sta. Теперь построим, исходя из этого файла исходных данных, таблицу сопряженности. Это очень легко сделать в STATISTICA
Шаг 1. Подведите курсор мыши к пункту Анализ. Щелкните по нему мышью. Б появившемся меню сделайте выбор: Стартовая панель.
Вы увидите различные виды анализа, которые доступны в модуле. Выберите анализ: Таблицы и заголовки и нажмите кнопку ОК.
На экране появится окно Задайте таблицы.
Шаг 2. Сначала в строке Анализ выберите Таблицы сопряженности (возможен вариант Таблицы флагов и заголовков').
Провыв шаги в системе STATISTICA 93
Шаг 3. Далее нажмите кнопку Задать таблицы. В появившемся окне выберите перемен ные, которые будут табул прогоны в таблице Эти переменные задают разбие • ние исходных данных на группы, поэтому часто их называют также группирующими переменными. В данном случае нужно табулироватьзначения переменных СЕМ ПОЛ иТРЕВОГА
Поэтому выберите их, как это показано на рисунке ниже.
Заметьте, что вообще можно выбрать до 6 списков группирующих переменных, что позволяет построить чрезвычайно сложные таблицы, содержащие гораздо большее число переменных, чем в описываемом примере. Именно такие таблицы часто возникают при массовых обследованиях, и их нужно уметь строить.
После выбора переменных нажмите кнопку ОК. Вы вновь вернетесь в диалоговое окно, показанное на рисунке. Обратите внимание, что окно немного изменилось: около надписи Число таблиц появилась цифра 1, потому что вы выбрали переменные и попросили систему построить одну таблицу.
Шаг 4. Нажмите Enter на клавиатуре или кнопку ОК в верхнем правом углу диалогового окна.
Система произведет вычисления и предложит посмотреть результат в окне Результаты кросстабуляции.
Шаг 5. В окне Результаты кросстабуляции нажмите кнопку Просмотреть итоговые таблицы. На экране появится следующая таблица сопряженности-
94
Глава 1, Краткая экскурсия по системе STATISTICA
Вы видите, что в этой таблице табулированы переменные СЕМПОЛ и ТРЕВОГА. На пересечении строк и столбцов стоят абсолютные значения, вычисленные из исходного файла данных womenl sta
Мы табулировали совместно значения двух переменных, СЕМ ПОЛ и ТРЕВОГА, и такое действие часто называется кросстабуляцией (от английского cross — пересекать).
Из построенной таблицы, называемой на сленге таблицей сопряженности, видно, что три женщины имеют полную семью и низкий уровень тревоги, две женщины имеют неполную семью и низкий уровень тревоги и т. д. Если вас интересует раздельная табуляция каждой переменной, посмотрите на крайний правый столбец и нижнюю строку таблицы. Вы увидите, что всего среди опрошенных женщин пять имели полную семью и пять — неполную семью; пять женщин имели высокий уровень тревожности (см. крайний правый столбец), пять — низкий уровень тревожности (см. нижнюю строку).
Часто возникает необходимость вместе с абсолютными значениями привести в таблице проценты. Система STATISTICA позволяет выбрать те проценты, которые требуются: например, только проценты по строке, или проценты по столбцу, или проценты от общего количества, или же и те и другие.
Проценты по столбцу — это проценты, вычисленные относительно суммарного значения частот по столбцу. Проценты построке — это проценты, вычисленные относительно суммарного значения частот по строке. Проценты от общего числа вычисляются относительно суммы частот в таблице Рассмотрим, как это делается.
Шаг 6. Нажмите кнопкуЦалее в верхнем левом углу таблицы (см. рисунок).
Вы вновь вернетесь в окно Результаты кросстабуляции.
Шаг 7. В окне Результаты кросстабуляции обратите внимание на опции в праной части, объединенные в группу Таблицы.
Выберите, например, опцию Проценты от общего числа. Подведите курсор мыши к соответствующему квадрату и щелкните мышью. В окне Результаты кросстабу ляции нажмите кнопку Просмотреть итоговые таблицы. На экране появится еле -дующая таблица:
Здесь рядом с абсолютными значениями появились относительные величины — проценты, вычисленные от общего числа женщин, то есть от 10.
Первые шаги в системе STATISTICA
95
Итак, из таблицы видно (пожалуйста, проверьте!), что:
О 30% женщин имеют полную семью п низкий уровень тревоги (первая клетка таблицы),
О 20% женщин имеют полную семью и высокий уровень тревоги (вторая клетка таблицы),
> 20% женщин имеют неполную семью и низкий уровень тревоги,
О 30% женщин имеют неполную семью и высокий уровень тревоги.
Построенную таблицу можно отредактировать, изменить ее вид. надписи и т. д.
Шаг 8. Редактирование таблицы.
Дважды щелкните, например, по полю Всего % в построенной таблице. В появившемся окне Имя строки таблицы результатов вместо Всего % введите %
Вы получите таблицу вида-
Шаг 9. Построение отдельных таблиц с процентами.
Вернитесь вновь в окно Результаты кросстабуляции и обратите внимание на опцию Отображать выбранные % в отдельных таблицах
Сделайте следующие установки: выберите опцию Проценты от общего числа и опцию Отображать выбранные % в отдельных таблицах. Затем нажмите кнопку Просмотреть итоговые, таблицы.
96
Глава 1. Краткая экскурсия по системе STATISTICA
Вы увидите две таблицы, одна из которых будет содержать только абсолютн_. значения, а другая — проценты, вычисленные от общего количества опрошенных.
Шаг 10. Создание автоотчета.
В системе STATISTICA имеется полезное средство подготовки отчета, которое позволяет представить все полученные результаты в формате RTF; далее отчет можно вывести на принтер, отредактировать и красиво распечатать.
Проделайте следующее: войдите в меню Вид и выберите опцию Окно текста/ вывода. Из построенных таблиц (они находятся в рабочем окне системы) выберите ту, которую нужно сохранить для отчета. Щелкните по ней мышью. Вновь войдите в меню Файл и выберите опцию Печать. Отмеченная таблица результатов будет распечатана.
В этом окне можно, например, отредактировать таблицу и подготовить ее в том формате, какой требуется для исследовательского отчета или статьи.
ИТОГО Б it OON 5 Ы.ООХ 10 100 ООМ
97
Графический анализ таблиц сопряженности
Обратите внимание, что в процессе работы ни разу не использовался какой-либо язык программирования, все действия носят интерактивный характер, и это большое достоинство системы STATISTICA. Работать в ней так же просто, как, например. в текстовом редакторе MS Word. В заключение вам предлагается упражнение, которое закрепит полученные навыки.
Пример. Создайте в STATISTICA файл womeri2jsta. Для градации значений переменных используются более реалистичные шкалы. Шкала семейного положения женщины: одинокая, неполная семья, полная семья. Шкала тревожности женщины: низкая, умеренная, высокая.
анализ таблиц сопряженности
Графический
Таблицы сопряженности позволяют компактно описывать данные. Они удобны и требуют минимум комментариев, поэтому популярны среди врачей, социологов, маркетологов. В системе STATISTICA очень легко строятся даже самые сложные таблицы сопряженности.
Здесь мы рассмотрим, как визуализировать построенные таблицы, то есть познакомимся со средствами STATISTICA, позволяющими графически проанализировать таблицы. Визуально гораздо проще увидеть закономерности, содержащиеся в таблицах. В примерах используются данные небольшого объема, чтобы можно было отчетливо представить основные приемы работы. Представьте, в каком сложном положении вы оказались, если бы имели дело с громадными таблицами, а именно такие таблицы возникают на практике. «Делайте вслед занами!» — по-прежнему остается нашим главным девизом.
Итак, система STATISTICA запущена на компьютере, вы работаете в модуле Основные статистики и таблицы (в английской версии STATISTICA модуль Основные статистики и таблицы называется Basic Statistics and Tables').
Пример (продолжение)
Файл данных womenlsta, с которым вы работаете, открыт в рабочем окне. Напомним, что в этом файле приведены результаты опроса 10 женщин (данные являются Модельными) относительно их семейного положения и уровня тревожности.
98
Глава 1. Краткая экскурсия по системе STATISTICA
Первая переменная СЕМПОЛ семейное положение женщин. Эта переменная принимает два значения: П семья — полная семья, Н_семья — неполная семья.
Вторая переменная ТРЕВОГА — самооценка личностной тревожности женщины. Она принимает два значения: низкая, высокая. Известно, что личностная тревожность характеризуется устойчивой склонностью личности воспринимать жизненную ситуацию как угрожающую. В данном упрощенном примере мы использовали две степени тревожности: низкая и высокая.
Вы видите, что первая опрошенная женщина — наблюдение номер 1 (первая строка в таблице) — имеет полную семы» и характеризует свое состояние как тревожное. Вторая опрошенная женщина — наблюдение номер 2 (вторая строка таблицы) — имеет неполную семью и оценивает уровень тревожности как низкий ит. а.
Шаг 1. Подведите курсор мыши к пункту Анализ. Щелкните по нему мышью. В появившемся меню сделайте выбор: Стартовая панель.
Выберите анализ: Таблицы и заголовки и нажмите кнопку ОК
С помощью опций окна задания таблицы произведите табулировку переменных СЕМ_ПОЛ и ТРЕВОГА
графический анализ таблиц сопряженности
Шаг 2. После того как система построит таблицу, посмотрите внимательно на окно Результаты кросапабуляции.
Обратите внимание на кнопки в правом нижнем углу диалогового окна Результаты кросстабуляции.
ШагЗ. В диалоговом окне Результаты кросстабуляции нажмите кнопку Кате-гори «манные гистограммы:
100
Глава t. Краткая экскурсия по системе STATISTICA
Смысл этих гистограмм следующий; опрошенные женщины разбиты на две группы (категории): женщины из полной семьи и женщины из неполной семьи
Обычная гистограмма для этих переменных выглядит следующим образом;
ных. На обычной гистограмме количество женщин с высокой и низкой тревожностью одинаково. На категоризованной гистограмме количество женщин с высоким уровнем тревожности в неполных семьях выше, чем в полных. Уровень тревожности женщин в полных семьях ниже, чем уровень тревожности в неполных семьях.
Продолжение примера
Рассмотрим файл данных womeri2.sta. Для градации значений переменных мы использовали более реалистичные шкалы: одинокая женщина, неполная семья, полная семья. Шкала тревожности женщины: низкая, умеренная, высокая.
Шаг 1. Подведите курсор мыши к пункту Анализ. Щелкните по нему мышью. В появившемся меню сделайте выбор: Стартовая панель.
Выберите Таблицы и заголовки и нажмите кнопку ОК.
Шаг 2. В строке Анализ выберите Таблицы сопряженности (возможен вариант Таблицы флагов и заголовков).
Графический анализ таблиц сопряженности 101
Далее нажмите кнопку Задать таблицы. В появившемся окне выберите переменные, которые будут табулированы в таблице (подробности см. выше). В данном случае необходимо табулировать значения переменных СЕМ_ПОЛ и ТРЕВОГА
Нажмите кнопку Коды и выберите коды (значения) табулируемых качественных признаков. В этом примере количество значений переменных увеличилось, так как используется более точная шкала измерения.
Если вы хотите, чтобы табулировались все значения переменных, нажмите кнопку Выбрать все в правом нижнем углу.
Заметьте, что вообще можно выбрать любой набор кодов. Коды переменных можно просмотреть, нажав кнопку Ииф.
Например, переменная СЕМ_ПОЛ принимает следующие значения:
Шаг 3. Нажмите Enter на клавиатуре или кнопку ОК в верхнем правом углу Диалогового окна.
STATISTICA произведет выч исления, табулирует данные п предложит результат в окне Результаты кросстабуляции (см. рисунок).
102
Глава 1- Краткая экскурсия по системе STATISTICA
Шаг 4. В окне Результаты кросстабуляции паямплекнопку Просмотреть итоговые таблицы. На экране появится таблица:
Шаг 5. Нажмите кнопку Далее в верхнем углу таблицы, и вы вернетесь в окно результатов. В диалоговом окне Результаты кросстабуляции нажмите кнопку Категоризованные гистограммы.
Смысл гистограмм заключается в следующем: женщины разбиты на 3 группы или категории: женщины из полной семьи, женщины из неполной семьи, одинокие женщины (ср. с предыдущим примером). Для каждом группы построена отдель-
Графический анализ таблиц сопряженности
103
цая гистограмма, и все эти гистограммы собраны вместе на одном графике, что позволяет визуально сравнить группы.
Шаг 6. В диалоговом окне Результаты кросстабуляции нажмите кнопку ЗМ гистограммы.
На экране появится трехмерная гистограмма.
Смысл этой гистограммы следующий: составляются всевозможные комбинации значении двух переменных: семейное положение и уровень тревожности, и подсчитывается, сколько раз встречалась каждая комбинация.
Трехмерная гистограмма очень наглядно воспроизводит таблицу кросстабуляции. Вы положили таблицу на плоскость и в каждую клетку поставили по столбцу, высота которого равна количеству наблюдений в клетке таблицы.
Если вас не устраивает ракурс построенной трехмерной гистограммы, можно его изменить, воспользовавшись средствами системы. STATISTICA предлагает удивительный инструмент работы с. графиками. Например, их можно повернуть.
Нажмите кнопку Вращение, расположенную на панели инструментов.
На экране появится окно, в котором можно провести вращение и подобрать нужную перспективу.
Для вращения графика используйте линейку прокрутки. Немного поэкспериментируйте с ней. Сначала, например, с помощью мыши сдвиньте курсор прокрутки в крайне левое положение. Вы увидите следующую картинку:
104
Глава 1. Краткая экскурсия по системе STATISTICA
Сдвиньте теперь курсор прокрутки правее.
Каждый раз, когда сдвигается курсор, происходит поворот графика. Выберите тот вариант, который вас устраивает. Нажмите кнопку ОК Нужный график появится на экране.
Шаг7. Построение графиков взаимодействий частот В окне Результаты кросс-табуляции нажмите кнопку Графики взаимодействий частот. На экране появится график взаимодействий:
Смысл этого графика простой: он показывает, как взаимодействуют или как связаны между собой частоты наблюдений из разных групп.
Все построенные графики показывают, что женщины из разных семей различаются по уровню тревожности. Является ли это различие значимым, показывают статистические тесты.
2
Элементарные понятия анализа данных
В этой главе предлагается краткое обсуждение элементарных статистических понятий, лежащих в основе процедурв любой области статистического анализа данных. Выбранные нами темы иллюстрируют основные допущения, принимаемые в большинстве статистических методов для описания «численной природы» действительности, а изложение ведется на языке, доступном для широкого круга читателей.
Мы начнем с самых простых, интуитивно ясных понятий и рассмотрим связи между ними, фактически представим описание языка, на котором говорят при проведении анализа данных.
Что такое переменная?
Переменная (английский термин variable) — это то, что можно измерять, контролировать или чем можно манипулировать в исследованиях. Иными словами, переменная — это то, что варьируется, изменяется, а не является постоянным (от английского корня var).
Например, измеряя давление или содержание лейкоцитов в крови, вы получаете различные значения у разных пациентов или значения для одного и того же пациента в разное время суток. Измеряя уровень осадков, получаете различные значения в разные дни недели, а также различные значения в одни и те же дни в разных точках географической карты
Другое примеры переменных из разных областей: анкетные данные, систолическое давление пациентов, количество лейкоцитов в крови, цена акций, товаров, услуг, потребление, инвестиции, доход, государственные закупки товаров и услуг, инструмент государственного регулирования (в экономике); рейтинг программ, доля зрителей, количество посещений сайта (в рекламе); скорость, температура, объем, масса в (физике) и т. д.
Очевидно, что это очень разные по своим свойствам переменные, и поэтому можно сказать, что переменные отличаются характеристиками, в частности, той ролью, которую они играют в исследованиях, типом измерений и т. д.
Простейшие описательные статистики
Так как значения переменных не постоянны, нужно научиться описывать их изменчивость.
106
Глава 2. Элементарные понятия анализа данных
Для этого придуманы описательные или дескриптивные статистики: минимум максимум, среднее, дисперсия, стандартное отклонение, медиана, квартили, мода ит.д.
Идея этих статистик очень проста, вместо того чтобы рассматривать все значения переменной, а их может быть очень много (тысячи и миллионы), вначале стоит просмотреть описательные статистики. Они дают общее представление о значениях, которые принимает переменная.
Минимум и максимум — это минимальное и максимальное значения переменной
Среднее — сумма значений переменной, деленная на п (число значений переменной).
Дисперсия (от английского variance) и стандартное отклонение (от англиггско-го standard deviation) — наиболее часто используемые меры изменчивости переменной. Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, когда значения переменной постоянны.
Стандартное отклонение вычисляется как корень квадратный из дисперсии. Чем выше дисперсия или стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего. Часто стандартное отклонение — более удобная характеристика, так как измерена в тех же единицах, что исходная величина
Медиана разбивает выборку на две равные части. Половина значений переменной лежит ниже медианы, половина — выше.
Медиана дает общее представление о том, где сосредоточены значения переменной, иными словами, где находится ее центр. В некоторых случаях, например при описании доходов населения, медиана более удобна, чем среднее.
Квартили представляют собой значения, которые делят две половины выборки (разбитые медианой) еще раз поползм.
Таким образом, медиана и квартили делят диапазон значений переменной на четыре равные части.
Различают верхнюю квартиль, которая больше медианы и делит пополам верхнюю часть выборки (значения переменной больше медианы), и нижнюю квартиль, которая меньше медианы и делит пополам нижнюю часть выборки
Нижнюю квартиль часто обозначают символом 25%, это означает, что 25% значений переменной меньше нижней квартили
Верхнюю квартиль часто обозначают символом 75%, это означает, что 75% значений переменной меньше верхней квартили
Мода представляет собой максимально часто встречающееся значение переменной (иными словами, наиболее «модное» значение переменной), например популярная передача на телевидении, модный цвет платья или марка автомобиля и т д.
С описательными статистиками связаны статистические графики, например приведенный ниже график наглядно показывает, как распределены значения переменной (подробнее см. главу Визуальный анализ данных):
Взгляните на график
На графике приведены описательные статистики для переменной Уровень осадков. Хорошо видно, как распределены значения переменной: от минимального уровня (16 дюймов) до максимального уровня (39 дюймов).
Половина значений переменной лежит ниже 27,5 дюйма, то есть в половине всех наблюдаемых месяцев уровень осадков был меньше 27,5 дюйма Половина
гяпйсгва описательных статистик
107
значений осадков лежит выше 27,5 дюйма, соответствуя тому, что в половине наблюдаемых месяцев уровень осадков был выше 27.5 дюйма.
Свойства описательных статистик
Введем формально определения простейших описательных статистик.
Среднее. Пусть имеется переменная X. тогда оценка среднего, или выборочное среднее, вычисляется как среднее арифметическое наблюдаемых значений. Выборочное среднее обычно обозначается X и читается «X с чертой». Формально имеем:
Выборочное среднее является той точкой, сумма отклонений наблюдений от которой равна 0. Формально это записывается следующим образом:
f(X-Xj=<i
Упражнение: используя определение среднего, убедитесь, что данное свойство действительно имеет место, то есть сумма отклонений наблюдаемых значений от среднего арифметического действительно равна 0
Выборочное среднее — единственная точка, которав обладает данным свойством, и это выделяет ее среди всех других.
Кроме того, выборочное среднее обладает ешеодним замечательным свойством: сумма квадратов расстояний между наблюдаемыми значениями и их средним арифметическим является минимальным. Если вместо среднего арифметического взять любую другую величину, то сумма квадратов расстояний между наблюдаемыми значениями и этой величиной будет только больше, но никак не меньше.
Дисперсия. Выборочная дисперсия переменной X (термин впервые введен Фишером, в 1918 г.) вычисляется по формуле
108
Глава 2. Элементарные понятия анализа данных
в1—^-Х<х-х>’ п — 1 ,=1
Обратите внимание на коэффициент в данной формуле, он ранен и — 1, такая оценка дисперсии является несмещенной (математическое ожидание несмещенной оценки равно в точности значению оцениваемого параметра).
Стандартное отклонение равно корню квадратному из выборочной дисперсии Формально имеем:
в
Медиана выборки (термин был впервые введен Гальтоиом, в 1882 г ) — значение, которое разбивает выборку на две равные части. Половина наблюдений лежит ниже медианы, и половина наблюдений лежит выше медианы.
Наблюдения упорядочивается по возрастанию: Х(1)<	ХМ). Получен-
ная последовательность Х<й называется вариационным рядом, а ее элементы — порядковыми статистиками. Если число наблюдений нечетно и = 2т 1, то медиана оценивается как X(ml: med - X^m).
Если число наблюдений четно п 2т, то в качестве оценки медианы берется величина (Х<т) + Х^п)/2.
Медиана обладает следующим замечательным свойством: сумма абсолютных расстояний между точками выборки и медианой минимальна. С вариационным рядом связано много важных статистик, например, спейсннгн, представляющие собой расстояния между соседними порядковыми статистиками.
Квантиль (термин был впервые использован Кендаллом в 1940 г.) выборки представляет собой число хр, ниже которого находится p-я часть (доли) выборки.
Например, квантиль 0,25 для некоторой переменной — это такое значение (хр), ниже которого находится 25% значений переменной.
Аналогично квантиль 0,75 — это такое значение, ниже которого попадают 75% значений выборки.
Формально р-квантиль непрерывного распределения F определяется как ко рень уравнения F(x) -р,0<р<1.
Квартили. Нижняя и верхняя квартили, от слова кварта — четверть (термин впервые использовал Гальтон в 1882 г.), равны соответственно 25-й и 75-й процентилям распределения.
25-я процентиль переменной — это значение, ниже которого располагаются 25% значений переменной
Аналогично, 75-я процентиль равна значению, ниже которого расположено 75% значений переменной
Итак, 3 точки — нижняя квартиль, медиана и верхняя квартиль — делят выборку на 4 равные части.
'/< наблюдений лежит между минимальным значением и нижней квартилью, 'Л — между нижней квартилью и медианой, ’/< — между медианой и верхней квартилью, '/« — между верхней квартилью и максимальным значением выборки.
Квартильный размах. Квартильный размах переменных (термин был впервые использован Талтоном в 1882 г.) равен разности значений 75-й процентили
^йетва описательных статистик	_________________________________109
25-й процентили. Таким образом, это интервал, содержащий медиану, в который попадает 50% наблюдений.
Мода- Мода (термин был впервые введен Пирсоном в 1894 г.) — это наиболее <асто встречающееся (наиболее модное) значение переменной.
Мода хорошо описывает, например, типичную реакцию водителей на сигнал светофора о прекращении движения.
Классический пример использования моды — выбор размера выпускаемой партии обуви ПЛИ цвета обоев.
Если распределение имеет несколько мод, то говорят, что оно мультимодально или хяюгомодально (имеет два или более -«пика»).
Мультимодальность распределения дает важную информацию о природе исследуемой переменной.
Например, в социологических опросах, если переменная представляет собой предпочтение или отношение к чему-то, то мультимодальность может означать, что существуют несколько определенно различных мнений.
Мультимодальность также служит индикатором того, что выборка не является однородной и наблюдения, возможно, порождены двумя или более «наложенными» распределениями.
Асимметрия. Асимметрия, или коэффициент асимметрии (термин введен Пирсоном в 1895 г.), является мерой несимметричности распределения. Если этот коэффициент значительно отличается от 0, распределение является асимметричным (несимметричным). Формально имеем:
IJcx-X)1
Эксцесс. Эксцесс, или коэффициент эксцесса (термин впервые введен Пирсоном в 1905 г.) измеряет остроту пика распределения. Оценка эксцесса, или выборочный эксцесс, вычисляется по формуле:
1£(Х,-Х)*
гае х=1£х, п Z7
Асимметрия и эксцесс полезны для проверки нормальности данных. Нормальное распределение симметрично, следовательно, коэффициент асимметрии равен 0. Эксцесс нормального распределения также равен 0, поэтому по отклонениям выборочного эксцесса и асимметрии от 0 можно судить о близости распределения наблюдаемой переменной к нормальному. Известно, что распределение с более °строй вершиной, чем нормальное, атипичных случаях имеет положительный эксцесс, а с более закругленной — отрицательный.
110
Глава 2. Элементарные понятия анализа данных
Шкалы измерений
Переменные различаются тем, -«насколько хорошо» они могут быть измерены, или, друг ими словами, как много измеряемой информации обеспечивает шкала их измерений, поскольку в каждом измерении присутствует некоторая ошибка, определяющая границы «количества информации*, которую можно получить в данном измерении
Другим фактором, определяющим количество информации, содержащейся в переменной, конечно, является тип шкалы, в которой проведено измерение. Вы можете считать, что шкала — это просто линейка: очень грубая, менее грубая, точная.
Обычно используют следующие типы шкал измерений: (а) номинальная, (Ь) порядковая (ординальная), (с) интервальная, (d) относительная (шкалаотношения).
Соответственно имеются четыре типа переменных: (а) номинальная. (Ь) порядковая (ординальная), (с) интервальная и (d) относительная
(а)	Номинальные переменные используются только для качественной классификации. Это означает, что данные переменные могут быть измерены только в терминах принадлежности к некоторым существенно различным классам, при этом вы не сможете определить количество или упорядочить эти классы. Типичными примерами номинальных переменных являются фирма-производитель, тип товара, признак (болен — здоров) и т. д. Часто номинальные переменные называются категориальными. Близкими к ним являются категоризованные переменные, то есть переменные, искусственно превращенные в категориальные (см. ниже).
(Ь)	Порядковые переменные позволяют ранжировать (упорядочить) объекты, если указано, какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют определить «на сколько больше» или «на сколько меньше» данного качества содержится в переменной.
Порядковые переменные иногда также называют ординальными Типичный пример — социоэкономический статус семьи. Мы понимаем, что верхний средний уровень выше среднего уровня, однако сказать, что разница между ними равна, допустим, 18%, мы не можем. Само расположение шкал в порядке возрастания их информативности — номинальная, порядковая, интервальная — является хорошим примером порядковой переменной. Например, можно сказать, что измерения в номинальной шкале предоставляют меньше информации, чем в порядковой шкале, а в порядковой — меньше, чем в интервальной. Однако невозможно придать термину «меньше» точный количественный смысл или сравнить между собой эти различия.
Другой пример порядковой переменной — это интенсивность использования определенного цвета в картине художника.
Категориальные и порядковые переменные особенно часто возникают при анкетировании, так как естественно отражают характер мышления человека. Например, измерение интенсивности посещения ресторанов можно проводить в следующей шкале: не посещаю, посещаю редко, посещаю, посещаю часто.
Как легко понять, категориальные и порядковые шкалы часто используются для описания качественных признаков.
(с)	Интервальные переменные позволяют не только упорядочивать объекты измерения, но и численно выражать и сравнивать различия между ними.
Такого рода переменные часто возникают в естественных науках, при снятии показателей с физических приборов, в медицине и т. д. Например, температура, измеренная в градусах по Фаренгейту или Цельсию, образует интервальную шкалу. Вы можете не только сказать, что температура 40 градусов выше, чем температура 30 градусов, ни и то, что увеличение температуры с 20 до 40 градусов вдвое больше увеличения температуры от 30 до 40 градусов.
(d)	Относительные переменные очень похожи на интервальные переменные. В дополнение ко всем свойствам переменных, измеренных в интервальной шкале, их характерной чертой является наличие определенной точки абсолютного нуля, таким образом, для этих переменных являются обоснованными утверждения типа: .г в два раза больше, чем у. Например, температура по Кельвину образует шкалу отношения, и вы можете нс только утверждать, что температура 200 градусов выше, чем 100 градусов, но и то, что она вдвое выше. Интервальные шкалы (например, шкала Цельсия) не обладают данным свойством шкалы отношения. Однако в большинст ве статистических процедур не делается топкого различия между свойствами интервальных шкал и шкал отношения.
Заметим, что всегда можно перейти от более богатой шкалы к менее богатой. Так, непреры вные переменные можно искусственно превратить в категориальные, то есть категоризовать.
Например, непрерывная переменная «рост человека в сантиметрах» можетбыть превращена в порядковую переменную с градациями: низкий, средний, высокий или очень низкий; низкий, средний, высокий, высокий*; или очень низкий, средне-низкий. низкий, средний, высокий, очень высокий; для размера одежды используют следующую порядковую шкалу. S, М, L, XL, XXL, XXXL, XXXXL и г. д.
Категоризованные данные часто представляют в виде частот наблюдении, попавших в определенные категории или классы. Для описания категориальных переменных полезной оказывается мода.
В реальной жизни, например при проведении массовых опросов, мы имеем все типы переменных, представленных в одном исследовании.
Какие статистики выбирать?
Среднее и медиана оценивают положение центра выборки, вокруг которого группируются значения переменной.
Среднее обладает рядом замечательных свойств. Однако эта оценка чувствительна к выбросам, которые вносят в нее сдвиг. Чтобы избежать сдвига, иногда используют взвешенное среднее (каждому значению переменной приписывают определенный вес в соответствии с его важностью, а затем для взвешенных наблюдений вычисляется обычное среднее).
Медиана является средней точкой вариационного ряда, поэтому она не так чувств и те льна к выбросам.
В официальной статистике США именно медиана используется в качестве оценки Центральной точки доходов населения.
Если распределение несимметрично (сдвинуто влево или вправо), то медиана и межквартильный размах могут дать больше информации о том. в какой области концентрируются наблюдения.
112
Глава 2. Элементарные понятия анализа данных
Если медиана меньше среднего, то распределение сдвинуто вправо. Если медиана больше среднего, то распределение сдвинуто влево.
Обычно имеется следующая схема выбора (при условии, что распределение имеет одну моду). Если данные категоризованы, то используйте моду. Если не все имеющиеся значения переменной представляют интерес, распределение несимметрично и имеются выбросы, используйте медиану. В противном случае работайте со средним.
Распределение переменной
Самый простой вопрос, который естественно задать, анализируя значения переменной, — какова вероятность того, что переменная примет данное значение или значение из данного интервала. Иными словами, мы интересуемся тем, как распределены значения переменной.
Например, оценивается вероятность того, что брошенная монета выпадет гербом, вероятность того, что пациент проживет дольше определенного времени, или вероятность того, что доля дефектных изделий в партии меньше 95%.
Описательные статистики дают общую информацию о распределении переменной. Например, медиана отражает то, что с вероятностью 0,5 значение переменной будет больше данного значения или, наоборот, меньше этого значения
Полный ответ дает функция распределения.
ПустьХ — некотораяпеременная,принимающаязначениянапрямой.Тогдафунк-11ия распределения этой переменной, обозначаемая F(x), есть вероятаостьтого, что Х<х.
Для описания реальных явлений статистиками используются различные распределения: нормальное. Стьюдента, хи-квадрат, Коши, биномиальное, отрицательное биномиальное и др. Распределения вероятностей, возникающие на практике, подробно описываются в отдачьной главе.
Зависимости между переменными
Независимо от типа две или более переменных связаны (зависимы) между собой, если наблюдаемые значения этих переменных распределены с отпасованным образом.
Другими словами, мы говорим, что переменные зависимы, если их значения каким-то образом согласованы друг с другом в имеющихся наблюдениях. Заметьте, мы не определяем, как именно происходит это согласование, возможно, его вовсе нельзя записать в явном виде.
Например, переменные Пол и WCC (число лейкоцитов) могли бы рассматриваться как зависимые, если бы большинство мужчин имело высокий уровень WCC, а большинство женщин — низкий WCC, или наоборот. Итак, если бы у мужчин число лейкоцитов в кровн было бы больше, чем у женщин, то можно сделать вывод: категориальная переменная Пол связана с переменной Число лейкоцитов.
Если вы намеряете температуру человека сверхточными датчиками, то регистрируемые значения зависят от точки, в которой проводится измерение
Рост человека очевидно связан с Весом, потому что обычно высокие индивиды тяжелее низких; IQ (коэффициент интеллекта) связан с Количеством ошибок в тесте, так как люди с высоким значением IQ, как правя до, делают меньше ошибок, и т. Д.
Исследование связей между наблюдаемыми переменными
113
Другими типичными примерами связей являются: зависимость между объемом винчестера и его ценой. Если вы рассмотрите предложения в Интернете, то увидите, чтологарифмическаязависимостьхорошоописываетсвязьцена —объем для винчестеров, зависимость между длиной диагонали монитора и ценой монитора, зависимость между зерном и длиной диагонали экрана. В том же ряду находятся: зависимость между количеством транспортных средств и количеством аварий в городе, зависимость между эластичностью спроса и доходов, числом преступлений против собственности и душевым доходом, зависимость между количеством рассылок но почте и посещений сайта и т. д. Более экзотическим примером является зависимость рождаемости от дня недели.
Исследования зависимости между парой переменных, естественно, распространяется на исследование зависимостей между переменной и списком переменных, между двумя или несколькими множествами переменных и т. д. (цена монитора зависит от фирмы-производителя, от диагонали, зерна, развертки, разрешения и других параметров).
Исследование связей между наблюдаемыми переменными в сравнении
с экспериментальными исследованиями
Большинство эмпирических исследований данных можно отнести к одному из двух типов: либо это сбор данных и оценка связей между ними, либо прямой эксперимент. в котором фиксируются некоторые воздействия на объект исследования и регистрируется отклик.
В первом случае вы не влияете (или, по крайней мере, пытаетесь не влиять) на какие-либо переменные, а только собираете их значения и хотите найти зависимости (корреляции) между некоторыми измеренными переменными, например между кровяным давлением и уровнем холестерина. Типичный пример здесь — космическая съемка больших участков Земли и попытка оценить или спрогнозировать урожайность (см., например, сайт американского госдепартамента с данными о сельхозпродукции http://www.n3ss.usda.gov/census/).
В экспериментальных исследованиях вы непосредственно и целенаправленно варьируете некоторые переменные и измеряете воздействия этих изменений на объект. Например, можете искусственно увеличить кровяное давление, а затем измерить уровень холестерина и проделать это несколько раз на ряде объектов.
В исследованиях зависимости спроса на товар от рекламы вы можете активно менять cboki рекламную политику, но такая возможность отсутствует при исследовании большинства экономических данных в маркетинговых исследованиях, где вы просто собираете данные, а затем находите связи между ними (типичный пример — оценка доходов телевизионных компаний).
Анализ данных в экспериментальном исследовании также приходит к вычислению «корреляций» между переменными, а именно между’ переменными, на которые воздействуют, и темп переменными, на которые влияет воздействие Тем не менее экспериментальные данные потенциально снабжают исследователей более качественной информацией
Глава 2. Элементарные понятия анализа данных
Корреляции
Ключевым понятием, описывающим связи между переменными, является корре ляция (от английского correlation — согласование, связь, взаимосвязь, соотношение взаимозависимость); термин впервые введен Гальтоном (Galton) в 1888 г.
Корреляция между парой переменных (парная корреляция).
Если имеется пара переменных, тогда корреляция между ними — это мера связи (зависимости) именно между этими переменными.
Например, известно, что ежегодные расходы на рекламу в США очень теенц коррелируют с валовым внутренним продуктом, коэффициент корреляции междч этими величинами (с 1956 по 1977 г ) равен 0,9699. Число посещений сайта торге вой компании тесно связано с объемами продаж и т. д.
Также тесно корродировано число хостов и число хитов на сайте (см. графики ниже).
Тесно связаны между собой такие, например, переменные, как температура воз духа и объем продажи пива, среднемесячная температура в данном месте текущего и предыдущего года, расходы на рекламу за предыдущий месяц и объем торговли в текущем месяце и т. д.

зрреляции
115
Корреляция м<-жду парой переменных называется парной корреляцией. Статистики предпочитают говорить о коэффициенте парной корреляции, который изменяется в пределах от —1 до +1.
В зависимости от типа шкалы, в которой измерены переменные, используют различные виды коэффициентов корреляции.
Если исследуется зависимость между двумя переменными, измеренными в интервальной шкале, наиболее подходящим коэффициентом будет коэффициент корреляции Пирсона г (Pearson, 1896), называемый также линейной корреляцией, так как он отражает степень линейных связей между переменными. Эта корреляция наиболее популярна, поэтому часто, когда говорят о корреляции, имеют в виду именно корреляцию Пирсона.
Итак, коэффициент парной корреляции изменяется в пределах от -1 до +1. Крайние значения имеют особенный смысл. Значение-1 означает полную отрицательную зависимость, значение +1 означает полную положительную зависимость, иными словами, между наблюдаемыми переменными имеется точная линейная зависимость с отрицательным или положительным коэффициентом.
Значение 0,00 интерпретируется как отсутствие корреляции.
Корреляция определяет степень, с которой значения двух переменных пропорциональны друг другу. Это можно проследить, анализируя графики (см. ниже).
На графике в левом верхнем углу значения парного коэффициента корреляции равны 0,0, на графике в правом верхнем углу коэффициент корреляции постепенно увеличивается и становится равным 0,3.
На нижних графиках коэффициент корреляции увеличивается и становится равным 0,6 и 0,9. Обратите внимание на то, как меняется наклон прямой линии и как группируются точки вокруг этой прямой.
Заметьте, что чем ближе коэффициент корреляции к крайнему значению 1. тем Теснее группируются данные вокруг прямой Та же картина наблюдалась бы н i»p.i
116
Глава 2. Элементарные понятия анализа данных
отрицательных значениях корреляции, только наклон прямой, вокруг которой группируются значения переменных, был бы отрицательным.
При значении коэффициента корреляции, равном ±1, точки точно легли бы на прямую линию, а это означает, что между данными имеется точная линейная зависимость.
Внимательно посмотрите на эти графики. Корреляция — важное понятие, постарайтесь привыкнуть к нему и научиться визуально определять по расположению данных, насколько тесно они коррелированы.
Говорят, что две переменные положительно коррелированы, если при увеличении значений одной переменной увеличиваются значения другой переменной.
Две переменные отрицательно коррелированны, если при увеличении одной переменной другая переменная уменьшается (см. рисунки выше).
Говорят, что корреляция высокая, если на графике зависимость между переменными можно с большой точностью представить прямой линией (с положительным или отрицательным наклоном).
Если коэффициент корреляции равен 0, то отсутствует отчетливая тенденция в совместном поведении двух переменных, точки располагаются хаотически вокруг прямой линии (см. график в левом верхнем углу).
Важно, что коэффициент корреляции — безразмерная величина и не зависит от масштаба измерения. Например, корреляция между ростом и весом будет одной и той же независимо от того, проводились ли измерения в дюймах и футах или в сантиметрах и килограммах.
Проведенная прямая (см. графики), вокруг которой группируются значения переменных, называется прямой регрессии, или прямой, построенной методом наименьших квадратов. Последний тернии связан с тем, что сумма квадратов расстояний (вычисленная по оси Y) от наблюдаемых точек до прямой действительно является минимальной из всех возможных.
Формально коэффициент корреляции г12 Пирсона между переменными Y|t Y2 вычисляется следующим образом:
^(Y.-Vxot-v,)’
где Y, — среднее переменной Y,, Y2 — среднее переменной Y2.
Если переменные измерены в интервальной шкале, то используются ранговые корреляции, которые будут рассмотрены ниже.
Для анализа зависимостей категориальных переменных обычно используют таблицы сопряженности и соответствующие статистики, например хи-квадрат, V-квадрат, точный критерий Фишера, сгатмстикафи-квадрат (альтернатива корреляции) и Др.
Если требуется измерить связи между списками переменных, используются следующие типы корреляции:
О множественная корреляции: измерение зависимости между одной переменной и несколькими переменными;
117
корреляции
О каноническая корреляция: измерение зависимостей между лиумямножеапва-ми переменных;
О частные корреляции
Если вычисляется корреляция между значениями одной переменной, сдвинутыми на некоторый лаг, то говорят об автокорреляции.
Ранговые корреляции.
Ранговые корреляции основаны на рангах, которые соответствуют номеру наблюдения в вариационном ряде. Если ваши данные ранжированы, то вы можете воспользоваться ранговыми корреляциями
формально ранговый коэффициент корреляции Спирмена между переменными Y,, Ya вычисляется следующим образом:
£(r,-rxs,-s)
Д(К, К>'Х(5 s>'
где R, -ранг наблюдения Yt„ S, — ранг наблюдения¥и.
Сравнив этуг формулу с формулой корреляции Пирсона, приведенной выше, вы быстро поймете, что корреляция Спирмена является прямым аналогом корреляции Пирсона. Заменив в формуле Пирсона наблюдения рангами, вы получите корреляцию Спирмена. Большие значения рангового коэффициента корреляции свидетельствуют против гипотезы о независимости переменных Yla Yz.
Частные корреляции. При исследовании «вЛаммозавнсимостей» переменных часто возникают следующие трудности: если одна величина коррелировапа с другой, то это может быть всего лишь отражением того факта, что обе эти величины коррелированы с некоторой третьей величиной или с совокупностью величин, которые, грубо говоря, остаются за кадром и не введены в исследование Указанная ситуация приводит к рассмотрению г/словныл корреляций между двумя величинами при фиксированных значениях остальных величин. Это так называемые частные корреляции.
Если корреляция между даумя величинами уменьшается, когда мы фиксируем некоторую третью случайную величину, то это означает, что взаимозависимость исходных величин возникает частично под воздействием этой величины; если же частная корреляция равна нулю или очень мала, то мы делаем вывод, что их взаимозависимость целиком обусловлена собственным воздействием и никак не связана с новой величиной.
Наоборот, если частная корреляция больше первоначальной корреляции между двумя величинами, то мы заключаем, что третья величина ослабила исходную связь.
Еще одна тонкость состоит в том, что следует помнить — корреляция не есть пР1р1Инность. Иными словами, установив корреляцию даух величин, мы не имеем Права безапелляционно говорить о наличии причинной связи между ними: некого рая совершенно отличная от рассматриваемых в анализе величина может быть источником этой корреляции. Как при обычной корреляции. так и при частных
118
Глава 2. Элементарные понятия анализа данных
корреляциях предположение о причинности должно всегда иметь также собствен ные ос нования, иными словами, соответствовать природе вещей.
Эти интуитивно ясные представления полезно иметь в виду при интерпретации частных корреляций.
Рассмотрим вначале тройку переменных Y„ Y2, Y3. Формально коэффициент частной корреляции rw 3 между переменными Ylf Yz в предположении, что переменная Y:1 фиксирована, имеет вид:
аналогично коэффициент частной корреляции г|я,2 между переменными Y,. Y. в предположении, что переменная Y, фиксирована, имеет вид:
и коэффициент частной корреляции гЮ| между переменными Y„ Y3 в предположении, что переменная Y, фиксирована, имеет вид:
Заметьте, эти формулы вполне симметричные, точкой отделяются переменные, значения которых фиксированы.
Множественная корреляция. Лучше всего понять множественную корреляцию, а также частные корреляции, с точки зрения регрессии, где они возникают естественно из самого существа задачи и обобщаются на любое число переменных
Рассмотрим вначале три переменные: переменную Y и переменные X,, Х2. Переменную Y будем называть зависимой, переменные X,, Х2 независимыми.
Предположим, что между Y и X,, Х2 имеется линейная зависимость вида:
= Ро + Р.Х., + Р2Х2, + е,. « = 1, ..и (*),
где е, - независимые случайные ошибки с нулевым средним, Р,.Р2>Р2 — неизвестные параметры Хорошо известно, что в широких предположениях оптимальными оценками неизвестных параметров в уравнении (*) являются оценки метода наименьших квадратов (мнк-оцепки). Обозначим мнк-оцецки через 0О, Рр Р2. Эти оценки замечательны тем, что сумма квадратов расстояний между наблюдениями Y, и плоскостью (*) минимальна.
Формально подставив мнк-оценки в (*) получаем значения У,, i -	.	1
Теперь коэффициент множественной корреляции между Y и Х„ Х2 можно определить как обычный коэффициент корреляции Пирсона между Y и У .
Заметим, что квадрат коэффициента множественной корреляции называется коэффициентом множественной детерминации и показывает, какая доля вариа ции (изменчивости, вариабельности) переменной Y объясняется с помощью iu-нейпой зависимости Y и Х>. Х2. Формально для коэффициента детерминации имеем:
119
Корреляции
Это определение легко обобщается на любое число переменных.
Частные корреляции с точки зрения линейной регрессии. Продолжим наши рассуждения и покажем, как вычислить частные корреляции исходя из уравнения регрессии. Пусть нужно, например, вычислить частную корреляцию между Y и Х|. Идея проста — очевидно, на эту связь влияет переменная Х2. Следовательно, это влияние нужно устранить, для этого вначале находим линейную регрессию Y на Х2, затем находим регрессию X, на Х2.
Формально имеем:
У; ~ Poi + РиХ,,, t —
- Pio + PlS-^2.' t —
Теперь рассмотрим остатки (}' — У(),(ХН — X,,), i =	В соответствии с
общей идеей частная корреляция между Y и Xt есть обычная парная корреляция Пирсона между переменными (У-У),(Х( -Х().
Эти рассуждения легко распространяются на любое число переменных.
Нелинейные зависимости между переменными. Корреляция Пирсона г хорошо подходит для описания линейной зависимости. Отклонения от линейности увеличивают общую сумму квадратов расстояний от регрессионной прямой, даже если она представляет «истинные» и очень тесные зависимости между переменными. Поэтому хорошим тоном после вычисления корреляций является построение диаграмм рассеяния, которые позволяют понять, действительно ли между двумя исследуемыми переменными имеется связь.
Например, показанная ниже высокая корреляция плохо описывается линейной функцией.
120
Глава 2. Элементарные поня! ия анализа данных
Олнако, как видно на графике ниже, полипом пятого порядка достаточно хорошо описывает зависимость.
Ложные корреляции. Нужно иметь в виду, что на свете существуют ложные корреляции, и это нарушает идиллическую картину корреляционного анализа.
Другими словами, если вы нашли переменные с высокими значениями коэффициентов корреляции, то отсюда еше не следует, что между ними действительно существует причинная связь; нужна уверенность, что на исследуемые переменные не влияют другие переменные
Лучше всего понять ложные корреляции на следующем шутливом примере.
Известно, что существует корреляция между ущербом, причиненным пожаром, и числом пожарных, тушивших его. Однако эта корреляция ничего нс говорит о том, насколько уменьшатся потери, если будет вызвано меньшее число пожарных.
Задумавшись над полученным результатом, вы будете искать и найдете причину высокой корреляции: причина состоит в том, что имеется третья переменная (величина пожара), которая влияет как па причиненный ущерб, так и на число вызванных пожарных. Если вы будете «контролировать* эту переменную (например, рассматривать только пожары определенной величины), то исходная корре-чяиия (между ущербом и числом пожарных) либо исчезнет, либо, возможно, даже изменит свой знак.
В реальной жизни проводить такие рассуждения и находить «причинные* Переменные, конечно, гораздо сложнее.
Основная проблема ложной корреляции состоит в том, что вы не знаете, чем она вызвана или, фигурально выражаясь, кто является ее агентом. Тем нс менее если вы знаете, где искать, то можно воспользоваться частными корреляциями. чтобы контролировать (частично исключенное) влияние определенных переменных
Почему зависимости между переменными являются важными
Вообще говоря, цель всякого исследования или научного анализа состоит в на хождении связей (зависимостей) между измеряемыми переменными. Далее почти не проводится различия между терминами «связь* и «зависимость*, и во многих
Здвкимые и независимые переменные	  121
ситуациях оли рассматриваются как синонимы, хотя поклонники строгих определений, возможно, усмотрят в этом вольность.
Заметим, что не существует иного способа представления знания, кроме как в терминах зависимостей между количествами или качествами.
Таким образом, развитиезнаний всегда заключается в нахождении новых зависимостей между переменными. Исследование корреляций по существу состоит в измерении таких зависимостей непосредственным образом. Тем нс менее экспериментальное исследование не является в этом смысле чем-то отличным. Например, отмеченное экспериментальное сравнение WCC у мужчин и женщин может быть описано как поиск связи между двумя переменными: Пол и WCC Назначение статистики состоит в том, чтобы помочь оценить зависимости между переменными. Действительно, множество статистических процедур может быть рассмотрено в терминах оценки различных типов взаимосвязей между переменными. Итак, специалиста по статистике прежде всего интересует оценка связи между измерен-
ными переменными.
Зависимые и независимые переменные
В повседневной жизни мы хорошо понимаем, что одни величины зависят от других, например потребление, конечно, зависит от дохода, цена квартиры — от площади, число посетителей магазина зависит от количества рекламных объявлений, предпочтение в выборе платья связано с содержимым кошелька, число посетителей ресторана зависит от времени суток и т. д.
Проведем более строго различие между независимыми и зависимыми переменными. Независимыми переменными называются переменные, которые варьируются исследователем, тогда как зависимые переменные — это переменные, которые измеряются или регистрируются. Очевидно, варьируя интенсивность рекламной рассылки, вы можете наблюдать изменение спроса и потока посетителей в магазин; вэтом примере интенсивность рекламы — независимая переменная, поток посетителей — зависимая. Изменяя рекламную кампанию, вы можете заставить покупателя перейти из пассивного состояния (спячки) в активное и т д. В электронной торговле очень важна оценка момента перехода покупателя из категорий пассивный, активный, суперактивный, чтобы иметь возможность влиять на этот процесс.
На первый взгляд может показаться, что проведение этого различия создает путаницу в терминологии, поскольку, как иногда 1 оворят в шутку студенты, «все переменные зависят от чего-нибудь». Тем не менее, однажды отчетливо проведя это различие, вы поймете его необходимость.
Термины зависимая и независимая переменная применяются вэксперименталь-иом исследовании, где экспериментатор манипулирует некоторыми переменными, и в этом смысле они «независимы» от реакций, свойств, намерений и т. д, нри-сущих объектам исследования. Некоторые другие переменные, как предполагается, Должны «зависеть» от действий экспериментатора или от экспериментальных условии. Иными словами, зависимость проявляется в ответной реакции исследуемого ° ъекта, ее можно назвать откликом объекта на воздействие, поэтому термин отклик (response) также иногда используется как синоним зависимой переменной
122
Глава 2. Элементарные понятия анализа данных
Отчасти в противоречии с данным разграничением понятий находится использование их в исследованиях, где вы не варьируете независимые переменные, а только приписываете объекты к «экспериментальным группам», основываясь па некоторых их априорных свойствах. Например, если в эксперименте мужчины сравниваются с женщинами относительно числа лейкоцитов ( WCC), то Пол можно назвать независимой переменной, a WCC—зависимой переменной; вложения в рекламуяв-ляется независимой (варьируемой) переменной, а число клиентов — зависимой ит. д.
Как измерить величину зависимости между переменными
Статистиками разработано много различных мер, позволяющих оценить или измерить степень зависимости между наблюдаемыми переменными.
Выбор определенной меры в конкретном исследовании зависит от числа включенных в анализ переменных, используемых шкал измерения, природы зависимостей и т. д. Большинство этих мер, тем не менее, подчиняется одному общему принципу: они являются попыткой оценить наблюдаемую зависимость, сравни вая ее с «максимально возможной зависимостью» между рассматриваемыми переменными.
Обычный способ выполнить такие оценки заключается в том, чтобы посмотреть. как варьируются значения переменных, и затем подсчитать, какая часть всей имеющейся вариации может быть объяснена наличием «общей» («совместной») вариации двух (или более) переменных.
Проще говоря, сравнивается то, «что есть общего в этих переменных», с тем, «что потенциально было бы у них общего, если бы переменные были абсолютно зависимы». Рассмотрим простой пример.
Пусть в вашей выборке средний показатель (число лейкоцитов) WCCравен 100 для мужчин и 102 для женщин. Следовательно, вы могли бы сказать, что отклонение каждого индивидуального значения от общего среднего (101) содержит компоненту, связанную с полом субъекта, и средняя величина ее равна 1. Это значение, таким образом, предстааляет некоторую меру зависимости между переменными Пол и WCC. Конечно, это очень бедная мера, так как она не дает никакой информации о том, насколько велика эта компонента, скажем, относительно обшего изменения значений WCC. Рассмотрим две крайние возможности:
(а)	Если все значения WCCу мужчин были бы точно равны 100, а у женщин 102, то все отклонения значений от общего среднего в выборке всецело объяснялись бы полом. Поэтому вы могли бы сказать, что пол абсолютно коррелиру • ет с WCC, иными словами. 100% наблюдаемых различий между субъектами в значениях IVCC объясняются полом субъектов.
(б)	Если же значения WCC лежат в пределах 0-1000, то та же самая разность (21 между средними значениями WCCу мужчин и женщин, обнаруженная в эксперименте, составляла бы столь малую долго общей вар наш ш, что полученное различие считалось бы пренебрежимо малым. Например, введение в р досмотре» ние еще одногосубъекта могло бы изменить разность или даже изменить се знак Поэтому хорошая мера зависимости должна принимать во внимание полнук* изменчивость индивидуальных значений в выборке и оценивать зависимость по тому, насколько эта изменчивость объясняется изучаемой зависимостью I
Что такое статистическая значимость (р-уровень)?
123
две черты зависимости между переменными
Можно отметить два самых простых свойства зависимости между переменными: (я) величину зависимости и (Ь) надежность зависимости.
(а)	Величина. Величину зависимости легче понять и измерить, чем надежность. Например, если любой мужчина в вашей выборке имел значение ДОССвыше, чем любая женщина, то вы можете сказать, что величина зависимости между двумя переменными (Пол и WCC) очень высокая. Другими словами, вы мог ли бы предсказать значения одной переменной по значениям другой.
(б)	Надежность («истинность»), Надежность взаимозависимости — менее наглядное понятие, чем величина зависимости, однако чрезвычайно важное. Оно непосредственно связано с репрезентативностью той определенной выборки, на основе которой строятся выводы. Другими словами, надежность говорит, насколько вероятно, что зависимость, подобная найденной, будет вновь обнаружена (подтвердится) на данных другой выборки, извлеченной из той же самой популяции. Следует помнить, что конечной целью почти никогда ire является изучение данной конкретной выборки; выборка представляет интерес лишь постольку, поскольку она дает информацию обо всей популяции. Если ваше исследование удовлетворяет некоторым специальным критериям (об этом будет сказано позже), то надежность найденных зависимостей между переменными выборки можно количественно оценить и представить с помощью стандартной статистической меры (называемой р-уров-нем, или статистическим уровнем значимости, см. следующий раздел).
Что такое статистическая значимость (р-уровень)?
Статистическая значимость результата представляет собой оцененную меру уверенности в его правильности.
Говоря проще, не на статистическом жаргоне, уровень значимости показывает, насколько значим для вас полученный результат. Предположим, вы врач, исследующий пациента. Проводя всесторонние исследования (измеряя дааление, беря анализы крови и т. д.), вы приходите к выводу, что пациент с большой вероятностью болен, следовательно, полученные результаты значимы.
Выражаясь формал ыю, уровен ь значимости, или. как еще говорят, р-уровень, — это показатель, находящийся в убывающей зависимости от надежности результата Более высокий р-уровень соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно p-уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию. Например, р-уровень = 0,05 (то есть 1/20) показывает, что имеется 5%-я вероятность того, что найденная в выборке зависимость Между переменными является лишь случайной особенностью данной выборки Иначе говоря, если данная зависимость в популяции отсутствует, а вы многократно проводите подобные эксперименты, то примерно в одном из двадцати повторений
124
Глава 2. Элементарные понятия анализа данщ
эксперимента можно ожидать такой же или более сильной зависимости межд< изучаемыми переменными. Во мниих исследованиях р-уровенъ, равный 0,0!» рассматривается как «приемлемая граница* уровня ошибки.
На уровень значимости можно носмотретьс другой стороны. Предположим,чт-, вы врач и выдвигаете гипотезу: пациент болен. Тогда, если вы назначили уровень 0,05, то в среднем в 5 случаях из 100 будете совершать ошибку (то есть принимать неправильную гипотезу — признавать человека больным, когда на самом деле ол здоров).
Как определить, является ли результат действительно значимым
Не существует никакого способа избежать произвола при принятии решения о том, какой уровень значимости следует действительно считать «значимым*. Однако.
Однако статистическую значимость можно перевести в потери (например, финансовые), используя подходящую функцию потерь. Представьте, что вы мне гократно принимаете решение, то есть проверяете гипотезу о направлении изменения курса акций, выбрав некоторый уровень значимости, тогда уменьшение де пег в вашем кошельке покажет ошибочность вашего выбора
Выбор определенного уровня значимости, выше которого результаты отвергаются как яожные, является достаточно произвольным. На практике окончательное решение обычно зависит от того, был ли резу чьтат предсказан априори (то есть до проведения опыта) или обнаружен апостериорно, в результате многих анализов и сравнений, выполненных с множеством данных, а также по традиции, имеющей ся в данной области исследований.
Обычно, что во многих областях результат/? = 0,05 является приемлемой границей статистической значимости, однако следует помнить, что этот уровень все ещо включает довольно большую вероятность ошибки (5%). Результаты, значимые на уровне р = 0,01, обычно рассматриваются как статистически значимые, а результаты с уровнем р - 0,005 или р = 0,001 как высокозначимые. Но следует понимать, что 1-данной классификации уровней значимости имеется произвол и это является все го лишь неформальным соглашением, принятым на основе практического опыта.
Статистическая значимость и количество выполненных анализов
Понятно, что чем большее число анализов вы провели над некоторыми группами данных, тем большее число резу штатов средн них имеют шанс удовлетворить! выбранному уровню значимости Например, если вычисляются корреляции между 10 переменными (то есть имеется 45 различных коэффициентов корреляций)- | можно ожидать, что примерно 2 коэффициента корреляции (1 па каждые 20) случайно окажутся значимыми на уровне/? = 0,05, даже если переменные совершение* случайны и некоррелированы в популяции. Иными словами, имея серию эксле-1 риментов, вы вещда можете подтасовать результаты, выбирая только те опыты, результаты которых подтверждают вашу гипотезу.
Почему объем выборки влияет на значимость зависимости
125
Некоторые статистические методы, включающие множественные, то есть мпо-гократные. сравнения и, следовательно, имеющие хороший шанс повторить такого рода ошибки, используют специальную корректировку, или поправку, на общее число сравнений. Тем не менее многие статистические методы (особенно простые методы разведочного анализа данных) не предлагают какого-либо способа решения этой проблемы. Поэтому исследователь должен с осторожностью оценивать надежность неожиданных находок. Миш не примеры, обсуждаемые в данном руководстве, предлагают специальные советы по поводу того, как это сделать.
Величина зависимости между переменными в сравнении с надежностью зависимости
Величина и надежность представляют собой две различные характеристики зависимостей между переменными. Тем не менее нельзя сказать, что они совершенно независимы. В общем, можно утверждать, что чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем она надежней.
Почему более сильные зависимости между переменными являются более значимыми
Если предполагать отсутствие зависимости между соответствующими переменными в популяции, то с наибольшей вероятностью следует ожидать, что в исследуемой выборке связь между' этими переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в выборке, тем менее вероятно, что этой зависимости нет в популяции, из которой она извлечена. Как можно заметить, величи на зависимости и значимости тесно связаны между собой, и можно попытаться вывести значимость из величины зависимости и наоборот. Однако указанная связь между зависимостью и значимостью имеет место только при фиксированном объеме выборки, поскольку при различных объемах выборки одна и та же зависимость может оказаться как высокоэначимой, так и незначимой вовсе (см. следующий раздел).
Почему объем выборки влияет на значимость зависимости
Общая идея статистических методов состоит в том, чтобы по некоторой части популяции вынести суждения о свойствах популяции в целом. Именно такого рода результаты и представляют основной интерес так как являются объективными
Если количество наблюдений невелико, то есть выборка из популяции мала, то соотаетственно имеет место малое количество возможных комбинаций значений этнх переменных и, таким образом, вероятность случайно обнаружить комбинацию значений, показывающую сильную зависимость, относительно высока. Рассмотрим следующий пример. Если вы исследуете зависимость двух переменных (Пол. муж
126
Глава 2. Элементарные понятия анализа данных
чина/женигнна и WCC: высокий/низкий) и имеете только 4 субъекта в выборке (2 мужчины и 2 женщины), то вероятность того, что чисто случайно вы найдете 100%-ю зависимость между двумя переменными, равна 1/8. А именно вероятность того, что оба мужчины имеют высокий WCC, а обе женщины — низким WCC, иди наоборот, равна 1/8. Теперь рассмотрим вероятность подобного совпадения для 100 субъектов; легко видеть, что эта вероятность равна практически нулю.
Рассмотрим более общий пример. Представим популяцию, в которой среднее значение WCC для мужчин и женщин одно и то же. Если теперь вы начнете повторять эксперимент, состоящий в извлечении пары случайных выборок (одна — мужчины, другая — женщины) и вычислении разности выборочных средних №ССдля каждой пары, то в большинстве экспериментов результат будет близок к 0. Однако время от времени будут встречаться пары выборок, в которых различие между мужчинами и женщинами будет существенно отличаться от 0. Как часто будет это происходить’ Чем меньше объем выборки в каждом эксперименте, тем более вероятно появление таких ложных результатов, которые показывают существование зависимости между полом и WCC в данных, полученных из популяции, где такая зависимость на самом деле отсутствует.
Почему слабые зависимости могут быть значимо доказаны только на больших выборках
Предыдущий пример показывает, что если зависимость между переменными «объективно» (другими словами, в популяции) мала, не существует иного способа проверить такую зависимость, кроме как исследовать выборку достаточно большого объема. Даже если ваша выборка совершенно репрезентативна, эффект не будет статистически значимым, если выборка мала. Аналогично, если зависимость «объективно» (в популяции) очень сильная, то она может быть обнаружена с высокой значимостью даже на очень маленькой выборке. Рассмотрим следующий иллюстративный пример. Если монета слегка несимметрична и при подбрасывании орел выпадает чаще решки (например, 60% против 40%), то 10 подбрасываний монеты было бы недостаточно, чтобы убедить кого бы то ни было, что монета ас имметрична, даже если был бы получен совершенно репрезентативный результат, 6 орлов и 4 решки.
Не следует ли отсюда, что 10 подбрасываний вообще не могут доказать что либо? Нет, не следует, потому что если эффект в принципе очень сильный, 10 под • брасываний может быть вполне достаточно. Представьте, что монета настолько несимметрична, что всякий раз, когда вы ее бросаете, выпадает орел Если вы бро саете такую монету 10 раз и всякий раз выпадает орел, большинство людей сочтут это убедительным доказательством того, что с монетой что-то нс то.
Другими словами, это послужило бы убедительным доказательством того, что в популяции, состоящей из бесконечного числа подбрасываний этой монеты, орет, будет встречаться чаше, чем решка Таким образом, если зависимость сильная, онг может быть обнаружена с высоким уровнем значимости даже на малой выборке.
Как вычисляется статистическая значимость
127
можно ли рассматривать отсутствие связей как значимый результат?
ЧсМ слабее зависимость между переменными, тем большего объема требуется выборка. чтобы значимо ее обнаружить. Например, представьте, как много бросков монеты необходимо сделать, чтобы доказать, что отклонение от равных вероятно-тей составляет только 0,000001%! Таким образом, необходимый минимальный размер выборки возрастает, когда степень эффекта, который нужно доказать, убывает. Когда аффект близок к 0, необходимый объем выборки для его отчетливого доказательства приближается к бесконечности. Другими словами, если зависимость между переменными почти отсутствует, объем выборки, необходимым для ее значимого обнаружения, почти равен объему всей популяции. который предполага ется бесконечным. Статистическаязначимость представляет вероятность того, что подобный результат был бы получен при проверке всей популяции в целом. Таким образом, все, что получено после тестирования всей популяции, было бы по определен ию значимым на наивысшем возможном уровне» и эго относится ко всем результатам типа «нет связи».
Общая конструкция статистических тестов
Так как конечная цель большинства статистических тестов состоит в оценке зависимости между переменными, большинство статистических тестов следует некоторому общему принципу. Говоря техническим языком, эти тесты представляют собой отношение групповой изменчивости к полной изменчивости. Например, такой тест может представлять собой отношение той части изменчивости WCC, которая определяется полом, к паяной изменчивости WCC (вычисленной для объединенной выборки мужчин и женщин). Это отношение обычно называется отношением объясненной вариации к полной вариации.
В с тал 1стике термин объясненная вариация нс обязательно означает, что вы даете ей «теоретическое объяснение». Он используется только для обозначения общей вариации рассматриваемых переменных, то есть для указания на то, что часть вариации одной переменной «объясняется» определенными значениями другой переменной. и наоборот.
Как вычисляется статистическая значимость
Предположим, вы уже вычислили меру зависимости между двумя переменными (как объяснялось выше). Следующий вопрос, стоящий перед вами: насколько значима эта зависимость? Например, является ли 40% объясненной дисперсии между двумя переменными достаточным, чтобы считать зависимость значимой? От-Вет будет таким: в зависимости от обстоятельств. Именно значимость зависит в Основном от объема выборки. Как уже объяснялось, в очень больших выборках Да*е очень слабые зависимости между переменными будут значимыми, в то время как в малых выборках даже очень сильные зависимости не являются надежными
128
Глава 2. Элементарные понятия анализа
(значимыми). Таким образом, для того чтобы определить уровень статистически! значимости, вам нужна функция, которая представляла бы зависимость между величиной» и «значимостью» зависимости между переменными для каждого объема выборки. Данная функция указала бы вам точно, насколько вероятно получить зависимость данной величины (или больше) в выборке данного объема в предположении, что в популяции такой зависимости нет. Другими словами, эта функция давала бы вам уровень значимости (р-уровець) и, следовательно, вероятность ошибочно отклонить предположение об отсутствии данной зависимости в популяции Эта «альтернативная» гипотеза (состоящая в том, что нет зависимости в популяции) обычно называется нулевой гипотезой Было бы идеально, если бы функция, вычисляющая вероятность ошибки, была линейна и имела только различные наклоны для разных объемов выборки. К сожалению, эта функция существенно более сложная и нс всегда одна и та же Тем не менее в большинстве случаев ее форма известна, и это можно использовать для определения уровней значимости при исследовании выборок заданного размера. Большинство этих функций связано с очень важным классом, называемым нормальным.
Значимость коэффициента корреляции
Допустим, вы оценили коэффициент корреляции между двумя переменными. Оч< видно, чем больше по абсолютной величине значение коэффициента, тем больше вероятность, что между переменными имеется связь, то есть с тем меньшей вероятностью ошибки можно отвергнуть гипотезу оботсутствии связи между переменными
Иными словами, чем больше абсолютное значение коэффициента корреляции, тем более обоснованно опровергается гипотеза, что между переменными нет связи. Спрашивается: какие именно значения значимы7
Ответ зависит как от величины коэффициента корреляции, так и от объема выборки, по которой он вычислен.
Например, анализируя данные огодовых урожаях в Восточной Англии за 20 лет, Фишер вычислил коэффициент корреляции между годовым урожаем пшеницы и осенним уровнем дождей. Этот коэффициент, как и ожидалось, оказался отрица тельным (чем выше уровень осенних осадков, тем меньше урожай, то есть переменные отрицательно коррелированны) и равным... 0,629, что значимо на уровне 0,01
Если бы выборочный коэффициент корреляции оказался равен 0,45, то реэуль тат был бы значим на уровне 0,1, но незначим на уровне 0,01, и т. д.
Как определить, являются ли два коэффициента корреляции значимо различными
Имеется критерий, позволяющий оценить значимость различия между двумя ко зффнциентами корреляции. Результат применения критерия зависит не тольки от величины разности этих коэффициентов, но и от объема выборок и величины
<У важно нормальное распределение
129
ге этнх коэффициентов Вообще говоря, в соответствии с общим принципом нежность коэффициента корреляции увеличивается с увеличением его абсо-11 тиого значения; относительно малые различия между большими коэффици-итами могут быть значимыми. Например, разница 0,10 между двумя корреляциями может не быть значимой, если коэффициенты равны 0.15 и 0.25, хотя для той же выборки разность 0.10 может оказаться значимой для коэффициентов 0.80 и 0,90-
В системе STATISTICA имеется специальное средство — статистический калькулятор — в диалоговом окне Другие критерии значимости, доступном из стартовой панели модуля Основные статистики и таблицы. Калькулятор позволяет быстро сравнить коэффициенты корреляции, вычисленные по разным
выборкам.
Почему важно нормальное распределение
Нормальное распределение (термин был впервые введен Гальтоном в 1889 г.), иногда называемое гауссовским, важно по многим причинам. Распределение большого ЧНг1а статистик является нормальным или может быть получено из нормального с Помощью некоторых преобразовании.
130
Глава 2. Элеменгтарные понятия анализа данных
Рассуждая философски, можно сказать, что нормальное распределение представляет собой одну из эмпирически проверенных истин относительно общей природы действительности и его положение может рассматриваться как оди низ фундаментальных законов природы. Точная форма нормального распределения (характерная «колоколообразная кривая*) определяется только двумя параметрами, средним и стандартным отклонением.
Характерное свойство нормального распределения состоит в том, что 68% из всех его наблюдений лежат в диапазоне 1 (стандартное отклонение от среднего), а диапазон 2 стандартных отклонений включает 95% значений. Другими словами, при нормальном распределении стандартизованные наблюдения, меныиие —2 или большие +2, имеют относительную частоту менее 5% (стандартизованное наблюдение означает, что из исходного значения вычтено среднее и результат поделен на стандартное отклонение). Это и есть знаменитое правило 2 сигма или 2-стап-дартных отклонения, вместе с правилом 3-сигма чрезвычайно популярное на практике
Плотность нормального распределения имеет вид:
• _____-
/(х; Ц, v) = ——e оу2л
Множество величин на практике имеют нормальное распределение, например распределение приращений индексов развитых стран, курсы акций и т. д.
Двумерное нормальное распределение. Переменная X = (Xt, ХД имеет двумерное нормальное распределение, если любая линейная комбинация Z = aXi + имеет либо нормальное, либо вырожденное распределение (которое также можно считать нормальным с о2 = 0).
Двумерное нормальное распределение имеет плотность вида:
/(х,.хг.ц„|х2.а;,о’.р)------1 хсхр -	1 х
2na,a2Jl-P । 2(!-Р)
.,р*.~И.)г 2р(х,-р,)(.г, и,) , (Xj-Ra/Jj
Х = (л,, х2У, р =	/(арД. в,, о, >0. [р]<1
131
1(аК проверить нормальность наблюдаемых величин
_ корреляция переменных Х(, Х2, Щ. о, — среднее и стандартное отклонения ' еменной Xi, Цг. — среднее и стандартное отклонения переменной Х2
Заметим, что двумерное нормальное распределение легко обобщить на многомерное нормальное распределение.
График двумерного распределения показан ниже:
Иллюстрация того, как нормальное распределение используется в статистических рассуждениях
Напомним пример, обсуждавшийся ранее, когда пары выборок мужчин и женщин выбирались из совокупности, в которой среднее значение WCC для му жчин и жен-шин было в точности одно и то же. Хотя наиболее вероятный результат таких экспериментов (одна пара выборок на эксперимент) состоит в том, что разность между средними WCCдля мужчин иженщи н для каждой пары близка к 0, время от времени появляются пары выборок, в которых эта разность существенно отличается от 0. Как часто это происходит? Если объем выборок достаточно большой, то разности «нормально распределены» и, зная форму нормальной кривой, вы можете точ но рассчитать вероятность случайного получения результатов, представляющих различные уровни отклонения среднего отО, — значения гипотетического для всей популяции. Если вычисленная вероятность настолько мала, что удовлетворяет принятому заранее уровню статистической значимости, то можно сделать лишь один вывод: ваш результат лучше описывает свойства популяции, чем «нулевая гипотеза». Следует помнить, что нулевая гипотеза рассматривается только по техническим соображениям как начальная точка, с которой сопоставляются эмпирические результаты.
Как проверить нормальность наблюдаемых величин
При проверке нормальности выборки часто руководствуются следующим принципом Фишера: «Отклонения от нормального вида, если только они не слишком заметны, можно обнаружить лишь для больших выборок, однако сами по себе эти отклонения вносят малое отличие в статистические критерии и другие вопросы». (см. например. Справочник по прикладной статистике под редакцией Э. Ллойда 11 У. Лпндерма|1а М: Финансы и статистика, 1989, с. 270).
132
Глава 2. Элементарные понятия анализа.
На практике для проверки нормальности обычно применяют визуальные мн. тоды, например гистограммы, нормальные вероятностные графики или численные методы с помощью оценки коэффициентов асимметрии и эксцесса; использ, -ется также критерий хи-квадрат.
Пример (проверка нормальности с помощью оценок коэффициентов асимметрии и эксцесса).
Рассмотрим классические данные Р. Фишера о количестве осадков в одном из районов Англии (см. Fisher R. А. (1970). Statistical methods for research worker.. 15-th edition, Macmillan):
Далее приводится последовательность действий, которую лучше всего повто рить, используя систему STATISTICA.
Шаг 1. Создайте файл STATISTICA и введите в пего данные, представлении* в таблице. В первом столбце приведено количество осадков в дюймах. Во втор"’ | столбце записана частота, с которой данное значение встречалось в илмерени j Например, уровень 16 дюймов наблюдался 1 раз, уровень 17 дюймов — 0 раз, урвг вень 18 дюймов — 0 раз и т д.
Шаг 2. Запустите модуль Основные статистики и таблицы.
Шаг 3. В стартовой панели модуля выберите Основные статистики и нажмите ОК.
g3 । сверить нормальность наблюдаемых величин
fllar 4. В появившемся окне Описательные статистики нажмите кнопку Пе-„-,,ные. и выберите переменную УРОВЕНЬ.
Шаг 5. Далее в правом верхнем углу окна нажмите кнопку В. В появившемся окне Задание веса выберите вес из переменной ЧАСТОТА Нажмите ОК
Шаг 6. Нажмите кнопку Другие статистики и дайте указание системе, что вам нужно вычислит ь а< имметрпю и эксцесс, а также их стандартные ошибки (см рисунок)
134
Глава 2. Элементарные понятия анализа данных
Шаг 7. Нажмите ОК в окне Статистики и далее нажмите ОК в появившемся окне Описательные статистики. Следующая таблица с результатами появится на экране
Из этой таблицы видно, что по абсолютной величине оценки асимметрии и эксцесса имеют тот же порядок, что их ошибки. Следовательно, ни одна из полученных величин не значима. Поэтому можно сказать, что данные согласованы с гипотезой нормальности.
Продолжение примера (использование критерия хи-квадрат для проверки нормальности).
Мы работаем с теми же данными по осадкам, что и в предыдущем примере.
Шаг 1. Запустите модуль Непараметрические статистики.
В стартовой панели модуля выберите опцию Подгонка распределения.
Так как нужно проверить согласие данных с нормальным распределением, в списке Непрерывные распределения выберите Нормальное. Далее нажмите кнопку ОК.
Шаг 2. В появившемся диалоговом окне Подгонка непрерывных распределении нажыт кнопку Переменные и выберите переменную УРОВЕНЬ. Нажмите ОК.
Шаг 3. Далее в правом верхнем углу окна нажмите кнопку В. Выберите веса из переменной ЧАСТОТА.
135
Шаг4. В диалоговом окне Подгонканепрерывныхраспределеггий нажмите кнопку ОК
На экране появится следующая электронная таблица с результатами:
Во второй строке заголовка таблицы показано значение статистики хи-квадрат и уровень значимости р = 0,532.
Снова мы можем сказать, что данные согласованы с гипотезой нормальности. Результат согласуется с тем, который был получен в первой части примера, когда в качестве критерия нормальности использовались коэффициенты асимметрии и эксцесса.
замечание -------------------------------------------------------------------
в первой строке заголовка таблицы указаны значения статистики Колмогорова—Смирнова. Этот уитерий также можно использовать для проверки норма/ьности. Результат также незначим.
136
Глава 2 Элементарные понятия анализа данных
Посмотрим на результаты в графическом виде
Шаг 5, В диалоговом окне Подгонка непрерывных распределений нажмите кнопку График
На экране появится гистограмма значении переменной Осадки. Из графика также видно хорошее согласие данных с нормальным распределением.
Этот классический пример иллюстрирует схему действий в системе STATISTICA при проверке нормальности данных.
Все ли статистики критериев нормально распределены?
Не все, но большинство из них либо имеют нормальное распред - тение (особенна при большом числе наблюдений), либо имеют распределение, связанного нормальным и вычисляемое на основе нормального, такое как Г, F или хи-квадрат Обычнг • эти статистики требуют, чтобы анализируемые переменные сами были нормально распределены в совокупности, то есть удовлетворяли бы «предположению».
Многие наблюдаемые переменные действительно нормально распределены, что является еще одним аргументом в пользу того, что нормальное распределение пред -ставляет«фундаментальныйэакон». Проблема может возшгкпутьприиопыткепри менять тесты, основанные на предположении нормальности, к данным, не являющимся нормальными. В подобных случаях вы можете выбрать одно из двух.
Во-первых, вы можете использовать альтернативные «непарамстрическне» тесты (или так называемые «свободно распределенные тесты»), особенно полезные, если число наблюдений мало.
Как альтернативу но многих случаях вы можете все же использовать тесты, ск нованные на предположении нормальности, если уверены, что объем выборки д статочио велик.
Последняя возможность основана на чрезвычайно важном принципе, позволяющем понять популярность тестов, основанных на нормальности: при возрасту нип объема выборки форма распределения статистики критерия приближается к нормальной, даже если распределение исследуемых переменных не является но|  мальным Этот принцип называется центральной преданной теоремой.
МГ|^жао6ъема выборки 137
Как узнать последствия нарушений предположений нормальности?
F Хотя многие утверждения предыдущих параграфов можно доказать математически некоторые из них не имеют теоретического обоснования и могут быть проде- мо'нстрированы только эмпирически. с помощью так называемых экспериментов 1 Монте-Карло- В этих экснериментах большое число выборок генерируется на ком- пыотсре. а результаты, полученные из этих выборок, анализируются с помощью I различных тестов. Этим способом можно эмпирически оценить тип и величину ошибок или смещений, которые вы получаете, когда нарушаются определенные
I теоретические предположения используемых тестов, например, вы можете искус-’ ственно изменить распределение выборки, сделать его отличным от нормального
н проверить результат,
Монте-Карловские исследования интенсивно использовались для того, чтобы пцен ит>., насколько тесты, основанные на предположении нормальности, чувствительны к различным нарушениях! предположений нормальности.
Общин вывод этих исследований состоит в том, что последствия нарушения предположения нормальности менее фатальны, чем первоначально предполагалось. Хотя эти выводы не означают, что предположения нормальности можно игнорировать, они увеличили общую популярность тестов, основанных на нормальном распределении.
Оценка объема выборки
В большинстве ситуаций на практике у нас нет доступа ко всей популяции (генеральной совокупности) в целом (например, популяция слишком большая, процесс измерения слиш ком дорог и т. д_). Таким образом, мы имеем дело с ограниченным объемом данных — выборкой, и поставлены перед необходимость принимать решение относительно всей популяции на основе лишь выборочных данных. Для того чтобы оценить некоторую характеристику популяции, которую назовем параметром, мы строим выборку и вычисляем на ее основе некоторую статистику, которую рассматриваем как оценку искомого параметра.
Представьте, вы врач н вас интересует доля людей с данным заболеванием или вы политик и вас интересует доля людей, поддерживающих вашу позицию. Пусть ваш избирательный! округ — большой город, в котором проживают около 1 500 000 человек, имеющих право голоса. В данном случае интересующий параметр л, доля всех людей, поддерживающих вас. Как понять, насколько велика эта доля? Вы можете поступить следующим образом: выбрать наудачу группу людей и выяс-нить их мнение. Назовем выбранную группу выборкой, а количество элементов в Ней (и данном случае людей) объемом выборки. Число людей (/V) в выборке °Удст относительна небольшим в сравнении со всей популяцией Опросив лю-ле” ” выборке, вы получите нс точное значение интересующего вас параметра л. а оценку ~ обозначим се через р.
138
Глава 2. Элементарные понятия анализа данных
Формально р вычисляется так: p—NI/N, vneN1 — число людей, поддерж! ших вашу кандидатуру, N — объем выборки.
Эквивалентная формула имеет вид:
P = p(N) = is,/lV	<•>
= 1, если i-й респондент поддерживает вас, = 0 в противном случае. Воз никает вопрос: какова точность этой оценки? В зависимости от ответа на данный вопрос вы предпримете то или иное действие
Очевидно, что параметр я не будет равен в точности оценки р. Величина откло нения р от я называется ошибкой.
Таким образом, в любой построенной по выборке оценке содержится ошибка точная величина которой неизвестна, в противном случае вы могли бы точно вычис -лить значение параметра, что в принципе невозможно сделать, имея дело с часгьк-популяции, то есть с выборкой.
В общем, можно сказать, чем больше объем выборки N, тем меньше ошибка оцен ки. Если вам нужно точное решение относительно параметра р, вам необходимс-взять N достаточно большим, чтобы ошибка была «разумно малой», например, опросить всех жителей города. Если N слишком мало, то мало шансов получить хорошую оценку.
С другой стороны, если взять объем выборки JV слишком большим, улучшение точности оценки окажется незначительным. Итак, если N «достаточно большое». чтобы обеспечить приемлемый уровень точности, то дальнейшее увеличение объема данных не приводит к неоправданной трате времени и средств.
Таким образом, ключевым вопросом является: какой уровень точности будет иметь оценка для данного объема выборки?, а также связанный с ним: какой ра » мер выборки нужно иметь, чтобы достичь приемлемого уровня точности9
Выборочное распределение представляет собой распределение статистики критерия в повторных выборках.
Рассмотрим выборочную оценку р, построенную по выборке объема N в предположении, что значение л в точности равно 50. Статистическая теория утверждает, что р имеет биномиальное распределение (как сумма независимых случайных величин, принимающих два значения: 1 или О).
Это распределение при достаточно больших N в силу теоремы Муавра—Лапласа, являющейся частным случаем центральной предельной теоремы, приближается к нормальному распределению со средним л и стандартным отклонением, вычисляемым по формуле:
и = it)/N .
Заметим, что часто полезной оказывается оценка: а < 1 /2y]i/ N.
Предположим, что объем выборки N равен 100. Тогда распределение р име(1 следующий вид (напомним, мы считаем, что л = 5)-
объема выборки
139
Из рисунка видно, что значения статистики сосредоточены вокруг точки ,5, но небольшой процент значений больше .6 или меньше .4. Этот разброс значений оценок отражает тот факт, что опрос общественного мнения проводился среди 100 человек и поэтому не является абсолютно точным значением вероятности успеха л.
Если бы р была «совершенной» оценкой тс, разброса значений не было бы, и стандартная ошибка равнялась бы 0. Тогда выборочное распределение имело бы выброс в точке 0.5. Выброс выборочного распределения говорит о том, насколько много «шум» смешивается с «сигналом» от параметра.
Заметим, что стандартная ошибка р стремится к 0 при увеличении объема выборки N(jNстоит в знаменателе). Если 7V становится достаточно большим, то оценка р будет все более точной (см. формулу для вычисления ошибки).
Предположим, вы используете критерий, описанный ранее. Допустим, вы решили, что, если р больше 58, то нулевая гипотеза; «я меньше или равно ,50» неверна. Критическая область этого критерия показана ниже.
Проведя несложные подсчеты (например, используя формулу биномиального Распределения), легко определить, что вероятность отвергнуть нулевую гипотезу
140
Глава 2. Элементарные понятия анализа даж
при л — .50 равна .044. Следовательно, для выбранного решающего правила оцц ка I рода а находится на уровне пе ниже .044.
Теперь важно понять, какова мощность этого критерия.
Предположим, что 55% избирателей поддерживают политика, то есть л = . п нулевая гипотеза не верна. В этом случае правильное решение состоит в то»», чтобы отвергнуть нулевую гипотезу в пользу альтернативы
На рисунке ниже показано выборочное распределение р при условии, что л - _5я Ясно, что политики принимают верные решения, поддерживаемые, большинством только в очень малом проценте случаев. Вероятность того, что р больше .58, равна только 541.
Нечего и говорить, что нет смысла проводить эксперимент, в котором вашаточ -ка зрения верна только в 24.1% опытов! В таком случае говорят, что критерий зна -чимости имеет «недостаточную мощность, чтобы обнаружить 5%-ное отклонение от нулевой гипотезы».
Суть проблемы лежит в ширине этих двух распределений (при различных ги потезах). Если объем выборки становится большим, то стандартная ошибка доли уменьшается и область перекрытия двух распределений соответственно уменыпа ется. Таким образом, при достаточно большой выборке можно найти критерий < высокой мощностью и данным уровнем значимости а
Следующие рассуждения вообще типичны при проверке гипотез. Назовем нс ходную гипотезу «нулевая гипотеза» — Но. Например, доля поддерживающих но । литика выше 0.5 или прививка от рриппа привела к снижению заболевасмос*. Для проверки гипотезы мы организуем сбор данных, извлекаем выборку, ^епця зуя статистическую теорию, видим, что гипотеза Но, вероятно, неверна и должН быть отвергнута.
Отвергая Нп, мы обосновываем то, во что верим Эта ситуация, типичная во МЩ тих областях приложения, отвергая нулевую гипотезу, вы подтверждаете теорЦ
Нулевая гипотеза либо справедлива, либо ошибочна, и статистическая npoi дура недвусмысленно указывает на это Нулевая гипотеза либо отвергается, ли не отвергается
Следовательно, до проведения эксперимента вы постулируете, что имеют мес только 4 возможности, показанные ниже:
1ЛЬИ Ий подход к анализу мощности
		Верная гипотеза	
		Но	н,
Решения	Но	Правильное принятие	Ошибка II рода Р
	н,	Ошибка 1 рода о	Правильное отвержение
Как вы видите, применение статистического критерия приводит к ошибкам двух видов.
Конечно, идеальным вариантом было бы уменьшение обеих ошибок (первого и второго рода), однако реальное положение вещей такое, что при фиксированном объеме выборки этого достичь нельзя Поэтому мы фиксируем уровень а и стараемся сделать ошибку второго рода Р как можно меньше
Обычно считается, что ошибка первого рода а должна принимать значение .05 или ниже, тогда как ошибка второго рода р должна быть столь малой, насколько это возможно при фиксированном уровне ошибки первого рода.
«Статистическая мощность», которая по определению равна 1 - ₽ (единица минус ошибка второго рода), соответственно, должна быть максимально высокой. Идеальный вариант, когда мощность равна, по крайней мере, .80. чтобы обнаружить paavMHbie отклонения от нулевой гипотезы.
Поставим вопрос: какой объем выборки N необходим, чтобы достичь разумно высокой мощности в ситуации, когда а фиксировано на разумно низком уровне.
Конечно, можно опытным путем установить нужный объем выборки, например, используя метод Монте-Карло. Однако программное обеспечение позволяет это сделать автоматически с помощью нескольких движений мыши. Модуль STATISTICA Анализ мощности предлагает различные аналитические и графические процедуры, позволяющие представить зависимость между мощностью и размером выборки. При работе с модулем Анализ мощности предполагается, что вы будете применять хорошо известный хи-квадрат-критерий чаще, чем тонный би номиальный критерий.
Например, предположим, что в обсуждаемом нами примере политик хочет достичь мощности 80 при л равном 55. Используя выборку объема 607, он получит на выходе мощность, равную 8009. (Реальный уровень Альфа этого критерия равен 0522.)
Визуальный подход к анализу мощности
Основные этапы проведения анализа мощности и вычисления объема выборки состоят в следующем: определяется нулевая гипотеза и альтернативы, выбирается "фитерий и исследуется мощность и требуемый объем выборки для обнаружения Данным критерием эффекта на разумном уровне.
142
Глава 2. Элементарные понятия анализа данных
В разбираемом примере, мы получили, что необходимая мощность (0.8) дости-| гается при выборке объема 607 (р“.8О). На практике, конечно, было бы нсразумн<|1 проводить только одно вычисление, основываясь на одном гипотетическом зиаче нии. Болес естественно рассмотреть, как зависит мощность от различных р, ииы i ми словами, построить функцию зависимости мощности отр.
В обсуждаемом примере мы хотим понять с низкой вероятностью ошибиться2 будут или нет нашу точку зрения поддерживать более половины избирателей.
Графический анализ чрезвычайно полезен для понимания возможности данного статистического критерия обеспечить нужную мощность.
Например, можно построить график зависимости мощности от объема выбор км в предположен»™, что истинная доля поддерживающих равна .55 (т.е. вас поддерживают более 55% жителей).
На следующем графике показана мощность как функция объема выборки в диапазоне от 20 до 2000 наблюдений (используется «нормальная аппроксимация», биномиального распределения).
Из графика видно, что мощность достигает приемлемого уровня (часто этот уровень фиксируют между .80 и .90) на выборке, состоящей примерно из 600 наблюдений.
Следует помнить, что вычисления сделаны в предположении, что истинное значение доли р равно.55. Возможно, что форма кривой (а значит, и наши оценки!) очень чувствительна к величине р. Логично поставить вопрос: как чувствителен наклон графика к изменению величины р?
Имеется несколько подходов к решению данного вопроса. Один состоит в то»' чтобы построить графики зависимости мощности от размера выборки для равных значений р. Ниже показан график зависимости мощности от размера выборки прир-.б.
Можно заметить, что увеличение мощности при возрастании N происходит гораздо быстрее при р - .6 чем при р - 55. Это различие становится более заметно, если построить два графика одновременно.
143
Для данного уровня мощности график зависимости объема выборки отр показывает чувствительность объема выборки к величине р. На следующем графике показана зависимость объема выборки N, позволяющей достичь мощности .90 для различных значений р, когда при нулевой гипотезе р - .50.
144
Глава 2. Элементарные понятия анализа до
Из графика видно, как быстро уменьшается N для р изменяющихся от .55 до .60 Таким образом, чтобы надежно обнаружить различие .05 (от значения при нуле! ' гипотезе 50), требуется взять объем выборки N больше 800, но, чтобы надел обнаружить различие .10 требуется всего лишь 200 (см. значение N при р - 0 Очевидно, гораздо лучше быть осведомленным заранее о точности критерия, че.» оказаться поставленным перед фактом некорректности исследования и ошибка при принятии решения.
Взаключении сделаем замечание общего характера. Результат применения крж
терпя значимости заключается в утверждении — принять или отвергнуть нуле! .» гипотезу. Такой подход часто не устраивает тех исследователей, кто рассматрш^. ет нулевую гипотезу не как утверждение об отсутствии эффекта или ну левого эф.
фекта, а интересуется тем, насколько велик эффект,
чем в точности он равен нуле.
или нет. Таким образом, приходится ставить одну, две или три звездочки по результатов в таблице, или приводить соответствующие р-уровни
Вероятностные уровни иногда могут ввести в заблуждение относительно «силы»
результата, особенно когда они представлены без дополнительной информации Налример, если в таблице дисперсионного анализа один эффект имел р уровень .019, а другой р уровень .048, то утверждение, что первый эффект сильнее вторе , Ы возможно, будет ошибочным. Для правильной интерпретации полученного резуш^ тэта необходима дополнительная информация. Чтобы понять это, предположим, что некто установил р уровень .001 Это могло быть результатом слабого эффекта и чрезмерно большого объема выборки, либо сильного эффекта в поп уляции • умеренного объема выборки, либо очень сильного эффекта и малого объема вь борки. Аналогично,р уровень .075 можно интерпретировать как комбинацию очен». сильного и малой выборки, либо незначительного эффекта и гигантской выборки
Отсюда ясно, что следует внимательно сравнивать р-уровни и принимать во внимание объем выборки и точность эксперимента.
Понижение размерности данных
Исследователи из различных областей части сталкиваются с данными большой размерности, иными словами, с таблицами данных, в которых много переменных (столбцов). Естественное желание исследователя разумно сократить число перемен ных, вводя новые переменные и объединяя некоторые переменные в одну. Конеч но, хотелось, чтобы эти новые переменные имели определенный смысл и допуаз* ли разумную интерпретацию, а не вводились чисто формально.
Если вы хотите понизить размерность непрерывных данных, то можете вослоль -зоваться методами факторного анализа. Аналогом факторного анализа для кшпе гориалъных переменных является анализ соответствий, в котором роль компонеу» дисперсии играют компоненты статистики хи-квадрат.
В анализе главных компонент определяются попарно ортогоналыгые паправ ления максимальной вариации исходных данных, после чего данные проектиру-1 югся на подпространство меньшей размерности, порожденное найденными компонентами. Далее эти компоненты могут рассматриваться как новые переменные.
Визуальный подход к анализу мощности
145
к которым применяются обычные методы многомерного анализа, например, регрессионный анализ.
Для того чтобы понять основную идею, рассмотрим две зависимые непрерывные переменные. Зависимость между двумя переменными можно обнаружить с помощью двумерной диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты обеих коррелированных переменных. Итак, фактически, вы сократили число переменных и замени™ две зависимые переменные одной переменной.
Если вы имеете три зависимые переменные, то аналогичным образом можете построить трехмерную диаграмму рассеяния и вновь провести линию регрессии, вдоль которой разброс данных максимальный. После того, как вы нашли тиипю регрессии, для которой дисперсия максимальна, вокруг нее остается некоторый разброс данных, поэтому процедуру естественно повторить.
В анализе главных компонент именно так и поступают: после выделения первого фактора определяется следующий фактор, максимизирующий остаточную вариапию и т д.
Таким образом, последовательно выделяются главные компоненты, которые по самому способу построения оказываются некоррелированными или ортогональными. Эта идея естественно распространяется на любое число переменных.
3
Вероятностн ые распределения и их свойства
Случай является одним из наиболее загадочных явлений на свете, он внезапно возникает и так же внезапно исчезает, — столь внезапно, что не позволяет нам проникнуть в свою сущность. Только в XX веке математики научились оперироват». с вероятностью, хотя отдельные задачи о подсчете шансов в азартных играх рас сматривал ись еще в XV- XVI веках. Древние греки, приучившие нас к количествен ному взгляду на мир, пришли бы в ужас, если бы узнали, что мы научились с помощью теории вероятностей вычислять шансы и оценивать, какие события более вероятны, а какие менее вероятны, например в актуарных расчетах или азартных играх.
Знаменитые итальянские математики Кардано, Пачоли и Тарталья, а вслед за ними Паскаль, Ферма, Гюйгенс в XVII веке разрабатывали все более и более изош ренные способы подсчета вероятностей в разнообразных игровых задачах и в популярных лотереях. Их изобретательность была поистине удивительной! Используя ограниченный и, на наш взгляд, примитивный язык, они смогли объяснить глубокие явления. Существенное движение вперед произошло в тот момент, когда прозорливые умы вдруг осознали, что очень схожие вероятностные законы возникают в разных, на первый взгляд, задачах.
В чем состоит идея вероятностных рассуждений?
Первый, самый естественный шаг вероятностных рассуждений заключается в еле дующем: если вы имеете некоторую переменную, принимающую значения случайным образом, то вам хотелось бы знать, с какими вероятностями эта переменнам принимает определенные значения. Совокупность этих вероятностей как раз и задает распределение вероятностей. Например, имея игральную кость, можно a prior | считать, что с равными вероятностями 1/6 она упадет на любую грань. И это про исходит при условии, что кость симметричная Если кость несимметричная» тц можно определить большие вероятности для тех граней, которые выпадают чаше а меньшие вероятности — для тех граней, которые выпадают реже, исходя из опыт ных данных. Если какая-то грань вообще не выпадает, то ей можно присвоить ве-
ное распределение
147
зоятность 0. Это и есть простейший вероятностный закон, с помощью которого иожно описать результата бросания кости. Конечно, это чрезвычайно простой пример- но аналогичные задачи возникают, например, при актуарных расчетах, когда на основе реальных данных рассчитывается реальный риск при выдаче страхового полиса.
В этой главе мы рассмотрим вероятностные законы, наиболее часто возникаю-
щие на практике
Графики этих распределений можно легко построить в STATISTICA.
Нормальное распределение
Нормальное распределение вероятностей особенно часто используется в статистике. Нормальное распределение дает хорошую модель для реальных явлений, в ко торых:
1)	имеется сильная тенденция данных группироваться вокруг центра;
2)	положительные и отрицательные отклонения от центра равновероятны;
3)	частота отклонений быстро падает, когда отклонения от центра становятся большими.
Механизм, лежащий в основе нормального распределения, объясняемый с помощью так называемой центральной предельной теоремы, можно образно описать следующим образом. Представьте, что у вас имеются частицы цветочной пыльцы, которые вы случайным образом бросили в стакан воды. Рассматривая отдельную частицу под микроскопом, вы увидите удивительное явление — частица движется. Конечно, это происходит, потому что перемешаются молекулы воды и передают свое движенце частицам взвешенной пыльцы.
Но как именно происходит движение? Вот более интересный вопрос. Аэто движение очень причудливо!
Имеется бесконечное число независимых воздействий на отдельную частицу пыльцы в виде ударовмолекул воды, которые заставляют частицу двигаться повесьма странной траектории. Под микроскопом это движение напоминает многократно и хаотично изломанную линию. Эти изломы невозможно предсказать, в них нет никакой закономерности, что как рази соответствует хаотическим ударам молекул о частицу. Взвешенная частица, испытав удар молекулы волы в случайный момент времени, меняет направление своего движения, далее некоторое время движется по инерции, затем вновь попадает под удар следующей молекулы и т. д. Возникает удивительный бильярд в стакане воды!
Поскольку движение молекул имеет случайное направление и скорость, то вели-чина и направление изломов траектории также совершенно случайны и непредсказуемы. Это удивительное явление, называемое броуновским движением, открытое в XIX веке, заставляет нас задуматься о многом.
Если ввести подходящую систему и отмечать координаты частицы через некоторые моменты времени, то как раз и получим нормальный закон. Более точно, Решения частицы пыльцы, возникающие из-за ударов молекул, будут подчинять-Ся нормальному закону.
148
Глава 3. Вероятностные распределения и их свойст
Впервые закон движения такой частицы, называемого броуновским, на физ! ческом уровне строгости описал А. Эйнштейн. Затем более простой и интуитив] ясный подход развил Ленжеван.
Математики в XX веке посвятили этой теории лучшие страницы, а первый ш был сделан 300 лет назад, когда был открыт простейший вариант центральной!!! дельной теоремы.
В теории вероятности центральная предельная теорема, первоначально нзв& ная в формулировке Муавра и Лапласа еще в XVII веке как развитие знамении закона больших чисел Я. Бернулли (1654-1705) (см. Я. Бернулли (1713), У. Conjectandi). в настоящее время чрезвычайно развилась и достигла своих выс< в современном принципе инвариантности, в создании которого существенна роль сыграла русская математическая школа. Именно в этом принципе наход! снос строгое математическое объяснение движение броуновской частицы.
Идея состоит в том, что при суммировании большого числа независимых величин (уларов молекул о частицы пыльцы) в определенных разумных условиях пол у чаются именно нормально распределенные величины. И это происходит независ». мо, то есть инвариантно, от распределения исходных величин. Иными словами, если на некоторую переменную воздействует множество факторов, эти воздействия независимы, относительно малы и слагаются друг с другом, то получаемая в итоге величина имеет нормальное распределение.
Например, практически бесконечное количество факторов определяет вес человека (тысячи генов, предрасположенность, болезни и т. д.). Таким образом, можно ожидать нормальное распределение веса в популяции всех людей.
Если вы финансист и занимаетесь игрой на бирже, то, конечно, вам известны случаи, когда курсы акций ведут себя подобно броуновским частицам, испытывая хаотические удары многих факторов
юльное распределение
149
Формально плотность нормального распределения записывается так.
<р(х;а,п2) -=-t=J=--е 20 .
у 2 л -о
ццепи а2 — параметры закона, интерпретируемые и ответственно как среднее значение и дисперсия данной случайной величины (ввиду особой роли нормального распределения мы будем использовать специальную символику для обозначения его функции плотности и функции распределения). Визуально график нормальной плотности — это знаменитая колоколообразная кривая.
Соответствующая функция распределения нормальной случайной величины £(а,о2) обозначается Ф(.т, в.гт2) и задается соотношением’
Ф(х;о,о2)=Р{^(а,а2)<х}=-р^=— fe 2"
-ДТП -ст J
Нормальный закон с параметрами а = 0 и а2 ~ 1 называется стандартным.
Обратная функция стандартного нормального распределения, примененная к ветчине 2,0<г<1. называется пробит-преобразовапием г, или просто пробитом z
Rot пользуйтесь вероятностным калькулятором STATISTICA, чтобы по х вычислить г и наоборот.
Основные характеристики нормального закона’
среднее. мода, медиана-££ =	= х„гЛ = а\
Дисперсия:	= сг;
асимметрия: Д =0;
эксцесс: Д = 0;
150
Глава 3. Вероятностные распределения и их свойства
Центральные моменты порядка к > з: 
О при к — 2тп — 1,
1-3	-(2m—1)о2" при к = 2т,
Изформул видно, что нормальное распредетениеописывается двумя параметрами-а — mean — среднее;
а — stantard deviation — стандартное отклонение, читается: «сигма».
Иногда стандартное отклонение называют среднеквадратическим отклонением, но это уже устаревшая терминология.
Приведем некоторые полезные факты относительно нормального распределения.
Среднее значение определяет меру расположения плотности. Плотность нормального распределения симметрична относительно среднего. Среднее нормаль него распределения совпадает с медианой и модой (см. графики).
Плотность нормального распределения с дисперсией 1 и средним 1
Плотность нормального распределения со средним О и дисперсией 0,01
Плотность нормального распределения со средним 0 и дисперсией 4
верное распределение
151
При увеличении дисперсии плотность нормального распределения расплывается или растекается вдоль оси ОХ, при уменьшении дисперсии она, наоборот, сжимается, концентрируясь вокруг одной точки — точки максимального аначсния, совпадающей со средним значением. В предельном случае нулевой дисперсии случайная величина вырождается и принимает единственное значение, равное сред-
Полезно знать правила 2- и 3-сигма, или 2- и 3-стандартных отклонений, которые связаны с нормал ьным распределением и используются в разнообразных приложениях. Смысл этих правил очень простой
Если от точки среднего или, что то же самое, от точки максимума плотности нормального распределения отложить вправо и влево соответственно даа и три стандартных отклонения (2- и 3-сигма), то площадь под графиком нормальной плотности, подсчитанная по этому промежутку, будет соответственно равна95,45% и 99,73% всей площади под графиком (проверьте на вероятностном калькуляторе STATISTICA!).
Другими словами, это можно выразить следующим образом: 95.45% и 99,73% всех независимых наблюдений из нормальной совокупности, например размеров детали или цены акций, лежит в зоне 2- и 3-стандартных отклонений от среднего значения.
Равномерное распределение
Равномерное распределение полезно при описании переменных, у которых каждое значение равновероятно, иными словами, значения переменной равномерно распределены в некоторой области.
Ниже приведены формулы плотности и функции распределения равномерной случайной величины, принимающей значения на отрезке [а, Ь].

- — приа<х</>; h-o
[О прих<аих>Ь.

0 прих<а~,
х-а
--- npuacxiD;
Ь-а
1 при х>Ь.
Из этих формул легко понять, что вероятность того, что равномерная случай Иая величина примет значения из множества [с, d] с [a, fe], равна (d — c)/(b — а).
Положим a-O,b=-1. Ниже показан график равномерной плотности вероятно Сги. сосредоточенной на отрезке [0,1].
152
Глава 3. Вероятностные распределения и их свойства
Числовые характеристики равномерного закона: а+^
среднее, медиана:	-хта1 =
дисперсия:	;
асимметрия. R = 0;
эксцесс: л =-1,2.
Экспоненциальное распределение
Имеют место события, которые на обыденном языке можно назвать редкими. Если Т — время между наступлениями редких событий, происходящих в среднем с ин тенсивностъю Л, то величина Тимеет экспоненциальное распределе! |ие с нарамет • ром Л (чямбдп). Экспоненциальное распределение часто используется д чя оппсаиш интервалов между последовательными случайными событиями, например интер  валов между заходами на непопулярный сайт, так как эти посещения являются] редкими событиями.
Это распределение обладает очень интересным свойством отсутствия поел, действия, или, как еще говорят, марковским свойством, в честь знаменитого pyi ского математика Маркова А. А., которое можно объяснить следующим образе Если распределение между моментами наступления некоторых событий являет показательным, то распределение, отсчитанное от любого момента t до слсдуюи го события, также имеет показательное распределение (с тем же самым параметром I.
Иными словами, для потока редких событий время ожидания следующего но-сетитсля всегда распределено показательно независимо от того, сколько временя
вы его уже ждали.
Показательное распределение связано с пуассоновским распределением: в единичном интервале времени количество событий, интервалы между которыми н зависимы и показательно распределены, имеет распределение Пуассона. Если hi
тервалы между посещениями сайта имеют экспоненциальное распределение. количество посещений, например в течение часа, распределено по закону Пуассси
распределение Эрланга
153
Показательное распределение представляет собой частный случай распределения Всйбулла.
Если время не непрерывно, а дискретно, то аналогом показательного распределения является геометрическое распределение.
Плотность экспоненциального распределения описывается формулой:
/е(х) = Д,е ^. **0.
Это распределение имеет только один параметр, который и определяет его характеристики.
График плотности показательного распределения имеет вид:
Основные числовые характеристики экспоненциального распределения:
среднее: Е£= —» Л)
=0;
медиана: хта1  ---In 2;
дисперсия: D£ -
1
асимметрия: Д =2;
эксцесс: Д,=6.
Распределение Эрланга
310 Непрерывное распределение сосредоточено на (0,1) и имеет плотность.
, . («Ю” л-1 -«JU ',М=Г(»)Х '	•
I Где Ц, п ~ параметры, ц > 0, п — целое.
154
Глава 3. Вероятностные распределения и их свойства
Математическое ожидание и дисперсия равны соответственно — и —-.
А л/?
Распределение Эрланга названо в честь А. Эрланга (A Erlang), впервые применившего его в задачах теории массового обслуживания и телефонии
Распределение Эрланга с параметрами р и п является распределением суммы п независимых, одинаково распределенных случайных величин, каждая из которых имеет показательное распределение с параметром пр.
При и = 1 распределение Эрланга совпадает с показательным или экспоненциальным распределением.
Распределение Лапласа
Функция плотности распределения Лапласа, или, как его еще называют, двойного экспоненциального, используется, например, для описания распределения оши бок в моделях регрессии. Взглянув на график этого распределения, вы увидите что оно состоит из двух экспоненциальных распределений, симметричных отио ситсльно оси OY
Если параметр положения равен 0, то функция плотности распределения Лапласа имеет вид.-
/(х)=1л.е-« (-»<,«).
Основные числовые характеристики этого закона распределения в предположении. что параметр положения нулевой, выглядят следующим образом:
среднее: Е£=0;
мода: xmod=0;
медиана- хяг„= 0;
Гамма-распределение
дисперсия: D^ = -^;
асимметрия: Д =0;
эксцесс: /?2 =3.
В общем случае плотность распределения Лапласа имеет вид:
дх>4-«
где
а — среднее распределение;
b — параметр масштаба;
е — число Эйлера (2,71...)-
Гамма-распределение
Плотность экспоненциального распределения имеет моду в точке 0, и это иногда неудобно для практических применений. Во многих примерах заранее известно, что мола рассматриваемой случайной переменной не равна 0, например, интерва-
156
Глава 3. Вероятностные распределения и их свой
лы между приходами покупателей в магазин электронной торговав или заход, на сайт имеют ярко выраженную моду. Для моделирования таких событи й испс зустся гамма-рагпреде lenue.
Плотность гамма-распределения имеет вид:

_ь- ‘ ' Г(а) '
О при х<0
приО<х<со;
где Г — Г-функция Эйлера, д — 0 — параметр «формы» и h > 0 — параметр мэ штаба.
В частном случае имеем распределение Эрланга и экспоненциальное распределение.
Основные характеристики гамма-распределения:
среднее: £/(а,Ь) = ^; b
а—1
мода: xmod = - - (при а>1); b
дисперсия: Dy(a,b) =
асимметрия: Д =
эксцесс. рг-—.
а
Ниже приведены два графика плотности гамма-распределения с параметров масштаба, равным 1, и параметрами формы, равными 3 и 5.
распределение
157
Полезное свойство гамма-распределения: сумма любого числа независимых гамма-распредсленных случайных величин (с одинаковым параметром масштаба Ь) у (а ,А) + /2(«2>А)+--+/Я(аг,й) также подчиняется гамма-распредслению, но спарамстрами at +а2 + - -+ав чЬ.
Логнормальное распределение
Случайная величина А называется логарифмически нормальной, или логнормальной. если ее натуральный логарифм (inft) подчинен нормальному закону’ распределения.
Логнормальное распределение используется, например, при моделировании таких переменных, как доходы, возраст новобрачных или допустимое отклонение от стандарта вредных веществ в продуктах питания.
Итак, если величинахимеег нормальное распределение, то вел нчииау = имеет логнормальное распределение.
Если вы подставите нормальную величину в степень экспоненты, то легко поймете, что логнормальная величина получается в результате многократных умножений независимых величин, так же как нормальная случайная величина есть результат многократного суммирования.
Плотность логнормального распределения имеет вид:
Основные характеристики логарифмически нормального распределения
среднее: Ег]=ае^ ;
«ода: х,гкА = ае^
медиана:	=а\
Дисперсия: £7 = (Ет?)2^' -\) = ае° (е"*-!);
158
Глава 3- Вероятностные распределения и их свойст
асимметрия: Д =(е°	+2);
эксцесс: Д, =(е"	+3е2®’ + бе"' +6)
159
ц^^рат-распредепение
- квадрат-расп ре де лен и е
Сумма квадратов т независимых нормальных величин со средним 0 и дисперсией 1 г иуеет хи-квадрат-распределегше с т степенями свободы. Это распределение наи-F более часто используется при анализе данных
	формально плотность хи-квадрат-распределения с т степенями свободы имеет
ВИД:
При отрицательных х плотность обращается в О
Основные числовые характеристики хи-квадрат-распределения:
среднее: ££2(т) = т;
мода:	=гп-2-.
дисперсия: £>^2(т) = 2/я;
асимметрия: Д =-=;
эксцесс: Д =____.
т
График плотности приводится на рисунке ниже:
160
Глава 3. Вероятностные распределения и их свойства
Биномиальное распределение
Биномиальное распределение является наиболее важным дискретным распредели ннсм, которое сосредоточено всего лишь в нескольких точках. Этим точкам бит миальное распределение приписывает положительные вероятности. Таким обрг лом, биномиальное распределение отличается от непрерывных распределеии (нормального, хи-квадрат и др.), которые приписывают путевые вероятности от дельно выбранным точкам и называются непрерывными.
Лучше понять биномиальное распределение можно, рассмотрев следующую игр’
Представьте, что вы бросаете монету. Пусть вероятность выпадения герба есть р а верояпюсть выпадения решки есть g = 1 - р (мы рассматриваем самый общи случай, когда монета несимметрична, имеет, например, смешенный центр тяж, -ти — в монете сделана дырка).
Выпадение герба считается успехом, а выпадение решки — неудачей. Тогда чис ло выпавших гербов (или решек) имеет биномиальное распределение
Отметим, что рассмотрение несимметричных монет или неправильных играл! пых костей имеет практический интерес. Как отмстил Дж. Нейман в своей паяв] ной книге «Вводный icypc теории вероятностей п математической статистик] люди давно догадались, что частота выпадений очков на игральной кости завис от свойств самой этой кости л может быть искусственно изменена Археологи I пару жили в гробнице фараона две пары костей: «честные» — с равными вероятг стями выпадения всех граней, и фальшивые — с умышленным смещением цент тяжести, что увеличивало вероятность выпадения шестерок.
Параметрами биномиального распределения являются вероятность ус »е р (д = 1 - р) и число испытаний п.
Биномиальное распределение полезно для описания распределения бином альных событий, таких, например, как количество мужчин и женщин в случ.и выбранных компаниях. Особую важность имеет применение биномиального |М пределе) шя в игровых задачах.
Точная формула для вероятности т успехов в п испытаниях записывается та
/(-»)=[—-—Ъ"
|яг!-(и—m)’J
161
рдмиальное распределение
р — вероятность успеха;
а равно 1-р. р. q>~0, p+q~ К
п — число Испытаний, тп - 0,1 ...тп.
Основные характеристики биноминального распределения:
среднее: Evp(n) = np;
модахти): р(л+1)-1^	<X«+D;
дисперсия: Dvp(n) = np(l-рУ,
г, 1~2Р
асимметрия: р - , 	—;
ylnpil-p)
1-6р(1—р) эксцесс: я, =---
ирО-р)
График этого распределения при различном числе испытаний п и вероятностях успеха р имеет вид:
162
Глава 3. Вероятностные распределения и их свойства
Опальное распределение 163
Биномиальное распределение связано с нормальным распределением и распре-енисм Пуассона (см ниже); при определенных значениях параметров при боль-Iчисле испытаний оно превращается в эти распределен ня. Это легко продсмои-ировать с помощью STATISTICA.
- Например, рассматривая график биномиального распределения с параметра-мир=0,7,и “ ЮО (см. рисунок), мы использовали STATISTICA BASIC, — вы монете заметить, что график очень похож на плотность нормального распределения (так оно и есть па самом деле!).
График биномиального распределения с параметрами р=0,05. п = 100 очень похож па график пуассоновского распределения.
Как уже было сказано, биномиальное распределение возникло из наблюдений за простейшей азартной игрой — бросание правильной монеты. Во многих ситуациях эта модель служит хорошим первым приближением для более сложных игр и случайных процессов, возникающих при игре на бирже. Замечательно, что существенные черты многих сложных процессов можно понять, исходя из простой биномиальной модели.
Например, рассмотрим следующую ситуацию.
Отметим выпаденпе герба как 1, а выпадение решки — минус 1 и будем суммировать выигрыши и проигрыш» в последовательные моменты времени. На графиках показаны типичные траектории такой игры при 1000 бросков, при 5000 бросков и при 10 000 бросков. Обратите внимание, какие длинные отрезки времени траектория находится выше или ниже нуля, иными словами, время, в течение которого один из игроков находится в выигрыше в абсолютно справедливой игре, очень продолжительно, а переходы от выигрыша к проигрышу относительно редки. и это с трудом укладывается в неподготовленном сознании, для которого выражение «абсолютно справедливая игра» звучит как магическое заклинание. Итак, хотя игра и справедлива по условиям, поведение типичной траектории вовсе не справедливо и не демонстрирует равновесия!
Конечно, эмпирически этот факт известен всем игрокам, с ним связана стратегия. когда игроку не дают уйти с выигрышем, а заставляют И1рать дальше.

Результаты Бросаний правильной ыонеты (1000 Бросков)
100 200 390 400 500 500 700 800 900 1500
164
Глава 3. Вероятностные распределения и их свойства.
Рекультаты бросаний правильном монеты (5000 бросков)
500 1000 1500 2000 2500 3000 3500 4000 4500 5500
О 1000	4000	В000	0000 1 0000 1 2000 14000
1000	3000	5000	7000	8000 11000 13000 15000
Рассмотрим количество бросков, в течение которых один игрок находится в выигрыше (траектория выше 0), а второй — в проигрыше (траектория ниже 0). На первый взгляд кажется, что количество таких бросков примерно одинаково. Однако (см. захватывающую книгу: Феллер В. Введение в теорию вероятностей и ее приложения. М: Мир, 1984, с. 106) при 10 000 бросках идеальной монеты (то есть для : испытаний Бернулли с р - q - 0,5, п-10 000) вероятность того, что одна из сторон будет лидировать на протяжении более 9 930 испытаний, а вторая — менее 70. превосходит 0,1.
Удивительно, что в игре, состоящей из 10 000 бросаний Правильной монеты, вероятность того, что лидерство поменяется не более 8 раз, превышает 0.14, а вероятность более 78 изменений лидерства приблизительно равна 0,12.
Итак, мы имеем парадоксальную ситуацию: в симметричном блуждании Бернулли «волны» на графике между последовательными возвращениями в нуль (см. графики) могут быть поразительно длинными. С этим связано и другое обстоя-течьство, а именно то, что для Г/и (доли времени, когда график находится выше оси абсцисс) наименее вероятными оказываются значения, близкие к 1/2.
арксинуса
165
Математиками был открыт так называемый закон арксинуса, согласно которому при кажД°м 0 < а <1 веРоят*1ОСТЬ неравенства — <а, где Т п — число шагов, в течение которых первый игрок находится в выигрыше, стремится к
1 Г° - *** - =—arcsin - Ja.
распределение арксинуса
Это непрерывное распределение сосредоточено на интервале (0,1) и имеет плотность:
р(х) = —
Функция распределения имеет вид:
F(x) = 2n ‘arcsinVx
Распределение арксинуса связано со случайным блужданием. Это распределение доли времени, в течение которого первый игрок находится в выигрыше при бросании симметричной монеты, то есть монеты, которая с равными вероятностями S падает на герб и решку. По-другому такую игру можно рассматривать как случайное блуждание частицы, которая, стартуя из нуля, с равными вероятностями делает единичные скачки вправо или алево. Так как скачки частицы — выпадения герба или решки — равновероятны, то такое блуждание часто называется симметричным. Если бы вероятности были разными, то мы имели бы несимметричное блуждание.
График плотности распределения арксинуса приведен на следующем рисунке:
166______________________Глава 3, Вероятностные распределения и их свойства
Самое интересное — это качественная интерпретация графика, из которой мож но сделать удивительные выводы о сериях выигрышей и проигрышей в справедливой игре. Взглянув на график, вы можете заметить, что минимум плотности на» ходится в точке 0,5. «Ну и что?!» — спросите вы. Но если вы задумаетесь над этим наблюдением, то вашему удивлению нс будет границ! Оказывается, определенная как справедливая, игра в действительности вовсе не такая справедливая, как може, показаться на первый взгляд.
Траектории симметричного случайного, в которых частица равное время проводит как на положительной, так и на отрицательной полуоси, то есть правее или левее нуля, являются как раз наименее вероятными Переходя на язык игроков можно сказать, что при бросании симметричной монеты игры, в которых игроки находятся равное время в выигрыше и проигрыше, наименее вероятны.
Напротив, игры, в которых один игрок значительно чаще находится в выигрыше, а другой соответственно в проигрыше, являются наиболее вероятными. Уди вительный парадокс!
Чтобы рассчитать вероятность того, что доля времени т, в течение которой первый игрок находится в выигрыше, лежит в пределах от tl до t2, нужно из значения функции распределения F(t2) вычесть значение функции распределения F(t1).
Формально получаем:
P{t1<x<t2} - F(t2) - F(t1)
Опираясь на этотфакт, можно вычислитьс помощью STATISTICA, что при 10 000 шагов частица остается на положительной стороне более чем 9930 моментов времени с вероятностью 0,1, то есть, грубо говоря, подобное положение будет наблюдаться не реже чем в одном случае из десяти (хотя, на первый взгляд, оно кажется абсурд-ным;см.замечательиуюпоясностизаметкуЮ. В. Прохорова «Блуждание Бернулли» в энциклопедии «Вероятность и математическая статистика», с. 42—43, М. Большая российская энциклопедия, 1999).
Отрицательное биномиальное распределение
Это дискретное распределение, приписывающее целым точкам k = 0,1,2, .. вероятности:
pt = Р{ЛГ = Л}= Cjnup'C - р)‘, где 0 < р < 1, г > 0.
Отрицательное биномиальное распределение встречается во многих приложениях
При целом г > 0 отрицательное биномиальное распределение интерпретируется как распределение времени ожидания r-го «успеха» в схеме испытаний Бфнупли с вероятностью «успеха»р, например, количество бросков, которые нужно сделать до второго выпадения герба, в этом случае оно иногда называется распределением ( Паскаля и является дискретным аналогом гамма-распределения.
При г - 1 отрицательное биномиальное распределение совпадает с геометрическим распределением.
Пуассона
167
Если Y — случайная величина, имеющая распределение Пуассона со случайным паметром Л, который, в свою очередь, имеет гамма-распределение с плотностью
Г(/2)
Убудет иметь отрицательно биномиальное распределение с параметрами г = д
а
распределение Пуассона
распределение Пуассона иногда называют распределением редких событий. Примерами переменных, распределенных по закону Пуассона, могут служить: число несчастных случаев, число дефектов в производственном процессе и т д.
Распределение Пуассона определяется формулой:
Основные характеристики пуассоновской случайной величины:
среднее: Ev„ =Л;
дисперсия: Ом0=Я;
асимметрия:
Распределение Пуассона связано с показательным распределением и с распределением Бернулли.
Если число событий имеет распределение Пуассона, то интервалы между событиями имеют экспоненциальное или показательное распределение.
График распределения Пуассона:
168
Глава 3. Вероятностные распределения и их свой;
Сравните график пуассоновского распределения с параметром 5 с график распределения Бернулли при p-q=0,5, п=100.
Вы увидите, что графики очень похожи. В общем случае имеется следующ закономерность (см., например, превосходную книгу: Ширяев А. Н. Вероятное М: Наука, с. 76): если в испытаниях Бернулли п принимает большие зпачещ а вероятность успеха р относительно мала, так что среднее число успехов (прока ведение и нар) и не мало и не велико, то распределение Бернулли с параметрами г р можно заменить распределением Пуассона с параметром Л - п х р.
Распределение Пуассона широко используется на практике, например, в кар тах контроля качества как распределение редких событий.
В качестве другого примера рассмотрим следующую задачу, связанную с теле • фонными линиями и взятую из практики (см.: Феллер В. Введение в теорию веро ятностей и ее приложения. М: Мир, 1984,с.205,атакже Molina Е. С. (1935) Probability in engineering. Electrical engineering, 54, p. 423-427; Bell Telephone System Technical Publications Monograph В-854). Эту задачу легко перевести на современный языц например на язык мобильной связи, что и предлагается сделать заинтересованный' читателям.
Задача формулируется следующим образом. Пусть имеется две гелефонны» станции — А и В.
Телефонная станция А должна обеспечить связь 2000 абонентов со станцией В. Ка чество связи должно быть таким, чтобы только 1 вызов из 100 ждал, когда освободится линия.
Спрашивается: сколько нужно провести телефонных линий, чтобы обеспечить за данное качество связи? Очевидно, что глупо создавать 2000 линий, так как длительное время многие из них будут свободными Из интуитивных соображений ясно, что по-видимому, имеется какое-то оптимальное число линий N. Как рассчитать это количество?
Начнем с реалистической модели, которая описывает интенсивность обрэше ния абонента к сети, при этом заметим, что точность модели, конечно, можно про верить, используя стандартные статистические критерии.
Итак, предположим, что каждый абонент использует линию в среднем 2 минуты в час и подключения абонентов независимы (однако, как справедливо замечает Феллер, последнее имеет место, если не происходит некоторых событий, затрагивающих всех абонентов, например войны или урагана).
Тогда мы имеем 2000 испытаний Бернулли (бросков монеты) или подключений к сети с вероятностью успеха р-2/60-1/30.
Нужно найти такое N, когда вероятность того, что к сети одновременно подключается больше N пользователей, не превосходит 0,01. Эти расчеты легко можно решить в системе STATISTICA.
Решение задачи на STATISTICA.
Шаг 1. Откройте модуль Основные статистики. Создайте файл binomlsta, содержащий 110 наблюдений. Назовите первую переменную БИНОМ, вторую переменную — ПУАССОН
Шаг 2. Дважды щелкнув мышью на заголовке БИНОМ, откройте окно Переменная 1 (см. рисунок). Введите в окно формулу, как показано на рисунке. Нажмите кнопку ОК.
Пуассона
169
Шаг 3. Дважды щелкнув мышью на заголовке ПУАССОН, откройте окно Переменная 2 (см. рис.)
Введите в окно формулу, как показано на рисунке. Обратите внимание, что мы вычисляем параметр Л распределения Пуассона по формуле Л - п Хр. Поэтому Л - 2000 X 1/30. Нажмите кнопку ОК.
STATISTICA рассчитает вероятности и запишет их в созданный файл
170
Глава 3. Вероятностные распределения и их свойс
Шаг 4. Прокрутите построенную таблицу до наблюдений с номером 86. Вы yj дите, что вероят! юсть того, что в течение часа из 2000 пользователей сети одиов| менно работают 86 или более, равна 0,01347, если используется биномиальт распределение.
Вероятность того, что в течение часа из 2000 пользователей сети одновремец работают 86 или более человек, равна 0,01293, если используется пуассонова приближение для биномиального распределения.
Так как нам нужна вероятность не более 0,01, то 87 линий будет достаточны чтобы обеспечить нужное качество связи.
Близкие результаты можно получить, если использовать нормальное приближение для биномиального распределения (проверьте это!).
Заметим, что В. Феллер не имел в своем распоряжении систему STATISTIC?, и использовал таблицы для биномиального и нормального распределения.
С помощью таких же рассуждений можно решить следующую задачу, обсуж даемую В. Феллером. Требуется проверить, больше или меньше линий потребу J ется для надежного обслуживания пользователей при разбиении их на 2 группы| по 1000 человек в каждой.
Оказывается, при разбиении пользователей на группы потребуется дополни тельно 10 линий, чтобы достичь качества того же уровня.
Можно также учесть изменение интенсивности подключения к сети в течение дня ,
Геометрическое распределение
Если проводятся независимые испытания Бернулли и подсчитывается количества испытаний до наступления следующего «успеха*, то это число имеет геометрическое распределение. Таким образом, если вы бросаете монету, то число под брасы ва ний, которое вам нужно сделать до выпадения очередного герба, подчиняется гео метрическому закону.
Геометрическое распределение определяется формулой:
гдер — вероятность успеха, х = 1,2,3 ...
Название распределения связано с геометрической прогрессией.
Итак, геометрическое распределение задает вероятность того, что успех насту -пил на определенном шаге.
Геометрическое распределение представляет собой дискретный аналог показательного распределения. Если время изменяется квантами, то вероятность успехам I каждый момент времени описывается геометрическим законом. Если время непрерывно, то вероятность описывается показательным или экспоненциальным законом
Гипергеометрическое распределение
Это дискретное распределение вероятностей случайной величины X, принцы» щей целочисленные значения т = 0,1,2,.., п с вероятностями:
171
>ie неотрицательные числа и М < N, п < N.
1еское распределение обычно связано с выбором без возвраще-например, вероятность найти ровно тп черных шаров в случай -fa п из генеральной совокупности, содержащей Nшаров, среди и N - М. белых (см., например, энциклопедию -«Вероятность и атистика», М.: Большая российская энциклопедия, с. 144). ожидание гапергсомет^мческого распределения не зависит от N и ическим ожиданием д = пр соответствуй «него бпномиалыюп» рас-
2 N—n
.•ргеометрического распределения ст = npq + — не превос-иномиального распределения npq. При N—> со моменты любого порядка гипергеометрического распределения стремятся к соответствующим значениям моментов биномиального распределения.
Это распределение чрезвычайно часто возникает в задачах, связанных с контролем качества.
Полиномиальное распределение
Полиномиальное, или мультиномиальное, распределение естественно обобщает распределение. Если биномиальное распределение возникает при бросании монеты с двумя исходами (решетка или герб), то полиномиальное распределение возникает, когда бросается игральная кость и имеется больше двух возможных исходов. Формально — это совместное распределение вероятностей случайных вел!гчин
Хр. .»ХЛ, принимающих целые неотрицательные значения п,,... nk, удовлетворяющие условию +... + " п, с вероятностями;
F{^i=n,  Хк=пк}=——---------рГ'-.р*1, Pj;>0, V.pj =1.	(*>
rifl.-.n к!	J
Название «полиномиальное распределение» объясняется тем, что мультиномиальные вероятности возникают при разложении полинома (р, + ... + p^f.
Бета-распределение
Бета-распределение имеет плотность вида:
lQ| J •хд>~,(1-л)о>~
= П«,№)
О А.ы ocnuLib ых значений х.
при 0<х<1;
172
Глава 3. Вероятностные распределения и их свойства
Стандартное бета-распределение сосредоточено на отрезке от 0 до 1. Применяв» линейные преобразования, бета-величину можно преобразовать так, что она будеу принимать значения на любом интервале.
Основные числовые характеристики величины, имеющей бета -раг.ппепрчрнн Д
среднее: £/?(а|1а2) =———, а, +а2
(с.-1)
мода: хraod =---!---- (npuat>\ua2> 1);
а, +а2 —2
дисперсия: DB(a., а,) ---------f—--------;
(а, + а2)2(а, +а2 +1)
_	2(д, — а,)у1а. +а, +1
асимметрия: В = л.______1 _______1
(а, +в2 +2)^/a,a2
эксцесс- /? - 3(с' +в* +1>№ +аг)2 +о,а2(а, +в2 -6)]
а1а1(а1 + а2 +2)(а1 +а2 +3)
Распределение экстремальных значений
Распределение экстремальных значений (тип I) имеет плотность вида:
/(х) = ^-е 4 -е~* ‘
где
6 — параметр положения;
b — параметр масштаба;
е — число Эйлера (2,71...).
Это распределение иногда также называют распределением крайних значений
Распределение экстремальных значений используется при моделирований экстремальных событий, например уровней наводнений, скоростей вихрей, макси мума индексов рынков ценных бумаг за данный год и т. д.
Это распределение используется в теории надежности, например для описания времени отказа электрических схем, а также в актуарных расчетах.
Распределения Релея
Распределение Релея имеет плотность вида-
/(*) ——« ь -е~* * —<*>с.х<«>, 6 > О,
пррледение Вейбулла
173
у___параметр масштаба.
г** РаспреДе'пение Релея сосредоточено в интервале от 0 до бесконечности. Вместо ченкя О STATISTICA позволяет ввести другое значение порогового параметра,
3 торое будет вычтено из исходных данных перед подгонкой распределения Релея. Следовательно, значение порогового параметра должно быть меньше всех наблюдаемых значений.
Если две переменные у, и у2 являются независимыми друг от друга и нормаль-
НОраепределены содинаковой дисперсией, то переменная х = -^у, +у2 будет иметь распределение Релея.
F Распределение Релея используется, например, в теории стрельбы.
Распределение Вейбулла
Распределение Вейбулла названо в честь шведского исследователя Валодди Вейбулла (Waloddi Weibull), применявшего это распределение для описания времен отказов разного типа в теории надежности.
Формально плотность распределения Вейбулла записывается в виде:
г ЙО.
Иногда плотность распределения Вейбулла записывается также в виде:
О < х, Ь > 0, с > О,
где
& — параметр масштаба;
с ~ Параметр формы;
е " константа Эйлера (2,718...).
174
Глава 3. Вероятностные распределения и их свой
Параметр положения. Обычно распределение Вейбулла сосредоточено на луоси от 0 до бесконечности. Если вместо границы 0 ввести параметр а. что ч« бывает необходимо на практике, то возникает так называемое трехпараметрИ' кое распределение Вейбулла.
Распределение Вейбулла интенсивно используется в теории надежности и стр; ванпи.
Как описывалось выше, экспоненциальное распределение часто ислользуе как модель, оценивающая время наработки до отказа в предположении, что вв ятиость отказа объекта постоянна. Если вероятность отказа меняется с течем времени, применяется распределение Вейбулла.
При с - 1 или, в другой параметризации, при а - 1 распределение Вейбул как легко видеть из формул, переходит в экспоненциальное распределение, а л а = 2 в распределение Релея.
Разработаны специальные методы оценки параметров распределения Бейба ла (см. например, книгу: Lawless (1982) Statistical models and methods for lifeti data, Belmont, CA: Lifetime Learning, где описаны методы оценивания, а так проблемы, возникающие при оценке параметра положения для трехлараметрич< кого распределения Вейбулла).
Часто при проведении анализа надежности необходимо рассматривать всроЯ1 ность отказа в течение малого интервала времени после момента времени t пр условии, что до момента t отказа не произошло.
Такая функция называется функцией риска, или функцией интенсивности ос каэов, и формально определяется следующим образом:
Где
й(Г ) — функция интенсивности отказов или функция риска в момент времени f(t) — плотность распределения времен отказов;
— функция распределения времен отказов (интеграл от плотности по инт валу [0, tj).
В общем виде функция интенсивности отказов записывается так:
где Ао> 0 и а > 0 — некоторые числовые параметры.
При а ” 1 функция риска равна константе, что соответствует нормальной 3 плуатации прибора (см. формулы).
При а < 1 функция риска убывает, что соответствует приработке прибора.
При а > 1 функция риска убывает, что соответствует старению прибора.
Типичные функции риска показаны на графике
Вейбулла
175
TIME
Ниже показаны графики плотности распределения Вейбулла с различными параметрами. Нужно обратить внимание на три области значений параметра а:
1.	а< 1,
2.	а-1,
3.	а>1.
В первой области функция риска убывает (период настройки), во второй области функция риска равна константе, в третьей области функция риска возрастает.
Вы легко поймете сказанное на примере покупки нового автомобиля: вначале идет период адаптации машины, затем длительный период нормальной эксплуатации, далее детали автомобиля изнашиваются и функция риска выхода его из строя резко возрастает.
Важно, что все периоды эксплуатации можно описать одним и тем же семейством распределения. В этом и состоит идея распределения Вейбулла
176
Глава 3. Вероятностные распределения и их свойства
Приведем основные числовые характеристики распределения Вейбулла.
Среднее: ЕЕ, =Ла°
;ние Парето
177
здесь Г(г) — так называемая галсиа-функция Эйлера, Г(г) = | x^'e^dx
Распределение Парето
В различных задачах прикладной статистики довольно часто встречаются так называемые усеченные распределения.
Например, это распределение используется в страховании или в налогообложении, когда интерес представляют доходы, которые превосходят некоторую величину с0.
ВД = Р{£<х} = 1
Основные числовые характеристики распределения Парето:
среднее: Е =---с0 (существует при а> Л;
а-1
мода:	=с0;
медиана: х^=2а с0;
Дисперсия: DE =------5------
Ъ (а-1) (а-2)
(существует при а>2);
178
Глава 3- Вероятностные распределения
Логистическое распределение
Логистическое распределение имеет функцию плотности:
где
а — параметр положения;
b — параметр масштаба;
е — число Эйлера (2,71...).
179
Хотеллинга Т2-распределение
Это непрерывное распределение, сосредоточенное на интервале (О, Г), имеет плотность:
где параметры п и k, n> k> 1, называются степенями свободы.
При k = 1 Хотеллинга Т2-распределение сводится к распределению Стьюдента, а при любом k > 1 может рассматриваться как обобщение распределения Стью-Цента па многомерный случай.
Распределение Хотеллинга строится исходя из нормального распределения
Пусть А-мериый случайный вектор У имеет нормальное распределение с нулевым вектором средних и ковариационной матрицей L.
Рассмотрим величину
s'У z.Tz„ И
гДе случайные векторы Z независимы между собой и Уи распределены так же, как У
Тогда случайная величина Тг = УТ5~'У имеет Т2-распределение Хотеллинга с ” степенями свободы (У — вектор-столбец, Т — оператор транспонирования).
Если k = 1, то Т1 =
180
Глава 3. Вероятностные распределения и их свой;
где случайная величина Ь имеет распределение Стыодента с к степенями своб; Н (см. «Вероятность и математическая статистика»-, Энциклопедия, с. 792).
Если Yимеет нормальное распределение с ненулевым средним, то соответствую.-щее распределение называется нецентральным Хотеллинга Т’-распределениИ с п степенями свободы и параметром нецентральное™ v.
Хотеллинга ‘P-распределение используют в математической статистике в тад же ситуации, что и t-распределение Стыодента, но только в многомерном случаи Если результаты наблюдений X,,Хя представляют собой независимые, нормальни распределенные случайные векторы с вектором средних д и невырожденной ковариационной матрицей Е, то статистика
Т2=П(Х-^Т51(Х-,Ц,
П№Х = '^Х, u S = -i^y (X
имеет Хотеллинга P-распределение с п - 1 степенями свободы.
Этот факт положен в основу критерия Хотечлшаа.
В STATISTICA критерий Хотеллинга доступен, например, в модуле Основные I статистики и таблицы (см. приведенное ниже диалоговое окно).
Распределение Максвелла
Распределение Максвелла возникло в физике при описании распределения скорое • тей молекул идеального газа.
Это непрерывное распределение сосредоточено на (0, «>) и имеет плотность1 «
наделение Коши
181
функция распределения имеет вид:
де Ф(-0 — функиия стандартного нормального распределения
1 распределение Максвелла имеет положительный коэффициент асимметрии и единственную моду в точке х = \2а (то есть распределение унимодально).
распределение Максвелла имеет конечные моменты любого порядка; математическое ожидание и дисперсия равны соответственно 2,1—0- и ?сг2.
\п л
I Распределение Максвелла естественным образом связано с нормальным распределением.
Если X,, Х2, Х3 — независимые случайные величины, имеющие нормальное распределение с параметрами 0 и о*, то случайная величина >Х, + А 3 + Х3 имеет распределение Максвелла. Таким образом, распределение Максвелла можно рассматривать как распределение длины случайного вектора, координаты которого в декартовой системе координат в трехмерном пространстве независимы и нормально распределены со средним 0 и дисперсией &
Распределение Коши
У этого удивительного распределения иногда не существует среднего значения, так как плотность его очень медленно стремится к нулю при увеличении х по абсолютной величине Такие распределения называют распределениями с тяжелыми хвостами. Если вам нужно придумать распределение, не имеющее среднего, то сразу называйте распределение Коши.
Распределение Коши унимодально и симметрично относительно моды, которая одновременно является и медианой, и имеет функцию платности вида:
/(*) =
1 с
л с*+(х-в)2
где с > о _ параметр масштаба ид — параметр центра, определяющий одновременно значения моды и медианы.
Интеграл от плотности, то есть функция распределения, задается соотношением;
F(x) = ' + — arcth-—— 2 л с
182
Глава 3. Вероятностные распределения и их
Распределение Стьюдента
Английский статистик В. Госсет, известный под псевдонимом «Стьюдент» и и: чавший свою карьеру со статистического исследования качества английского пив получил в 1908 г. следующий результат. Пусть xvxf, —.хт — независимые, (O.s? I нормально распределенные случайные величины:
<(-»)=- -&
описывается функцией:
Это распределение, известное теперь как распределение Стьюдента (крат обозначается какГ(т)-распределения,гдет—числостепенейсвобода),лежитвосно знаменитого t-критерия, предназначенного для сравни гия средних двух совокупносв
Функция плотности f/х) не зависит от дисперсии & случайных величин 5 кроме того, является унимодальной и симметричной относительно точки х — 0
Основные числовые характеристики распределения Стьюдента.
среднее, мода, медиана: ЕЦт) =хтвЛ = хягЛ = 0;
дисперсия: Dt(m) =	— (существует только при т>2);
т-2
асимметрия: д =0;
определение
183
I эксцесс: Д =------- (существует только при т>4).
'	из—4
 t-распределенме важно в тех случаях, когда рассматриваются оценки среднего н неизвестна дисперсия выборки. В этом случае используют выборочную диспер- СИЮ и (-распределение.
При больших степенях свободы (бол ыпих 30) t-распределенис практически совпадает со стандартным нормальным распределением.
График функции плотности t-раслределсния деформируется при возрастании I числа степеней свободы следующим образом: пик увеличивается, хвосты более круто идут к 0, и кажется, будто график функпии плотности t-распределенпя сжи-I мается с боков.
F-pa определение
Рассмотрим + т2 независимых и (0, s2) нормально распределенных величин
И положим
F(mJ,m2) = т' —
Очевидно, та же самая случайная величина может быть определена н как отношение двух независимых и соответствующим образом нормированных х'-распре-Челенных величин x?(mf) и	то есть
Р(т,,т2) = -^'
—/’ОМ
»1j
184
Глава 3. Вероятностные распределения и их свой<
Знаменитый английский статистик Р. Фишер в 1924 г показал, что iujoti вероятности случайной величины F(mf, т*) задается функцией:
гдеГ(^} — значение гамма-функции Эйлера в точке#, а сам закон называется F-pac пределением с числами степеней свободы числителя и знаменателя, равными секи ветственно т1 и т}.
Основные числовые характеристики F-распределения:
среднее: EF[m.,m,) =	, (существует при m >2);
m2—2
(m.—2)-m, .	...
мода:	. - i—!---—(для т >1);
.	2т1(т, +т, -2)
дисперсия: DF(ml,m1) =-------,	, (прит(>7);
m,(m2 — 2) (т2 -4)
„ (2m. +m, -2)J8(m2 -4) .	..
астгмметрия: /?. =-------~	, (при m >6);
(fflj—6) J(m,+т2 — 2)m,
3(т2 — 6)(2 +—Д2) эксцесс: Д =-----------»---з( (прит2>Я).
F-распределение возникает в дискриминантном, регрессионном и днелереш ном анализе, а также в других видах многомерного анализа данных.
Подгонка 4 вероятности ых распределений к реальным данным
Подгонкой (английский термин fitting) называют аналитические процедуры, позволяющие подобрать распределение, которое с достаточной степенью точности описывает наблюдаемые данные. Типы различных распределений описаны выше в главе Вероятностные распределения.
Итак, имея значения переменной X, мы проверяем гипотезу, согласно которой распределение X описывается вероятностным законом F.
Одним из популярных и простых критериев согласия наблюдаемых данных с гипотезой является критерий хи-квадрат Пирсона.
Мы сформулируем этот критерий в общем виде, потому что в дальнейшем он используется в нескольких задачах: как критерий согласия, критерий однородности и критерий проверки независимости признаков в таблицах сопряженности (см. главу 11).
Итак, пусть проводится п независимых испытаний, в результате которых наблюдаются частоты (пь ... л») попарно несовместных исходов (X,,.. X*), составляющих полную группу событий, Л) + ... + ял - п. Например, вы можете представить себе, что бросаете игральную кость (кость имеет шесть граней, следовательно “ 6. исходы 1, 2, 3, 4, 5, 6 — выпадающие очки) или наблюдаете независимые реализации случайной величины, область изменения которой разбита на А>1 не-пересекаюгцихся интервалов. Обозначим вероятность появления i-ro исхода в каждом испытании через р,:
i-l,...A,p, + ..+p*- l,pf>0.
Формально статистика хи-квадрат вычисляется так:
хи-квадрат = У (л, - пр,)2/пр, м
Заметим, что иногда используют также греческое обозначение х1 для статистики хи-квадрат.
Предположим, вам нужно проверить гипотезу Нп: р - р°, где р - (рь ... рк).
Р - (р°ь ...р°к). Альтернативой является гипотеза, согласно которой эти вероят-°Сти неравны, иными словами, Ht: р* р°.
186
Глава 4. Подгонка вероятностных распределений к реальным дан>
Для проверки гипотезы Но против альтернативы Hi мы вычисляем статист, хи-квадрат при значениях р - рп(то есть при гипотезе Но). Затем, выбираем у ров, значимости а, и находим 1 — а квантиль х2 распределения с к - 1 степенью сво< ды. Обозначим данную квантиль через %2 щЬ. Тогда критическая область кр» рия Пирсона уровня а имеет вид;

Таким образом, если мы, наблюдая (nlf .. nt), получаем значение статистики jМ превышающее уровень х2 ыь то отвергаем гипотезу Нп в пользу альтернативы Ё.. в противном случае гипотезу не отвергаем.
Обычно критерий хи-квадрат используют при числе наблюдений п > 50,
И;>5,1 - 1, ... k.
Заметим, что при проверке гипотезы, согласно которой случайная величина ЯЯ имеет распределение F, вероятности р® можно вычислять но формуле: Г(Х 4 F(X, i). где [X;, X,-1), >-й интервал группировки.
Взглянув на формулу, вы легко поймете, что статистика хи-квадрат разумгq сравнивает наблюдаемые и ожидаемые частоты. Статистика принимает значенье, от нуля до бесконечности. Чем меньше значение статистики хи-квадрат, тем бо " < вероятно, что гипотеза верна, чем больше значение статистики хи-квадрат, те « меньше вероятность того, что гипотеза соответствует данным.
Итак, статистика хи-квадрат — это разумная мера согласия (соответствия) дщ. ных с гипотезой. Конечно, вы можете предложить собственную меру, напримж вместо квадрата в приведенной формуле использовать модуль или четвертую < Д пень, однако известно, что критерий Пирсона обладает свойством оптимальности
Замечательно, что выборочное распределение статистики хи-квадрат при г < потезе приближенно является распределением хи-квадрат с числом степеней св. > боды k- 1 (число интервалов группировки минус 1) и не зависят от закон.» Г Точность приближения, грубо говоря, зависит от числа наблюдений (что вполиД естественно).
Если у вас имеется много данных, объем выборки большой, вы можете считать что статистика хи-квадрат имеет в точности распределение хи-квадрат, и расе «и тать вероятность ошибки, связанной с отклонением правильной гипотезы
Тонкости применения:
О ячейки, в которых ожидаемые при гипотезе частоты меньше 5, следует об * единить (так как ухудшается качество аппроксимации распределения критериальной статистики распределением хи-квадрат);
О если проверяется параметрическая гипотеза и параметры распределена оцениваются по данным, то число степеней свободы критерия хи-квад равно k — т — 1, где т — число параметров вероятностной модели, кото, должны быть оценены по тем же данным, что и проверяемая гипотеза Я
В системе STATISTICAece необходимые вычисления и поправки на число. «Ч пеней свободы производятся автоматически.
у 1- Подгонка распределения к данным: посещение непопулярного сайта 187
пример 1. Подгонка распределения ' ранным: посещение непопулярного сайта
£ усмотрим данные о числе посетителей нераскрученного сайта
Из файла видно, что за 57 часов сайт не посетило ни одного человека (первая строка файла), за 203 часа — на сайте находился 1 человек (вторая строка), за 383 часа — 2 человека и т, д.
Спрашивается, какой вероятностный закон описывает эти данные?
Графически данные представляются в виде:
Переменная, описывающее число посетителей (переменная varl), принимает Дискретные значения.
Проведем анализ в модуле Непараметрические статистики и подгонка распределений.
Шаг 1. Откройте модуль Непараметрические статистики и подгонка распределений.
Выберите опцию Подгонка распределения.
В окне Дискретные распределения выберите распределение Пуассона (дважды Щелкните мышью).
Глава 4. Подгонка вероятностных распределений к реальным Данны»
Шаг 2. На экране появится следующее окно:
Нажмите кнопку Переменная и выберите переменную varl для анализа.
Шаг 3. Нажмите кнопку веса В, расположенную в правом верхнем углу диалогового окна Подгонка дискретных распределений.
В появившемся окне Задание веса сделайте установки, как показано на рисунв ниже; веса, в данном случае частоты, взяты из переменной var2. Нажмите ОК. За тем нажмите ОК в диалоговом окне Подгонка дискретных распределений.
имер 1- Подгонка распределения к данным: посещение непопулярного сайта 189
Шаг 4. Программа вычислят оценку параметра распределения Пауссона равную 3,864, а также представит результаты в следующих таблицах.
По уровню значимости р - 0,194 можно сделать вывод о том, что данные не противоречат гипотезе о пуассоновском распределении. Вероятность ошибиться при отклонении гипотезы довольно велика, примерно 0,2. Риск ошибиться достаточно велик!
Для построения гистограммы установите переключатель в положение Гисто-*рамма.
190	 Глава 4. Подгонка вероятностных распределений к реальным дани
Нажмите кнопку' График в диалоговом окне Подгонка дискретных распре ний. На экран будет выведена гистограмма с наложенным графиком ожида пуассоновских частот.
Проверим, как согласуются другие распределения с данными. В качестве примера рассмотрим биномиальное распределение.
Шаг 1. Вновь войдите в стартовую панель модуля. Проведем для биномиалм ного распределения тот же анализ и сравним полученные результаты. В окне Распределение выберите биномиальное распределение
Шаг 3. В случае биномиального распределения также необходимо задать во наблюдениям. Нажмите кнопку веса В в правом верхнем углу диалогового ок1
1. Подгонка распределения к данным: посещение непопулярного сайта 191
-вившемся окне Задание веса сделайте установки, как показано на рисунке где веса, «данном случае частоты, взяты из переменной var2 Нажмите ОК
Затем нажмите ОК в диалоговом окне Подгонка дискретных распределений.
Щаг4. Биномиальпоераспрсдслениеимеетодинпараметр — вероятность успехар.
Программа оценит эту вероятость, используя метол максимального правдоподобия.
Оцененное значение 0,35129 появится в верхней полосе таблицы.
с 5' Обратите внимание на значение статистики хи-квадрат, число степеней в°бодЬ| и урОвель значимости в данном примере.
. Мистика хи-квадрат принимает очень большое значение, а именно 383  ^головок таблицы).
192
Глава 4. Подгонка вероятностных распределений к реальным да»
Число степеней свободы равно 8 (количество интервалов группировки один оцененный параметр).
Из заголовка таблицы также следует, что гипотезу о согласии данных с б миальным распределением можно отвергнуть на уровне 0,0000. Иными слов» отвергая гипотезу о биномиальном распределении, мы рискуем ошибиться см тически нулевой вероятностью.
Таким образом, делаем вывод: данные абсолютно не согласуются с биномщ ным распределением.
Тот же результат можно увидеть, конечно, и на графике.
Нажав кнопку График (см. окно Подгонка дискретных распределений), и остра гистограмму и график накопленных (кумулятивных) частот (выберите со<т ствующие опции в правой части окна).
Для того чтобы построить график распределения, установите переключатель в положение Кумулятивное распределение и нажмите кнопку График.
Как видите, наблюдаемые частоты далеки от ожидаемых частот.
Таким образом, биномиальное распределение не подходит для описания > •-ныхо числе посетителей нераскрученного сайта Посещения нераскрученного с» »п» по сути являются редкими событиями, и для их описания следует использоваг» пуассоновское распределение.
2. Подгонка распределения к данным: посещение популярного сайта 193
ппимер 2. Подгонка распределения Жданным: посещение популярного сайта
n leniic нескольких сотен часов регистрировалось число посетителей популяр-” '-о сайта. Результаты приведены в таблице:
Интерпретация этих данных проста: за 12 часов сайт не посетило ни одного человека (первая строка файла), за 108 часов — на сайте находился 1 человек (вторая строка), за 316 часов — 2 человека и т. д.
Графически данные представляются в следующем виде:
Переменная, описывающая число посетителей, принимает дискретные значения.
Спрашивается, какой вероятностный закон описывает эти данные?
Проведем анализ в модуле Непараметрические статистики и подгонка распре-Яелеиий.
Шаг 1. Откройте модуль Непараметрические статистики и подгонка распределений.
BbiGepinc опцию Подгонка распреоетения
194
Глава 4. Подгонка вероятностных распределений к реальным дан
В окне Декретные распределения выберите биномиальное ратреде^ (дважды щелкните мышью).
Шаг 2. На экране появится следующее окно
Нажмите кнопку Переменные и выберите переменную varl для анализа.
Ч. Скачки вверх и вниз курса акций	195
|Цат 3. Нажмите кнопку веса В в правом верхнем углу диалогового окна Под д дискретных распределений.
В появившемся окне Задание веса сделайте установки, как показано на рисунке е- веса, в данном случае частоты, взяты из переменной var? Нажмите ОК За-нажмптс ОК в диалоговом окне Подгонка дискретных распределений.
Шаг 4. Программа вычислит оценку параметра биномиального распределения I представит результаты в следующих таблицах*
1036004
309 0114 546 1903 6335527 5039236 27В 3455 105.4258
26.2047
3.8596 25KS
119230
428.242
974432
1607985
2111 90В
2390254
2495680
2521 684
2525744
2526ППЛ
416136 12.23323 21 Ч”’4 25.UBi<*6 19.94. 7 11 .11.2 417-63 1 03740
15280 Л1013
16 9 И
38 5761 636574
83 6068 94.6260
90 *’997
•W137-
9
юз ”1
4J998 69886 4.8097 "?7
16
-5 !«5 Z4258 -22047 91402
ЙСХ-Л, RF—
Значение статистики хи-квадрат очень небольшое, всего 4,16. Вспомните, что ,,р"»лыдне значения статистики хи-квадрат свидетельствуют в пользу гипотезы.
196
Глава 4. Подгонка вероятностных распределении к реальным данные
Вопрос, что такое большое и что такое небольшое значение статистики, снимается понятием уровня значимости.
По уровню значимости р — 0,7612366 окончательно заключаем, что данные «и, рошо согласуются с гипотезой о биномиальном распределении.
Мы настоятельно рекомендуем вам еще раз прочитать ту часть главы Элеме»* тарные понятия, где обсуждается понятие статистического критерия.
Проиллюстрируем приведенные выше таблицы графиком кумулятивного ра пределения. Для этого установите переключатель в положение Кумулятивное ра пределение и нажмите кнопку График.
Для получения простой гистограммы установите переключатель в положение Гистограмма.
Нажмите кнопку График в диалоговом окне Подгонка дискретных распределений. На экране появится гистограмма наблюдаемых частот с наложенным графиком ожидаемых частот.
В качестве легкого упражнения мы рекомендуем вам попробовать подогнав пуассоновское распределение к чанным о числе посетите чей популярного сайт*.
4. Количество покупок в магазине
197
Пример 3. Скачки вверх и вниз курса акций
. же показан фрагмент файла, содержащего колебания курса акции в течение дня ^Единица показывает, что курс вошел вверх (скачок вверх), 0 — курс акций по-вниз (скачок вниз)
В течение дня таких скачков может быть несколько сотен, выдвигается гипоте-что частота тех и Других скачков одинакова. Как быстро проверить-эту гипотезу ^системе STATISTICA?
Выделите данные и вызовите Быстрые основные статистики... Вы увидите следующую таблицу результатов:
Точечная оценка частоты появления 1 равна 0,39,95% доверительный интервал- (0,292732,0,487268). Следовательно, гипотеза о том, что частота скачков уровня вверх и вниз одинакова, должна быть отвергнута.
Пример 4. Количество покупок в магазине
Ниже показан файл с информацией о числе покупателей разной категории в супермаркете
198
Глава 4. Подгонка вероятностных распределений к реальным данг
Мы разбили покупателей на классы по числу сделанных покупок
К категории 0 относятся покупатели, сделавшие не более 4 покупок, к категцЗ рпи 1 — покупатели, сделавшие5-6 покупок к категории 2 — покупатели, сделки^, шие 7-8 покупок, и т. д.
Найдем вероятностный закон, который описывает эти данные. Вы можете псц готовить файл данных и повторить за нами все действия
Шаг 1. Откройте модуль Непараметрические статистики и подгонка распределений/
Выберите опцию Подг<тка распределения. В окне Дискретные распределения выберите геометрическое распределение (дважды щелкните на его названии мышью).
Шаг 2. На экране появится следующее окно:
Нажмите кнопку Переменные и выберите переменную КЛТЕГОР для анализа
Шаг 3. Нажмите кнопку веса В в правом верхнем углу диалогового окна Подгонка дискретных распределений.
В появившемся окне Задание веса сделайте установки, как показано на рисунке ниже; веса (в данном случае — частоты) взяты из переменной ЧИСЛИ-
5. подгонка распределения Вейбулла к данным об отказах
199
щте ОК. Затем нажмите ОК в диалоговом окне Подгонка дискретных растений.
Шаг 4. Ст итема вычислит оценку параметра геометрического распределения н представиг результаты в следующих таблицах.
Глава 4. Подгонка вероятностных распределений к реальным данным
По уровню значимости р = 0,4959796 можно сделать вывод, что данные сов стимы с гипотезой о геометрическом распределении.
Иными словами, наш риск ошибиться составляет примерно 50%, если мы оу, вергаем гипотезу.
Визуально качество подгонки можно увидеть на графике
Нажмите кнопку График, и следующая гистограмма появится па экране-
Вы можете попробовать другие распределения дня описания этих данных и y6i диться, что они очень плохо подходят к ним
Итак, геометрическое распределение вполне адекватно описывает число пою пателей разных категорий в супермаркете.
Пример 5. Подгонка распределения Вейбулла к данным об отказах
Одним из основных понятий качества продукции является ес надежность. Для оценки надежности и времени жизни разработаны различные статистич* • ские методы
Надежность продукции является важным показателем качества, Покупая ма1 • нитофон, пылесос, кофеварку, вы, конечно, хотите иметь представление об их н* дежности. Особенный интерес представляет количественная оценка надежности, позволяющая оценить ожидаемое время жизни, или, в инженерных терминах, вр( мя безотказной работы купленного прибора
Надежность связана с маркетинговой политикой, зная оценки надежности пре даваемых вами бытовых приборов и объемы продаж, вы можете рассчитать ко.~« чество гарантийных мастерских в городе.
Пример из другой области позволяет по-иному взглянуть на ту же ситуации  Предположим, вы летите на маленьком личном самолете с единственным двигате -лем. Тогда для вас жизненно важно знать вероятность отказа двигателя на раз i »«»• ных этапах его эксплуатации (например, после 500 часов, после 1000 часов и т. l 1 Очевидно, имея хорошую оценку надежности двигателя и доверительный интер-
iep 5 Подгонка распределения Вейбулла к данным об отказах
201
можно принять рациональное решение о том, когда следует заменить двпга-,#Л или отправить его на капитальный ремонт. Конечно, вы можете положиться * и'олю случая и летать, сколько угодно, однако цель нашей книги — научить вас еапнонально анализировать случайность
™ Обычно времена жизни описываются распределением Вейбулла (см. предыду-гую гчавч). поэтому одним из основных этапов статистических процедур, связан-‘ х с оценкой надежности, является оценка параметров этого распределения.
Для большинства исследуемых приборов функция интенсивности отказов имеет форму и образной кривой: на ранней стадии жизни изделия риск выхода из строя (отказ) достаточно велик, далее интенсивность отказов уменьшается до определенного предела (оптимальный режим функционирования), затем вновь увеличи
вается из-за износа изделия.
! Например, автомобили в начале эксплуатации часто имеют несколько мелких I дефектов и выходят из строя. После того как автомобиль прошел обкатку, риск поломки существенно уменьшается. Затем интенсивность отказов (выходов из ыроя) возрастает, достигая своего максимального значения, например, после 20 лет иссплуаташш и 250 000 миль пробега, когда практически люйой автомобиль вы-
водит из строя.
Распределение Вейбулла позволяет гибко моделировать возникающие на прак-I |Икс функции интенсивности отказов.
Задавая разные параметры распределения, можно получить практически любые функции риска.
Ранняя фаза кривой аппроксимируется распределением Вейбулла с параметром формы меньше 1, постоянная фаза — распределением Вейбулла с параметром формы 1. а фаза старения или износа моделируется распределением Вейбулла с параметром формы больше 1.
После того как на основе реальных данных оценены параметры распределения Вейбулча, можно вычислить раз яичные характеристики надежности, например, когда откажет заданная доля тестируемых приборов
Функция надежности, обычно обозначаемая R(l), представляет собой вероятность того, что объект проживет больше t временных единиц
Формально функция надежности определяется равенством R(t)=1—F(t), где F — функция распределения времени жизни Иногда функция надежности называется также функцией выживания.
Цензурирование. В большинстве исследований по надежности не все объекты завершаются отказами. Иными словами, к концу исследования известно, что определенное количество приборов нс отказало, по исследование завершено и точные времена жизни этих приборов неизвестны. Такне наблюдения называют-' я неполными. или цензурированными. Заметим, что цензурирование может осуществляться разными способами, так же как имеется много различных планов •естирования приборов.
Например, так называемое цензурирование tnm I применяется в ситуации, ко-,ча заранее фиксируется время наблюдения отказов (допустим, мы берем 100 ламп ° оканчцвасм эксперимент, например, после 120 часов после начала).
।	В этом случае время эксперимента фиксировано, и число отказавших (перего-
Рсвших) ламп представляет собой случайную величину.
202
Глава 4. Подгонка вероятностных распределений к реальным дан>
При цензурировании типа II заранее определяется доля отказов, но время iufl блюдения не ограничивается (например, мы проводим эксперимент, пока не выедут из строя 50°« компьютеров при данных критических условиях). Очевидно, чЛ при таком подходе время, в течение которого проводится эксперимент, являет»  случайной величиной.
Можно задать также направление цензурирования. При испытании комплот J ров или ламп цензурирование происходит в правом направлении по временной оси {правое цензурирование'), потому что исследователь точно фиксирует начали, эксперимента и знает, что нсотказавшие компьютеры будут еще жить некотор^-время после окончания эксперимента. Другой вариант возникает, когда исследователю неизвестно начало времени жизни объекта, например врачу известен м». мент поступления пациента в госпиталь с данным диагнозом, но неизвестен м». мент, когда данный диагноз был поставлен, и тем более неизвестно, когда болезцк! началась. Такое цензурирование называется левым
Конечно, если тестируются старые компьютеры пли мониторы, то это тоже прц мер левого цензурирования, так как не известен момент начала их эксплуатации 4
Наконец, возможны ситуации, в которых цензурирование происходит в ра.» личные моменты времени {многократное цензурирование) пли только в один ми мент времени {однократное цензурирование).
Возвращаясь к эксперименту с тестированием компьют еров в экстремальные условиях, заметим, что если эксперимент заканчивается в определенный момег  времени, то мы имеем однократное цензурирование.
Конечно, имеются нетривиальные ситуации, например, данные, собранные директором фирмы по продаже подержанных копировальных аппаратов. Балансы* руя между необходимостью продаж и выдачей гарантий покупателю, ему следует рационально организовать процесс продаж.
Рассмотрим, как оцениваются параметры распределения Вейбулла в системе STATISTICA при простейшем правом однократном цензурировании. Данные С(Н держатся в файле Dodson25.sta
Сам TIME Cf jjrtjur
а
9 io п
14
15
1*
1
19
20
42 1
I 8 83 3 па 7
111 I яь.|
1,«  1* 9 151 3
IP i VM 1 •«.6 £Vf 0 П5 3
Сег «red Carpi t >е Срг
Cut
Сопере
Crr-
Carplete Carpi ete
Centred Carplete Carpi ete Centred Cen - jd Censored Carplete Cent*- *d Complete Censored
5
6
5 Подгонка распределения Вейбулла к данным об отказах
203
Запустите модуль Анализ процессов и повторите вслед за нами наши действия
Шаг 1. Откройте файл Dod.son25.sta. затем выберите Л нализ Вейбулла... на стартовой панели
204
Глава 4. Подгонка вероятностных г зспределений к реальным данг
Рассмотрим опции окна.
Тип анализа.
Исходные данные — используйте этот диалог. если вы анализируете исходные времена отказов с цензурированием или без него.
Группированные данные — используйте диалог для исследования агрепфо. ванных или табулированных времен отказав, например таблиц жизни
Распределение Вейбулла, вероятностный график — открывается диалогов > окно, в котором вы можете построить вероятностный график распределения Be булла, аналогичный нормальному вероятностному графику (графику на норма»*, ной вероятностной бумаге в старой терминологии).
В данном примере используйте анализ исходных данных.
Времена отказов — эта опция выбирается в том случае, когда данные содержа! действительные времена отказов.
Единственная переменная для времен отказов (жизни), переменные с началом и кондом, переменные с датами опция выбирается в тех случаях, когда данные содержат даты с началом или концом каждого наблюдения. Из файла данных программа вычислит разность между временем конца и временем начала, чтобы получить чистые времена отказов для каждого наблюдения, и затем подгонит к ним распределение Вейбулла.
Если выбран Список переменных с временами, программа ожидает ввода одной
или нескольких переменных с временами отказов и дополнительного ввода индикатора цензурирования (группирующей) переменной, которая позволяет определить, какие времена полные, а какие цензурированы.
Если выбрана опция Одна t отказов, две (начало и конец) или шесть (даты), то вы можете в первом списке переменных. I) выбрать одну переменную с временами отказов. 2) выбрать две переменные с временами начала и конца (наблюдения объекта), 3) выбрать 6 переменных, которые также будут рассматриваться как времена начала и конца (как и в случае 2 выше). Эти 6 переменных рассматриваются как месяц, день, год начала и как месяц, день, год окончания испытания.
Выберите переменные для анализа, цензурирующие переменные (индикаторы цензурирования) и коды. Затем нажмите ОК; по умолчанию программа вычислит оценки максимального правдоподобия параметров для двухпараметического рас. пределения Вейбулла и перейдет в диалоговое окно Результаты анализа Бейбу. ла. Заметим, что если оценки максимального правдоподобия нс существуют, пр г цедура использует О, 1, 1 для оценки параметров положения, формы и масшта(« соответственно.
Близкие процедуры содержатся в модуле Анализ выживаемости-, для нецент рированных или полных данных можно использовать визуальные методы граф)»* ки Квантиль-квантиль и Вероятность-вероятность (см. главу Визуальные меть ды анализа).
Выберите переменную Time, содержащую времена отказов и переменную Сеп  индикатор цензурирования.
Эта переменная содержит два значения, показывающие, полностью или нет •* блюдались изделия до момента отказа. Заметим, что такая ситуация (наличие да V типов наблюдений) отличается от той, с которой мы имели дело в модуле иеяи
! 5. Подгонка распределения Вейбулла к данным об отказах
205
В —праческце статистики. Точно с такими же типами наблюдений мы имеем * 1О в модуле анализ выживаемости
Коды для полных и цензурированных наблюдений.
Г Эта опция доступна, если выбран индикатор цензурирования. Определите коды ,1ли текстовые значения для полных (нецензурированных) и неполных (цензури-(юванных ) наблюдений. Чтобы просмотреть все коды соответствующей переменяй. дважды щелкните на поле ввода Первые два различных значения, обнаруженных в индикаторе цензурирования, используются по умолчанию как коды для
(очных и цензурированных данных соответственно.
Выберите Complete для полных времен и Censored для цензурированных времен Нажмите ОК, чтобы начать анализ.
Опция: Прибавить пост, к пулевым t отказов/цензур. значениям.
Распределение Вейбулла ограничено слева, это означает, что все значения выборки должны быть больше параметра положения, по умолчанию равного 0. Если (пиия выбрана, программа перед подгонкой или построением графика заменит нулевые времена отказов константой из поля. Если опция нс выбрана, все наблюдения нулевыми временами отказов исключаются из анализа (рассматриваются как про-аушепные данные).
Шаг 2. По умолчанию программа вычислит оценки максимального правдопо-
добия для двухпараметрического распределения Вейбулла, предполагая, что параметр положения равен 0. В окне Результаты анализа эти оценки можно увидеть в
зоне Значения/оценки текущих параметров.
206
Глава 4. Подгонка вероятностных распределений к реальным данным
Оценки параметров. Окно результатов позволяет интерактивно провести подгонку к данным распределения Вейбу чла с различными параметрами.
После того как вы нажмете кнопку Форма & масштаб, программа считает текущее значение параметра положения и вычислит оценки максимального правдоподобия параметров формы и масштаба.
Если вы нажмете кнопку Форма, масштаб, положение, программа вычислит оценки максимального правдоподобия для трехпараметрического семейства. В любом случае оценки будут отображены в полях значения/оценки текущих параметров.
Шаг 3. Просмотр результатов. Все опции, доступные в окне результатов на текущих значениях параметров, указаны в полях значения/оценки текущих параметров независимо от того, определены эти параметры пользователем или оценены программой (например, методом максимального правдоподобия). Однако стандартные ошибки функции надежности можно вычислить только для оценок максимального правдоподобия.
Оценки максимального правдоподобия двухпараметрического распределения Вейбулла равны 3,034 и 216,9 для параметров формы и масштаба (см рисунок).
Вы можете сравнить эти оценки с оценками, построенными с помощью графиков: выберите опцию Непараметрические в рамке Дов. интервалы (нижний левый угол). Тогда все графики будут построены на основе непараметрических (ранговых) оценок функции распределения F(t), и результирующий график может быть использован для оценки параметров распределения Вейбулла. Нажмите кнопку График распределения и постройте график.
Этот график показывает наблюдаемые времена отказов, линейную подгонку » 95%-й непараметрический доверительный интервал функции надежности (более точно, log-log-преобразование; доверительный интервал показан прерывистой линией).
Оценки параметров форыы и масштаба вычисляются из коэффициента наклона и свободного члена линейной подгонки: параметр формы равен коэффициенту наклона, параметр масштаба оценивается как exp(-intercept/s!ope)
5. Подгонка распределения Вейбулла к данным об отказах
207
Эти оценки параметров очень близки к оценкам максимального працдоподо-бия Так как точки достаточно точно ложатся на прямую, мы можем поверить, чтс распределение Вейбулла с оцененными параметрами вполне адекватно данным.
Нажмите кнопку Функция надежности и доверительные интервалы, и вы уви дите результаты в численном виде.
Критерии согласия. Если вы нажмете кнопку Критерии согласия, то увидит* таблицу со статистиками Холлеидера—Прошана или Майна—Шойера -Фертиг и их уровнями значимости.
Критерий Холлеидера-Прошана. Этот критерий сравнивает 1еорстическут функцию надежности с оценкой Каштана—Мейера. Точные формулы вычислени достаточно сложны. Критерий Холлеидера—Прошана применяется к полным, од некратно цензурированным и многократно цензурированным данным, одна» имеет место недостаток этого критерия в некоторых случаях, например , когда дан пые сильно цензурированы. STATISTICA вычис тяет значение критериальной ста тистики и двухсторонний уровень значимости р.
Критерий Манна—Шойера—Фсртига. Критерий был предложен Манном Шойером, Фертигом в 1973 г.
Нулевая гипотеза состоит в том, что данные имеют распределение Вейбулла оцененными параметрами. Нельсон (см.: Nelson (1982) Appl ied life data analysis. Ne\ York: Wiley) отмечает большую мощность этого критерия. Критические значенн вычислены методом Монте Карло и табулированы для объемов выборки от 3 л* 25; для больших объемов выборок критерий не применяется
208
Глава 4. Подгонка вероятностных распределений к реальным даннью
Шаг 4. Оценки параметра положения. Хотя подгонка двухпараметричесх^Л распределения Вейбулла кажется очень хорошей, предположим, что у вас имемВ ся некоторые доводы в пользу того, что параметр положения больше 0. Иныщц словами, вы уверены, что имеется интервал, в течение которого вероятности от L-зов нет. Оценим этот параметр положения. Нажмите кнопку R-квадрат и параметр положения. Этот график показывает зависимость коэффициента детермин*, ции R-кеадрат от параметра положения
Далее нажмите кнопку Форма, масштаб, положение, чтобы вычислить оценю» максимального правдоподобия для трехпараметрического распределения Вей* и.
Для этих данных лучше применять более простую двухпараметрическую мД дель с параметром положения, равным 0.
Шаг 5. Процентили и доверительные интервалы. Нажмите кнопку Процентили и доверительный интервал, чтобы построить таблицу с процентными точками функции надежности.
5 Подгонка распределения Вейбулла к данным об отказах
209
К жиг процентили с приращением 1%; 1,2,3,4 и т. д.
>лину, вы увидите, например, что оценка медианы равна 192,2, ный интервал имеет границы от 154,9996 до 238,437
ми, можно ожидать, что 50% отказов происходит до момента вре-ютветствующим доверительным интервалом).
5
Двумерный визуальный анализ данных
Двумерный, сокращении — 2М визуальный анализ, — это визуальный анализ д, пых на плоскости. В двумерном визуальном анализе используются разнообрази гистограммы, диаграммы рассеяния, вероятностные графики, линейные графц( диаграммы диапазонов, размахов, круговые диаграммы, столбчатые диаграмм последовательные графики (графики последовательных значений) и т. д„ поз1 лякицие увидеть специфику данных.
Гистограммы
Термин гистограмма ввел Карл Пирсон в 1895 году. Гистограммы позвол» увидеть, как распределены значения переменных по интервалам групинрО! то есть как часто переменные принимают значения из различных интервалов.
Особенно полезен этот график для большого числа наблюдений, например62
211
Т^пограмма наглядно показывает, какие значения или диапазоны значений ис-‘ р переменной являются наиболее частыми, насколько сильно они разли-* гея между собой, как сконцентрировано большинство наблюдений вокругсред-Ьявляется распределение симметричным ил в нет, имеет ли оно одну моду или «олько мод, то сеть является мультимодальным.
На простой люгограммс отображаются частоты значений одной переменной, а на тавной можно отобразить одновременно частоты нескольких переменных.
Например, показанная ниже составная гистограмма позволяет увидеть, как ме-_^гся соотношение между покупками мяса и колбасы в супермаркете. Из нее так-Jce видно, что доля колбас и мяса в дорогих покупках (на сумму более 300 рублей)
пшмальна.
Гистограмм! покупок  магакино
Изменяя интервал группировки, можно провести более точную сегментацию рынка.
212
Глава 5. Двумерный визуальный анализ дан
С помощью гистограмм можно проверить наличие у распределения тяже хвостов, что важно для актуарных расчетов.
Г истограммы дают возможность визуально оценить сходство наблюдаемых] пределений с теоретическими или ожидаемыми распределениями
Гистограмма, или распределение частот значений переменной по мнтервю представляет интерес по следующим причинам:
о по форме распределения можно охарактеризовать природу исследуемой I ременной (например, наличие двух мод — наиболее высоких столбцов п тограммы, или, как говорят, бимодальность распределения может санам! что выборка неоднородна и состоит из наблюдений, принадлежащих дт различным генеральным совокупностям):
О многие статистики критериев основаны на определенных предположен! о виде распределения, например, на предположении нормальности: пн граммы помогают визуально проверить выполнение этих предположена!
Часто первый шаг визуального анализа нового множества данных состоит в строении гистограмм для всех переменных. При этом выбираются различи» величине интервалы группировки.
Гистограммы и описательные статистики
Хотя некоторые (числовые) описательные статистики легче воспринимать в» таблиц, общую форму распределения значений переменной лучше исследо» графике.
213
Ьнк дает качественную информацию о распределении, которая не может ^полностью выражена какпм-то одним численным показателем.
‘ Vj пример- обшее асимметричное распределение дохода может показывать, что UIHHCTBO людей имеют доход, находящийся гораздо ближе к минимальному, ESiH к максимальному значению.
Хотя эта информация содержится в коэффициенте асимметрии, ее легче полть И запомнить визуально.
ее:
2 toe
I la гистограммах также мопп быть заметны «провалы*, которые несут важную информацию о социальном расслоении группы покупателей или об аномалиях распределения дохода, вызванных, например, недавней налоговой реформой.
Часто гистограммы применяются в маркетинге для сегментации рынка
Группировка
Все окна Статистические графики системы STATISTICA, позволяющие строить гистограммы, содержат стандартный набор методов задания при построении гистограмм интервалов группировки. Диапазон значений переменной разбивается на i интервалы (если переменная непрерывная) или категории (если переменная категориальная ), для которых подсчитываются частоты, изображаемые в виде отдельных столбцов.
Д14 Глава 5. Двумерный визуальный анализ да,
Например, можно построить гистограмму, на которой каждый столбец Л соответствовать интервалу из 10 единиц шкалы, используемой для представлю переменной. Если минимальное значение равно О. а максимальное — 120, то & создано 12 столбцов. Кроме того, можно сделать так, чтобы весь диапазон зн, ний переменной был разделен на указанное число интервалов равной длины i пример, 10); в последнем случае, если минимальное значение равно О, а ми мальное — 120, каждый интервал будет равен 12 единицам шкалы. Можно выб| и более сложный метод группировки. Например, можно применить неравные । пазоны с заданными пользователем границами, чтобы создать более понятные апазопы или объединить выброс и увеличить читаемость средней части гис граммы. Диапазоны можно также создать, определив критерии включени исключения с помощью логических операторов (например, первый столбец । тограммы может представлять людей, которые за последний год летали на сам( те более 10 раз и не более 50% этих поездок связано с бизнесом и т. д.).
Пример. Продвинутые возможности для визуализации группировки имек в модуле Основные статистики и таблицы (см. диалоговое окно Таблицы наспи
Шаг 1. Запустите модуль Основные статистики и таблицы. Откройте ф данных adstudy sta из папки Examples. Внесите в этот файл следующие измене! в пятой, седьмой и двенадцатой строке введите повое значение SPRITE в п< мепную ADVERT (см. рисунок).
Теперь эта переменная принимает 3 значения: PEPSI, СОКЕ, SPRITE.
Шаг2. В стартовой панели выберите диалог Таблицы частот и нажмите кног
Шаг 3. В диалоговом окне Таблицы частот нажмите кнопку Переменные| берите первые 3 переменные из файла данных.
215
jjj 4 Выберите опцию Заданные группирующие коды и нажмите кнопку ря-р с ней-
Шаг 5. В появившемся диалоговом окне выберите те значения переменных, которые вы хотели бы отобразить на гистограммах. Сделайте это, например, так, как «казано на рисунке
Шаг 6. Сделав выбор, нажмите кнопку ОК в окне Коды для выбранных переменных.
После этого вы вернетесь в диалоговое окно Таблицы частот.
Шаг 7. В диалоговом окне Таблицы частот нажмите кнопку Гистограммы.
Вы увидите появляющиеся одну за одной гистограммы на вашем экране. Обратите внимание, что на графике отбражаются не все значения переменных, а только Те что выбраны вами.
216
Права 5. Двумерный визуальный анализ да
КПЗ
Подгонка теоретических распределений к наблюдаемым распределениям
STATISTICA позволяет сравнивать распределение наблюдаемых данных с р делениями: нормальное, бета-экспоненциальное, экстремальное, гамма- гео» ческое, Лапласа, логистическое, логнормальное, Пуассона. Ренея. Вейбулла.
веских распределений к наблюдаемым распределениям
217
[Д простые гистограммы
Простые гистограммы является обычными столбчатыми графиками распределений частот выбранной переменной.
Д Составные гистограммы
Составные гистограммы представляют распределения частот для нескольких не ременных на одном графике. Значения переменных откладываются по единой оси X, что облегчает визуальное сравнение распределения переменных,
На составных гистограммах переменные представлены примыкающими - Руг к Друг,' столбцами; поэтому для каждой категории строится несколько столбов. Следовательно, подогнанные кривые могут либо точно подходить к соответ-
Ующим им гистограммам, либо быть сравнимыми друг с другом.
® истограммы с двойной осью Y
истограмму с двойной осью У можно рассматривать как комбинацию двух состав-г ? рамм. Можно выбрать два списка переменных Будет построено распре-
218	Глава 5. Двумерный визуальный анализ
деление частот для каждом выбранной переменной, но частоты переменны денных в первый список (Левая ось У), будут откладываться но левой оси время как частоты переменных, введенных во второй список (Правая ось У правой оси Y.
Имена всех переменных из двух списков будутвключены в условные обозн; ния, сопровождаемые буквой Л или П, обозначающей левую или правую ось У ответственно. Этот график полезен для визуального сравнения распределений ременных с разными частотами.
Висячие столбцы
Гистограмма висячих столбцов является изысканным визуальным способом
верки нормальности распределения переменной, который помогает наглядно рсдслить области, где возникают расхождения между наблюдаемыми и норм:
ными частотами
В отличие от обычного способа наложения на гистограмму нормальной вой, гистограмма висячих столбдов предлагает альтернативный способ. I столбцы, представляющие наблюдаемые частоты для последовательны* л, эонов значении, * подвешиваются» к нормальной кривой Если исследуемо! предсление приближенно нормальное, то нижние стороны подвешенных п{ угольников ложатся на одну прямую.
(ны рассеяния
219
Пересекающиеся категории
_еме STATISTICA можно задать логические условия выделения подгрупп, ально могут возникнуть пересекающиеся подмножества (одно и то же па-л-идепне попадает в разные группы).
°" ,-щнако действует следующее правило: каждое наблюдение будет помещено 0 в одну подгруппу, а именно в первую из тех, условиям которой оно удов-° „оряет. Поэтому наборы подгрупп (категорий), создаваемые по таким прави-не будут пересекаться ни при каких условиях. Например, если к подгруппе 1
Кожества опрошенных отнесены мужчины, а к подгруппе 2 — опрошенные старее 30 лет, то полученная подгруппа 2 будет содержать только женщин (старше ЭД лет), так как вес мужчины окажутся в подгруппе 1
, Диаграммы рассеяния
|	Двумерные диаграммы рассеяния используются для визуального исследования за-
висимости между двумя переменными X и Y(например, весом и ростом человека,  рисламой и объемом продаж и т. д.)
220
Глава 5. Двумерный визуальный анализ дан
Данные изображаются точками в двумерном пространстве. Две координат и 1). которые определяют положение каждой точки, соответствуют значениям переменных. Если переменные сильно связаны, то множество точек данных п ннмает определенную форму (например, ложится на прямую линию или крив задаваемую определенным уравнением), как показано н иже на рисунке. '
Подгонка функций к диаграммам рассеяния помогает увидеть зависимо между переменными.
Если переменные не связаны, то точки образуют «облако рассеяния» (см. ниж
1НОСГЬ распределений двух ne^ejjHyx (фо|?мы зависимостей)
221
лпнороДность распределений двух „епеменных (формы зависимостей)
агРаммы рассеяния обычно используются для визуального исследования зави-ИОС.ТН двух переменных (например, кровяного давления и уровня холестерина), рольку ОНИ предоставляют больше информации, чем простое значение коэффициента корреляции.
рНапример, отсутствие однородности в выборке, для которой была подсчитана овеляция, может исказить значение коэффициента корреляции.
Предположим, вычисления производились для данных из различных экспериментальных групп, но этот факт не был учтен, то есть группировка не проводи-jacb. Можно предположить, что экспериментальные действия в одной из групп увеличили значения обеих коррелированных переменных, и таким образом, данные из каждой группы образуют отдельное «облако» на диаграмме рассеяния (как указано на рисунке ниже).
В этом примере высокая корреляция обусловлена наличием двух групп и не отражает действительный характер связи (точнее, ее отсутствие) между перемен-1ЫМИ-
При наличии определенных предположений о структуре данных и информации, а также о возможном способе разделения на группы попробуйте рассчитать корреляции отдельно для каждого подмножества наблюдений или используйте В Кап№горизованную диаграмму рассеяния.
Другой проблемой, которая может быть исследована на диаграммах рассеяния,  является нелинейность. Для исследования нелинейной зависимости между пере-“-иным и не существует «автоматических* или простых в употреблении методов.
Коэфф|щ11ент корреляции Пирсона оценивает только линейные зависимости чменно цо этой причине часто называется линейным; некоторые непараметри-критерии, такие как коэффициент корреляции Спирмена R, могут оцени-’ нелинейную зависимость, по только монотонную.
, сс и 'ювание диаграмм рассеяния позволяет определять формы зависимостей, jpj л Ы пот°м можно было выбрать подходящий тип преобразования данных для * чинеаризации* ил н выбора подходящего нелинейного уравнения подгоню! (на-[ ,МеР- вместо пшенной зависимости использовать полиномиальную).
222
Глава 5. Двумерный визуальный анализ
Выбросы
Другое важное преимущество диаграмм рассеяния состоите том, что они поз ют находить «выбросы» (нетипичные данные), которые искусственным об] увеличивают или уменьшают («смещают») коэффициент корреляции.
Даже один выброс может значительно увеличить коэффициент коррел между двумя переменными. Диаграмма рассеяния позволяет обнаруживать аномалии.
Например, корреляция между двумя переменными на рисунке была бы 61 к 0 при отсутствии выброса. Наличие этого выброса «искусственно» увели  значение корреляции
Средство Кисть позволяет интерактивно удалять выбросы и непосред наблюдать за изменением аппроксимирующей функции ил и линии регре<
["?] Простые диаграммы рассеяния
Простая диаграмма рассеяния визуализирует зависимость между двумя и ными X и Y(например, весом и высотой). Данные изображаются точками в, ном пространстве, где оси соответствуют переменным
223
Две координаты (X и )), которые определяют положение каждой точки, соот-вгствуют значениям двух переменных Если переменные сильно связапы, то мно-»»ство точек данных принимает определенную форму (например, прямой линии *пи кривой)- Если связи нет, то точки образуют «облако».
[ g Составные диаграммы рассеяния
В отличие от простой диаграммы рассеяния, на которой одна переменная представлена по горизонтальной, а вторая — по вертикальной оси, составная диаграмма рассеяния включает несколько зависимостей: значения одной переменной (X) откладываются по горизонтальной оси, а по вертикальной оси откладываются значения нескольких переменных (У)- Для каждой переменной Y используется раз-ши цвет и вид точек.
Диаграмма рассеяния составного типа используется для сравнения структуры
Кольких корреляционных зависимостей путем изображения их па одном гра-Рчке в одном масштабе.
Циаграммы рассеяния с двойной осью Y
грамму рассеяния такого типа можно рассматривать как комбинацию двух со-’’“^Диаграмм рассеяния для одной переменной X и двух различных множеств енных К Для независимой переменной X и каждой из переменных Yстроится Рамма рассеяния, но переменные из первого списка (называемого Левая ось F)
224
Глава 5. Двумерный визуальный анализ дд<
откладываются по левой оси Y, тогда как переменные из второго сл иска (назы мого Правая ось Y) откладываются по правой оси Y. На каждой из осей мо выбрать свой масштаб.
Имена всех переменных Y из двух списков будут включены в условные < значения, сопровождаемые буквой (Л) или (П). обозначающей левую или прг ось Y соответственно.
Диаграммы рассеяния с двойной осью Y можно использовать для визуалы сравнения структуры нескольких корреляционных зависимостей путем из» жения их на одном графике. При этом в силу независимости масштабов, испац емых для двух списков переменных, этот график облегчает сравнение перец ных, значения которых принадлежат разным диапазонам.
[-/’I Частоты
Эта диаграмма рассеяния позволяет наглядно изобразить частоты перекрываюи ся точек для двух переменных, чтобы наглядно представить веса различных то1 Если для одного значения переменной X имеется несколько значений пера ной Y, то возникает необходимость использовать подобные диаграммы рассеян Подсчитываются и группируются частоты перекрывающихся точек. Размеры I керов точек на графике соответствуют значениям частот.
- 1 нЛл^одвиие
• L7
» В-10 кЛлюдвчий
с -16 наСдюкиий .
”-5 О 5	10 IS 20 И 30 35 40 ’’ • ’6 «йнипий '
225
чтили
311ках квантилей изображается зависимость между квантилями двух пере-К|Х позволяющая визуально оценить сходство эмпирических распределений I jofl переменной.
Если точки данных ложатся на линию регрессии, то можно сделать вывод, что две переменные имеют одинаковое распределение
^Диаграмма Вороного
Jra особая диаграмма рассеяния одной переменной является в большей степени шалитическим средством, нежели просто методом графического представления данных. Пространство разделяется на области точек, максимально близких к наблюдаемым точкам, иными словами можно сказать, что строятся зоны влияния точек.
226
Глава 5. Двумерный визуальный анализ дан»
Обратите внимание, что на изображенной выше диаграмме оси одннакь масштабированы (минимум - 0, максимум - 10) и пропорции диаграммы таков» что обе оси имеют приблизительно одинаковую длину. Разбиения для мозаично диаграммы Вороного будут рассчитаны в предположении равных длин (и маски-бов) осей;такнм образом, пропорции диаграммы и масштабирование по умолчан» (например, автоматическое) могут привести к искаженной мозаичной диаграмм Вороного.
Способы использования этого метода сильно зависят от областей исследовз ния, однако во многих случаях к этой диаграмме полезно добавлять допел нители ные измерения, используя категоризацию и выбор сложных подгрупп.
Диаграммы рассеяния с гистограммами
Этот тип статистических графиков представляет собой составной график с зави снмостью между двумя переменными и распределениями частот для каждой пере меиной.
График состоит из простой диаграммы рассеяния двух заданных перемени! (X и У) и гистограмм распределений частот для переменных X if Y, изображенHt соответственно вдоль осей X и Y диаграммы рассеяния.
Диаграммы рассеяния с диаграммами размаха
Этот тип статистических графиков представляет собой составной график с завн снмостью между двумя переменными и распределениями значений каждой изгУ • выборок (включая выбросы и экстремальные значения). Такой график особен  полезен при проверке по указанному пользователем критерию, являются ли • дельные точки данных выбросами или экстремальными значениями и можно W их удалить из выборки. График состоит из простой диаграммы рассеяния двух I **" занных переменных (X и У) и диаграмм размаха для переменных X и У, иэобр" женных соответственно вдоль осей Хи У диаграммы рассеяния.
т йме вероятностные графики
Нормальные вероятностные графики
Эти графики позволяют визуально исследовать, насколько распределение данных близко к нормальному.
Нормальный вероятностный график
Стандартный нормальный вероятностный график строится следующим образом. Сначала все значения переменной ранжируются. По рангам рассчитываются ^-значения (значения стандартного нормального распределения) в предположе-нми. Значение z для j-ro ранга переменной с N наблюдениями вычисляется по формуле:
z. - F-‘[(3 хj-l)/(3 х N+1)],
ГДе^ это обратная функция стандартного нормального распределения (преобразовывающая нормальную вероятностьр в нормальное значение z).
Значения z откладываются по оси Y, наблюдения — по оси X. Если наблюдае-п ‘'Значения распределены нормально, то все значения на графике должны по-•«1 °РЯМ-™ линию. Если значения не являются нормально распредсленны-> то оудет наблюдаться отклонение от прямой.
228 Глава 5. Двумерный визуальный анализ дань
На этом графике можно визуально обнаружить выбросы.
Если наблюдается очевидное несовпадение и данные располагаются отн сительно линии определенным образом (например, в виде буквы 5), то пер, применением статистических методов, для которых существенное значение име нормальность распределения, необходимо каким-то образом преобразовать пер менные (например, логарифмическое преобразование часто используется для тог чтобы «втянуть» конец распределения).
Полунормальный вероятностный график
Полуформальный вероятностный график строится тем же образом, что и стан дар ный нормальный вероятностный график, с тем отличием, что рассматривается л>п положительная часть нормальной кривой. Следовательно, по оси У будут отм дываться только положительные нормальные значения. В частности, полунормал ное вероятностное значение г. для /то упорядоченного значения (ранга) перем г ной с N наблюдениями вычисляется так:
г = F'[(3e х N+3 х j-l)/(6 х W-Ч)), где F ' — снова обратная функция нормального распределения.
Этот график часто используется для исследования распределения остатков, | нужно игнорировать знак остатка, когда нитерес вызывает распределение 4 лютных остатков независимо от их знака.
1Ьние вероятностные графики
229
альный вероятностный график с исключенным трендом
чьный вероятностный график с исключенным трендом строится тем же об-что и стандартный нормальный вероятностный график, с тем отличием, что ,д созданием графика удаляется линейный тренд.
В частности, на этом графике Каждое значение (X.) стандартизируется вычита-«нем среднего и делением на соответствующее стандартное отклонение (s). Нереальное вероятностное значение с исключенным трендом гу для /-го упорядоченного значения (ранга) переменной с я наблюдениями вычисляется так:
z. “ F ‘[(3 Xj-l)/(3 х Л'+1)] - (х;-среднее)А,
вде F 1 — это обратная функция нормального распределения, as — стандартное отклонение.
Графики квантиль-квантиль
График квантилъ-квампилъ (или кратко — трафик К-К) полезен для нахождения наиболее подходящего распределения из выбранного семейства распределений.
Вначале выбирается семейство распределений, внутри которого производится RU'OHKa
230
Глава 5. Двумерный визуальный анализ данны>
Чтобы оценить подгонку распределения, наблюдаемые значения упорядочивя-4 ются (.х( <... < хя), и по этим значениям (х_) строится обратная эмпирическая фу цк. ция распределения.
Затем к ней подгоняется линия регрессии. Если наблюдаемые значения Понадают на линию регрессии, то можно сделать вывод, что они имеют заданное р-пределение.	ь
Уравнение линии подгонки (У-а + Ьх) дает оценки параметров а и b (Где а — параметр сдвига, b — параметр масштаба).
Обычно квантильные графики строятся для наиболее употребляемых распре, делений: экспоненциального, экстремального, нормального распределений, распре-деления Релея, бета-, гамма-,логнормального распределения и распределения Вейбулла |
Графики вероятность-вероятность
График вероятность-вероятность (или трафик В-В) полезен для определения насколько хорошо теоретическое распределение подходит для наблюдаемых да« »-ных. На графике В-В строится зависимость между эм лирической функцией распределения и теоретической функцией распределения для оценки подгонки теоретического распределения к наблюдаемым данным. Если все точки графика попадают на диагональную линию (со сдвигом 0 и наклоном 1), то можно сделать вывод, что теоретическое кумулятивное распределение точно приближает наблюдаемое рас пределение.
Если точки данных не попадают на диагональную линию, то этот график мо.» -но использовать для наглядной проверки того, подходит ли распределение к Ла|' ным (например, если точки располагаются в форме S относительно диагопальш л линии, то может потребоваться преобразование данных для того, чтобы привесI1 их распределение к нужному виду).
Для построения этого графика должна быть полностью задана функция теор тического распределения. Следовательно, параметры распределения должны бы либо определены пользователем, либо вычислены по данным (для получения л ‘ ’  волнительной информации о параметрах см. описание соответствующего расГ!» деления).
<Mbl диапазонов
231
г	«ообше говоря, если наблюдаемые точ кн имеют выбранное распре деле ние с со-
L -Ттструюшими параметрами, то они попадут на прямую линию на графике В-В. '| воаМетьтс, что для получения используемых здесь оценок параметров (для наире подходящего распределения из семейства распределений) также можно применять график квантиль-квантиль.
Диаграммы диапазонов
Да диаграммах диапазонов представлены диапазоны значений или столбцы ошибок относящиеся к определенным точкам данных, в форме прямоугольников или отрезков. В отличие от стандартных диаграмм размаха, диапазоны или столбцы ошибок не вычисляются поданным, а определяются исходными значениями вы-
ния временных промежутков, а не изменчивости; их также рекомендуется использовать, если у диапазонов очень длинные метки, потому что на горизонтальных диаграммах диапазонов метки не нужно переносить (как в случае, когда длинные метки расположены вдоль оси X).
Глава 5. Двумерный визуальный анализ да(
‘|>|1ЦППИ
Диаграммы размаха
УА& диаграммах размаха (термин введен Тьюки в 1970 году), или так называв
графиках ящики-усы, диапазоны значений выбранной переменной (или перег^ ных) строятся отдельно для групп наблюдений, определяемых значениями Kai
горизующей или группирующей переменной.
Центр (например, медиана или среднее) и статистики диапазонов или вар; ции (например, квартили, стандартные ошибки или стандартные отклонения) । числяются для каждой группы наблюдений.
Впйшя
На графике может быть представлено более одной зависимой переменной возможности сравнения распределений результатов соответствующих измер по группам.
233
MMrig3hiaxa-
Если изменить разметку осей, то можно увидеть следующую картину.
Из этой диаграммы размахов видно (данные носят модельный характер, do в них отражена реальная ситуация), как распределены покупки колбасы и мяса в супермаркете в течение дия. Диаграмма СУММА показывает, как распределена мма всех покупок, сделанных клиентами.
Очевидно, что вариабельность покупок колбас больше вариабельности покупки мяса. Половина покупателей производят покупку колбас в очень узком диапа-*°не (типичный покупатель).
Диаграммы диапазонов отличаются от диаграмм размаха тем, что для диаграмм диапазонов диапазоны для построения определяются значениями выбранных пе-Г*Менных (например, одна переменная содержит минимальные значения диапа-^Вов> а другая — максимальные значения диапазонов), в то время как для дпа-• еамм размаха диапазоны вычисляются по исходным значениям переменной • ’ЯПример, стандартные отклонения, стандартные ошибки или исходные диапазоны).
Как правило, диаграммы размаха применяются в двух случаях- а) для сравне-”я Диапазонов значений отдельных выборок или категорий наблюдений (напри-Ч3- типичная минимаксная диаграмма для акций или товаров или агрегирование диаграммы последовательностей данных с диапазонами) и б) для сравнения спредедении или вариаций результатов в отдельных группах или выборках
234
Глава 5. Двумерный визуальный анагкз,
(например, диаграммы размаха, представляющие среднее в виде точки внутри моуголышка, стандартные ошибки — в виде прямоугольника, а стандартны клонения от среднего — в виде более узкого прямоугольника или отрезка).
Диаграммы размаха, показывающие вариацию значений, дают возмоэ
визуализировать и быстро оценить силу зависимости между группирующей
висимой переменными. В частности, предполагая, что зависимая переменная рас пределена нормально, и зная, какая часть наблюдений попадает в интервал, । пример, ±1 или ±2 стандартных отклонения от среднего, можно легко оцещ результаты эксперимента и показать, что около 95% наблюдений в зкеперпм тальной группе 1 при надлежит к диапазону, отличному от диапазона значений, к] попадают примерно 95% наблюдений в группе 3.
pi] Простые диаграммы размаха
Простые диаграммы размаха используются для представления и исследования ди апазонов значений переменной при категоризации с помощью другой перемен» Когда выбрано более одной зависимой (то есть У) переменной, будет построе последовательность графиков (по одному для каждой выбранной зависимой nej менной).
[7Д Составные диаграммы размаха
В отличие от простых диаграмм размаха, на которых представлены диапазоны 31 чеинй одной переменной, составная диаграмма размаха изображает (на одном Г] фшее) диапазоны значений нескольких переменных.
Для каждой переменной используется и указывается в условных обозначен! свой маркер точек, шаблон заполнения и цвет. Этот тип диаграмм размаха него I зуется для сравнения диапазонов значений нескольких переменных (или негт < ких функций) путем представления их на одном графике, использующем об, шкалы (например, сравнение нескольких одновременныхэкспериментальных 11 Нессов, социальных явлений, пен акций или товаров, форм кривых текущих рактеристик и т. п.).
Столбчатые диаграммы
2М столбчатые диаграммы представляют собой последовательности зна ний в виде столбцов (одно наблюдение представлено одним столбцом). Если |
<атые диаграммы
235
более одной переменной, то каждая диаграмма может быть изображена от-ЕжьНО или все диаграммы могут быть представлены на одном графике в виде групп *биов (одна группа для каждого наблюдения). Например, для этого множества ^,ых будет построена следующая столбчатая диаграмма.
Следует отметить, что для изображения столбцов ошибок, связанных с отдельными измерениями (например, стандартных ошибок, вычисленных поданным или зафиксированным ранее границам диапазона), следует использовать диаграммы диапазонов или диаграммы размаха.
СИ Простые столбчатые диаграммы
Для выбранной переменной строится простая столбчатая диаграмма (если выбрано более одной переменной, то для каждой переменной из списка строится отдельный график).

236 Глава S. Двумерный визуальный анализ данных
[i^lJ Составные столбчатые диаграммы
На составных столбчатых диаграммах (на одном двумерном графике) показами группы столбцов для многих переменных (одному наблюдению соответствует одн| группа); один столбец группы представляет одну из выбранных переменных
Значения всех исследуемых переменных откладываются по единой оси У (иль оси X, если выбрана горизонтальная ориентация), что облегчает сравнение анали зируемых переменных.
Линейные графики (для переменных)
2М линейные графики представляют собой двумерные линейные графики одно® или многих переменных, на которых отдельные точки соединены линиями. Лш нейные графики дают простой способ наглядного представления последовательности большого числа значений (например, рыночных цен на акции за некотороь-число дней); X} -графики трассировочного типа (см. ниже) могут быть использованы для изображения пути (вместо последовательности)
237
жнейные графики (для переменных)
I Линейные графики могут также быть построены для непрерывных функций, теоретических распределений и т п. Ниже показано несколько таких графиков.
ЦЕНА НАМЕеТЬ <дол»»ров •• Пчрег».)
Д»1Ы (»> парам» иной: ПАТЕ )
-- - ЦЕНА -ДРУБЛЬ
Если имеется лишь несколько наблюдений, го лучше использовать вертикальную столбчатую диаграмму, хотя значительным исключением из этого правила являются графики различий между средними некоторого количества групп.
238
Глава 5. Двумерный визуальный анализ дани
Если в последовательности очень много наблюдений и они различаются,  обходимо сглаживание для обнаружения обшей структуры последователь данных. Простейшей формой сглаживания является агрегирование, когда в^и исходных данных изображаются средние последовательных множеств и.» л блюдений. На агрегированных линейных графиках диапазоны значений > , жаются отрезками.
Агрегирование также может быть использовано в качестве средства уменья ния количества точек, дающего возможность представить на одном графике бол ше данных, чем в любом другом случае (при данном разрешении монитора илы принтера).
Е>1 Простые линейные графики
Простые линейные графики используются для представления и исследовани|
Также типично применение линейных последовательных графиков при i строении графиков непрерывных функций, таких как функции подгонки или т ретические распределения. Заметьте, что пустая ячейка данных (то есть про шейные данные) «разрывает» линию.
Составные линейные графики
В отличие от простых линейных графиков, на которых представлена последе тельность значений одной переменной, на составном линейном графике изос
(для переменных)
239
несколько последовательностей значений (переменных). Для каждой пе-*аЮТ)|1Ой используется и указывается и условных обозначениях свой шаблон ли-£,н к нвст
Этот тип линейных графиков используется для сравнения последовательностей значений нескольких переменных (или нескольких функций) путем изображения их на одном графике, использующем один общий масштаб (например, для сравнения нескольких одновременных экспериментальных процессов, социальных явлений, цен акций или товаров, форм кривых текущих характеристик и т. п.).
!1 Линейные графики с двойной осью Y
Линейный график с двойной осью Y можно рассматривать как комбинацию двух по-разному масштабированных составных линейных графиков. Для каждой выбранной переменной используется свой шаблон линии, в то же время все переменные, выбранные в списке Левая ось У, будут откладываться по левой оси Y, а переменные, выбранные в списке Правая ось Y, будут откладываться по правой оси Y.
240
Глава 5. Двумерный визуальным анализ двинь
Имена всех переменных будут указаны в условных обозначе ниях вместе сI
вой (Л) для переменных, относящихся к левой оси Y. и с буквой (П) для пег ных, относящихся к правой оси Y.
Линейный график с двойной осью Y можно использовать для сравнения довательностей значений нескольких переменных, накладывая их линейны^
ставления на один график. В то же время, в силу независимости шкал, ист мыхдля двух осей, этот график может облегчить сравнение «не сравнимых» . способом переменных (го есть переменных со значениями в разных диап 
|р~~| Трассировочные XY-графики
Трассировочные XY-графики требуют выбора по крайней мере двух пе}леменни (Хи Y). На трассировочных графиках сначала строится диаграмма рассеяния дт переменных, а затем отдельные точки данных соединяются линией (в порядке считывания из файла данных).
В этом смысле трассировочные графики визуализируют «путь» последоват< ного процесса (движение, изменение явления во времени и т, и.).
|frH| Агрегированные линейные графики
Агрегированные линейные графики изображают последовательность средних последовательных подмножеств выбранной переменной. Можно выбрать последовательных наблюдений, по которым будет вычислено среднее (пар; Индекс), а при необходимости диапазон значений в каждом подмножестве I выделен значками типа отрезков.
5	5 И Г » г « <5 51 К К
,НЬ1е графики (профили наблюдений)
241
.тегированные таги^йные графики используются для представления и исследова-доследовате льностей большого числа значений Следует отмстить, что в модуле ряды содержится большой набор процедур сглаживания и фи чьтраццн “' пых ( например, скользящее среднее, скользящая медиана, 4253 Н -фильтр и др.)
Линейные графики (профили наблюдений)
2М чинейные графики (профили наблюдений) представляют собой двумерные ли-гейныс графики одной и нескольких переменных.
В отличие от простых линейных графиков, где значения одной переменной изображаются в виде одной линии (отдельные точки данных соединены линией), на линейных графиках профилей наблюдений значения выбранных переменных для наблюдения (строки) изображаются в виде одной линии (то есть один линейный график создается для каждого выбранного наблюдения).
Линейные графики профилей наблюдений дают возможность наглядно представить значения для наблюдения (например, значения для нескольких критериев).
Простые линейные графики (профили наблюдений)
Простые линейные графики используются для представления и исследования последовательностей значений (обычно когда порядок значений является существенным). Обратите внимание, что пустая ячейка данных (то есть пропущенные данные) «разрывает» линию.
Составные линейные графики (профили наблюдений)
В отличие от простых графиков профилей наблюдений, на которых представлена •оследователыюсть значений одной переменной, на составном линейном графике **збражаются несколько последовательностей значений (переменных). Для каж- °и переменной используется и указывается в условных обозначениях свой шаб <°н линии и цвет.
от ТИп линейных графиков используется для сравнения последовательностей учений нескольких переменных (или нескольких функций) путем изображения На одном графике, использующем один общий масштаб (например, для сравне
242
Глава 5. Двумерный визуальный анализ данн|
ния нескольких одновременных экспериментальных процессов, социальных а лений, цен акций или товаров, форм кривых текущих характеристик и т. и.), f
Последовательные/ наложенные графики
Все типы графиков из этой группы используются для представления по 1едов тельностей значений. В этом отношении они сходны с линейными графиками. Фа тически если для построения выбрана только одна переменная, то отобшжец] данных будет идентично представлению на линейных графиках. В то же врем наложенные графики позволяют реализовать более разнообразные способы гр,» фического представления (зонные, ступенчатые, столбчатые диаграммы й др. у
Единственное значительное различие между представлениями данных на расI сматриваемом типе графиков и на линейных графиках проявляется, когда длс, построения выбирается более одной переменной. На линейных графиках каждая переменная будет построена независимо от других; так, например, если две пер-। менные имеют одинаковые значения для наблюдения 3, то в этой точке (наблюдение | две линии пересекутся или перекроются. В то же время, наложенные графики «складывают» соответствующие значения последовательных переменных (из выбранного списка).	J
Так, на этом графике точка, отвечающая наблюдению 3 для второй перемен ной, будет соответственно выше, чем для первой переменной. Переменные сила дываются в том порядке, в каком они были выбраны.
Благодаря такому положенно ну предстанлепию значений последовательныхm ременных линии (или шаги, области, столбцы и т. л.) последовательных перему ных никогда не будут перекрываться, если они больше 0.
Такая интерпретация влечет ограничение, касающееся пропущенных значеН! в изображаемом множестве данных. А именно — положение каждой точки данш на графике для каждой последовательной переменной (из выбранного спнсИ является суммой ее значений и соответствующих значений (то есть значений I того же наблюдения) всех «предшествующих» переменных в списке. Следовать но, если хотя бы одно из предшествующих значений пропущено, сумму нельзя вы числить, и график в этой точке будет «разорван». Таким образом, во множеств
^взтельные/наложенные графики
243
их выбранных для наложенного представления, не должно быть пропущен-ганных (исключая данные для последней переменной).
"ЭтиТМПЫ графиков используются для представления последовательностей зна-нй выбранных переменных. Однако наложенный вид i-рафиков (применяемый ,,я выборе более одной переменной) специально разработан для представления '^льшой категории множеств данных, в которых последовательные переменные вставляют части («порции») целого. Например, каждое наблюдение можетобо-* мчать ВНП за один фискальный год, а каждая переменная — сумму в долларах, Уц-т-yn мятную из каждой отрасли промышленности и из других источников това-«.эн и услуг. Если такие данные были бы представлены на наложенном столбчатом -кафнке, то получившаяся высота каждого столбца обозначала бы суммарный ВНП, а каждый из аложенных сегментов столбца показывал бы относительный вклад соответствующей отрасли.
Если переменные, представленные на графике, отражают проценты и/или всумме дают одно и то жезначение (например, 100%) для каждого наблюдения, то марная высота графика будет постоянной для всех наблюдений
ЦЦ- Линейный график
На этом тиле графика последовательности значений каждой переменной будут представлены последовательными линиями, расположенными одна над другой.
244
Глава 5. Двумерный визуальный анализ д;
gag Зонный график
На этом типе графика последовательности значений каждой переменной 6 представлены последовательными областями, расположенными одна на дру«
Смешанный линейный график
На этом типе графика последовательности значений, выбранных в первом спис переменных, будут предстаалены последовательными областями, располож ными одна на другой, а последовательности значений, выбранных во втором сп кс переменных, будут представлены последовательными чиниями, располож ными одна над другой (над областью, отвечающей последней переменно!! первого списка).
,ятельные/наложенные графики
245
.Ступенчатый график
ом типе графиков последовательности значений каждой переменной будут * вле) гы последовательными ступенчатыми линиями, расположе! шыми одна
; другой.

246
Глава 5. Двумерный визуальный анализ д.
Смешанный ступенчатый график
На этом типе графика последовательности значений, выбранных в первом спи! переменных, будут представлены последовательными ступенчатыми облаете расположенными одна на другой, а последовательность значений выбранных втором списке переменных будет представлена последовательными ступенчап ми линиями, расположенными одна над другой (над областью, отвечающей поел дней переменной из первого списка).
|^gg| Столбчатая диаграмма
В данном случае последовательности значений каждой выбранной переменной дут представлены последовательными сегментами вертикальных столбцов, расг. I воженных друг на друге.
диаграммы
247
руговые диаграммы
вая диаграмма (термин был впервые использован Хаскеллом в 1922 году) ^Г^г°гся одцим из наиболее часто используемых графиков для представления ° ^опш’й Ь зависимости от выбранного типа графика на круговой диаграмме фОПО
изображаться или исходные значения, или частоты особых категорий зна-еннй (как те> которые можно изобразить на гистограмме).
ф Круговые диаграммы частот
Л отличие от круговой диаграммы значений этот тип круговой дпаграм мы (иногда —зываемог! частотной круговой диаграммой) интерпретирует данные так же, как ^гистограмма. Все значения выбранной переменной группируются по выбранному методу категоризации, а затем относительные частоты изображаются в виде «руговых секторов пропорциональных размеров.
Расположение значений, представленных на графике, зависит от метода категоризации и происходит по той же схеме, что и для гистограмм.
<5 (руговые диаграммы значений
Последовательность значений переменной будет изображена в виде последовательных круговых секторов; размер каждого сектора будет пропорционален соответствующему значению. Значения должны быть больше 0 (нулевое и отрицательные значения не могут быть представлены в виде круговых секторов).
248
Глава 5. Двумерный визуальный анализ да»
Этот простой тип круговой диаграммы (иногда называемый круговой диагп мой данных) интерпретирует данные самым непосредственным образом: одцч блюдснпе соответствует одному сектору. Шаблоны круговых секторов, испо« емые для этого графика по умолчанию, можно регулировать в диалоговом! Шаблоны специальных графиков по умолчанию.
|ПВ,| Многоцветные столбчатые диаграммы
Многоцветная столбчатая диаграмма служит для изображения того же типа j пых. что и описанная выше круговая диаграмма значений, однако последовав пые значения выражены высотами вертикальных столбцов (разных цветов и нов), а не площадями круговых секторов.
Преимущество этих диаграмм перед круговыми диаграммами состоит в тс что они дают возможность более точного сравнения представленных значений I • пример, трудно сравнивать маленькие круговые секторы, если они не являиц соседними).
Этот тип графика может также иметь преимущества перед простыми гш * граммами (где для всех столбцов используется один цвет и шаблон запот ния) в случаях, когда требуется быстрая идентификация определенных стол<'«
Диаграммы пропущенных значений и интервалов
Диаграммы пропущенных значений и интервалов дают возможность исследи шаблон расположения или распределение пропущенных данных и/или зах->и пользователем точек «вне диапазона» текущего множества (или подмноя «С наблюдений.
Этот график применяется в разведочном анализе данных для определен!« шчества пропущенных данных (и 'или данных «вне диапазона») а также дл« ясненпя. является ли их распределение более или менее случайным или в 1» положении можно обнаружить некоторую закономерность.
жций пользователя
249
г В сущности, они представляют собой «карту» файла данных (или его частей) и позволяют исследовать структуру пропущенных данных, очень маленьких значений, больших значений и т. п. Категоризованный формат дает возможность сравнивать такие образцы для определенных подмно’кеств данных.
ШННШ 'ЙЦ|НН 'нЬНН!
"Рафики функций пользователя
отличцеот большинства других типов графиков, для 2Мграфика функции пользо-:	не требуется выбирать переменные: вместо этого для построения графика
г’РГ’Грамма запросит ввод формулы. Эта процедура создает графики, основанные
250 Глава 5. Двумерный визуальный анализ да нк
ле на значениях переменных в файле данных, а на заданных пользователем 4 мулах (то есть пользовательских функциях), например:
Следует отметить, что для других типов графиков наряду с разнообразными возможностями настройки параметров также предусмотрена возможность на-. । жения пользовательской функции. Например, аналогичные результаты ностро»-ния функций можно получить при помощи регулирования соответствующих Пч раметров настройки для других типов длумерных графиков.
При наложении функции на график диапазоны осей графика автоматически подгоняются к соответствующим диапазонам значений переменных Для рассм 4 г• риваемого типа графика можно явно указать диапазоны значений в диалоговом окне определения графика, которые не будут зависеть от множества данных. Н< пример, можно установить минимум и максимум для обеих осей (X и У) равными Он 100 соответственно.
Обычно эти графики используются для исследования функциональной Й симости (например, для проверки соответствия теоретических моделей экс?” ментальным данным).
Трехмерный визуальный анализ данных
Трехмерный визуальный анализ позволяет анализировать данные в трехмерном пространстве, например, строить трехмерное изображение последовательностей исходных данных (наблюдений) для одной или нескольких выбранных переменных. Выбранные переменные представляются по оси Y, последовательные наблюдения — по оси X, а значения переменных (для данного наблюдения) откладываются по оси Z, как показано ниже:
Такие трехмерные графики используются для визуализации последовательностей значений нескольких переменных. По своей идее они сходны с составными линейными графиками, с тем лишь отличием, что для ЗМ диаграмм исходных данных ленты, линии, параллелепипеды и другие трехмерные представления значений каждой переменной |1е перекрываются (как на двумерном графике), а «раздвигаются* в трехмерной перспективе.
SHE
I

252
Глава 6, Трехмерный визуальный анализ дак
ЗМ диаграммы исходных данных применяются как для отображения ных. так и для аналитических исследований. Наиболее типичным притоке i ЗМ диаграмм исходных данных является наглядное представление имеюш информации (например, о ценах, о росте населения, о взаимосвязи объ продаж и прибыли). Гакне графики позволяют просто и эффектно лредст< последовательности наблюдений, таких, например, как различные типы в•-< ных рядов.
Основное преимущество трехмерных представлений перед двумерными ставными линейными 1рафпкамн заключается в том. что для некоторых множ* данных при объемном изображении легче распознавать отдельные пос дователыюсти значений. При выборе подходящего угла зрения с помощь» £ пример, интерактивного вращения пинии графика не будут перекрываться । «попадать друг на друга», как часто бывает на составных линейных двумер] графиках.
Трехмерные диаграммы также используются в аналитических целях при следовании входных данных, имеющих матричный фермат.
Для интерактивного просмотра поперечных сечений таких трехмерных of ставлений можно использовать метод динамического расслоения
визуальный анализ данных
253
К Заметьте, что для детального исследования изображения отдельные зависимо-। ni (то есть переменные) на графике можно выборочно выделить цветом. Для это-I» нужно нажать левую кнопку мыши в любом месте выбранной зависимости.
Процесс -«просвечивания» дает возможность временно отобразить (с помощью подсветки) целые серии данных, даже если они почти полностью закрыты другими данными.
Столбчатая диаграмма
Этот последовательный трафик представляет отдельные значения одной или не-ЕКольких серий данных по оси Хв виде серий трехмерных столбцов (параллелени-педов). Все серии отделены друг от друга промежутками вдоль осн Y Высота каждого ci । лбца по оси Z отвечает значению соответствующей точки данных
254
Глава 6 Трехмерный визуальный анализ дань
Блоковая диаграмма
Этот последовательный график представляет отдельные значения одной или » скольких серии данных по оси X в виде серий «трехмерных блоков». Все а-п отделены друг от друга промежутками вдоль оси У. Высота начала каждого бЗ по оси Zотвечает значению соответствующей точки данных.
Ленточная диаграмма
Эта диаграмма представляет отдельные значения одной или нескольких серий д:« пых по оси X в виде серий «лент» в трехмерном пространстве
Все серии отделены друг от друга промежутками вдоль оси Y Высота нам каждой ленты по оси Z отвечает значению соответствующей точки данных.
Линейный график
Этот последовательный график представляет отдельные значения одной или не скольких серий данных по оси X в виде ряда непрерывных линий в трехмерна пространстве.
визуальный анализ данных
255
^ерИн отделены друг от друга промежутками па оси К Высота начала каж-по оси Z отвечает значению соответствующей точки дани ых.
доЙ лини и
Диаграмма всплесков
т ый последовательный график представляет отдельные значения одного или * кольких наборов данных по оси X в виде серий «всплесков» (точек с перпепди--е^Ярамн, опущенными на плоскость основания).
Все серии отделены друг от друга промежутками вдоль осп У. Высота каждого перпендикуляра по оси Z отвечает соответствующему значению серии.
F Декретная карта линий уровня
Этот последовательный график можно рассматривать как двумерную проекцию ЗМ ленточной диаграммы.
На этом графике каждая точка данных представлена в виде прямоугольной асти; значениям (или диапазону значений) точек данных соответствуют разные цвета или шаблоны (цветовые шаблоны описаны справа от графика). Зна-1,3 °Дной серии представлены по оси X, а сами серии откладываются по
256
Глава 6. Трехмерный визуальный анализ дан
График поверхности
На последовательном графике к точкам исходных данных подгоняется cris пая сплайнами поверхность.
Последовательные значения каждой серии откладываются по осн X, а сами щ следовательные серин представлены на оси У
Карта линий уровня
Карта линий уровня представляет собой двумерную проекцию сглаженной сш нами поверхности, подогнанной к исходным данным.
Последовательные значения каждой серии откладываются по оси X, а сами следовательные серии представлены на оси У
Гистограммы двух переменных
Трехмерные, или ЗМ, гистограммы двух переменных используются для виз- а запил табулированных значений двух переменных или для визуализации тзц| сопряженности двух переменных Их можно рассматривать как сочетание дву • Д стых гистограмм (то есть гистограмм одной переменной), соединенных такяы1 разом, чтобы можно было исследовать частоты совместного появления знача! двух переменных.
<мы_двух переменных
257
г Распределение частот на трехмерных гистограммах вызывает интерес по двум причинам:
О по форме распределения можно сделать вывод о природе исс ледуемой переменной (например, если распределение бимодально, то можно предположить, что выборка не является однородной и состоит из наблюдений, принадлежащих двум совокупностям, которые приблизительно нормально распределены);
Э многие статистики основаны на определенных предположениях о распределениях анализируемых переменных; ЗМ гистограммы двух переменных помогают проверить выполнение этих предположений для пары переменных.
ЗМ гистограммы и кросстабуляции
ЗМ гистограммы двух переменных предоставляют ту же информацию, что и таблицы сопряженности. Хотя некоторые (числовые) данные по частотам легче воспринимать в виде таблицы, общая форма и глобальные описательные характеристики распределения двух переменных легче исследовать па графике.
Более того, график дает качественную информацию о распределении, которую нельзя полностью выразить каким-то одним показателем. Например, асимметричное распределение двух переменных — скрытых откликов и времени реакции (в эксперименте измерения времени реакции) — может проистекать из изменений повеления субъектов при усталости
258 Глава 6. Трехмерный визуальный анализ пан
Категоризация значений
Все процедуры построения гистограмм имеют стандартный набор методов ка .mJ рнзации, или разбиения наблюдений на группы. Систематично методы кате^Я зации изложены в отдельной главе.
Согласно этим методам, диапазон значений каждой из двух выбранных л njr. фика переменных разбивается на категории (классы), для которых подсчнтыЯ ются частоты, отображаемые в виде отдельных трехмерных столбцов.
Например, можно построить трехмерную гистофамму, на которой каждый < -mJ бец будетсоответствовать 10 единицам шкалы, используемой для персмениой-^Н минимальное значение равно 0, а максимальное равно 120, добудет построено 12 ря. дов столбцов. В качестве другого примера можно разделить диапазон значен «J переменных на определенное число равных интервалов (например, 10); в пос . нем случае, если минимум равен 0, а максимум равен 120, то каждый интерн2 будет равен 12 единицам шкалы Существует возможность проводить и более слс * ную категоризацию.
Так можно создать неравные интервалы группировки, задавая их границы (на пример, для создания легко интерпретируемой картинки или для связывщяЯ выбросов и улучшения представления средней части гистограммы, в которой с< • ш доточена большая часть наблюдений). Дпапаюны также могут быть созданы с п<> мощью логических выражений (например, первый столбец гистограммы моа^п представлять людей, которые в прошлом году путешествовали самолетом б jm 10 раз, и тех, кто проводит более 20% времени в деловых поездках и т. п.) Различные способы категоризации на одном графике
Для каждой из двух переменных, распределение которых представлено на [рафике. могут быть использованы различные методы категоризации, как показано а следующей ЗМ гистограмме двух переменных значений времепи реакции и у* Ш вий эксперимента.
В частности, на этом графике распределение времен реакции (непрерывной I ременной, категоризованной путем разделения всего диапазона значений на 1 л. I тервалов равной длины) представлено для трех условий эксперимента (дис1ф ной переменной с тремя уровнями, имеющими разные метки: Оснолной - Я- L Нормалъный — NORMAL и Двойной — DOUBLE).
Запомните, все элементы графика можно изменить, щелкнув, например, на4 правой кнопкой мыши и вызвав контекстное меню графиков.
^Кгдммы двух переменных 259
улаживание распределений двух переменных
процедуры сглаживания для ЗМ гистограмм двух переменных позволяют подгонять поверхности к трехмерным изображениям данных частот двух переменных. Гак. например, каждая трехмерная гистограмма может быть превращена в сглаженную поверхность. Это представление нецелесообразно использовать для простых категоризованных данных (таких, как изображенная выше гистограмма).
Однако этот способ может оказаться ценным средством для исследования сложной структуры частот.
260
Глава 6. Трехмерный визуальный анализ дан
Он позволяет обнаруживать закономерности, менее заметные на стандартной п мерной гистограмме, например «волнистую* поверхность ла показанном выще сунке.
ЗМ диаграммы диапазонов
Подобно статистическим 2М диаграммам диапазонов трехмерные диаграммы апазонов отображают диапазоны значений млн столбцы ошибок, соответствуг определенным точкам данных
Диапазоны или столбцы ошибок не вычисляются по данным, а определяю исходными значениями выбранных переменных. Для каждого наблюдения ci ится один диапазон или столбец ошибок. Переменные диапазона можно поним как абсолютные значения или как значения, отвечающие отклонениям от сред точки. На графике можно представить одну или несколько переменных
В основном диаграммы диапазонов используются для изображения: а) диг эонов значений для отдельных элементов анализа (наблюдений, выборок и т или б) вариации значении в отдельных группах или выборках (последнее ни смысл, когда величины вариации получены при независимых измерениях; ия более целесообразно использовать ЗМ диаграммы размаха, которые вычисти вариацию для выборок, представленных на графике). Некоторые из этих при жений кратко описаны в разделе ЗМ диаграммы размаха.
Основное различие между диаграммами диапазонов и диаграммами рэ:м1 <тонт в том, что на диаграммах диапазонов все значения, определяющие дни ны («средние точки*, минимум и максимум), не вычисляются по данным, а я ются исходными значениями переменных.
Когда на графике нужно представить только одну переменную, обычно Н точно воспользоваться 2М диаграммой диапазонов; па этом графике также M.I представить несколько переменных (путем сдвига изображений так. что flH лого наблюдения будет отображено последовательно столько диапазонов, ел переменных используется для анализа). Тем tie менее ЗМ диаграмма диал^ часто является более подходящим способом представления диапазонов пес Мм
зимы диапазонов
261
ценных на одном графике, так как она не «разбивает» строки пиктограмм, ставляющих отдельные классы или переменные.
шит- ««- ।  "	—лаз
F После создания графика можно изменить его расположение и вид отдельных элементов. Для этого нужно открыть диалоговое окно Общая разметка: ЗМграфики (с помощью двойного щелчка мышью на фоне графика или из графического выпадающего меню Разметки) или диалоговое окно Размещение ЗМ графика (с помощью команды контекстного меню, вызываемого правой кнопкой мыши для конкретной зависимости, или из графического выпадающего меню Разметки).
Точечные диапазоны
На статистической ЗМ последовательной диаграмме диапазонов такого типа диапазоны изображены в виде маркеров точек (соединенных линией)
Но ^ЛЯ каждого наблюдения строится один диапазон. Переменные диапазона мож-понимать как абсолютные значения или как значения отвечающие отклонениям вазо ДНе*'Т°ЧКИ В эависимости от текущего значения параметра Тип (значения диа-
262
Глава 6. Трехмерным визуальный анализ
Граничные диапазоны
На статистической ЗМ последовательной диаграмме диапазонов такого типа
пазоны представлены зоны). Средние точки
двумя непрерывными линиями
(верхние
и нижние ди
изображены в виде маркеров точек, соединенных
ЛИЛИ
Переменные диапазона можно понимать как абсолютные значения или как
чения, отвечающие отклонениям от центральной точки, в зависимости от те» го значения параметра Тип (значения диапазона).
Диапазоны ошибок
На статистической
ЗМ последовательной диаграмме диапазонов
такого типас
нпе точки изображены в виде маркеров точек, а диапазоны — в виде столбцов >
бок. Для каждого наблюдения строится один столбец ошибок.
Переменные диапазона можно понимать как абсолютные значения или
чения, отвечающие отклонениям от центральной точки, в зависимости от тек го значения параметра Тип (значения диапазона).
Диапазоны двойных лент
Па статистической ЗМ последовательной диаграмме диапазонов такого типа пазоны представлены двумя лентами (верхние и нижние диапазоны).
доны диапазонов
263
Переменные диапазона можно понимать как абсолютные значения или как значения, отвечающие отклонениям от средней точки в зависимости от текущего значения параметра Тип (значения диапазона). Средние точки на графике не изображаются (они могут быть показаны на одном из первых трех типов диаграмм диапазонов).
(Л, «Летящие ящики»
На статистической ЗМ последовательной диаграмме диапазонов такого типа диапазоны представлены в виде «летящих ящиков». Ящики не закреплены на плоскости. а как бы парят в пространстве. В ряде случаев такие графики чрезвычайно эффектны для зрительного восприятия.
Переменные диапазона можно понимать как абсолютные значения или как I анлчения, отвечающие отклонениям от средней точки, в зависимости от теку-Щего значения параметра Тип (значения диапазона). Средние точки на графике Be изображаются (они могут быть показаны на одном из первых трех типов ЧВаграмм диапазонов).
“-Летящие блоки»
статистической ЗМ последовательной диаграмме диапазонов такого типа диа-I юны представлены «летящими блоками».
264
Глава 6 Трехмерный визуальным анализ да»
Переменные диапазона можно понимать как абсолютные значения пли как чения, отвечающие отклонениям от средней точки, в зависимости от текущего, чения параметра Тип (значениядштазона). Средние точки на графике не изоб  ются (они могутбыть показаны на одном из первых трех типов диаграмм диапазо!
ЗМ диаграммы размаха
Подобно статистическим 2М диаграммам размаха на ЗМ диаграммах размаха пазоны значений выбранной переменной строятся отдельно для групп набл1 ний, определяемых значениями категоризующей (группирующей) перемен Центральная тенденция (например, медиана или среднее) и диапазон или вар ционные статистики (например, квартили, стандартные ошибки или стандарт отклонения) вычисляются для каждой группы наблюдений, а стиль изображе! определяется Tunau графика.
ЗМ диаграммы диапазонов отличаются от ЗМ диаграмм размаха тем. чт диаграммах диапазонов диапазоны представлены значениями выбранных перем ных (например, одна переменная содержит минимальные значения диапаг" а другая — максимальные значения диапазонов), а для диаграмм размаха диа ны вычисляются по значениям переменных (например, стандартные отклон стандартные ошибки или минимальные и максимальные значения).
^граммы размаха
265
’ Как прав*1 ’1О’ диаграммы размаха используются в двух случаях: а) для изобра-•П1Я диапазонов значений для отдельных наблюдений пли выборок (например, * . чная минимаксная диаграмма для акций или товаров ил и агрегированные по-^£^вагпелшые графики данных с диапазонами) пли 6) для изображения вариа-значеипй в отдельных группах или выборках (например, диаграммы размаха. " бражающпе медиану или среднее для каждой выборки в виде точки внутри «лс-столбца ошибок, а также стандартные ошибки пли квартильный размах. lL-пстя пленные н виде « (етяших ящиков»; см. рисунок ниже).
‘ _____________________
Диаграммы размаха, показывающие вариацию значений, легко позволяют оценить и «интуитивно представить» силу связи между группирующей переменной и »дной или несколькими зависимыми переменными. В частности, предполагая, что ивисимые переменные нормально распределены, и зная, какая часть наблюдений попадает, например, в интервал ±1 или ±2 стандартных отклонения от среднего, ьожно легко попять результаты эксперимента и сделать вывод, что, например, рс-। гльтаты примерно в 95% наблюдений в экспериментальной группе 1 принадлежат диапазону, отличному от диапазона 311ачений порядка 95% наблюдений в группе 2.
Когда на графике нужно представить только одну переменную, обычно достаточно воспользоваться 2М диаграммой размаха; наэтом графике можно также представить несколько переменных (путем сдвига изображений отдельных «ящиков» *»к. что тля каждого наблюдения будет изображено последовательно столько «ящиков», сколько переменных используется для анализа). Тем не менее для пред-леппя нескольких переменных на одном графике более подходящей является - М диаграмма размаха, так как ока не «разбивает» строки пиктограмм для каждой переменной. Например, это часто делает более ясной схему расположения средних и стандартных отклонений или квартильных размахов в выбран пых категориях.
266
Глава 6. Трехмерный визуальный анализ дань
Граничные диапазоны
На статистической ЗМ диаграмме размаха вычисленные по исходным да» диапазоны (например, квартили) представлены двумя непрерывными лик (верхние и нижние диапазоны).
Средние точки (средние значения или медианы) отображаются маркерами т чек и соединены линиями.
Диапазоны ошибок
На статистической ЗМ диаграмме размаха такого типа средние точки (вычи лепные по данным средние значения или медианы) изображены маркерами точе а вычисленные диапазоны (например, квартили) представлены столбцам ошибок.
Для каждого уровня независимой (группирующей) переменной рисуется о," столбец ошибок.
(Д2‘- Точечные диапазоны
На статистической ЗМ диаграмме размаха такого типа средние точки и выч ленные диапазоны (например, квартили) представлены тройками маркеров то (соединенных линией).
)ММЫ размаха
267
Для каждого уровня независимой (группирующей) переменной строится одна фойка значений.
Диапазоны двойных лент
На статистической ЗМ диаграмме размаха такого типа вычисленные диапазоны (например, квартили) представлены двумя лентами (верхние и нижние диапазоны).
На диаграмме этого типа средние точки не изображаются. Чтобы их показать, необходимо перейти к одному из первых трех типов диаграмм размаха (см. выше).
'Летящие ящики»
На статистической ЗМ диаграмме размаха этого типа вычисленные диапазоны (например, квартили) представлены в виде «летящих ящиков».
268
Глава 6. Трехмерный визуальный анализ дан
На диаграмме средние точки ис изображаются. Чтобы их показать, необ» перейти к одному ил норных трех типов диаграмм размаха.
I# «Летящие блоки»
На статистической ЗМ диаграмме размаха вычисленные диапазоны квартили) представлены в виде «летящих блоков».
(напри
На диаграмме средние точки не изображаются. Чтобы их показать, пеобхо перейти к одному из первых трех типов диаграмм размаха.
иг;,uaiii* I У "Г,-
Если увеличить установленное по умолчанию апаче!I не поля X (0 ), то м отдельными «летящими блоками» появятся разрывы, как показано выше на гра»
Всплески
При выборе этого режима точечные диапазоны ini i столбцы ошибок будут । йены с основанием графика линиями.
яые диаграммы рассеяния
269
зехмерные диаграммы рассеяния
г	диаграммы рассеяния (называемые также ATZ диаграммами рассеяния)
’** * гав тяют собой наиболее простой тип трехмерных зависимостей Как правило, Кьиспользуются для визуализации свяаей между непрерывными переменными.
Хотя можно найти различные применения трехмерных диаграмм рассеяния, тем не менее их основное преимущество состоит в наглядном представлении сложных взаимосвязей между несколькими переменными.
Рассмотрим простой пример из области маркетинга. Предположим, за определенный период времени (в различное время суток) проводились исследования цены и предложения товара. Если построить на графике значения трех этих переменных (Price, Supply и Hour), то можно выявить сложные многомерные интерактивные связи, которые практически невозможно обнаружить при численном анализе Данных.
270
Глава 6. Трехмерный визуальный анализ да
Например, можно установить, что взаимосвязь усиливается во второй гк J не дня (становится теснее связь между ценой и предложением товара). Одна, форме трафика также видно, что эта связь не сохраняется при низком уровне npj ложения (то есть при малых значениях переменной Supply). Часто такие слоя7 взаимосвязи легче выявить на графике, чем при использовании численных ш дов. особенно в случае криволинейных зависимостей.
Выделение кластеров и подмножеств на выборке из неоднородной совокупности Существует и другая область разведочного анализа данных, где могут быть пол ны XYZ диаграммы рассеяния. Это те случаи, когда ожидается наличие групг,1 блюдсний, которые могут быть выявлены только при исследовании распред^ пня одновременно по трем переменным. Например, наследующей XYZ диагра« рассеяния показаны «классические» данные по классификации ирисов (Fisher, 19’ файл Insdatsta), которые включают наблюдения различных видов ирисов.
Из графика видно, что, построив зависимость ширины лепестков от их длины й ширины чашелистиков, можно сделать вывод о том, что выборка неоднородна. Г
На приведенном выше графике, где подмножества маркированы, легко вы; лить различные виды ирисов.
Изучение результатов многомерного анализа
Часто XYZ диаграммы рассеяния используются в статистике для наглядного I ставления результатов многомерных методов исследования, таких как факте»
aie диаграммы рассеяния
271
и многомерное шкалирование. Например, построение на трехмерном гра-тблюдсний с метками, являющихся трехмерным решением задачи много-шкалирования, может помочь в определении величин и классификации Е^Хных наблюдений.
Вращение
Общая проблема трехмерных диаграмм рассеяния — перекрывающиеся точки, соторые затрудняют изучение графика В некоторых случаях при очень большом
числе наблюдений график почти невозможно понять, если смотреть на него под одним углом зрения. Поэтому при исследовании таких трехмерных графиков особенно полезно показанное ниже интерактивное вращение изображения на экране.
272
Глава 6. Трехмерный визуальный анализ
Диаграмма рассеяния
Этот простой тип XYZ диаграммы рассеяния отражает взаимосвязь между! или более переменными в трехмерном пространстве, при этом каждой точке ветствует тройка координат X, Y и Z.
Заметьте, если выбрано более одной перемен ной Z, то будет построено песте XYZ диаграмм рассеяния для различных наборов данных (соответствуют! скольким переменным Z), которые будут маркированы разными значками
Пространственный график
С помощью этого графика можно реализовать различные способы представлен ЗМ диаграммы рассеяния. Для этого предусмотрена возможность расположен плоскости Х-Y па выбранном пользователем уровне вертикальной оси Z (котор проходит через середину' плоскости).
?ные диаграммы рассеяния
Z73
я пространственные графики используются для тех же типов данных, что
 YZ диаграммы рассеяния, их представление может облегчить исследование рьгх трехмерных наборов данных. Рекомендуется сопоставлять данные от-**''нум осям на графике таким образом, чтобы переменную, структуру связей Л*"19 - необходимо выделить, обозначить как Z. Тогда, перемещая плоскость XY оси Zn интерактивно вращая изображение, можно попробовать найти такой **' вень Z на котором изменяется структура связей между Хи У (или X, У и Z).
Сели ожидаемое изменение структуры слишком сложно для ото исследования «дам «сечении», можно воспользоваться спектральным графиком, который по-В оляет наблюдать несколько сечений. Однако поскольку на спектральных графиках представлен набор двумерных сжатых изображений трехмерных данных, здесь могут быть потеряны некоторые действительные трехмерные характеристики, ко--прыс наблюдаются на пространственных графиках.
. Другое приложение пространственных графиков — наглядное представление плотности и направле! пгостиотклонений от определенного уровня (уровня отклонений).
Спектральная диаграмма
Первоначально этот тип графиков применялся в спектральном анализе для исследования нестационарных временных рядов, например речевых сигналов На горизонтальных осях можно откладывать частоты спектра и последовател ы 1ые временные интервалы, а на оси Z — спектральные плотности для каждого интервала.
На этом типе графиков трехмерное пространство разделено на области, в которых данные «сжаты» в соответствующие спектральные плоскости Обратите внимание, что для построения функциональных зависимостей (таких как в спектральном анализе) необходимо упорядочить данные таким образом, чтобы переменная Усодержала категоризующую информацию (тоесть была группирующей переменной ).
Спектральные диаграммы имеют явные преимущества перед обычными ЗМ диаграммами рассеяния, когда необходимо исследовать, каким образом изменяется взаимосвязь между двумя переменными при различных значениях третьей переменной. Это преимущество ясно видно на приведенных ниже двух изображениях одного и того же набора данных.
Глава б. Трехмерный визуальный анализ
Значения переменных X и Z интерпретируются как координаты X и Z точки, а значения переменной Y разделены на равноотстоящие группы, ч ствующие положениям последовательных спектральных плоскостей.
Число спектральных плоскостей можно задать в поле редактирования Чш плоскостей диалогового окна параметров графика или после построения граф в диалоговом окне ЗМ графики, дополнительные свойства
Спектральные графики имеют два основных применения. Первое из них -; исследование функций или последовательно распределенных величин в трех^ ном пространстве (например, график спектральных плотностей, определенны»; последовательных интервалов времени).
В то же время спектральные диаграммы являются «действительно трех МС| ми», а не последовательными графиками, и на них могут быть представлены переменные, содержащие не равноотстоящие данные (например, периодогрЛ с упорядоченными по времени, но не равными интервалами).
диаграммы рассеяния
Z75
ре применение даиных графиков — «расслоение» (или «сжатие») диаграмм Н1'Я Для выявления скрытых структур при разведочном анализе данных
'	Если предполагается согласованная взаимосвязь между тремя переменными и
особенно если ожидается, что связь между двумя переменными (X и Z) различна яа разных уровнях третьей переменной (У). то Для исследования этого явления вполне можно использовать спектральные графики. Упростить анализ поможет выбор числа спектральных плоскостей (см. выше) и интерактивное вращение
Заметим, что практически такой же ряд двумерных изображений можно полупить с помощью категоризованных графиков рассеяния, где X н Z — отображаемые переменные, а У- категоризующая переменная, разбитая на несколько интервалов (число которых равно числу спектральных плоскостей). Если вас интересуют подробности расположения данных на отдельных спектральных плоскостях, то проще использовать категоризованные диаграммы рассеяния (по срав-«ешпо с трехмерными спектральными графиками). Однако с помощью таких категоризованных графиков нельзя получить цельное трехмерное представление исследуемых данных, которое может быть полезно для понимания их структуры.
Спектральные диаграммы можно использовать для исследования однородности, поскольку такое свойство, как однородность, трудно изучать на других типах графиков (например, можно исследовать зависимость дисперсии от значений переменной У или распределения выбросов).
В Диграмма отклонений
На этом типе графиков точки данных (заданные координатами X, Ей Z) представлены в виде «отклонений» от определенного базового уровня на оси Z.
276
Глава 6. Трехмерный визуальный анализ
Диаграммы отклонений похожи на пространственные графики. Однакщ в отличие от последних, «плоскость отклонений» «невидима» и необознач чожеиием плоскости Х-У (эти оси здесь всегда находятся в стандартном н положении) С помощью диаграммы отклонений можно исследовать природ мерных наборов данных, изображая их в виде отклонений от пронзволыц рпзонтального) уровня. Как упоминалось выше, такой метод «сечения* выявить динамические связи между исследуемыми переменными
Графики поверхности
Для построения поверхности используется подгонка по точкам трехмерщ фпка рассеяния Такое представление, как и ЗМ диаграммы рассеяния, m выявить скрытую структуру данных и взаимосвязи между тремя перемен!
Графики поверхности используются в разведочном анализе данных, каки санные в предыдущем разделе трехмерные диаграммы рассеяния Кроме тоге полезны для наглядного представления результатов анализа, таких как по/ пользовательской функции или кластерный анализ.
В промышленной статистике графики поверхности обычно псилльзуюк представления центрального композиционного плана эксперимента. Здесь. риментатором задаются конкретные систематические значения двух (или t переменных для оценки их влияния на некоторые зависимые переменные отдаляющие интерес (например прочность синтетическ Л ткани).
| С помощью таких экспериментов можно обнаружить сложные нелинейные паа-мисвязи между переменными.
Часто такой график бывает полезно вращать для более явного проявления ха-цсгерпстик поверхности (например, конкретных выпуклостей и впадин) или скры-
Г а сторон.
Линейное сглаживание
Трехмерная диаграмма рассеяния аппроксимируется линейной функцией ( напри-xep.Z = a + bX + cY)
278
Глава 6 Трехмерный визуальный анализ
Квадратичное сглаживание
Трехмерная диаграмма рассеяния аппроксимируется полиномом второго itop}
Сглаживание методом наименьших квадратов
Поверхность аппроксимируется методом наименьших квадратов с весами,зав щпми от расстояния (влияние отдельных точек уменьшается с расстоянием де всрхности).
ф Экспоненциально взвешенное сглаживание с отрицательным показателем
Поверхность аппроксимируется в координатах XYZметодом экспоненциальв J1 шейного сглаживания с отрицательным показателем (влияние каждой точки поненциально уменьшается с расстоянием до поверхности).
279
Другая функция
Можно самостоятельно задать математическое выражение для описания поверхности
280
Глава б- Трехмерный визуальный анализ данные
Карты линий уровня
Карты линий уровня создаются путем подгонки трехмерной функции понерхно< ти к трехмерной диаграмме рассеяния. Получившиеся в результате контурнь линии (то есть липни равной «высоты*-) проектируются па плоскость Х-К
Подобно графикам поверхности, карты линий уровня используются для выяв ления взаимосвязей между тремя переменными.
Как и графики, описанные в предыдущих пунктах (трехмерные диаграммы par сеяния и поверхности). карты линий уровня находят свое применение в иссгм • вательском анализе данных
-Грассиррвочнь
te графики
281
Кроме того, они полезны для наглядного представления результатов исследований. таких как подгонка пользовательской функции Они менее эффективны по сравнению с графиками поверхности (описанными ранее) для быстрого памятного представления полной пространственной структуры данных. Однако преимущество состоит в том, что карты дают возможность с большой точностью псе тедовать форму поверхности. Карты линий уровня представляют собой серию неискаженных горизонтальных «сечений» поверхности
графики
Как и па ЗМ диаграммах рассеяния, каждая точка данных па трассировочных гра фиках располагается в трехмерном пространстве в соответствии со значениями переменных X. У и Z (которые интерпретируются как координаты) Затем эти точки последовательно соединяются линией (в соответствии с их расположением в файле данных), чтобы показать «след» (трассу) какого-либо процесса (например, движения, изменения чего-либо со временем и т. п.).
Наилучшим примером трассировочного графика является траектория объекта в трехмерном пространстве
В общем случае с помощью трассировочных графиков можно изучать процессы, при которых переменные изменяются одновременно в трех измерениях при постедовательном наблюдении
282
Глава 6. Трехмерный визуальный анализ да
Отличие нескольких трассировочных графиков состоит только в том ц, них можно отображать одновременно ряд «траекторий» для списка перемени
Примером набора данных, который можно сравнить с траекторией, любой многомерный временной ряд. Предположим, в большом городе кам месяц в течение нескольких лет измерялись температура. уровень загрязне| содержание озона в воздухе. Так как эти переменные по своей природе цикл (например, зимой в северном полушарии холодно), то возникает характерна! тина, которая, в то же время, имеет сложную структуру. С помощью таких rj ков можно также изучать зависимость от времени цеп на товары или макроэ! мических показателей.
Другое приложение таких графиков — это создание точных «трехмерных суиков» (с помощью задания координат в трехмерном пространстве) для та объектов, как границы контроля или выделенные области. Обычно трехмер! объекты, нарисованные с помощью трассировочных графиков, можно врата! изменять в перспективе. Обратите внимание, что такие объекты не могут быть рисованы в интерактивном режиме, поскольку не существует способа конт| третьей размерности («глубины»).
Если какое-либо наблюдение содержит пропущенные данные (например. ” три координаты X, Ун Z, а только две из них), то линия трассировочного rpai будет разорвана Это свойство можно использовать для создания отдельных •' тов (как показано ниже).
4bie графики
283
Тернарные графики
Тернарные /рафики используются для исследования связей между несколькими К Временными. когда сумма значений переменных постоянна для всех наблюдений.
Обычно такие графики применяются при экспериментальном исследовании за- вмсимости отклика от относительного содержания трех компонент смеси (например, трех химических соединений), при этом соотношение компонент изменяется
с целью определения его оптимального значения
На тернарных графиках для построения зависимости четырех (или более) переменных (компонент X, У и Z и откликов V1, V2 и т. д.) используется треуголь-система координат на плоскости (тернарные диаграммы рассеяния или линии вия) иди в пространстве (тернарные трехмерные диаграммы рассеяния или в^рхности). При построении тернарного графика относительная доля каждой Мпонснты (для каждого наблюдения) ограничена их общей постоянной суммой так pilMePi )• При создании графика масштаб долей по умолчанию изменяется Г	Аразом, чтобы эта сумма была равна 1 для каждого наблюдения.
редположим, имеется смесь, состоящая из трех компонент: А. В и С. Любая Son С0Мпонен™ая смесь может быть обозначена точкой в треугольной системе Г РДИиат, заданной тремя переменными
284
Глава 6. Трехмерный визуальный анализ
Например, возьмем 6 следующих трехкомпопентных смесей:
Сумма компонент в каждой смеси составляет 1,0, и эти значения могут pai . ш триваться как доли. Если отобразить эти данные на обычной трехмерной диаграмм рассеяния, то окажется, что они образуют треугольник в пространстве. Правилыщ смеси будут соответствовать только точки, находящиеся внутри треугольника Q сумма значений компонент равна 1. Поэтому для отображения соотношений комгт нент достаточно просто построить треугольник на плоскости.
Три компоненты представлены осями, которые проходят из вершины тр«^ гольника до середины противоположного основания (медианами треугольник и положение каждой точки определяется значениями, отложенными по соответ• Н ющим осям. Присмотревшись к графику, вы легко заметите, что в вершинах трг| гольника имеется лишь одна ненулевая компонента смеси, тогда как на сгорав! треугольника — две компоненты не равны нулю, а одна компонента нулевая. 1
графики
285
Кные графики можно проиллюстрировать следующим примером, рассмот-работе Вайнера (Wainer, 1995).
рационального бюро по развитию образования (National .Assessment of ol Progress (NAEP)) для студентов показали наличие трех уровней обра-и: Высшее/Профессионольное (AdVanced/Pmficient), Среднее (Basic) и Не-чуднее (Below Basic). Результаты, полученные в различных регионах, мо-жгёьпь изображены на тернарном графике, где по каждой из трех осей отложена студентов соответствующего уровня образованности.
! На показанном выше графике (Weiner, 1995) видно, что 37% студентов штата Айова (Iowa) имеют Высшее (AdVanced) или Профессиональное (Proficient) обра--1 дование, 44% — Среднее (Basic) и 19% — Неполное среднее (Below Basic). Для сравнения, только 1% студентов Вирджинских островов (Virgin Islands) имеют Высшее Kj lAdVanced) или Профессиональное (Proficient) образование, 12% — Среднее (Basic) UU7% Неполное среднее (Below Basic).
Вайнер также обсуждает другое интересное применение графиков в треугольных координатах. Подобный график был использован для изучения доли голосов, ♦"данных за каждую из трех британских иолитичсских партий на всеобщих выбо-мх в 1987 и 1992 гг. Заинтересованные читатели найдут подробную информацию • работе: Weiner (1995). Visual revelations, Chance, 8, p. 48-54.
£. 2M диаграмма рассеяния
к На этих графиках треугольная система координат используется для пиырисния ВЬвлсиМрсГ1| трех (иди более) переменных (компонент X. У и Z) на плоскости.
286
Глава 6. Трехмерный визуальный анализ
На приведенном трафике изображены точки, соответствующие долям пе ных-компонснт(Х. FhZ).
Ql> ЗМ диаграмма рассеяния
На этом типе тернарных графиков в треугольной системе координат в трех» м пространстве строится зависимость четырех (или более) переменных (кпмв^ц X, Yu Zu откликов V1, V2 и т. д.) — тернарные трехмерные диаграммы рассев или графики поверхности
На этом тернарном графике отклики (V/, V2 и т. д.), соответствующие опв ленным долям цсрсменных-компонент (X, Ей Z), откладываются в виде высот^
Поверхность
Здесь па трехмерном тернарном графике поверхность представляет собой рему тат подгонки к набор}' данных из четырех координат.
Карта линий
В данномтипе тернарных графиков трехмерная поверхность (подогнанная 1 ру данных из четырех координат) проектируется на плоскость в виде л уровня.
~pgie графики
287
зонная карта
том типе тернарных графиков трехмерная поверхность (подогнанная к набо-- данных) проектируется на плоскость и виде карты зон
jg) Трассировочный график
В данном случае можно исследовать связи между четырьмя и более переменными <Х У, Z и VI, V2 и т. д.) с помощью соединения точек на графике в той последовательности, в какой они расположены в файле данных.
Кроме перечисленных выше вариантов, после построения графика в диалого-юм окне Общая разметка можно также выбрать следующие типы графиков
Ш Пространственный график
Этот тип тернарных графиков предлагает особенный метод представления трехчерных диаграмм рассеяния с использованием плоскости X- Y-Z (определенной в феугольной системе координат), которая располагается на заданном полыовате-,ем уровне вертикальной осн У(эта ось проходит через середину плоскости).
288 Глава 6. Трехмерный визуальный анализ да.
Уровень расположения плоскости X- Y-Z можно подобрать таким образ- ид « бы разделить пространство Х-Y-Z на значимые части (например, для различной структуры связей переменных).
(7) Диаграмма отклонений
Эта диаграмма похожа на пространственный график, но на ней не отображав плоскость, от которой отсчитываются отклонения
Подгонка
Приведенные ниже четыре уравнения регрессии можно использовать для по гь кп зависимостей на тернарных графиках. Обратите внимание, что уравнения лучены из стандартных полиномов с учетом ограничения на значения комло; (X. Y, Z). сумма которых для каждого наблюдения равна постоянной величине! пример, 7,0).
Простейшая модель первого порядка:
V=c + ilxX + i2xy+i>3xZ
с о граничением Х+ Y+Z= 1, может быть построена с помощью умножения коэф шгента а на 1—Х+ Y+Z:
V-exX+оХ Y+axZ+blxX + b2x Y+b3xZ
Это выражение можно упростить:
V - (а+М ) х X + (о+М) х Y + («+63) х Z
или записать таким образом:
V=M’xX + i2*x V+WxZ
Ниже j перечислены доступные в STATISTICS функции полшюлшалъной регрег-Q Линейное сглаживание (полином первом сте пени):
V=felxX + ft2x Y+b3xZ
О Квадратичное сглаживание (полином второй степени):
V-M хХ + £>2х y+*3xZ+412xXx Y + M3xXxZ + Ь23х YxZ
Q Полное кубическое сглаживание-
V-bl хХ+й2х F+*3xZ+M2xXx y+M3xXxZ+623 х yxZ+Ш *!
Fx(X-Y) + M3xXxZx(X-Z) + 623x YxZx(Y-Z) + 7-123 хXX Y
категоризованные графики
289
г
» ^„ециальное кубическое сглаживание:
Ч+Ь2х y+h3xZ+fel2xXx F+M3xXxZ+i23x FxZ+M23xXx YxZ
Трехмерные категоризованные графики
Tiin статистических графиков позволяет создавать трехмерные категоризо- «гые таграммы рассеяния (и трассировочные график»), карты линий уровня и Твеохности- При этом используются заданные категории выбранной переменной спи ДРУг,|е ся°с°бы логической группировки наблюдений.
I	На графике представлена та же информация, что и на трехмерном графике рас-
сеяния, графике поверхности пли карте тений уровня, за исключением того, что щесь для каждой заданной пользователем группы или категор!i и показан свой график. Основной смысл таких графиков — упростить сравнение групп или категорий, отражающих связи между тремя или более переменными.
В общем случае трехмерные XYZ (рафики отображают динамические связи меж-<У тремя переменными. С помощью различных способов категоризации данных можно иссчедовать связи в определенных группах данных
Например, положительная взаимосвязь между возрастом, состоянием здоровья и удовлетворенностью жизнью наблюдается при опросе жен шии, но не мужчин.
290
Глава 6. Трехмерный визуальный анализ данщ
Поскольку категории создаются с помощью лш ических условий, которые опгу деляют подгруппы, то можно пойти дальше и построить другие графики — ра-,м< лив группу мужчин на одиноких или разведенных п женатых, можно вы Ы лить в отдельную группу одиноких мужчин с высокими доходами и т п.
Из приведенных ниже категоризованных графиков повер хности (и соответсти! юших нм карт линий уровня) можно сделать заключение о том. что задание в-  чины допусков на приборе не влияет на исследуемую взаимосвязь меж iy pi . н татами измерений (Dependl, Depend? и Height.) за исключением гчучаев, когд;« м величина <3.
Иногда карты линий уровня легче анализировать, чем графики поверхн(»-л| (что хорошо видно из следующего примера)
ID'
tlKJKI linn
Таким образом, ЗМ категоризованные графики представляют собой m«wh! исследовательский инструмент для изучения сложных взаимосвязей м« жду nq меиными п группами наблюдении.
Категоризованная ЗМ диаграмма рассеяния
На этом типе графиков отображаются связи между тремя переменными (предо т; ляющпми координаты X. У и Z (вертикаль) в трехмерном пространстве), ран
Трехмерные категоризованные графики
291
лечными на категории с помощью группирующей переменной пли путем задания подгрупп.
Категоризованный пространственный график
В данном случае в одном графическом окне строится несколько пространственных графиков (для групп категоризованных данных).
Категоризованная спектральная диаграмма
На этом типе графика трехмерное пространство разделено на области, в которых данные «сжаты» в соответствующие спектральные плоскости.
292
Глава б. Трехмерный визуальный анализ данщ
Категоризованная диаграмма отклонений
На этом типе графиков точки данных (заданные координатами X, Yu Z) предстг лены в виде «отклонений» от определенного базового уровня на оси Z.
|gg Категоризованный график поверхности
С помощью этой функции будет построена поверхность (методом сглаживания или по заданному математическому выражению) для категоризованных данных
Карта линий уровня
Карта линий уровня — это проекция трехмерном поверхности на двумерную пло< кость. На ней линиями обозначены одинаковые «высоты» (равные значения nept • менной Z).
((атегоРизованнь1е теРНарные графики
293
«П i Зонная карта
^7 гаком графике одинаковые «высоты» (значения переменной Z) на поверхности (зоны между контурными линиями одинаковой высоты, см. предыдущий тип графика) показаны областями одинакового цвета и вида.
Категоризованные тернарные графики
Категоризованные тернарные графики используются для исследования взаимосвязей между тремя и более переменными, когда три из них представляют собой компоненты смеси для каждого значения группирующей переменной (то есть между ними существует жесткая связь, заключающаяся в том, что их значения в сумме дают постоянную величину для всех наблюдений).
294
Глава 6. трехмерный визуальный анализ даь
На тернарных графиках для построения зависимости четырех (или более/ и< ременных (компонентов X, У и Z и откликов VI. V2 и т. д.) используется тг угольная система координат на плоскости (тернарные диаграммы рассеяния г. линии уровня) или в пространстве (тернарные трехмерные диаграммы ра« • < ния или поверхности). При построения тернарного графика относительная Ш каждой компоненты (для каждого наблюдения) ограничена их общей пии«ч ной суммой (например, 1). По умолчанию при создании графика масштаб д-м изменяется таким образом, что эта сумма для каждого наблюдения смюви i равной 1. В вершинах треугольника имеется только одно ненулевое опачени компонент смеси.
На категоризованных тернарных графиках для каждого уровня труп пир'»Ml переменной (или заданной польюватедсм подгруппы) строится отдельный г фик. Все эти графики располагаются в одном графическом окне для сравняй групп данных (категорий).
Обычно такие графики используклся в экспериментах гд»1 отклик зависит относительного содержания трех компонент (например, трех различных чш ческих соединений). Причем это соотношение варьируется с целью определи его оптимального значения (например, при исследовании смесей) Эти типы i фиков могут быть также использованы в том случае, когда необходимо сравн группы или категории данных при наличии жестко заданной связи между менными.
/X Категоризованная 2М диаграмма рассеяния
На таких графиках треугольная система координат используется для uocip ния зависимости трех (или более) переменных (компонент X, Y а X) па пл кости.
категоризованные тернарные графики 295
Здесь изображены точки, представляющие собой доли переменных-компонент (X, Уи Z).
Q ЗМ диаграмма рассеяния
Для данного типа тернарных графиков в треугольной системе координат в трехмерном пространстве строится зависимость четырех (или более) переменных (компонент X, Yи Хи откликов V1, V2ht. д.) (тернарные трехмерные диаграммы рассеяния или графики поверхности)
На этом тернарном графике отклики ( VI, V2 и т. д_), соответствующие определенным долям переменных-компонент (X, Y и Z), откладываются в виде высот точек.
(SJ Поверхность
Здесь на трехмерном тернарном графике поверхность представляет собой результат подгонки к набору данных из четырех координат.
296
Глава 6, Трехмерный визуальный анализ данщ
Карта линий
В этом типе тернарных графиков трехмерная поверхность (подогнанная к 4-j ному набору данных) проектируется на плоскость в виде линий уровня
£\ Зонная карта
В данном случае трехмерная поверхность (подогнанная к 4-координатному наб| ру данных) проектируется на плоскость в виде карты зон.
Трассировочный график
С помощью таких графиков можно исследовать связи между четырьмя и бол» переменными (X. У, Zu V1, V2 и т. д.) путем соединения точек в той пос ледовател] ности, в какой они расположены в файле данных.
^егоризованные тернарные графики 297
Q Пространственный график
Этот тип тернарных графиков реализует специальный метод представления трехмерных диаграмм рассеяния с использованием плоскости X-Y-Z (определенной в треугольной системе координат), которая располагается на заданном уровне вертикальной оси V (эта ось проходит через середину плоскости).
Уровень расположения плоскости X- Y-Zможно подобрать таким образом, чтобы разделить пространство X-Y-Z на значимые части (например, для выделения различной структуры связей переменных).
(jZJ Диаграмма отклонений
Эта диаграмма похожа на пространственный график (см. выше), по на ней не отображается плоскость, от которой отсчитываются отклонения.
Подгонка
Приведенные ниже четыре уравнения регрессии можно использовать для подгонки Данных на статистических, категоризованных или полыювате'гьских тернарных графиках. Обратите внимание, что эти уравнения получены из стандартных полиномов с учетом ограничения на значения компонент (X, Y, Z). сумма которых Для каждого наблюдения равна постоянной величине (например, 1,0). Например, простая модель первого порядка:
V=« + fe! хХ + 62х Y+b3xZ
298
Глава 6. трехмерный визуальный анализ данн^»
с ограничением X+Y+Z=l может быть построена с помощью умножения коэфф» цпента а на 1 =Х+ Y+Z:
V=cxX + axy+cxZ+*lxX+*2xy+*3xZ
Это выражение можно упростить:
V= (a+bl) X X + (а+Ь2) X У+ (а+*3) х Z
или записать таким образом:
V=bV хХ + Ь2’ хУ+63'xZ
Ниже показаны доступные функции полиномиальной регрессии:
о Линейное сглаживание (полином первой степени):
V’MxX + 62x Y + bdxZ
о Квадратическое сглаживание (полином второй степени):
V-*1 хХ+*2х У + *3xZ+Ы2хХх У+*13xXxZ+*23х yxZ
о Полное кубическое сглаживание:
V MxX + fc2xy+*3xZ+fcl2xXxy+il3xXxZ + *23xyxZ-»
М2 х Xх Ух (Х-У) + ИЗ х Xх Zx (X-Z) + *23 х Ух Zx (У-Z) + М23 х Хх Ух Z
о Специальное кубическое сглаживание:
V = *l хХ + *2 х У+*3xZ+*12 хХх У+*13 xXxZ+*23х Ух Z-»
M23xXxyxZ
Можно задать пользовательскую функцию. Однако такие функции не подгоняются к данным, а лишь накладываются на график.
Графики пользовательских функций
В отличие от других типов графиков, здесь не нужно выбирать переменные. Вместо этого программа попросит вас ввести формулу для построения графика. В этом режиме можно построить график не по значениям переменных файла данных, а п< заданной пользователем формуле (то есть отобразить пользовательскую функцию) например:
грмчные графики
299
 На данном типе трафика можно в явном виде задать диапазон изменения пере-f „Пных. Например, можнозадатьлнгнимальноеимаксимальноезначеиия для обеих хей (Х11 Y) равными соответственно О и 100
Есть два основных варианта применения графиков функций, заданных пользователем.
Наиболее очевидный — исследование конкретной функциональной зависимо-ти (например, проверка соответствия данных конкретной теоретической модели [ исследуемого процесса или явления).
Другое направление — это разведочный анализ данных, когда необходимо изу-I 4JtTb форму функциональной зависимости в различных диапазонах значений ар-
С шдуюшпм шагом такого исследования, конечно, является статистическая проверка качества подгонки функции к конкретным данным.
Матричные графики
Матричные графики используются для графического представления зависимостей между переменными некоторого множества в виде матрицы обычных двумерных графиков. Чаще всего в качестве матричных графиков используются диаграммы । 1ссеяния, их можно рассматривать как метод визуализации корреляционных матриц исследуемых переменных
На приведенном графике для каждой пары переменных построена диаграмма сеяния с изображен noil на ней прямой линейной регрессии
Матрицы диаграмм рассеяния могут бы гь не только квадратными (как на приведенном рисунке), но и прямоугольными, если были выбраны два списка пере-д<-ниых (по аналогии с прямоугольными матрицами корреляции). Если испиль-
300
Глава 6. Трехмерный визуальный анализ даш
зуется квадратная матрица, то на диагонали вместо диаграмм рассеяния бу/ построены гистограммы для соответствующих переменных
Подобные графики предоставляют эффективный способ визуального анал1, зависимостей между исследуемыми переменными Например, с их помощью , набора переменных легко выделить переменные, которые не коррелируют с др, гими переменными.
Матрицы линейных графиков
Рассмотренные выше матрицы диа1ра.мм рассеяния обьтчпо используются для гра фического представления зависимостей между некоторыми случайными псрем> ними. Для изображения многоступенчатых процессов применяются, как правц матрицы линейных графиков.
Например, на построенных матричных графиках изображено несколько . личных зависимостей переменной У (состояние процесса) от одной переменной Д (времен и); таким образом, на одном рисунке может быть построено сразу нссксЗ ко изучаемых процессов (временных рядов).
Типичным применением матричных графиков является одновременное из< ражение на одном графике распределений анализируемых переменных к завис мостей между ними
Матричные
графики
301
Матричная диаграмма (FACTOR STA Юл’ЮОн)
Это бывает полезно при выборе масштаба измерении или проведении разведочного анализа данных (например, обработка анкет, экономической ин^юрмацим, данных о контролируемом процессе н т. л.).
При проведении разведочного анализа данных бывает необходимо изучить влияние отдельных наблюдений, удовлетворяющих некоторому условию, на общим вид зависимости между переменными. Это можно сделать с помощью логических Условий выделения подмножества наблюдений для построения матричного гра Фика.
302
Глава б. Трехмерный визуальный анализ данн|
Матрица рассеяния
На этом матричном графике представлены двумерные диаграммы рассеяния, н; каждой из которых значения переменной из строки используются в качестве ко ординат X. а значения переменных из столбца — в качестве координат Y.
Гистограммы, изображающие распределения каждой переменной, расположу ны на главной диагонали матрицы (в квадратных матрицах) или по краям (в пря моутольных матрицах).
ёл Матрица линий
При выборе этого типа графика создается матрица линейных (то есть иепослч довательных) ХУ-графиков (подобно матричной диаграмме рассеяния), на кот i рых отдельные точки соединены линиями в порядке их появления в фай| ле данных.
Гистограммы, изображающие распределения каждой переменной, располаг^ ются на главной диагонали матрицы (в квадратных матрицах) или по краям (в прямоугольных матрицах).
1Тричные^рафики
303
g£] Матрица столбцов
Ла этом графике матрица состоит из сто чбчатых диаграмм, на которых представ-je“bi проекции отдельных точек данных на ось А' (показывающие распределение . 1кснмалы)ых значений).
Гистограммы, изображающие распределения каждой переменной, расположены на главной диагонали матрицы (в квадратных матрицах) или по краям (в прямоугольных матрицах).
Подгонка функции к данным
[/_ Линейная подгонка
Линейная функция (У • а + ЬХ) подгоняется к точкам каждой двумерной диаграммы рассеяния. Параметры а, Ь оцениваются методом наименьших квадратов. Заметьте, что прямая не проходит через наблюдаемые точки, а располагается мак-с,<* " |ьно близко к ним (выбором а, b минимизируется сумма квадратов расстоянию । точек до прямой) То же относится к другим пиниям (см. ниже)
304
Глава 6. Трехмерный визуальный анализ дань
\(~ Логарифмическая подгонка
К данным подгоняется логарифмическая функция вида:
_y-?x[logBx] +b.
где основание логарифма (и) выбирается пользователем (по умолчанию испо? зуется натуральный логарифм по основанию е. где е = 2,71. .).
Экспоненциальная подгонка
По данным подбирается экспоненциальная функция вида. у = Ьх ехр(^хг)
4чные графики
305
подгонка сплайнами
В данном случае производится сглаживание данных бикубическими сплай-нами
|у\ Полиномиальная подгонка
Здесь методом наименьших квадратов данные аппроксимируются полиномом вида
у - Ьв + А,хх + Ь2хх1+Ь3 хх3-г...+ Ья хх”,
где п есть степень полинома (1<п<6). Степень полинома может быть выбрана.
Кривая подгоняется к координатам данных с помощью процедуры сглаживания Методом взвешенных относительно расстояния наименьших квадратов (влияние отдельных точек уменьшается с увеличением горизонтального расстояния от соответствующих точек на кривой).
306
Глава 6. Трехмерный визуальный анализ де
Кривая подгоняется к координатам X, Уданных с. помошью процедуры экспо циально взвешенного сглаживания с отринат • -льным пс	••.н-д.
Влияние отдельных точек уменьшается с увеличением горизонтальном стояния от соответствующих точек на кривой.
— Визуальный анализ / категоризованных данных
Как всегда, мы начинаем главу с обзора всевозможных графиков, преследуя оче- вндцую цель — дать читателю максимально полное представление о способах визуализации ка тегоризованных данных с тем, чтобы привести к осознанному, а не спонтанному выбору необходимого метода. Дополнительный материал и примеры содержатся также в других главах по визуальному анализу.
Вначале поймем идею категоризованных графиков
Что такое категоризованные графики?
Категоризованные графики, также называемые Casement plots (см. фундаментальный труд по визуализации Chambers, et aL (1983) Graphical methods for data analysis. Belmont, C A: Wadsworth), позволяют визуализировать категоризованные данные, иными словами, данные, разбитые на группы (категории) с помощью одной или нескольких группирующих (категоризующих) переменных (от ангаийского categorized variables — категориальные переменные). В качестве группирующих переменных обычно используют категориальные (см. описание типов переменных в главе Элементарные понятия).
О тмстим, что разбиение данных на группы и проведение анализа внутри групп является чрезвычайно важным приемом анализа, постоянно используемом в практической работе. Например, известный прием сегментации рынка представляет I собой частный случай категоризации.
Итак, с помощью группирующих переменных наблюдения из исходного файла данных разбиваются на несколько однородных групп (например, клиенты супер-। маркета разбиваются по уровню дохода или по признаку: имеет — не имеет маши-[ ЧУХ и Для каждой группы строится свой график, показывающий специфику данных
Так как групп несколько, то создаются серии двумерных и трехмерных графиков (гистограммы, диаграммы рассеяния, линейные графики, графики поверхности и др), поодному для каждой выбраннойгруппы — category случаев (непересекаюшихся подмножества наблюдений). Например, такими грушами могут быть пользователи Ин-^нет из Нью-Йорка, Чикаго, Далласа или Москвы, Санкт-Петербурга н Смоленска
I Такие «составные» графики помещаются последовательно, один за другим, наэкране •^мпьютера, позволяя сравнивать данные в каждой группе (например, в группе горо-д°в иди среди клиентов с разным уровнем дохода). Часто удобно собрать категоризо-
I Ванные графики в один составной график для чего в STATISTICA имеются все пт' *-I ®Д1Имые средства
308__________
Глава 7. Визуальный анализ категоризованных да.
Для выбора групп обычно предоставляется широкий набор опций, напбола личная из которых использует категорил/юиу/ю переменную, то есть перемен производящую разбиения на группы своими собственными значениями, напри переменная Город — City стремязначениями Нью-Йорк — New York, Чикаго — Ch, н Даллас — Dallas.
На следующем графике показаны гистограммы модельной переменной, и ряюгцей уровень стресса жителей в трех городах США
Взглянув на графики, можно сделать вывод, что стресс людей, живущих в Д часе, более равномерно распределен, чем стресс жителей Нью-Йорка паи Чик (данные носят модельный характер).
Очевидно, что вместо одной группирующей переменной можно использош две или больше. Далее показаны графики с двумя группирующими переменны
Такие категоризованные графики можно рассматривать как «кросстаЬ>ляп • или «сопряжение» графиков (сравните с таблицами сопряженности). На них к дая из зависимостей представлена на пересечение одного уровня одной группы ющей переменной (например. Город — City) и одного уровня другой группиру щей переменной (например. Время — Time). Таким образом, имеем 6 график (3 уровня переменной Город умножить на 2 уровня переменной Время).
Добавление второго фактора (второй группирующей переменной) покааыв что схемы сообщении о стрессах в Нью-Йорке и Чикаго на самом деле очень сЖ но различаются, если принять во внимание Время опроса. Иными словами, су
Категоризованные графики и матричные графики
ствсино зависят от того, когда именно проводился опрос, утром или вечером. Заметьте, что в Далласе фактор времени суток вносит незначительные изменения.
рассмотрим также модельные данные о работе в Интернете пользователей из различных городов (фрагмент файла см ниже):
Ниже показан категоризованный график, позволяющий визуально представить интенсивность работы в различных городах в зависимости от времени суток.
саз
Время работы
Категоризованные графики и матричные графики
Внешне матричные графики похожи на категоризованные, однако матричные графики строятся для одних и тех же подмножеств наблюдений, тогда как катсгори-
310
Глава 7 Визуальный анализ категоризованных дань
зованные графики строятся для разных, более того, непересекающихся групп • блюдений.
Наличие непересекающейся группы наблюдений и составляет главную особе Л ность категоризованных графиков. Собственно, идея в том и состоит, чтобы pj^. , бить данные на естественные группы и визуально исследовать зависимости меж ** I группами
В категоризованных графиках нужно указывать, по меньшей мере, одну гру >.] пирующую переменную — grouping variable, которая содержит информацию о rpj адI повой принадлежности каждого наблюдения (например, Чикаго — Chicago. Д. _ лас — Dallas). Эта группирующая переменная не будет непосредственно включен^] в график, не будет отображаться на нем. но будет служить критерием разбиении наблюдений на группы.
Выше мы познакомились с категоризованными гистограммами — гистогра--»* > мами, построенными отдельно для каждой группы наблюдений, определяем. 4. значениями группирующей переменной.
В основном гистограммы используются для Toi <>, чтобы исследовать распр. kJ ление значений переменных. Например, гистограммы показывают, какие к»нкр( | I J но значения или диапазоны значений исследуемой переменной встречаюгся на п. более часто, как отличаются значения в разных интервалах, сосредоточено Или г «Я наибольшее число наблюдений вокруг среднего или медианы, имеет ли м<чт си • метрия распределения и т. л.
Гистограммы также используются для оценки сходства (согласия) наблю т«а1 мого или эмпирического распределения с теоретическим распределением
Существуют две основные причины, по которым гистограммы пред< i .iM интерес.
О С помошью гистограммы можно выяснить существо исследуемой пере» ной (например, как распределены пользователи Интернета по возрасте II профессии, просматриваемым сайтам)
О Множество статистик основано на определенных предположениях о рл| делении анализируемых переменных, например, временные интервалы » ду заходами на сайт могут иметь гамма-распределение, и гистограмма н< гает проверить эти предположения.
1„гп~граммы и описательные статистики 311
Если вы описалитип распределения переменных, то можете построить матема-рщескую модель и провести нужные расчеты.
Часто в качестве первого шага в анализе нового набора данных следует построить гистограммы для всех переменных и всех наблюдений и далее подходящим образом их категоризовать
Гистограммы и описательные статистики
Категоризованные гистограммы — Categorized Histograms предоставляют информацию, схожую с описательными статистиками (например, среднее, медиана, минимальное значение, максимальное значение и т. д.). Несмотря на то что некоторые (числовые) описательные статистики легче читаются в таблице, общий вид и глобальные описательные статистики проше исследовать визуально.
График предоставляет качественную информацию о распределении, которая не может быть полностью представлена одним или двумя параметрами.
Например, общее асимметричное распределение дохода может показывать, что большинство людей имеет доход, который гораздо ближе к минимальному значению диапазона дохода, чем к максимальному. Кроме того, при разбиении по половому или этническому признаку эта характеристика распределения дохода может оказаться более выраженной в определенных подгруппах. Хотя эта информация будетсодержаться в коэффициенте асимметрии (для каждой подгруппы) при представлении в графическом виде на гистограмме, она обычно распознается и запо-I Пинается более легко.
Имея свой сайт, вы анализируете статистику посещений и по гистограмме °предечяетс пик интереса к сайту в течение суток.
Гистограмма может также показать «изгибы», которые представляют важную Ваформацию об определенной социальной стратификации исследуемого поколе-ННя или аномалий в распределении дохода в конкретной группе, вызванной, на-I Ример, налоговой реформой.
312
Глава 7. Визуальный анализ категоризованных дак
Категоризация значений в каждой гистограмме
Вес процедуры гистограмм, доступные в STATISTICA, предоставляют больше набор способов разбиения данных па группы.
Эти методы категоризации разделяют весь диапазон значений переменной (| минимума до максимума, если переменная числовая) на некоторое число гр« Н-1И диапазонов, для которых подсчитываются частоты (просто считается коли ство значений, попавших в данный диапазон). Далее полученные частоты пр ставляются на графике в виде отдельных столбцов или полос.
Например, можно создать гистограмму, на которой каждый столбец будет пр ci ав.-|ять диапазон из 10 единиц шкалы, которая используется для представг «ч переменной; если минимальное значение равно 0. а максимальное — 120, то бу создано 12 столбцов. Кроме того, можно сделать так, чтобы весь диапазон знг ний переменной был разделен на указанное число интервалов раяной длины ( пример, 10); в последнем случае, если минимальное значение равно 0, а Mai хгалыюе — 120, каждый интервал будет равен 12 единицам шкалы.
Имеются опции, которые поддерживают более сложные категоризации, наг мер. позволяют создать неравные диапазоны с ладанными пользователем граш ми для каждого диапазона (чтобы создать более попятные диапазоны шли об-нить выброс и увеличить читаемость средней части гистограммы). Диапаз можно также создать, определив критерии включения и исключения с иомен логических операторов (например, первый столбец гистограммы может пре х пять людей, которые за последний год летали на самолете более 10 раз, причи более 50% этих поездок были связаны с бизнесом).
Категоризация значений в составных графиках
Составные графики можно создать для уровней категоризуюшей перемел (например, переменной пол или переменной стресс, характеризующей различ уровни стресса).
,тегоризаиия значений в составных графиках
313
Значения непрерывных переменных (например, возраст, доход, цена) можно избить па заданное число интервалов или создать группы наблюдений с поморю логических условий.
Последняя возможность особен но аффективна, так как позволяет провести разбиение на группы с помощью «правил», которые используют более одной переменной. с заданием логических соотношений между этими переменными (например, таким способом можно выбрать группу, состоящую из всех людей мужского пола старше 30 лет и играющих в гольф и не любящих попсу).
В качестве еще одного примера рассмотрим данные, характеризующие стресс женщин. Значения первой переменной описывают семейное положение опрошенных женщин, значения второй переменной измеряют уровень тревоги. Известно, что точностная тревожность представляет собой устойчивую склонность личности воспринимать жизненную ситуацию как угрожающую и реагировать на нее соответствующим образом (см., например, Кокс Т. (1981) Стресс). Обычно использую! шкалу тревожности: низкая тревожность, умеренная и высокая. Для простоты ограничимся шкалой «низкая — высокая» тревожность. Файл данных показан ниже
-•^Стресс женщин f у 2
£ЕМ ПОЛ | ТРЕВОГА
П_семья Высокая
Несенья Н_семья Г)_свмья
П_с«мья Н_семья П_семья Н_семья
Низкая Высока^
Низкая
Высокая
Низкая
Низкая
Высокая
Низкая
Высокая
Откройте окно Галерея графиков, в котором выберите статистические катего-РнзоваНиые графики (левое меню) и нктограммы (правое меню). Сделав выбор, | На*Мите кнопку ОК.
314
Глава 7. Визуальный анализ категоризованных дзнн
В появившемся далее окне нажмите кнопку Переменные, чтобы выбрать п< меиные для графика.
Выберем в качестве группирующей переменной семейное положение жешд ны. Значения этой переменной разбивают данные па две группы: женщины, жщ, щие в полной семье, и женщины, живущие в неполной семье, включая одинок женщин. Анализируемой переменной будет переменная тревога, выбранная вт] тьем столбце.
Далее сделайте установки для настройки графика, как показано в окне 2М ка тегорижюанные гистограммы.
Категоризованные гистограммы и диаграммы рассеяния
315
I Возможны два способа размещения гистограмм на графике в зависимости от I .^ора. сделанного в опциях Размещение этого диалогового окна (см. графики 1нл*е>
ТРЕВОГА
ТРЕВОГА
! 13 графиков видно, что уровень тревоги женщин в неполных семьях выше, чем ных. Насколько значимо это различие, можно оценить с помощью специаль-татистичсских критериев, например с помощью критерия хи-квадрэт.
В данном примере это различие небольшое, однако и число наблюдений мало, и бы подобное различие (одно наблюдение) имело место для 100 респонден-• то. очевидно, мы отнесли бы его за счет случайной ошибки и не приняли бы во внимание
В этом и состоит существо дела' если визуально вы видите отчетливый эффект, т« ^го не имеет смысла доказывать статистически; если эффект не столь ясен, то меняют статистические критерии.
Категоризованные гистограммы и Диаграммы рассеяния
Эффектным приложением методов категоризации для непрерывных переменных Может оказаться представление связей между тремя переменными на плоскости.
316
Глава 7. Визуальный анализ категоризованных
Наверняка приведенный нами пример визуализации удивит даже искушснц аналитиков. Ниже показана диаграмма рассеяния для двух переменных Load Load 2.
Теперь предположим, что необходимо добавить третью переменную (Out[. рассмотреть ее распределение на различных уровнях совместного распредел Load 1 и Load 2 Этого можно достичь, например, с помощью следующего грае
На графике значения переменных Load 1 и Load 2 разбиты на 5 уровней, и л каждой комбинации уровней построена гистограмма переменной Output.
Подгонка теоретических распределений к наблюдаемым распределениям
Функции подгонки распределений STATISTICA. встроенные в гистограммы, I зволяют сравнивать распределение наблюдаемых данных с такими распределен ями, как нормальное, бета-, экспоненциальное, экстремальных значений, гамм геометрическое,Лапласа,логистическое,.югнсрмальное,Пуассона, Редея и Вейбул
гонка распределений к множественным гистограммам
317
I Это наиболее часто возникающие на практике распределения, и проверка со-(ласпя с ними данных иногда представляет интерес.
Обратите внимание, что программа STATISTICA также включает специальный модуль подгонки распределения (см. Непараметрическая статистика и подгонка распределений), который предоставляет широкий набор теоретических функций распределения, графиков и с татистик для проверки согласия исходных данных с выбранным распределением.
Подгонка распределений к множественным гистограммам
I Несколько архаичный термин «множественный» в анализе данных часто эквива-1ен ген слову «несколько» или «много», таким образом, множественная гистограмма F означает всего лишь, что несколько гистограмм отображены на одном графике.
При построении нескольких гистограмм на одном графике переменные пред-I ставлены смежными полосами, поэтому для каждой группы (обычно достроенной вдоль горизонтальной оси X) строится несколько полос.
Аппроксимирующие кривые могут либо точно соответствовать гистограммам, либо быть сравнимыми друге другом
Поскольку множественные гистограммы создаются для визуального сравнения Распределений в разных группах, например мужчин н женщин (а не для анализа Кач‘ ства подгонки для отдельных переменных), то STATISTICA использует вто
318
Глава 7. Визуальным анализ категоризованных дан
рое решение: ожидаемая теоретическая кривая будет -«прикреплена» к число! значениям (а не к меткам групп) осиХ. На практике это обычно не влияет на 061 нение графика, то есть очевидное отклонение переменной от ожидаемого pacni деления по-прежнему будет очевидно.
Если нам нужно «прикрепить» функции распределения к меткам групп, то мс но изменить соответствующие формулы, так что подогнанные распределения | дут сдвинуты по оси X, чтобы компенсировать сдвиг столбцов гистограмм. '
Категоризованные диаграммы рассеяния
2 М диаграммы рассеяния используются для визуализации зависимости между д в мя переменными X и У (например, вес и рост, цена и качество). В диаграммах рг сеяния отдельные данные представлены точками в двумерном пространстве. Д| координаты (X и У), определяющие расположение каждой точки, соответствуй определенным значениям двух переменных.
Если две переменные сильно связаны, то точки имеют некоторую система! ческую форму (например, группируются вдоль прямой линии или гладкой к| вой). Если переменные не связаны, то точки образуют круглое «облако» (б подробно см. главу Элементарные понятия).
Категоризованные диаграммы рассеяния предоставляют мощные исследи тельские и аналитические методы исследования соотношений между двумя и лес переменными в различных подгруппах
Нелинейная зависимость
319
Нелинейная зависимость
Нелинейность — это другая сторона зависимости между переменными, которую .„-кно исследовать на диаграммах рассеяния. Для измерения нелинейных зависи-, теп между переменными не существует простых в использовании тестов: стан-рутный коэффициент корреляции Пирсона г позволяет измерять линейною зави-: цмость, а некоторые непараметрмческие корреляции, такие как корреляция Спирмена!?, позволяют измерять так ле монотонные нелинейные связи.
Иге тедование диаграмм рассеяния даст возможность определить форму зависимости, так что в дальнейшем можно выбрать соответствующее преобразование ыппых, чтобы «линеаризовать* зависимость или выбрать соответствующее урав -н< ли 1ля нелинейного оценивания.
Глава 7. Визуальный анализ категоризованных данн
320
Категоризованньк вероятностные графики
С помощью категоризованных вероятностных графиков можно определить, нисколько близко распределение переменной следует нормальному распределен] н различных подгруппах.

Категоризованные нормальные вероятностные графики представляют эффект* иый инструмент для проверки нормальности распределения данных в отдель группах.
Если подгонка в основном неверна и данные образуют какую-либо ясную фо] (например, букву S) вокруг прямой линии, то переменную, возможно, пеобхо каким-то образом преобразовать до того, как опа будет использована в проце предполагающей нормальность (например, логарифмическое преобразованиеч
Категоризованные графики квантиль-квантиль
используется, чтобы «втянуть» конец распределения (см. Neter, Wasserman, and Kutner (1985) Applied linear statistical models: Regression analysis of variance and experimental designs, Homewood IL: Irwin).
Нормальные вероятностные графики без тренда строятся так же, как и стандартные нормальные вероятностные графики, за исключением того, что линейное смешение (тренд) убирается до того, как строится график.
Это часто «разбрасывает» график, что позволяет пользователю легко обнаружить отклонения от нормальности, например, если распределение равномерное, то возникает S-образная кривая.
Категоризованные
квантиль-квантиль
графики
Категоризованные графики квантиль-квантиль (К-К) используются для поиска наилучшего распределения в заданном параметрическом семействе распределений.
Вначале нужно выбрать, какое из теоретических распределений аппроксимирует данные. Так как выбранные семейства вероятностных распределений зави-Сят от параметров, например, среднее и стандартное отклонение для семейства йормал ьных распределений, то задача состоит в том, чтобы оценить неизвестные Параметры по имеющимся наблюдениям.
322
Глава 7, Визуальный анализ категоризованных дан>
Чтобы оценить аппроксимацию или качество подгонки наблюдаемых данны, теоретическим распределением, наблюдаемые значения переменной (х <. < упорядочиваются, строится вариационный ряд, азатем эти значения (х) строять по обратной функции распределения вероятности, обозначенной как F ' (точце, F 1 (i - rank^/n + я^, где	зависит от распределения, a rank^ и задают^
пользователем).
На графиках проверка согласия проводится визуально.
Если наблюдаемые значения попадают на линию регрессии, то можно сделан вывод, что наблюдаемые значения согласуются с выбранным распределение^ Уравнение аппроксимирующей линии (Y=a + Ах, приводится в заголовке К-К-гр;. фика) дает оценки параметров (а и Ь, где а — параметр положения, h ~ парами» масштаба) распределения.
Категоризованные графики вероятность-вероятность
Категоризованные графики вераятность-вероятшкть {В-В) используются для ош ределеиия того, насколько хорошо определенное теоретическое распределение aj проксимирует наблюдаемые данные.
На В-5-графике наблюдаемая эмпирическая функция распределения (доля зна чений переменной < х) сравнивается с теоретическим (предполагаемым) распределением. Если все точки графика ложатся на прямую с тангенсом угла наклон! I то можно заключить, что теоретическое распределение хорошо апцроксимир'. •*’ эмпирическое распределение.
Чтобы построить такой график, нужно полностью задать теоретическую фун«  цию распределения. Поэтому параметры распределения должны либо бытьза.'*' ны пользователем, либо оценены
Категоризованные линейные графики
На линейных графиках отдельные точки соединены линиями. Линейные граф»! предоставляют простой способ визуального представления последовательной большого числа значений (например, уровня цен на бирже за несколько дней).
^дтегоризованные прямоугольные диаграммы
323
Опция категоризованных линейных графиков — Line Plots используется, если нузкпо посмотреть эти данные, разбитые группирующей переменной на фуппы /например, цены при закрытии по понедельникам, вторникам и т. д.) или другими логическими критериями, включая одну или более переменных (например, цены при закрытии только в те дни, когда индекс на двух других биржах и Dow Jones поднялся по сравнению с остальными расценками при закрытии).
В системе STATISTIC А можно экспериментировать с различными стилями визуализации категоризованных последовательностей значений, изменяя Тип графика — Graph Туре в диалоговом окне Разметка графика — Plot Layout.
Методы сглаживания
Процедуры сглаживания доступны также и для категоризованных линейных графиков, например, как показано на следующем рисунке:
Категоризованные прямоугольные Диаграммы
^а прямоугольных диаграммах — Box Plots (термин впервые использовал извест-«Ый статистик Тьюки (Tukey) в 1970 г. — см.: Tukey J.W. (1972) Some graphic at>d semigraphic displays. In7 Statistical Papers in Honor of George W Snedecor;
324
Глава 7, Визуальный анализ категоризованных дан»
ed. Т. A. Bancroft, Arnes, IA‘ Iowa State University Press, p. 293—316) диапазоны эн чений выбранной переменной (или нескольких переменных) строятся отделы для групп наблюдений, определенных значениями категоризующих переменны:
Положение центра данных (медианы или среднего) и диапазон вокруг него а также, например, квартили, стандартные ошибки или стандартные отклонена вычисляются для каждой группы наблюдений
На приведенном графике видны выбросы (в данном случае точки, отстоящи больше или меньше, чем в 1,5 раза по отношению в межквартильному диапазону1
>!
I г!
	И4	
		
		Фа
Однако на следующем трафике нет очевидного выброса или экстремальных зна чений.
J Н| hg 1		
		
g lit’ ' 1		
	ЙЙИиЬйб	
	IIA.	HUKf	rUMWr	ijJ
Для прямоугольных диаграмм существует два типа приложений: а) отображс! диапазонов значений для отдельных объектов наблюдений (например, обычная , кимаксная диаграмма — MIN-MAXplot для акций или товаров, или составные пои Новотельные графики — sequence dataplots с диапазонами) и б) отображение нзм чивости данных в отдельных группах или примерах (например, диаграммы «я пи и усы» или диаграммы размахов, в которых среднее — это точка внутри «яшп! плюс-минус стандартная ошибка «яшмк», а плюс-минус стандартное отклонен^ среднего — более узкий «ящик», или, как иногда говорят, пара «усов»).
Прямоугольные диаграммы позволяютбыстро вычислить и «интуитивно предс вить» силу связи между группирующей и зависимой переменной.
Предполагая, что зависимая переменная распределена нормально, и зная, кая часть наблюдений попадает, например, в ±1 или ±2 стандартных отклопег от среднего, можно легко вычислить результаты эксперимента и сказать, напр
связанные графики
325
I мср>что около 95% наблюдений в экспериментальной группе 1 принадлежат диа-[ паэону. отличному от 95% наблюдении группы 2.
Кроме того, можно строить так называемые усеченные средние значения (trimmed ' wjefl^s), исключая заданный пользователем процент наблюдений из экстремаль-' ных значений.
Связанные графики
«Ящики и усы», или диаграммы размаха
Этот тип статистических категоризованных графиков по умолчанию помещает «яшмк» вокруг центра (то есть среднего пли медианы), который представляет собой выделенный диапазон (то есть стандартную ошибку, стандартное отклонение, минимакс или константу), и «усы» снаружи «ящика», которые отображают другой выбранный тип диапазона.
Ширину «ящика» и засечек «усов», конечно, можно менять.
RH] «Усы», или диаграммы диапазонов
В этом типе прямоугольных диаграмм диапазон (то есть внутригрупповая стандартная ошибка, стандартное отклонение, минимакс или константа) представлен «т'сами» (отрезком прямой с засечками на обоих концах).
«Ящики», или прямоугольники
В этом типе прямоугольных диаграмм вокруг средней точки (то сеть среднего груп Пы или медианы) помещается «ящик», который представляет выбранный днапа-
ЦЩ Столбцы
В этом виде прямоугольных диаграмм для представления средней точки (средне го группы или медианы) используются вертикальные столбцы.
^тргоризованные круговые диаграммы
327
«ул верхние и нижние засечки
Вэтом виде прямоугольных диаграмм «засечки* на «усах» не симметричны, а сдвинуты влево, представляя традиционный график «пен на акции».
Категоризованные круговые диаграммы
Круговые диаграммы являются одним из наиболее часто используемых форматов графиков, которые используются для представления пропорций или значений переменных.
М арх С агоре йог 1
В - Snapprp Empire
С - Snapprrglaeas О - Esit Соя Ware,
Е Dracotrt Oixlet
F - Mike, Мак
Построенные категоризованные круговые диа1-раммы всегда будут рассматриваться как частотные — frequency круговью диаграммы (в противоположность круговым диаграммам данных). Этоттип круговых диаграмм иногда называют чде-Могтюй круговой диаграммой — frequency pie chart.
Относительные частоты представлены как секторы крута пропорциональных Размеров. Поэтому круговые диаграммы предоставляют альтернативный гисто-фаммам метод визуализации данных.
328
Глава 7, Визуальный анализ категоризованных,
Секторы круга можно пометить числовыми или текстовыми значениями, ме ки могут включать непосредственные или относительные значения частот.
Круговые диаграммы рассеяния
Полезным приложением категоризованных круговых диаграмм является предст, ление относительной частоты распределения переменной в каждой точке совме, ного распределения двух других переменных Следующий график наверняка у, вит вас.
Обратите внимание, круги нарисованы только в тех «местах», в которых & данные. Поэтому приведенный выше график выглядит как диаграмма рассеяГ (переменных L1 и L2) с отдельными кругами в качестве указателей точек.
Кроме информации, содержащейся в простой диаграмме рассеяния, ка»У круг показывает относительное распределение третьей переменной па соответсп ющем месте (например, Низкое — Low, Среднее — Medium, Высокое качество — I Quality).
jtatL ’ эризованные трехмерные графики
329
Представленный график служит прекрасным образцом совмещения диаграмм сеяния и круговых диаграмм. О и также показывает, в каком направлении сле-•7" двигаться в визуальном анализе данных, чтобы получить действительно эффективный результат
Категоризованные диаграммы пропущенных данных и диаграммы диапазонов
(Эти графики позволяют определить шаблон распределения пропущенных данных и заданных пользователем точек, лежаших «вне диапазона», для каждой категории наблюдений.
Подобные графики используются в разведочном анализе для того, чтобы определить протяженность и «выход из диапазона» данных.
В большинстве процедур пропущенные данные удаляются, используя попарное пли построчное удаление пропущенных данных или подстановку среднего значения вместо пропуска.
Категоризованные трехмерные графики
К эгому типу относятся трехмерные диаграммы рассеяния (пространственные графики, спектральные графики, диаграммы отклонения и трассировочные графики), диаграммы линий уровня и графики поверхности для наборов случаев, заданных определенными группами выбранной переменной или «руппами, определенными заданными пользователем условиями выбора случая (наборы можно определитьс помощью логических выражений, использующих любые переменные текущего набора данных).
Информация, представленная на этом графике, в точности та же. что и на нека-Тегоризованной трехмерной диаграмме рассеяния, или диаграмме линий уровня, илн графике поверхности, за исключением того, что для каждой заданной пользователем «руины наблюдений строится один «рафик.
330
Глава 7 Визуальный анализ категоризованных дань
Основное назначение данного графика — облегчить сравнение групп или горим независимо от соотношений между тремя или более переменными.
В основном трехмерные XYZграфики обобщают соотношения между тремя пе ременными. Различные способы, которыми могут быть категоризованы данные позволяют посмотреть состав этих соотношений с помощью какого-либо другоп критерия (например, групповой принадлежности).
Заметьте что эффект более заметен, если переключиться на режим отображения линий уровня.
» Bl II IIIIK9
Категоризованные тернарные графики
Категоризованные тернарные графики можно использовать для исследования соотношений между компонентами смеси, сумма значений которых равна констзн-те, для каждого уровня группирующей переменной.
332
Глава 7. Визуальный анализ категоризованных де
На тернарных графиках для построения четырех (или более) переменных (к-поненты X, Y и Z, отклики VI, V2 и т. д.) в двух (тернарные диаграммы рассеяние или линии уровня) „ли трех измерениях (тернарные графики поверхности) „< пользуются треугольные системы координат.
В категоризованных тернарных графиках для каждого уровня групциру» переменной (или заданного пользователем набора данных) строится один состщЗ ной график, и все составные графики отображаются на одном экране, чтобы мох, но было производить сравнения наборов данных (групп).
Типичным приложением этих графиков является эксперимент с результатами зависящими от относительных пропорций компонентов, входящих, наириме»  состав нового лекарства, моющего вещества или духов, которые варьируются с щ лью определения оптимального состава.
Этот тип графиков также можно использовать в случаях, когда соотношении между связанными переменными нужно сравнить внутри труни данных.
g Пиктографики
На статистических пиктографиках наблюдения или отдельные испытания пред-сТавлены в виде символов со многими элементами.
Основная идея использования пиктографиков состоит в представлении отдельных наблюдений в виде некоторых графических объектов, где значения переменных соответствуют определенным свойствам или размерам этих объектов (как правило, одно наблюдение равно единому объекту). Это соответствие таково, что внешний вид объекта изменяется в зависимости от набора значений.
Таким образом, появляется возможность однозначно «идентифицировать» объекты по набору значений. Изучение таких пиктограмм помогает обнаружить специфические наборы простых соотношений и взаимосвязей между переменными.
Анализ пиктографиков
В идеальном случае анализ пиктографиков осуществляется в пять этапов.
1)	Определяется порядок анализируемых переменных. Очень часто наилучшим решением является случайная последовательность. Можно также попробовать ввести переменные в порядке их расположения в уравнении множественной регрессии в зависимости от величины их факторных нагрузок на интерпретируемый коэффициент или использоватьаналогичные многомерные методы. Это иногда позволяет упростить и сделать «однородным» общий вид пиктограмм, чтобы облегчить задачу распознавания не слишком
334
Глава 8. Пиктографу
отличающихся друг от друга картинок. В то же время, использование т^ед ' методов может усложнить задачу поиска некоторых взаимозависимости На этом этапе невозможно дать никаких ун нверсальных рекомендацищкрЗ ме совета попробовать самый быстрый метод (случайный выбор порядщ । до того, как применять более сложные методы.
2)	Проводится поиск любых возможных закономерностей, таких как схддстЯ I между группами пиктограмм, выбросы или специфические соотношения I между элементами пиктограмм (например, «если на пиктограмме звезды первые два луча длинн