Author: Левин Д.М. Стефан Д. Кребиль Т.С. Беренсон М.Л.
Tags: компьютерные технологии социальная (общая) психология историческая психология личность психология семьи, быта, воспитания детей менеджмент бизнес
ISBN: 5-8459-0607-5
Year: 2005
Статистика для менеджеров с использованием Microsoft* Excel ЧЕТВЕРТОЕ ИЗДАНИЕ ЛЕВИН СТЕФАН КРЕБИЛЬ БЕРЕНСОН PEARSON Прилагается компакт-диск с программным обеспечением rrnticc Hall www prenhall com/le vine www.wrlliamspublishing.com
Статистика для менеджеров с использованием Microsoft* Excel Четвертое издание
Statistics for Managers Using Microsoft® Excel Fourth Edition David M. Levine Bernard M. Baruch College, Zicklin School of Business, City University of New York David Stephan Bernard M. Baruch College, Zicklin School of Business, City University of New York Timothy C. Krehbiel Miami University, Richard T. Farmer School of Business Administration Mark Berenson Department of Information and Decision Sciences, School of Business, Montclair State University PEARSON 1 111,11 “-Ч. Prentice Hall Prentice Hall Upper Saddle River, New Jersey 07458
Статистика для менеджеров с использованием Microsoft® Excel Четвертое издание Дэвид М. Левин Колледж Бернарда М. Баруха, Школа бизнеса Зиклина, Городской университет Нью-Йорка Дэвид Стефан Колледж Бернарда М. БарухасШкола бизнеса Зиклина, Городской университет Нью-Йорка Тимоти С. Кребиль Университет Майами, Школа делового администрирования Ричарда Т. Фармера МаркЛ. Беренсон Факультет информатики и теории принятия решений, Школа бизнеса, Государственный университет Монклер К4 ВИЛЬЯМС Москва Санкт-Петербург • Киев 2005
ББК 88.5 С78 УДК 681.3.07 Издательский дом “Вильямс” Зав. редакцией С. Н. Тригуб Перевод с английского и редакция канд. физ.-мат. наук Д. А. Клюшина По общим вопросам обращайтесь в Издательский дом “Вильямс” по адресу: info@williamspublishing.com, http://www.williamspublishing.com Левин, Дэвид М., Стефан, Дэвид, Кребиль, Тимоти С., Беренсон, Марк Л. С78 Статистика для менеджеров с использованием Microsoft Excel, 4-е изд. : Пер. с англ. — М. : Издательский дом “Вильямс”, 2004. — 1312 с. : ил. — Парал. тит. англ. ISBN 5-8459-0607-5 (рус.) Книга представляет собой вводный курс бизнес-статистики. В ней рассмотрены практически все традиционные темы, касающиеся анализа данных, — от описательных статистик до регрессионного анализа и карт контроля. Особую ценность книге придает множество примеров, почерпнутых из практики, а также компакт-диск с большим количеством приложений, иллюстрирующих методы статистического анализа данных с помощью программы Microsoft Excel. Книга предназначена для студентов, изучающих основы менеджмента, преподавателей бизнес-школ, а также менеджеров, желающих повысить качество своей работы. ББК 88.5 Все названия программных продуктов являются зарегистрированными торговыми марками соответствующих фирм. Никакая часть настоящего издания ни в каких целях не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами, будь то электронные или механические, включая фотокопирование и запись на магнитный носитель, если на это нет письменного разрешения издательства Prentice Hall, Inc. Authorized translation from the English language edition published by Prentice Hall, Copyright ©2005,2002, 1999, 1997 All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from the Publisher. Russian language edition was published by Williams Publishing House according to the Agreement with R&I Enterprises International, Copyright © 2005 ISBN 5-8459-0607-5 (рус.) © Издательский дом “Вильямс”, 2005 ISBN 0-13-107389-3 (англ.) © Pearson Education, Inc., 2005
Оглавление Предисловие 25 1 Введение и сбор данных 33 2 Представление данных в виде таблиц и диаграмм 97 3 Описательные статистики 177 4 Основы теории вероятностей 251 5 Дискретные распределения 293 б Нормальное и другие непрерывные распределения 345 7 Построение доверительных интервалов 447 8 Основы проверки гипотез: одновыборочные критерии 519 9 Двухвыборочные критерии 579 10 Дисперсионный анализ 641 11 Критерий "хи-квадрат" и непараметрические критерии 707 12 Простая линейная регрессия 791 13 Введение в множественную регрессию 873 14 Построение моделей множественной регрессии 937 15 Анализ временных рядов 983 16 Принятие решений 1075 17 Статистические методы управления качеством и производительностью труда 1113 Ответы на избранные вопросы 1169 Приложение А Некоторые правила алгебры и арифметики 1217 Приложение Б Правила суммирования 1219 Приложение В Статистические обозначения и греческий алфавит 1223 Приложение Г Обзор компакт-диска 1225 Приложение Д Таблицы 1235 Приложение Е Установка и настройка программы Microsoft Excel 1285 Приложение Ж Дополнительные сведения о программе PHStat 1289 Приложение 3 Подготовка отчетов и презентаций с помощью пакета Microsoft Office 1293 Предметный указатель 1305
Содержание Предисловие 25 1. Введение и сбор данных зз 1.1. Что такое статистика 34 1.2. Развитие статистики и информационных технологий 35 1.3. Программа Microsoft Excel: решение проблемы или новая проблема? 36 1.4. Обучение коммерческой статистике 37 1.5. Обучение статистике с помощью программы Microsoft Excel 38 1.6. Наиболее эффективное использование программы Microsoft Excel 38 1.7. Обучение статистике по учебнику 39 1.8. Зачем нужны данные 41 1.9. Идентификация источников данных 42 1.10. Методы выборочного исследования 43 Простая случайная выборка 45 Систематическая выборка 48 Стратифицированная выборка 49 Кластерная выборка 49 Упражнения к разделу 1.10 50 1.11. Типы данных 52 Шкалы измерений 53 Упражнения к разделу 1.11 54 1.12. Оценка достоверности результатов исследования 57 Ошибки статистических исследований 57 Этические проблемы 60 Упражнения к разделу 1.12 60 Резюме 61 Основные понятия 63 Упражнения к главе 1 63 Применение Web 69 Дополнительная литература 70 Букварь Excel 71 ЕР.1. Введение в Microsoft Excel 72
ЕР.2. Пользовательский интерфейс программы Microsoft Excel 72 ЕР.2.1. Основные операции с мышью 72 ЕР.2.2. Открытие окна приложения Microsoft Excel 73 ЕР.2.3. Стандартные свойства меню и диалоговых окон программы Microsoft Excel 75 ЕР.2.4. Исправление ошибок 77 ЕР.2.5. Использование справочной системы 77 ЕР.2.6. Получение контекстных подсказок 79 ЕР.З. Основные операции над рабочими книгами 81 ЕР.3.1. Открытие рабочих книг 81 ЕР.3.2. Сохранение рабочих книг 82 ЕР.3.3. Вывод рабочих книг на печать 82 ЕР.3.4. Использование области задач для открытия рабочих книг (версии Excel 2002 и 2003) 84 ЕРЛ. Основные операции над рабочими листами 85 ЕРЛ. 1. Использование рабочих листов программы Microsoft Excel 85 ЕР.4.2. Формулы 85 ЕР.4.3. Оформление рабочего листа 86 ЕР.5. Более сложные операции с рабочими листами 87 ЕР.5.1. Копирование ячеек и формул на одном листе 87 ЕР.5.2. Копирование формул с одного листа на другой 87 ЕР.5.3. Копирование и переименование рабочих листов 88 ЕР.6. Применение мастера диаграмм 89 ЕР.7. Применение мастера сводных таблиц 91 ЕР.8. Использование надстроек 93 Основные понятия 95 2. Представление данных в виде таблиц и диаграмм 97 Введение 98 2.1. Организация числовых данных 98 Упорядоченный массив 99 Диаграмма “ствол и листья” 100 Упражнения к разделу 2.1 102 2.2. Представление числовых данных в виде таблиц и диаграмм 105 Распределение частот 105 Выбор количества групп 105 Вычисление интервала группирования 105 Вычисление границ групп 105 Субъективность при выборе границ групп 106 Распределение относительных частот и процентное распределение 107 Функция распределения 108 Гистограмма 111 Полигон 111 Полигон интегральных процентов (кривая распределения) 113 Упражнения к разделу 2.2 115
2.3. Изображение двумерных числовых данных 118 Упражнения к разделу 2.3 120 2.4. Представление категорийных данных в виде таблиц и диаграмм 124 Сводная таблица 124 Линейчатая диаграмма 125 Круговая диаграмма 125 Диаграмма Парето 126 Упражнения к разделу 2.4 130 2.5. Представление двумерных категорийных данных в виде таблиц и графиков 134 Таблица сопряженности признаков 134 Параллельная линейчатая диаграмма 136 Упражнения к разделу 2.5 138 2.6. Искусство графического представления данных 141 Принципы графического представления данных 142 Упражнения к разделу 2.6 145 Резюме 147 Основные понятия 148 Упражнения к главе 2 149 Разбор конкретной ситуации — газета Springville Herald 164 Применение Web 164 Справочник Excel. ГЛАВА 2 165 ЕН.2.1. Корректировка распределения частот, построенного с помощью процедуры Analysis ToolPak Histogram 165 ЕН.2.2. Вычисление распределения частот с помощью функции ЧАСТОТА 165 ЕН.2.3. Корректировка гистограмм 167 ЕН.2.4. Построение гистограмм по готовым таблицам частот 168 ЕН.2.5. Построение полигонов с помощью средства Мастер диаграмм 169 ЕН.2.6. Перемещение осей диаграмм 171 ЕН.2.7. Создание таблиц для категорийных данных • 171 ЕН.2.8. Создание линейчатых и круговых диаграмм для категорийных данных 172 ЕН.2.9. Создание диаграммы Парето с помощью средства Мастер диаграмм 173 ЕН.2.10. Создание таблиц для двумерных категорийных данных 175 Дополнительная литература 176 3. Описательные статистики 177 Введение 178 3.1. Исследование числовых данных и их свойств 178 3.2. Определение среднего значения, вариации и формы распределения 179
Медиана 183 Форма распределения 196 Упражнения к разделу 3.2 199 3.3. Вычисление описательных статистик для генеральной совокупности 205 Математическое ожидание 206 Дисперсия и стандартное отклонение генеральной совокупности 206 Эмпирическое правило 208 Правило Бьенамэ-Чебышева 209 Упражнения к разделу 3.3 210 3.4. Анализ данных 213 Пять базовых показателей 213 Блочная диаграмма 214 Упражнения к разделу 3.4 218 3.5. Ковариация и коэффициент корреляции 221 Упражнения к разделу 3.5 227 3.6. Ловушки, связанные с описательными статистиками, и этические проблемы 229 Этические проблемы 230 3.7. Вычисление количественных показателей на основе распределения частот 230 Приближенное вычисление среднего арифметического и стандартного отклонения 231 Упражнения к разделу 3.7 232 Резюме 235 Основные понятия 236 Упражнения к главе 3 236 Разбор конкретной ситуации — газета The Springville Herald 247 Применение Web 247 Справочник по Excel. Глава 3 248 ЕН .3.1. Создание точечных масштабированных диаграмм 248 ЕН.3.2. Вычисление квартилей 249 Дополнительная литература 250 4. Основы теории вероятностей 251 Введение 252 4.1. Основные понятия теории вероятностей 253 Выборочное пространство и события 254 Таблица сопряженности признаков 254 Безусловная вероятность 255 Вероятность совместных событий 256 Общее правило сложения вероятностей 257 Правило сложения вероятностей взаимоисключающих событий 258 Правило сложения вероятностей исчерпывающих событий 259
Упражнения к разделу 4.1 260 4.2. Условная вероятность 265 Дерево решений 267 Статистическая независимость 269 Правило умножения вероятностей 270 Упражнения к разделу 4.2 272 4.3. Теорема Байеса 276 Упражнения к разделу 4.3 279 4.4. Этические проблемы и вероятность 281 Упражнения к разделу 4.4 281 4.5. Правила счета 281 Упражнения к разделу 4.5 283 Резюме 285 Основные понятия 285 Упражнения к главе 4 286 Применение Web 290 Справочник по Excel. Глава 4 291 ЕН.4.1. Применение оператора конкатенации 291 Дополнительная литература 291 5. Дискретные распределения 293 5.1. Распределение дискретной случайной величины 294 Математическое ожидание дискретной случайной величины 295 Дисперсия и стандартное отклонение дискретной случайной величины 296 Упражнения к разделу 5.1 297 5.2. Ковариация и ее применение в финансовом деле 300 Ковариация 300 Математическое ожидание, дисперсия и стандартное отклонение суммы двух случайных величин 301 Ожидаемая доходность и риск портфельных инвестиций 302 Упражнения к разделу 5.2 303 5.3. Биномиальное распределение 307 Свойства биномиального распределения 312 Упражнения к разделу 5.3 314 5.4. Гипергеометрическое распределение 316 Упражнения к разделу 5.4 319 5.5. Распределение Пуассона 320 Упражнения к разделу 5.5 324 5.6. Аппроксимация биномиального распределения с помощью распределения Пуассона 326 Упражнения к разделу 5.6 328 Резюме 330
Основные понятия 330 Упражнения к главе 5 330 Разбор конкретной ситуации — газета Springville Herald 336 Применение Web 337 Справочник по Excel. Глава 5 338 ЕН.5.1. Вычисление ожидаемой доходности и риска портфельных инвестиций 338 ЕН.5.2. Вычисление биномиальных вероятностей 339 ЕН.5.3. Вычисление гипергеометрического распределения 340 ЕН.5.4. Вычисление распределения Пуассона 341 ЕН.5.5. Построение гистограмм для дискретных распределений 342 Дополнительная литература 344 6. Нормальное и другие непрерывные распределения 345 Введение 346 6.1. Нормальное распределение 347 Упражнения к разделу 6.1 364 6.2. Проверка гипотезы о нормальном распределении 368 Оценка свойств 368 Построение графика нормального распределения 369 Упражнения к разделу 6.2 376 6.3. Равномерное распределение 379 Упражнения к разделу 6.3 380 6.4. Экспоненциальное распределение 382 Упражнения к разделу 6.4 383 6.5. Введение в выборочные распределения 385 6.6. Выборочное распределение средних значений 386 Несмещенные свойства арифметического среднего 386 Стандартная ошибка среднего 388 Выборки из нормально распределенных генеральных совокупностей 389 Выборки из генеральных совокупностей, распределения которых отличаются от нормального 393 Упражнения к разделу 6.6 398 6.7. Выборочное распределение долей 402 Упражнения к разделу 6.7 403 6.8. Аппроксимация биномиального и пуассоновского распределений с помощью нормального распределения 407 Поправка на непрерывность распределения 407 Аппроксимация биномиального распределения 408 Аппроксимация распределения Пуассона 410 Упражнения к разделу 6.8 411 6.9. Выборки из конечных генеральных совокупностей 413 Упражнения к разделу 6.11 415
6.10. Применение стандартизованного нормального распределения 416 Преобразование данных 416 Использование таблиц нормального распределения 417 Вычислений вероятностей, соответствующих заданным значениям 420 Вычисление значений, соответствующих заданным вероятностям 424 Резюме 428 Основные понятия 428 Упражнения к разделу 6 429 Разбор конкретной ситуации — газета Springville Herald 437 Применение Web 437 Применение Web 438 Справочник по Excel, глава 6 439 ЕН.6.1. Вычисление вероятностей нормального распределения 439 ЕН.6.2. Построение графика нормального распределения 440 ЕН.6.3. Вычисление вероятностей экспоненциального распределения 443 ЕН.6.4. Генерирование случайных выборок 443 ЕН .6.5. Построение гистограмм для вычисленных выборочных средних 444 ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА 445 7. Построение доверительных интервалов 447 Введение 448 7.1. Построение доверительного интервала для математического ожидания генеральной совокупности при известном стандартном отклонении 449 Упражнения к разделу 7.1 454 7.2. Построение доверительного интервала для математического ожидания генеральной совокупности при неизвестной дисперсии 456 Распределение Стьюдента 456 Степени свободы 458 Доверительный интервал 458 Упражнения к разделу 7.2 463 7.3. Построение доверительного интервала для доли признака в генеральной совокупности 466 Упражнения к разделу 7.3 469 7.4. Определение объема выборки 471 Определение объема выборки для оценки математического ожидания 471 Определение объема выборки для оценки доли признака в генеральной совокупности 474 Упражнения к разделу 7.4 477 7.5. Применение доверительных интервалов в аудиторском деле 480 Оценка суммы элементов генеральной совокупности 481 Оценка разности 483 Односторонняя оценка доли нарушений установленных правил 487
Упражнения к разделу 7.5 488 7.6. Доверительные интервалы и этические проблемы 490 7.7. Вычисление оценок и объема выборок, извлеченных из конечной генеральной совокупности 491 Оценка математического ожидания 491 Оценка доли признака 492 Определение объема выборки 493 Упражнения к разделу 7.7 496 Резюме 498 Основные понятия 498 Упражнения к главе 7 499 Разбор конкретной ситуации — газета Springville Herald 507 Применение Web 510 Справочник по Excel. Глава 7 511 ЕН.7.1. Вычисление доверительного интервала для математического ожидания при известном стандартном отклонении ст 511 ЕН.7.2. Вычисление доверительного интервала для математического ожидания при неизвестном стандартном отклонении ст 512 ЕН.7.3. Вычисление доверительного интервала для доли признака в генеральной совокупности 512 ЕН.7.4. Определение объема выборки для математического ожидания генеральной совокупности 513 ЕН.7.5. Определение объема выборки для оценки доли признака в генеральной совокупности 514 ЕН.7.6. Вычисление доверительного интервала, содержащего общую сумму элементов генеральной совокупности 515 ЕН.7.7. Вычисление доверительного интервала, содержащего полную разность генеральной совокупности 516 Дополнительная литература 518 8. Основы проверки гипотез: одновыборочные критерии 519 Введение 520 8.1. Проверка гипотез 520 Нулевая и альтернативная гипотеза 520 Критическое значение тестовой статистики 522 Области отклонения и принятия гипотез 522 Риски, возникающие при проверке гипотез 523 Упражнения к разделу 8.1 525 8.2. Использование Z-критерия для проверки гипотезы о математическом ожидании при известном стандартном отклонении 526 Проверка гипотез с помощью критического значения 527 Проверка гипотез по наблюдаемому уровню значимости 529
Связь между построением доверительных интервалов и проверкой гипотез 532 Упражнения к разделу 8.2 533 8.3. Односторонние критерии 535 Применение критического значения 535 Применение наблюдаемого уровня значимости 537 Упражнения к разделу 8.3 538 8.4. Использование t-критерия для проверки гипотезы о математическом ожидании при неизвестном стандартном отклонении 540 Упражнения к разделу 8.4 547 8.5. Применение Z-критерия для проверки гипотезы о доле признака в генеральной совокупности 551 Упражнения к разделу 8.5 554 8.6. Потенциальные проблемы и этические вопросы, связанные с проверкой гипотез 556 Метод сбора данных — рандомизация 557 Добросовестность респондентов 557 Вид критерия — двусторонний или односторонний 557 Выбор уровня значимости 557 Подтасовка данных 558 Очистка и отбрасывание данных 558 Документирование результатов 558 Статистическая значимость и практическая ценность 558 8.7. Мощность критерия 559 Упражнения к разделу 8.7 565 Резюме 566 Основные понятия 567 Упражнения к главе 8 568 Разбор конкретной ситуации— газета Springville Herald 573 Применение Web 573 Справочник по Excel. Глава 8 574 ЕН.8.1. Использование Z-критерия проверки гипотез о математическом ожидании при известном стандартном отклонении 574 ЕН.8.2. Использование t-критерия для проверки гипотез о математическом ожидании при неизвестном стандартном отклонении 575 ЕН.8.3. Применение Z-критерия для проверки гипотез о доле признака в генеральной совокупности 577 Дополнительная литература 578 9. Двухвыборочные критерии 579 Введение 580
9.1. Сравнение двух независимых выборок: критерии для оценки разности между двумя математическими ожиданиями 580 Использование Z-критерия для оценки разности между двумя математическими ожиданиями 580 Применение t-критерия для оценки разности между математическими ожиданиями с помощью суммарной дисперсии 581 Доверительный интервал для разности между математическими ожиданиями 588 Использование t-критерия для оценки разности между двумя математическими ожиданиями с помощью раздельной дисперсии 588 Упражнения к разделу 9.1 590 9.2. Сравнение двух зависимых выборок: критерии для оценки разности между двумя математическими ожиданиями 595 Доверительный интервал, содержащий разность между двумя математическими ожиданиями 601 Упражнения к разделу 9.2 601 9.3. Использование Z-критерия для оценки разности между двумя долями признака 604 Доверительный интервал, содержащий разность между долями успехов в двух независимых группах 608 Упражнения к разделу 9.3 609 9.4. Использование F-критерия для оценки разности между двумя дисперсиями 611 Вычисление нижнего критического значения 613 Упражнения к разделу 9.4 618 Резюме 622 Основные понятия 623 Упражнения к главе 9 623 Разбор конкретной ситуации — газета Springville Herald 631 Применение Web 632 Справочник по Excel. Глава 9 633 ЕН.9.1. Применение t-критерия, использующего суммарную дисперсию для проверки гипотез о разности между двумя математическими ожиданиями 633 ЕН.9.2. Сгруппированные и разгруппированные данные 635 ЕН.9.3. Применение Z-критерия для проверки гипотез о разности между двумя долями 636 ЕН.9.4. Использование F-критерия для проверки гипотез о разности между дисперсиями 638 Дополнительная литература 640 10. Дисперсионный анализ 615 Введение 642 10.1. Полностью рандомизированный эксперимент: однофакторный дисперсионный анализ 642
Использование F-критерия для оценки разностей между несколькими математическими ожиданиями 643 Множественное сравнение: процедура Тыоки-Крамера 652 Необходимые условия однофакторного дисперсионного анализа 655 Критерий Левенэ для проверки однородности дисперсии 656 Упражнения к разделу 10.1 658 10.2. Двухфакторный дисперсионный анализ 664 Оценка факторов и эффектов взаимодействия 664 Интерпретация эффектов взаимодействия 672 Множественные сравнения 675 Упражнения к разделу 10.2 676 10.3. Блочный рандомизированный эксперимент 681 Критерии для оценки эффектов условий факторного эксперимента и блоков 682 Множественные сравнения: процедура Тьюки 688 Упражнения к разделу 10.3 689 Резюме 693 Основные понятия 693 Упражнения к главе 10 694 Разбор конкретной ситуации — газета Springville Herald 700 Применение Web 702 Справочник по Excel. Глава 10 703 ЕН. 10.1. Процедура Тьюки-Крамера 703 ЕН. 10.2. Вычисление разностей между наблюдениями и медианами 705 Дополнительная литература 706 11. Критерий "хи-квадрат" и непараметрические критерии 707 Введение 708 11.1. Применение %2-критерия для проверки гипотезы о равенстве двух долей 708 Упражнения к разделу 11.1 716 11.2. Применение %2-критерия для проверки гипотезы о равенстве нескольких долей 719 Упражнения к разделу 11.2 727 11.3. Применение %2-критерия независимости 730 Упражнения к разделу! 1.3 736 11.4. Ранговый критерий Уилкоксона: непараметрический метод для проверки гипотезы о разности между двумя медианами 739 Упражнения к разделу 11.4 744 11.5. Ранговый критерий Крускала—Уоллиса: непараметрический метод для полностью рандомизированного эксперимента 748 Упражнения к разделу 11.5 753
11.6. Критерий “хи-квадрат” для дисперсий 755 Упражнения к разделу 11.6 760 11.7. Критерий согласия “хи-квадрат” 763 Использование %2-критерия согласия для распределения Пуассона 763 Применение %2-критерия согласия для нормального распределения 765 Упражнения к разделу 11.7 768 Резюме 770 Основные понятия 770 Упражнения к главе 11 770 Разбор конкретной ситуации — газета Springville Herald 777 Применение Web 779 Справочник по Excel. Глава 11 780 ЕН. 11.1. Применение %2-критерия для оценки разности между двумя долями 780 ЕН.11.2. Применение %2-критерия для оценки разностей между с долями 782 ЕН.11.3. Применение процедуры Мараскуило 783 ЕН. 11.4. Применение %2-критерия независимости 784 ЕН. 11.5. Ранговый критерий Уилкоксона для проверки гипотезы о разности между двумя медианами 786 ЕН. 11.6. Критерий Крускала-Уоллиса для проверки гипотезы о разностях между несколькими медианами 788 Дополнительная литература 790 12. Простая линейная регрессия 791 Введение 792 12.1. Виды регрессионных моделей 793 12.2. Вывод уравнения простой линейной регрессии 795 Метод наименьших квадратов 796 Прогнозирование в регрессионном анализе: интерполяция и экстраполяция 800 Упражнения к разделу 12.2 802 12.3. Оценки изменчивости 806 Вычисление сумм квадратов 806 Коэффициент смешанной корреляции 808 Среднеквадратичная ошибка оценки 809 Упражнения к разделу 12.3 810 12.4. Предположения 811 12.5. Анализ остатков 812 Оценка пригодности эмпирической модели 812 Проверка условий 815 Упражнения к разделу 12.5 817
12.6. Измерение автокорреляции: статистика Дурбина—Уотсона 818 Распознавание автокорреляции с помощью графика остатков 819 Статистика Дурбина-Уотсона 820 Упражнения к разделу 12.6 823 12.7. Проверка гипотез о наклоне и коэффициенте корреляции 827 Применение t-критерия для наклона 827 Применение F-критерия для наклона 828 Доверительный интервал, содержащий наклон 0, 830 Использование t-критерия для коэффициента корреляции 831 Упражнения к разделу 12.7 831 12.8. Оценка математического ожидания и предсказание индивидуальных значений 836 Построение доверительного интервала 836 Вычисление доверительного интервала для предсказанного значения 837 Упражнения к разделу 12.8 840 12.9. Подводные камни и этические проблемы, связанные с применением регрессии 841 12.10. Вычисления, связанные с простой линейной регрессией 845 Вычисление сдвига Ьо и наклона Ьх 845 Вычисление оценок вариации 847 Вычисление среднеквадратичной ошибки наклона 848 Резюме 850 Основные понятия 852 Упражнения к главе 12 852 Разбор конкретной ситуации — газета Springville Herald 865 Применение Web 866 Справочник по Excel. Глава 12 867 ЕН.12.1. Выполнение простого линейного регрессионного анализа 867 ЕН. 12.2. Добавление линии регрессии на диаграмму разброса 867 ЕН. 12.3. Модификация диаграмм разброса и графиков остатков 868 ЕН. 12.4. Вычисление статистики Дурбина-Уотсона 870 ЕН. 12.5. Вычисление доверительных интервалов для математического ожидания и предсказанного значения отклика 870 Дополнительная литература 872 13. Введение в множественную регрессию 873 Введение 874 13.1. Модель множественной регрессии 874 Интерпретация регрессионных коэффициентов 875 Предсказание значений зависимой переменной Y 878 Коэффициент множественной смешанной корреляции 879 Упражнения к разделу 13.1 882
13.2. Анализ остатков для модели множественной регрессии 886 Упражнения к разделу 13.2 890 13.3. Проверка значимости модели множественной регрессии 890 Упражнения к разделу 13.3 892 13.4. Статистические выводы о генеральной совокупности коэффициентов регрессии 893 Проверка гипотез 894 Доверительные интервалы 895 Упражнения к разделу 13.4 896 13.5. Оценка значимости поясняющих переменных в модели множественной регрессии 898 Коэффициент частной смешанной корреляции 903 Упражнения к разделу 13.5 905 13.6. Регрессионные модели с фиктивной переменной и эффекты взаимодействия 907 Эффект взаимодействия 910 Упражнения к разделу 13.6 917 Резюме 926 Основные понятия 926 Упражнения к главе 13 926 Разбор конкретной ситуации — газета Springville Herald 931 Применение Web 931 Справочник по Excel. Глава 13 932 ЕН. 13.1. Вычисление коэффициентов множественной регрессии 932 ЕН. 13.2. Построение доверительных интервалов для математического ожидания и предсказанного значения отклика 932 ЕН. 13.3. Построение диаграммы разброса остатков по предсказанным значениям отклика 935 ЕН. 13.4. Вычисление коэффициентов частной смешанной корреляции 935 Дополнительная литература 936 14. Построение моделей множественной регрессии 937 14.1. Модель квадратичной регрессии 938 Вычисление коэффициентов регрессии и предсказание отклика 939 Проверка значимости квадратичной модели 942 Оценка квадратичного эффекта 943 Вычисление коэффициента множественной смешанной корреляции 946 Упражнения к разделу 14.1 946 14.2. Преобразование данных в регрессионных моделях 949 Извлечение квадратного корня 949 Логарифмическое преобразование 951 Упражнения к разделу 14.2 954
14.3. Коллинеарность 956 Упражнения к разделу 14.3 957 14.4. Построение модели 958 Пошаговый подход к построению регрессионной модели 960 Метод выбора наилучшего подмножества 962 Упражнения к разделу 14.4 970 14.5. Ловушки и этические проблемы, связанные со множественной регрессией 972 Ловушки множественной регрессии 972 Этические вопросы 972 Резюме 972 Основные понятия 974 Упражнения к главе 14 974 Разбор конкретной ситуации — корпорация Mountain States Potato 980 Применение Web 981 Дополнительная литература 981 15. Анализ временных рядов 983 Введение 984 15.1. Прогнозирование в бизнесе 984 15.2. Компоненты классической мультипликативной модели временных рядов 985 15.3. Сглаживание годовых временных рядов 988 Скользящие средние 989 Экспоненциальное сглаживание 992 Упражнения к разделу 15.3 996 15.4. Вычисление трендов с помощью метода наименьших квадратов и прогнозирование 999 Модель линейного тренда 999 Модель квадратичного тренда 1002 Модель экспоненциального тренда 1004 Выбор модели на основе разностей первого и второго порядка, а также относительных разностей 1011 Упражнения к разделу 15.4 1014 15.5. Вычисление тренда с помощью авторегрессии и прогнозирование 1019 Упражнения к разделу 15.5 1031 15.6. Выбор адекватной модели прогнозирования 1032 Анализ остатков 1033 Измерение абсолютной и среднеквадратичной остаточных погрешностей 1033 Принцип экономии 1034
Сравнение четырех методов прогнозирования 1034 Упражнения к разделу 15.6 1037 15.7. Прогнозирование временных рядов на основе сезонных данных 1038 Прогнозирование месячных и временных рядов с помощью метода наименьших квадратов 1040 Упражнения к разделу 15.7 1045 15.8. Индексы 1049 Индекс цен 1049 Невзвешенные составные индексы цен 1051 Взвешенные составные индексы цен 1052 Некоторые популярные индексы цен 1054 Упражнения к разделу 15.8 1055 15.9. Ловушки, связанные с анализом временных рядов 1060 Резюме 1060 Основные понятия 1060 Упражнения к главе 15 1062 Разбор конкретной ситуации — газета Springville Herald 1069 Применение Web 1069 Справочник по Excel. Глава 15 1070 ЕН. 15.1. Создание графиков скользящих средних 1070 ЕН.15.2. Создание графиков экспоненциального сглаживания 1070 ЕН. 15.3. Создание диаграмм разброса для трендов, построенных методом наименьших квадратов 1071 ЕН.15.4. Логарифмическое преобразование 1072 ЕН. 15.5. Создание диаграмм разброса с экспоненциальным трендом 1072 ЕН.15.6. Создание графиков для авторегрессионных моделей 1073 Дополнительная литература 1074 16. Принятие решений 1075 Введение 1076 16.1. Таблица выигрышей и дерево решений 1077 Упражнения к разделу 16.1 1082 16.2. Критерии принятия решений 1083 Ожидаемая прибыль 1083 Ожидаемый размер упущенной выгоды 1085 Отношение “доходность/риск” 1087 Упражнения к разделу 16.2 1090 16.3. Принятие решений на основе выборочной информации 1096 Упражнения к разделу 16.3 1099 16.4. Полезность 1101 Упражнения к разделу 16.4 1102
Резюме 1102 Основные понятия 1103 Упражнения к главе 16 1104 Применение Web 1108 Справочник по Excel. Глава 16 1109 ЕН. 16.1. Анализ упущенной выгоды 1109 ЕН. 16.2. Применение критериев принятия решений на основе таблицы выигрышей 1110 Дополнительная литература 1112 17. Статистические методы управления качеством и производительностью труда 1113 Введение 1114 17.1. Полный контроль качества 1115 17.2. Метод Six Sigma® 1118 17.3. Контрольные карты 1119 17.4. Процентные контрольные карты 1121 Упражнения к разделу 17.4 1127 17.5. Эксперимент с красными шарами: вариация процесса 1129 Упражнения к разделу 17.5 1132 17.6. Контрольные карты для размаха и среднего значения 1132 Контрольная карта для размаха: Я-карта 1132 Контрольная X -карта 1135 Упражнения к разделу 17.6 1138 17.7. Характеристики процесса 1143 Удовлетворение клиентов и допускаемые пределы 1143 Показатели мощности 1145 Показатели CPL, CPU и С,А 1146 Упражнения к разделу 17.7 1148 Резюме 1149 Основные понятия 1150 Упражнения к главе 17 1150 Разбор конкретной ситуации — компания Harnswell Sewing Machine Company 1155 Разбор конкретной ситуации — газета Springville Herald 1159 Справочник по Excel. Глава 17 1162 ЕН. 17.1. Вычисление контрольных границ и координат точек нар-карте 1162 ЕН.17.2. Созданиер-карт 1163 ЕН. 17.3. Построение R- и X -карт 1165 ЕН. 17.4. Создание R- и X -карт 1167 Дополнительная литература 1167
Ответы на избранные вопросы 1169 Глава 1 1169 Глава 2 1171 Глава 3 1174 Глава 4 1179 Глава 5 1180 Глава 6 1182 Глава 7 1184 Глава 8 1186 Глава 9 1189 Глава 10 1193 Глава 11 1195 Глава 12 1198 Глава 13 1202 Глава 14 1207 Глава 15 1211 Глава 16 1214 Глава 17 1215 Приложение А. Некоторые правила алгебры и арифметики 1217 А.1. Правила выполнения арифметических операций 1217 А.2. Правила возведения в степень и извлечения корня 1217 А.З. Правила вычисления логарифмов 1218 Десятичный логарифм 1218 Натуральный логарифм 1218 Приложение Б. Правила суммирования 1219 Задача 1222 Дополнительная литература 1222 Приложение В. Статистические обозначения и греческий алфавит 1223 В.1. Статистические обозначения 1223 В.2. Греческий алфавит 1223 Приложение Г. Обзор компакт-диска 1225 Файлы, содержащиеся в каталоге Excel 1226 Приложение Д. Таблицы 1235 Приложение Е. Установка и настройка программы Microsoft Excel 1285 Е.1. Введение 1285
Е.2. Необходимые условия инсталляции 1285 Е.З. Общие параметры 1286 Е.4. Настройка интерфейса 1286 Е.5. Установки печати 1287 Приложение Ж. Дополнительные сведения о программе PHStat 1289 Ж.1. Введение 1289 Ж.2. Установка программы Phstat2 1289 Ж.З. Запуск инсталляции программы Phstat2 1290 Ж.4. Применение программы Phstat2 1290 Ж.5. Подготовка данных для анализа с помощью программы Phstat2 1291 Ж.6. Чего не может программа Phstat2 1291 Ж.7. Дополнительная информация 1291 Приложение 3. Подготовка отчетов и презентаций с помощью пакета Microsoft Office 1293 3.1. Работа с пакетом Microsoft Office: обмен данными между программами Microsoft Excel и Microsoft Word 1293 3.2. Применение пакета Microsoft Office: использование таблиц и диаграмм, созданных программой Microsoft Excel, для презентаций Microsoft Powerpoint 1295 3.3. Использование пакета Microsoft Office: сохранение рабочих листов в виде Web-страницы для браузера Internet Explorer 1298 3.4. Применение пакета Microsoft Office: извлечение форматированных табличных данных из World Wide Web с помощью браузера 1301 3.5. Применение пакета Microsoft Office: извлечение данных из World Wide Web с помощью браузера 1302 Предметный указатель 1305
Предисловие Принципы обучения Многие годы читая вводный курс статистики, мы постоянно стремились улучшить стиль преподавания. Наши подходы к изложению вводного курса коммерческой статистики оттачивались в ходе активных дискуссий на конференциях “Эффективность преподавания статистики в школах бизнеса” (“Making Statistics More Effective in Schools of Business”), проводимых Институтом поддержки принятия решений (Decision Science Institute) и Американской статистической ассоциацией (American Statistical Association), а также в процессе обучения различных групп студентов в больших университетах. В итоге нашу точку зрения можно изложить в виде следующих принципов. 1. Преподавание статистики необходимо сопровождать примерами из практики, особенно если статистика не является основной специализацией студентов. Область применения статистики при обучении студентов школ бизнеса должна включать в себя различные коммерческие приложения, в частности, бухгалтерское дело, экономическую и финансовую науку, информационные системы, менеджмент, а также маркетинг. Любая тема должна иллюстрироваться приложениями хотя бы в одной из указанных областей бизнеса. 2. Практически все студенты, изучающие вводный курс коммерческой статистики, специализируются в иных областях знаний. Вводный курс должен фокусировать их внимание на основополагающих принципах, которые могут оказаться полезными при овладении другими науками. 3. Изложение любой темы вводного курса статистики непременно должно сопровождаться применением электронных таблиц и/или статистического программного обеспечения, поскольку они, как правило, являются частью рабочего места руководителя. Осознавая этот факт, мы должны привести наши подходы к преподаванию коммерческой статистики в соответствие с требованиями практики. 4. Учебники, в которых описывается применение программного обеспечения, должны содержать подробные инструкции, облегчающие студентам освоение программ. Однако программное обеспечение не должно быть доминирующей темой. 5. При изложении любой темы основное внимание следует уделять ее применению в конкретной сфере бизнеса, интерпретации результатов, формулировке и оценке гипотез, а также обсуждению действий, которые необходимо предпринять, если предположения не выполняются. Эти вопросы особенно важны при изучении регрессии, а также методов прогнозирования и проверки гипотез. Несмотря на то что некоторые вычисления требуют пояснений, описание вычислительных процедур должно быть минимальным. 6. Примеры, рассматриваемые на занятиях, и домашние задания должны иметь практический смысл и основываться на реальных данных. Студенты обязаны овладеть приемами работы с наборами данных любого объема и легко переходить от статистических вычислений к интерпретации результатов для принятия решений.
7. В рамках вводного курса следует избегать излишней концентрации внимания на одном из разделов (например, на проверке гипотез). Напротив, необходимо как можно шире осветить различные темы статистики. Это поможет студентам избежать распространенной ошибки, когда за деревьями не видят леса. Изменения, внесенные в новое издание В четвертое издание книги внесено много новшеств. • Изменен порядок изложения тем в главах, посвященных методам проверки гипотез. Теперь все критерии, связанные с нормальным и t-распределениями, рассматриваются до описания F-критерия для проверки гипотез о разности между двумя дисперсиями. Сам F-критерий описывается в конце главы 9, “Двухвыборочные критерии”. Кроме того, описание непараметрических критериев выделено в отдельную главу 11, “Критерий “хи-квадрат” и непараметрические критерии”. Преобразование этих глав позволяет преподавателям рассмотреть критерии, связанные с нормальным и t-распределениями, в рамках одной темы, не нарушая логической последовательности. • Сведения о программе Excel излагаются так, что теперь ее можно использовать как совместно с надстройкой PHStat2, так и независимо от нее. В новом издании результаты применения программы Excel рассматриваются внутри главы, что позволяет использовать их для интерпретации решений, подавляющее большинство которых получено без помощи надстроек. Упрощены инструкции и описание диалоговых окон программы Excel. Теперь они ясно демонстрируют, как выполнить статистический анализ, используя программу Excel как совместно с надстройкой PHStat2, так и независимо от нее. Таким образом, четвертое издание книги представляет собой вводный курс коммерческой статистики, предоставляющий читателям выбор: применять программу Excel с надстройками или без них. • В книгу включены сотни новых реалистичных примеров и упражнений, использующих данные из журналов Wall Street Journal, USA Today, Consumer Reports, а также из других источников. • Обновлена надстройка PHStat2. Теперь к учебнику прилагается программа PHStat2 version 2.5— новейшая версия надстройки для программы Microsoft Excel, разработанная компанией Prentice Hall. Эта версия надстройки позволяет работать с новыми средствами обеспечения безопасности, предусмотренными в пакете Microsoft Office, и применять множественную регрессию, когда значения независимых переменных расположены в несмежных столбцах. Кроме того, улучшены средства изображения диаграмм “ствол и листья” и блочных диаграмм, включены Z-критерий для проверки гипотезы о разности между математическими ожиданиями, критерий Левина для проверки гипотезы об однородности дисперсии, а также процедура Мараскуило (Marascuilo) для множественного сравнения долей признака. Версия 2.5 полностью поддерживается на обновленном Web-сайте www. prenhall. com/phstat. • Перестроены и переписаны разделы “Справочника по Excel”. Теперь эти разделы позволяют не прибегать к помощи надстройки PHStat2. Кроме того, они предоставляют читателям возможность анализировать устройство рабочих листов, создаваемых надстройкой PHStat2. Разделы “Справочника по Excel” по-прежнему расположены в конце глав и содержат детальную информацию, необходимую для создания рабочих листов, выполняющих статистический анализ с помощью программы Microsoft Excel.
• Применение сети Web. В книге появились новые разделы под названием “Применение Web”. Они посвящены статистическому анализу данных и проверке правдивости информации. В этих разделах студентам предлагается посетить Web-сайты компаний, упомянутых в сценариях “Применение статистики”. Эти сценарии излагаются в начале каждой главы. В отличие от традиционных задач, содержащих лишь необходимые данные, на Web-сайтах, как и в реальной жизни, часто содержится противоречивая либо избыточная информация. Задачи, описанные в разделах “Применение Web”, должны развивать у студентов критический образ мышления. Для того чтобы вызвать интерес у читателей, некоторые задачи формулируются в шутливой форме. Примеры из этих разделов идеально подходят для выполнения групповых проектов и всестороннего обсуждения на семинарах. • В приложении “Подготовка отчетов и презентаций с помощью пакета Microsoft Office” описываются способы внедрения результатов, полученных с помощью программы Microsoft Excel, в документы, подготовленные текстовым процессором Microsoft Word. Кроме того, в этом приложении описываются способы подготовки презентаций с помощью программы Microsoft PowerPoint, а также применение браузера Internet Explorer и программы Microsoft Excel для извлечения данных из World Wide Web. • Некоторые темы изложены более полно. В текст включены новые темы, например, метод Six Sigma®, критерий Левина для проверки гипотезы об однородности дисперсии, а также описание равномерного распределения. Кроме того, в книгу добавлены новые разделы, посвященные вычислению распределений частот, правилам счета, аппроксимации биномиального распределения с помощью распределения Пуассона, аппроксимации нормального распределения с помощью биномиального и пуассоновского распределения, применению таблицы стандартизованного нормального распределения, мощности критерия, блочным рандомизированным экспериментам, /2-критерию для дисперсии и /2-критерию согласия. • Увеличено количество примеров, посвященных управлению газетой Springville Herald. Теперь эти примеры описаны в 13 главах. Особенности Мы продолжили традиции, заложенные в предыдущих изданиях. Отметим некоторые особенности. • Деловые сценарии “Применение статистики”. Каждая глава начинается с примера, демонстрирующего применение статистики в конкретной области бизнеса — бухгалтерском деле, менеджменте или маркетинге. Этот сценарий анализируется на протяжении всей главы и образует основу для описания прикладных аспектов статистических понятий. • Основное внимание уделяется анализу данных и интерпретации результатов, полученных с помощью программного обеспечения. Мы считаем, что применение статистического программного обеспечения, в частности программы Microsoft Excel, является неотъемлемой частью обучения статистике. В связи с этим основное внимание в книге уделяется анализу данных и интерпретации результатов, полученных с помощью программы Microsoft Excel, а сам процесс вычислений остается в тени. Например, в главе 2 основное внимание уделяется интерпретации различных диаграмм, а не способам их создания. При описании методов проверки гипотез в главах 8-11 вычисление p-значений, связанное со сложными вычислениями, сопровождается многочисленными иллюстрациями. Кроме того, рассматривая простую линейную регрессию в главе 12, мы предполагали, что читатели применяют программу
Microsoft Excel, поэтому основное внимание уделили интерпретации результатов, а не вычислительным процедурам (которые описаны в отдельном разделе.) • Надстройка PHStat2l расширяет функциональные возможности программы Microsoft Excel и позволяет читателю выбирать пункты низкоуровневых меню и заполнять поля рабочих листов, предназначенных для статистического анализа. В сочетании с собственной надстройкой Microsoft Excel — программой Data Analysis ToolPak — программа PHStat2 позволяет освоить практически все статистические методы, относящиеся к вводному курсу статистики. • Педагогические приемы, к которым относятся активный, разговорный стиль изложения; врезки, выделяющие важные понятия; врезки, содержащие пронумерованные формулы; примеры, иллюстрирующие основные понятия; врезки, содержащие предположения, необходимые для применения статистических методов; резюме, сопровождающие каждую главу; разделение задач на две категории — “Изучение основ” и “Применение понятий”, а также предметные указатели в конце каждой главы, позволяют читателям легче освоить вводный курс статистики. • В конце книги приведены ответы на большинство задач, имеющих четные номера. • Упражнения, связанные с написанием отчетов, позволяют читателям применить результаты статистического анализа в деловых приложениях, а также освоить приемы работы с пакетом Microsoft Office, в частности, вставку таблиц и диаграмм, созданных программой Microsoft Excel, в документы, подготовленные с помощью текстового процессора Microsoft Word, и презентации, оформленные с помощью программы Microsoft PowerPoint. • Упражнения, связанные с применением Интернет, размещенные на Web-сайте www.prenhall.com/levine, позволяют студентам исследовать источники данных, доступные в сети World Wide Web. • В конце каждой главы рассматриваются практические ситуации и групповые проекты. В большинстве глав исследуются ситуации, связанные с работой газеты The Springville Herald. Групповые проекты, в основном, относятся к изучению функционирования взаимных фондов. • Программа Visual Exploration, распространяемая на прилагаемом компакт-диске, позволяет студентам исследовать важные понятия статистики в интерактивном режиме. В частности, с ее помощью можно изучать описательную статистику, понятие о вероятности, свойства нормального распределения и регрессионный анализ. Например, изучая описательную статистику, студент может наблюдать влияние, которое изменение данных оказывает на математическое ожидание, медиану и стандартное отклонение. Осваивая понятие о вероятности, студенты могут исследовать влияние объема выборки на распределение вероятности. Рассматривая нормальное распределение, они могут воочию убедиться, как изменения математического ожидания и стандартного отклонения влияют на площадь фигур, ограниченных нормальной кривой. В регрессионном анализе студенты могут исследовать влияние наклона и длины отрезка, отсекаемого линией регрессии на координатной оси, на точность приближения. ‘Особенности работы надстройки PHStat2 с локализованными версиями программы Excel описаны в приложении Ж в разделе Ж.7, “Дополнительная информация ”. — Прим. ред.
Изменения в содержании четвертого издания • Глава 1 содержит совершенно новые разделы 1.1-1.7. Раздел “Типы данных” теперь следует за разделом “Методы выборочного обследования”. • Раздел “Букварь Excel” переписан и перестроен. • Глава 2 содержит обновленные данные, касающиеся работы взаимных фондов за период с 1997 по 2001 гг., а также пример, связанный с применением сети Web. • Глава 3 содержит обновленные данные, касающиеся работы взаимных фондов за период с 1997 по 2001 гг., а также пример, связанный с применением сети Web. Кроме того, раздел “Анализ данных” теперь является разделом 3.4. Пример, иллюстрирующий понятие ковариации, теперь включен в раздел 3.5. В главу также добавлен раздел, посвященный вычислению количественных показателей на основе распределения частот. • В главу 4 включен раздел, описывающий применение сети Web, а также раздел, в котором рассматриваются правила счета. • Глава 5 содержит раздел, посвященный применению сети Web, а также раздел “Аппроксимация биномиального распределения с помощью распределения Пуассона”. • В главу 6 включен раздел, в котором описано равномерное распределение, а также разделы “Применение стандартизованного нормального распределения” и “Аппроксимация биномиального и пуассоновского распределений с помощью нормального распределения”. • Глава 7 содержит раздел, посвященный применению сети Web. • В главу 8 включен раздел, посвященный вопросам управления газетой The Springville Herald, раздел, связанный с применением сети Web, а также раздел “Мощность критерия”. • Глава 9 переделана так, что двухвыборочные критерии для проверки гипотез о математическом ожидании и долях признака теперь предшествуют описанию F-критерия для проверки гипотез о разности между дисперсиями. Ранговый критерий Уилкоксона перенесен в главу 11. Кроме того, глава содержит новый раздел, посвященный применению сети Web. • В главу 10 добавлен раздел, описывающий применение сети Web. Помимо этого, в главе рассматривается критерий Левина для проверки однородности дисперсий и блочный рандомизированный эксперимент. Критерий Крускала-Уоллиса перемещен в главу 11. • В главе 11 теперь описываются /2-критерии и непараметрические критерии. Она содержит раздел, связанный с применением сети Web, а также описание рангового критерия Уилкоксона, критерия Крускала-Уоллиса, /2-критерия для проверки гипотезы о дисперсии и /2-критерия согласия. • В главе 12 упрощены вычисления, связанные с решением примера и рассмотрено применение сети Web. • Глава 13 представляет собой введение в множественную регрессию и содержит раздел, посвященный фиктивным переменным. Расширено изложение вопросов, связанных с взаимодействием между членами регрессии. Кроме того, в главу включены разделы, посвященные управлению газетой The Springville Herald и применению сети Web.
• Глава 14 теперь называется “Построение моделей множественной регрессии” и включает в себя раздел, посвященный применению сети Web. • В главе 15 обновлены все примеры, а также включены разделы, посвященные индексам и применению сети Web. • Глава 16 содержит раздел, посвященный применению сети Web. • В главе 17 более точно излагается история теории качества, включены раздел о методе Six Sigma® и примеры, содержащие исходные данные для построения контрольных карт размаха и среднего значения. Материалы, размещенные в сети World Wide Web Книге посвящена Web-страница www. prenhall. com/levine. Этот сайт полезен как преподавателям, так и студентам. На нем, в частности, представлены следующие материалы. • Ссылки на другие сайты, предоставляющие данные для статистических курсов. • Советы студентам. • Образцы экзаменационных билетов. • Новые упражнения, использующие современные данные. • Упражнения, связанные с Интернет-приложениями. Программе PHStat2 посвящен Web-сайт www. prenhall. com/phstat. Индексная страница для материалов, необходимых для решения задач, связанных с применением сети Web и включенных в книгу, расположена по адресу www .prenhall. сот/Springville. Благодарности Мы крайне признательны многим организациям и компаниям, позволившим нам использовать их данные для разработки задач и примеров, вошедших в книгу. Мы хотели бы высказать благодарность газете The New York Times, Совету потребителей (издателю журнала Consumer Reports), инвестиционному агенству Mergent's (издателю справочника Mergent’s Handbook of Common Stocks), а также компании CEEPress. Кроме того, мы благодарны компаниям Biometrika Trustees, American Cyanimid Company и Rand Corporation, Американскому обществу тестирования и материалов (The American Society for Testing and Materials) за таблицы, которые оно любезно разрешило опубликовать в приложении Д, а также Американской статистической ассоциации (The American Statistical Assiciation) за разрешение опубликовать диаграммы из журнала American Statistician. В заключение мы выражаем благодарность профессорам Джорджу Джонсону (George A. Johnson) и Джоанне Токль (Joanne Tokle) из университета штата Айдахо (Idaho State University), а также Эду Конну (Ed Conn) из компании Mountain States Potato Company за их любезное разрешение использовать часть их работы, выполненной по заказу компании Mountain States Potato Company, при описании примера в главе 14. Мы также выражаем благодарность Джону Аффиско (John Affisco) из университета Хофстра (Hofstra University), Энн Брэндвайн (Ann Brandwein) из колледжа Баруха (Bernard М. Baruch College — CUNY), Терри Далтон (Terry Dalton) из Университета Денвера (University of Denver), Сарву Девараджу (Sarv Devaraj) из университета Нотр-Дам (University of Notre Dame), Бен Леву (Ben Lev) из университета Мичигана (University of Michigan-Dierborn), Кипу Пирклю (Kip Pirkle) из университета Вашингтона и Ли (Washington and Lee University), Руперту Родду (Rupert Rhodd) из Атлантического университета Флориды (Florida Atlantic University), Уильяму Стюарту (William G. Stewart)
из Мэрилендского университета (University of Maryland), а также Эбенге Юсипу (Ebenge Usip) из Янгстоунского государственного университета (Youngstown State University) за их комментарии, позволившие улучшить книгу. Отдельную благодарность авторы выражают Тому Такеру (Tom Tucker), Дебби Клэр (Debbie Clair), Керри Лимперт Томассо (Kerri Limpert Tomasso), Синтии Реган (Cynthia Regan), Эрике Руснак (Erika Rusnak), Дауну Стэплтону (Dawn Stapelton), Нэнси Уэлчер (Nancy Welcher) и Блейру Брауну (Blair Brown) из редакции, отдела маркетинга, производственного отдела и технической редакции издательства Prentice Hall. Мы хотели бы поблагодарить нашего консультанта по статистике Роберта Брукера (Robert Brooker) из университета Гэннона (Gannon University), выполнившего тщательную проверку нашей работы, Эрику Руснак, проверившую корректуру, Джулию Кеннеди (Julie Kennedy), перепечатавшую рукопись, и Нэнси Уэлан (Nancy Whelan) из компании UG/GGS Information Services, Inc., сверставшую книгу. Заключительные замечания Мы прошли долгий путь, стремясь сделать книгу ясной и исправить все ошибки. Если у вас есть предложения, позволяющие сделать ее понятнее, или вы нашли какие-либо ошибки, пожалуйста, напишите по адресам David_Levine@BARUCH.CUNY.EDU, DavidMLevine@msn.com или KREHBITC@MUOHIO. EDU. За информацией, касающейся программы PHStat2, обращайтесь к приложению Ж или на сайт, размещенный по адресу www.prenhall.com/phstat. Дэвид M. Левин (David М. Levine) Дэвид Стефан (David Stephan) Тимоти Кребиль (Timothy С. Krehbiel) Марк Л. Беренсон (Mark L. Berenson)
ОТ ИЗДАТЕЛЬСТВА Вы, читатель этой книги, и есть главный ее критик и комментатор. Мы ценим ваш(1 мнение и хотим знать, что было сделано нами правильно, что можно было сделать луч< ше и что еще вы хотели бы увидеть изданным нами. Нам интересно услышать и любы( другие замечания, которые вам хотелось бы высказать в наш адрес. Мы ждем ваших комментариев и надеемся на них. Вы можете прислать нам бумажно или электронное письмо, либо просто посетить наш Web-сервер и оставить свои замечание там. Одним словом, любым удобным для вас способом дайте нам знать, нравится или не вам эта книга, а также выскажите свое мнение о том, как сделать наши книги более инте ресными для вас. Посылая письмо или сообщение, не забудьте указать название книги и ее авторов а также ваш обратный адрес. Мы внимательно ознакомимся с вашим мнением и обязательн учтем его при отборе и подготовке к изданию последующих книг. Наши координаты: E-mail: info@williamspublishing. com WWW: http: //www.williamspublishing.com Информация для писем из: России: 115419, Москва, а/я 783 Украины: 03150, Киев, а/я 152
Глава 1 Введение и сбор данных ПРИМЕНЕНИЕ СТАТИСТИКИ: компания Good Tunes — часть I 1.1. ЧТО ТАКОЕ СТАТИСТИКА 1.2. РАЗВИТИЕ СТАТИСТИКИ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ 1.3. ПРОГРАММА MICROSOFT EXCEL: РЕШЕНИЕ ПРОБЛЕМЫ ИЛИ НОВАЯ ПРОБЛЕМА? 1.4. ОБУЧЕНИЕ КОММЕРЧЕСКОЙ СТАТИСТИКЕ 1.5. ОБУЧЕНИЕ СТАТИСТИКЕ С ПОМОЩЬЮ ПРОГРАММЫ MICROSOFT EXCEL 1.6. НАИБОЛЕЕ ЭФФЕКТИВНОЕ ИСПОЛЬЗОВАНИЕ ПРОГРАММЫ MICROSOFT EXCEL 1.7. ОБУЧЕНИЕ СТАТИСТИКЕ ПО УЧЕБНИКУ Применение статистики: компания Good Tunes — часть II 1.8. ЗАЧЕМ НУЖНЫ ДАННЫЕ 1.9. ИДЕНТИФИКАЦИЯ ИСТОЧНИКОВ ДАННЫХ 1.10. МЕТОДЫ ВЫБОРОЧНОГО ИССЛЕДОВАНИЯ Простая случайная выборка Систематическая выборка Стратифицированная выборка Кластерная выборка 1.11. ТИПЫ ДАННЫХ 1.12. ОЦЕНКА ДОСТОВЕРНОСТИ РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ ЧЕМУ ДОЛЖЕН НАУЧИТЬСЯ СТУДЕНТ • Понимать, как статистика используется в бизнесе • Идентифицировать источники данных • Различать разные методы выборочного исследования • Различать шкалы измерений
ПРИМЕНЕНИЕ СТАТИСТИКИ Компания Good Tunes — часть I Частная компания Good Tunes, осуществляющая розничную продажу высококачественного стереофонического оборудования и другой электронной бытовой аппаратуры через Интернет, стремится расширить свой бизнес. Чтобы получить необходимую финансовую поддержку, компания должна взять ссуду в местных банках. Менедже-’ ры компании решили создать электронную презентацию, описывающую их бизнес и состояние i дел. Эта презентация должна убедить банкиров предоставить компании необходимую ссуду. Представьте себе, что вас привлекли к подготовке демонстрации слайдов. Какие факты следует включить в доклад? Как их оформить? 1.1. ЧТО ТАКОЕ СТАТИСТИКА Для успешного бизнеса необходимо постоянно собирать и генерировать данные, отражающие текущее состояние дел. Чтобы принять обоснованное решение, эти данные следует преобразовывать в информацию. В настоящее время существует много способов извлечь информацию из собранных фактов с помощью методов статистики — отрасли математики, изучающей методы обработки и анализа данных. Статистика разделяется на две ветви, каждая из которых находит широкое применение в бизнесе. Описательная статистика (descriptive statistics) сосредоточивает внимание на сборе, резюмировании и характеризации совокупностей данных. Статистика вывода (inferential statistics) оценивает характеристики совокупностей данных и выявляет скрытые закономерности. Описательная статистика возникла благодаря тому, что крупные политические и социальные организации нуждались в средствах учета. Например, с 1790 г. Соединенные Штаты Америки каждые десять лет проводят перепись населения, собирая и обрабатывая данные о своих гражданах. За время, прошедшее с тех пор, Бюро переписи населения США (U.S. Census Bureau) стало одной из авторитетных организаций, уточняющих методы описательной статистики. В основе статистики вывода лежит теория вероятностей. Предметом статистики вывода являются выборки (samples), т.е. части полных совокупностей данных, называемых генеральными совокупностями (population, or universe). Методы статистического вывода используют выборочные данные для вычисления суммарных количественных показателей (summary measures), т.е. статистик (statistics), позволяющих оценивать параметры (parameters) всей генеральной совокупности. Выборка Выборка — это часть генеральной совокупности, извлекаемая для анализа. Генеральная совокупность Генеральная совокупность — это множество всех рассматриваемых объектов.
Статистика Статистикой называется суммарный количественный показатель, вычисленный по выборке и позволяющий оценить характеристику всей генеральной совокупности. Параметр Параметр — это суммарный количественный показатель, характеризующий всю генеральную совокупность. В настоящее время статистические методы применяются в самых разнообразных сферах бизнеса. В бухгалтерском учете статистические методы используются для извлечения и анализа выборок данных, подвергающихся аудиторской проверке, а также для определения затрат при исчислении себестоимости. В финансовом деле статистика позволяет принять правильное решение при выборе объектов капиталовложения и отслеживать финансовые показатели, изменяющиеся с течением времени. Менеджеры используют статистические методы для улучшения качества производимой продукции или предоставляемых услуг. В маркетинге статистика позволяет оценить долю клиентов, предпочитающих один вид продукции другому, выяснить причины этого явления, а также определить, какая из рекламных стратегий увеличивает сбыт продукции. 1.2. РАЗВИТИЕ СТАТИСТИКИ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ На протяжении последнего столетия статистика играла важную роль в стимулировании развития информационных технологий. В свою очередь, новые информационные технологии способствовали расцвету статистики. В начале 20-го века постоянно увеличивающийся объем ручной работы при обработке данных, полученных в ходе переписи населения, непосредственно привел к созданию табуляторов — предшественников современных компьютерных систем. Такие статистики, как Пирсон (Pearson), Фишер (Fisher), Госсе (Gosset), Нейман (Neyman), Вальд (Wald) и Тьюки (Tukey), разработали новые статистические методы анализа больших совокупностей данных, для сбора которых требовалось все больше денег, времени и усилий. По мере развития компьютерных систем стали появляться программы, облегчающие вычисления и статистическую обработку данных. В свою очередь, первые компьютерные программы способствовали расширению сферы статистических приложений в бизнесе. По мере развития информационных технологий статистические методы становились все сложнее и сложнее. В настоящее время, при упоминании розничных торговых компаний, инвестирующих средства в “систему управления взаимоотношениями с клиентами” (customer-relationship management system), или производителей товаров, занимающихся “информационной проходкой” (data mining), чтобы выяснить предпочтения заказчиков, следует понимать, что все это было бы невозможно сделать без статистических методов. Поскольку для таких приложений требуются специальные программы, уже многие годы в бизнесе используются статистические пакеты (statistical packages), позволяющие автоматизировать рутинные вычисления и обработку данных. Стандартные наборы статистических программ, к которым относится продукция компаний Minitab, SAS® и SPSS®, раньше были доступны лишь вычислительным центрам крупных корпораций. Однако увеличение мощности персональных компьютеров и появление компьютерных сетей позволили создать статистические пакеты, которые можно использовать совместно с текстовыми процессорами, электронными таблицами и браузерами.
1.3. ПРОГРАММА MICROSOFT EXCEL: РЕШЕНИЕ ПРОБЛЕМЫ ИЛИ НОВАЯ ПРОБЛЕМА? Высокая стоимость аренды статистических пакетов и обучения персонала вынудили некоторых менеджеров искать более дешевую альтернативу. Многие из них нашли выход в применении графических и статистических функций программы Microsoft Excel. Перечислим привлекательные черты этой программы. • Она уже стала неотъемлемой частью рабочего места менеджера, поэтому отпадают затраты на дополнительное программное обеспечение. • Многие пользователи в той или иной степени знакомы с ней. • Программа проста как для обучения, так и для применения. • Графические и статистические функции программы Excel оперируют с теми же рабочими листами, которые пользователи применяют для хранения данных. • Некоторые графические функции программы Excel создают более ясное визуальное представление данных, чем многие статистические пакеты. Несмотря на все эти действительно превосходные качества программы Microsoft Excel, многие менеджеры полагают, что точность и полнота статистических результатов не относятся к ее достоинствам. К сожалению, некоторые исследователи обнаружили, что отдельные статистические функции программы Microsoft Excel содержат ошибки и могут привести к некорректным результатам, особенно если набор данных очень велик или обладает необычными статистическими свойствами [7]. Впрочем, при вычислении описательных статистик применение программы Microsoft Excel даже к небольшим наборам данных тоже может привести к нестандартным результатам. (Пример, связанный с построением гистограмм, описан в главе 2.) Очевидно, что при использовании этой программы необходимо проявлять осторожность как при подготовке данных, так и при их анализе. Перевешивают ли достоинства программы Excel ее недостатки? Ответ на это вопрос до сих пор не найден. Помимо проблем с точностью вычислений, программа Microsoft Excel обладает еще одним недостатком, присущим всем программам, предназначенным для простых пользователей (включая некоторые статистические пакеты для персональных компьютеров) — она не предотвращает ошибок! Например, каждый день многие пользователи используют Мастер диаграмм (описанный в разделе ЕР.6) для создания диаграмм, которые в разделе 2.6 названы “графическим хламом”. Пользователи, создающие такие диаграммы, демонстрируют свое умение работать с программой Microsoft Excel, но не владеют ею как статистическим инструментом. Используя программу Microsoft Excel для статистического анализа, пользователь должен не только делать правильный выбор метода, но и хорошо знать условия его применения. Только глубокое понимание статистических понятий, связанных с решаемой задачей, может предотвратить некорректный анализ или другую широко распространенную ошибку, когда менеджеры принимают слишком простые решения, полагаясь лишь на некоторые легко вычисляемые статистики. Кроме того, для правильного применения программы необходимо знать ограничения, которые на нее налагаются, например, учитывать ее недостатки, упомянутые выше. Освоение программы Microsoft Excel нельзя сводить исключительно к заучиванию комбинаций клавиш и команд меню. Это всего лишь механика программы. Она ничего не стоит, если пользователь не знает статистики.
1.4. ОБУЧЕНИЕ КОММЕРЧЕСКОЙ СТАТИСТИКЕ Основная цель книги — помочь читателям овладеть коммерческой статистикой, т.е. научиться успешно применять статистические методы в процессе принятия решений. Это означает следующее. • Умение правильно представлять данные и коммерческую информацию. • Умение делать выводы о крупной генеральной совокупности на основе информации о выборке. • Умение совершенствовать процессы управления и производства. • Умение правильно прогнозировать тенденции развития бизнеса. Какой способ обучения коммерческой статистике наиболее эффективен? До сих пор этот вопрос остается предметом многочисленных дискуссий. Как указано в разделе 1.2, компьютерные программы, предназначенные для статистического анализа, существенно повлияли на применение статистических методов в бизнесе. Как только они появились, преподаватели статистики начали спорить, следует ли перестраивать процесс обучения, который ранее ориентировался на ручные вычисления и применение калькуляторов. Некоторые преподаватели считали, что такие уроки позволяют студентам лучше усваивать азы статистики, в то же время другие обращали внимание на новые возможности, которые открылись с появлением статистических программ. Эти споры продолжаются до сих пор. Обе стороны выдвигают веские аргументы, стремясь к одной цели — определить, как применение статистических программ влияет на освоение статистических понятий. В нашей книге мы выбрали “золотую середину”: наряду с интенсивным применением программы Microsoft Excel для иллюстрации статистических методов решения коммерческих задач, в тексте изложены вычислительные основы ключевых статистических процедур. Более того, решения задач, полученные с помощью программы Microsoft Excel, позволяют читателям лучше разобраться в вычислительных тонкостях статистических процедур, даже если эти нюансы не являются основной темой конкретной главы. Студенты и их преподаватели могут одновременно рассматривать как применение статистических методов в бизнесе, так и их вычислительные аспекты. Поскольку практические примеры позволяют студентам лучше понять излагаемый материал, каждая глава начинается со сценария “Применение статистики” (как, например, сценарий “Компания Good Tunes — часть П”). В этих сценариях формулируется некая коммерческая проблема, при решении которой статистические методы превращают исходные данные в полезную информацию, необходимую для принятия правильного решения. Вопросы, поднимаемые в сценарии, требуют применения статистических методов, рассматриваемых в последующих разделах главы. Обдумывая эти вопросы, читатель поймет, как менеджеры используют статистические методы для решения поставленных перед ними задач, улучшая качество своей продукции и услуг. В сценарии “Компания Good Tunes — часть I” вопрос, что включить в презентацию, не менее важен, чем сам способ представления фактов. Вполне вероятно, что банкиры потребуют информацию о финансовом положении компании. А какие еще данные стоило бы собрать и продемонстрировать для того, чтобы получить ссуду? (Ответ на этот вопрос содержится в сценарии “Компания Good Tunes — часть II”.) Разумеется, проведя презентацию, менеджеры компании вправе надеяться, что банк примет правильное решение. Иначе говоря, предполагается, что банкиры также владеют методами статистического вывода и способны прийти к правильному решению!
1.5. ОБУЧЕНИЕ СТАТИСТИКЕ С ПОМОЩЬЮ ПРОГРАММЫ MICROSOFT EXCEL Как показано в разделе 1.2, развитие статистики на протяжении последнего столетия привело к более широкому использованию компьютерных программ, автоматизирующих обработку данных и статистический анализ. Если бы в книге рассматривались только статистические понятия и не описывалось применение компьютерных программ, генерирующих статистическую информацию, образование читателей было бы неполным. Идеальная программа, описываемая в учебнике по коммерческой статистике, должна иметь широкое распространение в деловом мире, быть легкой в использовании и достаточно простой для обучения, а также всегда генерировать точную статистическую информацию. К сожалению, такой программы не существует до сих пор! Вместо нее в книге используется программа Microsoft Excel. Несмотря на недостатки, упомянутые в разделе 1.3, эта программа предоставляет превосходные возможности для изложения вводного курса статистики и для демонстрации применения статистических методов в процессе принятия деловых решений. Разумеется, все, что говорилось о программе Microsoft Excel ранее, остается в силе, поэтому примеры тщательно подобраны так, чтобы минимизировать или совсем исключить влияние ее статистических недостатков. Применяя программу Microsoft Excel к любому из наборов данных, приведенных в книге, читатель может быть уверен, что он придет к правильному статистическому выводу. (Правда, это утверждение может оказаться неверным в отношении других наборов данных, поэтому, как сказано в разделе 1.3, при работе с программой Microsoft Excel следует иметь в виду возможные проблемы, связанные с точностью вычислений.) 1.6. НАИБОЛЕЕ ЭФФЕКТИВНОЕ ИСПОЛЬЗОВАНИЕ ПРОГРАММЫ MICROSOFT EXCEL Программа Microsoft Excel используется в книге для того, чтобы помочь читателям овладеть коммерческой статистикой. Преподаватели статистики снова разошлись во мнениях о том, как лучше всего применять эту программу в процессе обучения. Некоторые преподаватели считают, что программу Microsoft Excel следует применять лишь для иллюстрации приложений статистики. Другие считают, что студенты могут использовать эту программу в качестве основного инструмента статистического анализа, надеясь, что разработчики внесут в нее необходимые уточнения и расширят ее возможности. Эти споры означают, что не существует единого оптимального способа применения программы Microsoft Excel, который подошел бы всем студентам при овладении любым вводным курсом коммерческой статистики. На практике применение программы Microsoft Excel зависит от многих дополнительных факторов: подготовки и опыта преподавателя, технологического уровня, а также от качества технической поддержки и длительности курса обучения. Исходя из этого, преподаватель может использовать как один из двух подходов, так и их комбинацию. По этим причинам в текст книги включены разделы “Стратегии Excel”, содержащие краткие описания конкретных статистических процедур программы Microsoft Excel и детальные инструкции, предназначенные как тем читателям, кто хочет использовать программу с максимальным удобством, так и тем, кто хочет вникнуть в технические детали. Книга предоставляет студентам и преподавателям возможность гибко использовать программу Microsoft Excel в процессе обучения. Даже если читатели выберут какой-то один подход, представление об альтернативном подходе лишь упрочит их знания о программе Microsoft Excel.
Стремясь помочь студентам и преподавателям максимально эффективно использовать программу Microsoft Excel, авторы предусмотрели следующие возможности. • Многочисленные примеры рабочих листов и диаграмм, созданных с помощью программы Microsoft Excel. Эти примеры представлены как рисунки в основном тексте и как листы в рабочих книгах, сопровождающих каждую главу. Читатель может увидеть, как применять программу Excel, даже если у него нет времени получить свои собственные результаты при освоении конкретного статистического метода. • Полная интеграция с надстройкой PHStat2, разработанной компанией Prentice Hall для программы Microsoft Excel. Применение надстройки PHStat2 позволяет минимизировать трудоемкие и подверженные ошибкам процедуры, выполняемые программой Microsoft Excel, а также получить более удобный инструмент статистического анализа, не углубляясь в технические детали, связанные с функционированием программы Microsoft Excel. (Руководство пользователя надстройки PHStat2 изложено в приложении Ж.) • Удобные шаблоны рабочих листов и книги макросов для некоторых статистических методов. Эти рабочие листы и книги позволяют читателям получить результаты, которые трудно вычислить с помощью программы Microsoft Excel. Применение этих шаблонов и книг позволяет воспользоваться преимуществами технологии PHStat2, не инсталлируя эту надстройку и не применяя другие макросы. • Разделы “Справочник по Excel”, подробно описывающие процедуры создания рабочих листов для применения статистических методов или анализа результатов, полученных с помощью стандартных команд программы Microsoft Excel. Эти разделы особенно полезны читателям, интересующимся техническими подробностями работы программ Microsoft Excel и PHStat2. • Приложение “Подготовка отчетов и презентаций с помощью пакета Microsoft Office” описывает способы внедрения результатов, полученных с помощью программы Microsoft Excel, в документы, созданные текстовым процессором Microsoft Word, и презентации, подготовленные с помощью программы Microsoft PowerPoint, а также способы извлечения данных из сети World Wide Web для дальнейшей обработки программой Microsoft Excel. Поскольку оба подхода требуют знания основ работы с операционной системой Microsoft Windows и программой Microsoft Excel, в книгу включен раздел “Букварь Excel”. В нем изложены элементарные сведения о программе Microsoft Excel, для овладения которыми не требуется никакого предварительного опыта. Прежде чем перейти к этому разделу, рассмотрим структурную схему всей книги и введем некоторые из основных понятий статистики. 1.7. ОБУЧЕНИЕ СТАТИСТИКЕ ПО УЧЕБНИКУ Чтобы помочь читателям овладеть коммерческой статистикой, перед учебником поставлены четыре задачи, перечисленные в разделе 1.4. На рис. 1.1 представлена структурная схема, демонстрирующая связи между главами. В оставшейся части главы излагаются методы сбора, представления и описания данных. Этой же теме посвящены главы 2 и 3. В главах 4-6 рассмотрены основные понятия теории вероятностей, а также биномиальное, нормальное и другие распределения. В главах 7-11 читатели научатся делать выводы о крупных генеральных совокупностях на основе информации о выборках. Главы 12-15 посвящены методам регрессии, моделям множественной регрессии и прогнозированию на основе временных рядов. В главе 17 излагаются методы улучшения процессов производства и управления.
ПРИМЕНЕНИЕ СТАТИСТИКИ Компания Good Tunes — часть II Владельцы компании Good Tunes решили включить в презентацию данные о мнении своих клиентов. Для этого они попросили клиентов заполнить и отправить в адрес компании анкету, сопровождающую каждый заказ. Анкета содержала следующие пункты. Укажите количество дней, прошедших с момента заказа товара до момента его получения. Сколько денег (в долларах) вы планируете потратить на приобретение стереофонического оборудования и другой электронной бытовой аппаратуры на протяжении следующих 12 месяцев? Как вы оцениваете качество обслуживания вашего последнего заказа? □ Намного лучше ожидаемого □ Лучше ожидаемого □ Соответствует ожиданиям □ Хуже ожидаемого □ Намного хуже ожидаемого Оцените, пожалуйста, качество стереофонического оборудования, приобретенного вами в нашей компании. □ Намного лучше ожидаемого □ Лучше ожидаемого □ Соответствует ожиданиям □ Хуже ожидаемого □ Намного хуже ожидаемого Хотели бы вы приобрести еще какие-нибудь товары в нашей компании в течение следующих 12 месяцев? Да Нет Представьте себе, что вас попросили проанализировать результаты опроса. Какие данные могут быть собраны в результате данного опроса? Какую информацию можно извлечь из этих данных после завершения опроса? Каким образом компания Good Tunes может использовать эту информацию, чтобы улучшить обслуживание своих клиентов? Как использовать эту информацию для повышения шансов получить ссуду в банке? Какие еще вопросы вы предложили бы включить в анкету?
Принятие рациональных решений Выводы о генеральной совокупности, основанные на инфор- '" ’’ мации о выборках Как улучшить w Надежное процессы прогнозирование Представление и описание информации Введение и сбор данных (глава 1) Основы теории вероятностей (глава 4) Г Статистические приложения в управлении качеством и производительностью труда (глава 17) Простая линейная регрессия и корреляция (глава 12) ! — I Таблицы и диаграммы (глава 2) Дискретные распределения вероятностей (глава 5) Принятие решений (глава 16) Описательная статистика (глава 3) Построение моделей множественной регрессии (глава 14) Множественная регрессия (глава 13) Анализ временных рядов и индексы (глава 15) Непрерывные и выборочные распределения (глава 6) Доверительные интервалы (глава 7) Проверка гипотез (главы 8-11) Рис. 1.1. Структурная схема книги 1.8. ЗАЧЕМ НУЖНЫ ДАННЫЕ Для принятия верного решения необходима информация. Перечислим ситуации, в которых необходимо анализировать данные. • Специалисту по маркетингу нужно оценить свойства товаров, чтобы отличить их друг от друга. • Производителю лекарств необходимо оценить эффективность нового лекарства по сравнению с существующими. • Технолог хочет регулярно контролировать процесс производства, чтобы качество продукции соответствовало стандартам компании. • Аудитору необходимо отследить финансовые транзакции компании, чтобы выяснить, соответствуют ли они общепринятым принципам бухгалтерского учета. • Финансовому аналитику нужно определить, какие компании и в каких отраслях промышленности будут ускоренно развиваться в период экономического восстановления. • Студент хочет получить данные о любимых рок-группах, чтобы удовлетворить свое любопытство.
Для сбора данных существуют шесть основных причин, перечисленных во врезке 1.1. ВРЕЗКА 1.1. ЗАЧЕМ НУЖНЫ ДАННЫЕ • Для обзора. • Для изучения. • Для оценки качества предоставляемых услуг или производственного процесса. • Для проверки соответствия продукции принятым стандартам. • Для выработки альтернативных решений. • Для удовлетворения любопытства. Сценарий “Компания Good Tunes — часть П”, описывающий опрос клиентов для оценки степени их удовлетворенности работой компании Good Tunes, иллюстрирует причины 1, 3, 4 и 5. Например, компания Good Tunes накапливает информацию, полученную в ходе опроса, для дальнейшего анализа качества предоставляемых услуг, оценки соответствия стандартам и выработки возможного альтернативного решения. Помимо прочего, эту информацию можно использовать для получения банковской ссуды. 1.9. ИДЕНТИФИКАЦИЯ ИСТОЧНИКОВ ДАННЫХ Исключительную роль в статистическом анализе играет правильный выбор источников данных. Если данные подобраны предвзято, противоречивы или просто неверны, даже самый сложный статистический метод не сможет компенсировать их недостатки. ВРЕЗКА 1.2. ОСНОВНЫЕ СПОСОБЫ ПОЛУЧЕНИЯ ДАННЫХ • Изучение правительственных, промышленных или других источников. • Эксперимент. • Опрос. • Наблюдение. Источники данных разделяются на первичные (primary) и вторичные (secondary). Источник называется первичным, если его данные непосредственно используются для анализа. Если же некто собирает данные для последующей передачи, он становится вторичным источником. Организации и люди, публикующие собранные данные, как правило, используют первичные источники, а другие потребители этой информации применяют их в качестве вторичных источников. Например, в США основой системы сбора и накопления данных для общественных и личных нужд является правительство. Бюро статистики труда (Bureau of Labor Statistics) отвечает за сбор информации о занятости населения, а также за сбор данных, публикуемых в ежемесячнике Consumer Price Index (“Индекс потребительских цен”). В свою очередь, Бюро переписи населения (Bureau of the Cen-cus) осуществляет разнообразные опросы, касающиеся жителей, жилищного строительства и промышленности. Исследователи рынка также распространяют данные о состоянии промышленности или отдельных сегментов рынка. Например, инвестиционное агентство Mergent's предоставляет компаниям данные о финансовом состоянии других компаний. Ин-
формационные синдикаты, такие как А. С. Nielsen, снабжают своих клиентов информацией, позволяющей сравнивать качество их продукции с качеством продукции конкурентов. Еще одним источником являются ежедневные газеты, наполненные числовой информацией, касающейся биржевых цен и погодных условий, а также спортивной статистикой. Как показано во врезке 1.2, вторым важным источником данных является эксперимент. В эксперименте все испытания проводятся под строгим контролем. Например, исследуя эффективность моющих средств, экспериментаторы определяют, какое из них лучше очищает грязную одежду, стирая ее, а не спрашивают у клиентов их мнение о том или ином порошке. Планирование эксперимента довольно сложная тема и не является предметом нашей книги, поскольку оно затрагивает сложные статистические проблемы. Однако, чтобы дать читателям представление о них, в главах 9 и 10 приводятся основные понятия, связанные с планированием эксперимента. Третьим важным источником данных является опрос. В ходе опроса респонденты абсолютно свободны. Их просят ответить на ряд вопросов, касающихся их мнений, предпочтений, поведения и других особенностей. Затем ответы редактируются, шифруются и табулируются для дальнейшего анализа. Четвертый важный метод получения данных основан на наблюдении. Исследователи непосредственно наблюдают некое явление, обычно протекающее в естественных условиях. Большинство знаний о животном мире получено именно этим путем. Кроме того, наблюдения широко используются в социологии и бизнесе. Например, весьма популярным способом маркетинговых исследований является наблюдение за фокус-группой (focus-group), которое позволяет извлечь информацию из ответов на вопросы, допускающие разные толкования. В ходе этих исследований арбитр контролирует ход дискуссии, а все участники отвечают на заданные вопросы. Существуют более сложные способы получения информации и поиска консенсуса, учитывающие динамику поведения коллектива, а также инструменты прикладной психологии, например, мозговой штурм, метод экспертных оценок и метод номинальных групп. Методы наблюдений также используются с целью повышения эффективности коллективной работы, а также для улучшения качества продукции и услуг. 1.10. МЕТОДЫ ВЫБОРОЧНОГО ИССЛЕДОВАНИЯ Как указывалось в разделе 1.1, выборка — это часть генеральной совокупности, извлеченная для анализа. Вместо осуществления полной переписи, статистические процедуры выборочного исследования концентрируют внимание на сборе информации о малой репрезентативной группе, взятой из большой генеральной совокупности. Выборка, полученная в результате этих процедур, содержит информацию, которую можно использовать для оценки свойств всей генеральной совокупности. Процедура выбора начинается с определения основы (frame), представляющей собой полное или частичное перечисление объектов, содержащихся в генеральной совокупности. Основой могут служить источники данных, например, списки населения, каталоги или карты. Затем из основы извлекаются выборки. Если основа является неадекватной, например, вследствие того, что лица или объекты, принадлежащие генеральной совокупности, выбраны неправильно, то выборки будут неточными и тенденциозными. Выбор разных основных совокупностей для получения данных может привести к противоположным результатам, как показано ниже.
ПРИМЕР 1.1. ПРОТИВОПОЛОЖНЫЕ ВЫВОДЫ В одной из газет, издающихся в пригороде Нью-Йорка, в 1988 году появился следующий заголовок: “Завершена перепись населения: правда ли, что графство Саффолк более густо населено, чем Нассау? Между компанией LILCO и Бюро переписи существуют разногласия.” (Newsday, 25 апреля 1988 года). Основываясь на данных, полученных в ходе переписи, органы исполнительной власти графства Саффолк убеждены, что численность их населения превосходит количество жителей Нассау, а власти Нассау уверены в обратном. Кто из них прав? РЕШЕНИЕ. Разница между двумя оценками объясняется тем, что Бюро переписи населения и компания LILCO (Long Island Lighting Company) использовали разные основные совокупности и оценивали численность населения, руководствуясь разными критериями. Бюро переписи населения использовало уровни рождаемости и смертности, а также скорость миграции населения, взяв за основу декларации о подоходном налоге. Кроме того, оно применило демографическую формулу, учитывающую уменьшение среднего количества жильцов, проживающих в отдельном жилище, за последние несколько лет. В свою очередь, компания LILCO использовала показатели счетчиков электроэнергии и газа, площадь строений и множитель, оценивающий среднее количество жильцов в отдельном жилище. Как показано во врезке 1.3, выборочное исследование необходимо по трем причинам. ВРЕЗКА 1.3. ВЫБОРОЧНОЕ ИССЛЕДОВАНИЕ • Выборочное исследование занимает меньше времени, чем исследование всей генеральной совокупности. • Выборочное исследование дешевле, чем исследование всей генеральной совокупности. • Выборочное исследование проще и практичнее, чем полное исследование. Как показано на рис. 1.2, существует два вида выборок: детерминированные и вероятностные. Разновидности выборок Детерминированные выборки Не вполне Выборка Порция Непрезентативная случайная по группам данных выборка выборка Вероятностные выборки Случайная простая выборка Система- Стратифици- Кластерная тическая рованная выборка выборка выборка Рис. 1.2. Разновидности выборок Детерминированная выборка Детерминированная выборка (nonprobability sample) состоит из элементов, включенных в нее без учета вероятности их появления.
Поскольку детерминированные выборки содержат элементы без учета вероятности их появления, причем в некоторых случаях респонденты участвуют в опросах по собственной инициативе, к ним нельзя применить теорию, разработанную для вероятностных выборок. Типичным примером детерминированных выборок являются нерепрезентативные выборки (convenience samples). Объекты включаются в такие выборки на основе соображений простоты, дешевизны или удобства отбора. Например, многие компании проводят опросы, предоставляя посетителям их Web-страниц возможность заполнить анкету и переслать ее через Интернет. Такие анкеты позволяют собрать большое количество информации за короткий промежуток времени, однако выборки состоят из ответов пользователей World Wide Web, которые принимают участие в опросе по собственной инициативе. Во многих ситуациях единственным видом доступных выборок являются не вполне случайные выборки (judgment samples). В этом случае крайне важным для получения осмысленных результатов становится мнение эксперта в предметной области опроса. Групповые выборки (quota samples) и порции данных (chunks of data) представляют собой еще один пример детерминированных выборок. Они подробно описаны в работах, посвященных методам выборочного исследования [1, 2]. Детерминированные выборки, например, нерепрезентативные, обладают некоторыми преимуществами, в частности, их можно легко и быстро создавать, не расходуя больших средств. С другой стороны, у них есть два важных недостатка — низкая точность, являющаяся следствием тенденциозности, и ограниченность результатов. Преимущества детерминированных выборок не компенсируют их недостатки. Следовательно, детерминированные выборки следует применять лишь для грубых и недорогих оценок, предназначенных для удовлетворения любопытства, либо в качестве учебного или пилотного проекта, который подлежит дальнейшему уточнению. Вероятностная выборка Вероятностная выборка (probability sample) состоит из элементов, вероятность появления которых известна заранее. Вероятностные выборки следует применять всегда, когда это возможно, поскольку лишь они позволяют сделать корректные статистические выводы о генеральной совокупности. На практике получить истинно вероятностную выборку очень трудно или просто невозможно. Однако для создания вероятностной выборки необходимо следовать правилам и учитывать любую возможную тенденциозность. Существует четыре вида вероятностных выборок: простая случайная (simple random), систематическая (systematic), стратифицированная (stratified) и кластер (cluster). Каждой из этих выборок соответствует свой метод выбора, который характеризуется собственной стоимостью, точностью и сложностью. Рассмотрим каждую из разновидностей вероятностных выборок. Простая случайная выборка Вероятность выбора элементов простой случайной выборки (simple random sample) из основы совпадает с вероятностью выбора любого другого элемента. Кроме того, вероятность извлечения из основной совокупности любых выборок фиксированного объема является постоянной для данного объема. Простой случайный выбор представляет собой элементарную процедуру, на основе которой создаются более сложные методы выбора. В рамках простого случайного выбора (simple random sampling) символом п обычно обозначают объем выборки, а символом N— объем основы. Каждый элемент основы нумеруется числами от 1 до N. Вероятность выбрать любой конкретный элемент основы при первом извлечении равна 1/2V. Существует два основных способа извлечения выборок: с возвращением и без него.
Выбор с возвращением (sampling with replacement) означает, что выбранный элемент возвращается в основу, причем вероятность его повторного извлечения остается постоянной. Представьте себе урну, в которой находятся 100 визитных карточек. Допустим, что при выборе первого элемента мы извлекли визитную карточку Джуди Крэйвен (Judy Craven). Отметим этот факт в своих записях и вернем карточку в урну. Перемешаем карточки, а затем извлечем из урны вторую визитку. При втором испытании вероятность извлечь визитную карточку Джуди Крэйвен остается равной 1/N. Процесс продолжается до тех пор, пока не будет достигнут желаемый объем выборки п. Однако часто более предпочтительным является способ, при котором выборки не содержат повторяющихся элементов. Выбор без возвращения (sampling without replacement) означает, что после извлечения элемент не возвращается в основу и, следовательно, не может быть выбран вновь. При первом извлечении элемента вероятность его выбора из основы равна 1/N. Однако, в отличие от выбора с возвращением, вероятность выбора элемента, не извлеченного при первом испытании, равна 1/(А-1). Процесс продолжается до тех пор, пока не будет достигнут желаемый объем выборки п. Независимо от выбранной схемы выбора (с возвращением или без), такой подход имеет один существенный недостаток — он зависит от тщательности перемешивания элементов и случайности их выбора. Поэтому метод урн (“fishbowl method”) считается не вполне приемлемым. Желательно применять более простой и научно обоснованный метод выбора элементов. Один из таких методов основан на таблице случайных чисел (см. табл. Д.1 в приложении Д), состоящей из последовательности цифр, сгенерированных случайным образом [12]. Поскольку при записи чисел используются 10 цифр (0, 1, ..., 9), все цифры являются равновероятными. Вероятность их появления равна 1/10. Следовательно, если сгенерировать последовательность, состоящую из 800 цифр, цифра 0, как и любая другая цифра, встретится приблизительно 80 раз. Обычно, прежде чем применить таблицу случайных чисел на практике, исследователи проверяют их случайность. Таким образом, табл.Д.1 удовлетворяет критерию случайности. Поскольку каждая цифра или последовательность цифр, приведенных в этой таблице, являются случайными, эту таблицу можно читать как по строкам, так и по столбцам. Для удобства применения цифры в таблице сгруппированы. Для того чтобы использовать такую таблицу вместо урны, необходимо сначала присвоить элементам основы соответствующий числовой код. Затем следует извлечь из таблицы случайную выборку цифр и выбрать из урны элемент, код которого совпадает с извлеченным случайным числом. Чтобы лучше освоить принципы случайного выбора, проиллюстрируем его примером. ПРИМЕР 1.2. ПРОСТОЙ СЛУЧАЙНЫЙ ВЫБОР, ОСНОВАННЫЙ НА ТАБЛИЦЕ СЛУЧАЙНЫХ ЧИСЕЛ Некая компания оплачивает своим сотрудникам стоматологическую помощь и желает оценить свои затраты. Для этого необходимо извлечь из генеральной совокупности, состоящей из 800 постоянных сотрудников, случайную выборку, объем которой равен 32. Компания предполагает, что не каждый сотрудник захочет добровольно принять участие в опросе, поэтому завышает объем выборки, чтобы в случае отказа в ней осталось хотя бы 32 человека. Предполагая, что в опросе примут участие 8 сотрудников из каждых 10 (т.е. 80% персонала), можно утверждать, что для создания выборки, состоящей из 32 сотрудников, необходимо опросить как минимум 40. Следовательно, анкету следует распространить среди 40 сотрудников, произвольным образом выбирая их личные дела. Как организовать простой случайный выбор?
РЕШЕНИЕ. Чтобы составить случайную выборку, применим таблицу случайных чисел. Основа представляет собой список имен и учетных номеров всех 800 сотрудников. Таким образом, основа является точным и полным перечислением всех элементов генеральной совокупности. Поскольку ее объем (800) задается трехзначным числом, код, присвоенный каждому сотруднику, также должен состоять из трех цифр, чтобы вероятность выбора любого постоянного сотрудника была одинаковой. Первому постоянному сотруднику присваивается код 001, второму — 002 и так далее, пока не будет достигнут код 800, присвоенный последнему сотруднику. Поскольку число N = 800 представляет собой максимально возможный код, все остальные трехзначные последовательности цифр (от 801 до 999, а также 000) игнорируются. Для того чтобы извлечь простую случайную выборку, выберем из таблицы случайных чисел стартовую точку. Достаточно просто закрыть глаза и наугад ткнуть в таблицу ручкой. Допустим, что в качестве стартовой точки выбрана 6-я строка и 5-й столбец в табл. 1.1 (приведен фрагмент табл. Д.1). Хотя эту таблицу можно читать в любом направлении, мы примем естественный порядок — будем извлекать по три цифры слева направо без пропусков. Таблица 1.1. Применение таблицы случайных чисел Столбцы Строка 00000 12345 00001 67890 11111 12345 11112 67890 22222 12345 22223 67890 33333 12345 33334 67890 01 49280 88924 35779 00283 81163 07275 89863 02348 02 61870 41657 07468 08612 98083 97349 20775 45091 03 43898 65923 25078 86129 78496 97653 91550 08078 04 62993 93912 30454 84598 56095 20664 12872 64647 Стартовая точка 05 33850 58555 51438 85507 71865 79488 76783 31708 (строка 06, 06 97340 03364 88472 04334 63919 36394 11095 92470 столбец 05) 07 70543 29776 10087 10072 55980 64688 68239 20461 08 89382 93809 00796 95945 34101 81277 66090 88872 09 37818 72142 67140 50785 22380 16703 53362 44940 10 60430 22834 14130 96593 23298 56203 92671 15925 11 82975 66158 84731 19436 55790 69229 28661 13675 12 39087 71938 40355 54324 08401 26299 49420 59208 13 55700 24586 93247 32596 11865 63397 44251 43189 14 14756 23997 78643 75912 83832 32768 18928 57070 15 32166 53251 70654 92827 63491 04233 33825 69662 16 23236 73751 31888 81718 06546 83246 47651 04877 17 45794 26926 15130 82455 78305 55058 52551 47182 18 09893 20505 14225 68514 46427 56788 96297 78822 19 54382 74598 91499 14523 68479 27686 46162 83554 20 94750 89923 37089 20048 80336 94598 26940 36858 21 70297 34135 53140 33340 42050 82341 44104 82949 22 85157 47954 32979 26575 57600 40881 12250 73742
Окончание табл. 7.7 Столбцы Строка 00000 12345 00001 67890 11111 12345 11112 67890 22222 12345 22223 67890 33333 12345 33334 67890 23 11100 02340 12860 74697 96644 89439 28707 25815 24 36871 50775 30592 57143 17381 68856 25853 35041 25 23913 48357 63308 16090 51690 54607 72407 55538 Источник: табл. Д.1, приведенная в приложении Д, взята из справочника The Rand Corporation, A Million Random Digits with 100,000 Normal Deviates (Glencoe, IL; The Free Press, 1995). Сотрудник, имеющий код 003, является первым элементом выборки (строка 06, столбцы 05-07), второй сотрудник имеет код 364 (строка 06, столбцы 08-10), а третий — 884. Поскольку в компании работает 800 сотрудников, этот код отбрасывается. В качестве элементов с 3-го по 10-й выбираются сотрудники с кодами 720, 433, 463, 363, 109, 592, 470 и 705 соответственно. Выбор продолжается до тех пор, пока не будет сформирована выборка, состоящая из 40 постоянных сотрудников. Если в этом процессе обнаружится одна и та же трехзначная комбинация цифр, соответствующий сотрудник включается в выборку, если принята схема выбора с возвращением, в противном случае этот код игнорируется. Систематическая выборка При формировании систематической выборки N элементов, образующих основу, разбиваются на А групп, имеющих объем и. Иначе говоря, п Число k округляется до ближайшего целого числа. Чтобы получить систематическую выборку, ее первый элемент нужно случайным образом выбрать из первых k элементов первой группы, взятой из основы. Остальные элементы образуются путем выбора каждого А-го элемента всей основы. Если основа состоит из списка пронумерованных чеков, квитанций или счетов либо списка членов клуба, студентов и т.п., систематическую выборку легче и проще получить с помощью простого случайного выбора. В этих ситуациях систематическая выборка является удобным механизмом для получения желаемых данных. Если систематическая выборка, состоящая из 40 элементов, должна быть образована из генеральной совокупности, в которую входят 800 сотрудников, основу необходимо разделить на 20 групп (800/40=20). Среди первых 20 кодов следует выбрать случайное число, а затем включить в выборку каждый 20-й элемент основы. Например, если в качестве первого случайного числа выбран код 008, следующими элементами должны стать сотрудники с номерами 028, 048, 068, 088, 108, ..., 768 и 788. Несмотря на свою простоту, методы простого случайного и систематического выбора обычно менее эффективны, чем остальные, более сложные методы получения вероятностных выборок. Это значит, что данные, полученные с помощью простого или систематического выбора, не всегда хорошо отражают свойства всей генеральной совокупности. Хотя метод простого выбора теоретически позволяет правильно оценить свойства генеральной совокупности, в каждом конкретном случае невозможно определить, является ли та или иная выборка репрезентативной.
Систематические выборки чаще бывают более неадекватными и нерепрезентативными, чем выборки, сформированные путем простого случайного выбора. Если в основе существует определенная структура, может возникнуть систематическая ошибка. Для решения потенциальной проблемы неадекватности специфических групп, входящих в выборку, применяется либо метод стратифицированного выбора либо метод кластерного выбора. Стратифицированная выборка При формировании стратифицированной выборки N элементов генеральной совокупности или основы разделяются на отдельные подмножества, или страты (strata), обладающие общими свойствами. Затем к каждому подмножеству применяется простой случайный выбор, и его результаты объединяются в одно целое. Этот метод выбора более эффективен, чем методы простого или систематического выбора, поскольку он обеспечивает большую репрезентативность выборки. Точность оценки параметров генеральной совокупности гарантируется однородностью элементов, принадлежащих одному подмножеству. ПРИМЕР 1.3. ИЗВЛЕЧЕНИЕ СТРАТИФИЦИРОВАННОЙ ВЫБОРКИ Некая компания оплачивает своим сотрудникам стоматологическую помощь и желает оценить свои затраты. Для этого необходимо извлечь из генеральной совокупности, состоящей из 800 постоянных сотрудников, случайную выборку, включающую в себя 32 человека. Компания предполагает, что в опросе примет участие 80% персонала, поэтому необходимо опросить как минимум 40 человек. Как извлечь стратифицированную выборку? РЕШЕНИЕ. Основа представляет собой список имен и учетных номеров всех 800 сотрудников. Поскольку 25% постоянных сотрудников относится к управляющему персоналу, сначала необходимо разделить основу на две страты: подмножество, состоящее из 200 менеджеров, и подмножество, включающее в себя 600 остальных сотрудников. Поскольку первая страта состоит из 200 менеджеров, код каждого менеджера задается трехзначным числом от 001 до 200. Аналогично, поскольку вторая страта состоит из 600 сотрудников, каждому из них призваивается трехзначный код от 001 до 600. Для того чтобы создать стратифицированную выборку, необходимо выбрать из первой страты 25% выборки, а остальные 75% извлечь из второй страты. Следовательно, достаточно дважды применить простой случайный выбор элементов из каждой страты, выбирая разные стартовые точки в табл. 1.1. Возникнут две простые случайные выборки. Первая из них состоит из 10 сотрудников, извлеченных из первой страты, а вторая — из 30 сотрудников, принадлежащих второй страте. Выборка, полученная в результате этой процедуры, будет правильно отображать структуру компании. Кластерная выборка Для образования кластерной выборки основа, состоящая из N элементов, разбивается на несколько кластеров так, чтобы каждый кластер отражал свойства всей генеральной совокупности. Затем осуществляется простой случайный выбор кластеров, в которых изучаются все элементы. Кластеры естественным образом получаются при статистическом анализе округов, избирательных участков, городов, районов или семей.
Метод кластерного выбора может оказаться менее дорогостоящим, чем метод простого случайного выбора, особенно если генеральная совокупность распределена по широкому географическому региону. Однако метод кластерного анализа в целом менее эффективен, чем методы простого случайного и систематического выбора, и для получения более точной оценки свойств генеральной совокупности приходится значительно увеличивать объем выборки. Подробное описание методов систематического, стратифицированного и кластерного выбора приводится в работах [1, 2]. УПРАЖНЕНИЯ К РАЗДЕЛУ It Изучение основ 1.1. Какой код следует присвоить следующим элементам генеральной совокупности, состоящей из А = 902 элементов? 1. Первому элементу. 2. Сороковому элементу. 3. Последнему элементу. 1.2. Предположим, что объем генеральной совокупности равен А = 902. Докажите, что, если стартовая точка находится в пятой строке таблицы случайных чисел (табл. Д.1), для формирования выборки, состоящей из п = 60 элементов, путем выбора без повторения достаточно шести строк. 1.3. Предположим, что объем генеральной совокупности равен А = 93, а стартовая точка находится в 29-й строке таблицы случайных чисел (табл. Д.1), причем чтение цифр производится вдоль строки. Сформируйте выборку, состоящую из п = 15 элементов, пользуясь указанным ниже методом. 1. Выбор без возвращения. 2. Выбор с возвращением. Применение понятий 1.4. Объясните, почему при изучении результатов личного собеседования с участниками (без помощи почты или телефона) метод простого случайного выбора менее эффективен, чем остальные методы. 1.5. Допустим, нам необходимо создать случайную выборку объема 1 из генеральной совокупности, состоящей из трех элементов (А, В и С). Правило формирования выборки таково: бросаем монету; если выпал орел, выбираем элемент А, если решка, бросаем монету еще раз. Если снова выпал орел, выбираем элемент В, в противном случае выбираем элемент С. Объясните, почему выборка, полученная таким образом, не является простой случайной выборкой. 1.6. Допустим, что генеральная совокупность состоит из четырех элементов (А, В, С и D). Нам необходимо сформировать случайную выборку объема 2, пользуясь следующим правилом. Бросаем монету: если выпал орел, выбираем элементы А и В, если решка, выбираем элементы С и D. Хотя эта выборка является случайной, она не является простой случайной выборкой. Объясните почему. (Если вы решили задачу 1.5, сравните процедуры, описанные в этих задачах.) 1.7. Ректор колледжа, в котором учатся А = 4000 студентов, поручил секретарю провести опрос студентов и выяснить, довольны ли они своей жизнью в студенческом городке. В следующей таблице приведено распределение студентов в соответствии с полом и курсами.
Курсы Пол 1 2 3 4 Сумма Жен. 700 520 500 480 2200 Муж. 560 460 400 380 1800 Сумма 1 260 980 900 860 4000 Секретарь должен образовать вероятностную выборку, имеющую объем п = 200, и распространить полученные результаты на всю генеральную совокупность. 1. Если в качестве основы секретарь может использовать личные дела всех студентов, упорядоченные в алфавитном порядке, подумайте, какой тип выборки можно создать. 2. В чем проявляется преимущество простого случайного выбора при решении задачи 1? 3. В чем проявляется преимущество систематического выбора при решении задачи 1? 4. Какой тип выборки следует создать, если в качестве основы секретарь может использовать личные дела всех студентов, упорядоченные в алфавитном порядке на восьми листах в соответствии с полом и курсом, как показано в вышеприведенной таблице? 5. Допустим, что каждый из зарегистрированных 4000 студентов живет в одном из 20 общежитий. Каждое общежитие имеет четыре этажа, на каждом этаже расположены 50 коек. Следовательно, в каждом общежитии может жить 200 студентов. Администрация колледжа стремится собрать студентов одного пола и учащихся на одном курсе на отдельных этажах каждого общежития. Какой тип выборки следует создать, если у секретаря есть возможность описать основу, состоящую из студентов, распределенных по общежитиям и этажам? 1.8. В журнале учета продаж хранятся счета, пронумерованные числами от 0001 до 5000. 1. Допустим, что стартовая точка находится в табл. Д.1 на пересечении строки 16 и столбца 1, а чтение выполняется в горизонтальном направлении. Сформируйте простую случайную выборку, состоящую из 50 счетов. 2. Создайте систематическую выборку, состоящую из 50 счетов. Используйте случайное число, находящееся в табл. Д.1 на пересечении строки 16 и столбцов 5-7. 3. Совпадают ли выборки, полученные при решении задач 1 и 2? Обоснуйте свой ответ. 1.9. Допустим, что 5 000 счетов разделены на 4 подмножества. В первом подмножестве содержатся 50 счетов, во втором — 500, в третьем — 1 000, в четвертом — 3 450. Следует выбрать 500 счетов. 1. Какой метод выбора следует предпочесть? Почему? 2. Объясните, как использовать метод выбора, определенный при решении задачи 1. 3. Почему для решения задачи 1 не годится простой случайный выбор?
1.11. ТИПЫ ДАННЫХ Результатом опросов являются случайные величины (random variables). Эти данные изменяются от объекта к объекту (от респондента к респонденту), поскольку двух абсолютно одинаковых объектов не существует. Как показано на рис. 1.3, существуют две разновидности случайных переменных, значения которых образуют наборы данных: категорийные и числовые. Разновидности данных Разновидности вопросов Ответы Категорийные Дискретные Владеете ли Вы в настоящее время да q какими-либо акциями или облигациями? Нет □ Числовые Сколько журналов Вы выписываете? Непрерывные Каков Ваш рост? Штук Дюймов Рис. 1.3. Разновидности данных Категорийные случайные величины (categorical random variables) возникают в результате категорических ответов на заданные вопросы, скажем, “да” или “нет”. Например, ответить на вопрос “Владеете ли Вы в настоящее время какими-либо акциями или облигациями?” можно лишь положительно или отрицательно. Другим примером подобных данных являются ответы на вопрос о качестве услуг, предоставляемых компанией Good Tunes: “Хотели бы Вы приобрести еще какие-нибудь товары в нашей компании в течение следующих 12 месяцев?”. Категорийные переменные могут иметь не только два возможных значения. Например, существуют несколько вариантов ответа на вопрос: “В какой день недели вы предпочитаете обедать в ресторане?”. Числовые случайные величины (numerical random variables) являются ответами на вопросы о каком-либо измерении, например, о росте опрашиваемого. Кроме того, в ответ на вопросы “Сколько денег (в долларах) Вы планируете потратить на приобретение стереофонического оборудования на протяжении следующих 12 месяцев?” или “Сколько журналов Вы выписываете?” опрашиваемый также должен указать конкретное число. Существуют две разновидности числовых переменных: дискретные и непрерывные. Дискретные случайные величины (discrete random variables) используются для ответа на вопрос, требующий подсчета. Например, в ответ на вопрос “Сколько журналов Вы выписываете?” опрашиваемый должен указать дискретное значение, т.е. конечное целое число. Можно совсем не выписывать журналов (ответ равен нулю) или выписывать один, два и более журналов. Непрерывная случайная величина (continuous random variables) возникает как ответ на вопрос, требующий измерения. Типичным примером такой величины является рост опрашиваемого, который может изменяться в определенном интервале и измеряться с заданной точностью. Например, ваш рост может равняться 67, 6?74, 677/а2 или 67э8/250 дюйма в зависимости от точности проведенных измерений. Теоретически не существует двух людей, имеющих одинаковый рост, поскольку, чем точнее проводятся измерения, тем выше вероятность обнаружить различие между полученными величинами. Однако большинство измерительных приборов не настолько совершенны, чтобы выявлять небольшие различия между измеренными величинами. Поэтому в большинстве случаев результаты эксперимента или опроса содержат взаимосвязанные наблюдения, даже если случайная величина на самом деле является непрерывной.
Шкалы измерений Данные можно классифицировать по шкалам (scales), или уровням измерений. Существуют четыре общепризнанных шкалы измерений: номинальная (nominal), порядковая (ordinal), интервальная (interval) и шкала отношений (ratio scale). Номинальная и порядковая шкалы. Данные, представляющие собой значения категорийных переменных, измеряются либо по номинальной, либо по порядковой шкале. Номинальная шкала (рис. 1.4) классифицирует данные по разным неупорядоченным категориям. Например, ответ на вопрос “Планируете ли Вы приобретать стереофоническое оборудование на протяжении следующих 12 месяцев?” является номинальной переменной. Аналогично номинальными переменными являются ответы на вопросы о любимых напитках, а также о политической или половой принадлежности. Номинальное шкалирование является слабейшей формой измерения, поскольку исследователи не дифференцируют результаты, принадлежащие одной и той же категории, и не устанавливают отношение порядка между категориями. Категорийная переменная Есть ли у вас персональный компьютер? Категории Да □ НетП Прибыльными □ Стабильными □ Другими □ НикакимиП Какая компания является вашим ... „ , г—1 гп п гп Интернет-провайдером? Microsoft Network □ АОШ Другая □ Рис. 1.4. Примеры номинальных шкал Порядковая шкала классифицирует данные по разным упорядоченным категориям. Например, ответ на вопрос “Как Вы оцениваете качество обслуживания Вашего последнего заказа?” представляет собой порядковую переменную, поскольку ее значения ранжируются по’ степени удовлетворенности клиентов: намного лучше ожидаемого, лучше ожидаемого, соответствует ожиданиям, хуже ожидаемого, намного хуже ожидаемого. На рис. 1.5 приведены другие примеры порядковых переменных. Категорийная переменная Упорядоченные категории Названия студенческих групп Оценка продукции (Низшая-высшая) Первый курс Второй курс Третий курс Четвертый курс Очень плохо Плохо Удовлетворительно Хорошо Очень хорошо Преподавательские должностиПрофессор Доцент Ассистент Преподаватель Рейтинг облигаций Оценки студентов AAA АА а ВВВ ВВ В ССС ОС с DDD DD D Рис. 1.5. Примеры порядковых шкал Порядковая шкала представляет собой более точную форму измерений, поскольку между ответами, отнесенными к разным категориям, устанавливается отношение порядка. Несмотря на это, порядковое шкалирование является разновидностью относительно менее точных измерений, поскольку данные, относящиеся к одной и той же категории по-прежнему не дифференцируются. При порядковых измерениях у исследователей нет разумных инструментов, позволяющих дать количественную оценку ответов. Известно лишь, какая категория “больше”, “лучше” или “предпочтительнее”, но неизвестно насколько. А В С D F
Интервальные шкалы и шкалы отношений. Интервальная шкала (рис. 1.6) представляет собой порядковую шкалу, в которой разности между измерениями выражаются ненулевым числом. Например, температура воздуха, равная 67 °F, на 2 °F теплее, чем 65 °F. Кроме того, разность между температурами, равными 74 °F и 76 °F, также равна 2 °F. Следовательно, указанные разности сохраняют смысл для любых измерений. Числовая переменная Температура (по Цельсию или Фаренгейту) Стандартизованная экзаменационная оценка Высота (в дюймах или сантиметрах) Вес (в фунтах или килограммах) Возраст (в годах или днях) Зарплата (в долларах США или японских йенах) Уровень измерений Интервальная шкала Интервальная шкала Шкала отношений Шкала отношений Шкала отношений Шкала отношений Рис. 1.6. Примеры интервальных шкал и шкал отношений Шкала отношений — это упорядоченная шкала, в которой разности между измерениями (высоты, веса, возраста или зарплаты) могут равняться нулю. Например, сумма денег (в долларах США), которую клиент планирует потратить на приобретение стереофонического оборудования на протяжении следующих 12 месяцев, представляет собой переменную, измеренную по шкале отношений. Кроме того, шкала отношений может содержать рост человека, равный 76 дюймам, который вдвое превышает рост другого человека, равный 38 дюймам. Температура представляет собой более сложный случай: шкалы Фаренгейта и Цельсия являются интервальными, но их нельзя назвать шкалами отношений, поскольку нулевая температура — это условная величина, а не реальная. Нельзя сказать, что температура воздуха, равная 76 °F, вдвое теплее, чем температура, равная 38 °F. Однако, в отличие от шкал Фаренгейта и Цельсия, шкала Кельвина является шкалой отношений, поскольку включает в себя не условный, а абсолютный нуль. Значения числовых переменных, как правило, измеряются либо по интервальной шкале, либо по шкале отношений. Эти шкалы образуют высший уровень измерения. Они точнее, чем порядковая шкала, поскольку позволяют определить, не только, какая из наблюдаемых величин больше другой, но и насколько. УПРАЖНЕНИЯ К РАЗДЕЛУ 1.1 Изучение основ 1.10. Предположим, что в кафе продаются три разновидности напитков — лимонад, чай и кофе. 1. Объясните, почему тип напитка является примером категорийных данных. 2. Объясните, почему тип напитка являются переменной, измеренной по номинальной шкале. 1.11. Допустим, что безалкогольные напитки продаются в кафе в трех разных емкостях — маленькой, средней и большой. Объясните, почему объем емкости является категорийной величиной. 1.12. Предположим, что вы измерили время загрузки МРЗ-файла через Интернет. 1. Объясните, почему время загрузки является числовой величиной. 2. Объясните, почему время загрузки является переменной, измеренной по шкале отношений.
Применение понятий 1.13. Какие случайные величины приведены ниже — категорийные или числовые? Если переменная является числовой, определите ее разновидность (дискретная или непрерывная). Определите уровень измерения. 1. Количество телефонов в жилище. 2. Наиболее распространенный тип телефона. 3. Количество междугородных разговоров за месяц. 4. Продолжительность (в минутах) наиболее долгого междугородного телефонного разговора за последний месяц. 5. Наиболее распространенный цвет телефона. 6. Ежемесячная оплата (в долларах и центах) за междугородные телефонные разговоры. 7. Владение сотовым телефоном. 8. Количество местных телефонных разговоров за месяц. 9. Продолжительность (в минутах) наиболее долгого местного телефонного разговора за последний месяц. 10. Подключена ли телефонная линия к компьютерному модему? 11. Имеется ли факс? 1.14. Предположим, что от студентов, посещавших книжный магазин в студенческом городке на протяжении первой недели занятий, получена следующая информация. 1. Количество денег, потраченных на книги. 2. Количество приобретенных книг. 3. Количество времени, проведенного в магазине. 4. Академическая специализация студента. 5. Пол. 6. Владение персональным компьютером. 7. Владение DVD-плейером. 8. Количество курсов, посещаемых студентом в текущем семестре. 9. Покупал ли студент в книжном магазине какие-либо предметы одежды? 10. Способ оплаты покупки. Определите, какие пункты опроса соответствуют категорийным переменным, а какие — числовым. Укажите уровень измерения. 1.15. Определите, какие пункты соответствуют категорийным случайным переменным, а какие— числовым. Если переменная является числовой, определите ее тип — дискретная или непрерывная. Укажите уровень измерения. 1. Название Интернет-провайдера. 2. Ежемесячная оплата услуг Интернет-провайдера. 3. Еженедельный объем времени, проведенного в Интернет. 4. Основная цель блуждания в Интернет. 5. Количество писем, получаемых по электронной почте за неделю. 6. Ежемесячная оплата телефонных услуг. 7. Количество покупок, сделанных через Интернет, за месяц.
8. Сумма, потраченная на оплату покупок, сделанных через Интернет, за месяц. 9. Оснащен ли компьютер записывающим компакт-приводом? 1.16. Определите, какие пункты соответствуют категорийным случайным переменным, а какие — числовым. Если переменная является числовой, определите ее тип — дискретная или непрерывная. Укажите уровень измерения. 1. Количество денег, потраченных на приобретение одежды в прошлом месяце. 2. Количество предметов зимней одежды. 3. Излюбленный универмаг. 4. Количество времени, затраченного на приобретение одежды в прошлом месяце. 5. Излюбленное время посещения магазинов одежды (рабочие дни, вечера или выходные). 6. Количество имеющихся пар зимних перчаток. 7. Основной вид транспорта, использованного для посещения магазинов одежды. 1.17. Предположим, что в своем запросе на кредит под залог дома в банке Metro County Savings and Loan Association Роберт Кеелер указал следующую информацию. 1. Место жительства: Стоуни Брук, Нью-Йорк. 2. Вид жилья: отдельный семейный дом. 3. Дата рождения: 9 апреля 1962 года. 4. Ежемесячные платежи: 1 427 долл. 5. Занятие: газетный репортер/корреспондент. 6. Работодатель: Daily newspaper. 7. Рабочий стаж: 14 лет. 8. Количество мест работы за последний год: 1. 9. Ежегодный совокупный доход семьи за счет зарплаты: 66 000 долл. 10. Другие источники дохода: 26 000 долл. 11. Семейное положение: женат. 12. Количество детей: 2. 13. Запрашиваемый заем: 120 000 долл. 14. Срок займа: 30 лет. 15. Другие займы: автомобиль. 16. Объем остальных займов: 8 000 долл. Классифицируйте ответы по типам данных. 1.18. Доход является одной из наиболее распространенных величин, включаемых в различные опросы. Иногда вопрос о доходе формулируется так: “Каков Ваш доход (в тысячах долларов)?”. В других опросах вопрос звучит иначе: “Поставьте крестик в кружочек, соответствующий Вашему уровню доходов”. Этот вопрос сопровождается несколькими вариантами ответов. 1. Укажите, по каким шкалам измеряется переменная в каждом из двух опросов: номинальной, порядковой, интервальной или шкале отношений. 2. Объясните, почему в первом случае ответ можно интерпретировать как дискретную или непрерывную величину. 3. Какой из этих вариантов вопроса вы выбрали бы для своего опроса? Почему? 4. Какой из этих вариантов вопроса дает отвечающему больше свободы при выборе ответа? Почему?
1.19. Если два студента набрали на экзамене по 90 баллов, как объяснить, что эта величина является непрерывной? 1.20. Допустим, что руководитель маркетингового исследования в большой сети универмагов желает провести опрос пассажиров метро, чтобы определить, сколько времени работающая женщина тратит на покупки предметов одежды ежемесячно. 1. Опишите исследуемую генеральную совокупность и выборку из нее. Укажите, тип данных, которые можно собрать в ходе такого опроса. 2. Разработайте примерный вариант анкеты, необходимой для получения информации, определенной при ответе на задачу 1. Анкета должна содержать три вопроса для получения категорийных данных и три вопроса для определения числовых переменных. 1.12. ОЦЕНКА ДОСТОВЕРНОСТИ РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ Современные газеты, радио, телевидение, а также Интернет заполнены результатами различных социологических исследований или опросов. Совершенно очевидно, что с развитием информационных технологий таких исследований становится все больше. Не все из них можно признать правильными и осмысленными. Чтобы результаты исследования были объективными, следует придирчиво проверять их достоверность. Во-первых, необходимо точно определить цель опроса и понять, зачем и для кого он проводится. Опрос общественного мнения, предназначенный для удовлетворения чьего-то любопытства, нельзя рассматривать всерьез. Его результаты ничего не объясняют. К таким опросам следует относиться скептически, поскольку их результаты бесполезны. Определив цель исследования, следует выяснить, какие выборки положены в его основу: вероятностные или детерминированные (см. раздел 1.10). Напомним, что достоверные статистические выводы о генеральной совокупности можно сделать лишь с помощью вероятностных выборок. Исследования, основанные на детерминированных выборках, могут содержать систематические ошибки, лишающие результаты какого-либо смысла. СКАНДАЛ, ВЫЗВАННЫЙ ИСПОЛЬЗОВАНИЕМ ДЕТЕРМИНИРОВАННОЙ ВЫБОРКИ В 1948 году социологи пророчили победу на выборах президента США Томасу Девею (Thomas Е. Devey), тогдашнему губернатору штата Нью-Йорк, а не президенту Гарри Трумену (Harry S. Truman). Газета Chicago Tribune была настолько уверена в этом, что поспешила оповестить о результатах выборов, не дождавшись окончательного подсчета голосов. Сконфуженные журналисты и незадачливые социологи вынуждены были долго оправдываться. Почему результаты исследований оказались настолько далеки от истины? Разбираясь в причинах неудачи, социологи выяснили, что виной всему оказалась детерминированная выборка [9]. В результате организации, прогнозирующие исход будущих выборов на основе опросов общественного мнения, стали применять только вероятностные выборки. Ошибки статистических исследований Даже если в основу статистических исследований положены вероятностные выборочные методы, ошибки не исключены. Как показано во врезке 1.4, существуют четыре категории ошибок. Хорошее статистическое исследование должно исключить или хотя бы минимизировать эти ошибки, даже ценой дополнительных затрат.
ВРЕЗКА 1.4. ОШИБКИ СТАТИСТИЧЕСКИХ ИССЛЕДОВАНИЙ • Ошибка, связанная с охватом исследования (систематическая ошибка выбора). • Ошибка, связанная с отсутствием ответов. • Ошибка выборочного исследования. • Ошибка измерения. Ошибка, связанная с охватом исследования. Ключевым моментом при формировании выборки является выбор адекватной основы или списка всех элементов, из которых должна состоять выборка. Ошибка, связанная с охватом исследования (coverage error), возникает, если из основы исключаются определенные группы элементов, которые вследствие этого не могут быть включены в выборку. В результате возникает систематическая ошибка выбора (selection bias). Если список объектов, подлежащих исследованию, не адекватно отражает содержание генеральной совокупности, все характеристики, вычисленные на основе любых случайных выборок, будут присущи лишь основной совокупности, а не всей генеральной совокупности. Ошибка, связанная с отказами от ответов. Не все люди охотно принимают участие в социологических опросах. Как правило, люди из высших и низших слоев общества реже отвечают на вопросы анкет, чем люди среднего класса. Систематическая ошибка, связанная с отказами от ответов (nonresponse bias), возникает, если некоторые участники анкетирования отказываются отвечать на вопросы. Поскольку обычно нет никаких причин считать, что лица, отказавшиеся отвечать на вопросы анкеты, ничем не отличаются от тех, кто согласился принять участие в опросе, крайне важно повторить опрос отказавшихся через некоторое время. Следует предпринять несколько таких попыток либо по почте, либо по телефону, чтобы убедиться, что опрашиваемый человек не изменил своего мнения. Чтобы итог опроса оказался достоверным, результаты, полученные в ходе первого анкетирования, следует связать с результатами последующих попыток опроса [1]. Форма опроса влияет на количество полученных ответов. Персональный или телефонный опрос обычно характеризуются более высоким количеством ответов, чем опрос по почте, правда, такие способы анкетирования оказываются дороже. Ниже приведен широко известный пример, иллюстрирующий ошибку охвата и ошибку, связанную с отказом отвечать на вопросы. ОШИБКА ОХВАТА И ОШИБКА, СВЯЗАННАЯ С ОТКАЗОМ ОТВЕЧАТЬ НА ВОПРОСЫ В 1936 году журнал Literary Digest предсказал, что губернатор штата Канзас Альф Лэндон (Alf Landon) получит на президентских выборах 57% голосов и намного опередит действующего президента Франклина Д. Рузвельта (Franklin D. Roosevelt). Однако Лэндон с треском проиграл, получив лишь 38% голосов. Такой большой ошибки в прогнозах еще не бывало. В результате журнал потерял доверие читателей и в конце концов обанкротился. На первый взгляд, социологический опрос, проведенный журналом, выглядел вполне достоверно. В нем приняли участие 2,4 миллиона респондентов из 10 миллионов приглашенных. Что же стало причиной неверного прогноза? На этот вопрос есть два ответа: ошибка охвата и ошибка, связанная с отказами респондентов. Чтобы понять значение ошибки охвата в этом опросе, необходимо дать историческую справку. В 1936 году в США свирепствовала Великая депрессия. Проигнорировав этот факт, журнал составил основную совокупность респондентов по телефонным книгам, спискам членов различных клубов, списку подписчиков журнала и данным о регистрации автомобилей [3]. В результате в опросе приняли участие, в основном, состоятельные люди, а остальные избиратели, которые не могли позволить себе телефон, <
членство в клубе, подписку на журнал и автомобиль, остались за рамками опроса. В итоге оценка количества голосов, которые могли быть поданы на Лэндона, хорошо отражала мнение участников опроса, а не намерения населения США в целом. Второй причиной неверных выводов является ошибка, связанная с огромным количеством людей, отказавшихся принять участие в опросе. Количество ответов не пре- ; вышает 24%. Этого совершенно недостаточно для точной оценки параметров генеральной совокупности, если не предположить, что 7,6 млн. чел., отказавшихся участвовать в опросе, ничем не отличаются от остальных. И все же, по сравнению с ошибкой охвата, проблема отказа является вторичной. Даже если бы все 10 мил- ; лионов зарегистрированных участников опроса ответили бы на вопросы анкеты, это не компенсировало бы тот факт, что основная совокупность респондентов сильно отличалась от генеральной совокупности в целом. Ошибка выборочного исследования. Существуют три причины, по которым выборочное исследование предпочтительнее полного — целесообразность, относительная дешевизна и эффективность. Однако элементы выборки случайны. В результате возникает ошибка выборочного исследования (sampling error), отражающая неоднородность генеральной совокупности. Она зависит от вероятности того, что отдельные элементы будут включены в конкретные выборки. Читая результаты социологических опросов в газетах и журналах, вы можете обнаружить в них утверждения о величине ошибки или точности исследования. Например, “отклонение результатов опроса от истинного значения не превышает 4% ”. Эта величина и является ошибкой выборочного исследования. Ее можно уменьшить за счет увеличения объема выборки, хотя это приведет к дополнительным затратам. Ошибка измерения. Продуманные анкеты должны добывать полезную информацию. Однако сформулировать это требование легче, чем выполнить. Человек, у которого есть часы, всегда знает точное время. Человек, у которого две пары часов, всегда сомневается в их показаниях. Человек, у которого десять пар часов, знает, как трудно точно измерить время. Ошибка измерения Ошибка измерения (measurement error) отражает неточности в записанных ответах, возникающие вследствие неверно сформулированных вопросов, влияния опрашивающего или ошибки отвечающего. К сожалению, процесс измерения часто считают удобным, но не очень нужным аспектом опроса. В результате вместо точных ответов организаторы опроса получают приблизительные. В работах по статистике большое внимание уделяется ошибкам измерения, возникшим вследствие неправильной формулировки вопросов [4]. Вопрос должен быть понятным и не допускающим неоднозначного толкования. Форма вопроса должна быть нейтральной. Наводящих вопросов следует избегать. Ошибка измерения может возникнуть по трем причинам: неоднозначная трактовка вопроса, эффект ореола (halo effect) и ошибка респондента. Рассмотрим пример неоднозначной формулировки вопроса. Несколько лет назад Министерство труда США сообщило, что уровень безработицы в США на протяжении последних десяти лет был определен неточно, поскольку для его оценки использовались неверные анкеты, разработанные в Службе опроса населения (Current Population Survey). В частности, формулировки вопросов приводили к значительной недооценке доли женщин среди рабочих
и служащих. Поскольку оценка уровня безработицы тесно связана с программами социальной помощи, например, с системами компенсаций для безработных, социологам из государственных органов было предписано уточнить анкеты. Эффект ореола возникает, когда респондент хочет понравиться интервьюеру. Этот вид ошибки можно минимизировать, проведя обучение лиц, занимающихся опросом. Ошибка респондента является следствием чрезмерного усердия или, наоборот, небрежности респондента. Есть два способа минимизации этих ошибок: 1) тщательное изучение данных и повторное обращение к респонденту, давшему неаккуратный ответ, и 2) внедрение программы случайно выбранных повторных обращений к респондентам для повышения надежности полученных ответов. Этические проблемы Ошибки, возникающие при проведении статистических исследований, могут породить этические проблемы, связанные с вольным или невольным исключением из опроса определенных групп респондентов. Если это происходит преднамеренно, возникает ошибка охвата. Она приводит к искажению основной совокупности и появлению систематических ошибок в результатах опроса, соответствующих интересам спонсора. Аналогичная ситуация складывается, если анкета содержит формулировки вопросов, неприемлемые для определенных групп населения. Это приводит к их отказу от участия в опросе и возникновению ошибки, связанной с отказом от ответа. Ошибка выборки может вызвать этические проблемы, только если результаты опросов интерпретируются без учета объема выборки. Это позволяет заказчикам произвольно толковать смысл результатов. Этические проблемы, связанные с ошибками измерения, возникают в ситуациях трех видов. 1. Заказчик может преднамеренно сформулировать наводящие вопросы, которые навязывают респондентам желательные ответы. 2. Манеры или тон, которым интервьюер задает вопросы, могут вызвать эффект ореола либо подсказать желательные ответы. 3. Респондент, презирающий социологические опросы, может преднамеренно вводить интервьюера в заблуждение. Кроме того, этические проблемы могут возникать, когда суждения о всей генеральной совокупности выносятся на основании информации о неслучайной выборке. В таких случаях необходимо ясно указывать на примененный способ выбора и понимать, что полученные результаты нельзя обобщать на всю генеральную совокупность. УПРАЖНЕНИЯ К РАЗДЕЛУ 1.12 Применение понятий 1.21. “Результаты опроса свидетельствуют, что мужчины охотнее женщин делают покупки через Интернет.” Какую информацию следует потребовать, прежде чем согласиться с приведенным утверждением? 1.22. Выборка, состоящая из п = 300 элементов, получена путем простого случайного выбора. Она образована на основе списка, в котором перечислены N = 5000 сотрудников компании, чтобы оценить степень их удовлетворенности своей работой. 1. Приведите пример возможной ошибки охвата. 2. Приведите пример возможной ошибки, связанной с отказом отвечать на вопросы.
3. Приведите пример возможной ошибки выборочного исследования. 4. Приведите пример возможной ошибки измерения. 1.23. Согласно результатам опроса 1 000 подписчиков компании AOL (Harry Berkowitz, “Screen Name Loyalty”, Newsday, December 1, 2002, A42) 92% клиентов “не желают менять свои электронные адреса”. Компания назвала это явление основной причиной постоянства своих клиентов. Какую информацию следует потребовать, прежде чем согласиться с приведенным утверждением? 1.24. Компания Forrester Research Inc. (Michael Totty, “The Masses Have Arrived”, Wall Street Journal, January 27, 2003, R8) провела опрос клиентов, совершивших покупки с помощью Интернет. Выяснилось, что среди покупателей, использующих Интернет не более года, 39% имели высшее образование, 57% оказались женщинами, а средний объем покупок, сделанных опрошенными клиентами, составил 52 300 долл. Какую информацию следует потребовать, прежде чем согласиться с приведенным утверждением? 1.25. Согласно опросу 1 004 взрослых водителей, проведенному компанией Maritz (“Snapshots”, USA Today, October 23, 2002), 45% опрошенных позволяют себе есть или пить за рулем, а 36% иногда разговаривают по мобильному телефону. Какую информацию следует потребовать, прежде чем согласиться с приведенным утверждением? 1.26. Опрос, проведенный компанией Carrier Builder, показал, что некоторые рабочие дольше, чем обычно, восстанавливают свои профессиональные навыки после отпуска (“Snapshots”, USA Today, July 18, 2001). Оказалось, что 19% респондентов немедленно входят в рабочий ритм, 40% адаптируются к работе в течение одного дня, 34% несколько дней приходят в себя, а 7% заявили, что для восстановления профессиональных навыков им требуется не меньше недели. Какую информацию следует потребовать, прежде чем согласиться с приведенным утверждением? 1.27. Согласно опросу, проведенному социологической службой Opinion Research Corporation для компании Cingular Wireless 67% американцев раздражают звонки мобильных телефонов в общественных местах (“Snapshots”, USA Today, August 13, 2001). Какую информацию следует потребовать, прежде чем согласиться с приведенным утверждением? Как использовать эту информацию? 1.28. Журнал The Wall Street Journal сообщил, что среди американцев, загружающих музыкальные файлы из Интернет, подавляющее большинство пользуются бесплатными источниками (“Low on the Charts”, May 7, 2002, Al). В частности, 91% респондентов заявили, что они используют исключительно бесплатные источники, 1% опрошенных сообщили, что используют только платные источники, а 7% участников опроса сказали, что загружают файлы из источников обоих видов. Эти результаты были получены в ходе опроса, проведенного компанией eMarketer в течение февраля 2002 г. Какую информацию следует потребовать, прежде чем согласиться с приведенным утверждением? РЕЗЮМЕ Как следует из структурной схемы, в главе описаны основные понятия статистики и рассмотрены методы сбора данных. Ознакомившись с различными видами данных и способами извлечения случайных выборок, мы обсудили некоторые аспекты, связанные с проверкой достоверности результатов опроса.
В разделе “Применение, статистики” описан сценарий опроса, проведенного компанией Good Tunes. Читатели должны убедиться, что первые два вопроса анкеты предполагают числовые ответы, а последние три — категорийные. Кроме того, ответы на первый вопрос (количество дней) подразумевают дискретные числовые данные, а на второй (количество денег) — непрерывные. Собрав данные, их следует организовать для последующего анализа. В следующих двух главах мы рассмотрим способы представления статистических данных в виде таблиц и диаграмм, методы предварительного анализа данных, а также опишем числовые характеристики, применяемые при их анализе и интерпретации. Структурная схема главы 1
ОСНОВНЫЕ ПОНЯТИЯ Выбор без возвращения, 46 с возвращением, 46 Выборка вероятностная, 45 детерминированная, 44 кластерная, 49 систематическая, 48 стратифицированная, 49 Источник данных вторичный, 42 Ошибка выбора систематическая, 58 выборки, 59 измерения,59 связанная с отказами от ответов, 58 связанная с охватом исследования, 58 Случайная величина, 52 дискретная, 52 категорийная, 52 непрерывная, 52 числовая, 52 Совокупность основная, 43 Статистический пакет, 35 Страта, 49 Таблица случайных чисел, 46 Фокус-группа, 43 Проверка знаний 1.29. В чем заключается разница между выборкой и генеральной совокупностью? 1.30. В чем состоит различие между статистикой и параметром? 1.31. Чем описательная статистика отличается от статистики вывода? 1.32. Чем категорийные переменные отличаются от числовых? 1.33. В чем заключается различие между дискретными и непрерывными числовыми данными? 1.34. Укажите различия между номинальной и порядковой шкалами. 1.35. Укажите различия между интервальными шкалами и шкалами отношений. 1.36. Для чего собираются данные? 1.37. В чем заключаются различия между детерминированным и случайным выбором? 1.38. Какие потенциальные проблемы могут возникнуть при использовании урновой модели для формирования простой случайной выборки? 1.39. В чем заключается разница между выбором с возвращением и выбором без возвращения? 1.40. Чем простая случайная выборка отличается от систематической? 1.41. В чем состоит отличие стратифицированной выборки от систематической? 1.42. Чем стратифицированные выборки отличаются от кластерных? 1.43. Чем отличаются четыре потенциальных источника ошибок, возникающих при проведении опросов для формирования вероятностных выборок? Применение понятий 1.44. В электронной библиотеке Data and Story Library (lib.stat.cmu.edu/DASL) хранятся файлы с данными и сюжетами, иллюстрирующими применение основных статистических методов. Каждый набор данных связан с одним или не-
сколькими сюжетами, которые классифицированы по методам и предмету исследований. Зайдите на этот сайт и прочитайте сценарий, а затем опишите, как применить статистические методы в выбранной вами предметной области. 1.45. Зайдите на официальный сайт компании Microsoft (www. microsof t. com/ office/excel). Объясните, чем программа Excel может быть полезной для статистических исследований. 1.46. Организация Гэллапа (The Gallup organization) хранит результаты недавних выборов на Web-сайте www.gallup.com. Зайдите на этот сайт и щелкните на гиперссылках Business и Economy. Там приведены результаты различных опросов. 1. Приведите пример категорийной случайной величины, использованной в этих опросах. 2. Приведите пример числовой случайной величины, использованной в этих опросах. 3. Сформулируйте три вопроса, которые можно было бы включить в анкету. 1.47. Web-сайт Бюро переписи населения США (www.census.gov) содержит ссылки на разные типы данных. На нем хранится разнообразная информация о населении, экономике, географии и другие данные. Зайдите на этот сайт и найдите описание опроса домовладельцев (American Housing Survey) в разделе People. 1. Кратко опишите опрос домовладельцев. 2. Каков объем выборки? Какой метод выбора применен? 3. Приведите пример категорийной случайной величины, использованной в этих опросах. 4. Приведите пример числовой случайной величины, использованной в этих опросах. 5. Укажите, в каких областях бизнеса могут пригодиться результаты опроса домовладельцев. Обоснуйте свой ответ. 6. Откройте страницу, посвященную бизнесу, и найдите раздел, в котором хранятся данные о промышленности. Опишите ежегодный опрос производителей (Annual Survey of Manufacturers). 7. Каков объем выборки? Какой метод выбора применен? 8. Приведите пример категорийной случайной величины, использованной в этих опросах. 9. Приведите пример числовой случайной величины, использованной в этих опросах. 10. Укажите, в каких областях бизнеса могут пригодиться результаты ежегодного опроса производителей. 1.48. При изучении политических пристрастий населения чаще всего применяется телефонный опрос. Исследователи из компании Harris Black International Ltd. считают, что опрос с помощью Интернет дешевле, быстрее и обеспечивает более высокое количество ответов, чем телефонный опрос. Критики сомневаются в научной обоснованности такого подхода (Wall Street Journal, April 13, 1999). Несмотря на сильную критику, опросы с помощью Интернет становятся все более популярными. Что вы знаете об этом? 1.49. В исследовании Раеша Мирани (Rajesh Mirani) и Альберта Ледерера (Albert Lederer) (“An Instrument for Assessing the Organizational Benefits of IS Projects”, Decision Sciences, Vol. 29, 1998, pp. 803-838) обсуждаются способы оценки до-
ходности информационных проектов (IS projects). Исследователи разослали 936 анкет случайно выбранным членам большой национальной организации, состоящей из специалистов по информационным системам. Было получено 200 корректных ответов. Количество полученных ответов равно 21% от общего количество разосланных анкет. Из 200 ответов 190 касались недавно завершенных проектов. Средний размер бюджета этих проектов равен 3,8 млн. долл. Диапазон изменения размера бюджета колеблется от 4 000 долл, до 100 млн. долл. В 45% из 190 присланных ответов указывалось, что для начала проекта требовалось согласие главного администратора организации. 1. Какой источник данных использовался для этого опроса? 2. Назовите категорийную случайную величину, примененную в опросе? 3. Назовите числовую случайную величину, примененную в опросе? 4. Обсудите метод выбора, примененный в этом исследовании. 5. Какие типы ошибок могли возникнуть в этом исследовании? 1.50. В опросе, проведенном компанией Taylor Nelson Sofres Intersearch (“Snapshots”, USA Today, February 3, 2002, Al), приняли участие 703 респондента. Ниже приведено распределение ответов на вопрос, как респонденты нашли свое последнее место работы. Категория % При личном или сетевом общении 61 Через газету 16 Путем обхода компаний 9 С помощью Web-сайтов, публикующих новости 5 С помощью специализированных сайтов в Интернет 4 Через биржу труда/агента 2 С помощью школы 1 1. Опишите генеральную совокупность респондентов, принявших участие в опросе. 2. Постройте основу данного опроса. 3. Опишите способ выбора, который можно было бы применить в данном опросе. 4. Какой переменной является ответ на вопрос: “Как Вы нашли свое последнее место работы?” — категорийной или числовой? 5. Шестьдесят один процент респондентов заявили, что нашли свое последнее место работы путем личного или сетевого общения. Чем является это число — параметром или статистикой? 1.51. В ходе опроса компаний, занимающихся электронной оптовой торговлей, их попросили указать, какой количественный показатель они используют для измерения успеха своих сайтов (Michael Totty, “So much information”, Wall Street Journal, December 9, 2002, p. R.4). 1. Опишите генеральную совокупность респондентов, принявших участие в опросе. 2. Постройте основу данного опроса. 3. Опишите способ выбора, который можно было бы применить в данном опросе. 4. Какой переменной является ответ на вопрос: “Используете ли Вы объем сетевого трафика для оценки успешности сайта?” — категорийной или числовой?
5. Почему ответ на вопрос “Используете ли Вы продолжительность сетевого соединения для оценки успешности сайта?” является категорийной, а не числовой переменной? 1.52. В ходе судебного процесса под председательством федерального судьи было рассмотрено ходатайство, обвинявшее город Цинциннати, штат Огайо (Cincinnati, Ohio) в дискриминации афроамериканцев. Для завершения тяжбы судья провел опрос, который должен был ответить на вопрос, улучшились ли отношения между полицией Цинциннати и афроамериканской общиной. В опросе приняли участие 1 020 полицейских. Анкета сопровождалась письмом, в котором шеф полиции и президент Общества полицейских просили потенциальных респондентов принять участие в опросе. Респонденты либо возвращали бумажный вариант анкеты, либо заполняли интерактивную анкету в Интернет. К ужасу организаторов опроса, были заполнены только 158 анкет (“Few Cops Fill Out Survey”, The Cincinnati Enquirer, August 22, 2001, B3). 1. Какому виду ошибки исследователи должны уделить особое внимание? 2. Какие меры должны предпринять исследователи для того, чтобы решить возникшую проблему? 3. Что следовало сделать иначе? 1.53. Согласно результатам опроса, проведенного компанией International Communications Research для банка Capital One Financial, 24% подростков в возрасте от 13 до 19 лет владеют мобильными телефонами, а 10% имеют пейджер (“USA Snapshots”, USA Today, August 16, 2001, Al). 1. Какую дополнительную информацию необходимо потребовать, прежде чем делать выводы о результатах опроса? 2. Предположим, что вам необходимо организовать аналогичный опрос в другом географическом регионе. Опишите генеральную совокупность, исследуемую в вашем опросе. 3. Объясните, как минимизировать ошибку охвата в описанном опросе. 4. Объясните, как минимизировать ошибку, связанную с отказом от участия в опросе. 5. Объясните, как минимизировать ошибку выборочного исследования в этом опросе. 6. Объясните, как минимизировать ошибку измерений, связанную с отказом от участия в опросе. 1.54. Согласно результатам опроса, проведенного Сарой Бет Эстес (Sarah Beth Estes), профессором социологии университета Цинциннати, и Дженнифер Гласс (Jennifer Glass), профессором социологии Университета штата Айова, женщины, работающие по свободному графику, могут терять в зарплате. В опросе приняли участие 300 женщин, имеющих детей, вернувшихся на работу и выбравших либо свободный график либо работу на дому. Оказалось, что зарплата этих женщин возросла на величину, которая от 16% до 26% меньше, чем прирост зарплаты их коллег. (“Study: Face Time Can Affect Mom’s Raises”, The Cincinnati Enquirer, August 28, 2001, Al.) 1. Какую дополнительную информацию необходимо потребовать, прежде чем делать выводы о результатах опроса? 2. Предположим, что вам необходимо организовать аналогичный опрос в другом географическом регионе. Опишите генеральную совокупность и основу, исследуемые в вашем опросе, а также применяемый метод выбора.
1.55. В исследовании, опубликованном Министерством транспорта США (U.S. Department of Transportation), указывается, что у 27% транспортных средств, предназначенных для перевозки пассажиров, по меньшей мере в одной шине давление воздуха недостаточно. Это утверждение основано на исследовании 11 530 пассажирских транспортных средств, останавливавшихся на заправочных станциях США (“Many Drivers Risk Blowouts”, The Cincinnati Enquirer, August 30, 2001, Al). 1. Опишите генеральную совокупность и основу, исследуемые в данном опросе, а также применяемый метод выбора. 2. Что такое 27% —параметр или статистика? 1.56. Согласно исследованию Национальной ассоциации колледжей и работодателей (National Association of Colleges and Employers (NACE)) студенты имеют мрачные перспективы найти работу (Stephanie Armour, “Job Market Bleak for Grads”, USA Today, May 2, 2002). В 2001-2002 гг. работодатели собираются нанять на 36% меньше выпускников, чем в 2000-2001 гг. Более 20% студентов назвали недостаток опыта основной причиной, препятствующей успешному поиску работы, еще 20% считают, что корни всех бед лежат в экономической плоскости. В статье также утверждается, что начальные зарплаты сейчас меньше, чем были в предыдущие годы. 1. Какую дополнительную информацию необходимо потребовать, прежде чем делать выводы о результатах опроса? 2. Приведите пример категорийной переменной, исследованной в данном опросе. 3. Приведите пример числовой переменной, исследованной в данном опросе. Укажите уровень ее измерения. 4. Пятая часть студентов считает, что главной причиной безработицы среди выпускников является экономическое положение страны. Что это — параметр или статистика? Обоснуйте свой ответ 5. Предположим, что вам необходимо организовать аналогичный опрос. Какой метод выбора вы бы применили и почему? 1.57. Менеджер отдела обслуживания клиентов в компании, производящей бытовые электронные товары, хотел бы знать, удовлетворены ли покупатели качеством DVD-плейеров, приобретенных ими на протяжении последних 12 месяцев. Используя гарантийные талоны, предъявленные после продажи, менеджер спланировал опрос. 1. Опишите генеральную совокупность, исследованную в ходе данного опроса. 2. Опишите основу. 3. Чем основа отличается от генеральной совокупности? Как эти отличия влияют на результат опроса? 4. Сформулируйте три категорийных вопроса, которые можно было бы включить в анкету. 5. Сформулируйте три числовых вопроса, которые можно было бы включить в анкету. 6. Как образовать простую случайную выборку гарантийных талонов? 7. Допустим, что менеджер желает создать выборку гарантийных талонов для каждого типа DVD-плейера. Как это сделать?
1.58. Для прогнозирования исхода выборов применяются опросы общественного мнения. Результаты таких опросов обычно публикуются в газетах и комментируются по телевидению в течение нескольких недель или месяцев до выборов. 1. Какую генеральную совокупность обычно пытаются описать при прогнозировании исхода выборов президента США? 2. Как получить простую случайную выборку из генеральной совокупности? 3. Какие проблемы могут возникнуть при выборочном исследовании, если вам известно, как на самом деле проводится опрос? 1.59. В каждом номере широко известного и популярного отеля есть анкета, приведенная ниже. Ее цель — оценить степень удовлетворенности гостя. Хорошо ли мы Вас обслужили? Отлично Хорошо Удовлетворительно Плохо Размещение Портье Комната Чистота Ресторан 1. Считаете ли вы, что указанные степени удовлетворенности являются исчерпывающими? Обоснуйте свой ответ. 2. Следует ли в дополнение к двум категориям “отлично” и “хорошо” добавить категорию “очень плохо”? Обоснуйте свой ответ. 3. К какому виду услуг отнести самообслуживание? Можно ли включить их в анкету на некоторое время (неделю или месяц)? Обоснуйте свой ответ. 4. Какой вопрос вы добавили бы в анкету? 5. Какой категорийный вопрос вы добавили бы в анкету? 6. Какой числовой вопрос вы добавили бы в анкету? 1.60. Производитель корма для кошек запланировал опрос домовладельцев по всей стране, чтобы учесть покупательские привычки хозяев, имеющих кошек. В анкете есть следующие вопросы. А. Где вы обычно покупаете корм для кошек? Б. Какой корм для кошек вы приобретаете: сухой или консервированный? В. Сколько кошек живет в вашем доме? Г. Какой породы ваша кошка? 1. Опишите генеральную совокупность. 2. Определите основу. 3. Укажите и обоснуйте метод выбора. 4. Определите вид ответа на каждый из указанных выше вопросов: категорийный или числовой. 5. Сформулируйте пять категорийных вопросов для указанного опроса. 6. Сформулируйте пять числовых вопросов для указанного опроса. Применение Интернет 1.61. Зайдите на Web-сайт www. prenhall. com/levine . Щелкните на ссылке Chapter 1, а затем — на ссылке Internet Exercises.
ПРИМЕНЕНИЕ WEB Как правило, статистические методы используются как для того, чтобы сообщить важную информацию, так и для внутренних целей. К сожалению, очень часто люди неправильно применяют эти методы. • Менеджер по продажам с помощью “легкой в использовании” программы построения диаграмм выбирает неправильный вид диаграммы, искажающий реальные связи между данными. • Редактор ежегодного отчета приводит диаграмму доходов, в которой ось Y укорочена. Это создает ложное впечатление о резком возрастании доходов. • Аналитик вычисляет бессмысленную статистику, описывающую набор категорийных данных, используя методы, предназначенные для числовых данных. Несмотря на то что в большинстве случаев такие ошибки являются непреднамеренными, опытный менеджер должен их распознавать. Основная цель раздела “Применение Web” — научить читателей распознавать типичные ошибки, связанные с применением статистических методов, и устранять их. В разделе “Применение Web” мы просим читателей зайти на Web-сайт компании, описанной в сценарии “Применение статистики”, или на Web-сайт, посвященный исследованию работы газеты Springville Herald, издаваемой в маленьком городке. Мы просим читателей сравнить данные, содержащиеся в деловой документации компании с рекламными заявлениями. Как и во многих реальных ситуациях, в отличие от традиционных учебных задач, на Web-сайте содержится либо неполная, либо противоречивая информация. Для решения задачи выявленные противоречия необходимо устранить. Чтобы помочь читателю освоить материал, в начале каждого раздела “Применение Web” излагается цель и краткое содержание сценария. Читатель должен зайти на указанный Web-сайт или Web-страницу. Там он обнаружит список вопросов, которые помогут ему исследовать Web-сайт. Если читатель захочет, он может сам изучить требуемый Web-сайт, соединившись с Web-страницей Springville Chamber of Commerce по адресу www .prenhall. com/Springville. В большинстве глав раздел “Применение Web” ставит перед читателями типичные задачи, стоящие перед руководством газеты Springville Herald, для решения которых необходимо применять статистические методы. Итак, зайдите на Web-сайт розничной торговой компании Good Tunes (www. prenhall. com/Springville/Good_Tunes. htm), упомянутой в сценарии “Применение статистики”. Напомним, что частная компания Good Tunes нуждается в финансовых средствах. Поскольку менеджеры компании заинтересованы представить ее как бурно развивающийся бизнес, ничего удивительного, что сайт содержит заявление: “Наши дела идут хорошо, как никогда!” (Our best sales year ever). Это заявление является гиперссылкой, щелкнув на которой, читатель откроет страницу, содержащую деловую информацию о компании. Соответствует ли эта информация рекламному заявлению? Содержит ли она все необходимые таблицы, диаграммы и ссылки на источники данных? Для иллюстрации объемов продаж компания Good Tunes использует категории “два года тому назад” и “последние двенадцать месяцев”. Все ли правильно на этой Web-странице? Конечно, нет!. Во-первых, обратите внимание на то, что шкала объемов продаж не размечена, поэтому выяснить реальный объем продаж невозможно. Как читатели узнают в разделе 2.6, такие диаграммы называются графическим хламом и никогда не должны применяться. Второй важный вопрос — в каких единицах измерения выражен объем продаж? Использование символов создает впечатление, что объем продаж выражается через еди-
ницы проданного товара. Если это правда, то необходимо выяснить, хорошо ли эти данные отражают реальное положение дел. Возможно, объем продаж, выраженный в долларах, является более точным индикатором? Метки диаграмм также вызывают недоумение. Выражение “последние двенадцать месяцев” двусмысленно — в этот период могут включаться месяцы текущего года, а также месяцы, относящиеся к прошедшему году. Поскольку компания была основана в 1997 г., почему компания не обосновала выражение “хорошо, как никогда” (“best sales year ever”) диаграммами, иллюстрирующими объем продаж в каждом году, прошедшем после 1997г.? Скрывает ли компания Good Tunes важную информацию или ее менеджеры просто не разбираются в статистике? В любом случае они неправильно представили чрезвычайно важную информацию. В последующих разделах “Применение Web” читатели должны будут самостоятельно провести такой анализ, используя в качестве путеводителя вопросы, перечисленные на Web-странице. Не все задачи будут такими простыми, как рассмотренная выше. В некоторых ситуациях читатель должен будет применить довольно сложные методы статистики. ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА 1. Cochran, W. G., Sampling Techniques, 3rd ed. (New York: Wiley, 1977). 2. Deming, W. E., Sample Design in Business Research (New York: Wiley, 1960). 3. Gallup, G.H., The Sophisticated Poll-Watcher's Guide (Princeton, NJ: Princeton Opinion Press, 1972). 4. Goleman, D., “Pollsters Enlist Psychologist in Quest for Unbiased Results”, The New York Times, September 7, 1993, Cl and Cll. 5. Kendall, M. G., and R. L. Plackett, eds., Studies in the History of Statistics and Probability, vol. 2 (London: Charles W. Griffin, 1997). 6. Kirk, R. E., ed., Statistical Issues: A Reader for the Behavioral Sciences (Monterey, CA: Brooks/Cole, 1972). 7. McCullough, B. D., and B. Wilson, “On the Accuracy of Statistical Procedures in Microsoft Excel 97”, Computational Statistics and Data Analysis, 31 (1999), 27-37. 8. Microsoft Excel 2002 (Redmond, WA: Microsoft Corporation, 2001). 9. Mosteller, F. et al., The Pre-Election Polls of 1948 (New York: Social Science Research Council, 1949). 10. Pearson, E. S., ed., The History of Statistics in the Seventeenth and Eighteenth Centuries (New York: Macmillan, 1978). 11. Pearson, E. S., and M. G. Kendall, eds., Studies in the History of Statistics and Probability (Darien, CT: Hafner, 1970). 12. The Rand Corporation, A Million Random Digits with 100,000 Normal Deviates (New York: The Free Press, 1955). 13. Walker, H. M., Studies in the History of the Statistical Method (Baltimore: Williams & Wilkins, 1929). 14. Wattenberg, В. E., ed., Statistical History of the United States: From Colonial Times to the Present (New York: Basic Books, 1976).
Букварь Exce ЕРЛ. ВВЕДЕНИЕ В MICROSOFT EXCEL Описываются основные приемы работы с программами под управлением операционной системы Windows. Никакого предварительного опыта не требуется. ЕР.2. ПОЛЬЗОВАТЕЛЬСКИЙ ИНТЕРФЕЙС ПРОГРАММЫ MICROSOFT EXCEL Описываются основные понятия и процедуры, необходимые для успешной работы с программой Excel. ЕР.З. ОСНОВНЫЕ ОПЕРАЦИИ НАД РАБОЧИМИ КНИГАМИ Рассматриваются операции открытия, сохранения и печати рабочих книг. ЕРД. ОСНОВНЫЕ ОПЕРАЦИИ НАД РАБОЧИМИ ЛИСТАМИ Читатели узнают, как заполнять ячейки рабочего листа и редактировать его оформление. ЕР.5. БОЛЕЕ СЛОЖНЫЕ ОПЕРАЦИИ С РАБОЧИМИ ЛИСТАМИ Обсуждаются команды и процедуры, необходимые для создания, изменения или копирования рабочих листов. ЕР.6. ПРИМЕНЕНИЕ МАСТЕРА ДИАГРАММ Описываются основы работы с Мастером диаграмм. ЕР.7. ПРИМЕНЕНИЕ МАСТЕРА СВОДНЫХ ТАБЛИЦ Рассматриваются основы работы с Мастером сводных таблиц. ЕР.8. ИСПОЛЬЗОВАНИЕ НАДСТРОЕК Читатели узнают, что такое надстройки и как они используются в программе Microsoft Excel. В разделе рассматриваются основные понятия и приемы работы с программой Microsoft Excel. Читатели могут выбирать темы из этого раздела, руководствуясь своим опытом. Как минимум, им следует ознакомиться с терминами, которые используются в дальнейшем.
ЕР.1. ВВЕДЕНИЕ В MICROSOFT EXCEL Программа Microsoft Excel является частью пакета Microsoft Office для персональных компьютеров. Несмотря на то что программа Microsoft Excel не предназначена специально для статистического анализа, в ней содержатся основные статистические функции, а также надстройка Пакет анализа (Data Analysis ToolPak). Кроме того, в программе Microsoft Excel предусмотрены мастера (wizards) — специальные наборы диалоговых окон, заполняя которые пользователь может создавать диаграммы и сводные таблицы для статистического анализа. Чтобы компенсировать недостаток статистических процедур и упростить работу с программой Excel, к книге прилагается надстройка PHStat2, разработанная компанией Prentice Hall. Работая с программой Microsoft Excel, пользователи создают, открывают и сохраняют файлы, называемые рабочими книгами (workbooks). Рабочие книги состоят из рабочих листов (worksheets), содержащих исходные данные, результаты анализа, а также промежуточные вычисления. Рабочий лист представляет собой массив, состоящий из столбцов и строк. Столбцы обозначаются буквами, а строки — цифрами. Пересечение столбца и строки образует ячейку (cell). Следует иметь в виду, что надстройки Analysis ToolPak и PHStat2 автоматически создают рабочие листы, содержащие результаты анализа, добавляя их в рабочую книгу. Программа Microsoft Excel получила чрезвычайно широкое распространение. По этой причине она представляет собой весьма удобный инструмент для обучения статистике. Однако читатель должен иметь в виду проблемы с точностью, указанные в разделе 1.5. В сочетании с надстройкой PHStat2 статистические процедуры программы Microsoft Excel охватывают практически все темы, изложенные в книге. Прежде чем перейти к применению этих программ, следует ознакомиться с инструкциями, приведенными в приложении Ж и файле readme . txt, расположенном на компакт-диске. ЕР.2. ПОЛЬЗОВАТЕЛЬСКИЙ ИНТЕРФЕЙС ПРОГРАММЫ MICROSOFT EXCEL ЕР.2.1. Основные операции с мышью Основным средством, предназначенным для выбора пиктограмм и команд меню, является координатно-указательное устройство, например, мышь. Перемещение координатно-указательного устройства приводит к перемещению по экрану графического изображения — так называемого курсора мыши (mouse pointer). Как правило, мыши имеют две кнопки — основную и вспомогательную. Для того чтобы выполнить одну из четырех основных операций с мышью, необходимо установить курсор мыши на требуемый объект, а затем нажать и отпустить одну из этих клавиш (см. врезку ЕР.1). ВРЕЗКА ЕР.1. ОСНОВНЫЕ ОПЕРАЦИИ С МЫШЬЮ Щелчок. Переместите курсор мыши на объект и нажмите основную кнопку. Как правило, в таких случаях используют слово “выберите объект”, “выполните команду” или “снимите выделение”, “сбросьте флажок”. Например, “выполните команду PHStat в меню Excel” или “сбросьте флажок Формулы”. Перетаскивание. Переместите курсор мыши на объект и нажмите основную кнопку мыши. Удерживая ее, переместите курсор мыши по экрану, а затем отпустите. Как правило, эта операция используется для перетаскивания объектов в новое положение или для выделения нескольких объектов одновременно.
Двойной щелчок. Переместите курсор мыши на объект и дважды щелкните основной кнопкой с очень небольшим интервалом. Щелчок правой кнопкой. Переместите курсор мыши на объект и щелкните вспомогательной кнопкой. Замечание: упражнения для работы с мышью содержатся в рабочей книге Mousing Practice. xls, = расположенной в каталоге Instructional Files на компакт-диске. По умолчанию основной клавишей считается левая клавиша мыши, а вспомогательной — правая, однако операционная система Windows позволяет изменить эти настройки. ЕР.2.2. Открытие окна приложения Microsoft Excel Запустить программу Miscosoft Excel на рабочем столе можно тремя способами (см. врезку ЕР.2). ВРЕЗКА ЕР.2. МЕТОДЫ ЗАПУСКА ПРОГРАММ В ОПЕРАЦИОННОЙ СИСТЕМЕ MICROSOFT WINDOWS Щелчок на пиктограмме. Дважды щелкните на пиктограмме программы, находящейся на рабочем столе (в некоторых версиях Windows достаточно простого щелчка). Выполнение команды меню Пуск. Нажмите клавишу Windows (или щелкните на кнопке Пуск) и выполните команду Программы или Все программы. Выберите пункт Microsoft Excel в появившемся списке команд меню. Щелчок на пиктограмме файла. Дважды щелкните на пиктограмме файла, связанного с программой Microsoft Excel. Например, если щелкнуть на пиктограмме рабочей книги, откроется не только окно приложения программы Microsoft Excel, но и сама рабочая книга. При запуске программы Microsoft Excel открывается окно приложения (Excel application window). Оно представляет собой ограниченную область экрана, размеры которой можно изменять. Окно приложения содержит строку заголовка (title bar), которая идентифицирует открытую рабочую книгу, системные кнопки (system buttons), расположенные в правом верхнем углу окна, строку меню (menu bar), содержащую команды программы Excel, панели инструментов (toolbars), состоящие из пиктограмм, связанных с командами меню, а также рабочую область (worksheet area), состоящую из строк, столбцов и ячеек, в которые вводятся данные. Основные компоненты окна приложения программы Microsoft Excel 2002 приведены на рис. ЕР.1 и во врезке ЕР.З. (Для того чтобы настроить окно приложения своей программы Microsoft Excel так, как показано на рис. ЕР.1, обратитесь к приложению Е.)
Строка меню Кнопки изменения размеров и закрытия окна Стандартная инструментов Панель" инструментов форматирования Рис. ЕР.1. Окно приложения Microsoft Excel 2002 ВРЕЗКА ЕР.З. ОСНОВНЫЕ КОМПОНЕНТЫ ОКНА ПРИЛОЖЕНИЯ ПРОГРАММЫ MICROSOFT EXCEL Системные кнопки минимизации, восстановления и закрытия окна соответственно сворачивают, изменяют размер и закрывают рабочее окно программы Microsoft Excel. Строка меню представляет собой горизонтальный список слов, обозначающих выбор команд. Стандартная панель инструментов содержит пиктограммы, позволяющие выбрать команды для работы с файлами, включая основные операции с рабочими книгами, рассмотренные в разделе ЕР.З. Панель инструментов форматирования содержит пиктограммы, позволяющие выбрать основные команды форматирования (подробности описаны в разделе ЕР.4.3). Строка формул отображает название активной ячейки (см. раздел ЕРЛ) и ее содержимое. Рабочая область содержит открытую рабочую книгу или книги. Обычно пользователи работают с одной рабочей книгой, но существует возможность работать с несколькими книгами одновременно, переключаясь между ними с помощью меню системы Windows. Ярлычки листов идентифицируют названия отдельных рабочих листов. Щелкая на ярлычке, можно выбрать конкретный лист и сделать его активным. Кроме того, дважды щелкнув на ярлычке, можно изменить название рабочего листа. Полосы прокрутки позволяют отображать фрагменты рабочего листа, выходящего за пределы экрана (например, строку 100 или столбец Т на рис. ЕР.1).
ЕР.2.3. Стандартные свойства меню и диалоговых окон программы Microsoft Excel Основными средствами, предназначенными для выбора команд, являются выпадающие (pull-down) меню программы Microsoft Excel и контекстные (shortcut) меню, появляющиеся при щелчке правой кнопкой. Основные свойства стандартных меню показаны на рис. ЕР.2. Пиктограммы стандартной панели инструментов Троеточие Рис. ЕР.2. Меню Файл программы Microsoft Excel комбинации Ускоряющие клавиши Маркеры подменю Как показано на рис. ЕРЛ, относительно меню приняты следующие соглашения. • Горячие клавиши (accelerator keys), предназначенные для выбора определенной команды, подчеркнуты. • Для выделения пунктов меню, выбор которых сопровождается открытием диалогового окна, используется многоточие (ellipsis). • Чтобы выделить пункты меню, выбор которых сопровождается открытием подменю, используется треугольный маркер (triangular marker). • Некоторые пункты меню содержат пиктограммы стандартной панели инструментов (toolbar button). • Некоторые пункты меню сопровождаются комбинацией быстрых клавиш (keyboard shortcut), позволяющей выполнить соответствующую команду. Выбор некоторых команд меню непосредственно приводит к выполнению определенной процедуры, однако чаще всего в ответ открывается диалоговое окно, позволяющее вводить данные и выводить сообщения. Типичным примером являются диалоговые окна Открытие документа и Печать, предусмотренные в программе Microsoft Excel 2002 (рис. ЕР.З). Стандартные элементы диалоговых окон перечислены во врезке ЕРЛ.
Список Открытие документа Папка: Mutual Рабочий стол Принтер Печать Мои последние документы/ Мои документы Раскрывающиеся списки J 4Х 23 ’ Сервис Canon LBP-800 v [ Свойства.., j Окно редактирования [найти принтер... | со счетчиком 1-------------- Мой компьютер Имя файла: Мое сетевое окружение Тип файлов: ! все файлы Печатать О страницы Имя: Состояние: Свободен Тип: Canon LBP-8OO Порт: LPT1: Заметки: Вывести по: [Просмотр I выделенные листы Переключатели Копии чать в файл О выбеленный диапазон О всю книгу Число копий: Флажок . по копиям fl [ Отмена ] Кнопка ОК Кнопка Отмена Рис. ЕР.З. Диалоговые окна Открытие документа и Печать программы Microsoft Excel 2002 Как показано на панелях А и Б рис. ЕР.5, в программе Microsoft Excel предусмотрены следующие стандартные элементы диалогового окна. ВРЕЗКА ЕРД. СТАНДАРТНЫЕ ЭЛЕМЕНТЫ ДИАЛОГОВЫХ ОКОН Окно раскрывающегося списка позволяет выбрать пункт из списка, появляющегося при нажатии кнопки, помеченной треугольным маркером и расположенной на правой стороне окна. Окно списка содержит перечень элементов, например, файлов или папок, подлежащих выбору. Если список слишком велик и не помещается в окне, необходимо щелкнуть на кнопке прокрутки (scroll button) или ползунке (slider). Окно редактирования позволяет вводить и редактировать данные. Как правило, окна редактирования используются в сочетании с раскрывающимися списками или кнопками счетчика (spinner buttons), облегчающими ввод данных. (Нажатие кнопки счетчика увеличивает или уменьшает числовое значение, указанное в окне редактирования.) Переключатели (option buttons) позволяют выбрать один из нескольких взаимоисключающих вариантов. Установка одного из переключателей автоматически приводит к сбрасыванию остальных переключателей. Таким образом, в каждый момент времени можно установить только один из нескольких переключателей. Флажки (check boxes) позволяют выбрать несколько вариантов. В отличие от переключателей, несколько флажков можно устанавливать одновременно. Если флажок был установлен ранее, повторный щелчок сбрасывает его.
Кнопка OK (OK button) заставляет программу Microsoft Excel выполнить операцию, предусмотренную в открытом диалоговом окне, с учетом введенных данных, выбранных переключателей и установленных флажков. Эта кнопка может иметь другую метку. Например, диалоговое окно Открытие документа, показанное на рис. ЕР.З, содержит кнопку Открыть (на панели А), а диалоговое окно Сохранение документа — кнопку Сохранить. Кнопка Отмена закрывает диалоговое окно и отменяет выполнение операции. В большинстве случаев щелчок на кнопке Отмена эквивалентен щелчку на кнопке Закрыть панели инструментов. Кнопка, помеченная знаком вопроса, выводит на экран контекстное окно, содержащее справку о выбранном объекте (см. раздел ЕР.2.5). Как правило, диалоговые окна содержат кнопку Справка, выполняющую аналогичные функции. ЕР.2.4. Исправление ошибок Если пользователь ошибся, выполнив команду меню или щелкнув на кнопке, последнее действие можно отменить, выполнив команду Отменить из меню Правка. Если пользователь ошибся при вводе данных, ошибку можно исправить тремя способами. • Нажать клавишу <ESC>, отменив последний ввод. • Нажать клавишу <BACKSPACE>, стирая символы по одному справа налево, начиная с текущего положения курсора. • Нажать клавишу <Del>, стирая символы по одному слева направо, начиная с текущего положения курсора. Если ошибка сделана в середине введенного числа или слова, поместите курсор мыши перед ошибочным символом, удалите его и наберите правильный текст. Выполнение команды Отменить меню Правка отменяет не только последнее действие, но и стирает введенный текст. Если после исправления ошибки пользователь передумал, он может восстановить исходное положение, выполнив команду Повторить меню Правка. КАК ОБОЗНАЧАЮТСЯ ПОСЛЕДОВАТЕЛЬНО ВЫПОЛНЯЕМЫЕ КОМАНДЫ Если инструкция требует последовательно выполнить несколько команд, пункты соответствующих меню разделяются символом ct>. Например, фраза “выполните команду Отменить из меню Правка” в дальнейшем будет записываться так: “выполните команду Правка^Отменить”. • ЕР.2.5. Использование справочной системы Работая с программой Microsoft Excel, пользователь может обратиться либо к ее справочной системе, либо вызвать контекстную подсказку. Для того чтобы получить полную информацию о программе Microsoft Excel, ее меню, функциях или других объектах, выполните команду CnpaBKa^CnpaBKaWicrosoft Excel. В зависимости от настроек будет запущен либо браузер справочной системы Microsoft Excel (см. рис. ЕРЛ), либо Помощник — комический мультипликационный персонаж (см. рис. ЕР.5) . В программе Microsoft Excel 2003 браузер справочной системы является частью панели задач.
Рис. ЕР.4. Браузер справочной системы программы Microsoft Excel Рис. ЕР.5. Помощник программы Microsoft Excel Дизайн браузера программы Microsoft Excel зависит от конкретной версии. Браузер позволяет выполнять поиск по ключевому слову или фразе, перечисленным в алфавитном порядке. Для того чтобы выполнить поиск справки с помощью браузера программы Microsoft Excel, выполните следующие действия.
ЕР.2. Пользовательский интерфейс программы Microsoft Excel 79 1. Щелкните на корешке вкладки Указатель. 2. Наберите в окне редактирования 1. Введите ключевые слова интересующее вас слово или фразу. Щелкните на кнопке Найти. 3. Выберите интересующие вас элементы (или элементы) из списка, появляющегося на левой панели. Текст справки появится на правой панели. Правая панель может содержать гиперссылки, щелкнув на которых, пользователь может получить дополнительную справочную информацию. Чтобы получить новую справку, щелкните на кнопке Очистить и повторите п. 1 и 2. Вместо выполнения п. 1 пользователь может просто выбрать элемент списка 2. Или выберите ключевые слова. Если на экране появился Помощник, последовательность действий практически не изменяется. Нужно лишь набрать имя интересующей вас команды, функции или объекта, а затем щелкнуть на кнопке Найти. Поскольку выбор тем у Помощника меньше, чем в общей справочной системе, и, кроме того, он может отвлекать внимание, многие предпочитают работать с браузером. Для того чтобы отключить функцию Помощника, следует выполнить такие действия. 1. Щелкнуть на Помощнике правой кнопкой мыши. 2. Выполнить команду Параметры в появившемся контекстном меню. 3. Находясь в диалоговом окне Помощник, сбросить флажок Использовать помощника. 4. Щелкнуть на кнопке ОК. С этого момента Помощник будет скрыт, пока пользователь не выполнит команду Справкам Показать помощника. ЗАМЕЧАНИЯ ДЛЯ ПОЛЬЗОВАТЕЛЕЙ ПРОГРАММЫ MICROSOFT EXCEL 97 Дизайн браузера справочной системы Microsoft Excel 97 отличается от дизайна браузера справочной системы Microsoft Excel 2002, показанного на рис. ЕРЛ. В старом ; браузере для получения справки достаточно было щелкнуть на корешке вкладки Указатель. Для того чтобы избавиться от Помощника, достаточно было выполнить команду Справка^Содержание и указатель. ЕР.2.6. Получение контекстных подсказок Большинство объектов, создаваемых программой Microsoft Excel на экране, сопровождаются всплывающими подсказками или сообщениями “Что это такое?”. Подсказки (tool tips) представляют собой контекстные всплывающие справки об элементах рабочего окна программы Excel или других объектах, например, диаграммах. Для вызова подсказки следует поместить курсор мыши на интересующий вас объект и немного подождать, пока не появится всплывающее сообщение. Например, на рис. ЕР. 11 приведена подсказка об оси гистограммы. Рис. ЕР.6. Подсказка об оси гистограммы Подсказка “Что это такое?” представляет собой контекстное сообщение об элементе рабочего окна программы Excel. Чтобы вызвать эту подсказку, сначала следует выполнить команду Справкам Что это такое?. После этого курсор мыши изменит свою форму (рис. ЕР.7, верхний экран). Теперь курсор мыши следует переместить на интересующий вас объект и щелкнуть левой кнопкой мыши. В результате на экране появится справка об указанном элементе (см. рис. ЕР.7, нижний экран). Чтобы удалить справку с экрана, достаточно щелкнуть в любом месте экрана. (Многие диалоговые окна содержат кнопку, помеченную знаком вопроса. Ее также можно использовать для получения справки о содержании диалогового окна.)
Е2 Microsoft Excel - Книга! Файл Правка Вид Вставка Форцат Сервис Данные Окно £праека i Л ? х Ъ .ъ юох - ю - ж к ч г « -к ЦП ч? с % от» „ . —f".-----------------------------„.Объединить и поместить б центре I-.- - В С D Е -----------------------------------F----:---------------FT1 i ’ - В X Anal С,г D J 2 3 4 5 6 7 8 9 10 11' 12 13 14 '15' 16 17 18 19 20 21' 22 23 24 '25 26 27 28 29 30 31 32 33 3.4 14 4 ► Н\лист1/Пнст2/ЛистЗ/ Панель А
Файл Правка Вид Вставка Формат Сервис Данные Окно £правкв □ й а а ав * ч» г, • <? « г • @ и » и л •«* - о. Arial Cvr Al 2 3 4 5 . 6 ’ 7 8 9 ' ю‘ 11 12 13 14 15 16 17 18 • 19 20 21 ’10 ’ ж к ч к ® з §g ® « % ООО tdg ® ’ Ъ ’ Д. ’ , ft--------------— Объединить и поместить в центре I---------- — —------ в ... „с. ... d...... е . ; —г—g----------ft1 ' ;т" Z j Г. к Л271 файл Правка Вид Вставка Формат Сервис Данные Окно Справка □ & й е a v # -т *-<’•*• < z ’ ® 14 В 10С% ’ СЗ - & & _ * & - д, ”н : i ! Т С4 1 А 4 5 6 7 8 9 10 $ Объединить и поместить в центре j Объединение двух или нескольких выделенных смежных ячеек в одну Конечная ячейка будет содержать данные только из левой верхней ячейки исходного диапазона, которые будут расположены по центру объединенной ячейки Ссылкой на объединенную ячейку является адрес верхней левой ячейки исходного диапазона. 11 в Панель Б Рис. ЕР.7. Форма курсора мыши в справке "Что это такое?" (панель А) и сообщение о кнопке Объединить и поместить в центре (панель Б) ЕР.З. ОСНОВНЫЕ ОПЕРАЦИИ НАД РАБОЧИМИ КНИГАМИ В этом разделе рассматриваются операции и диалоговые окна, предусмотренные в программе Microsoft Excel 2002. (Если вы используете другую версию программы Microsoft Excel, некоторые детали могут отличаться, однако основные операции, описанные в данном разделе, выполняются аналогично.) ЕР.3.1. Открытие рабочих книг Для того чтобы открыть рабочую книгу Microsoft Excel, необходимо выбрать команду ФайлФОткрыть.... В открывшемся диалоговом окне Открытие документа (рис. ЕР.З) следует выполнить такие операции. 1. Выбрать требуемый каталог в раскрывающемся списке Папка. 2. Если это необходимо, выбрать соответствующее значение из раскрывающегося списка Тип файлов. По умолчанию в раскрывающемся списке выводятся имена всех файлов, создаваемых программой Microsoft Excel, что соответствует опции Все файлы Microsoft Excel. Для того чтобы отобразить в окне все текстовые файлы, следует выбрать опцию Текстовые файлы. Для того чтобы отобразить все без исключения файлы, необходимо выбрать опцию Все файлы. 3. Если это необходимо, изменить представление списка файлов, щелкнув на соответствующей кнопке выбора формата (кнопка Представление).
4. Выбрать файл из раскрывающегося списка. Если файла нет, нужно проверить, правильно ли вы выполнили п. 1 и 3. 5. Щелкнуть на кнопке ОК. Открыв рабочую книгу, прежде чем начать работу, проверьте ее содержимое. ЕР.3.2. Сохранение рабочих книг Чтобы в дальнейшем иметь возможность работать с рабочей книгой, ее необходимо сохранить. Для этого следует выполнить команду Файл ^Сохранить как.... В появившемся диалоговом окне Сохранение документа выполните следующие действия (рис. ЕР.8). 1. Выберите в раскрывающемся списке Папка каталог, в котором вы желаете сохранить файл. 2. Выберите нужное значение в раскрывающемся списке Тип файла. По умолчанию предлагается тип Книга Microsoft Excel. Однако при сохранении данных, предназначенных для других программ, оказываются полезными опции Текстовые файлы (с разделителями табуляции) и CSV (разделители — запятые). 3. Введите имя сохраняемого файла в окне редактирования Имя файла. 4. Щелкните на кнопке Сохранить. Рис. ЕР.8. Диалоговое окно Сохранение документа ; При открытии рабочей книги непосредственно с прилагаемого компакт-диска программа Microsoft Excel автоматически сопровождает ее меткой “только для чтения”. Такую книгу можно сохранить только под другим именем, воспользовавшись командой Файл ^Сохранить как.... ЕР.3.3. Вывод рабочих книг на печать Результаты расчетов не обязательно рассматривать на экране компьютера — их можно вывести на печать. Для того чтобы распечатать рабочий лист, выберите его, а затем выполните команду Файл^Предварительный просмотр (рис. ЕР.9). Если предварительный вариант листа содержит ошибки или выглядит не так, как вам хотелось, щелкните на
кнопке Закрыть, внесите необходимые изменения и снова выполните команду Файл1^ Предварительный просмотр. Затем щелкните на кнопке Печать в окне Предварительный просмотр или, если окно просмотра закрыто, выполните команду Файл ^Печать.... Рис. ЕР.9. Диалоговое окно Предварительный просмотр Выполните в диалоговом окне Печать (см. рис. ЕР.З) следующие действия. 1. Выберите принтер в раскрывающемся списке Имя. 2. Установите переключатель Печатать в положение Все. 3. Установите переключатель Вывести на печать в положение Выделенные листы. (Не следует устанавливать переключатель в положение Всю книгу, если вы хотите распечатать отдельный лист.) 4. Выберите количество копий в списке Число копий. 5. Щелкните на кнопке ОК. После завершения печати внимательно просмотрите распечатку. Большинство ошибок, связанных с печатью, вызывается неправильно выбранными опциями в диалоговом окне Свойства. Исправьте их, прежде чем выполнять вторую попытку печати. Макет распечатки можно настроить с помощью команды Файл^Параметры страницы... (либо щелкнув на кнопке Страница в окне Предварительный просмотр). Например, для того чтобы распечатать рабочий лист в виде разграфленной таблицы с размеченными строками и столбцами (т.е. так, как она выглядит на экране), следует выполнить команду Параметры страницы. Затем, находясь в диалоговом окне Параметры страницы,
необходимо щелкнуть на корешке вкладки Лист, установить флажки Сетка и Заголовки строки столбцов в группе флажков Печать и щелкнуть на кнопке ОК (см. рис. ЕР. 10). (Подробная информация об этом диалоговом окне представлена в приложении Ж.) Рис. ЕР.10. Диалоговое окно Параметры страницы ЕР.3.4. Использование области задач для открытия рабочих книг (версии Excel 2002 и 2003) Рис. ЕР.11. Область задач программы Microsoft Excel Начиная с версии Microsoft Excel 2002, для того чтобы открыть рабочую книгу и выполнить другие операции, пользователь может использовать область задач (task рапе). На рис. ЕР. 11 продемонстрирована область задач, представляющая собой окно, свободно перемещающееся поверх рабочей области. Для того чтобы запустить надстройку PHStat2, достаточно щелкнуть на синей гиперссылке PHStat2. Если пользователь желает открыть диалоговое окно Открытие документа, описанное в разделе ЕР.3.1, можно щелкнуть на гиперссылке Другие книги. Поскольку область задач не добавляет новых функциональных возможностей и лишь усложняет работу с рабочей областью, многие пользователи отключают ее. Для этого необходимо либо щелкнуть на кнопке закрытия окна на строке заголовка или выполнить команду ВидФОбласть задач. Для того чтобы предотвратить появление области задач, перед тем как скрыть ее, пользователь должен сбросить флажок Показывать при запуске (как показано на рис. ЕР. 11).
ЕР.4. ОСНОВНЫЕ ОПЕРАЦИИ НАД РАБОЧИМИ ЛИСТАМИ ЕР.4.1. Использование рабочих листов программы Microsoft Excel Как указывалось в разделе ЕР.1, при работе с программой Microsoft Excel пользователь вводит данные в рабочие листы, состоящие из именованных столбцов и оцифрованных строк, пересечение которых образует ячейку. Обычно значения отдельных переменных вводятся в отдельном столбце, причем первая ячейка резервируется для метки. Несмотря на то что рабочий лист содержит много столбцов и строк и, следовательно, может хранить значения многих переменных, разные наборы данных следует хранить на разных рабочих листах. Для перемещения курсора ячейки (cell pointer) по рабочему листу используется клавиша <ТаЬ> или мышь. Для ссылки на конкретную ячейку необходимо использовать следующую форму записи: ИмяЛиста!СтолбецСтрока. Например, имя Данные ! А2 относится к ячейке, расположенной на листе Данные на пересечении столбца А и строки 2. Для того чтобы сослаться на диапазон ячеек (cell range), состоящий из нескольких ячеек, следует использовать запись: ИмяЛиста!ВерхняяЛевая Ячей-ка:ПраваяНижняяЯчейка. Например, запись Данные! А2: В11 обозначает 20 ячеек, расположенных в строках 2 -11 и столбцах А и В на листе Данные. Каждый рабочий лист имеет свое имя. По умолчанию программа Microsoft Excel именует рабочие листы последовательно: Лист1, Лист2 и т.д. Однако лучше присваивать рабочим листам осмысленные имена, например, рабочий лист, содержащий данные, следует называть Данные, а лист, содержащий результаты вычислений, логично назвать Вычисления. Для того чтобы переименовать рабочий лист, необходимо дважды щелкнуть на его ярлычке (sheet tab), набрать новое имя и нажать клавишу <Enter>. ЕР.4.2. Формулы Для выполнения вычислений пользователь может набирать формулы — инструкции, манипулирующие с данными рабочего листа. Формулы всегда начинаются символом = (равенство) и могут содержать арифметические операции. В простых формулах используются символы +, *, / и л, обозначающие операции сложения, вычитания, умножения, деления и возведения в степень соответственно. Например, формула ^Данные!В2+Данные!ВЗ+Данные!В4+Данные!В5 складывает величины, хранящиеся в ячейках В2, ВЗ, В4 и В5 на рабочем листе Данные. Результат этого выражения записывается в ячейку, содержащую формулу. Кроме простых арифметических операций, формулы могут использовать функции. Например, предыдущую формулу можно переписать в виде формулы =СУММ(Данные!В2:В5), использующей функцию СУММ. Если формула использует только данные, хранящиеся на текущем листе, указывать название рабочего листа не обязательно. Для того чтобы различать ячейки, расположенные в одинаковых строках и столбцах ’ на одинаковых листах, но в разных рабочих книгах, используется обозначение [РабочаяКнига]ИмяЛиста!СтолбецСтрока. Например, обозначение ’ [Глава 1] Данные * ! А1 относится к левой верхней ячейке рабочего листа Данные в рабочей книге Глава 1. Формулы позволяют находить общие решения и заново вычислять результаты, если исходные данные изменились. Некоторые процедуры программы Microsoft Excel и надстройка PHStat2 автоматически добавляют формулы в рабочие листы. Для того чтобы отобразить их на экране, необходимо выполнить команду Сервис^Параметры..., а затем, находясь в диалоговом окне Параметры, установить флажок Формулы в группе Параметры окна и щелкнуть на кнопке ОК. (Для того чтобы восстановить исходное положение, следует сбросить флажок Формулы.)
Если для создания своего рабочего листа вы используете шаблоны из раздела “Справочник по Excel”, необходимо отображать формулы в ячейках для проверки правильности вычислений. ЕР.4.3. Оформление рабочего листа В программе Microsoft Excel предусмотрено очень много возможностей для улучшения внешнего вида рабочих листов. Многие операции форматирования изображаются пиктограммами на панели форматирования (formatting toolbar). Кроме того, их можно выполнить, выбрав пункт меню Формат^Ячейки... и установив параметры в диалоговом окне Формат ячеек. Панель форматирования показана на рис. ЕР. 12. , >» «К» Рис. ЕР.12. Панель инструментов форматирования ВРЕЗКА ЕР.5. ОПЕРАЦИИ ФОРМАТИРОВАНИЯ • Чтобы выделить содержимое ячейки полужирным шрифтом, выберите ячейку (или диапазон ячеек), содержащую значения, подлежащие выделению, и щелк- ; ните на кнопке Пол ужйрный пане л и инструментов форматирования. • Чтобы выровнять содержимое ячейки по центру, выберите ячейку (или диапазон ячеек), содержащую значения, подлежащие выделению, и щелкните на кнопке По центру панели инструментов форматирования. (Выравнивание по левому и правому краю, а также по ширине осуществляется аналогично, путем выбора соответствующих пиктограмм.) • Чтобы выровнять по центру диапазона ячейку, содержащую его заголовок, выделите ячейки, расположенные над диапазоном (включая заголовок), и щелкните на кнопке Объединить и поместить в центре. • Чтобы отобразить на экране все содержимое столбца, выберите форматируемый столбец, щелкнув на его заголовке, а затем выполните команду Формат^ Столбец1^Автоподбор ширины. • Чтобы вывести числовые данные в виде процентов, выберите диапазон ячеек, содержащих числовые величины, подлежащие выводу, и щелкните на кнопке Процентный формат, расположенной на панели инструментов форматирования. ; • Чтобы выровнять десятичное представление в последовательности числовых величин, выберите диапазон ячеек, содержащих числовые величины, подлежащий : выравниванию, и щелкните на кнопке Увеличить разрядность или Уменьшить разрядность. • Чтобы изменить цвет фона, выберите соответствующий диапазон ячеек и щелкните на кнопке Цвет заливки. В диалоговом окне Цвет заливки (рис. ЕРЛЗ) пользователь ; должен выбрать новый цвет фона. (В большинстве таблиц, представленных в книге, ячейки, в которые можно вводить данные, окрашены в светло-бирюзовый цвет, а ячейки, содержащие результаты, — в светло-желтый. Эти цвета являются пятым ; и третьим в последней строке палитры цветов заливки соответственно.) • Чтобы изменить обрамление ячейки, выберите соответствующий диапазон ячеек и щелкните на кнопке Границы, открывающей список возможных вариантов обрамления (рис. ЕР. 14). (Таблицы, приведенные в книге, используют разнообразные варианты обрамления ячеек, включая стили Внешние границы, Нет границы и Нижняя граница.)
_ I I ~ Ш □ □ Нарисовать границы.,. Рис. ЕРЛЗ. Диалоговое окно Цвет заливки Рис. ЕР.14. Диалоговое окно Границы ЕР.5. БОЛЕЕ СЛОЖНЫЕ ОПЕРАЦИИ С РАБОЧИМИ ЛИСТАМИ ЕР.5.1. Копирование ячеек и формул на одном листе Довольно часто для выполнения дополнительных вычислений необходимо добавлять формулы в ячейки всего столбца или строки. Вместо того чтобы многократно вводить формулы в каждую ячейку, можно просто скопировать их. Обычно для копирования содержимого одной ячейки в другую достаточно выделить исходную ячейку и выбрать команду Правкам Копировать. Затем следует выделить ячейку, в которую выполняется копирование, и выбрать команду Правка^Вставить. Если копируемая ячейка содержит формулы, результат зависит от того, правильно ли введены ссылки на ячейки. Если ссылки на ячейки имеют вид БукваНомер, например, А1, или любую из форм, указанных в разделе ЕР.4.1, они называются относительными (relative references) и при копировании будут адаптированы к новому адресу. Например, формула =А2+В2, находящаяся в ячейке С2, при копировании в ячейку СЗ будет изменена на формулу =АЗ+ВЗ, чтобы учесть ее новое местоположение. Аналогично формула =СУММ (Al: А4), записанная в ячейке А5, будучи скопированной в ячейку В5, преобразуется в формулу =СУММ (В1: В4) . Если пользователь хочет отменить автоматическую настройку формул, ссылки на ячейки следует сделать абсолютными (absolute reference). Например, формула =$А$2+$В$2 всегда будет суммировать содержимое ячеек, находящихся в первом и втором столбцах, независимо от того, куда она будет скопирована. Обратите внимание на знак доллара. В данном контексте этот символ имеет совершенно иной смысл — он просто предотвращает модификацию формулы при копировании в новое место. Программа Microsoft Excel допускает смешение относительных и абсолютных ссылок в одной формуле. Например, допустим, что в ячейке С2 хранится формула =А2/$В$10, которая копируется в ячейку СЗ. В этом случае она будет заменена формулой =АЗ/$В$10. Такой способ записи часто позволяет упростить реализацию формул и применять их в любых таблицах. ЕР.5.2. Копирование формул с одного листа на другой Используя команды Правка^ Копировать и Правкам Вставить, формулы можно копировать с одного листа на другой. В этих случаях следует убедиться, что все ссылки, использованные в формулах, являются абсолютными, например, Данные ! $А$1: $А$12. Если при копировании формулы необходимо передать лишь ее результат, можно применить два способа. Первый способ применяется, если копируется содержимое только одной или нескольких ячеек. В этом случае можно использовать формулу вида =ИмяЛистаИсточника!ИмяЯчейки. Например, если вы собираетесь скопировать формулу, хранящуюся в ячейке В10 на листе Результаты, в ячейку А5 на листе Итоги, чтобы отобразить ее результат, введите в ячейку А5 на листе Итоги формулу ^Результаты! В10, а исходную формулу не копируйте.
Второй способ применяется, когда необходимо скопировать большой диапазон ячеек. Для этого сначала на первом листе следует выделить исходный диапазон ячеек и выполнить команду Правка^Копировать. Затем на втором рабочем листе необходимо выделить диапазон ячеек, в которые будут скопированы формулы, и выполнить команду ПравкаФСпециальная вставка.... Находясь в диалоговом окне Специальная вставка (рис. ЕР.15), нужно установить переключатель Вставить в положение Значения и форматы чисел и щелкнуть на кнопке ОК. В этом случае вставка выполняется так, что при дальнейшем изменении исходных данных повторять процедуру копирования не обязательно. Специальная вставка Вставить ® все О формулы О значения О Форматы О примечания Операция ©нет О сложить О вычесть О условия на значения О без рамки О ширины столбцов О формулы и форматы чисел О значения и форматы чисел О умножить О разделить 0 пропускать пустые ячейки □ транспонировать f Вставить связь ОК Отмена | Рис. ЕР.15. Диалоговое окно Специальная вставка ОБМЕН ДАННЫМИ МЕЖДУ ДОКУМЕНТАМИ ПАКЕТА MICROSOFT OFFICE Процедуры обмена данными между программой Microsoft Excel и документами, созданными разными компонентами пакета Microsoft Excel, описаны в разделах 3.1 и 3.2 приложения 3. ЕР.5.3. Копирование и переименование рабочих листов Если рабочий лист должен быть оформлен в разных стилях или один из вариантов листа должен быть представлен в режиме просмотра формул, а в другом варианте должны отображаться лишь их результаты, возникает необходимость скопировать такой лист целиком. Чтобы скопировать рабочий лист, нужно сначала его выбрать, щелкнув на ярлычке. Затем следует выполнить команду Правка*^Переместить/ Скопировать лист.... В открывшемся диалоговом окне Переместить или Скопировать следует выполнить такие действия (см. рис. ЕР. 16). 1. Установить флажок Создавать копию. 2. Выбрать опцию (новая книга) из списка Переместить выбранные листы в книгу, если лист должен быть скопирован в новую книгу (см. рис. ЕР. 16). Если лист копируется в текущую книгу, необходимо указать относительное положение копии в списке Перед листом. 3. Щелкнуть на кнопке ОК.
Программа Microsoft Excel присваивает копии имя исходного листа, добавляя номер, заключенный в скобки. Например, копия листа Вычисления называется Вычисления (2). Намного полезнее присвоить копии более осмысленное имя, например, Форматированные результаты. Для того чтобы сделать это, воспользуйтесь процедурой, описанной в разделе ЕР.4.1. Рис. ЕР.16. Диалоговое окно Переместить или скопировать ЕР.6. ПРИМЕНЕНИЕ МАСТЕРА ДИАГРАММ Мастера (wizards) представляют собой набор взаимосвязанных диалоговых окон, облегчающих процесс создания различных объектов, например, диаграмм или сводных таблиц. Чтобы создать объект, в каждом из этих окон пользователь должен вводить информацию и делать выбор, переходя от одного окна к другому, щелкая на кнопке Далее>, а в последнем окне— на кнопке Готово. Прекратить работу мастера можно в любой момент, щелкнув на кнопке Отмена. Кроме того, можно вернуться на предыдущий этап создания объекта, щелкнув на кнопке Назад. Мастер диаграмм позволяет создавать диаграммы, переходя от одного окна к другому и выбирая различные варианты. Для запуска мастера следует выполнить команду ВставитьФДиаграмма..., Процесс создания состоит из четырех этапов, каждому из которых соответствует собственное диалоговое окно (рис. ЕР. 17). 1. Выберите тип диаграммы в первом диалоговом окне. 2. На втором этапе укажите диапазон ячеек во вкладке Диапазон данных. При необходимости щелкните на корешке вкладки Ряд, а затем выберите пункт раскрывающегося списка Ряд. 3. Выберите и укажите параметры диаграммы в третьем диалоговом окне (см. врезку ЕР.6). 4. Если вы хотите поместить диаграмму на новом листе, находясь на четвертом этапе, установите переключатель Поместить диаграмму на листе в положение Отдельном, в противном случае установите переключатель в положение Имеющемся. Более предпочтительным является первый вариант.
Мастер диаграмм (шаг 1 из 4): тип диаграммы Е®’ i Стандартные > Нестандартные i Тип: Е Линейчатая График ! <3 Круговая |__Точечная : С областями : ф Кольцевая : Лепестковая Поверхность •; Пузырьковая Мастер диаграмм (шаг 3 Вид: Оси пароме гры диаграммы Мастер диаграмм (шаг 2 из 4): источник данных диа.. Диапазон данных ; Ряд Е® Подписи данных Заголовки Таблица данных Линии сетки Легенда Название диаграммы: | Ось X (категорий): 10000-1- 900D - | Ось Y (значений): woo ---I |ВРШ| ХЕ Мастер диаграмм (шаг 4 из 4): размещение диаграммы Е®5 Поместить диаграмму на листе: Г Отмен О отдельном: .Диаграмма! © имеющемся: ИШ [ Отмена ] [ < Назад ] [готово ] Рис. ЕР.17. Окна Мастера диаграмм в программе Microsoft Excel 2002 \ ВРЕЗКА ЕР.6. ВЫБОР ОПТИМАЛЬНЫХ ПАРАМЕТРОВ ДИАГРАММ ; Чтобы не применять установки, принятые по умолчанию, необходимо самостоятель- ; но выбрать нужные параметры диаграммы, руководствуясь следующими инструк- ; днями (рис. ЕР.18). \ ♦ Щелкните на корешке вкладки Заголовки и введите соответствующие названия. ; • Щелкните на корешке вкладки Оси, а затем установите флажки Ось X (категорий) и Ось Y (значений). Кроме этого, следует установить переключатель ОсьХ • (категорий) в положение Автоматическая. j • Щелкните на корешке вкладки Линии сетки и сбросьте все флажки, относящиеся к осям X и Y. ; • Щелкните на корешке вкладки Легенда и сбросьте флажок Добавить легенду.
• Щелкните на корешке вкладки Подписи данных й сбросьте все флажки. • Если Мастер диаграмм содержит вкладку Таблица данных, щелкните на ее корешке и сбросьте флажок Таблица данных. Обратите внимание на то, что некоторые инструкций предписывают пользователю снимать флажки и изменять параметры, автоматически установленные программой Microsoft Excel. В противном случае диаграммы могут содержать ошибки. Если все же диаграмма оказалась неверной, щелкните на ней правой кнопкой мыши и выполните команду Параметры диаграммы... из всплывающего меню. В этом случае вы вернетесь на этап 3. Мастер диаграмм (шаг 3 из 4): параметры диаграммы Рис. ЕР.18. Третье диалоговое окно Мастера диаграмм в программе Microsoft Excel 2002 ЕР.7. ПРИМЕНЕНИЕ МАСТЕРА СВОДНЫХ ТАБЛИЦ Мастер сводных таблиц и диаграмм позволяет создавать интерактивные сводные таблицы, которые автоматически изменяются при модификации исходных данных. В книге мы применяем его для построения однофакторных и двухфакторных таблиц распределения частот (one-way and two-way frequency distribution tables) для категорийных данных (см. главу 2). Однако следует иметь в виду, что сводные таблицы можно использовать для динамического исследования данных, удаляя или добавляя переменные в интерактивном режиме. Для того чтобы подробнее ознакомиться с приемами динамического исследования данных с помощью сводных таблиц, откройте рабочую книгу Exploring PivotTables .xls, находящуюся на компакт-диске в каталоге Instructional Files. Для запуска мастера в программе Microsoft Excel 2002 и более поздних версиях следует выбрать команду Данные^Сводная таблица...2. Затем необходимо выполнить следующие действия. В программе Microsoft Excel 97 четырехэтапное построение сводной таблицы начинается с выполнения команды Данные ^Сводная таблица....
1. В первом диалоговом окне (см. рис. ЕР. 19) выберите источник исходных данных для сводной таблицы и вид отчета, который должен быть создан. (В нашей книге в качестве источника таблицы всегда указывается Список или база данных Microsoft Excel, а в качестве вида создаваемого отчета выбирается Сводная таблица.) 2. Во втором окне выберите диапазон ячеек, содержащий исходные данные. (Первая строка содержит названия переменных.) 3. В третьем окне щелкните на кнопках Макет... и Параметры... (для установки вида и параметров таблицы) и выберите местоположение новой сводной таблицы (как правило, на новом листе). Щелкая мышью на кнопке Макет..., пользователь выводит на экран диалоговое окно Мастер сводных таблиц и диаграмм - макет. Находясь на этом диалоговом окне, необходимо перетащить метки с названиями переменных (частично закрытых на рис. ЕР.20) в шаблон сводной таблицы, содержащий страницу, строку, столбец и область данных. (Область страницы в нашей книге не используется.) Некоторые пользователи находят эту процедуру довольно запутанной и предпочитают использовать для построения одно-и двухфакторных таблиц и диаграмм процедуры надстройки PHStat2 (см. главу 2). Щелкнув мышью на кнопке Параметры..., пользователь открывает диалоговое окно Параметры сводной таблицы. Для решения большинства задач, приведенных в книге, достаточно ввести в окно редактирования Имя некое разумное название таблицы, в окно Для пустых ячеек отображать ввести число 0, а остальные настройки оставить неизменными, как показано на рис. ЕР.20. шаг 1 из 3 Укажите диапазон, содержащий исходные данные. Диапазон: Н Создать таблицу на основе данных, находящихся: О 80 енешнен источнике данных О в нескольких диапазонах консолидации Вид создавав» О сводна: О сведи® Для создания таблицы нажмите кнопку Тотово". Поместить таблицу в: ©^OBbtHJMCTj О существующий лист Мастер сводных таблиц и диаграмм шаг 2 из 3 Мастер сводных таблиц и диаграмм - шаг 3 из 3 | Макет... ]| Параметры... ] [ Отмена ] | < Назад ] | Готово ] Рис. ЕР.19. Окна Мастера сводных таблиц и диаграмм в программе Microsoft Excel 2002
1ена Параметры сводной таблицы Имя: Формат 0 общая сумма по столбцам 0 общая сумма по строкам 0 автоформат I I включать скрытые значения 0 объединять ячейки заголовков 0 сохранять форматирование 0 повторять подписи на каждой странице печати макет страницы: вниз, затем поперек число полей в столбце: I I для ошибок отображать: 0 для пустых ячеек отображать: 0 печать заголовков О Данные Источник: 0 сохранить данные вместе с таблицей 0 развертывание разрешено □ обновить при открытии Внешние данные: J [ Отмена ] Рис ЕР.2О. Окна Макет (частично закрытое) и Параметры ЕР.8. ИСПОЛЬЗОВАНИЕ НАДСТРОЕК Надстройки (adds-in) — это вспомогательные программы, расширяющие функциональные возможности Microsoft Excel. Компания Microsoft предлагает большое количество надстроек, в частности, программу Пакет анализа для пакета Microsoft Office. Кроме того, существует широкий выбор надстроек, предоставляемых независимыми производителями, например, программа PHStat2, разработанная компанией Prentice Hall. Как правило, надстройка модифицирует строку меню программы Microsoft Excel, добавляя новое меню или новый пункт. Например, надстройка Пакет анализа вставляет в меню Сервис новый пункт Анализ данных... (рис. ЕР.21), предоставляющий пользователю возможность выполнить статистический анализ данных, который было бы очень трудно сделать самостоятельно. В свою очередь, надстройка PHStat2 вставляет в меню программы Excel новый пункт PHStat (рис. ЕР.22), содержащий большое количество статистических функций, расширяющих возможности надстройки Пакет анализа и упрощающих ее процедуры. Поскольку надстройки представляют собой особую разновидность рабочей книги, их можно открывать с помощью процедуры Файл^Открыть..., как и любую другую рабочую книгу. Однако их можно “инсталлировать” так, чтобы они автоматически открывались при каждом запуске программы Microsoft Excel. Для того чтобы инсталлировать надстройку, сначала следует выполнить команду Сервис^Надстройки..., а затем, нахо
дясь в диалоговом окне Надстройки (рис. ЕР.23), установить соответствующий флажок в списке Доступные надстройки. (Предполагается, что на компьютерах читателей надстройка Пакет анализа открывается автоматически, а надстройка PHStat2 — вручную.) Анализ данных Инструменты анализа | Двухфакторный дисперсионный анализ с повторениями j Двухфакторный дисперсионный анализ без повторений £ Корреляция !Ковариация | Описательная статистика I Экспоненциальное сглаживание i Двухвыборочный F-тест для дисперсии | Анализ Фурье iГистограмма__ [ Отмена ) [ Справка ] Рис. ЕР.21. Диалоговое окно Анализ данных &W j йсно Справка ~ Data Preparation ► Descriptive Statistics ► | Decision-Making ► Probability & Prob. Distributions ► A Sampling ► Confidence Intervals ► Sample Size ► ? One-Sample Tests ► i Two-Sample Tests ► 1 Multiple-Sample Tests ► J Control Charts ► Regression ► J Utilities ► j About PHStat... ~ Help for PHStat Рис. EP.22. Меню PHStat Рис. EP.23. Диалоговое окно Надстройки Безопасность j Й.^рв^ безопасгости ;; Надежные издатели I О Очень высокая. Разрешается запуск только макросов, установленных в ; | надежных расположениях. Все остальные подписанные и i; । неподписанные макросы отключаются. t ! О Высокая. Разрешается запуск только подписанных макросов из ! I надежных источников. Неподписанные макросы отключаются ! ] автоматически. \ (*) Средняя. Решение о запуске потенциально опасных макросов j j принимается пользователем. i s О Низкая (не рекомендуется). Защита от потенциально опасных макросов I I отсутствует. Используйте этот режим только при наличии антивирусных | ! программ и после проверки на безопасность всех открываемых с j документов. i I { Рис. ЕР.24. Диалоговое окно Безопасность
Открытие надстроек контролируется системой безопасности Microsoft Excel. Если вы пользуетесь программой Microsoft Excel 2000 версии SR-1 и выше, чтобы безопасно пользоваться надстройкой PHStat2, сначала необходимо выполнить команду Сервис^ Макрос^ Безопасность... и установить флажок Средняя во вкладке Уровень безопасности в окне Безопасность (рис. ЕР.24). Это не создает никакой угрозы для операционной системы, но предоставляет пользователю полный контроль над макросами. (Советуем никогда не снижать уровень безопасности до низкого, несмотря на то, что он также позволяет открывать надстройки наподобие PHStat2.) Установив средний уровень безопасности и открыв надстройку PHStat2, вы получите предупреждение об опасности выполнить макрокоманду, зараженную вирусом (рис. ЕР.25). Чтобы продолжить открытие надстройки, следует щелкнуть на кнопке Не отключать макросы, разрешающей выполнять корректные макросы. Предупреждение системы безопасности "C:\Program Files\PHStat2 version 2.5\PHStat2.xla” содержит макросы Макросы могут содержать вирусы. Безопаснее отключить макросы, но если они необходимы, то часть функциональности может быть утеряна. [ Отключить макросы [“не^отключатьМакросы | {" подробности ] Рис. ЕР.25. Предупреждение о макровирусах в программе Microsoft Excel 2002 (в других версиях предупреждение выглядит аналогично) ОСНОВНЫЕ понятия Автоформат, 86 Выделение, 86 Выравнивание, 86 Горячая клавиша, 75 Заливка, 86 Кнопка системная, 74 счетчика, 76 Комбинация быстрых клавиш, 75 Курсор мыши, 72 Мастер, 89 диаграмм, 89 сводных таблиц, 91 Многоточие, 75 Надстройка, 93 Обрамление, 86 Окно диалоговое, 75 редактирования, 76 списка, 76 Панель инструментов стандартная, 74 форматирования, 74 Переключатель, 76 Пиктограмма, 75 Полоса прокрутки, 74 Процентный формат, 86 Разрядность, 86 Список раскрывающийся, 76 Ссылка абсолютная, 87 относительная, 87 Строка меню, 74 формул, 74 Треугольный маркер, 75 Флажок опции, 76 Формула, 85 Ярлык листа, 74
Глава 2 Представление данных в виде таблиц и диаграмм ПРИМЕНЕНИЕ СТАТИСТИКИ: сравнение эффективности взаимных фондов 2.1. ОРГАНИЗАЦИЯ ЧИСЛОВЫХ ДАННЫХ Упорядоченный массив Процедуры Excel: создание упорядоченных массивов Диаграмма “ствол и листья” Процедуры Excel: построение диаграмм “ствол и листья” 2.2. ПРЕДСТАВЛЕНИЕ ЧИСЛОВЫХ ДАННЫХ В ВИДЕ ТАБЛИЦ И ДИАГРАММ Распределение частот Определение количества групп Разбиение на интервалы группирования Определение границ интервалов группирования Субъективность при определении границ интервалов группирования Распределение относительных частот и процентное распределение Функция распределения Процедуры Excel: вычисление распределения частот для числовых данных Гистограмма Полигон Полигон интегральных процентов (кривая распределения) Процедуры Excel: построение гистограмм и полигонов для числовых данных 2.3. ИЗОБРАЖЕНИЕ ДВУМЕРНЫХ ЧИСЛОВЫХ ДАННЫХ Процедуры Excel: построение диаграмм разброса 2.4. ПРЕДСТАВЛЕНИЕ КАТЕГОРИЙНЫХ ДАННЫХ В ВИДЕ ТАБЛИЦ И ДИАГРАММ Сводная таблица Линейчатая диаграмма Круговая диаграмма Диаграмма Парето Процедуры Excel: создание таблиц и диаграмм для категорийных данных 2.5. ПРЕДСТАВЛЕНИЕ ДВУМЕРНЫХ КАТЕГОРИЙНЫХ ДАННЫХ В ВИДЕ ТАБЛИЦ И ГРАФИКОВ Таблица сопряженности признаков Параллельная линейчатая диаграмма Процедуры Excel: создание таблиц и диаграмм для двумерных категорийных данных 2.6. ИСКУССТВО ГРАФИЧЕСКОГО ПРЕДСТАВЛЕНИЯ ДАННЫХ Принципы графического представления данных СПРАВОЧНИК EXCEL. ГЛАВА 2 ЧЕМУ ДОЛЖЕН НАУЧИТЬСЯ СТУДЕНТ • Организовывать числовые данные. • Создавать таблицы и диаграммы для числовых и категорийных • Понимать принципы правильного графического представления |||||||И^
ПРИМЕНЕНИЕ СТАТИСТИКИ Сравнение эффективности взаимных фондов В последние годы вклады во взаимные фонды составили миллиарды долларов. В следующих двух главах мы проанализируем работу взаимных фондов, владеющих портфелем ценных бумаг. Приобретая акции (долю) взаимного фонда, инвестор вступает во владение всеми акциями компаний, принадлежащими фонду. В нашем сценарии мы сыграем роль финансового советника, выбирающего фонд, в который следует вкладывать средства. Взаимные фонды преследуют разные цели. Обычно капитал фонда складывается из акций схожих компаний. Например, фонды могут специализироваться на акциях крупных, средних или мелких компаний. Кроме того, взаимные фонды различаются по степени риска, связанного с ценными бумагами, которыми они владеют. В соответствии с этим критерием они разделяются на фонды с очень высоким, высоким, средним, низким и очень низким уровнями риска. Финансовый советник должен порекомендовать клиенту наилучшее капиталовложение. Для этого сначала необходимо сравнить эффективность взаимных фондов из разных категорий. Являются ли фонды, ориентированные на быстрый рост капитала (growth funds), более эффективными, чем фонды, ориентированные на медленный рост (value funds)? Можно ли утверждать, что изменчивость доходности фондов первого типа больше, чем у фондов второго типа? Как использовать таблицы и диаграммы для анализа эффективности различных фондов? ВВЕДЕНИЕ Как правило, если исходный набор данных состоит из 20 и более записей, необходимо создавать соответствующую таблицу или диаграмму, позволяющие выявить важную информацию. В данной главе таблицы и диаграммы используются для эффективной реализации двух ключевых аспектов принятия решений — анализа данных и последующей интерпретации. 2.1. ОРГАНИЗАЦИЯ ЧИСЛОВЫХ ДАННЫХ Mutual Funds.XLS Для того чтобы ответить на вопросы, поставленные в сценарии, необходимо проанализировать последние данные об эффективности взаимных фондов. Для этого на компакт-диске приведены данные о 259 фондах. Проанализируем годовые показатели фондов разного типа за последние 5 лет. В рабочей книге Mutual Funds .xls содержатся данные о фондах, ориентированных на быстрый и медленный рост капитала соответственно. Фонды, ориентированные на быстрый рост капитала, владеют акциями, отношение рыночной цены которых к чистой прибыли в расчете на одну акцию (отношение Р/Е (price-to-earning ratio)) превышает среднее значение Р/Е у аналогичных компаний. Фонды, ориентированные на медленный рост капи-
тала, владеют акциями, отношение Р/Е которых меньше, чем среднее отношение Р/Е у аналогичных компаний. Сравнив годовые показатели доходности фондов из этих групп, легко ответить на вопрос “Какие фонды эффективнее: ориентированные на быстрый рост капитала или на медленный?”. В рабочей книге Mutual Funds, xls приведены данные о 158 фондах, ориентированных на быстрый рост капитала, и 101 фонде, ориентированном на медленный рост капитала. Годовые показатели относятся к периоду с 1 апреля 1997 по 31 декабря 2001 года. Этот период характеризуется очень сильными колебаниями доходности взаимных фондов. (Полное описание рабочей книги Mutual Funds . xls приведено в приложении Г.) Чем больше анализируемых данных, тем труднее сконцентрировать внимание на их основных характеристиках. Чтобы лучше воспринять информацию, содержащуюся в наборе данных, их необходимо правильно организовать. Для этого используют либо упорядоченный массив, либо диаграмму “ствол и листья”. Упорядоченный массив Упорядоченный массив (ordered array) состоит из последовательности данных, расположенных по возрастанию. Например, табл. 2.1 содержит показатели о пятилетней среднегодовой доходности 158 фондов, ориентированных на быстрый рост капитала. Упорядоченные массивы позволяют сразу определить минимальное и максимальное значения, типичные величины, а также диапазон, которому принадлежит основная масса значений. Таблица 2.1. Упорядоченный массив, содержащий данные о пятилетней среднегодовой доходности 158 фондов, ориентированных на быстрый рост капитала, за период с 1 января 1997 до 31 декабря 2001 г. Mutual Funds.XLS -6,1 -2,8 -1,2 -0,7 0,5 1,8 1,9 2,5 2,8 3,3 3,5 3,8 3,8 4,0 4,2 4,3 4,5 4,6 5,0 5,1 5,2 5,4 5,5 5,8 5,9 6,0 6,2 6,3 6,5 6,5 7,0 7,1 7,1 7,2 7,2 7,3 7,5 7,6 7,6 7,8 7,8 7,8 7,9 8,1 8,1 8,2 8,3 8,3 8,4 8,5 8,5 8,5 8,6 8,8 8,8 8,8 9,0 9,0 9,1 9,1 9,1 9,2 9,3 9,3 9,5 9,5 9,5 9,5 9,6 9,6 9,7 9,8 9,9 9,9 9,9 9,9 10,1 10,1 10,1 10,1 10,2 10,3 10,3 10,4 10,5 10,5 10,5 10,5 10,5 10,5 10,6 10,7 10,7 10,8 10,9 11,0 11,0 11,1 11,1 11,1 11,2 11,2 11,3 11,3 11,3 11,3 11,4 11,5 11,5 11,5 11,6 11,7 11,7 11,9 11,9 12,2 12,2 12,3 12,3 12,4 12,5 12,7 12,9 12,9 12,9 13,0 13,1 13,2 13,4 13,4 13,7 13,7 13,9 14,1 14,7 14,8 14,9 15,0 15,7 15,8 15,8 16,0 16,9 17,0 17,0 17,6 17,8 18,1 18,1 18,2 18,5 18,5 18,7 18,9 21,4 22,0 22,9 26,3
Как видим, наименьший уровень пяти летней среднегодовой доходности равен -6,1% в год, а наивысший достигает 26,3%. Кроме того, среднегодовые показатели большинства фондов колеблются в диапазоне от 5 до 15%. Прежде чем создавать сводные таблицы и диаграммы или вычислять средние значения показателей (см. главу 3), данные можно представить в виде диаграммы “ствол и листья” [9,10]. Процедуры Excel: создание упорядоченных массивов Для упорядочения содержимого рабочей таблицы или диапазона ячеек следует выбрать команду Данные^Сортировка.... Например, чтобы создать упорядоченный массив, соответствующий табл. 2.1, необходимо открыть файл Growth Funds Sample. xls и сделать следующее. 1. Выбрать пункт меню ДанныеФСортировка.... 2. В диалоговом окне Сортировка диапазона выполнить такие действия. 2.1. Выбрать столбец Пятилетняя доходность в раскрывающемся списке. 2.2. Установить переключатель Сортировать по в положение По возрастанию. 2.3. Установить переключатель Идентифицировать поля по в положение По обозначениям столбцов листа. 2.4. Щелкнуть на кнопке ОК. Сортировка диапазона Сортировать по i Пятилетняя доход! vj ® по возрастанию .......... ' О по убываникз Затем по i v l ® по возрастанию ....... О по убыванию В последнюю очередь., по ® по возрастанию .............. Q по убыванию Идентифицировать диапазон данных по <$) подписям (первая строка диапазона) О обозначениям столбцов листа [ Параметры., j | .QK. [ Отмена ] Можно просто перетащить курсор мыши через диапазон ячеек, содержащих данные о пятилетней доходности фондов (11:1159), а затем скопировать и вставить этот диапазон (см. раздел ЕР.5.1) в новый рабочий лист. Диаграмма "ствол и листья" Диаграмма “ствол и листья” (stem-and-leaf display) представляет собой инструмент для организации набора данных и анализа их распределения. Данные в диаграмме “ствол и листья” распределены в соответствии с первыми цифрами, или стволами, и замыкающими цифрами, или листьями. В диаграмме “ствол и листья” число 10,9 (соответствующее пятилетней среднегодовой доходности, равной 10,9%) состоит из ствола 10 и листа 9. На рис. 2.1 показана диаграмма “ствол и листья”, отображающая пятилетнюю доходность 158 фондов, ориентированных на быстрый рост капитала. Первые два столбца цифр образуют ствол, содержащий ведущие цифры чисел. Листья, или замыкающие цифры, расположены справа. Анализируя рис. 2.1, можно сделать некоторые выводы относительно среднегодовой доходности фондов за последние пять лет. 1. Наименьший уровень пятилетней среднегодовой доходности равен -6,1%. 2. Наивысший уровень пятилетней среднегодовой доходности равен 26,3%. 3. Уровни доходности 158 фондов, ориентированных на быстрый рост капитала, колеблются между наименьшим и наивысшим значениями, причем наибольшая концентрация доходности наблюдается в интервале от 1,8 до 18,9%. Количество фондов, доходность которых близка к наибольшей или наименьшей, невелико. 4. Только четыре взаимных фонда приносят убытки. В то же время лишь у четырех взаимных фондов среднегодовая доходность превышает 20%.
А 2 3 I 4 5 6 7 В 9 10 ________________________В Диаграмма "ствол и листья" Шаг -6 -5 4 -3 -2 11 12 13 14 15 16 J7 18 19 20 21 22 23 24 -0 6 2 3 4 5 6 8 9 io и 12 8 '2 5 89 58 3588 02358 0124589 02355 0112235668889 1123345556888 00111233555566789999 0111233455555567789 00111223333455567799 2233457999 Рис. 2.1. Диаграмма "ствол и листья", содержащая показатели пятилетней доходности 158 фондов, ориентированных на быстрый рост капитала (построена с помощью программы Microsoft Excel) Процедуры Excel: построение диаграмм "ствол и листья" Для создания диаграммы "ствол и листья" сначала необходимо упорядочить данные, а затем записать их в двух смежных столбцах, представляющих ствол и листья. Эту задачу можно решить как с помощью надстройки PHStat2, так и самостоятельно. Однако следует иметь в виду, что процедура создания листьев диаграммы трудоемка и подвержена ошибкам. Например, для того чтобы создать диаграмму "ствол и листья", представленную на рис. 2.1, необходимо открыть файл Growth Funds Sample.xls на рабочем листе Данные, а затем выполнить одну из следующих процедур. Применение Excel в сочетании с надстройкой PHStatZ Для создания диаграммы "ствол и листья" следует выполнить команду PHStatZDescriptive Statistics1^ Stem-and-Leaf Display... (PHStat ^Описательная статистика^ Диаграмма “ствол и листья”...) и следующие инструкции. 1. Выполнить команду PHStatZDescriptive Statistics1^ Stem-and-Leaf Display.... 2. В диалоговом окне Stem-and-Leaf Display необходимо сделать следующее. 2.1. Ввести в окне редактирования Variable Cell Range (Входной диапазон) диапазон и: 1159. 2.2. Установить флажок First cell contains label (Метка в первой ячейке). 2.3. Установить переключатель Stem Unit (Шаг) в положение Autocalculate stem unit (Автоматическое вычисление шага). Siem and Leaf Display [X| i Variable Cell Range: ...*""| , j R First cell contains label Stem Unit j <* Autocalculate stem unit ! ! C* Set stem unit as: |" ' '' Output Options _________ , I Title: | Диаграмма "ствол и листья" I j P Summary Statistics I Help | ILZoTJI Cancel | 2.4. Ввести заголовок структуры в окне редактирования Title (Заголовок). 2.5. Щелкнуть на кнопке ОК. Для того чтобы включить в таблицу пятерку базовых показателей, описанных в главе 3, установите флажок Summary Statistics (Базовые показатели).
Применение Excel Скопируйте диапазон ячеек, содержащий данные, которые подлежат сортировке, в столбец А на новом рабочем листе. Выполните команду Данные^Сортировка.... Запишите в столбец в листья, вычисленные вручную. Все числа в столбце в должны начинаться с апострофа, чтобы программа Microsoft Excel не перепутала их со строкой цифр, образующих очень длинное число. Замените числа в столбце а соответствующими значениями, образующими ствол, и удалите дубликаты. Mutual Funds.XLS. Диаграмма, аналогичная приведенной на рис. 2.1, содержится на рабо-~ чем листе Рис2.1 в рабочей книге Chapter 2.xls. Проиллюстрируем процедуру построения диаграммы “ствол и листья” следующим примером. ПРИМЕР 2.1. ПОСТРОЕНИЕ ДИАГРАММЫ “СТВОЛ И ЛИСТЬЯ" Ниже приведены суммы, которые 15 студентов тратят на завтрак в ресторане быстрого обслуживания. 5,35 4,75 4,30 5,47 4,85 6,62 3,54 4,87 6,26 5,48 7,27 8,45 6,05 4,76 5,91 Постройте диаграмму “ствол и листья”. РЕШЕНИЕ. Сначала следует упорядочить значения по возрастанию, а затем использовать в качестве ствола единицы, а в качестве листьев — десятичные части, округленные до десятых долей. 3 5 4 5 6 7 83998 4559 631 3 Изучение основ 2.1. Создайте упорядоченный массив из приведенных ниже п = 7 экзаменационных оценок по бухгалтерскому учету. 68 94 63 75 71 88 64 2.2. Создайте диаграмму “ствол и листья” из приведенных ниже п= 7 экзаменационных оценок по финансовому делу. 80 54 69 98 93 53 74 2.3. Создайте упорядоченный массив из приведенных ниже п = 7 экзаменационных оценок по маркетингу. 88 78 78 73 91 78 85 2.4. Создайте упорядоченный массив из диаграммы “ствол и листья”, содержащей экзаменационные оценки по информатике. 5 6 7 8 9 0 446 19 2
Применение понятий 2.5. Ниже приведена диаграмма “ствол и листья”, содержащая данные об объеме продаж бензина. Ее листьями являются десятки. Выборка состоит из 25 автомобилей, обслуживающихся конкретной автозаправочной станцией в г. Нью-Джерси Торнпарк (New Jersey Turnpark). 9 147 10 02238 11 125566777 12 223489 13 02 1. Создайте упорядоченный массив, содержащий указанные данные. 2. Какой способ представления данных более информативен? Обоснуйте свой ответ. 3. Какой объем бензина автомобилисты покупают чаще всего? 4. Наблюдается ли концентрация объемов проданного бензина в центре распределения? 5. Является ли выборка, состоящая из 25 элементов, репрезентативной? Обоснуйте свой ответ. 2.6. Файл ft^PE.XLS содержит случайную выборку, состоящую из 30 акций, проданных на Нью-Йоркской фондовой бирже. Для каждой акции указаны ее аббревиатура и отношение рыночной цены к чистой прибыли в расчете на одну акцию, опубликованные в журнале The Wall Street Journal 2 января 2003 года. Отношение рыночной цены акции компании к ее чистой прибыли в расчете на одну акцию, называемое также отношением Р/Е (price-to-earning ratio), является результатом деления ее цены на момент закрытия торгов на прибыль, начисленную на каждую акцию компании в течение последних четырех кварталов. Акции со сверхвысоким отношением Р/Е называются переоцененными. В то же время акции с необычно низким отношением Р/Е часто называются недооцененными. 1. Создайте упорядоченный массив, содержащий указанные данные. 2. Постройте диаграмму “ствол и листья”, содержащую указанные данные. 3. Какой способ представления данных более информативен? Обоснуйте свой ответ. 4. Не кажется ли вам, что недооцененных акций больше, чем переоцененных? Обоснуйте свой ответ. 5. Используя листинг акций, публикуемый в журналах The Wall Street Journal и USA Today, или другие источники, создайте свою собственную случайную выборку, состоящую из 30 элементов, и сравните с выборкой, приведенной выше. 6. Используя листинг акций, публикуемый в журналах The Wall Street Journal и USA Today, или другие источники, создайте свою собственную случайную выборку, состоящую из акций 30 компаний, котируемых на бирже NASDAQ, и сравните ее с выборкой, составленной из акций, котируемых на Нью-Йоркской фондовой бирже. 2.7. Данные, приведенные ниже, содержат количество чеков, возвращенных 23 банками своим вкладчикам ввиду отсутствия средств на счете. (Минимальный размер вклада не должен быть ниже 100 долл.) ^BANKCOSTl. XLS. 26 28 20 20 21 22 25 25 18 25 15 20 18 20 25 25 22 30 30 30 15 20 29
Источник: справочник “The New Face of Banking” Copyright ©2000, изданный компанией Consumers Union of U.S. Ink., Yonkers, NY. Данные цитируются no журналу Consumer Reports, июнь 2000 с разрешения компании Consumers Union of U. S. Ink., Yonkers, NY 10703-1057. 1. Создайте упорядоченный массив, содержащий указанные данные. 2. Постройте диаграмму “ствол и листья”, содержащую указанные данные. 3. Какой способ представления данных более информативен? Обоснуйте свой ответ. 4. Определите значение, вокруг которого концентрируется распределение количества возвращенных чеков. Обоснуйте свой ответ. 2.8. Данные, приведенные ниже, содержат величину ежемесячной платы за услуги (в долларах), взимаемой 26 банками со своих клиентов, если сумма на счету клиента не превышает установленного минимума, равного 1 500 долл. ^BANKCOST2. XLS. 12 85566 10 10 97 10 7750 10 69 12 05 10 8559 Источник данных: справочник “The New Face of Banking" Copyrlgh © 2000, изданный компанией Consumers Union of U. S. Ink., Yonkers, NY. Данные цитируются no журналу Consumer Reports, июнь 2000 с разрешения компании Consumers Union of U. S. Ink., Yonkers, NY 10703-1057. 1. Создайте упорядоченный массив, содержащий указанные данные. 2. Постройте диаграмму “ствол и листья”, содержащую указанные данные. 3. Какой способ представления данных более информативен? Обоснуйте свой ответ. 4. Определите значение, вокруг которого концентрируется распределение ежемесячной оплаты банковских услуг. Обоснуйте свой ответ. 2.9. Данные, приведенные ниже, содержат количество калорий, получаемых потребителями гамбургеров и куриного мяса в сети ресторанов быстрого питания. CfFASTFOOD.XLS. Гамбургеры 19 31 34 35 39 39 43 Куриное мясо 7 9 15 16 16 18 22 25 27 33 39 Источник: справочник “Быстрая закуска?” © 2001, изданный компанией Consumers Union of U. S. Ink., Yonkers, NY. Цитируется no журналу Consumer Reports, март 2001, 46, c разрешения компании Consumers Union of U. S. Ink., Yonkers, NY 10703-1057. Отдельно для гамбургеров и куриного мяса выполните следующие задания. 1. Создайте упорядоченный массив, содержащий указанные данные. 2. Постройте диаграмму “ствол и листья”, содержащую указанные данные. 3. Какой способ представления данных более информативен? Обоснуйте свой ответ. 4. Сравните гамбургеры и куриное мясо по количеству калорий. Какой вывод напрашивается?
2.2. ПРЕДСТАВЛЕНИЕ ЧИСЛОВЫХ ДАННЫХ В ВИДЕ ТАБЛИЦ И ДИАГРАММ Распределение частот При увеличении объема выборки ни упорядоченный массив, ни диаграмма “ствол и листья” уже не позволяют легко представлять, анализировать и интерпретировать результаты. Для больших наборов данных следует создавать сводные таблицы, распределяя данные по группам (или категориям). Такой способ представления данных называется распределением частот. Распределение частот (frequency distribution) представляет собой сводную таблицу, в которой данные распределены по группам или категориям. Если данные сгруппированы в виде распределения частот, процесс их анализа и интерпретации становится более управляемым и осмысленным. При распределении частот следует внимательно выбирать интервал группирования (class interval), или размах (width) групп, а также вычислять границы, (boundaries) каждой группы, не допуская их перекрытия. Выбор количества групп Количество групп, выбранных для группировки данных, непосредственно зависит от объема исходной выборки. Чем больше элементов содержит выборка, тем больше групп можно создать. Однако, как правило, распределение частот должно содержать не менее 5 и не более 15 групп. Если групп слишком мало или слишком много, новую информацию получить довольно сложно. Вычисление интервала группирования Каждая группа, образующая распределение частот, должна иметь одинаковый размах. Чтобы определить ширину интервала группирования (width of class interval), диапазон изменения данных делят на заданное количество групп. ВЫЧИСЛЕНИЕ ШИРИНЫ ИНТЕРВАЛА ГРУППИРОВАНИЯ ... Диапазон /о Ширина интервала группирования =-—---------- (2.1) Количество групп Поскольку в нашем примере имеются данные лишь о 158 фондах, достаточно создать восемь групп. Диапазон значений, содержащихся в табл. 2.1, вычисляется по формуле 26,3-(-6,1) = 32,4. С учетом формулы (2.1) ширина интервала группирования вычисляется следующим образом. 32 4 Ширина интервала группирования = —= 4,05. 8 Для удобства эта величина округляется до 5,0. Вычисление границ групп Для вычисления распределения частот необходимо так определить границы групп (class boundaries), чтобы они не пересекались. Перекрытие групп не допускается.
Поскольку размах каждой группы, построенной на основе данных о пятилетней среднегодовой доходности фондов, равен 5,0%, границы групп должны быть установлены так, чтобы учесть все данные. По возможности эти границы должны быть достаточно наглядными. Например, величины из первой группы должны изменяться в диапазоне от -10,0 до -5,0% и так далее, пока не будут сформированы 8 неперекрываю-щихся групп, ширина каждого из которых равна 5,0%. Результат этой процедуры приведен в табл. 2.2. Таблица 2.2. Распределение частот для пятилетней среднегодовой доходности 158 фондов, ориентированных на быстрый рост капитала Пятилетняя среднегодовая доходность Количество фондов от -10,0 До -5,0 1 от -5,0 До 0,0 3 от 0,0 До 5,0 14 от 5,0 ДО 10,0 58 от 10,0 ДО 15,0 61 от 15,0 ДО 20,0 17 от 20,0 ДО 25,0 3 от 25,0 До 30,0 1 Итого 158 Главным преимуществом этой таблицы является возможность легко вычислять основные характеристики данных. Например, табл. 2.2 демонстрирует, что приближенный диапазон среднегодовой доходности 158 фондов, ориентированных на быстрый рост капитала, ограничен числами -10,0 и 30,0%, причем показатели в основном группируются в диапазоне от 5,0 до 15,0%. С другой стороны, эта сводная таблица имеет недостаток: по ней невозможно определить, как распределены индивидуальные данные внутри групп. Например, доходность трех фондов из представленных в табл. 2.2 изменяется в диапазоне от 20,0 до 25,0%, но определить, вокруг какого значения они сконцентрированы (20 или 25%), невозможно. Для представления средней доходности этих трех фондов выбирается срединная точка (22,5%). Срединной точкой (midpoint) интервала, границами которой являются величины -10,0 и -5,0%, является значение -7,5%. (Срединные точки остальных интервалов равны -2,5, 2,5, 7,5, 12,5, 17,5, 22,5 и 27,5% соответственно.) Субъективность при выборе границ групп Выбор границ групп при вычислении распределения частот является весьма субъективным. Если наборы данных невелики, одинаковый выбор границ групп для разных выборок может привести к разным результатам. Например, если при вычислении распределения частот для показателей пятилетней среднегодовой доходности ширину интервалов группирования установить равной 4,0, а не 5,0% (как в табл. 2.2), возникнет смещение распределения. Особенно сильно этот эффект проявляется при работе с малыми выборками. Смещение распределения возникает не только в результате изменения границ групп. Например, ширину интервала группирования можно оставить равной 5,0%, изменив границы первой и последней групп. Эта манипуляция также приводит к смещению распределения, особенно, если объем выборки невелик. К счастью, по мере увеличения объема выборки этот эффект становится менее выраженным.
Распределение относительных частот и процентное распределение Для более углубленного анализа распределения частот можно построить либо распределение относительных частот (долей) либо процентное распределение. Выбор распределения зависит от того, с какими данными желает работать пользователь: с долями или процентами. В табл. 2.3 приведены оба вида распределения. Таблица 2.3. Распределение относительных частот и процентное распределение для пятилетней среднегодовой доходности 158 фондов, ориентированных на быстрый рост капитала Пятилетняя среднегодовая доходность Доля фондов Процент фондов от -10,0 ДО -5,0 0,006 0,6 от -5,0 ДО 0,0 0,019 1,9 от 0,0 ДО 5,0 0,089 8,9 от 5,0 ДО 10,0 0,367 36,7 от 10,0 До 15,0 0,386 38,6 от 15,0 До 20,0 0,108 10,8 от 20,0 До 25,0 0,019 1,9 от 25,0 ДО 30,0 0,006 0,6 Итого 1,000 100,0 Источник: данные взяты из табл. 2.2. Распределение относительных частот (relative frequency distribution) вычисляется путем деления количества элементов каждой группы, образующей распределение частот (см. табл. 2.2), на общее количество наблюдений. Процентное распределение (percentage distribution) вычисляется путем умножения каждой относительной частоты, или доли, на 100,0. Таким образом, доля фондов, ориентированных на быстрый рост капитала, среднегодовая доходность которых изменяется от 10,0 до 15,0% , равна 0,386, а процент — 38,6. Как правило, работать с долями или процентами удобнее, чем с количеством элементов в группе. Распределение относительных частот, как и процентное распределение, позволяет сравнивать даже наборы данных, имеющие разные объемы. Чтобы проиллюстрировать это утверждение, вспомним сценарий, описанный в начале главы. В нем требовалось сравнить среднегодовые показатели доходности фондов, ориентированных на быстрый и медленный рост капитала соответственно. В табл. 2.4 показано распределение относительных частот и процентное распределение пятилетней среднегодовой доходности 101 фонда, ориентированного на медленный рост капитала. Обратите внимание на то, что при построении распределения относительных частот мы стремились по возможности сохранить разбиение выборки на группы, принятое в табл. 2.3 для фондов, ориентированных на быстрый рост капитала. Таблица 2.4. Распределение относительных частот и процентное распределение для пятилетней среднегодовой доходности 101 фонда, ориентированного на медленный рост капитала Среднегодовая относительная доходность Доля фондов Процент фондов от -10,0 До -5,0 0 0,0 от -5,0 До 0,0 0 0,0 от 0,0 До 5,0 3 3,0
Окончание табл. 2.4 Среднегодовая относительная доходность Доля фондов Процент фондов от 5,0 ДО 10,0 34 33,7 от 10,0 ДО 15,0 41 40,6 от 15,0 ДО 20,0 20 19,8 от 20,0 ДО 25,0 2 2,0 от 25,0 ДО 30,0 1 1,0 Итого 101 100,0* * Результаты немного отличаются от 100,0 за счет округления. Процентные распределения, приведенные в табл. 2.3 и 2.4, позволяют сравнивать среднегодовые показатели доходности фондов, ориентированных на быстрый и медленный рост капитала соответственно. Значительные различия распределений, присущих этим показателям, проявляются следующим образом. 1. Среднегодовой показатель доходности 10,8% фондов, ориентированных на быстрый рост капитала, колеблется в диапазоне от -5,0 до 5,0%. В то же время процентная доля фондов, ориентированных на медленный рост капитала, в этом диапазоне доходности равна 3,0% . 2. Только 10,8% фондов, ориентированных на быстрый рост капитала, имеют среднегодовую доходность от 15 до 20%. Процентная доля фондов, ориентированных на медленный рост капитала, в этом диапазоне доходности равна 19,8% . Функция распределения Для табулирования данных часто оказывается полезной таблица интегральных процентов, которую также называют распределением интегральных процентов (cumulative percentage distribution). Функция распределения и связанный с нею полигон позволяют обнаружить информацию, которая ускользает от распределения частот. Пример 2.2 демонстрирует способ вычисления распределения интегральных процентов на основе процентного распределения среднегодовых показателей доходности 158 фондов, ориентированных на быстрый рост капитала. ПРИМЕР 2.2. ВЫЧИСЛЕНИЕ РАСПРЕДЕЛЕНИЯ ИНТЕГРАЛЬНЫХ ПРОЦЕНТОВ Построить распределение интегральных процентов, используя данные, приведенные в табл. 2.3 и 2.4. РЕШЕНИЕ. Из табл. 2.5 следует, что ни один фонд, ориентированный на быстрый рост капитала, не имеет доходности меньше -10,0%, среднегодовые показатели доходности 0,6% фондов не превышают -5,0% и т.д. В итоге приходим к выводу, что 100,0% фондов имеют пятилетнюю среднегодовую доходность ниже 30,0%.
Таблица 2.5. Распределение интегральных процентов Пятилетняя среднегодовая Процент фондов Процент фондов, доходность которых доходность, % в группе не превышает верхней границы группы от -10,0 ДО -5,0 0,6 0,0 от -5,0 До 0,0 1,9 0,6 от 0,0 ДО 5,0 8,9 2,5 = 0,6+1,9 от 5,0 ДО 10,0 36,7 11,4 = 0,6+1,9 + 8,9 от 10,0 До 15,0 38,6 48,1 = 0,6+ 1,9 + 8,9 + 36,7 ‘ от 15,0 ДО 20,0 10,8 86,7 = 0,6 + 1,9 + 8,9 + 36,7 + 38,6 от 20,0 ДО 25,0 1,9 97,5 = 0,6 + 1,9 + 8,9 + 36,7 + 38,6 + 10,8 от 25,0 ДО 30,0 0,6 99,4 = 0,6 + 1,9 + 8,9 + 36,7 + 38,6 + 10,8 + 1,9 от 30,0 ДО 35,0 0,0 100,0 = 0,6 + 1,9 + 8,9 + 36,7 + 38,6 + 10,8 + +1,9+ 0,6 В табл. 2.6 приведены распределения интегральных процентов для среднегодовых показателей доходности 158 фондов, ориентированных на быстрый рост капитала, и 101 фонда, ориентированного на медленный рост капитала. Таблица 2.6. Распределение интегральных процентов для пятилетней среднегодовой доходности 101 фонда, ориентированного на медленный рост капитала, и 158 фондов, ориентированных на быстрый рост капитала* Пятилетняя среднегодовая доходность Процентная доля фондов, ориентированных на быстрый рост, не превышающая указанной величины Процентная доля фондов ориентированных на медленный рост, не превышающая указанной величины -10,0 0,0 0,0 -5,0 6,0 0,0 0,0 2,5 0,0 5,0 11,4 3,0 10,0 48,1 36,7 15,0 86,7 77,3 20,0 97,5 97,1 25,0 99,4 99.1 30,0 100,0 100,0 'Данные взяты из табл. 2.3 и 2.4. Из данных, приведенных в табл. 2.6, следует, что в основном пятилетняя среднегодовая доходность фондов, ориентированных на быстрый рост капитала, меньше, чем у фондов, ориентированных на медленный рост капитала. В частности, 48,1% фондов, ориентированных на быстрый рост капитала, имеют показатели доходности, не превышающие 10%. Соответствующая доля фондов, ориентированных на медленный рост капитала, равна 36,7%.
Процедуры Excel: вычисление распределения частот для числовых данных Для вычисления распределения частот можно воспользоваться командой Сервис^Анализ данных^ Гистограмма. Поскольку эта процедура содержит несколько ошибок, результаты придется скорректировать. В качестве альтернативы можно использовать надстройку PHStat2, которая автоматически исправляет эти ошибки. Одна из сложностей состоит в том, что программа Micrisoft Excel использует "карманы", представляющие собой группы, образованные из упорядоченного массива верхних границ групп, записанных в "диапазоне карманов". Для того чтобы представить границы групп в виде "от а до Ь', как в табл. 2.2, в диапазон карманов следует записать числа, ненамного меньше величины/). Например, для интервала "от 5,0 до 10,0" в качестве верхней границы следует указать 9,99. Для интервала "от -10,0 до -5,0" верхнюю границу необходимо задать равной -5,01. Например, для вычисления распределения частот, представленного в табл. 2.2, необходимо открыть рабочую книгу Growth Funds Sample.xls на листе Пятилетняя_доходность и следовать инструкциям, приведенным ниже. (Величины, порождающие распределение частот, представленное в табл. 2.2, уже записаны на рабочем листе Пятилетняя^доходность в столбце с.) Применение Excel в сочетании с надстройкой PHStatZ Для вычисления распределения частот на основе данных, записанных на рабочем листе Пятилетняя_доходность, выполните такие действия. 1. Выберите PH Stat ^Descriptive Statistics1^ Frequency Distribution... (РН51аЮОписательная статистика^ Распределение частот...). 2. В диалоговом окне Frequency Distribution сделайте следующее (см. иллюстрацию.). 2.1. Введите в окне редактирования Variable Cel Range (Входной интервал) диапазон В1 :В159. 2.2. Введите в окне редактирования Bins Cell Range (Интервал карманов) диапазон cl: СЮ. 2.3. Установите флажок First cell contains label (Первая ячейка содержит метку). 2.4. Установите переключатель Input Options (Параметры вывода) в положение Single Group Variable (Отдельная группа). 2.5. Введите заголовок структуры в окне редактирования Title (Заголовок). 2.6. Щелкните на кнопке ОК. Frequency Distribution fx] Data Variable Cell Range: Bins Cell Range: |B1:B159 -I [cncio First cell in each range contains label Input Options <• Single Group Variable Multiple Groups - Unstacksd Multiple Groups - Stacked Output Options Title: [распределение частот Help | IL ЗЖ....Д| Cancel | Применение Excel Распределение частот можно построить с помощью процедуры создания гистограмм надстройки Пакет анализа. Для этого следует выполнить команду Сервис^Анализ данных..., а затем выбрать из списка Инструменты анализа, расположенного в окне Анализ данных, пункт Гистограмма и щелкнуть на кнопке ОК. В диалоговом окне Гистограмма нужно ввести ссылки В1:В159 в окне редактирования Входной интервал и С1:С1О в окне редактирования Интервал карманов, затем установить переключатель Параметры вывода в положение Новый рабочий лист и щелкнуть на кнопке ОК. Для того чтобы исправить ошибки, порождаемые процедурой построения гистограмм программы Excel, выполните инструкции, приведенные в разделе ЕН.2.1. (Кроме того, в разделе ЕН.2.1 описан шаблон рабочего листа, допускающего динамическое обновление частот при изменении исходных данных.) I 4U Chapter 2.XLS. Распределение частот, аналогичное приведенной в табл. 2.2, содержится на | * рабочем листе Табл2.2 в рабочей книге Chapter 2.xls.
Гистограмма Следуя принципу “лучше один раз увидеть, чем сто раз услышать”, для анализа статистических данных часто используют графические изображения, а не таблицы. Одна из разновидностей таких графических изображений называется гистограммой (histogram). С ее помощью описываются числовые данные, сгруппированные по частоте, относительной частоте или процентной доле. Гистограмма — это диаграмма, на которой изображены столбики, границы которых совпадают с границами групп. При построении гистограмм исследуемая случайная величина откладывается по горизонтальной оси (т.е. вдоль осиХ), а количество элементов в соответствующих группах, их относительная частота или процентная доля — по вертикальной (т.е. вдоль оси У). На рис. 2.2 изображена гистограмма, построенная на основе данных о пятилетней среднегодовой доходности 158 фондов, ориентированных на быстрый рост капитала. Обратите внимание на высокую концентрацию фондов в диапазоне от 5 до 15% и более низкую концентрацию в других группах. Рис. 2.2. Гистограмма, построенная с помощью программы Microsoft Excel на основе пятилетней среднегодовой доходности фондов, ориентированных на быстрый рост капитала При сравнении нескольких наборов данных бывает довольно сложно создавать диаграммы “ствол и листья” и гистограммы. Например, иногда трудно правильно интерпретировать разницу между высотами соответствующих столбцов разных гистограмм. В этих ситуациях более предпочтительными оказываются полигоны, построенные по относительным частотам или процентным долям. Полигон Как и при построении гистограмм, величина исследуемой переменной откладывается вдоль горизонтальной оси. По вертикальной оси откладывается количество элементов в каждой группе, их относительная доля или процент.
Процентный полигон (percentage polygon) представляет собой график, построенный путем соединения средних точек, соответствующих процентной доле каждой группы. На рис. 2.3 показан процентный полигон, построенный с помощью программы Microsoft Excel на основе пятилетней среднегодовой доходности 158 фондов, ориентированных на быстрый рост капитала, и 101 фонда, ориентированного на медленный рост капитала. Различия между двумя распределениями, обнаруженные ранее при анализе табл. 2.3 и 2.4, теперь видны четче. Хотя показатели доходности фондов, ориентированных на быстрый и медленный рост капитала соответственно, сосредоточены, в основном, в интервале от 5 до 15%, бросается в глаза большое количество фондов, ориентированных на медленный рост капитала, доходность которых колеблется в интервале от 15 до 20%. В отличие от них, распределение показателей фондов, ориентированных на быстрый рост капитала, характеризуется большим разбросом. Рис. 2.3. Процентные полигоны, построенные с помощью программы Microsoft Excel на основе пятилетней среднегодовой доходности фондов, ориентированных на быстрый и медленный рост капитала Построение полигона. Обратите внимание на то, что полигон, изображенный на рис. 2.3, построен по срединным точкам интервалов разбиения. Возьмем, к примеру, точку на осиХ, соответствующую уровню доходности 17,5% . Этой точке соответствует 19,8% фондов, ориентированных на медленный рост капитала, среднегодовой показатель доходности которых колеблется в диапазоне от 15 до 20%. Кроме того, этой точке соответствует число 10,8%, равное процентной доле фондов, ориентированных на быстрый роста капитала, среднегодовой показатель доходности которых колеблется в том же диапазоне. Заметьте также, что при построении полигона или гистограммы ось У должна начинаться в начале координат (т.е. с нуля), чтобы избежать неверной интерпретации результатов. В то же время ось X не обязана начинаться с нуля. По эстетическим причинам начало оси X выбирают так, чтобы гистограмма или полигон охватывали все данные.
Полигон интегральных процентов (кривая распределения) Полигон интегральных процентов (cumulative percentage polygon), или кривая распределения (ogive), является графическим изображением распределения суммарных процентов (cumulative percentage distribution). При построении полигона интегральных процентов исследуемая величина откладывается вдоль оси X, а интегральные проценты — вдоль оси У. Чтобы построить интересующий нас полигон интегральных процентов по табл. 2.6, отложим по оси X пятилетнюю среднегодовую доходность фондов, а вдоль оси У — интегральные проценты (из столбца “меньше чем”). На рис. 2.4 изображены полигоны интегральных процентов, построенные с помощью программы Microsoft Excel на основе пятилетней среднегодовой доходности 158 фондов, ориентированных на быстрый рост капитала, и 101 фонда, ориентированного на медленный рост капитала. На оси X отложены нижние границы групп. Анализ рис. 2.4 показывает, что среднегодовая доходность 48,1% фондов, ориентированных на быстрый рост капитала, не превышает 10%, в то время как доля фондов, ориентированных на медленный рост капитала, в этом интервале равна 36,7%. Обратите внимание на то, что в интервале до 20,0% кривая распределения среднегодовой доходности фондов, ориентированных на быстрый рост капитала, расположена слева от кривой распределения доходности фондов, ориентированных на медленный рост капитала. В то же время количество фондов, ориентированных на быстрый и медленный рост капитала, доходность которых не превышает 20,0%, приблизительно одинаково. Рис. 2.4. Полигоны интегральных процентов, построенные с помощью программы Microsoft Excel на основе пятилетней среднегодовой доходности фондов, ориентированных на быстрый и медленный рост капитала
Процедура Excel: создание гистограмм и полигонов для числовых данных Для создания гистограмм, полигонов и распределения частот можно воспользоваться процедурой Сервиса Анализ данных... => Гистограмма и Мастером диаграмм. Поскольку эта процедура содержит несколько ошибок, результаты придется скорректировать. В качестве альтернативы можно использовать надстройку PHStat2, которая автоматически исправляет эти ошибки. Кроме того, надстройка PHStat2 позволяет построить полигон для разных групп за один шаг. (Для того чтобы понять разницу между группами и "карманами", обратитесь к предыдущей врезке "Процедура Excel".) Например, для того чтобы создать гистограммы и полигоны для среднегодовой доходности фондов, ориентированных на быстрый и медленный рост капитала соответственно, как показано на рис. 2.2-2.4, следует открыть рабочую книгу Chapter2.xls на рабочем листе Сравнительные_данные и выполнить следующие действия. Применение Excel в сочетании с надстройкой PHStat2 Для построения гистограмм и полигонов необходимо применить процедуру PHStat*=>Descriptive Statistics*^Hystogram & Polygons... (PHStat=>Описательная статистика^Гистограммы&Полигоны...). Для этого следует выполнить такие действия. 1. Выполнить команду PHStat=>Descriptive Statistics*^ Hystogram & Polygons.... 2. В диалоговом окне Hystogram & Polygons (на рисунке справа) сделать следующее. 2.1. Ввести в окне редактирования Variable Cell Range (Входной интервал) диапазон А1 :В159. 2.2. Ввести в окне редактирования Bins Cell Range (Интервал карманов) диапазон Cl: СЮ. 2.3. Ввести в окне редактирования Midpoints Cell Range (Интервал средних точек) диапазон DI :D9. 2.4. Установить флажок First cell contains label (Первая ячейка содержит метку). 2.5. Установить переключатель Multiple Groups (Несколько групп) в положение Unstacked (Разгруппированы). 2.6. Ввести заголовок структуры в окне редактирования Title (Заголовок). Histogram ft Polygons 2.7. Установить флажок Hystogram (Гистограмма). Data - - - Variable Cell Range; Bins Cell Range: Midpoints Cell Range: P First cell in each range contains label Input Options C Single Group Variable : <* Multiple Groups - Unstacked C Multiple Groups - Stacked Output Options Title: |взаимные фонды P Histogram Г Frequency Polygon P Percentage Polygon P Cumulative Percentage Polygon (Ogive) Help j |* 71 Cancel J 2.8. Установить флажки Percentage Polygon (Процентный полигон) и Cumulative Percentage Polygon (Ogive) (Полигон интегральных процентов (Кривая распределения)). 2.9. Щелкнуть на кнопке ОК. Применение Excel Построение гистограмм. Гистограммы и полигоны для среднегодовой доходности фондов, ориентированных на быстрый рост капитала, можно построить с помощью процедуры построения гистограмм надстройки Пакет анализа и Мастера диаграмм. Для этого следует выполнить команду Сервис*^Анализ данных..., а затем выбрать из списка Инструменты анализа, расположенного в окне Анализ данных, пункт Гистограмма и щелкнуть на кнопке ОК. В открывшемся диалоговом окне Гистограмма нужно ввести в окне редактирования Входной интервал диапазон ссылок Al: А159, а в окне редактирования Интервал карманов - диапазон ссылок cl: СЮ. Затем необходимо установить переключатель Параметры вывода в положение Новый рабочий лист и щелкнуть на кнопке ОК. Чтобы создать гистограмму и полигон для среднегодовой доходности фондов, ориентированных на медленный рост капитала, следует повторить описанные выше действия, введя в окне редактирования Входной интервал диапазон ссылок Bl: В102.
В заключение, для того чтобы исправить ошибки, внесенные процедурой программы Excel при построении распределения частот и полигона, необходимо выполнить инструкции, приведенные в разделе ЕН.2.3. Замечание: если таблица распределения частот уже построена, следуйте инструкциям из раздела ЕН.2.4. Построение полигонов. Для построения полигонов частот, процентов или интегральных процентов следует выполнить инструкции по работе с Мастером диаграмм, приведенные в разделе ЕН.2.5. #4 Chapter 2.XLS. Гистограммы и полигоны, приведенные на рис. 2.2, 2.3 и 2.4, содержатся на " рабочих листах Рис2.2, Рис2.3 и Рис2.4 в рабочей книге chapter 2 . xls. И1И Изучение основ 2.10. Предположим, что значения, содержащиеся в наборе данных, изменяются в диапазоне от 11,6 до 97,8. 1. Укажите границы девяти групп, в которые можно объединить эти данные. 2. Укажите ширину выбранных интервалов. 3. Укажите срединную точку каждого интервала. 2.11. При анализе распределения частот, вычисленного на основе выборки, состоящей из оценок, полученных 50 абитуриентами на вступительных экзаменах, обнаружилось, что ни один из абитуриентов не получил меньше 450 баллов. Границы интервалов группирования равны 450, 500, 550, ..., 750. Допустим, что оценки двух абитуриентов лежат в интервале от 450 до 500, а 16 абитуриентов получили оценки от 500 до 550. Вычислите следующие показатели. 1. Процентная доля абитуриентов, получивших меньше 500 баллов. 2. Процентная доля абитуриентов, получивших меньше 550 баллов. 3. Процентная доля абитуриентов, получивших больше 500 и меньше 550 баллов. 4. Количество абитуриентов, получивших больше 500 и меньше 550 баллов. 5. Количество абитуриентов, получивших меньше 750 баллов. Применение понятий Задачи 2.12-2.16 можно решить вручную или с помощью программы Microsoft Excel. 2.12. Данные, представленные ниже, описывают стоимость потребления электричества на протяжении июля 2003 года в 50 случайно выбранных двухквартирных домах в большом городе. ^UTILITY. XLS Затраты на оплату услуг электрокомпании (в долларах) 96 171 202 178 147 102 153 197 127 87 157 185 90 116 172 111 148 213 130 165 141 149 206 175 123 128 144 168 109 167 95 163 150 154 130 143 187 166 139 149 108 119 183 151 114 135 191 137 129 158 1. Постройте распределение частот: а) по 5 интервалам группирования;
б) по б интервалам группирования; в) по 7 интервалам группирования. Подсказка. Чтобы определить границы групп, сначала следует построить либо диаграмму “ствол и листья” либо упорядоченный массив. 2. Постройте распределение частот по 7 интервалам группирования с границами 99 долл., 119 долл, и т.д. 3. Постройте распределение процентных долей по распределению частот, построенному в п. 2. 4. Постройте процентную гистограмму. 5. Постройте процентный полигон. 6. Постройте распределение накопленных частот. 7. Постройте распределение интегральных процентов. 8. Нарисуйте кривую распределения (полигон интегральных процентов). 9. Вокруг какого значения концентрируется плата за услуги энергетических компаний? 10. Какой график лучше всего отражает характеристики распределения платы за услуги энергетических компаний? Обоснуйте свой ответ. 2.13. Приведенный ниже упорядоченный массив содержит данные о длительности эксплуатации (в часах) сорока 100-ваттных лампочек, произведенных компанией А, и сорока 100-ваттных лампочек, произведенных компанией Б. ftfBULBS.XLS Компания А Компания Б 684 697 720 773 821 819 836 888 897 903 831 835 848 852 852 907 912 918 942 943 859 860 868 870 876 952 959 962 986 992 893 899 905 909 911 994 1 004 1 005 1 007 1 015 922 924 926 926 938 1016 1 018 1 020 1 022 1 034 939 943 946 954 971 1 038 1 072 1 077 1 077 1 082 972 977 984 1 005 1 014 1096 1 100 1 113 1 113 1 116 1 016 1 041 1052 1 080 1093 1 153 1 154 1 174 1 188 1 230 1. Постройте распределение частот для каждого набора данных используя ширину интервалов группирования, равную 100 ч: а) компания А: от 650 до 750, от 750 до 850 и т.д.; б) компания Б: от 750 до 850, от 850 до 950 и т.д. 2. Установите ширину интервала группирования равной 50, чтобы границами интервала были значения 650, 700, 750 и т.д. Прокомментируйте новые результаты. 3. Постройте процентное распределение на основе распределения частот, полученного при решении задачи 1. 4. Постройте две разные процентные гистограммы.
5. Совместите два процентных полигона. 6. Постройте распределение накопленных частот. 7. Постройте распределение интегральных процентов. 8. Постройте кривые распределения. 9. Какие лампочки работают дольше — производства компании А или Б? Обоснуйте свой ответ. 2.14. Ниже представлена диаграмма “ствол и листья”, описывающая распределение объемов продажи бензина (в качестве листьев используются десятки). Выборка состоит из 25 автомобилей, обслуживающихся конкретной автозаправочной станцией в г. Нью-Джерси Торнпарк. 9 10 11 12 13 147 02238 135566777 223489 02 1. Постройте распределение частот и процентных долей. 2. Постройте распределение накопленных частот и интегральных процентов. 3. Постройте процентную гистограмму. 4. Постройте процентный полигон. 5. Постройте кривую распределения. 6. Вокруг какого значения концентрируется основной объем продаж? 2.15. Приведенные ниже данные характеризуют объем лимонада в 50 двухлитровых бутылках. Результаты измерений представлены в виде неупорядоченного массива. ^DRINK.XLS 2,109 2,086 2,066 2,075 2,065 2,057 2,052 2,044 2,036 2,038 2,031 2,029 2,025 2,029 2,023 2,020 2,015 2,014 2,013 2,014 2,012 2,012 2,012 2,010 2,005 2,003 1,999 1,996 1,997 1,992 1,994 1,986 1,984 1,981 1,973 1,975 1,971 1,969 1,966 1,967 1,963 1,957 1,951 1,951 1,947 1,941 1,941 1,938 1,908 1,894 1. Постройте диаграмму “ствол и листья”. 2. Постройте распределение накопленных частот и интегральных процентов. 3. Постройте процентную гистограмму. 4. Постройте процентный полигон. 5. Постройте кривую распределения. 6. Постройте полигон накопленных частот. 7. Вокруг какого значения концентрируется основной объем лимонада в двухлитровых бутылках? 8. Можно ли на основе этих данных предсказать объем жидкости в следующей бутылке? Почему? 2.16. Пресс разрезает куски стали на части, которые в дальнейшем используются в качестве каркаса переднего сиденья автомобиля. Для разрезания стали используется алмазная пила. Автомобильная компания постановила, что отклонение размеров
каркаса от эталона не должно превышать 0,005 дюйма. В файле ^STEEL.XLS приведены отклонения от эталона размеров 100 заготовок, измеренных с помощью лазерных приборов. Например, величина -0,002 означает, что заготовка короче эталона на 0,002 дюйма. 1. Постройте распределение накопленных частот и процентных долей. 2. Постройте процентную гистограмму. 3. Постройте процентный полигон. 4. Постройте кривую распределения. 5. Соответствует ли работа пресса стандартам, установленным автомобильной компанией? Обоснуйте свой ответ. 2.17. В файле ^ENERGY. XLS приведены данные о потреблении электроэнергии на душу населения (в кВт/ч) в каждом из 50 штатов, а также в округе Колумбия в прошлом году. 1. Постройте распределение накопленных частот и процентных долей. 2. Постройте процентную гистограмму. 3. Постройте процентный полигон. 4. Постройте распределение интегральных процентов. 5. Постройте полигон интегральных процентов. 6. Вокруг какого значения концентрируется удельное потребление электроэнергии? 7. Какой график лучше остальных характеризует распределение удельного потребления электроэнергии? Обоснуйте свой ответ. 2.3. ИЗОБРАЖЕНИЕ ДВУМЕРНЫХ ЧИСЛОВЫХ ДАННЫХ В разделе 2.2 мы рассмотрели гистограммы, полигоны, кривые распределений и полигоны накопленных частот, представляющие собой удобные графические инструменты для анализа числовых данных, например, среднегодовых показателей доходности фондов за пять лет. В этом разделе мы проиллюстрируем способ исследования двумерных числовых величин — диаграмму разброса (scatter diagram). (В программе Excel эта диаграмма называется точечной, а в научной литературе — корреляционной. — Прим, ред.) Такие диаграммы оказываются полезными в разных областях деловой активности. Например, специалисты по маркетингу с помощью таких диаграмм могут исследовать эффективность рекламной компании, сравнивая объемы недельных продаж и расходы на рекламу, а менеджеры по кадрам — изучать систему оплаты труда в компании, сравнивая трудовой стаж сотрудников и их текущую зарплату. Продемонстрируем диаграмму разброса, построенную для сравнения пятилетней среднегодовой доходности фондов и доходности в 2001 году. На оси У отложим среднегодовую доходность каждого взаимного фонда за пять лет, а на оси X — в 2001 году (рис. 2.5). Несмотря на большой разброс доходности фондов, между их показателями за пять лет и 2001 год существует возрастающая (положительная) зависимость. Иначе говоря, фонды, имевшие высокий уровень доходности в течение пяти лет, продолжали приносить высокую прибыль и в 2001 году. Возможны также варианты, когда одна из переменных, входящих в пару, убывает, в то время как другая возрастает. Такая зависимость называется убывающей (отрицательной). Диаграммы разброса будут рассмотрены в главе 3 при изучении коэффициента корреляции, а также в главах 12 и 13 при описании регрессионного анализа.
Рис. 2.5. Диаграмма разброса, построенная с помощью программы Microsoft Excel на основе пятилетней среднегодовой доходности фондов и доходности фондов в 2001 году Процедура Excel: создание диаграмм разброса Для создания диаграммы разброса применяется Мастер диаграмм. Например, чтобы построить диаграмму разброса, изображенную на рис. 2.5, необходимо открыть лист Данные в рабочей книге Mutual Funds.xls, выполнить команду Вставка^Диаграмма... и следовать приведенным ниже инструкциям. 1. На первом шаге диалога сделать следующее (см. иллюстрацию). 1.1. Щелкнуть на корешке вкладки Стандартные, а затем выбрать пункт Точечная в раскрывающемся списке Тип. 1.2. Выбрать первую (верхнюю) диаграмму, сопровождающуюся описанием: "Точечная диаграмма позволяет сравнить пары значений", а затем щелкнуть на кнопке Далее>. 2. На втором шаге диалога выполнить такие действия. 2.1. Щелкнуть на корешке вкладки Диапазон данных, а затем ввести в окне редактирования Диапазон ссылки на ячейки Данные !G1:G26O, II: 1260. (Указывая диапазон ячеек, убедитесь, не забудьте поставить запятую.) 2.2. Установить переключатель Ряды в положение В столбцах и щелкнуть на кнопке Далее>.
3. На третьем шаге диалога выполнить следующее. 3.1. Щелкнуть на корешке вкладки Заголовки. Ввести в окне редактирования Название диаграммы Строку Диаграмма разброса, В окне редактирования ОсьХ- строку Доходность в 2001 г., а в окне редактирования Ось Y-строку Пятилетняя доходность. 3.2. По очереди щелкнуть на корешках вкладок Оси, Линии сетки, Легенда и Подписи данных. Установить флажки и переключатели, как показано в разделе ЕР.6.2. 3.3. Щелкнуть на кнопке Далее>. 4. На четвертом шаге диалога установите переключатель Поместить диаграмму на листе в положение Отдельном и щелкните на кнопке Готово. Оси диаграммы разброса, построенной по описанному выше алгоритму, проходят прямо через точки данных, а не так, как показано на рис. 2.5. Для того чтобы переместить оси, обратитесь к инструкциям, приведенным в разделе ЕН.2.6. Обратите внимание на то, что Мастер диаграмм по умолчанию считает, что переменная X находится в первом столбце диапазона. Если данные на вашем листе расположены иначе, поменяйте столбцы местами. Chapter 2.XLS. Диаграмма разброса, приведенная на рис. 2.5, содержится на рабочем ж листе Рис2.5 в рабочей книге Chapter 2 . xls. УПРАЖНЕНИЯ К РАЗДЕЛУ 2,3 Изучение основ 2.18. Ниже приведена выборка, содержащая 11 пар. X 7 5 8 3 6 10 12 4 9 15 18 У 21 15 24 9 18 30 36 12 27 45 54 1. Постройте диаграмму разброса. 2. Существует ли зависимость между величинами X и У? Обоснуйте свой ответ. 2.19. Приведенные ниже данные представляют собой объемы ежегодных продаж (в миллионах долларов) за 11-летний период (1992-2002). Годы 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 Объем 13,0 17,0 19,0 20,0 20,5 20,5 20,5 20,0 19,0 17,0 13,0 1. Постройте диаграмму разброса, в которой на оси X отложены года. 2. Изменяются ли объемы продаж с течением времени? Объясните свой ответ. Применение понятий Рекомендуем решать задачи 2.20-2.26 с помощью программы Microsoft Excel. 2.20. В файле ^REFRIGERATOR.XLS содержатся приблизительные розничные цены (в долларах) и стоимость электроэнергии (в долларах), затрачиваемой морозильниками. Источник: справочник “Refrigerators” Copyright 2002 by Consumer Union of U.S., Inc. Цитируется no журналу Consumer Reports, August 2002, 26, с разрешения организации Consumer Union of U. S„ Inc., Yonkers, NY 10703-1057. 1. Постройте диаграмму разброса, у которой по оси X отложена стоимость энергии, а по оси У — розничная цена.
2. Существует ли зависимость между розничной ценой морозильника и стоимостью электроэнергии? Если существует, то какая: положительная или отрицательная? 3. Можно ли утверждать, что более дорогой морозильник эффективнее использует электроэнергию? Следует ли это из приведенных данных? 2.21. В файле ©SECURITY. XLS содержатся данные о производительности металлоискателей в аэропортах в 1998-1999 гг. и количестве нарушений правил безопасности на миллион пассажиров. Город Производительность Нарушения Сент-Луис 416 11,9 Атланта 375 7,3 Хьюстон 237 10,6 Бостон 207 22,9 Чикаго 200 6,5 Денвер 193 15,2 Даллас 156 18,2 Балтимор 155 21,7 Сиэтл/Такома 140 31,5 Сан-Франциско 110 20,7 Орландо 100 9,9 Вашингтон 90 14,8 Лос-Анжелес 88 25,1 Детройт 79 13,5 Сан-Хуан 70 10,3 Майами 64 13,1 Нью-Йорк — аэропорт им. Кеннеди 53 30,1 Вашингтон — аэропорт им. Рейгана 47 31,8 Гонолулу 37 14,9 Источник: Alan В. Krueger, “A Small Dose of Common Sense Would Help Congress Break the Gridlock over Airport Security”, The New York Times, November 15,2001, C 2. 1. Постройте диаграмму разброса, у которой по оси X отложена производительность металлоискателей, а по оси У — количество нарушений. 2. Существует ли зависимость между производительностью металлоискателей и количеством нарушений? 2.22. В файле ©CELLPHONE.XLS хранятся данные о длительности разговоров по мобильным телефонам (в часах) и емкость батареек (в мА/ч).
Длительность разговоров Емкость батареек Длительность разговоров Емкость батареек 4,50 800 1,50 450 4,00 1 500 2,25 900 3,00 1 300 2,25 900 2,00 1550 3,25 900 2,75 900 2,25 700 1,75 875 2,25 800 1,75 750 2,50 800 2,25 1 100 2,25 900 1,75 850 2,00 900 Источник: справочник “Service Shortcomings”, Copyright © 2002 by Consumers Union of U.S., Inc. Цитируется no журналу Consumer Reports February 2002, 25 с разрешения организации Consumer Union of U. S., Inc., Yonkers, NY 10703-1057. 1. Постройте диаграмму разброса, у которой по оси X отложена емкость батареек, а по оси Y — продолжительность разговоров по мобильному телефону. 2. Существует ли зависимость между емкостью батареек и продолжительностью телефонных разговоров по мобильному телефону? 3. Естественно предположить, что разговоры по мобильному телефону, имеющему большую емкость батареек, должны быть более продолжительными. Подтверждается ли это предположение реальными данными? 2.23. В файле €)BATTERIES2. XLS записаны цены и данные о силе пускового тока для холодного запуска двигателя, обеспечиваемого автомобильными аккумуляторами. Источник: справочник “Leading the Charge”, Copyright 2001 by Consumers Union of U. S., Inc. Цитируется no журналу Consumer Reports October 2001, 25 с разрешения организации Consumer Union of U. S., Inc., Yonkers, NY 10703-1057. 1. Постройте диаграмму разброса, у которой по оси X отложена сила пускового тока, а по оси Y — цены аккумуляторов. 2. Существует ли зависимость между силой пускового тока и ценой аккумулятора? 3. Естественно предположить, что аккумуляторы, обеспечивающие большую силу пускового тока, должны быть дороже. Подтверждается ли это предположение реальными данными? 2.24. Компания S&P 500 Index пытается отследить тенденции фондового рынка, наблюдая за стоимостью акций 500 крупных корпораций. Файл данных ftsTOCK02 . XLS содержит еженедельные данные о стоимости акций трех компаний на момент закрытия торгов на бирже на протяжении 2002 года. В файле хранятся значения следующих переменных. WEEK — даты последних дней недели. S&P— средняя стоимость акций компаний, входящих в список S&P Index, на момент закрытия торгов за неделю. SEARS — средняя стоимость акций компаний Sears, Roebuck и Company на момент закрытия торгов за неделю.
TARGET — средняя стоимость акций компании Target Corporation на момент закрытия торгов за неделю. SARA LEE — средняя стоимость акций компании Sara Lee Corporation на момент закрытия торгов за неделю. Источник данных: www. £inance. yahoo. сот/?и. 1. Постройте диаграмму разброса, у которой по оси Y отложены значения переменной S & Р, а по оси X — значения переменной WEEK. 2. Прокомментируйте диаграмму разброса. 3. Постройте диаграмму разброса, у которой по оси Y отложены значения переменной SEARS, а по оси X — значения переменной WEEK. 4. Прокомментируйте диаграмму разброса, построенную при решении задачи 3. Сравните выводы с результатами, полученными при выполнении задания 2. 5. Постройте диаграмму разброса, у которой по оси У отложены значения переменной TARGET, а по оси X — значения переменной WEEK. 6. Прокомментируйте диаграмму разброса, построенную при решении задачи 5. Сравните выводы с результатами, полученными при выполнении задания 2. 7. Постройте диаграмму разброса, у которой по оси У отложены значения переменной SARA LEE, а по оси X — значения переменной WEEK. 8. Прокомментируйте диаграмму разброса, построенную при решении задачи 7. Сравните выводы с результатами, полученными при выполнении задания 2. 9. Кратко изложите ваши выводы. 2.25. Бюро статистики труда (U. S. Bureau of Labor Statistics) собирает данные о рабочей силе. В приведенной ниже таблице содержатся данные об уровне сезонной безработицы в США за период с 1997 по 2002 годы. ^lUERATE.XLS Уровень сезонной безработицы (%) Месяц 1997 1998 1999 2000 2001 2002 Январь 5,3 4,7 4,3 4,0 4,2 5,6 Февраль 5,3 4,6 4,4 4,1 4,2 5,6 Март 5,2 4,7 4,2 4,0 4,3 5,7 Апрель 5,0 4,3 4,3 4,0 4,5 5,9 Май 4,9 4,4 4,2 4,1 4,4 5,8 Июнь 5,0 4,5 4,3 4,0 4,5 5,8 Июль 4,8 4,5 4,3 4,0 4,5 5,8 Август 4,8 4,5 4,2 4,1 4,9 5,8 Сентябрь 4,9 4,5 4,2 3,9 4,9 5,7 Октябрь 4,7 4,5 4,1 3,9 5,4 5,8 Ноябрь 4,6 4,4 4,1 4,0 5,6 5,9 Декабрь 4,7 4,4 4,1 4,0 5,8 6,0 Источник:www.fedstats.gov.
1. Постройте диаграмму разброса, у которой по оси Y отложены уровни сезонной безработицы в США, а по оси X — месяцы в последовательном порядке. 2. Прокомментируйте диаграмму разброса. 2.26. Приведенные ниже данные характеризуют объем лимонада в 50 двухлитровых бутылках. Результаты измерений представлены в виде неупорядоченного массива. ftDRINK.XLS 2,109 2,086 2,066 2,075 2,065 2,057 2,052 2,044 2,036 2,038 2,031 2,029 2,025 2,029 2,023 2,020 2,015 2,014 2,013 2,014 2,012 2,012 2,012 2,010 2,005 2,003 1,999 1,996 1,997 1,992 1,994 1,986 1,984 1,981 1,973 1,975 1,971 1,969 1,966 1,967 1,963 1,957 1,951 1,951 1,947 1,941 1,941 1,938 1,908 1,894 1. Постройте диаграмму разброса, у которой по оси X отложены последовательные номера бутылок (от 1 до 50), а на оси Y — объем содержащегося в них лимонада. 2. Существует ли зависимость между этими величинами? 3. Какой ответ вы бы дали, если бы вас попросили предсказать объем жидкости в следующей бутылке? 4. Сравните свой ответ на вопрос 3 с ответом к задаче 2.15.8. Какой из этих прогнозов ближе к действительности? Почему? 2.4. ПРЕДСТАВЛЕНИЕ КАТЕГОРИЙНЫХ ДАННЫХ В ВИДЕ ТАБЛИЦ И ДИАГРАММ До сих пор таблицы и диаграммы применялись для представления числовых данных. Однако часто данные носят не числовой, а категориальный характер. В этом и следующем разделах изучаются способы организации и представления категорийных данных в виде таблиц и диаграмм. Вернемся к анализу доходности взаимных фондов. Кроме среднегодовой доходности фондов, рабочий лист Данные содержит информацию о риске, связанном с инвестированием в эти фонды. Взаимные фонды могут иметь очень низкий, низкий, средний, высокий и очень высокий риск. При работе с категорийными переменными данные сначала заносятся в сводную таблицу, а затем графически представляются в виде гистограмм, круговых диаграмм или диаграмм Парето (Pareto). Сводная таблица По внешнему виду сводная таблица (summary table) для категорийных данных напоминает распределение частот для числовых данных. Чтобы проиллюстрировать процесс ее построения, рассмотрим данные о классификации взаимных фондов по уровню риска. Оказывается, из 259 изученных фондов 6 имеют очень низкий риск, 76 — низкий, 82 — средний риск, 80 — высокий и 15 — очень высокий. Эта информация представлена в табл. 2.7.
Таблица 2.7. Суммарная таблица, содержащая частоты и процентные доли 259 взаимных фондов Уровень риска Количество фондов Процентная доля фондов Очень низкий 6 2,32 Низкий 76 29,34 Средний 82 31,66 Высокий 80 30,89 Очень высокий 15 5,79 Всего: 259 100,00 Линейчатая диаграмма Информацию, содержащуюся в табл. 2.7, можно представить в виде линейчатой диаграммы (рис. 2.6), в которой каждая категория элементов изображается в виде столбца. Высота столбца равна частоте или процентной доле элементов выборки, относящихся к данной категории. На рис. 2.6 показано, что линейчатая диаграмма (bar chart) позволяет непосредственно сравнивать количество фондов, имеющих разный уровень риска. Как видим, 82 фонда имеют средний уровень риска, а 80 фондов — высокий. Рис. 2.6. Линейчатая диаграмма, отображающая уровень риска фондов (построена с помощью программы Microsoft Excel) Круговая диаграмма Существует еще один весьма популярный способ отображения информации, содержащейся в сводной таблице, — круговая диаграмма (pie chart). На рис. 2.7 показана круговая диаграмма, отображающая распределение риска инвестиций на основе данных, представленных в табл. 2.7.
Рис. 2.7. Круговая диаграмма, отображающая уровень риска фондов (построена с помощью программы Microsoft Excel) При построении круговых диаграмм используется тот факт, что угол окружности равен 360°. Круг разделяется на секторы, углы которых соответствуют процентным долям каждой категории. Например, на рис. 2.7 показан сектор, соответствующий доле взаимных фондов с низким риском, которая равна 29,34%. При построении круговой диаграммы величина 360° умножается на 0,2934. В результате образуется сектор, угол которого равен 105,6°. Как видим, круговая диаграмма позволяет отразить долю каждой категории в общем “пироге”. Обратите внимание на то, что фонды со средним уровнем риска составляют более 30% от общего количества фондов. Цель графического представления данных — точность и ясность. Например, рис. 2.6 и 2.7 отображают одинаковую информацию. Какой из двух видов диаграмм предпочесть — дело вкуса [1-3, 6, 7]. В частности, некоторые исследования [3] показывают, что люди труднее воспринимают круговые диаграммы. Оказывается, человеку намного проще интерпретировать разницу между высотами столбцов в линейчатых диаграммах, чем углы секторов в круговых диаграммах. Обратите внимание на то, что по рис. 2.7 нелегко определить, какая из категорий фондов больше — с низким, средним или высоким уровнем риска. В то же время по линейчатой диаграмме легко определить, что доля фондов со средним уровнем риска больше, чем доли фондов с высоким и низким уровнями риска. С другой стороны, круговые диаграммы четко демонстрируют, что сумма долей всех категорий равна 100,0%. Таким образом, выбор диаграммы является субъективным и часто зависит от предпочтений пользователя. Если необходимо сравнивать доли двух категорий, лучше применять линейчатые диаграммы. Если важно продемонстрировать величину доли отдельной категории в общем “пироге”, лучше использовать круговые диаграммы. Диаграмма Парето Существует более информативный способ графического изображения категорийных данных — диаграмма Парето. Она особенно полезна, если количество категорий слишком велико. Диаграмма Парето (Pareto disgram) — это особая разновидность вертикальной линейчатой диаграммы, в которой категории приводятся в порядке убывания их частот одновременно с полигоном накопленных частот. Это позволяет выделить наи
более важные категории из большого количества малозначимых групп. Диаграмма Парето получила широкое распространение при анализе производственных процессов и контроле качества (глава 17). Обратимся к рис. 2.6, на котором изображены процентные доли фондов с разными уровнями риска. Диаграмма Парето упорядочивает эти доли в порядке убывания. На рис. 2.8 показана диаграмма Парето, построенная с помощью программы Microsoft Excel. Анализируя высоту столбцов, легко видеть, что доля фондов со средним уровнем риска составляет 32%. Полигон накопленных частот показывает, что 62,55% фондов имеют средний или высокий уровень риска. Рис. 2.8. Диаграмма Парето, отображающая специфику фондов (построена с помощью программы Microsoft Excel) Вдоль левой вертикальной оси диаграммы Парето откладываются частоты или процентные доли, а вдоль правой — накопленные частоты (снизу вверх). По горизонтальной оси указываются категории. Столбцы располагаются на одинаковом расстоянии друг от друга и имеют одинаковую ширину. Точки полигона накопленных частот для каждой категории находятся в центре соответствующего столбца. При изучении диаграмм Парето внимание фокусируется на двух моментах: разности между высотами смежных столбцов и накопленных частотах смежных категорий. Диаграмма Парето представляет собой весьма полезный инструмент для представления категорийных данных, особенно если количество категорий велико. Продемонстрируем ее преимущества с помощью следующего примера из области управления производством. ПРИМЕР 2.3. ПРИМЕНЕНИЕ ДИАГРАММЫ ПАРЕТО ДЛЯ УЛУЧШЕНИЯ ПРОЦЕССА ПРОИЗВОДСТВА Данные, приведенные ниже, получены в литейной компании, занимающейся производством пластмассовых деталей для компьютерных клавиатур, стиральных машин, автомобилей и телевизоров. В табл. 2.8 указаны частоты дефектов компьютерных клавиатур, обнаруженных в течение трех месяцев.
Таблица 2.8. Суммарная таблица, содержащая частоты дефектов компьютерных клавиатур, обнаруженных в течение трех месяцев Дефект Количество Процентная доля Черное пятно 413 6,53 Повреждение 1 039 16,43 Впрыскивание 258 4,08 Отпечаток опоры 834 13,19 Царапины 442 6,99 Брызги 275 4,35 Серебряная полоска 413 6,13 Отпечаток формы 371 5,87 След пульверизатора 292 4,62 Деформация 1 987 31,42 Всего: 6 324 100,00* * Вследствие округлений результат отличается от 100,0. Источник: Acharya, U. Н., and С. Mahech “Winning Back the Customers Confidence: A Case Study on the Application of Design of Experiments to an Injection-Molding Process”, Quality Engineering, 11,1999, pp. 357-363. Для построения диаграммы Парето сводная таблица (табл. 2.9) организуется не в алфавитном порядке, а в порядке убывания частоты дефекта. Кроме того, в нее включены накопленные процентные доли. Таблица 2.9. Упорядоченная суммарная таблица, содержащая данные о дефектах компьютерных клавиатур, обнаруженных в течение трех месяцев Дефект Количество Процентная доля Накопленная процентная доля Деформация 1 987 31,42 31,42 Повреждение 1 039 16,43 47,85 Отпечаток опоры 834 13,19 61,04 Царапины 442 6,99 68,03 Черное пятно 413 6,53 74,56 Серебряная полоска 413 6,13 81,09 Отпечаток формы 371 5,87 86,96 След пульверизатора 292 4,62 91,58 Брызги 275 4,35 95,93 Впрыскивание 258 4,08 100,00 Всего: 6 324 100,00* 'Вследствие округлений результат отличается от 100,0.
Как следует из табл. 2.9, основной причиной дефектов является деформация (31,42% всех обнаруженных дефектов), за ней следуют повреждения (16,43%) и отпечаток опоры (13,19%). Две наиболее распространенные разновидности дефектов (деформация и повреждение) составляют 47,85% всех дефектов, три категории — деформация, повреждение и отпечаток опоры — являются причиной 61,04% случаев брака и т.д. Результаты, приведенные в табл. 2.9, изображены на рис. 2.9 в виде диаграммы Парето. Рис. 2.9. Диаграмма Парето, отображающая данные о дефектах клавиатуры (построена с помощью программы Microsoft Excel) Для большей наглядности диаграмма Парето содержит не только столбцы, но и график полигона накопленных частот. Анализируя кривую полигона, проходящую через срединные точки интервалов, легко обнаружить, что первые три категории дефектов являются причинами 61,04% всего брака. Поскольку все категории в диаграмме Парето приводятся в порядке убывания их частот, исследователь сразу выявляет основные причины брака и их вклад в общее количество дефектов. Если количество категорий велико, иногда приходится объединять некоторые из них в новые категории под названием Другая или Смешанная. В этих ситуациях столбец, соответствующий этой категории, размещается справа от остальных. Процедуры Excel: создание таблиц и диаграмм по категорийным данным Сводную таблицу для категорийных данных можно создать с помощью Мастера сводных таблиц и диаграмм (см. раздел ЕР.7). На основе этой таблицы, используя Мастер диаграмм, можно создать линейчатую и круговую диаграммы, а также диаграмму Парето. Надстройка PHStat2 позволяет выполнить эти процедуры за один шаг. Например, чтобы построить сводную таблицу, аналогичную табл. 2.7, линейчатую и круговую диаграммы, а также диаграмму Парето, изображенные на рис. 2.6-2.8, следует открыть лист Данные рабочей книги Mutual Funds. xls и применить одну из двух процедур.
Применение Excel в сочетании с надстройкой PHStat2 Для того чтобы создать сводную таблицу и диаграммы на отдельных листах, необходимо выполнить такие действия. 1. Выполнить команду PHStat^Descriptive Statistics^One-Way Tables & Charts... (PHStat^OnncaTenbHaa статистикам Сводные таблицы & Диаграммы...). 2. В диалоговом окне One-Way Tables & Charts сделать следующее. 2.1. Установить переключатель Type of Data (Тип данных) в положение Raw Categorical Data (Исходные категорийные данные). 2.2. Ввести в окне редактирования Raw Data Cell Range (Входной интервал) диапазон К1 :К2 6О. 2.3. Ввести в окне редактирования Title (Заголовок) название диаграммы. 2.4. Установить флажок First cell contains label (Первая ячейка содержит метку). 2.5. Установить флажки Ваг Chart (Линейчатая диаграмма), Pie Chart (Круговая диаграмма) и Pareto Diagram (Диаграмма Парето). 2.6. Щелкнуть на кнопке ОК. Процедура One-Way Tables & Charts позволяет также создавать диаграммы по частотным таблицам, таким как табл. 2.9. Для этого сначала необходимо перенести таблицу (вместе с заголовками столбцов) на новый лист. Затем следует установить переключатель Type of Data в положение Table of Frequencies (Таблица частот) и ввести диапазон ячеек таблицы в окне редактирования Freq. Table Cell Range (Установка переключателя Type of Data в положение Table of Frequencies приводит к замене метки "Raw Data Cell Range" на метку "Freq. Table Cell Range".) Применение Excel Построение сводной таблицы. Сводную таблицу можно построить с помощью Мастера сводных таблиц и диаграмм, руководствуясь инструкциями, приведенными в разделе ЕН2.7. Построение диаграмм. Линейчатую и круговую диаграмму, а также диаграмму Парето можно построить с помощью Мастера диаграмм, следуя инструкциям из раздела ЕН2.8 и ЕН2.9. 4U chapter 2.XLS. Сводная таблица и диаграммы, приведенные выше, содержатся на рабочих ж листах Табл2.7, Рис2.6, Рис2.7 и Рис2.8 в рабочей книге Chapter 2.xls. УПРАЖНЕНИЯ К РАЗДЕЛУ 2.4 Изучение основ 2.27. Некая категорийная переменная распределена на три группы частот. Категория Частота А 13 В 28 С 9 1. Вычислите процентную долю каждой категории. 2. Постройте линейчатую диаграмму.
3. Постройте круговую диаграмму. 4. Постройте диаграмму Парето. 2.28. Некая категорийная переменная распределена на четыре группы частот. Категория Процентная доля Категория Процентная доля А 12 С 35 В 29 D 24 1. Постройте линейчатую диаграмму. 2. Постройте круговую диаграмму. 3. Постройте диаграмму Парето. Применение понятий 2.29. Системный аналитик зарегистрировал основные причины краха компьютерной сети в течение шести месяцев. Причины краха Частота Нарушение физического контакта 1 Сбой источников питания 3 Сбой программного обеспечения сервера 29 Сбой аппаратного обеспечения сервера 2 Переполнение памяти сервера 32 Недостаточная ширина полосы пропускания 1 1. Постройте диаграмму Парето. 2. Определите основные и второстепенные причины краха компьютерной сети. 2.30. Объем электронных переводов с кредитных карточек, выполненных американцами в 2000 г., превысил 50 млрд. долл. (Byron Acohido, “Microsoft, Banks Battle to Control Your e-info”, USA Today, August 13, 2001, 1B-2B). Эти транзакции распределились следующим образом. Кредитная карта Объем (млрд, долл.) Процентная доля American Express 8,04 15,6 Discover 1,97 3,8 Master Card 15,57 30,2 Visa 25,96 50,4 1. Постройте линейчатую диаграмму. 2. Постройте круговую диаграмму. 3. Постройте диаграмму Парето. 4. Какая из диаграмм предпочтительнее? Почему?
2.31. Компания RHI Management Resources провела опрос 1 400 руководящих финансистов. На вопрос: “Какое влияние оказывает ссудный процент на решение о приобретении чего-либо?” 672 респондента ответили: “Никакого”, 700 — “Значительное”, а 28 руководителей затруднились с ответом. (“USA Today Snapshots”, USA Today, August 27, 2001, Al.) 1. Постройте таблицу частот и сводную таблицу. 2. Постройте линейчатую диаграмму. 3. Постройте круговую диаграмму. 4. Какая из диаграмм предпочтительнее? Почему? 2.32. Ниже приведены результаты опроса, проведенного сайтом Monster.com 21-24 мая 2001 г. Пользователей Интернет попросили ответить на вопрос: “Готовы ли вы поменять место жительства, получив более выгодную работу?”. Каждый респондент должен был выбрать только один из вариантов ответа. Ответ Частота Да, если работа стоит этого 8 183 Да, но только если я мечтал об этой работе 2 772 Нет, мне и так хорошо 792 Нет, ни в коем случае 1 452 Источник: цитируется по журналу USA Today, June 26, 2001, Al. 1. Постройте сводную таблицу. 2. Постройте линейчатую диаграмму. 3. Постройте круговую диаграмму. 4. Какая из диаграмм предпочтительнее? Почему? 2.33. В статье, опубликованной в журнале USA Today (Peter McMahon, “Green Power Gets Second Wind”, USA Today, August 16, 2001, ЗА), обсуждается возрождение в США интереса к энергии ветра. В следующей таблице приведено распределение источников энергии в США. Источник Процентная доля Уголь 51,8 Гидроэлектроэнергия 7,3 Природный газ 15,7 Атомная энергия 19,8 Нефть 2,9 Ветер 0,1 Другие источники 2,4 Источник: Министерство энергетики США. 1. Постройте диаграмму Парето. 2. Какой процент электроэнергии производится за счет угля, атомной энергии и природного газа?
3. Постройте круговую диаграмму. 4. Какая из диаграмм предпочтительнее? Почему? 2.34. В ходе опроса 150 менеджеров попросили указать основные ошибки, которые допускают соискатели работы в ходе собеседования. Ответы респондентов приведены ниже (USA Today Snapshots, November 19, 2001). Причина Процентная доля Отсутствие знаний о компании 44 Слабое представление о дальнейшей карьере 23 Слабый энтузиазм 16 Бегающий взгляд 5 Недостаточный опыт работы 3 Другие причины 9 1. Постройте линейчатую диаграмму. 2. Постройте круговую диаграмму. 3. Постройте диаграмму Парето. 4. Какая из диаграмм предпочтительнее? Почему? 5. Если бы вы были соискателем работы, какой ошибки вам следует опасаться больше остальных? 2.35. В следующей таблице приведена информация о среднем объеме потребления воды на семью в пригородном районе на протяжении последнего лета. Цель потребления воды Количество галлонов в день Ванна и душ 99 Мытье посуды 13 Питье и приготовление пищи 11 Стирка 33 Орошение газонов 150 Туалет 88 Другие цели 20 Всего: 414 1. Постройте диаграмму Парето. 2. Если бы водопроводная компания разрабатывала план сокращения потребления воды, какие причины следовало бы изучить более внимательно? 2.36. В крупной городской больнице был проведен опрос 210 пациентов. Их попросили оценить качество лечения и ухода за больными на протяжении июня. Ниже приводится список, в котором подытожены 384 жалобы.
Жалоба Количество Раздражают другие пациенты и посетители 13 Медперсонал несвоевременно реагирует на вызовы 71 Неадекватные ответы на вопросы 38 Задержка анализов 34 Шум 28 Плохое качество пищи 117 Невежливость персонала 62 Другие жалобы 21 Всего: 384 1. Постройте диаграмму Парето. 2. Если бы руководство больницы захотело сократить количество жалоб, на что следовало бы обратить внимание прежде всего? 2.5. ПРЕДСТАВЛЕНИЕ ДВУМЕРНЫХ КАТЕГОРИЙНЫХ ДАННЫХ В ВИДЕ ТАБЛИЦ И ГРАФИКОВ Довольно часто необходимо анализировать пары категорийных переменных. В данном разделе описываются таблица сопряженности признаков и параллельные линейчатые диаграммы. Таблица сопряженности признаков Чтобы можно было одновременно анализировать две категорийные переменные, образующие пару, используются таблицы перекрестной классификации с двумя входами (cross-classification table), или таблицы сопряжености признаков. (Их также называют факторными таблицами. — Прим, ред.) Например, может возникнуть вопрос: существует ли зависимость между уровнем риска и платой, взимаемой фондами за осуществление продаж своих акций? Информация о 259 фондах, необходимая для ответа на этот вопрос, приведена в табл. 2.10. Таблица 2.10. Таблица сопряженности признаков, содержащая данные об уровне риска и плате, взимаемой фондами за осуществление продаж своих акций Уровень риска (%) Плата Очень высокий Высокий Средний Низкий Очень низкий Всего Да 4 35 23 31 2 95 Нет 11 45 59 45 4 164 Всего 15 80 82 76 6 259 Таблица сопряженности признаков содержит данные о 259 фондах, распределенные по 10 ячейкам. Например, первый из перечисленных фондов (компания Amro Montag & Colwell Growth I) классифицирован как фонд со средним уровнем риска, не взи-
мающий плату за продажу своих акций (взаимный фонд, акции которого продаются без брокерской комиссии). Эта пара значений соответствует ячейке, образованной пересечением второй строки и третьего столбца таблицы. Остальные 258 фондов исследуются аналогично. Чтобы выявить любую возможную зависимость между специализацией фонда и прейскурантом его комиссионных сборов, эти результаты сначала преобразуют в процентные доли, используя три следующие совокупные величины (табл. 2.11-2.13). 1. Общая сумма (259 взаимных фондов). 2. Сумма по строкам (фонды, взимающие плату за продажу своих акций, и фонды без брокерской комиссии). 3. Сумма по столбцам (пять уровней риска). Таблица 2.11. Таблица сопряженности признаков, содержащая процентные доли, подсчитанные на основе общей суммы Уровень риска (процент от общей суммы) Плата Очень высокий Высокий Средний Низкий Очень низкий Всего Да 1,54 13,51 8,88 11,97 0,77 36,68* Нет 4,25 17,37 22,78 17,37 1,54 63,32 Всего 5,79 30,89* 31,66 29,34 2,32* 100,00 "Учитывается влияние округления. Таблица 2.12. Таблица сопряженности признаков, содержащая процентные доли, подсчитанные на основе суммы по строкам Уровень риска (процент от суммы по строкам) Плата Очень высокий Высокий Средний Низкий Очень низкий Всего Да 4,21 36,84 24,21 32,63 2,11 100,00 Нет 6,71 27,44 35,98 27,44 2,44 100,00* Всего 5,79 30,89 31,66 29,34 2,32 100,00 "Вследствие округлений результат отличается от 100,0. Таблица 2.13. Таблица сопряженности признаков, содержащая процентные доли, подсчитанные на основе суммы по столбцам Уровень риска (процент от суммы по столбцам) Плата Очень высокий Высокий Средний Низкий Очень низкий Всего Да 26,67 43,75 28,05 40,79 33,33 36,68 Нет 73,33 56,25 71,95 59,21 66,67 63,32 Всего 100,00 100,00 100,00 100,00 100,00 100,00
Из табл. 2.11 следует, что 30,89% взаимных фондов имеют высокий уровень риска, 63,32% не взимают брокерскую комиссию, причем 17,37% фондов с высоким уровнем риска также не взимают плату за продажу своих акций. В табл. 2.12 показано, что 36,84% взаимных фондов, взимающих брокерскую комиссию, имеют высокий риск, а 2,11% — очень низкий. Из табл. 2.13 следует, что 43,75% фондов имеют высокий уровень риска и лишь 28,05% фондов со средним уровнем риска взимают брокерскую комиссию. Эти таблицы позволяют сделать важный вывод: фонды с высоким и низким уровнями риска, как правило, взимают плату за продажу своих акций, а фонды со средним и очень высоким уровнями риска — нет. Параллельная линейчатая диаграмма Для визуализации двумерных категорийных данных часто строят параллельную линейчатую диаграмму (side-by-side bar chart). На рис. 2.10 показана диаграмма, построенная на основе данных, содержащихся в табл. 2.10, с помощью программы Microsoft Excel. Она позволяет сравнивать пять категорий взаимных фондов, классифицируя их по уровню риска. Выводы, к которым приводит анализ рис. 2.10, полностью совпадают с выводами, сделанными на основе табл. 2.11-2.13: фонды с высоким и низким уровнями риска, как правило, взимают плату за продажу своих акций, а фонды со средним и очень высоким уровнями риска — нет. Рис. 2.10. Параллельная линейчатая диаграмма, отображающая данные о специализации фонда и взимании брокерской комиссии (построена с помощью программы Microsoft Excel)
Процедуры Excel: создание таблицы сопряженности признаков и диаграмм по категорийным данным Чтобы создать таблицу сопряженности признаков для двумерных категорийных данных, можно воспользоваться Мастером сводных таблиц и диаграмм и Мастером диаграмм. Надстройка PHStat2 позволяет выполнить эту процедуру за один шаг. (Если таблица сопряженности признаков уже построена, следуйте инструкциям по созданию параллельных диаграмм с помощью программы Microsoft Excel.) Для того чтобы создать таблицу сопряженности признаков, аналогичную табл. 2.10, необходимо открыть лист Данные в рабочей книге Mutual Funds.xls и выполнить такие действия. Применение Excel в сочетании с надстройкой PHStat2 1. Выполнить команду PHStatd>Descriptive Statisticsd>Two-Way Tables & Charts... (PHStat4>Описательная статистика^ Двухфакторные таблицы & Диаграммы...). 2. В диалоговом окне Two-Way Tables & Charts (см. иллюстрацию) сделать следующее. 2.1. Ввести в окне редактирования Row Variable Cell Range (Входной интервал) диапазон К1 :К2 6О. 2.2. Ввести в окне редактирования Column Variable Cell Range (Интервал переменной в столбце) диапазон Е1 :Е260. 2.3. Установить флажок First cell contains label (Первая ячейка содержит метку). 2.4. Ввести в диалоговом окне Title заголовок таблицы. Two Way Tables & Charts fx] Data ................................ Row Variable Cell Range: [Й1:K260 - j Column Variable Cell Range: ?E 1:E260 _ 1 P First cell in each range contains label Output Options Title: {риск и комиссия P Side-by-Side Bar Chart Help | OK | 2.5. Сбросить флажок Side-by-Side Bar Chart (Параллельная линейчатая диаграмма). 2.6. Щелкнуть на кнопке ОК. Для разбиения данных на категории при построении параллельных линейчатых диаграмм надстройка PHStat2 (как и Мастер сводных таблиц и диаграмм) использует переменную, значения которой записаны в строке. Например, для создания диаграммы, изображенной на рис. 2.10, диапазон К1 :К2 6О должен быть записан в строке, однако построенная по таким данным таблица сопряженности признаков окажется транспонированной. Для того чтобы привести таблицу к исходному виду, диапазоны данных следует поменять местами. Применение Excel Создание таблицы сопряженности признаков. Для создания таблицы сопряженности признаков примените Мастер сводных таблиц и диаграмм, следуя инструкциям, приведенным в разделе ЕН2.10. Если таблица сопряженности признаков уже построена, следует применить Мастер диаграмм. Щелкните на таблице правой кнопкой мыши и выберите в контекстном меню команду Сводная диаграмма. Щелкните правой кнопкой мыши на фоне вновь сгенерированной диаграммы и выберите в контекстном меню команду Тип диаграммы. Находясь в диалоговом окне Тип диаграммы, выполните действия, перечисленные ниже (п.1) и щелкните на кнопке ОК. В заключение щелкните правой кнопкой мыши на раскрывающемся списке Комиссионный сбор (или Риск) и выберите в контекстном меню команду Скрыть кнопки полей сводной диаграммы, чтобы не загромождать рисунок. Если таблица сопряженности признаков отличается от сводной, или вы пользуетесь программой Microsoft Excel 97, предыдущие инструкции бесполезны. Откройте вашу таблицу сопряженности признаков и вызовите Мастер диаграмм. Например, для того чтобы создать параллельную линейчатую диаграмму, аналогичную рис. 2.10, откройте рабочий лист Сводная_таблица, созданный на предыдущем этапе (или рабочий лист Таблица 2.10 в рабочей книге Chapter 2 .xls), выполните команду Вставка ^Диаграмма... и заполните поля в диалоговых окнах Мастера диаграмм.
На первом этапе следует выполнить такие действия. 1.1. Щелкнуть на корешке вкладки Стандартные и выбрать пункт Линейчатая в раскрывающемся списке Тип. 1.2. Выбрать первый тип диаграммы на панели Вид, сопровождающейся пояснением: "Линейчатая диаграмма отображает значения различных категорий". Щелкнуть на кнопке Далее>. На втором этапе следует выполнить такие действия. 2.1. Щелкнуть на корешке вкладки Диапазон данных. Ввести в окне редактирования Диапазон ссылки A4:D9. 2.2. Установить переключатель Ряды в положение В строках и щелкнуть на кнопке Далее>. На третьем этапе следует выполнить следующее. 3.1. Щелкнуть на корешке вкладки Заголовки. Ввести в окне редактирования Название диаграммы заголовок Параллельная линейчатая диаграмма, в окне редактирования Ось X (категорий) — строку Уровень риска, а в окне редактирования Ось Y (значений) — строку Брокерская комиссия, %. 3.2. Щелкнуть по очереди на корешках вкладок Оси, Линии сетки и Таблица данных и установить флажки и переключатели в соответствии с указаниями, приведенными в разделе ЕР.б. 3.3. Установить флажок Добавить легенду и щелкнуть на кнопке Далее>. На четвертом этапе следует установить переключатель Поместить диаграмму на отдельном листе, указать информативное название листа, не совпадающее с другими, и щелкнуть на кнопке Готово. Chapter 2 .XLS. Таблица сопряженности признаков и параллельная линейчатая диаграмма, приведенные выше, содержатся на рабочих листах Таблица 2.10 и Рис. 2.10 в рабочей книге Chapter 2.xls. УПРАЖНЕНИЯ К РАЗДЕЛУ 2.5 Изучение основ 2.37. Ниже приведены данные, состоящие из альтернативных ответов на два вопроса, полученных в ходе опроса 40 студентов, изучающих бизнес в колледже: “Укажите ваш пол” (мужской — М, женский — Ж) и “Укажите вашу специализацию” (бухгалтерский учет — Б, компьютерные информационные системы — К, торговля — Т). Пол М м м /iv М /IV Ж м /IV М Специальность Б к к т Б к Б Б к К Пол птл /1V м м м М /iv лтл /IV М ж ПТЛ /IV Специальность Б Б Б т К т Б Б Б к Пол М м м м «\тл /IV м ПТЛ /IV лтл /IV м м Специальность К к Б Б т т к Б Б Б Пол ж м М м м /tv м ПТЛ /IV М м Специальность к к Б Б Б Б к к Б к
1. Составьте таблицу сопряженности признаков, в которой две строки представляют категорию пола, а три столбца — академические специализации. 2. Составьте таблицу сопряженности признаков, используя процентные доли категорий по отношению к общему количеству студентов (40). 3. Составьте таблицу сопряженности признаков, используя процентные доли категорий по отношению к сумме по строкам. 4. Составьте таблицу сопряженности признаков, используя процентные доли категорий по отношению к сумме по столбцам. 5. Используя решение задачи 1, постройте параллельную линейчатую диаграмму пола, основываясь на данных о специализации студентов. 2.38. Основываясь на двухфакторной таблице, приведенной ниже, постройте параллельную линейчатую диаграмму, позволяющую сравнить значения А и Б для каждой из трех категорий, отложенных по вертикальной оси. 1 2 3 Всего А 20 40 40 100 Б 80 80 40 200 Применение понятий 2.39. Результаты контроля продукции производственной компании позволили выявить дефекты в партии, состоящей из 450 плат. В приведенной ниже таблице содержатся ответы на два вопроса: “Найдены ли частицы на матрице?” и “Качественная плата или нет?”. Состояние матрицы Качество платы Нет частиц Есть частицы Всего Хорошее 320 14 334 Плохое 80 36 116 Всего 400 50 450 Источник: Hall, S. W. “Analysis of Detectivity of Semiconductor Wafers by Contingency Table”, Proceedings Institute of Environmental Sciences, 1 (1994 ):177-183. 1. Постройте общую таблицу процентных долей. 2. Постройте таблицу процентных долей по строкам. 3. Постройте таблицу процентных долей по столбцам. 4. Постройте параллельную линейчатую диаграмму качества плат на основе данных о качестве матрицы. 5. К каким выводам приводит этот анализ? 2.40. Объем розничных продаж в США в апреле 2002 года оказался немного больше, чем в апреле 2001 года. Компании, практикующие оптовые скидки, такие как Wal-Mart, Costco, Target и Dollar General, увеличили объемы продаж на 9% и более. Однако в швейной промышленности сложилась более пестрая картина (Ann Zimmerman, “Retail Sales Grow Modestly”, Wall Street Journal, May 10, 2002, B4). В следующей таблице приведены объемы продаж (в млн. долл.) ведущих швейных компаний за период с апреля 2001 г. по апрель 2002 г.
Общий объем продаж, млн. долл. Швейная компания Апрель 2001 Апрель 2002 Gap 1 159,0 962,0 TJX 781,7 899,0 Limited 596,5 620,4 Kohl’s 544,9 678,9 Nordstrom 402,6 418,3 Talbots 139,9 130.1 AnnTaylor 114,2 124,8 Источник: цитируется по журналу Wall Street Journal. 1. Постройте общую таблицу процентных долей. 2. Постройте параллельную линейчатую диаграмму. 3. Как изменились объемы продаж в швейной промышленности за период с апреля 2001 г. по апрель 2002 г.? 2.41. Международная сеть гостиниц, включающая в себя компании Mariott International и Holiday Inn Resorts, бурно развивается в юго-восточной Азии и на островах Тихого океана. Увеличение количества гостиниц в этом регионе продолжалось и в 2002 году, несмотря на падение уровня заполняемости и доходности в расчете на номер (Zach Coleman, “Hotel Groups Bolster Presence in Asia”, Wall Street Journal, May 8, 2002, D10). В приведенной ниже таблице указаны уровень заполняемости и доходность в расчете на номер для гостиниц в пяти азиатских городах в 2000 и 2001 гг. Доходность в расчете на номер, долл. Уровень заполняемости, % Город 2000 2001 2000 2001 Токио, Япония 132,63 116,98 80,9 78,9 Гонконг, Китай 112,89 103,29 82,6 73,2 Шанхай, Китай 53,44 58,25 69,7 69,2 Пекин, Китай 49,57 48,53 73,5 73,0 Бангкок, Таиланд 45,63 44,95 67,8 65,8 Источник: цитируется по журналу Wall Street Journal. 1. Постройте общую таблицу процентных долей для доходности в расчете на номер. 2. Постройте общую таблицу процентных долей для уровня заполняемости гостиниц. 3. Какие выводы можно сделать на основе анализа этих диаграмм? 2.42. Каждый день в крупной больнице выполняется несколько сотен анализов. Уровень некачественных анализов, которые необходимо повторить, постоянен и равен приблизительно 4%. Стремясь снизить уровень брака, директор лаборатории решил изучить записи об анализах, проведенных в лаборатории за неделю, и распределить их по исполнителям. В результате получилась следующая таблица.
Смена Качество лабораторного анализа День Вечер Всего Неудовлетворительное 16 24 40 Удовлетворительное 654 306 960 Всего 670 330 1 000 1. Постройте таблицу процентных долей по строкам. 2. Постройте таблицу процентных долей по столбцам. 3. Постройте общую таблицу процентных долей. 4. Какая таблица — общая, по строкам или по столбцам — более информативна? Почему? 5. К каким выводам может прийти директор лаборатории? 2.43. Сберегательный банк в течение месяца проводит опрос клиентов о степени их удовлетворенности работой и качеством обслуживания. Результаты опроса 200 клиентов приведены ниже. Вид услуг Количество удовлетворенных клиентов Количество недовольных клиентов Время ожидания в очереди 123 65 Работа банкомата 73 7 Консультирование по инвестициям 43 6 Обслуживание дорожных чеков 25 11 Хранилище 24 5 Обслуживание счетов 46 4 Примечание. Поскольку клиенты не могут воспользоваться всеми услугами одновременно, количество ответов в каждой строке разное. 1. Постройте таблицу процентных долей по строкам. 2. Постройте таблицу процентных долей по столбцам. 3. Постройте общую таблицу процентных долей. 4. Какая таблица — общая, по строкам или по столбцам — более информативна? Почему? 5. Постройте параллельную линейчатую диаграмму, характеризующую степень удовлетворенности клиентов банка каждым видом услуг. 6. Одинаково ли довольны клиенты всеми видами услуг? Какие услуги требуют дополнительного внимания? Обоснуйте свой ответ. 2.6. ИСКУССТВО ГРАФИЧЕСКОГО ПРЕДСТАВЛЕНИЯ ДАННЫХ Наиболее простыми и эффективными способами представления статистических данных являются графические изображения. Хороший рисунок позволяет сразу выявить основные закономерности, скрытые в массиве информации. Для улучшения анализа данных необходимы ясные и точные таблицы и графики. Излишние украшения и вычурность лишь мешают [4, 6-8].
В последние годы широкое распространение электронных таблиц и графических пакетов привело к интенсивному использованию рисунков для иллюстрации статистических данных. Несмотря на то что графические изображения довольно часто приносят пользу, злоупотребление графикой создает впечатление, что единственной целью статистики является наукообразный обман. Принципы графического представления данных Вероятно, одним из наиболее известных пропагандистов правильного представления данных с помощью графических средств является Эдвард Р. Тафт (Edward R. Tufte) [6-8]. В данном разделе мы кратко изложим его идеи. Во врезке 2.1 перечислены основные свойства графических данных. ВРЕЗКА 2.1. СВОЙСТВА ГРАФИЧЕСКИХ ДАННЫХ Идеальная диаграмма должна обладать следующими основными свойствами. • Иллюстрировать данные. • Концентрировать внимание на существе графического изображения, а не на способе его создания. • Предотвращать искажения. • Облегчать сравнение данных. • Быть наглядной. • Быть тесно связанной со статистическими и словесными описаниями изображения. В работе [6] Тафт сформулировал пять принципов графического представления данных (врезка 2.2). ВРЕЗКА 2.2. ПРИНЦИПЫ ГРАФИЧЕСКОГО ПРЕДСТАВЛЕНИЯ ДАННЫХ • Графическое представление данных должно отражать суть дела, статистические свойства данных и быть хорошо продуманным. • Графическое представление данных должно просто, ясно и эффективно представлять сложные идеи. • Графическое представление данных должно порождать у наблюдателя наибольшее количество идей за минимальный промежуток времени. • Графическое представление данных всегда многомерно. • Графическое представление данных должно отображать истинный смысл данных. Существует несколько способов оценки качества графического представления данных. Одним из них является вычисление информативности рисунка на основе доли чернил, затраченных на иллюстрацию данных.
ИНФОРМАТИВНОСТЬ РИСУНКА Информативность рисунка равна доле чернил, затраченных на иллюстрацию данных, в общем объеме чернил, затраченных на весь рисунок. Цель этого показателя — не допустить излишеств. . Объем чернил, затраченных на иллюстрацию данных Информативность =------------3— ---------------— -------- (2.2) Общий объем затраченных чернил Цель этого отношения — максимизировать долю чернил, затраченных на иллюстрацию данных. Не следует перегружать рисунок элементами, не имеющими отношения к делу. Например, это часто относится к линиям сетки на графике. Такие элементы называются графическим хламом (chartjunk). Графический хлам — это декоративные украшения, не имеющие отношения к данным или являющиеся их излишними уточнениями. Графический хлам часто представляет собой самостоятельное графическое изображение, фокусирующее внимание на способе его создания, а не на данных. При создании рисунка нельзя искажать данные. График считается верным, если он полностью соответствует исходным данным. Количество искажений, которые вносятся графиком, называются фактором лжи (lie factor). Фактор лжи — это отношение величины эффекта, изображенного на графике, к величине эффекта исходной выборки. Любое изменение, показанное на графике, должно соответствовать изменениям, существующим в исходных данных. Довольно часто при построении графика этим правилом пренебрегают. Это приводит к искажениям и несоответствиям между графическим изображением и данными. Чтобы лучше разобраться с этими принципами, рассмотрим несколько примеров, которые нарушают правила построения графических изображений. На рис. 2.11 представлена иллюстрация к статье в журнале The Time, посвященной возрастающему экспорту австралийского вина в США. На ней, в частности, показан бокал, символизирующий 6,77 млн. галлонов вина, поставленного из Австралии в США в 1997 году. Обратите внимание на то, что объем вина в этом бокале должен почти в два раза превышать объем вина в предыдущем бокале, соответствующем 2,67 млн. галлонов, а тот, в свою очередь, должен содержать в два раза больше вина, чем первый бокал. На самом деле этот не так. Отчасти это объясняется тем, что иллюстраторы использовали трехмерный элемент рисунка вместо двухмерного. Такие иллюстрации могут привлекать внимание, но все же правильнее было бы использовать двухмерную диаграмму или график. Кроме того, если на рисунке не указано начало координат, набор данных оказывается искаженным. В качестве примера обратимся к рис. 2.12, приведенному в той же статье. У этого рисунка есть несколько недостатков. Во-первых, на оси X не отложено ни одного значения. Поскольку рис. 2.12 представляет собой график, изображающий рост площадей, занятых виноградниками в винной промышленности с течением времени, на оси X следовало бы отметить годы. Вместо этого, годы (в правильном порядке) указаны рядом с объемами площадей. Во-вторых, точки изображены неверно. Это более серьезная ошибка. Точка, соответствующая 135 326 акрам в 1949-1950 г., изображена выше, чем точка, соответствующая 150 300 акрам в 1969-1970 г.! Кроме того, разница между
1979-1980 и 1997-1998 г. должна в три раза превышать разницу между 1979-1980 и 1969-1970 г., а на рисунке эта пропорция нарушена. В-третьих, интервалы времени на оси X изображены неверно. Точка, соответствующая 1979-1980 г., намного ближе к точке, соответствующей 1989-1990 г., чем к точке, изображающей площадь виноградников в 1969-1970 г. Мы пьем все больше вина... Объем экспорта австралийского вина в США (млн. галлонов) 1989 1992 1995 1997 Рис. 2.11. Неверная иллюстрация объема экспорта австралийского вина в США (млн. галлонов) Рис. 2.12. Неверная иллюстрация площади, занятой виноградниками в винодельческой промышленности. Источник: S. Watterson "Liquid Gold - Australians are Changing the World of Wine. Even the French Seem Grateful", Time, November 22,1999, p. 68, 69 В журналах и газетах часто печатают рисунки, содержащие излишнюю информацию. Например, рис. 2.13 иллюстрирует рынок газированных безалкогольных напитков в 1999 году. Хотя в целом рисунок правильно отображает разницу между долями рынка, занятыми разными напитками, он содержит массу ненужных деталей. Количество чернил, затраченных на изображение пены, рвущейся из бутылок, намного превышает разумную величину. Гораздо лучше было бы изобразить эти данные в виде круговой диаграммы.
Кока-кола по-прежнему шипит громче всех < Coke Classic Наиболее распространенные газированные « 20% безалкогольные напитки, заполнившие | Рис. 2.13. Изображение долей рынка, занятого газированными безалкогольными напитками в 1999 году. Источник: Carey, А.В., and S. Ward "Coke still has most fizz", USA Today, May 10, 2000, p. 1B Подведем итоги. Каждый из нас поглощает огромный объем информации из газет и журналов. Поскольку большая ее часть представляет собой ненужный хлам, необходимо научиться отбрасывать лишнее. Следует также помнить, что иногда графики захламляются по невежеству, а иногда — чтобы ввести читателей в заблуждение. Следовательно, очень важно сохранять скептический настрой. Как указывает Тафт [6], первое, что приходит в голову людям, рассматривающим иллюстрации статистических данных, — “неправда”. Слишком часто графики искажают реальные данные, затрудняя читателям поиск истины. При выборе способа изображения статистических данных — таблиц или рисунков — возникает много этических проблем. Необходимо одинаково честно изображать как хорошие, так и плохие результаты. Делая устный или письменный доклад, необходимо излагать информацию честно, объективно и нейтрально. Следует различать неудачную и нечестную презентацию. Критерий, с помощью которого это можно сделать, — намерения докладчика. Очень часто искажения и излишества при иллюстрации статистических данных возникают в результате невежества. Однако бывает, что под этим скрывается стремление обмануть читателей и слушателей. УПРАЖНЕНИЯ К РАЗДЕЛУ 2.6 Изучение основ 2.44. Студенческий проект. Принесите в класс диаграмму, опубликованную в газете или журнале, которая изображает числовые данные и которую вы считаете неверной. Объясните, почему вы полагаете, что эта диаграмма искажает реальные данные. 2.45. Студенческий проект. Принесите в класс диаграмму, опубликованную в газете или журнале, которая изображает категорийные данные и которую вы считаете неверной. Объясните, почему вы полагаете, что эта диаграмма искажает реальные данные.
2.46. Студенческий проект. Принесите в класс диаграмму, опубликованную в газете или журнале, которую вы считаете излишне громоздкой. Объясните, почему вы полагаете, что эта диаграмма неудачна. 2.47. Разукрашенная диаграмма, приведенная ниже, опубликована в журнале USA Today. Она иллюстрирует снижение количества смертей от попадания молнии в США. Источник: USA Today, November 12, 2002. 1. Укажите хотя бы одно преимущество этой диаграммы. 2. Укажите хотя бы один недостаток этой диаграммы. 3. Перерисуйте диаграмму, используя принципы графического представления данных. 2.48. Диаграмма, приведенная ниже, опубликована в журнале USA Today. Она иллюстрирует относительную величину департаментов полиции в основных городах США. ; Количество полицейских на душу населения I Среди 50 городов США количество полицейских в расчете на s i 10000 жителей является наибольшим в следующих городах. Источник: USA Today, February, 2000.
1. Укажите особенности этой диаграммы, которые нарушают принципы графического представления данных. 2. Перерисуйте эту диаграмму в соответствии с принципами графического представления данных. 2.49. Разукрашенная диаграмма, приведенная ниже, опубликована в журнале USA Today. В ней показаны источники электроэнергии в США. Уголь — основной источник электроэнергии 60 Источники электроэнергии в США: I Источник: USA Today, January 30, 2002. 1. Укажите хотя бы одно преимущество этой диаграммы. 2. Укажите хотя бы один недостаток этой диаграммы. 3. Перерисуйте диаграмму, используя принципы графического представления данных. 2.50. В статье, опубликованной в газете The New York Times (Donna Rosato, New York Times, September 15, 2002, 7), сообщается о том, что профессор Денна Берджес (Deanna Oxender Burgess) из университета Галф-Кост штата Флорида (Florida Gulf Coast University) исследовала ежегодные отчеты корпораций. Она заметила, что даже небольшое искажение диаграммы оказывает заметное влияние на впечатление читателей. Статья ссылается на отчет, содержащий объемы годовых продаж компании Zale Corporation. Зайдите в World Wide Web или в библиотеку и проанализируйте ежегодный отчет какой-нибудь корпорации. Укажите хотя бы одну диаграмму, которую вы считаете неудачной, и расскажите, как ее улучшить. Объясните, почему вы считаете свой вариант диаграммы более точным, чем исходный. РЕЗЮМЕ Как следует из схемы, приведенной ниже, эта глава посвящена средствам представления данных. Чтобы сделать выводы о деятельности взаимных фондов, описанных в сценарии “Применение статистики”, мы использовали различные таблицы и диаграммы. Теперь, представив данные в виде таблицы или диаграммы, мы должны вычислить и проинтерпретировать их количественные характеристики. Этому посвящена глава 3.
Числовые г“—— Тип данных < Категорийные Количество >, переменных - Диаграмма разброса Г истограмма Сводная таблица Количество переменных 2 Г 1 "ПС Упорядоченный, \ Диаграмма массив . “ствол и листья Круговая диаграмма Линейчатая диаграмма Диаграмма Парето Распределение' частот Полигон Функция • распределения Таблица сопряженности признаков Параллельная линейчатая диаграмма Г Кривая распределения Структурная схема главы 2 ОСНОВНЫЕ ПОНЯТИЯ Гистограмма, 111 Графический хлам, 143 Графическое представление данных, 142 Диаграмма круговая, 125 линейчатая, 125 параллельная, 136 Парето, 126 Диаграмма, 100 Интервал группирования, 105 Информативность рисунка, 142 Класс, 105 Кривая распределения, 113 Полигон накопленных частот, 113 процентный, 112 Распределение накопленных процентов, 108; 113 относительных частот, 107 процентное, 107 частот, 105 Таблица перекрестной классификации с двумя входами, 134 сводная, 124 сопряженности признаков, 134 факторная, 134 Упорядоченный массив, 99 Фактор лжи, 143
УПРАЖНЕНИЯ К ГЛАВЕ i'/L J \ Проверка знаний 2.51. Почему собранные данные необходимо организовать? 2.52. Чем отличаются друг от друга упорядоченный массив и диаграмма “ствол и листья”? 2.53. Чем отличаются друг от друга гистограммы и полигоны? 2.54. Чем так полезен полигон интегральных процентов? 2.55. Зачем нужны распределение частот и сводная таблица процентных долей? 2.56. В чем заключаются преимущества и недостатки линейчатой диаграммы, круговой диаграммы и диаграммы Парето? 2.57. Сравните между собой линейчатую диаграмму для категорийных данных и гистограмму, построенную по числовым данным. 2.58. Какой из приведенных ниже способов графического представления данных больше других похож на диаграмму Парето — диаграмма “ствол и листья”, гистограмма, полигон, кривая распределения, линейчатая диаграмма или круговая диаграмма? Обоснуйте свой ответ. 2.59. Почему говорят, что основным преимуществом диаграммы Парето является возможность отделить важные данные от второстепенных? 2.60. Какой вид процентного распределения больше других подходит для интерпретации результатов перекрестного анализа двумерных категорийных величин? 2.61. Какие этические проблемы возникают, если данные представлены в виде таблиц или диаграмм? Применение понятий Рекомендуем решать задачи 2.62-2.80 с помощью программы Microsoft Excel. 2.62. Один из основных критериев качества услуг, предоставляемых любой организацией, — скорость, с которой она реагирует на жалобы клиентов. Один из больших универмагов, торгующих фурнитурой и коврами, за последние годы значительно расширился. В частности, отдел ковровых покрытий, в котором прежде работали 2 человека, теперь состоит из руководителя, измерителя и 15 продавцов. На протяжении последнего года компания получила 50 жалоб на работу этого отдела. Ниже приведены данные о количестве дней, прошедших со дня получения жалобы до принятия решения. © FURNITURE.XLS 54 5 35 137 31 27 152 2 123 81 74 27 11 19 126 110 110 29 61 35 94 31 26 5 12 4 165 32 29 28 29 26 25 1 14 13 13 10 5 27 4 52 30 22 36 26 20 23 33 68 1. Вычислите распределение частот и процентное распределение. 2. Постройте гистограмму. 3. Постройте процентный полигон. 4. Постройте распределение интегральных процентов. 5. Постройте кривую распределения (распределение интегральных процентов). 6. Значительно ли варьируется время принятия решения? Обоснуйте свой ответ. 7. Какова средняя продолжительность ожидания ответа на жалобу?
2.63. В рабочей книге ^PI'ZZA.XLS содержатся данные о 36 порциях пиццы: стоимость в долларах, количество калорий и количество жира в граммах (SFat) для трех категорий продуктов: сырной пиццы из пиццерии (тип 1), сырной пиццы из супермаркета (тип 2) и острой пиццы из супермаркета (тип 3). Источник: “Frozen Pizza on the Rize”, Copyright © 2002 by Consumers Union of U. S. Adapted from Consumer Reports, January 2002, p. 40-41. Публикуется с разрешения компании Consumer Union of U. S., Inc., Yonkers, NY 10703-1057. 1. Для каждой из трех числовых переменных (стоимость, количество калорий и жирность) создайте упорядоченный массив и диаграмму “ствол и листья”. 2. В зависимости от разновидности пиццы (сырная или острая) для каждой из трех числовых переменных (стоимость, количество калорий и жирность) создайте упорядоченный массив и диаграмму “ствол и листья”. 3. Вычислите распределение частот и процентное распределение для стоимости, калорий и жирности. 4. Вычислите распределение накопленных процентов для стоимости, калорий и жирности. 5. Постройте процентный полигон для стоимости, калорий и жирности. 6. Постройте кривую распределения (полигон накопленных процентов) для стоимости, калорий и жирности. 7. Постройте точечную диаграмму для стоимости и калорийности, стоимости и жирности, а также калорийности и жирности. 8. Какие выводы можно сделать о стоимости, калорийности и жирности каждой из разновидностей пиццы? 2.64. В одной из статей, опубликованных в журнале Quality Engineering, исследуется вязкость (т.е. величина сопротивления потоку) химических веществ из разных партий. Допустим, что стандартная вязкость должна колебаться в интервале от 13 до 18. В файле ^CHEMICAL. XLS приведены данные о 120 партиях. Источник: D. S. Holmes, and Mergen А. Е., “Parabolic Control Limits for the Exponentially Weighted Moving Average Control Charts", Quality Engineerong, 4(1992): p. 487-495. 1. Создайте упорядоченный массив. 2. Вычислите распределение частот и процентное распределение. 3. Постройте процентную гистограмму. 4. Сколько партий соответствует спецификациям компании? 2.65. Исследования, проведенные компаниями, производящими рубероидную кровельную плитку в Бостоне и Вермонте, показали, что основным фактором, влияющим на оценку качества продукции, является ее вес. Более того, вес продукции отражает количество материала, затраченного на ее производство, и, следовательно, играет важную роль в формировании себестоимости. На последнем этапе плитка пакуется, а затем размещается на деревянных стеллажах (как правило, на поддоне помещается 16 плиток). После заполнения стеллажа регистрируется его вес. В соответствии со стандартами вес стеллажа в бостонском отделении компании колеблется в интервале от 3 050 до 3 260 фунтов. В вермонтском отделении компании вес стеллажа варьируется от 3 600 до 3 800 фунтов. Файл ftfpALLET.XLS содержит данные о весе (в фунтах) 368 стеллажей, заполненных плитками, произведенными в бостонском отделении компании, и 330 стеллажей, загруженных в Вермонте.
1. Вычислите распределение частот для веса стеллажей, загруженных в Бостоне, используя интервалы группирования с границами 3 015, 3 050, 3 085, 3 120, 3 155, 3 190, 3 260 и 3 295. 2. Вычислите процентное распределение на основе распределения частот, полученного при решении задачи 1. 3. Постройте процентную гистограмму на основе процентного распределения, полученного при решении задачи 2. 4. Проанализируйте распределение веса стеллажей, произведенных в бостонском отделении компании. Определите процент стеллажей, не соответствующих стандартам. 5. Вычислите распределение частот для веса стеллажей, загруженных в Вермонте, используя интервалы группирования с границами 3 550, 3 600, 3 650, 3 700, 3 750, 3 800, 3 850 и 3 900. 6. Вычислите процентное распределение на основе распределения частот, полученного при решении задачи 5. 7. Постройте процентную гистограмму на основе процентного распределения, полученного при решении задачи 6. 8. Проанализируйте распределение веса стеллажей, произведенных в вермонтском отделении компании. Определите процент стеллажей, не соответствующих стандартам. 2.66. Может ли раздача сувениров повысить посещаемость матчей Высшей бейсбольной лиги (Major League Baseball)? В статье, опубликованной в журнале Sports Marketing Quarterly, исследуется эффективность рекламных акций (Boyd, Т. С. and Krehbiel, Т. С. “Promotion Timing in Major League Baseball Attendance”, Sports Marketing Quarterly, 12 (March 2003)). Файл данных ^ROYALS. XLS содержит следующую информацию о посещении матчей с участием команды Kansas City Royals в 2002 году. ИГРА — матчи в соответствии с расписанием; ПОСЕЩАЕМОСТЬ — количество зрителей на матче. РЕКЛАМА — (Да — рекламная акция проводилась, Нет — рекламная акция не проводилась). 1. Постройте гистограмму посещаемости. Проинтерпретируйте ее. 2. Постройте процентный полигон посещаемости. Проинтерпретируйте его. 3. Какой вид графика более предпочтителен? Обоснуйте свой выбор. 4. Постройте график двух процентных полигонов посещаемости — для 43 игр, сопровождаемых рекламной акцией, и 37 игр без рекламы. Сравните два распределения посещаемости. 2.67. В файле данных fttpROTEIN.XLS записаны содержание жира и холестерола в популярных белковых продуктах (в мясе домашних животных и рыбе). Источник: Министерство сельского хозяйства США. Выполните следующие задания, используя эти показатели. 1. Постройте диаграмму “ствол и листья”. 2. Вычислите распределение частот и процентное распределение. 3. Постройте процентную гистограмму.
4. Постройте процентный полигон. 5. Вычислите распределение интегральных процентов. 6. Постройте полигон интегральных процентов. 7. Какие выводы можно сделать на основе этого анализа? 2.68. Допустим, что нам необходимо провести сравнительное исследование характеристик 2002 различных моделей автомобилей. При сравнении учитываются следующие показатели: количество лошадиных сил, пробег в милях на галлон топлива, длина, ширина, радиус поворота, вес и грузоподъемность машины. ^>AUTO2002.XLS. Источник: "The 2002 Cars", Copyright ©2002 by Consumers Union of U. S. Приводится no журналу Consumer Reports, April 2002, p. 22-71, с разрешения компании Consumer Union of U. S., Inc., Yonkers, NY 10703-1057. Выполните следующие задания, используя эти показатели. 1. Постройте диаграмму “ствол и листья”. 2. Вычислите распределение частот и процентное распределение. 3. Постройте процентную гистограмму. 4. Постройте процентный полигон. 5. Вычислите распределение интегральных процентов. 6. Постройте полигон интегральных процентов. 7. Какие выводы можно сделать на основе этого анализа? 8. Допустим, нам необходимо сравнить автомобили с передним приводом и автомобили с задним приводом. Выполните задания 1-7 для каждой из этих групп и опишите различия между ними. 9. Постройте таблицу сопряженности признаков для перекрестного сравнения машин по типу привода (передний и задний) и типу топлива. 10. Постройте параллельную линейчатую диаграмму по типу привода (передний и задний) и типу топлива. 11. Существует ли зависимость между типом привода (передний или задний) и типом топлива? 2.69. В файле ^STATES.XLS приведены данные, собранные в ходе переписи населения США в 2000 г.: время проезда до места работы (мин.), процент домов с восемью или более комнатами, средний доход семьи и процент домовладельцев, у которых оплата стоимости дома превосходит 30% их дохода. 1. Вычислите распределение частот и процентное распределение. 2. Постройте процентную гистограмму. 3. Постройте процентный полигон. 4. Постройте кривую распределения. 5. Постройте распределение интегральных процентов. 6. Постройте полигон интегральных процентов. 7. Какой вид графика более предпочтителен? Обоснуйте свой выбор. 8. Какие выводы можно сделать на основе анализа указанных четырех переменных? 2.70. Экономика бейсбола порождает противоречия между владельцами клубов, которые утверждают, что они теряют деньги, игроками, утверждающими, что владельцы
клубов получают прибыль, и болельщиками, жалующимися на высокую стоимость билетов и абонентской платы за просмотр игр по кабельному телевидению. Кроме данных об игровой статистике команд в сезоне 2001 года, файл ФвВ2001. XLS содержит данные о стоимости билетов, членства в фан-клубе, абонементов, абонементов местного телевидения, радио и кабельного телевидения, доходах от всех остальных операций, компенсациях и премиях игрокам, национальных и локальных расходах и доходах от бейсбольных операций. Для каждой из перечисленных переменных выполните следующие задания. 1. Вычислите распределение частот и процентное распределение. 2. Постройте процентную гистограмму. 3. Постройте процентный полигон. 4. Постройте кривую распределения. 5. Постройте распределение интегральных процентов. 6. Постройте процентный полигон. 7. Какой вид графика более предпочтителен? Обоснуйте свой выбор. 8. Постройте диаграмму разброса, отложив на оси У количество побед, а на оси X — доходы. 9. Какие выводы можно сделать на основе анализа диаграммы разброса? 10. Какие выводы можно сделать на основе анализа указанных переменных? 2.71. Файл ^AIRCLEANER.XLS содержит данные о цене, стоимости годового потребления энергии и годовой эксплуатации кондиционера. 1. Постройте диаграмму разброса, отложив на оси У цену кондиционера, а на оси X — стоимость электроэнергии. 2. Постройте диаграмму разброса, отложив на оси У цену кондиционера, а на оси X — стоимость его эксплуатации. 3. Существует ли взаимосвязь между стоимостью потребляемой электроэнергии и стоимостью кондиционера? Источник: “Portable Room Air Cleaners”, Copyright © 2002 by Consumers Union of U. S. Приводится no журналу Consumer Reports, February 2002, 47, с разрешения компании Consumer Union of U. S., Inc., Yonkers, NY 10703-1057. 2.72. Файл ^PRINTERS . XLS содержит данные о цене принтера, скорости и цене печати текста, продолжительности и стоимости печати фотографии на разных принтерах. 1. Постройте диаграмму разброса, отложив на оси У цену принтера, а на оси X — скорость печати текста. 2. Постройте диаграмму разброса, отложив на оси У цену принтера, а на оси X — стоимость печати текста. 3. Постройте диаграмму разброса, отложив на оси У цену принтера, а на оси X — продолжительность печати фотографии. 4. Постройте диаграмму разброса, отложив на оси У цену принтера, а на оси X — стоимость печати фотографии. 5. Можно ли использовать указанные переменные для предсказания цены принтера? Обоснуйте свой ответ. Источник: “Printers”, Copyright ©2002 by Consumers Union of U. S. Приводится no журналу Consumer Reports, March 2002, 51, с разрешения компании Consumer Union of U. S., Inc., Yonkers, NY 10703-105 7.
2.73. Бразилия является вторым по величине потребителем кофе в мире. В отличие от основных рынков жарки и продажи кофе, на котором доминируют горстка компаний, в Бразилии функционируют около 2 000 маленьких компаний, занимающихся жаркой кофе. Компания Sara Lee Corporation стала лидером розничных продаж кофе в Бразилии, поглотив несколько бразильских компаний (Miriam Jordan, “Sara Lee Wants to Percolate through All of Brasil”, Wall Street Journal, May 8, 2002, A14). В следующей таблице приведены объемы закупок кофе семью странами — основными потребителями кофе. Потребление кофе на основных рынках в 2000 г. Страна Объем потребления (млн. мешков по 60 кг) США 18,6 Бразилия 12,8 Германия 9,2 Япония 6,7 Франция 5,4 Нидерланды 1,8 Финляндия 0,9 Источник: цитируется по журналу The Wall Street Journal. Лидирующие торговые марки кофе в Бразилии Страна Доля на рынке, % Sara Lee 27,6 Nescafe 6,1 Tres Coracoes 4,8 Melitta 4,0 Все остальные 57,5 Источник: цитируется no журналу The Wall Street Journal. 1. Постройте график объемов потребления кофе основными странами-потребителями. Какой тип графика предпочтительнее? Обоснуйте свой ответ. 2. Постройте диаграмму, иллюстрирующую распределение долей на рынке потребления кофе. Какой тип графика предпочтительнее? Обоснуйте свой ответ. 2.74. Приведенные ниже данные иллюстрируют распределение разведанных запасов нефти по разным географическим регионам. Страна или регион Разведанные запасы нефти (млрд, баррелей) Северная Америка 54,8 Мексика 28,3 США 21,8 Канада 4,7 Центральная и Южная Америка 95,2
Страна или регион Разведанные запасы нефти (млрд, баррелей) Венесуэла 76,9 Бразилия 8,1 Другие страны Центральной 10,2 и Южной Америки Западная Европа 17,2 Норвегия 9,5 Великобритания 5,0 Другие страны Западной Европы 2,7 Африка 74,9 Ливия 29,5 Нигерия 22,5 Алжир 9,2 Ангола 5,4 Другие страны Африки 8,3 Ближний Восток 683,6 Саудовская Аравия 259,2 Ирак 112,5 Объединенные Арабские Эмираты 97,8 Кувейт 94,0 Иран 89,7 Катар 13,2 Оман 5,5 Другие страны Ближнего Востока 11,7 Дальний Восток и Океания 44,0 Китай 24,0 Индонезия 5,0 Индия 4,7 Другие страны Дальнего Востока 10,3 и Океании Восточная Европа и бывший СССР 59,0 Россия 48,6 Казахстан 5,4 Другие страны Восточной Европы 5,0 и бывшего СССР Источник: Министерство энергетики США. 1. Постройте линейчатую диаграмму для стран. 2. Постройте круговую диаграмму для стран. 3. Постройте диаграмму Парето для стран. 4. Постройте линейчатую диаграмму для регионов. 5. Постройте круговую диаграмму для регионов.
6. Постройте диаграмму Парето для регионов. 7. Какой вид графика более предпочтителен? Обоснуйте свой выбор. 8. Какие выводы можно сделать на основе анализа приведенных данных? 2.75. Анализируя последствия террористической атаки на США 11 сентября 2001 года, исследователи из Национального центра статистики здравоохранения сосредоточились на разработке методов выявления и классификации жертв терроризма (Е. Weinstein, “Tracking Terror’s Rising Toll”, Wall Street Journal, January 25, 2002, A13). В приведенных ниже таблицах указано количество смертей жертв терроризма в США за период с 1990 по 2001 гг. и количество смертей в США в целом в 2000 г. от разных причин. Причина Грипп и пневм Год Количество смертей жертв терроризма 1990 0 1991 0 1992 0 1993 6 1994 1 1995 169 1996 2 1997 0 1998 1 1999 3 2000 0 2001 2 717 Причина Причины смерти в США (тыс.) Пожар 3,3 Утопление 3,3 Алкогольное отравление 18,5 Болезнь Альцгеймера 49,0 Огнестрельное ранение 10,4 Ранение холодным оружием 5,7 Астма 4,4 Рак 551,8 Инсульт и сопутствующие заболевания 166,0 Эмфизема 16,9 Диабет 68,7 Сердечно-сосудистые заболевания 710,0 Падение с высоты 12,0 СПИД 14,4
Причина Причины смерти в США (тыс.) Грипп и пневмония 67,0 Несчастный случай на производстве 5,3 Дорожно-транспортное происшествие 41,8 Самоубийство 28,3 Наркотическая зависимость 15,9 Источник: Федеральное бюро криминальной статистики, Национальный центр статистики здравоохранения, Национальное управление безопасности дорожного движения, Министерство обороны. 1. Постройте диаграмму разброса, где на оси Y отложено количество смертей от терроризма, а на оси X — годы. 2. Существует ли какая либо зависимость между количеством смертей от терроризма и годами? Проанализируйте причины смертей в США и выполните следующие задания. 3. Постройте линейчатую диаграмму. 4. Постройте круговую диаграмму. 5. Постройте диаграмму Парето. 6. Какой вид графика более предпочтителен? Обоснуйте свой выбор. 7. Какие выводы можно сделать на основе анализа приведенных данных? 2.76. В статье, опубликованной в журнале The Wall Street Journal, компания Forrester Research Inc. заявила, что 19% всех пользователей Интернет принимают участие в сетевых играх. Предложения принять участие в таких играх резко увеличивают трафик сайта, а следовательно, и его популярность. Это дает компаниям возможность повышать цены на рекламные объявления, размещаемые в Интернет. В следующей таблице перечислены восемь ведущих компаний, предлагающих сетевые игры, согласно данным компании PC Data Inc. по состоянию на март 2000 г. Сайт Количество пользователей (тыс.) Доля аудитории, % freelotto.com 12 901 19,1 AOLGames .com 9 416 13,9 uproar.com 8 821 13,1 webstakes.com 7 499 ИД iwin.com 7 410 11,0 speedyclick.com 6 628 9,8 shockwave.com 5 582 8,3 prizecentral .com 4 899 7,3 Источник: Dean Takahashi, “Don't Shoot”, Wall Street Journal, April 1 7, 2000, R53. 1. Постройте линейчатую диаграмму для количества пользователей. 2. Постройте круговую диаграмму для распределения долей аудитории. 3. Сравните построенные диаграммы. Какая из них предпочтительнее? Почему?
2.77. Владелец ресторана европейской кухни заинтересовался особенностями заказов, принимаемых на выходные. Он стал записывать количество заказов на различные виды блюд. В результате возникла следующая таблица. Блюдо Количество заказов Говядина 187 Курица 103 Утка 25 Рыба 122 Спагетти 63 Моллюски 74 Телятина 26 1. Постройте по этим данным линейчатую диаграмму. 2. Постройте по этим данным диаграмму Парето. 3. Постройте по этим данным круговую диаграмму. 4. Какая диаграмма предпочтительнее: Парето или круговая? Почему? 5. Кратко изложите свои выводы. Предположим, что владельца ресторана интересует также, заказывают ли посетители десерт. Он решил фиксировать информацию о поле посетителя и том, заказывал ли он говядину. Результаты этих исследований приведены ниже. Пол Заказ десерта Мужской Женский Всего Да 96 40 136 Нет 224 240 464 Всего 320 280 600 Заказ говядины Заказ десерта Да Нет Всего Да 71 65 136 Нет 116 348 464 Всего 187 413 600 Для каждой из этих таблиц перекрестной классификации выполните следующие задания. 1. Постройте таблицу процентов по строкам. 2. Постройте таблицу процентов по столбцам. 3. Постройте общую таблицу процентов. 4. Какая таблица наиболее информативна (по столбцам, по строкам или общая) для исследования зависимости между полом посетителя и заказом говядины? Обоснуйте свой ответ. 5. Изложите свои выводы относительно заказов десерта. 2.78. Компания AT&T является лидером по доходам и количеству частных клиентов среди компаний, обеспечивающих междугородную телефонную связь в США. В январе 2002 года компания Verizon занимала четвертое место вслед за компа-
ниями AT&T, MCI и Sprint. Используя агрессивную маркетинговую стратегию, компания Verizon обошла компанию Sprint в третьем квартале 2002 года. Компания междугородной телефонной связи Доля частных клиентов (%) Доля доходов на рынке (%) AT&T 33,8 33,0 MCI 15,8 19,4 Verizon 10,6 5,9 Sprint 8,3 9,1 VarTec 6,3 3,7 Другие 25,2 28,9 Источник: цитируется по статье S. Backover, “Verizon Tops Sprint in Long-distance”, иsatoday. com, January 8, 2003. 1. Постройте круговые диаграммы распределения рынка частных клиентов и доходов. 2. Постройте параллельную линейчатую диаграмму для этих данных. 3. Какой вид диаграммы более информативен? Почему? 4. Какие выводы можно сделать о распределении рынка частных клиентов и доходов? 2.79. В статье, опубликованной в журнале The New York Times (William McNulty and Hugh K. Truslow, “How It Looked Inside the Booth”, The New York Times, November 6, 2002), приведены следующие данные о методе регистрации голосов избирателей в 1980, 2000 и 2002 гг. Для каждого метода указаны доля счетчиков, использовавших метод, и количество избирателей, зарегистрированных с его помощью. Доля счетчиков, применяющих метод Метод 1980 2000 2002 Перфокарта 18,5 18,5 15,5 Рычажная машина 36,7 14,4 10,6 Бюллетени 40,7 11,9 10,5 Сканирование 0,8 41,5 43,0 Электронное голосование 0,2 9,3 16,3 Смешанный 3,1 4,4 4,1 Доля избирателей, зарегистрированных с помощью метода Метод 1980 2000 2002 Перфокарта 31,7 31,4 22,6 Рычажная машина 42,9 17,4 15,5 Бюллетени 10,5 1,5 1,3 Сканирование 2,1 30,8 31,8 Электронное голосование 0,7 12,2 19,6 Смешанный 12,0 6,7 9,3
1. Постройте для каждого года круговые диаграммы распределения доли счетчиков, использовавших методы подсчета голосов, и доли голосов, зарегистрированных с помощью этих методов. 2. Постройте для каждого года параллельные линейчатые диаграммы распределения доли счетчиков, использовавших методы подсчета голосов, и доли голосов, зарегистрированных с помощью этих методов. 3. Какой вид диаграммы более информативен? Почему? 4. Какие выводы можно сделать о распределении рынка частных клиентов и доходов? 2.80. Летом 2000 г. возросшее количество гарантийных рекламаций на шины компании Firestone, проданные вместе с автомобилями Ford SUV, вынудило обе компании отозвать свою продукцию. Анализ рекламаций позволил определить, какие именно модели следует отозвать. В следующей таблице приведены данные о распределении 2 504 поступивших гарантийных рекламаций по маркам шин. Марка Количество рекламаций 23575R15 2 030 311050R15 137 30950R15 82 23570R16 81 331250R15 58 25570R16 54 Другие 62 Источник: Simison, R.L., “Ford Steps Up Recall Without Firestone”, The Wall Street Journal, August 14, 2000, p. A3. 2030 гарантийных рекламаций на шины марки 23575R15 относились к моделям АТХ и Wilderness. Ниже перечислены виды дорожно-транспортных происшествий, связанных с этими моделями. Происшествие Количество рекламаций на модель АТХ Количество рекламаций на модель Wilderness Отслоение протектора 1 365 59 Разрыв шины 77 41 Прочие 422 66 Всего: 1 864 166 Источник: Simison, R. L., “Ford Steps Up Recall Without Firestone”, The Wall Street Journal, August 14, 2000, p. A3. 1. Постройте диаграмму Парето на основе распределения количества гарантийных рекламаций по маркам шин. Какая марка вызвала наибольшее количество рекламаций? 2. Постройте круговую диаграмму, иллюстрирующую долю каждой исследованной модели в распределении гарантийных рекламаций: АТХ и Wilderness. Дайте свою интерпретацию диаграммы.
3. Постройте диаграмму Парето на основе распределения количества дорожно-транспортных происшествий, связанных с моделью АТХ. Можно ли утверждать, что эта модель чаще всего провоцирует определенный вид происшествий? 4. Постройте диаграмму Парето на основе распределения количества дорожно-транспортных происшествий, связанных с моделью Wilderness? Можно ли утверждать, что эта модель чаще всего провоцирует определенный вид происшествий? 5. Кратко изложите выводы, к которым вы пришли. 2.81. Классная работа. Задайте каждому студенту вопрос: “Какую газированную воду вы любите?”. Запишите результаты опроса в сводную таблицу. 1. Переведите результаты опроса в процентные доли и постройте диаграмму Парето. 2. Проанализируйте полученные результаты. 2.82. Классная работа. Попросите студентов указать свой пол (мужской, женский) и статус занятости (да, нет). Запишите результаты опроса в сводную таблицу. 1. Постройте таблицу процентного распределения по столбцам или строкам. 2. К каким выводам вы пришли? 3. Какие другие переменные следовало бы изменить, чтобы уточнить информацию о занятости студентов? Отчеты 2.83. На основе результатов, полученных при решении задачи 2.65, оцените, насколько вес стеллажей соответствует стандартам компании, и напишите отчет. Вставьте в отчет таблицы и диаграммы, построенные с помощью программы Microsoft Excel. 2.84. На основе результатов, полученных при решении задачи 2.80, оцените распределение количества гарантийных рекламаций по моделям шин компании Firestone и напишите отчет. Вставьте в отчет таблицы и диаграммы, построенные с помощью программы Microsoft Excel. Применение Интернет 2.85. Зайдите на сайт www. prenhall. com/levine. Выберите ссылку Chapter 2 и щелкните на ссылке Internet exercises. ГРУППОВОЙ ПРОЕКТ ТР.2.1.Файл данных ^MUTUAL FUNDS.XLS содержит информацию о 13 переменных, характеризующих 259 взаимных фондов. Фонд — название взаимного фонда. Вид — вид акций, принадлежащих взаимному фонду: малые, средние и крупные компании. Цель — цель фонда (быстрый или медленный рост капитала). Активы — в млн. долл. Комиссия — да или нет.
Издержки — издержки, понесенные взаимным фондом (в процентах от среднего объема чистых активов). Доходность 2 001 — доходность за двенадцать месяцев 2001 г. Трехлетняя доходность — среднегодовая доходность за период с 1999 по 2001 гг. Пятилетняя доходность — среднегодовая доходность за период с 1997 по 2001 гг. Оборачиваемость — уровень торговой активности фонда: очень низкий, низкий, средний, высокий, очень высокий. Риск — уровень риска: очень низкий, низкий, средний, высокий, очень высокий. Лучший квартал — квартал с наивысшей доходностью за период с 1997 по 2001 гг. Худший квартал — квартал с наименьшей доходностью за период с 1997 по 2001 гг. 1. Создайте упорядоченный массив и диаграмму “ствол и листья”, содержащие издержки всех 259 фондов. 2. Выделите взаимные фонды, не взимающие брокерскую комиссию. Создайте упорядоченный массив и диаграмму “ствол и листья”, содержащие издержки этих фондов. 3. Выделите взаимные фонды, взимающие брокерскую комиссию. Создайте упорядоченный массив и диаграмму “ствол и листья”, содержащие издержки этих фондов. 4. Проанализируйте распределение издержек. Сравните распределение издержек у фондов, взимающих и не взимающих брокерскую комиссию. Выполните следующие действия для переменной Доходность 2001. 5. Создайте упорядоченный массив и диаграмму “ствол и листья” для всех 259 фондов. 6. Какова процентная доля фондов, имеющих положительный доход? Какова процентная доля фондов, доход которых превышает 10% ? 7. Создайте упорядоченный массив и диаграмму “ствол и листья” для взаимных фондов, не взимающих брокерскую комиссию. 8. Какова процентная доля фондов, не взимающих брокерскую комиссию и имеющих положительный доход? Какова процентная доля фондов, не взимающих брокерскую комиссию, доход которых превышает 10% ? 9. Создайте упорядоченный массив и диаграмму “ствол и листья” для взаимных фондов, взимающих брокерскую комиссию. 10. Какова процентная доля фондов, взимающих брокерскую комиссию и имеющих положительный доход? Какова процентная доля фондов, взимающих брокерскую комиссию, доход которых превышает 10% ? 11. Проанализируйте распределение доходов взаимных фондов в 2001 г. Сравните распределение доходов у фондов, взимающих и не взимающих брокерскую комиссию. 12. Повторите задания 5-11 для переменной Трехлетняя доходность. ТР.2.2.Файл данных ^MUTUAL FUNDS.XLS содержит информацию о 13 переменных, характеризующих 259 взаимных фондов.
1. Постройте процентную гистограмму значений переменной Доходность 2001, используя данные о 46 взаимных фондах, специализирующихся на компаниях среднего размера. 2. Какова процентная доля фондов, специализирующихся на компаниях среднего размера и имеющих положительный доход? Какова процентная доля фондов, специализирующихся на компаниях среднего размера, доход которых превышает 10% ? 3. Постройте процентную гистограмму значений переменной Доходность 2001, используя данные о 42 взаимных фондах, специализирующихся на небольших компаниях. 4. Какова процентная доля фондов, специализирующихся на небольших компаниях и имеющих положительный доход? Какова процентная доля фондов, специализирующихся на небольших компаниях, доход которых превышает 10% ? 5. Сравните доходы взаимных фондов, специализирующихся на акциях средних и небольших компаний. 6. Повторите задания 1-5 для переменной Трехлетняя доходность. ТР.2.3.Файл данных ^MUTUAL FUNDS.XLS содержит информацию о 259 взаимных фондах, распределенных по уровням оборачиваемости (очень низкий, низкий, средний, высокий и очень высокий). 1. Постройте линейчатую диаграмму, иллюстрирующую уровень оборачиваемости акций, принадлежащих взаимным фондам. 2. Постройте круговую диаграмму иллюстрирующую уровень оборачиваемости акций, принадлежащих взаимным фондам. 3. Какая диаграмма предпочтительнее? Почему? 4. Используя данные из файла ^MUTUAL FUNDS.XLS, заполните следующую таблицу сопряженности признаков. Вид фонда Уровень оборачиваемости Малые Средние Крупные Всего компании компании компании Очень низкий Низкий Средний Высокий Очень высокий Всего 5. Не кажется ли вам, что доля фондов с высоким уровнем оборачиваемости среди фондов определенной специализации непропорционально мала? Если да, объясните причину. 6. Постройте параллельную линейчатую диаграмму.
Доходы от размещения рекламных объявлений являются важной статьей дохода любой газеты. Для того чтобы увеличить доходы и минимизировать количество дорогостоящих ошибок, руководство газеты The Springville Herald создало специальную группу специалистов для повышения качества работы с клиентами в отделе рекламы. Зайдите на Web-страницу www. prenhall. com/HeraldCase/Ad_Errors . htm, просмотрите данные, собранные этой группой, и выделите среди них особенно важные показатели, характеризующие качество работы отдела рекламы. Постройте для этих данных диаграммы, которые иллюстрируют их наилучшим образом, и обоснуйте свой выбор. Укажите, какую еще информацию об ошибках в рекламных объявлениях следует собрать. Предложите свои пути повышения качества работы отдела рекламы. ПРИМЕНЕНИЕ WEB В сценарии “Применение статистики” мы предложили вам сыграть роль финансового аналитика и собрать информацию, позволяющую сделать правильный выбор при инвестировании средств. Источниками этой информации могут быть брокерские фирмы и консультанты по инвестициям. Примените свои знания о таблицах и диаграммах для того чтобы оценить обоснованность прогнозов и заявлений компании StockTout Investing Service. Посетите Web-сайт компании StockTout Investing Service (www.prenhall.com/ Springville/StockTout. htm). Проанализируйте рекламные заявления и сопровождающих их данные, а затем ответьте на следующие вопросы. 1. Как способ представления данных на Web-сайте компании StockTout Investing Service влияет на ваше восприятие их бизнеса? 2. Является ли утверждение о том, что большинство инвесторов, руководствующихся советами консультантов из компании StockTout Investing Service, получают прибыль, честным? Если вы считаете это заявление нечестным, предложите свой способ представления данных, который вы считаете правильным и точным. 3. “Большая восьмерка” взаимных фондов, принадлежащих компании Stock-Tout Investing Service, входит в число взаимных фондов, упомянутых в файле ^MUTUAL FUNDS2002.XLS. Какие еще данные следовало бы включить в таблицу Большая Восьмерка? Как эти данные могут изменить ваше восприятие заявлений компании? 4. Компания StockTout Investing Service гордится тем, что “Большая восьмерка” фондов увеличила рыночную цену своих акций за последние пять лет. Стоит ли этим гордиться? Объясните свой ответ.
СПРАВОЧНИК EXCEL ГЛАВА 2 ЕН.2.1. Корректировка распределения частот, построенного с помощью процедуры Analysis ToolPak Histogram Процедура Анализ данных...1^Гистограмма ошибочно создает в распределении частот дополнительную группу “Еще”. Например, если следовать инструкциям, приведенным во врезке “Процедуры Excel: вычисление распределения частот для числовых данных”, распределение частот будет похоже на распределение, показанное на рис. ЕН.2.1. А О. в L _ 1 <Карманы Частота Интегральный % ; -10 01 0 0 00% 3 -5 01 1 0 63% 4 ’ -0 01 3 2,53% 41. 4,99 14 11,39% jl- 9,99 58 48,10% L 14 99 61 86,71% 30 19,99 17 97.47% 24 99 3 99,37% 29,99 1 100.00% 11 'Ещ е О' 100.00% Рис. ЕН.2.1. Распределение частот, созданное процедурой Гистограмма Чтобы исключить группу “Еще”, сначала необходимо вручную добавить ее значение к предыдущей группе и установить интегральный процент, равный 100%. (Обратите внимание на то, что на рис. ЕН.2.1 частота группы “Еще” равна 0, поэтому описанные выше действия не повлияют на значения, находящиеся в 10-й строке.) Затем следует выбрать ячейки, содержащие строку “Еще” (ячейки All:СИ на рис. ЕН.2.1), и выполнить команду ПравкаФУдалить.... В диалоговом окне Удалить необходимо установить переключатель Удаление ячеек в положение Ячейки, со сдвигом вверх и щелкнуть на кнопке ОК. Чтобы улучшить внешний вид рабочего листа, выделите ячейку в строке 1 и выполните команду Вставка ^Строки, чтобы вставить строку над заголовком. Выровняйте ширину столбцов, чтобы они полностью вмещали в себя заголовки. Чтобы добавить столбец частот, выберите столбец С и выполните команду Вставка^Столбцы. Находясь в новом столбце С, введите в ячейку СЗ формулу =ВЗ/СУММ (В:В) и скопируйте ее в остальные ячейки столбца, Для чисел, записываемых в ячейки этого столбца, следует выбрать процентный формат. В ячейку С2 запишите заглавие столбца — Проценты. В столбце Е укажите срединные точки и заголовки, как показано в табл. ЕН.2.1. ЕН.2.2. Вычисление распределения частот с помощью функции ЧАСТОТА Распределение частот можно вычислить альтернативным способом. Для этого необходимо создать новый лист, ячейки которого используют функцию ЧАСТОТА. Такой рабочий лист позволяет динамически изменять частоты при модификации исходных данных. Например, в табл. ЕН.2.1 показана схема рабочего листа Частоты, содержащего данные, записанные на листе Данные рабочей книги Growth Funds Sample . xls. Этот рабочий лист содержит данные о пяти летней доходности взаимных фондов. Функция Частота имеет следующий формат: ЧАСТОТА(лшсспв данных; массив интервалов), где первый параметр задает диапазон анализируемых данных, а второй — диапазон ячеек, содержащих упорядоченные верхние границы интервалов.
Таблица ЕН.2.1. Схема листа Частоты А В С D В 1 Распределение частот пятилетнего среднегодового дохода 2 Карманы Частота Проценты Интегральные проценты Срединные точки JliiiJI -10,01 =ЧАСТОТА('Пятилетняя_доходность'!В1:В158;АЗ:А11) = ВЗ/В$13 =СЗ — lllilll -5,01 =ЧАСТОТА('Пятилетняя_доходность’!В1:В158;АЗ:А11) = В4/В$13 = D3+C4 -7,5 5 -0,01 =ЧАСТОТА('Пятилетняя_доходность'!В1:В158;АЗ:А11) =В5/В$13 =D4+C5 -2,5 6 4,99 =ЧАСТОТА('Пятилетняя_доходность'!В1:В158;АЗ:А11) =В6/В$13 =D5+C6 2,5 7 9,99 =ЧАСТОТА('Пятилетняя_доходность’!В1:В158;АЗ:А11) = В7/В$13 =D6+C7 7.5 8 14,99 =ЧАСТОТА(’Пятилетняя_доходность'!В1:В158;АЗ:А11) = В8/В$13 = D7+C8 12,5 9 19,99 =ЧАСТОТА('Пятилетняя_доходность'!В1:В158;АЗ:А11) =В9/В$13 =D8+C9 17,5 10 24,99 =ЧАСТОТА(’Пятилетняя_доходность'!В1:В158;АЗ:А11) = В10/В$13 =D9+C10 22,5 11 29,99 =ЧАСТОТА('Пятилетняя_доходность'!В1:В158;АЗ:А11) =В11/В$13 =D10+C11 27,5 12 13 Всего: =СУММ(ВЗ:В11)
Поскольку функция ЧАСТОТА предназначена для работы с массивами, при вводе формул в ячейки ВЗ : Bl 1 выполните следующую процедуру. 1. Выберите диапазон ячеек ВЗ : Bl 1. 2. Напечатайте формулу =ЧАСТОТА(’Пятилетняя_доходность’!В1:В158,АЗ:All), не нажимая клавиши <Enter> или <ТаЪ>. 3. Нажмите <Ctrl+Shift+Enter>. ЕН.23. Корректировка гистограмм Для того чтобы скорректировать гистограмму, построенную процедурой Анализ данных... ^Гистограмма, сначала необходимо выполнить инструкции, приведенные в разделе ЕН.2.1, и исправить распределение частот. Гистограмма, построенная процедурой Анализ данных... ^Гистограмма, может содержать ошибки: между столбцами гистограммы зияют пробелы; карманы помечены верхними границами групп, а не срединными точками, максимальное значение на вспомогательной оси Y превышает 100%, заголовок и ось X сопровождаются нежелательными метками (рис. ЕН.2.2). Кроме того, в дальнейшем может возникнуть потребность удалить из рисунка график полигона интегральных процентов или изменить подписи оси X. Гистограмма Частота -*- Интегральный % Рис. ЕН.2.2. Ошибочный рабочий лист, созданный с помощью процедуры Г истограмма Чтобы исправить ошибки, необходимо выполнить следующие действия. • Чтобы удалить пробелы между столбцами, щелкните правой кнопкой мыши на одном из столбцов гистограммы. (Если курсор мыши установлен на столбце, на экране появится подсказка, начинающаяся словами "Ряд "Частота".) Выберите в контекстном меню команду Формат рядов данных.... В диалоговом окне Формат ряда данных щелкните на корешке вкладки Параметры, а затем сделайте значение Ширина зазора равным нулю. Щелкните на кнопке ОК. • Чтобы изменить метки карманов, введите в столбце Е срединные точки (если столбец Е занят, введите срединные точки в первом свободном стобце). Щелкните правой кнопкой мыши на закрашенном фоне гистограммы. (Если курсор мыши
установлен правильно, на экране появится подсказка “Область построения диаграммы”.) Выберите в контекстном меню команду Исходные данные.... В диалоговом окне Исходные данные щелкните на корешке вкладки Ряд и введите в окне редактирования Подписи оси X формулу, идентифицирующую диапазон ячеек, содержащий частоты, в формате ИмяЛистаЩиапазонЯчеек. Удалите текст, введенный в окне редактирования Подписи второй оси X, и щелкните на кнопке ОК. Например, для изменения меток карманов, содержащихся в диапазоне ячеек ЕЗ : El 1 рабочего листа Частоты, в окне редактирования Подписи оси X необходимо ввести формулу =Частоты! ЕЗ : Е11. • Чтобы изменить масштаб вторичной оси Y, щелкните правой кнопкой мыши, установив курсор на дополнительную (правую) ось Y. (Если курсор мыши установлен правильно, на экране появится подсказка “Дополнительная ось значений”.) Выберите в контекстном меню команду Формат оси.... Замените единицей величину в окне редактирования Максимальное значение во вкладке Шкала в диалоговом окне Формат оси и щелкните на кнопке ОК. • Чтобы изменить подпись оси X, щелкните на подписи (вокруг нее появится ореол), введите в строке формул текст новой подписи и нажмите клавишу <Enter>. • Чтобы удалить график полигона интегральных процентов, щелкните на нем правой кнопкой мыши. (Если курсор мыши установлен правильно, на экране появится подсказка "Ряд "Интегральный процент".) Выберите в контекстном меню команду Очистить. ЕН.2.4. Построение гистограмм по готовым таблицам частот Для построения гистограмм по таблице распределения частот можно воспользоваться Мастером диаграмм. Например, чтобы построить гистограмму, соответствующую шаблону, приведенному в табл. ЕН.2.1, откройте созданный вами рабочий лист Частоты (или рабочий лист Частоты в файле Chapter 2.xls), выполните команду Вставка^ Диаграмма... и следуйте инструкциям. 1. На первом этапе диалога (см. рис. ниже) выполните такие действия. 1.1. Щелкните на корешке вкладки Стандартные и выберите в списке диаграмм пункт Гистограмма. 1.2. Выберите первый вариант гистограммы (“Обычная”). Щелкните на кнопке Далее>. 2. На втором этапе диалога выполните следующие действия. 2.1. Щелкните на корешке вкладки Диапазон данных. Введите в окне редактирования Диапазон ссылки ВЗ:В11 и установите переключатель Ряды в положение В столбцах. 2.2. Щелкните на корешке вкладки Ряды. Введите в окне редактирования Подписи оси X формулу, идентифицирующую диапазон ячеек, содержащий частоты, в формате ИмяЛистаЩиапазонЯчеек и щелкните на кнопке Далее. Если вы используете шаблон рабочего листа Частоты, формула будет иметь вид =Частоты!ЕЗ : Е11. 3. На третьем этапе диалога выполните такие действия. 3.1. Щелкните на корешке вкладки Заголовки. Введите в окне редактирования Название диаграммы строку Гистограмма, в окне редактирования
Ось X (категорий) — строку Срединные точки, а в окне редактирования Ось Y (значений) — строку Частота. 3.2. Щелкните по очереди на корешках вкладок Оси, Линии сетки, Подписи данных и Таблицы данных и установите флажки и переключатели так, как описано в разделе ЕР.6. 3.3. Щелкните на кнопке Далее>. 4. На четвертом этапе диалога установите переключатель в положение Поместить диаграмму на листе в положение Отдельном и щелкните на кнопке Готово. Мастер диаграмм (шаг 1 из 4): тип диаграммы Стандартные > Нестандартные s [Гистограмма > Тип: Ml_______________ г Линейчатая |/>: Г рафик i! ф Круговая :[ Точечная i; С областями ; : Кольцевая :; Лепестковая & Поверхность : i •• Пузырьковая Вид: Обычная гистограмма отображает Значения различных категорий. [ Просмотр результата ] [ Отмена ] Чтобы удалить зазоры между столбцами диаграммы, достаточно щелкнуть правой кнопкой мыши, установив курсор на одном из столбцов. (Если курсор мыши установлен правильно, на экране появится подсказка, начинающаяся словами “Ряд 1”.) Выберите команду Формат рядов данных... в контекстном меню. В диалоговом окне Формат ряда данных щелкните на корешке вкладки Параметры, замените величину, указанную в окне редактирования Ширина зазора, нулем и щелкните на кнопке ОК. ЕН.2.5. Построение полигонов с помощью средства Мастер диаграмм Мастер диаграмм позволяет строить полигоны, используя распределение частот. Чтобы построить полигон на основе распределения частот, следует выбрать на рабочем листе Частоты любую ячейку в строке 3, выполнить команду Вставка^Строки и ввести нули в ячейки ВЗ, СЗ, D3, В13 и С13. (Это позволит правильно задать координаты начальной и конечной точки полигона на оси X.) На этом этапе строки 3-13 должны выглядеть так, как показано на рис. ЕН.2.3 (таблица распределения частот, модифицированная для построения полигона на основе данных из рабочего листа Данные из рабочей книги Growth Funds Sample.xls).
А | в ; С I D | 1 Распределение частот для фондов быстрого роста 2 Карманы Частота Процент ' Интегральный % Срединные точки _з 0 0 0 V -10,01 0 0,00% ,00% — V -5,01; 1! 0,63% .63% -7.5 'б -0,0 V 3 1.90% 2,53% -2,5 7 4.99 14 8,86% 11,39% 2,5 8 9,99 58 36,71% 48,10% 7,5 9 14,99 61 38,61% 86,71 %: 12,5 10' 19,99 17 10,76% 97,47%: 17,5 11 24,99: 3 1,90%: 99,37% 22,5 12 29,99: 1. 0,63% 100,00% 27,5 Рис. ЕН.2.3. Таблица распределения частот, модифицированная для построения полигона Чтобы построить полигон, откройте рабочий лист, содержащий таблицу распределения частот, выполните команду ВставкаФДиаграмма... и следуйте инструкциям. 1. На первом этапе диалога выполните такие действия. 1.1. Щелкните на корешке вкладки Стандартные и выберите в списке диаграмм пункт График. 1.2. Выберите первый вариант графика во втором ряду (“График с маркерами, помечающими точки данных”). Щелкните на кнопке Далее>. 2. На втором этапе диалога выполните следующие действия. 2.1. Щелкните на корешке вкладки Диапазон данных. Введите в окне редактирования Диапазон ссылки на соответствующие ячейки и установите переключатель Ряды в положение В столбцах. Для построения распределения частот введите диапазон ВЗ:В13, а для построения полигона— диапазон СЗ:С13. Для построения интегрального полигона следует ввести диапазон D3 : D12. 2.2. Щелкните на корешке вкладки Ряды. Если вы хотите построить распределение частот или процентный полигон, введите в окне редактирования Подписи оси X формулу, идентифицирующую диапазон ячеек, содержащий частоты, в формате ИмяЛистаЩиапазонЯчеек и щелкните на кнопке Далее>. Если вы применяете шаблон рабочего листа Частоты, то при создании гистограммы и процентного полигона следует ввести формулу =Частоты! ЕЗ : Е13, а при создании полигона интегральных процентов — формулу =Частоты'.ЕЗ :Е12. 3. На третьем этапе диалога выполните следующие действия. 3.1. Щелкните на корешке вкладки Заголовки. Введите соответствующие названия в окнах редактирования Название диаграммы, Ось X (категорий) и Ось Y (значений). 3.2. Щелкните по очереди на корешках вкладок Оси, Линии сетки, Подписи данных и Таблицы данных и установите флажки и переключатели так, как описано в разделе ЕР.6. 3.3. Щелкните на корешках вкладок Легенда и установите флажок Добавить легенду, а затем щелкните на кнопке Далее>. 4. На четвертом шаге диалога установите переключатель Поместить диаграмму на листе в положение Отдельном, присвойте листу информативное название и щелкните на кнопке Готово.
Чтобы построить диаграммы, изображенные на рис. 2.3 и 2.4, можно добавить дополнительные ряды данных. Для этого достаточно открыть лист, содержащий диаграмму, и выполнить команду Диаграмма^Добавить данные... в меню программы Excel. Введите в диалоговом окне Новые данные новый диапазон ячеек в формате ИмяЛистаЩиапазонЯчеек и щелкните на кнопке ОК. Если на экране появится диалоговое окно Специальная вставка, установите переключатель Добавить значения как в положение Новые ряды, а переключатель Значения (Y) — в положение В столбцах. Затем щелкните на кнопке ОК. ЕН.2.6. Перемещение осей диаграмм Когда Мастер диаграмм создает диаграмму разброса на основе данных, содержащих отрицательные числа, оси X и У проходят прямо через точки, а не по сторонам диаграммы, как на рис. 2.5. Для того чтобы переместить оси диаграммы, необходимо открыть ее и выполнить следующие действия. Чтобы изменить положение осиХ, выделите на диаграмме ось Y. (Если курсор мыши установлен правильно, на экране появится подсказка “Ось Y (значений)”.) Щелкните на оси У правой кнопкой мыши и выполните команду Формат оси... во всплывающем меню. Находясь в диалоговом окне Формат оси, щелкните на корешке вкладки Шкала и введите в диалоговое окно Ось X (категорий) пересекает в значении число, указанное в окне Минимальное значение. (При ввода числа соответствующий флажок автоматически сбрасывается.) Щелкните на кнопке ОК. Чтобы изменить положение оси У, выделите на диаграмме ось X. (Если курсор мыши установлен правильно, на экране появится подсказка “Ось X (категорий)”.) Щелкните на осиХ правой кнопкой мыши и выполните команду Формат оси... во всплывающем меню. Находясь в диалоговом окне Формат оси, щелкните на корешке вкладки Шкала и введите в диалоговое окно Ось Y (значений) пересекает в значении число, указанное в окне Минимальное значение. (При ввода числа соответствующий флажок автоматически сбрасывается.) Щелкните на кнопке ОК. ЕН.2.7. Создание таблиц для категорийных данных Для создания сводных таблиц категорийных данных применяется Мастер сводных таблиц и диаграмм программы Microsoft Excel, уже упоминавшийся в разделе ЕР.7. Например, чтобы создать таблицу, аналогичную табл. 2.7, необходимо открыть рабочую книгу Mutual Funds .xls на листе Данные, выбрать в меню Excel пункт ДанныеФ Сводная таблица..., а затем выполнить следующие действия. 1. На первом этапе диалога установите переключатель Создать таблицу на основе данных, находящихся: в положение В списке или базе данных Microsoft Excel, а переключатель Вид создаваемого отчета — в положение Сводная таблица. Затем щелкните на кнопке Далее>.
2. На втором этапе диалога в окне редактирования Диапазон введите ссылки на ячейки KI: К2 60, а затем щелкните на кнопке Далее>. 3. На третьем этапе диалога выполните следующие действия. 3.1. Установите переключатель Поместить таблицу в положение В новый лист и щелкните на кнопке Макет. 3.2. Находясь в диалоговом окне Макет, перетащите кнопку поля Риск, находящегося справа, в область Строка и в область Данные. Когда кнопка будет скопирована во второй раз, ее метка в поле Данные станет называться Количество по полю Риск. Щелкните на кнопке ОК. 3.3. Щелкните на кнопке ОК диалогового окна Макет и вернитесь в диалоговое окно Мастер сводных таблиц и диаграмм — шаг 3 из 3. 3.4. Щелкните на кнопке Параметры. В диалоговом окне Параметры введите в окне редактирования Имя информативное название таблицы, установите флажок Для пустых ячеек отображать и введите в соответствующее окно редактирование число 0. Затем щелкните на кнопке ОК и вернитесь в диалоговое окно Мастер сводных таблиц и диаграмм — шаг 3 из 3. 3.5. Щелкните на кнопке Готово. 4. Закройте плавающую инструментальную панель Сводные таблицы, присвойте новому листу осмысленное название, например Сводная_таблица, введите заголовок в его первую строку. В результате должна получиться сводная таблица, изображенная на рис. ЕН.2.4. А С 1 Риск взаимных фондов __________________________ 3 ; Количество, по полю Риск 4 {Риск ~7F 5 ^средний 6 jвысокий 7 ।низкий 8 9 очень высокий очень низкий 10 Общий итог Итог 82 80 76 .. ;___е 259 Процент 31.66% 30,89% 29,34% 5,79% 2,32% Рис. ЕН.2.4. Сводная таблица Для вставки столбца, содержащего проценты, введите в ячейку С4 заголовок “Проценты”, а в ячейку С5 — формулу =В5/В$10. Скопируйте эту формулу во все ячейки, включая ячейку С9, и установите для отображения чисел в диапазоне С5 :С9 процентный формат. В результате таблица примет вид, изображенный на рис. ЕН.2.4. ЕН.2.8. Создание линейчатых и круговых диаграмм для категорийных данных Для создания диаграмм категорийных данных на основе сводной таблицы применяется Мастер диаграмм программы Microsoft Excel. Например, чтобы построить линейчатую или круговую диаграмму по сводной таблице, созданной в предыдущем разделе (рис. ЕН.2.4), откройте рабочий лист, содержащий сводную таблицу (или рабочий листТабл2.7 в рабочей книге Chapter 2 . xls) и выделите любую ячейку вне таблицы, например, ячейку D1. Затем выполните команду Вставка^Диаграмма... и следуйте инструкциям, приведенным ниже.
1. На первом этапе диалога щелкните на корешке вкладки Стандартные. 1.1. Если вы собираетесь построить линейчатую диаграмму, выберите из списка Тип пункт Линейчатая, а на панели Вид— первый вариант, которому соответствует пояснение “Линейчатая диаграмма отображает значения различных категорий”. Затем щелкните на кнопке Далее>. 1.2. Если вы собираетесь построить круговую диаграмму, выберите из списка Тип пункт Круговая, а на панели Вид — первый вариант, которому соответствует пояснение “Круговая диаграмма. Отображает вклад каждого значения в общую сумму”. Затем щелкните на кнопке Далее>. 2. На втором этапе диалога щелкните на корешке вкладки Диапазон данных и введите в окне редактирования Диапазон ссылки на ячейки АЗ: В9, установите переключатель Ряды в положение В столбцах, если эта группа доступна, и щелкните на кнопке Далее>. 3. На третьем этапе щелкните на корешке вкладки Заголовки. Введите в окна редактирования Название диаграммы, Ось X (категорий), Ось Y (значений) соответствующие заголовки. 3.1. При создании линейчатой диаграммы щелкните по очереди на корешках вкладок Оси, Линии сетки, Легенда и Таблица данных и установите флажки и переключатели в соответствии с указаниями, приведенными в разделе ЕР.6. Затем щелкните на кнопке Далее>. 3.2. При создании круговой диаграммы щелкните на корешках вкладок Легенда и сбросьте флажок Добавить легенду. Затем щелкните на корешке вкладки Подписи данных и установите флажок Включить в подписи доли (если вы используете программы Microsoft Excel 97 или 2000). Если вы используете программу Microsoft Excel 2002, установите флажки Имена категорий и Проценты. Щелкните на кнопке Далее>. 4. На четвертом этапе диалога установите переключатель Поместить диаграмму на листе в положение Отдельном, присвойте новому листу осмысленное название и щелкните на кнопке Готово. Находясь на новом листе, щелкните правой кнопкой мыши на раскрывающемся списке Риск и выполните команду Скрыть кнопки полей сводной диаграммы. (Если вы пользуетесь программой Microsoft Excel 1997, этот пункт следует пропустить.) ЕН.2.9. Создание диаграммы Парето с помощью средства Мастер диаграмм Для создания диаграммы Парето применяется Мастер диаграмм программы Microsoft Excel. В отличие от линейчатых и круговых диаграмм, перед созданием диаграммы Парето исходный рабочий лист необходимо модифицировать, добавив в него столбец, содержащий интегральные проценты. Например, чтобы создать диаграмму Парето на основе сводной таблицы, следуя инструкциям из раздела ЕН.2.7, нужно открыть рабочую книгу, содержащую таблицу (или рабочий лист РисЕН.2.4 в рабочей книге Chapter 2 . xls). Если в сводной таблице нет столбца, содержащего интегральные проценты, его необходимо добавить, следуя инструкциям из раздела ЕН.2.7. Затем в ячейку D4 нужно ввести заголовок Интегральные проценты, в ячейку D5 — формулу =С5, а в ячейку D6 — формулу =D5+C6. Затем необходимо скопировать последнюю формулу в ячейки столбца D вплоть до ячейки D9, форматируя ячейки по мере необходимости. Теперь нужно изменить порядок следования ячеек в сводной таблице, руководствуясь инструкциями, приведенными ниже.
1. Щелкните правой кнопкой мыши на ячейке А4 и выберите пункт Параметры поля во всплывающем контекстном меню. (Если вы работаете с программой Microsoft Excel 97, выберите пункт Поле.) 2. Находясь в диалоговом окне Вычисление поля сводной таблицы, щелкните на кнопке Дополнительно. 3. В открывшемся диалоговом окне Дополнительные параметры поля сводной таблицы (рис. ЕН.2.5) установите переключатель По убыванию в группе Параметры сортировки, а в списке С помощью поля выберите пункт Количество по полю Риск. Щелкните на кнопке ОК. 4. Чтобы вернуться на рабочий лист, находясь в диалоговом окне Вычисление поля сводной таблицы, щелкните на кнопке ОК. Данные, содержащиеся в таблице, будут упорядочены по убыванию. шолнительные параметры поля сводной таблицы [1Х~| Вычисление поля сводной табл и Параметры поля сводной таблицы Имя: j Risk Итоги (*) автоматические О другие Сумма Количество Среднее Максимум Минимум Произведение □(Отображать пустые элементы: Параметры сортировки Двтоотображение лучшей десятки О вручную (разрешается перетаскивание) О по возрастанию , ®|по убыванию; ............... отображать: с помощью полд: с помощью поля: Risk V: [ ОК ] | Отмена ] Рис. ЕН.2.5. Диалоговые окна Параметры поля и Дополнительные параметры поля сводной таблицы Поскольку изменение порядка следования ячеек может повлиять на другие диаграммы, перед построением диаграммы Парето рабочий лист рекомендуется скопировать, следуя инструкциям из раздела ЕР.5.3, а саму процедуру построения выполнять, находясь на скопированном листе. После предварительной сортировки для построения диаграммы Парето вызывается Мастер диаграмм. Например, чтобы создать диаграмму Парето на основе упорядоченной сводной таблицы, откройте рабочую книгу, содержащую эту таблицу (или рабочий лист Риск в рабочей книге Chapter 2.xls). Теперь выберите Вставка^Диаграмма... и следуйте инструкциям. 1. На первом этапе диалога щелкните на корешке вкладки Нестандартные. Установите переключатель Вывести в положение Встроенные, а затем выберите пункт График)Гистограмма 2 в списке Тип. Щелкните на кнопке Далее>. 2. На втором этапе диалога выполните следующие действия. 2.1. Щелкните на корешке вкладки Диапазон данных, введите в окне редактирования Диапазон ссылки на ячейки с4 : D9, установите переключатель Ряды в положение В столбцах, если эта группа доступна, и щелкните на кнопке Далее>. 2.2. Щелкните на корешке вкладки Ряды. Введите формулу, =Риск IА5:А9 в окне редактирования Подписи оси X. Окно редактирования Вторая ось X (категорий) должно оставаться пустым. 2.3. Щелкните на кнопке Далее>.
3. На третьем этапе выполните такие действия. 3.1. Щелкните на корешке вкладки Заголовки. Введите в окне редактирования Название диаграммы строку Диаграмма Парето для риска, в окне редактирован Ось X (категорий) — строку Уровень риска, а в окне редактирования Ось Y (значений) — строку Проценты. 3.2. Щелкните по очереди на корешках вкладок Оси, Линии сетки, Легенда и Таблица данных и установите флажки и переключатели в соответствии с указаниями, приведенными в разделе ЕР.6. Затем щелкните на кнопке Далее>. 4. На четвертом этапе диалога установите переключатель Поместить диаграмму на листе в положение Отдельном, присвойте новому листу осмысленное название, например, “Диаграмма_Парето” и щелкните на кнопке Готово. Как и в разделе ЕН.2.3, максимальное значение на вспомогательной оси Y следует установить равным 1. Для этого необходимо щелкнуть правой кнопкой мыши на дополнительной (правой) оси Y, выбрать пункт Формат оси..., щелкнуть на корешке вкладки Шкала, а затем изменить число в окне редактирования Максимальное значение и щелкнуть на кнопке ОК. ЕН.2.10. Создание таблиц для двумерных категорийных данных Для создания таблицы сопряженности признаков, описывающей двумерные категорийные данные, применяется Мастер сводных таблиц и диаграмм программы Microsoft Excel. Например, чтобы создать сводную таблицу, аналогичную табл. 2.10, откройте рабочую книгу Mutual Funds.xls на листе Данные, выберите пункт меню Данные^ Сводная таблица... и выполните следующие действия. 1. На первом этапе диалога установите переключатель в положение Создать таблицу на основе данных, находящихся: в списке или базе данных Microsoft Excel, а переключатель Вид создаваемого отчета — в положение Сводная таблица. Затем щелкните на кнопке Далее>. 2. На втором этапе диалога в окне редактирования Диапазон введите ссылки на ячейки Al: К2 60, а затем щелкните на кнопке Далее>. 3. На третьем этапе диалога выполните следующие действия. 3.1. Установите переключатель Новый лист и щелкните на кнопке Макет. 3.2. Находясь в диалоговом окне Макет, перетащите кнопку поля Риск, находящегося справа, в область Строка. Затем перетащите поле Комиссия в область Столбец, а поле Название — в область Данные. Метка в поле Данные станет называться Количество по полю Название. 3.3. Щелкните на кнопке ОК диалогового окна Макет и вернитесь в диалоговое окно Мастер сводных таблиц и диаграмм — шаг 3 из 3. 3.4. Щелкните на кнопке Параметры. В диалоговом окне Параметры введите в поле Имя информативное название таблицы, установите флажки Для пустых ячеек отображать и введите в соответствующем окне редактирование число 0. Затем щелкните на кнопке ОК и вернитесь в диалоговое окно Мастер сводных таблиц и диаграмм — шаг 3 из 3. 3.5. Щелкните на кнопке Готово.
4. Закройте плавающую инструментальную панель Сводные таблицы, присвойте новому листу осмысленное название, например Сводная_таблица, и введите заголовок в его первую строку. В результате должна получиться сводная таблица, изображенная на рис. ЕН.2.6. j A j В j 0 _1 ^Сводная таблица для риска и комиссии ‘ 2 | \ D j 3_^Количество по полю Фонд Комиссия 4 (Риск [▼ Да Нет Общий итог 5 !ВЫСОКИЙ 6 ^низкий 7 !очень высокий 8 Щчень низкий 9 ^средний 35 45 31 45 4 11 2 4 23 59 80 76 15 6 82 10 Юбщий итог 95 164 259 Рис. ЕН.2.6. Таблица сопряженности признаков, содержащая данные об уровне риска и сборе брокерской комиссии ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА 1. Cleveland, W. S., “Graphs in Scientific Publication”, The American Statistician 38 (November 1984): 261-269. 2. Cleveland, W. S., “Graphical Methods for Data Presentation: Full Scale Breaks, Dot Charts, and Multibased Loggings”, The American Statistician 38 (November 1984): 270-280. 3. Cleveland, W. S., and R. McGill, “Graphical Perception: Theory, Experimentation, and Application to the Development of Graphical Methods”, Journal of the American Statistical Association 79 (September 1984): 531-554. 4. Huff, D., How to Lie with Statistics (New York: Norton, 1954). 5. Microsoft Excel 2002 (Redmond, WA: Microsoft Corporation, 2001). 6. Tufte, E. R., The Visual Display of Quantitative Information, 2nd ed. (Cheshire, CT: Graphics Press, 2002). 7. Tufte, E. R., Envisioning Information (Cheshire, CT: Graphics Press, 1990). 8. Tufte, E. R., Visual Explanations (Cheshire, CT: Graphics Press, 1997). 9. Tukey, J., Exploratory Data Analysis (Reading, MA: Addison-Wesley, 1977). 10. Velleman, P. E., and D. C.Hoaglin, Applications, Basics, and Computing of Exploratory Data Analysis (Boston, MA: Duxbury Press, 1981). 11. Wainer, H., “How to Display Data Badly”, The American Statistician 38 (May 1984): 137-147. 12. Wainer, H., Visual Revelations: Graphical Tales of Fate and Deception from Napoleon Bonaparte to Ross Perot (New York: Copernicus/Springer-Verlag, 1997).
Глава 3 Описательные статистики ПРИМЕНЕНИЕ СТАТИСТИКИ: сравнение эффективности взаимных фондов 3.1. ИССЛЕДОВАНИЕ ЧИСЛОВЫХ ДАННЫХ И ИХ СВОЙСТВ 3.2. ОПРЕДЕЛЕНИЕ СРЕДНЕГО ЗНАЧЕНИЯ, ВАРИАЦИИ И ФОРМЫ РАСПРЕДЕЛЕНИЯ Арифметическое среднее Процедуры Excel: создание точечных масштабированных диаграмм Медиана Мода Квартили Геометрическое среднее Процедуры Excel: вычисление распределения частот для числовых данных Размах Межквартильный размах Дисперсия и стандартное отклонение Коэффициент вариации Visual Explorations: исследование описательных статистик Форма распределения Вычисление описательных статистик с помощью программы Microsoft Excel Процедуры Excel: вычисление описательных статистик 3.3. ВЫЧИСЛЕНИЕ ОПИСАТЕЛЬНЫХ СТАТИСТИК ДЛЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ Математическое ожидание Дисперсия и стандартное отклонение генеральной совокупности Эмпирическое правило Правило Чебышева-Бьенаме 3.4. АНАЛИЗ ДАННЫХ Пятерка базовых показателей Блочная диаграмма Процедуры Excel: создание блочных диаграмм 3.5. КОВАРИАЦИЯ И КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ Процедуры Excel: вычисление коэффициента корреляции 3.6. ЛОВУШКИ, СВЯЗАННЫЕ С ОПИСАТЕЛЬНЫМИ СТАТИСТИКАМИ, И ЭТИЧЕСКИЕ ПРОБЛЕМЫ 3.7. ВЫЧИСЛЕНИЕ КОЛИЧЕСТВЕННЫХ ПОКАЗАТЕЛЕЙ НА ОСНОВЕ РАСПРЕДЕЛЕНИЯ ЧАСТОТ Приближенное вычисление среднего арифметического и стандартного отклонения СПРАВОЧНИК ПО EXCEL. ГЛАВА 3 ЧЕМУ ДОЛЖЕН НАУЧИТЬСЯ СТУДЕНТ • Определять среднее значение, дисперсию и форму распределения числовых данных. • Создавать и интерпретировать блочные диаграммы. • Вычислять описательные статистики. • Вычислять и интерпретировать коэффициент корреляции.
ПРИМЕНЕНИЕ СТАТИСТИКИ Сравнение эффективности взаимных фондов Вернемся к исследованию взаимных фондов, рассмотренных в главе 2. Предположим, что вы — консультант по финансовым вопросам и должны посоветовать своим клиентам, в какой из взаимных фондов следует вкладывать деньги. В главе 2 мы уже показали, как представить данные в виде таблиц и диаграмм. Однако, изучая числовую информацию, например, среднегодовые показатели доходности за последние пять лет, мы должны не только представить данные и понять, что они означают, но и вычислить их основные характеристики, а затем проанализировать их. Какова средняя доход-какие средние показатели доходности за по следние пять лет имеют взаимные фонды с очень низким, низким, средним, высоким и очень высоким уровнем риска? Насколько изменчива доходность этих фондов? Можно ли утверждать, что разброс доходности фондов с высоким уровнем риска выше, чем у фондов со средним и низким уровнем риска? Как использовать эту информацию для принятия правильного решения? ВВЕДЕНИЕ Способы представления числовых и категорийных данных в виде таблиц и диаграмм являются существенной, но не основной частью анализа данных. Ведущая роль принадлежит методам исследования числовых данных и их свойств. Сначала мы рассмотрим способы определения среднего значения (central tendency), вариации (variation) и формы (shape) распределения генеральной совокупности. Затем изучим методы анализа данных, в частности, способы вычисления описательных статистик, характеризующих выборки и генеральные совокупности. Переходя к анализу двумерных данных, мы рассмотрим коэффициент корреляции (correlation), позволяющий измерить степень зависимости между двумя переменными. В заключении обсуждаются различные ловушки, которые подстерегают исследователей при вычислении основных числовых характеристик, а также некоторые этические проблемы. 3.1. ИССЛЕДОВАНИЕ ЧИСЛОВЫХ ДАННЫХ И ИХ СВОЙСТВ Выбор инвестиционной стратегии должен начинаться с анализа среднегодовой доходности фондов за пять последних лет, прошедших до 31 декабря 2001 года. Целесообразно сравнить доходность фондов, имеющих разную степень риска. Для начала исследуем доходность 15 фондов с очень высоким уровнем риска. Можно предположить, что доходность этих фондов очень переменчива, однако превышает показатели других фондов. Среднегодовая доходность фондов с очень высоким уровнем риска за последние пять лет приведена на рис. 3.1.
A j В Фонд Пятилетняя 2 jAmer. Century GiftTrust Inv. 3 AXP Stategy Aggressive A 4 Berger Small Company Growth Inv 5 Consulting Group Small Cap Growth 6 Fidelity Aggressive Growth 7 Invesco Growth Inv 8 Janus Enterprise 9 Janus Venture 10 John Hancock Small Cap Growth A VViWiS Wiid Cap Equity Tr. В 12 PBHG Growth Putnam OTC Emerging Growth A 14 I RS Emerging Growth A 15 Rydex OTC Inv 16 Van Kampen Aggressive Growth A ; -2.8 5.5 8.3 4.3 5.9 -0,7 6.5 9,8 73 9.6 -1.2 -6,1 18,5 13,1 12,9 Рис. 3.1. Среднегодовая доходность фондов с очень высоким уровнем риска за последние ПЯТЬ лет ^MUTUAL FUNDS . XLS Какие выводы можно сделать на основе полученных данных? Упорядочим 15 фондов с очень высоким уровнем риска в порядке возрастания их доходности. -6,1 -2,8 -1,2 -0,7 4,3 5,5 5,9 6,5 7,6 8,3 9,6 9,8 12,9 13,1 18,5 Проанализировав эту выборку, мы можем сформулировать следующие выводы. 1. Взаимные фонды имеют разную доходность. 2. Доходность взаимных фондов с очень высоким уровнем риска за последние пять лет колеблется от -6,1 до 18,5. 3. Только один взаимный фонд имеет чрезвычайно высокую пятилетнюю доходность — фонд RS Emerging Growth А (18,5%). Число 18,5 можно считать выбросом (outlier), или экстремальным значением. Как консультант по финансовым вопросам, вы обязаны заинтересоваться причинами таких необычно высоких показателей. Сравнение характеристик фонда, имеющего чрезвычайно высокие доходы, с остальными фондами, приносящими средний доход, поможет разработать более эффективную инвестиционную стратегию. Однако более глубокие выводы можно сделать, лишь обладая полной информацией о финансовом положении фондов. Чтобы понять причины, определяющие доходность основной массы фондов, необходимо определить основные характеристики существующей числовой информации: среднее значение, вариацию и форму распределения. 3.2. ОПРЕДЕЛЕНИЕ СРЕДНЕГО ЗНАЧЕНИЯ, ВАРИАЦИИ И ФОРМЫ РАСПРЕДЕЛЕНИЯ В большинстве случаев данные концентрируются вокруг некоей центральной точки. Таким образом, чтобы описать любой набор данных, достаточно указать некое типичное значение. Эту величину называют средним значением (central tendency, or location). В этом разделе рассматриваются три числовые характеристики, которые используются для оценки среднего значения распределения: среднее арифметическое (arithmetic mean), медиана (median) и мода (mode).
Среднее арифметическое Среднее арифметическое (часто называемое просто средним) — наиболее распространенная оценка среднего значения распределения. Она является результатом деления суммы всех наблюдаемых числовых величин на их количество. Для выборки, состоящей из чисел Х2, ..., Хп, выборочное среднее (обозначаемое символом X ) равно - _Х{+Х2+... +Хп А —------------- . П Чтобы упростить формулы, сумма элементов выборки обозначается как1 V.V. Иначе говоря, уХ' = х} + х2 + ...+хп. ВЫБОРОЧНОЕ СРЕДНЕЕ t*. Х = ^--, (3.1) и где X — выборочное среднее, п — объем выборки, X, — i-й элемент выборки, —сумма всех элементов выборки. Рассмотрим вычисление среднего арифметического значения пятилетней среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска. Фонд Доходность Amer. Century GiftTrust Inv. Х\ =-2,8 AXP Strategy Aggressive A X2 = 5,5 Berger Small Company Growth Inv X3 = 8,3 Consulting Group Small Cap Growth A>4,3 Fidelity Aggressive Growth X5 = 5,9 Invesco Growth Inv Xfi = -0,7 Janus Enterprise XT = 6,5 Janus Venture X8=9,8 John Hancock Small Cap Growth A X9=7,6 MS Mid Cap Equity Tr. В x;0=9,6 PBHG Growth Xn = -1,2 Putnam OTC Emerging Growth A ^=-6,1 1 Обозначения суммы обсуждаются в приложении Б.
Фонд RS Emerging Growth А Rydex ОТС Inv Van Kampen Aggressive Growth A Доходность X13 = 18,5 X14=13,l X15 = 12,9 Выборочное среднее вычисляется следующим образом. 15 _ -2,8 + 5,5 + ...+ 12,9 п 91,2 -— = 6,08. 15 Итак, среднее значение годовой доходности взаимных фондов с очень высоким уровнем риска равно 6,08. Это хороший доход, особенно по сравнению с 3-4% дохода, который получили вкладчики банков или кредитных союзов за тот же период времени. Кроме того, на точечной масштабированной диаграмме (dot scale diagram), приведенной на рис. 3.2, видно, что восемь фондов имеют доходность выше, а семь — ниже среднего значения. Как видим, среднее арифметическое играет роль точки равновесия (balancing point), так что фонды с низкими доходами уравновешивают фонды с высокими доходами. В вычислении среднего задействованы все элементы выборки (Хт, Х2, ..., Х15). Ни одна из других оценок среднего значения распределения не обладает этим свойством. Фонды с очень высоким риском Рис. 3.2. Точечная масштабированная диаграмма среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска, построенная с помощью программы Microsoft Excel КОГДА СЛЕДУЕТ ВЫЧИСЛЯТЬ СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ Поскольку среднее арифметическое зависит от всех элементов выборки, наличие ; экстремальных значений значительно влияет на результат. В таких ситуациях среднее арифметическое может исказить смысл числовых данных. Следовательно, описывая набор данных, содержащий экстремальные значения, необходимо указывать медиану либо среднее арифметическое и медиану.
Чтобы продемонстрировать влияние выбросов на вычисление среднего значения распределения, удалим из выборки доходность фонда RS Emerging Growth А.2 ПРИМЕР 3.1. ВЫЧИСЛЕНИЕ СРЕДНЕГО АРИФМЕТИЧЕСКОГО ПОСЛЕ УДАЛЕНИЯ ВЫБРОСА РЕШЕНИЕ. Выборочное среднее доходности 14 фондов вычисляется следующим образом. п - _ _ -2,8 + 5,5 + 8,3...+ 12,9 .А —-----—----------------------. п 14 После удаления показателей фонда RS Emerging Growth А среднее арифметическое уменьшается с 6,08 до 5,19. Эти результаты отражены на новой точечной масштабированной диаграмме (рис. 3.3). Фонды с очень высоким риском Рис. 3.3. Точечная масштабированная диаграмма среднегодовой доходности 14 взаимных фондов с высоким уровнем риска, построенная с помощью программы Microsoft Excel Процедуры Excel: создание точечных масштабированных диаграмм Для создания точечной диаграммы можно применить процедуру надстройки PHStat2 или вручную настроить рабочий лист, содержащийся в рабочей книге Chapter 3.xls. (В программе Microsoft Excel не предусмотрена процедура автоматического создания точечной масштабированной диаграммы.) Например, чтобы построить точечную диаграмму, изображенную на рис. 3.2, нужно открыть рабочую книгу Chapter 3.xls и выполнить одну из следующих процедур. Чтобы исследовать влияние выброса на среднее арифметическое значение или медиану, зайдите в раздел Visual Explorations на компакт-диске и выберите пункт Descriptive Statistics (Описательная статистика).
Применение Excel в сочетании с надстройкой PHStatZ Для того чтобы создать точечную масштабированную диаграмму на новом рабочем листе, содержащем копию исходных данных, следует выполнить процедуру Dot Scale Diagram надстройки PHStat2, руководствуясь инструкциями, приведенными ниже. 1. Выбрать команду PHStat^Descriptive Statistics* 1^Dot Scale Diagram... (PHStatZОписательная статистика^Точечная диаграмма...). 2. В диалоговом окне Dot Scale Diagram выполнить следующее. 2.1. Ввести в окне редактирования Variable Cell Range (Входной интервал) диапазон и: 116. 2.2. Установить флажок First cell contains label (Первая ячейка содержит метку). 2.3. Ввести название диаграммы в окне редактирования Title (Заголовок). 2.4. Щелкнуть на кнопке ОК. Эта процедура размещает точечную масштабированную диаграмму на новом рабочем листе. Изменяя данные, записанные в столбце А, можно наблюдать изменения, происходящие на диаграмме. Применение Excel Откройте рабочую книгу Chapter 3 на листе Точечная_диаграмма и следуйте инструкциям, приведенным в разделе ЕН3.1. Chapter 3.xls Диаграмма, изображенная на рис. 3.2, содержится в рабочей книге Chapter 3. xls на листе Рис3.1. Медиана Медиана (median) представляет собой срединное значение упорядоченного массива чисел. Если массив не содержит повторяющихся чисел, то половина его элементов окажется меньше, а половина — больше медианы. Если выборка содержит экстремальные значения, для оценки среднего значения лучше использовать не среднее арифметическое, а медиану. Чтобы вычислить медиану выборки, ее сначала необходимо упорядочить. МЕДИАНА Медианой называется число, разделяющее выборку пополам: 50% элементов меньше медианы, а 50% — больше. п +1 Медиана =----и элемент упорядоченного массива. (3.2) Формула (3.2) неоднозначна. Ее результат зависит от четности или нечетности числа п. т-1 - « + 1 1. Если выборка содержит нечетное количество элементов, медиана равна —-—му элементу. 2. Если выборка содержит четное количество элементов, медиана лежит между двумя средними элементами выборки и равна среднему арифметическому, вычисленному по этим двум элементам. Чтобы вычислить медиану выборки, содержащей данные о доходности 15 взаимных фондов с очень высокий уровнем риска, сначала необходимо упорядочить исходные данные.
-6,1 -2,8 -1,2 -0,7 4,3 5,5 5,9 6,5 7,6 8,3 9,6 9,8 12,9 13,1 18,5 т Медиана = 6,5 г 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 В соответствии с правилом 1, относящимся к выборкам, содержащим нечетное количество элементов, позигция медианы вычисляется по формуле к + 1 15 + 1 _ ----=-----= о. 2 2 Таким образом, медиана равна 6,5. Это означает, что доходность одной половины фондов с очень высоким уровнем риска не превышает 6,5, а доходность второй половины — превышает ее. Обратите внимание на то, что медиана, равная 6,5, ненамного больше среднего значения, равного 6,08. ПРИМЕР 3.2. ВЫЧИСЛЕНИЕ МЕДИАНЫ ВЫБОРКИ, СОДЕРЖАЩЕЙ ЧЕТНОЕ КОЛИЧЕСТВО ЭЛЕМЕНТОВ В выборке, содержащей данные о взаимных фондах, упоминаются шесть фондов с очень низким уровнем риска. Вычислите медиану их среднегодовой доходности за последние пять лет. РЕШЕНИЕ. Упорядоченный массив теперь выглядит так . 11 12 12,1 12,3 15,1 18,2 Упорядоченные наблюдения: 12 3? 456 Медиана = 12,2 Согласно правилу 2, относящемуся к вычислению медианы выборки, содержащей четное количество элементов, позиция медианы задается формулой /7 + 1 _ 6 + 1 5 2 “ 2 ” ’ Следовательно, медиана равна среднему значению, вычисленному по третьему и четвертому элементам, т.е. 12,2. Мода Мода (mode) — это число, которое чаще других встречается в выборке. В отличие от среднего арифметического, выбросы на моду не влияют. Моду используют исключительно для иллюстрации, поскольку она сильнее зависит от конкретной выборки, чем другие оценки среднего значения. Для непрерывно распределенных случайных величин, например, для показателей среднегодовой доходности взаимных фондов, мода иногда вообще не существует. Поскольку эти показатели могут принимать самые разные значения, повторяющиеся величины встречаются крайне редко. Продемонстрируем вычисление моды на следующем примере.
ПРИМЕР 3.3. ВЫЧИСЛЕНИЕ МОДЫ Системный администратор, руководящий работой корпоративной сети, подсчитывает количество сбоев сервера, происходящих за день. В следующей таблице приведены данные его наблюдений за последние две недели. 1303 26 274023 3 6 3 Вычислите моду этой выборки . РЕШЕНИЕ. Упорядочим массив. 00122333334 6 7 26 Чаще всего в этой выборке повторяется число 3. Следовательно, мода равна 3. Таким образом, системный администратор может утверждать, что, как правило, сервер сбоит 3 раза в день. Обратите внимание на то, что мода этой выборки равна 3, а среднее выборочное значение равно 4,5. Число 26 является выбросом, поэтому для оценки среднего количества сбоев за день следует пользоваться медианой или модой, а не средним арифметическим значением. Приведем пример, в котором ни одно значение не повторяется дважды, т.е. выборка не имеет моды. ПРИМЕР 3.4. ВЫБОРКА, НЕ ИМЕЮЩАЯ МОДЫ Вычислите моду выборки, содержащей данные о среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска. РЕШЕНИЕ. Упорядочим массив. -6,1 -2,8 -1,2 -0,7 4,3 5,5 5,9 6,5 7,6 8,3 9,6 9,8 12,9 13,1 18,5 Эта выборка не имеет моды, поскольку ни одно из значений не повторяется дважды. Квартили Квартили (quartiles) — это показатели, которые чаще всего используются для оценки распределения данных при описании свойств больших числовых выборок. В то время как медиана разделяет упорядоченный массив пополам (50% элементов массива меньше медианы и 50% — больше), квартили разбивают упорядоченный набор данных на четыре части. Квартили3 вычисляются по формулам (3.3) и (3.4). ПЕРВЫЙ КВАРТИЛЬ, Q Первый квартиль Qx — это число, разделяющее выборку на две части: 25% элементов меньше, а 75% — больше первого квартиля. „ "+l А /О ОХ =—-—и элемент упорядоченного массива. (о.о) Величины Q,, медиана и Q3 являются 25-м, 50-м и 75-м перцентилем соответственно. Формулы (3.2)-(3.4) можно переписать в терминах перцентилей: (рхЮО)-й перцентиль = п+1)-му на- блюдению.
ТРЕТИЙ КВАРТИЛЬ, Q3 Третий квартиль Q3 — это число, разделяющее выборку на две части: 75% элементов меньше, а 25% — больше третьего квартиля. _ 3(/7 +.1) элемент упорядоченного массива. (3.4) 4 Для вычисления квартилей применяются следующие правила. 1. Если индекс квартиля задается целым числом, значением квартиля считается элемент выборки с указанным индексом. 2. Если индекс квартиля задается величиной, представляющей собой среднее значение, вычисленное по двум целым числам, квартиль равен среднему арифметическому, вычисленному по элементам, индексы которых равны этим двум числам. 3. Если индекс квартиля задается числом, которое не является целым и не кратно 1/2, он просто округляется до ближайшего целого. Квартилем считается элемент с указанным индексом. Вычислим квартили выборки, содержащей данные о среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска. Упорядоченный массив имеет следующий вид. -6,1 -2,8 -1,2 -0,7 4,3 5,5 5,9 6,5 7,6 8,3 9,6 9,8 12,9 13,1 18,5 Следовательно, к + 1 „ Q. -----и элемент упорядоченного массива, 4 15 + 1 л индекс квартиля = —-— = 4 . Таким образом, согласно правилу 1 первый квартиль является четвертым элементом упорядоченного массива. £,=-0,7. Это означает, что доходность 25% фондов с очень высоким уровнем риска не превышает -0,7%. Кроме того, п 3(и + 1) . Q3 =-------и элемент упорядоченного массива, 3(15 + 1) индекс квартиля =-------= 12. Таким образом, по правилу 1 третий квартиль является двенадцатым элементом упорядоченного массива. Q3 = 9,8. Среднее геометрическое В отличие от среднего арифметического среднее геометрическое (geometric mean) и среднее геометрическое значение нормы прибыли (geometric rate of return) позволяют оценить степень изменения переменной с течением времени. Среднее геометрическое определяется формулой (3.5).
СРЕДНЕЕ ГЕОМЕТРИЧЕСКОЕ Среднее геометрическое — это корень n-й степени из произведения п величин. %с=(Х,хХ2х...хХ„)Х. (3.5) Среднее геометрическое значение нормы прибыли определяется формулой (3.6). СРЕДНЕЕ ГЕОМЕТРИЧЕСКОЕ ЗНАЧЕНИЕ НОРМЫ ПРИБЫЛИ =[(1 + л|)х(1 + /г,)х...х(1 + л„)]^-1, (3.6) где R — норма прибыли за i-й период времени. Проиллюстрируем эти числовые характеристики следующим примером. Предположим, что объем вложенных средств в исходный момент времени равен 100 000 долл. К концу первого года он падает до уровня 50 000 долл., а к концу второго года восстанавливается до исходной отметки 100 000 долл. Норма прибыли этой инвестиции за двухлетний период равна 0, поскольку первоначальный и финальный объем средств равны между собой. Однако среднее арифметическое годовых норм прибыли равно -0,50 + 1,00 п ------------= 0,25 , или 25%, 2 поскольку норма прибыли за первый год равна D 50 000-10 000 к_0/ R. --------------= -0,50 , или -50%, 100 000 а за второй год — _ 100 000-50 000 R, =--------------= 1,00 , или 100% . 100 000 В то же время, среднее геометрическое значение нормы прибыли за два года в соответствии с формулой (3.6) равно Re =[(1+Р1)х (1+Я2)]1/2-1 =[(1-0,5)х (1+1)]1 г-1 = [0,5x2,0]В * * * 12-1 = 1-1 = 0. Таким образом, среднее геометрическое точнее отражает изменение (точнее, отсутствие изменений) объема инвестиций за двухлетний период, чем среднее арифметическое. Второе важное свойство числовых данных — их вариация, характеризующая степень дисперсии (dispersion) данных. Две разные выборки могут отличаться как средними значениями, так и вариациями. Однако, как показано на рис. 3.4 и 3.5, две выборки могут иметь одинаковые вариации, но разные средние значения, либо одинако- вые средние значения и совершенно разные вариации. Данные, которым соответствует полигон Б на рис. 3.5, изменяются намного меньше, чем данные, по которым построен полигон А.
Рис. 3.4. Два симметричных распределения колоколообразной формы с одинаковым разбросом и разными средними значениями Рис. 3.5. Два симметричных распределения колоколообразной формы с одинаковыми средними значениями и разным разбросом Существует пять оценок вариации данных: размах (range), межквартильный размах (interquartile range), дисперсия (variance), стандартное отклонение (standard deviation) и коэффициент вариации (coefficient of variation). Размах Размахом (range) называется разность между наибольшим и наименьшим элементами выборки. РАЗМАХ Размах — это разность между наибольшим и наименьшим элементами выборки. Размах = Хтах - Хтт. (3.7) Размах выборки, содержащей данные о среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска, можно вычислить, используя следующий упорядоченный массив. -6,1 -2,8 -1,2 -0,7 4,3 5,5 5,9 6,5 7,6 8,3 9,6 9,8 12,9 13,1 18,5 Используя формулу (3.7), получаем, что размах равен 38,16 - 28,39 = 24,6. Это значит, что разница между наибольшей и наименьшей среднегодовой доходностью фондов с очень высоким уровнем риска равна 24,6% .
Размах позволяет измерить общий разброс (total spread) данных. Хотя размах выборки является весьма простой оценкой общего разброса данных, его слабость заключается в том, что он никак не учитывает, как именно распределены данные между минимальным и максимальным элементами. Этот эффект хорошо прослеживается на рис. 3.7, который иллюстрирует выборки, имеющие одинаковый размах. Шкала В демонстрирует, что если выборка содержит хотя бы одно экстремальное значение, размах выборки оказывается весьма неточной оценкой разброса данных. о 7 8 9 Шкала А Шкала Б 11 12 13 13 7 8 9 10 11 Шкала В Рис. 3.6. Сравнение трех выборок, имеющих одинаковый размах Межквартильный размах Межквартильный, или средний, размах (interquartile range, or midspread) — это разность между третьим и первым квартилями выборки. МЕЖКВАРТИЛЬНЫЙ РАЗМАХ Межквартильный размах — это разность между третьим и первым квартилями выборки. Межквартильный размах = Q3 - Qx. (3.8) L . ______ ... , ___ _____________ ____________ _ Эта величина позволяет оценить разброс 50% элементов и не учитывать влияние экстремальных элементов. Межквартильный размах выборки, содержащей данные о среднегодовой доходности 15 взаимных фондов с очень высоким уровнем риска, можно вычислить, используя следующий упорядоченный массив. -6,1 -2,8 -1,2 -0,7 4,3 5,5 5,9 6,5 7,6 8,3 9,6 9,8 12,9 13,1 18,5 Используя вычисленные ранее значения Q± и Q3, а также формулу (3.8), получаем следующий результат. Межквартильный размах = Q3 - Qx = 9,8 - (-0,7) = 10,5. Эта величина характеризует размах половины выборки, содержащей данные о среднегодовой доходности 15 взаимных фондов с высоким уровнем риска. Интервал, ограниченный числами 9,8 и -0,7, часто называют средней половиной.
Следует отметить, что величины Qx и Q3, а значит, и межквартильный размах, не зависят от наличия выбросов, поскольку при их вычислении не учитывается ни одна величина, которая была бы меньше Qx или больше Q3. Суммарные количественные характеристики, такие как медиана, первый и третий квартили, а также межквартильный размах, на которые не влияют выбросы, называются устойчивыми показателями (resistant measures). Дисперсия и стандартное отклонение Хотя размах и межквартильный размах позволяют оценить общий и средний разброс выборки соответственно, ни одна из этих оценок не учитывает, как именно распределены данные. Дисперсия и стандартное отклонение лишены этого недостатка. Эти показатели позволяют оценить степень колебания данных вокруг среднего значения. Выборочная дисперсия является приближением среднего арифметического, вычисленного на основе квадратов разностей между каждым элементом выборки и выборочным средним. Для выборки Хх, Х2, ..., Хп выборочная дисперсия (обозначаемая символом S2) задается следующей формулой. (X,-y)2+(X;-X)2 + ... + (X„-Z); п — \ ВЫБОРОЧНАЯ ДИСПЕРСИЯ Выборочная дисперсия — это сумма квадратов разностей между элементами выборки и выборочным средним, деленная на величину, равную объему выборки минус один. S'= —--------, (3.9) /7-1 где X — арифметическое среднее, п — объем выборки, X, — i-й элемент выборки X, -X)" — сумма квадратов разностей между элементами выборки и выборочным /=1 средним. Если бы знаменатель был равен п, а не п-1, мы получили бы среднее арифметическое квадратов разностей между элементами выборки и выборочным средним. Однако в этом случае выборочная дисперсия S2 не обладала бы свойствами, необходимыми в теории статистических выводов, которую мы рассмотрим в главе 6. При увеличении объема выборки различие между оценками, полученными при делении на п и п-1, становится все меньше. Наиболее практичной и широко распространенной оценкой разброса данных является стандартное выборочное отклонение (sample standard deviation). Этот показатель обозначается символом S и равен квадратному корню из выборочной дисперсии.
СТАНДАРТНОЕ ВЫБОРОЧНОЕ ОТКЛОНЕНИЕ Стандартное выборочное отклонение — квадратный корень из суммы квадратов разностей между элементами выборки и выборочным средним, деленной на величину, равную объему выборки минус один. (3.10) Рассмотрим этапы вычисления выборочной дисперсии и стандартного выборочного отклонения (врезка 3.1). ВРЕЗКА 3.1. ВЫЧИСЛЕНИЕ ПОКАЗАТЕЛЕЙ S2 MS Чтобы вычислить выборочную дисперсию, следует выполнись следующее. ; • Вычислить разность между каждым элементом выборки и выборочным средним. • Возвести каждую разность в квадрат. • Сложить все разности, возведенные в квадрат. ♦ Поделить результат на п~1. Чтобы вычислить показатель S, т.е. стандартное выборочное отклонение, необхо- ; димо извлечь квадратный корень из выборочной дисперсии. Чтобы вычислить выборочную дисперсию и стандартное выборочное отклонение доходности взаимных фондов с очень высоким уровнем риска, следует применить описанный выше алгоритм к данным, приведенным на рис. 3.8. (Выборочное среднее показателей доходности фондов с очень высоким уровнем риска вычислено ранее и равно 6,08.) X {Xj-X) (Х,-Х)2 A J В I 1 Фонд Xi Пятилетняя доходность /С 1 XBar / D (Xi-XBai) / ! (Xi-Xbai)A2 2 Amer. Century GiftTrust Inv. -2,8 6,08 -8,88 78,854 3 AXP Stategy Aggressive A 5,6 6,08 -0,58 0,336 4 Berger Small Company Growth Inv 8,3 6,08 2,22 4,928 5 j Consulting Group Small Cap Growth 4,3 6,08 -1,78 3,168 6 {Fidelity Aggressive Growth 5,9 6,08 -0,18 0,032. 7 jlnvesco Growth Inv -0,7 6,08 -6,78 45,968 8 iJanus Enterprise 6,5 6,08 0,42 0,176 э : iJanus Venture 9.8 6,08 3,72 13,838 10 jJohn Hancock Small Cap Growth A 7,6 6,08 1,52 2,310 11 IMS Mid Cap Equity Tr. В 9.6 6,08 3,52 12,390 12 IPBHG Growth -1,2 6,08 -7,28 52,998 131 Putnam OTC Emerging Growth A -6,1 6,08 -12,18 148,352 14 RS Emerging Growth A 18,5 6,08 12,42 154,256 "is1 Rydex OTC Inv 13,1 6,08 7,02 49,280 16 Van Kampen Aggressive Growth A 12,9 6,08 6,82 46,512 Суммы: 0,00 613,404 £ (Х-х> £ (х,-х)2 /=1 /=1 Рис. 3.7. Вычисление выборочной дисперсии и стандартного выборочного отклонения среднегодовых показателей доходности фондов с очень высоким уровнем риска за последние пять лет
В соответствии с формулой (3.9) выборочная дисперсия равна .2 (—2,8-6,08)2+(5,5-6,08)!+... + (12,9-6,08)2 613,404 э —----------= ------------------------------------= -------= 4 3, б 14о. п-1 15-1 14 Формула (3.10) позволяет вычислить стандартное выборочное отклонение. S = y/S2 = ----j----- ^/43,8146 = 6,62. В ходе этих вычислений разность между каждым элементом выборки и выборочным средним возводится в квадрат. Следовательно, ни выборочная дисперсия, ни стандартное выборочное отклонение не могут быть отрицательными. Единственная ситуация, в которой показатели S2 и S могут быть нулевыми, — если все элементы выборки равны между собой. В этом совершенно невероятном случае размах и межквартильный размах также равны нулю. Числовые данные по своей природе изменчивы. Любая переменная может принимать множество разных значений. Например, разные взаимные фонды имеют разные показатели доходности и убытков. Вследствие изменчивости числовых данных очень важно изучать не только оценки среднего значения, которые по своей природе являются суммарными, но и оценки дисперсии, характеризующие разброс данных. ИНТЕРПРЕТАЦИЯ ДИСПЕРСИИ И СТАНДАРТНОГО ОТКЛОНЕНИЯ Дисперсия и стандартное отклонение позволяют оценить разброс данных вокруг среднего значения, иначе говоря, определить, сколько элементов выборки меньше среднего, а сколько — больше. Дисперсия обладает некоторыми ценными математическими свойствами. Однако ее величина представляет собой квадрат единицы измерения — квадратный процент, квадратный доллар, квадратный дюйм и т.п. Следовательно, естественной оценкой дисперсии является стандартное отклонение, которое выражается в обычных единицах измерений — процентах дохода, долларах или : дюймах. Стандартное отклонение позволяет оценить величину колебаний элементов выборки вокруг среднего значения. Практически во всех ситуациях основное количество наблюдаемых величин лежит в интервале плюс-минус одно стандартное отклонение от среднего значения. Следовательно, зная среднее арифметическое элементов выборки и стандартное выборочное отклонение, можно определить интервал, которому принадлежит основная масса данных. ЧТО ОЗНАЧАЕТ СТАНДАРТНОЕ ОТКЛОНЕНИЕ Стандартное отклонение доходности 15 взаимных фондов с очень высоким уровнем риска равно 6,62. Это значит, что доходность основной массы фондов отличается от среднего значения не более чем на 6,62% (т.е. колеблется в интервале от X - S = -’0,54 : до X + S = 12,70). Фактически в этом интервале лежит пятилетняя среднегодовая до- . ходность 53,3% (8 из 15) фондов. Обратите внимание на то, что квадраты разностей суммируются следующим образом: ш-*)2 7=1
В процессе суммирования элементы выборки, лежащие дальше от среднего значения, приобретают больший вес, чем элементы, лежащие ближе. Соответствующие значения квадратов разностей приведены в последнем столбце на рис. 3.8. Обратите внимание на то, что тринадцатое значение Х13 = 18,5 соответствует фонду RS Emerging Growth А, доходность которого дальше всех отклоняется от среднего значения, равного 6,08. При возведении в квадрат это значение вносит в суммы S2 и S наибольший вклад. Кроме того, сумма квадратов всех разностей в четвертом столбце равна 0 (если не учитывать ошибки округления). £(х,-х)=о. /=1 Это свойство является основной причиной того, что для оценки среднего значения распределения чаще всего используется среднее арифметическое значение. Свойства размаха, межквартильного размаха, дисперсии и стандартного отклонения изложены во врезке 3.2. ВРЕЗКА 3.2. ХАРАКТЕРИСТИКИ ИЗМЕНЧИВОСТИ ДАННЫХ • Чем больший разброс имеют данные, тем больше их размах, межквартильный размах, дисперсия и стандартное отклонение. • Чем более концентрированы, или однородны, данные, тем меньше их размах, межквартильный размах, дисперсия и стандартное отклонение. • Если все элементы выборки равны между собой (т.е. разброс отсутствует), межквартильный размах, дисперсия и стандартное отклонение равны нулю. • Ни одна из оценок изменчивости данных (размах, межквартильный размах, дисперсия и стандартное отклонение) не может быть отрицательной. Пример 3.5 иллюстрирует изменение стандартных выборочных отклонений. ПРИМЕР 3.5. СРАВНЕНИЕ СТАНДАРТНЫХ ОТКЛОНЕНИЙ Сравните разброс доходности фондов с очень низким, низким, средним, высоким и очень высоким уровнями риска, вычислив среднее отклонение для каждой из этих категорий. РЕШЕНИЕ. Стандартные отклонения, вычисленные с помощью программы Microsoft Excel, приведены ниже. Очень низкий риск: 8 = 2,700. Низкий риск: 8 = 3,583. Средний риск: 8 = 4,179. Высокий риск: 8 = 4,543. Очень высокий риск: 8 = 6,620. Разброс доходности фондов с очень высоким и высоким уровнями риска превышает разброс доходности фондов со средним уровнем риска. В свою очередь, разброс доходности фондов со средним уровнем риска превышает разброс доходности фондов с низким и очень низким уровнями риска. Показатели доходности фондов с низким уровнем риска более плотно концентрируются вокруг своего среднего значения, чем показатели фондов с высоким уровнем риска. Иначе говоря, инвесторы фондов с высоким уровнем риска имеют больше шансов получить доход меньше среднего значения. С другой стороны, велика вероятность того, что эти инвесторы получат чрезвычайно высокий доход.
VISUAL EXPLORATIONS: исследование описательных статистик Для исследования описательных статистик следует применить процедуру Descriptive Statistics из программы Visual Explorations. Эта процедура создает точечную диаграмму, изображенную на рисунке. Она иллюстрирует данные о доходности 15 взаимных фондов с очень высоким уровнем риска. Чтобы выполнить эту процедуру, сделайте следующее. 1. Откройте рабочую книгу макросов Visual Explorations .xla. 2. Выберите команду Visual Exploration^Descriptive Statistics (Visual Ехр1ога^опФОписательная статистика). 3. Изучите инструкции и щелкните на кнопке ОК в открывшемся диалоговом окне. 4. Измените данные в диапазоне ячеек А2: А1 б и оцените изменения, происшедшие со статистиками. Попробуйте, например, изменить максимальное выборочное значение 18,5 на 85 и определите новые значения среднего и медианы. Коэффициент вариации В отличие от предыдущих оценок разброса, коэффициент вариации (coefficient of variation) является относительной оценкой (relative measure). Он всегда измеряется в процентах, а не в единицах измерения исходных данных. Коэффициент вариации, обозначаемый символами CV, измеряет рассеивание данных относительно среднего значения.
КОЭФФИЦИЕНТ ВАРИАЦИИ Коэффициент вариации равен стандартному отклонению, деленному на среднее арифметическое и умноженному на 100% . СГ = -£х100% , (3.11) где S — стандартное выборочное отклонение, X — выборочное среднее. Коэффициент вариации доходности фондов с очень низким, низким, средним, высоким и очень высоким уровнями риска вычисляется следующим образом. Сначала вычисляются средние арифметические и стандартные отклонения доходности в каждой категории. Очень низкий риск: X = 13,45 8 = 2,70. Низкий риск: X = 12,234 8 = 3,583. Средний риск: X =11,209 8 = 4,179. Высокий риск: X = 9,547 8 = 4,543. Очень высокий риск: X = 6,08 8 = 6,62. Следуя формуле (3.11), получаем: V 2 70 Очень низкий риск: CV = — х 100% = —-—х 100% - 20,07%. X 13,45 Низкий риск: CV = Jtx 100% - 3’583 * _ 29 29%. X 12,234 V 4 179 Средний риск: CV = -= х 100% = х 100% - 37,28%. Высокий риск: CV = -£гх 100% = 4,543 х 100% = 47,58%. X 9,547 Очень высокий риск: CV = х 100% = х 100% = 108,88%. X 6,08 Как видим, чем выше риск, тем больше относительный разброс доходности вокруг среднего значения. Обратите внимание на то, что фонды с низким и средним уровнями риска имеют более высокую среднюю доходность и меньший коэффициент вариации, чем фонды с высоким уровнем риска. Это означает, что эффективность фондов со средним уровнем риска выше, чем эффективность фондов с высоким уровнем риска. Коэффициент вариации позволяет также сравнить две выборки, элементы которых выражаются в разных единицах измерения. ПРИМЕР 3.6. СРАВНЕНИЕ ДВУХ КОЭФФИЦИЕНТОВ ВАРИАЦИИ, КОГДА ПЕРЕМЕННЫЕ ВЫРАЖАЮТСЯ В РАЗНЫХ ЕДИНИЦАХ ИЗМЕРЕНИЯ Управляющий службы доставки корреспонденции намеревается обновить парк грузовиков. При погрузке пакетов следует учитывать два вида ограничений: вес (в фунтах) и объем (в кубических футах) каждого пакета. Предположим, что в выборке, содержащей 200 пакетов, средний вес равен 26,0 фунтов, стандартное отклонение веса— 3,9 фунтов, средний объем пакета — 8,8 кубических футов, а стандартное отклонение объема — 2,2 кубических фута. Как сравнить разброс веса и объема пакетов?
РЕШЕНИЕ. Поскольку единицы измерения веса и объема отличаются друг от друга, управляющий должен сравнить относительный разброс этих величин. Коэффициент 3 9 вариации веса равен CVW = ——х 100% = 15,0%, а коэффициент вариации объема — 26,0 2 2 СГГ =---х 100% = 25,0% . Таким образом, относительный разброс объема пакетов на- 8,8 много больше относительного разброса их веса. Форма распределения Третье важное свойство выборки — форма ее распределения. Это распределение может быть симметричным (symmetrical) или асимметричным (asymmetrical). Чтобы описать форму распределения, необходимо вычислить его среднее значение и медиану. Если эти два показателя совпадают, переменная считается симметрично распределенной (zero-skewed). Если среднее значение переменной больше медианы, ее распределение имеет положительную асимметрию (right-skewed). Если медиана больше среднего значения, распределение переменной имеет отрицательную асимметрию (left-skewed). Положительная асимметрия возникает, когда среднее значение увеличивается до необычайно высоких значений. Отрицательная асимметрия возникает, когда среднее значение уменьшается до необычайно малых значений. Переменная является симметрично распределенной, если она не принимает никаких экстремальных значений ни в одном из направлений, так что большие и малые значения переменной уравновешивают друг друга. Три вида распределений, описанных выше, изображены на рис. 3.8. Шкала А Распределение с отрицательной асимметрией Шкала Б Симметричное распределение Шкала В Распределение с положительной асимметрией Рис. 3.8. Сравнение разных видов распределения
Данные, изображенные на панели А, имеют отрицательную асимметрию. На этом рисунке виден длинный хвост и перекос влево, вызванные наличием необычно малых значений. Эти крайне малые величины смещают среднее значение влево, и оно становится меньше медианы. Данные, изображенные на панели Б, распределены симметрично. Левая и правая половины распределения являются своими зеркальными отражениями. Большие и малые величины уравновешивают друг друга, а среднее значение и медиана равны между собой. Данные, изображенные на панели В, имеют положительную асимметрию. На этом рисунке виден длинный хвост и перекос вправо, вызванные наличием необычайно высоких значений. Эти слишком большие величины смещают среднее значение вправо, и оно становится больше медианы. Показатели доходности 15 взаимных фондов с очень высоким уровнем риска приведены на точечной масштабированной диаграмме, показанной на рис. 3.2. Что можно сказать о виде распределения этих данных? Среднее значение равно 6,08, а медиана равна 6,50. Следовательно, поскольку среднее значение меньше медианы, распределение имеет отрицательную асимметрию. Вычисление описательных статистик с помощью программы Microsoft Excel Результаты вычисления количественных показателей распределения, полученные с помощью программы Microsoft Excel, приведены на рис. 3.9. А I В I с „I 0 . Е F | 1 Описательные статистики для фондов с разным уровнем риска 2 Очень низкий Низкий Средний Высокий: Очень высокий 3 | 4 {Среднее 13.45 12.23421 11,20854 9.786585 8.185714286 5 Стандартная ошибка 1.103554862 0.411009 0.46148 0.525165 1,449733731 6 Медиана 12.2 11.75 10,55 9,5 9,6 ' 7 ' Мода ‘Ж.Д 9.4 10,5 9,9 РНД 8^ Стандартное отклонение 2.703146315 3,583092 4.178877 4,755575 6.64351456 9 Дисперсия выборки 7.307 12 83855 17.46301 22.6155 44.13628571 10{Эксцесс 1.118103304 1,411879 1,478965 0,260427 -0.177778136 11 . Асимметричность 1.36586422 1,017377 0,965596 0,541774 -0,564394602 ^Интервал 7.2 18.4 23,5 22.4 24,6 JJJ Минимум 11 6,6 2.8 0,5 -6.1 14 IМаксимум 18.2 25 26.3 22.9 18,5 15{Сумма 80.7 929,8 919.1 802,5 171,9 ~16{Счет 6 76 82 82 21 17!Наибольший(1) 18.2 25 26.3 22,9 18,5 18 ]Наименыиий(1) 11 6.6 2.8 0.5 ^,1 Рис. 3.9. Описательные статистики пятилетней среднегодовой доходности фондов с очень низким, низким, средним, высоким и очень высоким уровнями риска, вычисленные с помощью программы Microsoft Excel Обратите внимание на то, что программа Microsoft Excel вычисляет арифметическое среднее, медиану, моду, стандартное отклонение, дисперсию, размах, минимум, максимум и объем выборки, т.е. все статистики, рассмотренные в главе. Кроме того, программа Excel вычисляет стандартную ошибку, эксцесс и асимметричность. Стандартная ошибка (standard error) равна стандартному отклонению, деленному на квадратный корень объема выборки (эта характеристика рассматривается в главе 6). Асимметричность (skewness) характеризует отклонение от симметричности распределения и является функцией, зависящей от куба разностей между элементами выборки и средним значением. Эксцесс (kurtosis) представляет собой меру относительной концентрации данных вокруг среднего значения по сравнению с хвостами распределения и зависит от разностей между элементами выборки и средним значением, возведенных в четвертую степень. Эти показатели в книге не рассматриваются [2].
Анализ рис. 3.9 ясно демонстрирует различия между описательными статистиками доходности фондов с разными уровнями риска. Наибольшей среднегодовой доходности достигли фонды с низким уровнем риска, в то же время фонды с высоким уровнем риска имеют наименьшую доходность. Средняя пяти летняя доходность фондов с очень низким уровнем риска равна 13,45%, а медиана — 12,2% . Средняя пяти летняя доходность фондов с низким уровнем риска равна 12,234%, а медиана— 11,75%. Средняя пятилетняя доходность фондов со средним уровнем риска равна 11,209%, а медиана — 10,55%. Средняя пятилетняя доходность фондов с высоким уровнем риска равна 9,547%, а медиана— 9,4%. Средняя пятилетняя доходность фондов с очень высоким уровнем риска равна 6,08%, а медиана — 6,5% . Аналогичные закономерности справедливы и для медиан. Например, пяти летняя среднегодовая доходность 50% взаимных фондов с низким уровнем риска не превышает 11,75%, пятилетняя среднегодовая доходность 50% взаимных фондов со средним уровнем риска не превышает 10,55%, а пятилетняя среднегодовая доходность 50% взаимных фондов с высоким уровнем риска не превышает 9,4%. Суммируя сказанное, можно утверждать: чем меньше уровень риска, тем меньше колебания доходности в соответствующей группе фондов. Стандартное отклонение среднегодовой доходности в группе фондов с очень низким уровнем риска равно 2,7, с низким уровнем риска — 3,583, со средним уровнем риска — 4,179, с высоким уровнем риска — 4,543 и с очень высоким уровнем риска — 6,62. Процедуры Excel: вычисление описательных статистик Для вычисления описательных статистик можно применить процедуру Анализ данных или статистические функции программы Excel. (Надстройка PHStat2 не предусматривает отдельной процедуры для вычисления описательных статистик, хотя некоторые процедуры, в частности, Stem-and-Leaf Display и Dot Scale Diagram также создают таблицы описательных статистик.) Для того чтобы вычислить описательные статистики, характеризующие распределение пятилетней среднегодовой доходности взаимных фондов, следует открыть рабочую книгу Chapter 3.xls на листе ОВРФонды и выполнить одну из следующих процедур. Вычисление описательных статистик. Выполните команду Анализ данных...^Описательная статистика и следуйте инструкциям, приведенным ниже. 1. Выберите команду Сервис^Анализ данных..., а затем — пункт Описательная статистика в списке Инструменты анализа. Щелкните на кнопке ОК. 2. В диалоговом окне Описательная статистика (см. иллюстрацию) выполните следующее. 2.1. Введите в окне редактирования Входной интервал диапазон 11:116. 2.2. Установите переключатель Группирование в положение По столбцам. 2.3. Установите флажок Метки в первой строке. 2.4. Установите переключатель Параметры вывода в положение Новый рабочий лист и введите имя листа, например Описательная статистика. 2.5. Установите флажок Итоговая статистика.
2.6. Установите флажки К-ый наименьший и К-ый наибольший, оставив неизменными значения, указанные в соответствующих окнах редактирования (1). Это позволит вычислить наименьший и наибольший элементы выборки. 2.7. Щелкните на кнопке ОК. Эта процедура размещает на новом листе вычисленные описательные статистики, в частности, арифметическое среднее, медиану, моду, стандартное отклонение, выборочную дисперсию, максимальный и минимальный элементы, а также объем выборки. Кроме того, в этой таблице содержится стандартная ошибка, которую мы рассмотрим в главе б, а также показатель асимметрии, характеризующий вид распределения, и эксцесс (kurtosis) - показатель относительной концентрации значений в центре распределения по сравнению с ее хвостами [2]. Вычисление индивидуальных статистик. Для оценки среднего значения, вариации и формы распределения данных, содержащихся в заданном диапазоне ячеек, можно воспользоваться функциями, вызов которых имеет вид ®у\\К}\У1Я(диапазон ячеек)'. срзнач (среднее арифметическое) мин мах счёт (объем выборки) медиана мода СТАНДОТКДОН (стандартное отклонение) дисп (дисперсия) скос Например, чтобы вычислить среднее арифметическое значение пятилетней среднегодовой доходности 15 фондов с очень высоким уровнем риска, необходимо ввести в любую свободную ячейку любого листа рабочей книги Chapter 3.xls формулу =СРЗНАЧ (ОВРФонды! 12 :116). Если требуется вычислить первый и третий квартили, можно воспользоваться инструкциями, приведенными в разделе ЕН.3.2, избегая применения функции квартиль, которая для некоторых наборов данных вычисляет неправильные результаты. Для вычисления стандартного отклонения и дисперсии генеральной совокупности предназначены функции стандотклонп и диспр со2012ответственно (см. раздел 3.3). Chapter 3.xls Таблица, изображенная на рис. 3.9, содержится в рабочей книге Chapter 3.xls на листе РисЗ.9. УПРАЖНЕНИЯ К РАЗДЕЛУ 3.2 Изучение основ 3.1. Ниже приведена выборка чисел, имеющая объем п = 5: 7 4 9 8 2 1. Вычислите выборочное среднее, медиану и моду. 2. Вычислите размах, межквартильный размах, выборочную дисперсию, стандартное отклонение и коэффициент вариации. 3. Опишите форму распределения этих данных. 3.2. Ниже приведена выборка чисел, имеющая объем п = 6: 7 4 9 7 3 12 1. Вычислите выборочное среднее, медиану и моду. 2. Вычислите размах, межквартильный размах, выборочную дисперсию, стандартное отклонение и коэффициент вариации. 3. Опишите форму распределения этих данных. 3.3. Ниже приведена выборка чисел, имеющая объем п = 7: 12 7 4 9 0 7 3 1. Вычислите выборочное среднее, медиану и моду.
2. Вычислите размах, межквартильный размах, выборочную дисперсию, стандартное отклонение и коэффициент вариации. 3. Опишите форму распределения этих данных. 3.4. Ниже приведена выборка чисел, имеющая объем п = 5: 7-5-879 1. Вычислите выборочное среднее, медиану и моду. 2. Вычислите размах, межквартильный размах, выборочную дисперсию, стандартное отклонение и коэффициент вариации. 3. Опишите форму распределения этих данных. 3.5. Ниже приведены две выборки чисел, имеющие объем п = 7: Выборка 1: 10 232425 Выборка 2: 20 12 13 12 14 12 15 1. Для каждой выборки вычислите выборочное среднее, медиану и моду. 2. Сравните результаты и сформулируйте выводы. 3. Попарно сравните первые, вторые и последующие элементы каждой выборки. Кратко изложите ваши выводы, учитывая результаты, полученные при решении задачи 2. 4. Вычислите размах, межквартильный размах, выборочную дисперсию, стандартное отклонение и коэффициент вариации каждой выборки. 5. Опишите форму распределения данных в каждой из выборок. 6. Сравните результаты решения задач 4 и 5. Сформулируйте выводы. 7. Используя результаты решения задач 1-5, укажите свойства среднего значения, дисперсии и распределения данных, содержащихся в каждой из выборок. 3.6. Предположим, что норма прибыли конкретной акции за последние два года принимала значения 10 и 30%. Вычислите среднее геометрическое значение нормы прибыли. (Замечание', норма прибыли, равная 10%, записывается как 0,10, а 30% — записывается как 0,30.) Применение понятий Задачи 3.7-3.19 можно решать вручную либо с помощью программы Microsoft Excel. 3.7. Управляющий шинным заводом желает сравнить реальный внутренний диаметр двух сортов шин, каждый из которых должен быть равным 575 мм. Для оценки были выбраны по пять шин каждого сорта. Результаты измерения их внутренних диаметров, упорядоченные по возрастанию, приведены ниже. Сорт X Сорт Y 568 570 575 578 584 573 574 575 577 578 1. Для каждого сорта шин вычислите выборочное среднее, медиану и моду. 2. Какой сорт шин имеет более высокое качество? Почему? 3. Каким был бы ваш ответ, если бы последним элементом выборки Y было число 588, а не 578? Обоснуйте свой ответ. 3.8. Следующая таблица содержит данные о жирности гамбургеров и куриного мяса, продаваемых в сети закусочных, FAST FOOD. XLS.
Гамбургеры 19 31 34 35 39 39 43 Куриное мясо 7 9 15 16 16 18 22 25 27 33 39 Источник: “Quick Bites”. Copyright © 2001 by Consumers Union of U. S. Inc. Цитируется no журналу Consumer Reports, March 2001, 46, с разрешения организации Consumer Union U. S., Inc., Yonkers, NY 10703-1057. Для каждого из наборов данных выполните следующее задание. 1. Вычислите выборочное среднее, медиану, а также первый и третий квартили. 2. Вычислите выборочную дисперсию, стандартное отклонение, размах, межквартильный размах и коэффициент вариации. 3. Опишите форму распределения этих данных. Если данные смещены, объясните причину. 4. Что можно сказать о жирности гамбургеров и куриного мяса на основании проделанного анализа? 3.9. Средняя цена дома в США в 2001 году возросла до 147 500 долл., т.е. на 6% по сравнению с 2000 годом. Медиана цены дома увеличилась больше, чем медиана семейного дохода, поэтому для многих семей собственный дом оказался недостижимой мечтой. (Barbara Hagenbaugh, “Homes Too Expensive for Many”, www.usatoday.com, May 5, 2002.) 1. Как вы думаете, почему автор ссылается на медиану цены, а не на среднюю цену? 2. Опишите форму распределения семейного дохода. Опишите отношение между средним значением и медианой. 3.10. Файл данных filpE.XLS содержит случайную выборку показателей, характеризующих 30 акций, котируемых на Нью-Йоркской фондовой бирже. Для каждой из акций указана ее аббревиатура и отношение Р/Е (отношение рыночной цены акции компании к ее чистой прибыли в расчете на одну акцию), опубликованные 2 января 2003 года в журнале The Wall Street Journal. Отношение Р/Е вычисляется путем деления цены акции на момент закрытия торгов на прибыль, начисленную на каждую акцию компании в течение последних четырех кварталов. Акции со сверхвысоким отношением Р/Е называются переоцененными. В то же время акции с необычайно низким отношением Р/Е часто называются недооцененными. 1. Вычислите среднее арифметическое, медиану, моду, размах, дисперсию и стандартное отклонение отношения Р/Е. 2. Дайте интерпретацию среднего значения и разброса показателей Р/Е. 3. Используя текущий список акций, опубликованных в журналах The Wall Street Journal, USA Today или других источниках, создайте свою собственную случайную выборку из 30 показателей Р/Е и сравните ваши результаты с решениями задач 1 и 2. 4. Используя текущий список акций, опубликованных в журналах The Wall Street Journal, USA Today или других источниках, создайте свою собственную случайную выборку из 30 показателей Р/Е, характеризующих акции, котирующиеся на фондовой бирже NASDAQ, и сравните ваши результаты с решениями задач 1 и 2.
3.11. Из-за сокращения бюджетных субсидий в 2002-2003 учебном году многие государственные университеты в США повысили плату за обучение. (Mary Beth Маг-klein, “Public Universities Raise Tuition, Fees— and Ire”, USA Today, August 8, 2002, 1A~2A). ftcOLLEGECOST.XLS. Университет Изменение платы за обучение, долл. Университет штата Калифорния, г. Беркли 1 589 Университет штата Джорджия, г. Афины 593 Университет штата Иллинойс, г. Урбана-Шампань 1 223 Университет штата Канзас, г. Манхэттен 869 Университет Майна, г. Ороно 423 Университет Миссисипи, г. Оксфорд 1 720 Университет Нью-Хэмпшира, г. Дурхэм 708 Университет штата Огайо, г. Колумбус 1 425 Университет Южной Каролины, г. Колумбия 922 Университет штата Юта, г. Логан 308 1. Вычислите выборочное среднее, медиану, а также первый и третий квартили. 2. Вычислите выборочную дисперсию, стандартное отклонение, размах, межквартильный размах и коэффициент вариации. 3. Опишите форму распределения этих данных. Если данные смещены, объясните причину. 4. Сравните изменение платы за обучение в 2001-2002 и 2002-2003 учебных годах. 3.12. Некая компания разрабатывает программное обеспечение для управления сетями на основе повторного использования программного обеспечения. Иначе говоря, компания не разрабатывает новые проекты с нуля, а вместо этого на протяжении 10 лет поддерживает базу данных, в которой хранятся записи о повторно используемых компонентах, общий объем которых достигает 2 000 000 строк кода. Восемь аналитиков компании получили задание оценить степень повторного использования компонентов при разработке нового программного обеспечения. В следующей таблице приведены процентные доли повторно используемого кода в новом программном обеспечении, ft REUSE. XLS. 50 62,5 37,5 75,0 45,0 47,5 15,0 25,0 Источник: Rothenberger, М.А., and К. J. Dooley, “A Performance Measure for Software Reuse Projects”, Decision Sciences, 30 (Fall 1999): p. 1131-1153. 1. Вычислите среднее арифметическое, медиану и моду. 2. Вычислите размах, дисперсию и стандартное отклонение. 3. Дайте интерпретацию суммарных показателей, вычисленных при выполнении заданий 1 и 2. 3.13. Компания, производящая батарейки для ручных фонариков, создала выборку из 13 батареек, произведенных за смену, и подвергла их испытанию на длитель-
ность работы. Ниже приведено количество часов, которые проработала каждая батарейка до момента отказа. ^BATTERIES. XLS 342 426 317 545 264 451 1049 631 512 266 492 562 298 1. Вычислите среднее арифметическое, медиану и моду. Проанализируйте распределение времени работы батареек до момента отказа. Какой способ оценки средней длительности работы лучше, а какой хуже? Почему? 2. Как использовать эту информацию на производстве? Обоснуйте свой ответ. 3. Вычислите размах, дисперсию и стандартное отклонение. 4. Для многих распределений размах приблизительно равен шести стандартным отклонениям. Подтверждается ли это правило в данном случае? Если нет, попробуйте объяснить, почему. 5. Что бы вы посоветовали руководству завода, если бы оно захотело указать в рекламе, что их батарейки работают “не менее 400 часов”? (Замечание: на этот вопрос не существует правильного ответа — все зависит от толкования этого утверждения.) 6. Предположим, что первое значение равно 1 342, а не 342. Повторите упражнение 1 с новыми данными. Прокомментируйте новые результаты. 7. Выполните упражнения 3-5, заменив первое значение числом 1 342. Прокомментируйте новые результаты. 8. Каково распределение данных, если первое значение равно 342? 9. Каково распределение данных, если первое значение равно 1 342? 3.14. Филиал банка, расположенный в промышленном районе города, стремится повысить качество обслуживания клиентов во время обеда, с 12:00 до 13:00. На протяжении недели сотрудники записывали время ожидания клиентов, стоящих в очереди в течение обеденного перерыва (количество минут, прошедших от момента, когда клиент переступил порог филиала, до момента его обслуживания). Для оценки эффективности обслуживания создана выборка, содержащая данные о времени ожидания 15 клиентов. ^Ibanki.xls 4,21 5,55 3,02 5,13 4,77 2,34 3,54 3,20 4,50 6,10 0,38 5,12 6,46 6,19 3,79 1. Вычислите среднее арифметическое, медиану, первый и третий квартиль. 2. Вычислите дисперсию, стандартное отклонение, размах, межквартильный размах и коэффициент вариации. 3. Является ли распределение данных асимметричным? Если да, почему? 4. Когда клиент приходит в банк во время обеденного перерыва, он обычно спрашивает менеджера, сколько времени ему придется стоять в очереди. Менеджер отвечает: “Почти наверняка, не больше 5 минут”. Прав ли менеджер? 5. Допустим, что менеджер хотел бы гарантировать определенный уровень обслуживания клиентов в течение обеденного перерыва. Несвоевременное обслуживание клиента может компенсироваться небольшим вознаграждением за терпение или другим подарком. Как выбрать оптимальный предел времени, после которого клиенту полагается компенсация? Обоснуйте свой ответ.
3.15. Предположим, что другой филиал банка, расположенный в жилом районе города, стремится повысить качество обслуживания клиентов в конце недели: с 17:00 до 19:00 в пятницу. На протяжении недели сотрудники записывали время ожидания клиентов, стоящих в очереди в указанные часы (количество минут, прошедших от момента, когда клиент переступил порог филиала, до момента его обслуживания). Для оценки эффективности обслуживания создана выборка, содержащая данные о времени ожидания 15 клиентов. ftBANK2.XLS 9,66 5,90 8,02 5,79 8,73 3,82 8,01 8,35 10,496,68 5,64 4,08 6,17 9,91 5,47 1. Вычислите среднее арифметическое, медиану, первый и третий квартиль. 2. Вычислите дисперсию, стандартное отклонение, размах, межквартильный размах и коэффициент вариации. 3. Является ли распределение данных асимметричным? Если да, почему? 4. Когда клиент приходит в банк вечером в пятницу, он обычно спрашивает менеджера, сколько времени ему придется стоять в очереди. Менеджер отвечает: “Почти наверняка, не больше 5 минут”. Прав ли менеджер? 5. Допустим, что менеджер хотел бы гарантировать определенный уровень обслуживания клиентов в вечерние часы в пятницу. Несвоевременное обслуживание клиента может компенсироваться небольшим вознаграждением за терпение или другим подарком. Как выбрать оптимальный предел времени, после которого клиенту полагается компенсация? Обоснуйте свой ответ. 6. Чем отличаются задачи 3.13 и 3.14? 3.16. Рыночная цена акций компании Microsoft Corporation в ноябре 2002 года возросла на 7,88% , а в декабре — упала на 10,3% . 1. Вычислите среднее арифметическое значение нормы прибыли. 2. Вычислите среднее геометрическое значение нормы прибыли. 3. Объясните разницу между этими результатами. 3.17. В 2000-2002 гг. стоимость акций сильно колебалась. В следующей таблице приведены индексы Dow Jones Industrial Index, Standard & Poor 500, Russell 2000 и Wilshire 5000 за этот период. STOCKRETURN . XLS. Год DJIA SP500 RusselZOOO Wilshire5000 2002 -15,01 -22,1 -21,58 -20,90 2001 -5,44 -11,9 -1,03 -10,97 2000 -6,20 -9,1 -3,02 -10,89 1. Вычислите среднее геометрическое DJIA. значение нормы прибыли для индекса 2. Вычислите среднее геометрическое SP500. значение нормы прибыли для индекса 3. Вычислите среднее геометрическое Russel2000. значение нормы прибыли для индекса 4. Вычислите среднее геометрическое значение нормы прибыли для индекса Wilshire5000.
5. Какую информацию можно извлечь, анализируя среднее геометрическое значение нормы прибыли для этих четырех индексов? 6. Сравните результаты решения задачи 5 с решением задач 3.18.4 и 3.19.4. 3.18. В 2000-2002 гг. доходность инвестиций сильно колебалась. В следующей таблице приведена общая доходность годовых и тридцатимесячных депозитных сертификатов, а также депозитных сертификатов денежного рынка за этот период. ^BANKRETURN. XLS. Год Один год 30 месяцев Денежный рынок 2002 1,98 2,74 1,02 2001 3,60 3,97 1,73 2000 5,46 5,64 2,09 1. Вычислите среднее геометрическое значение нормы прибыли для годовых депозитных сертификатов. 2. Вычислите среднее геометрическое значение нормы прибыли для тридцатимесячных депозитных сертификатов. 3. Вычислите среднее геометрическое значение нормы прибыли для депозитных сертификатов денежного рынка. 4. Какую информацию можно извлечь, анализируя среднее геометрическое значение нормы прибыли для этих депозитных сертификатов? 5. Сравните результаты решения задачи 4 с решением задач 3.17.5 и 3.19.4. 3.19. В 2000-2002 гг. доходность инвестиций сильно колебалась. В следующей таблице приведена общая доходность платины, золота и серебра за этот период. ^METALRETURN . XLS. Год Платина Золото Серебро 2002 24,5 24,5 5,5 2001 -21,3 1,2 -3,0 2000 -23,3 1,8 -5,9 1. Вычислите среднее геометрическое значение нормы прибыли для платины. 2. Вычислите среднее геометрическое значение нормы прибыли для золота. 3. Вычислите среднее геометрическое значение нормы прибыли для серебра. 4. Какую информацию можно извлечь, анализируя среднее геометрическое значение нормы прибыли для драгоценных металлов? 5. Сравните результаты решения задачи 4 с решением задач 3.17.5 и 3.18.4. 3.3. ВЫЧИСЛЕНИЕ ОПИСАТЕЛЬНЫХ СТАТИСТИК ДЛЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ • Среднее значение, разброс и форма распределения, рассмотренные в разделе 3.2, представляют собой характеристики, определяемые по выборке. Однако, если набор данных содержит числовые измерения всей генеральной совокупности, можно вычислить ее параметры. К числу таких параметров относятся математическое ожидание
(population mean), а также дисперсия (population variance) и стандартное отклонение генеральной совокупности (population standard deviation). В табл. 3.1 приведены названия и пятилетняя среднегодовая доходность крупнейших облигационных фондов США. Эти данные представляют собой информацию о всей исследуемой генеральной совокупности таких фондов. Таблица 3.1. Среднегодовая доходность пяти крупнейших облигационных фондов за пять лет, предшествующих 31 декабря 2002 года ^LARGEST BONDS.XLS Фонд Среднегодовая доходность фонда за последние пять лет, % Vanguard GNMA 7,3 Vanguard Total Bond Market Index 7,1 Franklin California Tax-Free Income 5,2 Bond Fund of America A 5,4 Vanguard Short-Term Corporate 6,2 Математическое ожидание Математическое ожидание (population mean) обозначается греческой буквой р. МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ Математическое ожидание равно сумме всех значений генеральной совокупности, деленной на объем генеральной совокупности N. ,v м = (3.12) гдер— математическое ожидание, X.— п-е наблюдение переменной X, — /=1 сумма всех значений генеральной совокупности. Для того чтобы вычислить среднюю доходность крупнейших облигационных фондов, образующих генеральную совокупность, представленную в табл. 3.1, применим формулу (3.12). 7,3 + 7,1 + 5,2+ 5,4 + 6,2 _ 31,2 Таким образом, пятилетняя среднегодовая доходность этих облигационных фондов равна 6,24%.
Дисперсия и стандартное отклонение генеральной совокупности Дисперсия генеральной совокупности (population variance) обозначается символом о2. ДИСПЕРСИЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ Дисперсия генеральной совокупности равна сумме квадратов разностей между элементами генеральной совокупности и математическим ожиданием, деленной на объем генеральной совокупности. Ж-И)2 <г=^—-------. (3.13) где ц — математическое ожидание, X — п-е наблюдение переменной X, ^(Х; - — /=1 сумма квадратов разностей между элементами генеральной совокупности и математическим ожиданием. Стандартное отклонение генеральной совокупности (population standard deviation) равно квадратному корню, извлеченному из дисперсии генеральной совокупности. Оно обозначается греческой буквой ст. СТАНДАРТНОЕ ОТКЛОНЕНИЕ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ |ж-м)2 — (3-14) Обратите внимание на то, что формулы для дисперсии и стандартного отклонения генеральной совокупности отличаются от формул для вычисления выборочной дисперсии и стандартного отклонения. При вычислении выборочных статистик S2 и S знаменатель дроби равен п-1 (см. формулы (3.9) и (3.10)), а при вычислении параметров о2 и <т — объему генеральной совокупности N. Для вычисления дисперсии генеральной совокупности, представленной в табл. 3.2, воспользуемся формулой (3.13). .1 (7,3-6,24)2 +(7,1-6,24)2 +(5,2-6,24)2 +(5,4-6,24)2 +(6,2-6,24)2 а " к ~ 5 ” = = 0,7304 5 Таким образом, дисперсия доходности равна 0,7304 квадратных процентов. Поскольку дисперсия представляет собой величину измерения, возведенную в квадрат, ее трудно интерпретировать. Намного проще истолковать стандартное отклонение генеральной совокупности, обратив внимание на то, что формула (3.14) представляет собой квадратный корень, извлеченный из дисперсии. Ж-и)2 ,_________ и = \И------= >/0,7304 = 0,8546 . \ N Следовательно, как правило, пятилетняя среднегодовая доходность колеблется вокруг среднего значения, равного 6,24% , на расстоянии, не превосходящем 0,8546% .
Эмпирическое правило В большинстве ситуаций крупная доля наблюдений концентрируется вокруг медианы, образуя кластер. В наборах данных, имеющих положительную асимметрию, этот кластер расположен левее (т.е. ниже) математического ожидания, а в наборах, имеющих отрицательную асимметрию, этот кластер расположен правее (т.е. выше) математического ожидания. У симметричных данных математическое ожидание и медиана совпадают, а наблюдения концентрируются вокруг математического ожидания, формируя колоколообразное распределение. Если распределение не имеет ярко выраженной асимметрии, а данные концентрируются вокруг некоего центра тяжести, для оценки изменчивости можно применять эмпирическое правило (empirical rule). Эмпирическое правило гласит: если данные имеют колоколообразное распределение, то приблизительно 68% наблюдений отстоят от математического ожидания не более чем на одно стандартное отклонение, приблизительно 95% наблюдений отстоят от математического ожидания не более чем на два стандартных отклонения и 99% наблюдений отстоят от математического ожидания не более чем на три стандартных отклонения. Таким образом, стандартное отклонение, представляющее собой оценку среднего колебания вокруг математического ожидания, помогает понять, как распределены наблюдения, и идентифицировать выбросы. Из эмпирического правила следует, что для колоколообразных распределений лишь одно значение из двадцати отличается от математического ожидания больше, чем на два стандартных отклонения. Следовательно, значения, лежащие за пределами интервала р±2с, можно считать выбросами. Кроме того, только три из 1 000 наблюдений отличаются от математического ожидания больше чем на три стандартных отклонения. Таким образом, значения, лежащие за пределами интервала р ± Зо практически всегда являются выбросами. Для распределений, имеющих сильную асимметрию или не имеющих колоколообразной формы, можно применять эмпирическое правило Бьенамэ-Чебышева (Bienayme-Chebyshev), рассмотренное ниже. ПРИМЕР 3.7. ПРИМЕНЕНИЕ ЭМПИРИЧЕСКОГО ПРАВИЛА Известно, что средний вес 12-унциевой банки кока-колы равен 12,06 унций, а стандартное отклонение равно 0,02 унции. Кроме того, известно, что распределение генеральной совокупности имеет колоколообразную форму. Опишите распределение веса. Велика ли вероятность того, что банка содержит меньше 12 унций кока-колы? РЕШЕНИЕ. р ± с = 12,06 ± 0,02 = (12,04; 12,08), р ± 2сг = 12,06 ± 2x0,02 - (12,02; 12,10), р ± Зег = 12,06 ± 3x0,02 = (12,00; 12,12). Применяя эмпирическое правило, получаем, что приблизительно 68% банок кока-колы имеют вес от 12,04 до 12,08 унций, приблизительно 95% банок содержит от 12,02 до 12,10 унций кока-колы, а вес приблизительно 99,7% банок колеблется от 12,00 до 12,12 унций. Таким образом, вероятность того, что банка содержит меньше 12 унций кока-колы, весьма невелика.
Правило Бьенамэ-Чебышева Более ста лет назад математики Бьенамэ и Чебышев [1] независимо друг от друга открыли полезное свойство стандартного отклонения. Они обнаружили, что для любого набора данных, независимо от формы распределения, процент наблюдений, лежащих на расстоянии не превышающем k стандартных отклонений от математического ожидания, не меньше (1-1//г2) х 100%. Рассмотрим случай k = 2. Правило Бьенамэ-Чебышева гласит, что как минимум (1—(1 /2)2) х 100% = 75% наблюдений должно лежать в интервале ц ± 2сг. Это правило справедливо для любого k, превышающего единицу. Правило Бьенамэ-Чебышева. По крайней мере 3/4, или 75%, всех наблюдений из любого набора данных содержится в интервале р±2сг, по крайней мере 8/9, или 88,89%, наблюдений содержится в интервале р ± Зег, и как минимум 15/16, или 93,75% , наблюдений содержится в интервале р ± 4сг. Правило Бьенамэ-Чебышева носит весьма общий характер и справедливо для распределений любого вида. Оно указывает минимальное количество наблюдений, расстояние от которых до математического ожидания не превышает заданной величины. Однако, если распределение имеет колоколообразную форму, эмпирическое правило более точно оценивает концентрацию данных вокруг математического ожидания. Эти два правила сформулированы в табл. 3.2. Таблица 3.2. Сколько данных лежит вокруг математического ожидания Процент наблюдений, попадающих в интервал Интервал Правило Бьенамэ-Чебышева Эмпирическое правило (р-ст, р + ст) Как минимум 0% Приблизительно 68% (ц - 2ст, ц + 2ст) Как минимум 75% Приблизительно 95% (ц - Зст, ц + Зст) Как минимум 88,89% Приблизительно 99,7% ПРИМЕР 3.8. ПРИМЕНЕНИЕ ПРАВИЛА БЬЕНАМЭ-ЧЕБЫШЕВА В примере 3.7 было известно, что математическое ожидание генеральной совокупности 12-унциевых банок кока-колы равно 12,06 унций, а стандартное отклонение — 0,02 унции. Однако нам неизвестна форма распределения веса банок кока-колы. Опишите это распределение. Велика ли вероятность того, что банка содержит меньше 12 унций кока-колы? РЕШЕНИЕ. ц±ст= 12,06 ±0,02 = (12,04; 12,08), р±2о = 12,06 ±2x0,02 = (12,02; 12,10), ц± Зст =12,06 ±3x0,02 = (12,00; 12,12). Поскольку форма распределения нам неизвестна, мы не можем использовать эмпирическое правило. Применяя вместо него правило Бьенамэ-Чебышева, мы не можем сказать ничего определенного об интервале (12,04, 12,08). Мы можем лишь утверждать, что в интервале (12,02, 12,10) лежат не менее 75% банок, а в интервале (12,00, 12,12)— не менее 88,89%. Таким образом, количество банок, содержащих меньше 12 унций кока-колы, лежит в пределах от 0 до 11,11% . и
УПРАЖНЕНИЯ К РАЗДЕЛУ 3.3 Изучение основ 3.20. Ниже приведена генеральная совокупность, имеющая объем N = 10: 75 11 8362198 1. Вычислите математическое ожидание. 2. Вычислите стандартное отклонение генеральной совокупности. 3.21. Ниже приведена генеральная совокупность, имеющая объем N = 10: 756664863 1. Вычислите математическое ожидание. 2. Вычислите стандартное отклонение генеральной совокупности. Применение понятий Задачи 3.22-3.27 можно решать вручную либо с помощью программы Microsoft Excel 3.22. Ниже приведены данные об уплате квартального налога с оборота (тыс. долл.), представленные 50 компаниями в налоговую инспекцию поселка Фейр-Лейк за период, завершающийся в конце марта 2003 г. ^ТАХ. XLS. 10,3 11,1 9,6 9,0 14,5 13,0 6,7 11,0 8,4 10,3 13,0 11,2 7,3 5,3 12,5 8,0 11,8 8,7 10,6 9,5 ИД 10,2 11,1 9,9 9,8 11,6 15,1 12,5 6,5 7,5 10,0 12,9 9,2 10,0 12,8 12,5 9,3 10,4 12,7 10,5 9,3 11,5 10,7 11,6 7,8 10,5 7,6 10,1 8,9 8,6 1. Представьте данные в виде упорядоченного массива или диаграммы “ствол-и-листья”. 2. Вычислите математическое ожидание. 3. Вычислите дисперсию и стандартное отклонение генеральной совокупности. 4. Сколько компаний платят налог с оборота, который отличается от среднего не более чем на одно стандартное отклонение? 5. Сколько компаний платят налог с оборота, который отличается от среднего не более чем на два стандартных отклонения? 6. Сколько компаний платят налог с оборота, который отличается от среднего не более чем на три стандартных отклонения? 7. Не удивил ли вас ответ на вопрос 4? (Подсказка: сравните ваши ответы с результатами, полученными по эмпирическому правилу.) 3.23. Рассмотрим генеральную совокупность, состоящую из 1 024 взаимных фондов, инвестирующих средства преимущественно в крупные компании. Известно, что математическое ожидание р среднегодовой доходности этих фондов равно 8,20%, а стандартное отклонение ст— 2,75%. Предположим также, что среднегодовая доходность фондов колеблется в пределах от -2,0% до 17,1%, а первый, Qu и третий, Q3, квартили равны 5,5 и 10,5 соответственно.
1. Применяя эмпирическое правило, определите, сколько фондов имеют доходность, отличающуюся от средней не более чем на одно стандартное отклонение. 2. Применяя эмпирическое правило, определите, сколько фондов имеют доходность, отличающуюся от средней не более чем на два стандартных отклонения. 3. Применяя правило Бьенамэ-Чебышева, определите, сколько фондов имеют доходность, отличающуюся от средней не более чем на одно стандартное отклонение. 4. Применяя правило Бьенамэ-Чебышева, определите, сколько фондов имеют доходность, отличающуюся от средней не более чем на два стандартных отклонения. 5. Применяя правило Бьенамэ-Чебышева, определите, сколько фондов имеют доходность, отличающуюся от средней не более чем на три стандартных отклонения. 6. Применяя правило Бьенамэ-Чебышева, определите, между какими величинами колеблется доходность 93,75% фондов. 3.24. В таблице приведены данные о 52-недельной доходности пяти крупнейших облигационных фондов ^LARGEST BONDS 1 YR.XLS. Фонд Годовая доходность, % Pimco Inst TotRet 9,5 Vanguard GNMA 8,6 Vanguard TotBoard 8,1 Pimco Admin TotRet 9,3 Frank Temp CA 5,7 Источник: цитируется по журналу Wall Street Journal, February 27, 2003. 1. Вычислите математическое ожидание для генеральной совокупности, состоящей из пяти крупнейших облигационных фондов. Дайте интерпретацию этого параметра. 2. Вычислите дисперсию и стандартное отклонение генеральной совокупности, состоящей из пяти крупнейших облигационных фондов. Дайте интерпретацию этих параметров. 3. Сильно ли колеблется доходность облигационных взаимных фондов? 3.25. В файле ^ENERGY .XLS приведены данные о потреблении электроэнергии (кВт/ч) на душу населения для каждого из 50 штатов и округа Колумбия за прошлый год. 1. Представьте данные в виде диаграммы “ствол-и-листья”, гистограммы или процентного полигона. 2. Вычислите математическое ожидание. 3. Вычислите дисперсию и стандартное отклонение генеральной совокупности. 4. В скольких штатах среднедушевое потребление электроэнергии отличается от среднего не более чем на одно стандартное отклонение, на два стандартных отклонения и на три стандартных отклонения? 5. Не удивил ли вас ответ на вопрос 4? (Подсказка', сравните ваши ответы с результатами, полученными по эмпирическому правилу.)
6. Удалите из генеральной совокупности округ Колумбия и повто