Text
                    JOHN W. TUKEY
Princeton University and
Bell Telephone Laboratories
EXPLORATORY DATA ANALYSIS
Addison-Wesley Publishing Company
Reading, Massachusetts • Menlo Park-, California
London • Amsterdam • Don Mills, Ontario • Sydney

АНАЛИЗ РЕЗУЛЬТАТОВ НАБЛЮДЕНИЙ Разведочный анализ Перевод с английского канд. техн, наук А. Ф. КУШНИРА, канд. физ.-мат. наук А. Л. ПЕТРОСЯНА, канд. физ.-мат. наук Е. Л. РЕЗНИКОВА под редакцией доктора физ.-мат. наук В. Ф. ПИСАРЕНКО Издательство «Мир» Москва 1981
УДК 52+55 В книге, написанной известным американским специалистом по математической статистике, изложены основы разведочного анализа данных, т. е первичной обработки результатов наблюдений, осуще- ствляемой посредством простейших средств — карандаша, бумаги и логарифмической линейки. На многочисленных примерах автор показывает, как представление наблюдений в наглядной форме с помощью схем, таблиц и графиков облегчает выявление закономер- ностей и подбор способов более глубокой статистической обработки. Автор дает много практических рекомендаций, до сих пор мало упоминавшихся в литературе. Изложение сопровождается многочис- ленными упражнениями с привлечением богатого материала из практики. Живой, образный язык облегчает понимание излагаемого материала. Книга будет весьма полезным руководством для физиков, астро- номов, геофизиков, химиков, биологов, экономистов и специалистов других областей науки и техники, где имеют дело с анализом наб- людений, а также для студентов соответствующих специальностей. Редакция литературы по космическим исследованиям, астрономии и геофизике 1702020000 20205—199 Т 041 (01)—81 120—80 © 1977 by Addison-Wesley Publishing Company, Inc. © Перевод на русский язык, «Мир», 1981
ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА Автор книги — видный американский статистик Дж. Тьюки — известен широкому кругу специалистов своими основополагающими работами по спектральному анализу временных рядов, быстрому пре- образованию Фурье, дисперсионному анализу. Его новая книга посвящена элементарным методам первичного статистического анализа наблюдений. Поясняя свой подход к теме, автор подразделяет статистический анализ на два этапа: разведочный и подтверждающий. Первый этап, по мысли автора, в сущности включает преобразование данных наблюдений и способы их наглядного представления, позволяющие выявить внутренние закономерности, проявляющиеся в данных. На втором этапе применяются традиционные статистические методы оценки параметров и проверки гипотез. Как указывает автор, настоящая книга посвящена именно разведочному анализу данных, которому до недавнего времени в литературе уделя- лось несравненно меньше внимания, чем подтверждающему анализу. Для разведочного анализа нужны лишь элементарные средства: логарифмическая линейка, простейшие математические таблицы (они приведены в книге), миллиметровая бумага и калька для графиков. Цель такого анализа — представить наблюдаемые данные в возможно более компактной и простой форме, позволяющей выявить имеющиеся в них закономерности и связи. Автор подробно рассматривает такие нестандартные вопросы пер- вичного анализа, как способы представления и графического изобра- жения сведений о выборке, переход к новым переменным, способы симметризации выборок, быстрые способы сглаживания рядов наб- людений, растягивание или сжатие масштаба в определенных диапа- зонах наблюдения и т. д. Эти вопросы редко затрагиваются в стати- стической литературе, хотя они чрезвычайно важны для практики обработки наблюдений. Несмотря на то что в наш век ЭВМ все больше проникают в раз- личные сферы жизни, элементарный разведочный анализ отнюдь не теряет своего значения. Вычислительные машины дают возмож- ность быстро проделывать сложные вычисления и обрабатывать ог- ромные массивы информации; но сами по себе ЭВМ не помогают про- никать в суть данных, понимать, что «хотят сказать» данные, и пред- ставлять их в виде, удобном для строгого статистического анализа. Именно для этого и предназначается изложенный в книге разведочный анализ. На многочисленных практических примерах читатель ясно
6 Предисловие редактора перевода видит, сколько интересной информации можно извлечь из ничем не примечательного, на первый взгляд, ряда наблюдений. Рекомендуемые автором методы анализа данных в большинстве своем являются новыми. Однако было бы ошибкой думать, что все они возникли независимо от известных статистических способов про- верки гипотез и оценивания параметров. Читатель, знакомый с мето- дами математической статистики, часто сможет обнаружить связь предлагаемых рекомендаций с теорией порядковых статистик, рег- рессионным анализом, дисперсионным анализом и т. п. К сожалению, автор уделяет упомянутой связи мало внимания. Он упоминает лишь одну книгу по регрессионному анализу. Читателю, который захочет ознакомиться с теорией статистических методов обработки, можно порекомендовать, например, имеющуюся на рус- ском языке литературу [1—71. В частности, для более глубокого пони- мания статистической сущности приводимых автором рекомендаций желательно знакомство с основами математической статистики, ска- жем, в объеме стандартных руководств [1, 71. Следует отметить, что автор вводит в употребление много новых терминов, часто взятых из обыденной речи, с целью образного описа- ния анализа данных. Это оживляет изложение, но вызывает затруд- нения при переводе. В таких случаях мы предпочитали давать смыс- ловой, а не буквальный перевод употребляемого термина. В конце книги собраны основные термины: указаны их английское выражение и русский перевод с толкованием. Отметим также, что в тексте перевода десятичные знаки чисел отделены от целой части запятой, как это принято в советской лите- ратуре. В то же время в большинстве таблиц (в тех из них, которые воспроизведены фотографическим способом с оригинала) десятичные знаки отделяются точкой, как это принято вообще в американской литературе и применяется у нас в алгоритмических языках. Надеемся, что это не вызовет у читателя путаницы. Книга рассчитана на широкий круг специалистов и студентов самых разных областей: физиков, геофизиков, астрономов, химиков, экономистов, медиков, биологов. Для ее чтения не требуется предва- рительных знаний по теории вероятностей и математической статисти- ке. Изложение ведется на элементарном математическом уровне. В книге нет математических доказательств и теоретических обоснова- ний. Однако за всеми приводимыми рекомендациями чувствуется как большой теоретический опыт автора, так и его опыт в решении прак- тических задач. Книга Дж. Тьюки несомненно окажется полезной всем, кто имеет дело с обработкой реальных наблюдений и интересуется применениями теории вероятностей и математической статистики. В. Ф. Писаренко
Предисловие редактора перевода ЛИТЕРАТУРА It Ван дер Варден Б. Математическая статистика.— М.: ИЛ, 1960. 2 . Кендалл М., Стьюарт А. Теория распределений.— М.: Наука, 1966. 3 Кендалл М., Стьюарт А. Статистические выводы и связи.—М.; Наука, 1973. 4 Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ря- ' ды,— М.: Наука, 1976. 5 Линник Ю. В. Метод наименьших квадратов и основы теории обработки наблю- дений.— М.: ГИФМЛ, 1962. 6 . Митропольский А. К. Техника статистических вычислений.— М.: ГИФМЛ, 1961. 7 . Уилкс С, Математическая статистика.— М.: Наука, 1967.
Посвящается памяти биометриста Чарли Уин- сора и ботаника Эдгара Андерсона. Оба они владели искусством анализа наблюдений, и у них автор научился многому, чего не смог бы узнать от других. ПРЕДИСЛОВИЕ В основу книги положен важный принцип: Важно понять, что вы МОЖЕТЕ СДЕЛАТЬ, прежде чем вы научи- тесь измерять, насколько ХОРОШО вы ЭТО СДЕЛАЛИ. Если вы сначала узнаете, что вы сможете сделать, то это облегчит вам работу и сделает ее эффективнее. В этой книге излагается разведочный анализ данных наблюдений — как смотреть на них, чтобы увидеть то, что они могут сказать нам. Упор делается на простые вычисления и легкие для построения гра- фики. Видимые нами особенности рассматриваются как частичные описания, и делается попытка заглянуть глубже, чтобы узнать больше. Мы здесь будем заниматься видимыми особенностями, а не их подтвер- ждением. ПРИМЕР, А НЕ ЗАКОНЧЕННОЕ ИССЛЕДОВАНИЕ КОНКРЕТНЫХ ДАННЫХ Эта книга написана не для того, чтобы доказать пользу разведоч- ного анализа наблюдений, а скорее для того, чтобы познакомить ее читателей с многочисленными и разнообразными приемами, которые помогут им более эффективно анализировать имеющиеся в их распоря- жении данные. Приводимые примеры не представляют собой закончен- ных исследований; они только показывают применение отдельных приемов к реальным данным. Акцент сделан на общих методах, а не на конкретных задачах. Основная проблема при обработке любых данных состоит в том, чтобы привести их в такой вид, в котором они будут легче и эффектив- нее восприниматься исследователем. В связи с этим надо иметь в виду: О все, что упрощает описание, облегчает его восприятие нами; (> все, что позволяет заглянуть глубже какого-то ранее достиг- нутого уровня понимания, делает описание более эффективным. Поэтому мы всегда будем рады; а) упростить описание и б) сделать его более глубоким.
Предисловие 9 В частности: ф если мы можем сказать, что заглянули глубже и не нашли ни- чего нового, то это безусловно шаг вперед, хотя и меньший, чем если бы мы могли сказать, что заглянули глубже и нашли то-то и то-то; О если мы можем сказать: «При изменении нашего подхода сле- дующим образом . . . дело упрощается», то это всегда будет достиже- нием, хотя и несколько меньшим, чем если бы мы могли сказать: «Если мы не будем менять своего подхода, то кое-что другое будет столь же просто». Так, например, мы считаем, что обнаружение факта почти линейной зависимости логарифма давления от отрицательной обратной величи- ны абсолютной температуры является настоящим достижением по сравнению с утверждением, что давление увеличивается с температу- рой со все возрастающей скоростью. Точно так же мы считаем, что утверждение о приблизительно симметричном распределении выборки чисел после их преобразования к логарифмическому масштабу дает гораздо больше, чем утверждение об очень скошенном распреде пении первоначальных значений. Считая очень важным упрощение описания в результате любого разумного изменения подхода, мы тем самым утверждаем свою веру в количественный характер знания. Мы верим, что большинство клю- чевых вопросов в нашем мире рано или поздно обязательно потребуют ответа на вопрос: «Насколько?», а не только лишь: «В каком направ- лении?». Мы полагаем, что с этой точкой зрения согласуется требование, чтобы графики, основанные на «разведке» данных, вынуждали нас заметить то, что они могли бы нам сказать. Графики, подчеркиваю- щие лишь то, что нам уже известно, нередко не стоят места, которое они занимают. Графики, которые надо рассматривать с лупой, чтобы увидеть в них главное, заставляют нас тратить понапрасну время и мало полезны. График имеет наибольшую ценность тогда, когда он вынуждает нас заметить то, что мы совсем не ожидали увидеть. Мы не станем убеждать читателя, почему надо использовать именно тот или иной конкретный метод. Кроме недостатка времени и места на это есть еще и свои особые причины. Многим методам в их теперешней форме меньше десяти лет, и их, конечно, можно будет еще заметно улучшить. В то же время, когда какой-то метод хорош, мы не всегда знаем, почему это так. Мы использовали согласующиеся друг с другом приемы там, где это казалось разумным, и особенно не волновались в противном случае. Такая согласованность облегчает изучение и запоминание, но ей нельзя отдавать предпочтение перед заметными различиями в эффективности. Коротко говоря, мы будем: О оставлять истолкование результатов большей частью специа- листам в данной области знаний;
10 Предисловие О излагать методы, а не законченные исследования конкретных данных; 0 считать, что простота описания хороша уже сама по себе; для достижения такой простоты, не задумываясь, требовать изменения подхода; О от графиков требовать выявления нового; 0 считать, что каждое описание (всегда неполное!) нуждается в углублении, главным образом е помощью анализа остатков (невязок); () считать согласованность используемых приемов желательной, но не обязательной. ПОДТВЕРЖДЕНИЕ Принципы и методы того, что мы назовем подтверждающим ана- лизом данных, широко используются и являются одним из самых больших интеллектуальных достижений нашего столетия. В простей- ших формах этих принципов и методов используется выборка — и то, что мы получили из этой выборки относительно генеральной сово- купности, из которой она была извлечена,— и оценивается точность, с которой по выборке мы делаем выводы о генеральной совокупности. Мы уже не можем обойтись без подтверждающего анализа наблюде- ний, но нам нет необходимости с него начинать. Лучший путь понять, что мы МОЖЕМ сделать, теперь уже не определяется (да и определялся ли когда-нибудь?) вопросом, что может при теперешнем состоянии наших методов быть подтверждено или опровергнуто. Мы даже теряем в понимании, если все то, что мы можем сделать с наблюдениями, рассматриваем лишь в узких рамках обще- принятых предположений, при которых анализ можно провести наи- лучшим образом. К тому же правильность этих предположений мы НЕ МОЖЕМ проверить на практике. РАЗВЕДКА И ПОДТВЕРЖДЕНИЕ Некогда статистики занимались только разведкой. Затем они нау- чились точно подтверждать, и подтверждать немногие вещи — каж- дую при своих частных обстоятельствах. По мере того как они делали акцент на точном подтверждении, их методы неизбежно становились менее гибкими. Связь наиболее часто используемых методов с догад- ками прошлого ослабевала. Все то, в чем отсутствовало в явном виде подтверждение, презиралось как «описательная статистика» незави- симо от того, как много мы поняли с ее помощью. В настоящее время гибкость (приблизительного) подтверждения методом «джекнайф» 11 позволяет сравнительно легко почти для каж- 1> Метод «джекнайф» (jackknife — большой складной нож) состоит в последо- вательном удалении из выборки объема п одного элемента и проверки на нем стати- стических выводов, полученных по оставшейся выборке объема (п—1). Затем уда- ренный элемент заменяется другим и т. д., что дает п проверок статистических выво- дов, позволяющих судить об их достоверности,— Прим, ред.
Предисловие 11 дого определенного случая разведочного анализа попытаться ответить на вопрос: «Насколько это подтверждается?» Сегодня разведка и подтверждение могут — и должны — идти рука об руку- В этой книге рассматриваются лишь методы разведочного анализа, а для знакомства с методами подтверждающего анализа чи- татель должен обратиться к другим руководствам. СВЯЗЬ С ПРЕДШЕСТВУЮЩИМ ИЗДАНИЕМ Первоначально материал этой книги появился в трех томах, отра- жая опыт преподавания по трем вариантам рукописи, и имел ограни- ченное распространение. Последующий пересмотр и полная перера- ботка текста привели к дальнейшим крупным изменениям, сделанным после использования большей части материала и общего плана книги в небольшом курсе лекций, организованных Американской статисти- ческой ассоциацией. Настоящее издание содержит: О те методы из первого тома, которые, по нашему мнению, заслу- живали внимания; О некоторые методы из второго тома; <Q> небольшое число методов из третьего тома; <5 ряд методов (особенно в гл. 7, 8 и 17), которых вообще не было в предыдущем издании. ОБ УПРАЖНЕНИЯХ При задании упражнений преподаватель должен быть очень вни- мательным. Пожалуйста, не давайте их слишком много! Они потре- буют больше времени, чем вам кажется. Количество приведенных здесь упражнений призвано удовлетворить самые разнообразные ин- тересы, а не занять каждого. Мало того, что упражнений здесь много, преподаватели и студен- ты должны еще осознать, что у многих задач отсутствует единствен- ный «правильный ответ». Может быть много путей подхода к анализу данного массива наблюдений. Но не все они одинаково хороши. Для некоторых видов наблюдений это может быть очевидно, но в других случаях, исходя из единственной группы данных, мы не всегда смо- жем сказать, какой подход следует предпочесть. Даже нескольких групп данных в сходных экспериментальных ситуациях может быть недостаточно для выявления лучшего подхода. Поэтому нередко будет вполне естественно, если разные исследователи в процессе ана- лиза будут получать несколько различные результаты. Более того, нередко нахождение хорошего подхода или подходов к анализу какой-то группы наблюдений представляет собой творческий акт. Нельзя ожидать, что каждый сумеет подобрать ключ к любой ситуации, и вряд ли кто-нибудь (он или она) сможет найти ключ к каждой ситуации, с которой встретится.
12 Предисловие Когда мы учимся анализу наблюдений, не надо бояться перепробо- вать много приемов, которые, возможно, ничего нам не дадут, — брать- ся за много задач, хотя не каждую из них мы сможем успешно довести до конца. Часто в результате квалифицированно проведенного ана- лиза мы узнаём меньше, чем в том случае, когда мы не применили способ, действительно подходящий к нашим данным, и лишь потом нам на это указали. Это должен учитывать каждый преподаватель при объяснениях упражнений и оценке решений. ТОЧНОСТЬ ВЫЧИСЛЕНИЙ Я с сожалением предвижу, что преподаватели, учитывающие ска- занное выше и признающие, что не обязательно должен существо- вать лишь единственный правильный подход, все же могут потребо- вать, чтобы все вычислялось с точностью до последнего знака. (При таком требовании автор, пожалуй, сдал бы экзамен по курсу, но неиз- вестно, с какой оценкой.) Время от времени действительно возникает необходимость получать точные до последнего знака, тщательно про- веренные результаты, но «устойчивые» методы, успешному применению которых мало мешают необычные данные, как правило, также мало подвержены влиянию МЕЛКИХ арифметических ошибок. Методы, выбранные нами, как раз являются устойчивыми в указанном смысле. Итак, надо надеяться, что за мелкие арифметические ошибки отметка снижаться не будет и более строгое наказание последует за более крупные ошибки в вычислениях или понимании. Автору приятно поблагодарить многих лиц и учреждения за под- держку, руководство, сотрудничество и кропотливый труд Написание этой книги финансировалось Бюро военных исследований (Дарем) по контракту с Принстонским университетом и Лабораториями фирмы «Белл телефон». Ч. П. Уинсор в 40-х годах научил автора многому тако- му об анализе данных, чего нельзя было найти в книгах. Автор многим обязан С. С. Уилксу, хотя формально написание книги началось после его смерти. Он руководил работами по статистике в Принстоне, и благодаря ему автор понял многое из того, на чем основана эта книга. Большую пользу книге принесло внимательное чтение первых ее вариантов друзьями и коллегами, в особенности помогли автору Д. Хоглин и Л. Стейнберг, а также замечания преподавателей, кото- рые вели соответствующий курс в различных учебных заведениях. Как уже отмечалось, ко многим изменениям привели отзывы студентов. Ф. Мостеллер очень серьезно отнесся к своим редакторским обязан- ностям, и за многие улучшения читатель должен благодарить его. Число ошибок в арифметических вычислениях значительно уменьши- лось благодаря работе, проведенной Аджелией Меллрос, Хочется поблагодарить за внимательную и искусную перепечатку рукописи Мэри Е. Биттрич и Элизабет Ля Жёнесс Датку, а также
Предисловие 13 Гленнис Коэн и Айлин Ольшевски. Очень помогали в работе доброже- лательность и дух сотрудничества, проявленные издательством «Эд- дисон-Уэсли», в особенности это относится к Р. Драмму (без чьей дли- тельной поддержки эта книга могла остаться лишь замыслом), Мэри Кафарелле (контрольному редактору), М. Хенриксу (оформителю) и Р. Мортону (художнику). Принстон, Нью-Джерси Декабрь, 1976 Джон У. Тьюки
СТУДЕНТУ ИЛИ ПРЕПОДАВАТЕЛЮ Все, что представлено в иллюстрациях или упражнениях, можно выполнить с помощью карандаша и бумаги. (Если у вас есть настоль- ный калькулятор — тем лучше ) Единственными орудиями иллюстра- тора этой книги (за исключением нескольких рисунков, не связанных с анализом данных) были ручка и линейка. Любой из вас сможет сделать почти столь же аккуратные рисунки, если немного постара- ется. (Об использовании миллиметровой бумаги говорится в разд. 2В и 5А.) Первые шесть глав — это основной ствол, откуда вырастает все остальное. Они будут присутствовать в любом варианте этой книги. Что следует за ними? Более традиционно и полезно с точки зрения того, что обычно де- лают при обработке данных, было бы перейти к гл. 10 и 11 (двухфак- торные диаграммы) и, если позволит время, к их обобщениям в гл. 12 и 13. Однако на меня произвела такое впечатление польза сглаживания (главным образом по личному опыту), что следующими я поставил гл. 7 и ее приложения в гл. 8 и 9 к выборкам (к, ^-наблюдений. Возмож- но, и самостоятельно изучающие книгу, и учебные группы захотят поэкспериментировать и после гл. 1—6 будут изучать либо гл. 10, 11 и т; д., либо 7 и т. д. Центральное место по важности занимает гл. 14, но она нелегка. Я хотел бы поместить ее раньше, но не смог найти для этого подходя- щего повода. Она должна стоять позже гл. 7. В гл. 15 разбирается важный вопрос о долях, составленных из целых чисел (подсчетов). Ее можно было поставить после гл. 1—6, или 10, 11 (и т. д.), или 7 (и т. д.), или 14. Это зависит от вида наблю- дений, интересующих данную группу студентов. Глава 17, основанная на гл. 16, посвящена выяснению смысла обычных «распределений» численных значений по ячейкам. Эти главы можно было бы поставить сразу за гл. 1—6, но вряд ли они заслужи- вали такого выдвижения в начало книги. В гл. 18 рассматривается частный вид распределения, не являющийся ни очень распространен- ным, ни чересчур редким. Возможно, многие преподаватели и само- стоятельно изучающие предмет захотят ее просто выкинуть. Главы 19 и 20 основаны на гл. 17. Они помогут связать приемы этой главы с более знакомым материалом. Тем, кто уже изучал по- добные стандартные распределения, эти главы безусловно принесут пользу, но для остальных их ценность будет невелика. Едва ли они
Студенту или преподавателю 15 помогут кому-то лучше анализировать данные, но могут облегчить осмысление результатов анализа, описанного в гл. 17. Итак, вслед за основной группой глав (1—6) можно изучать любые (или все) из следующих: сглаживание — гл. 7 и далее, двухфактор- ные анализы — гл. 10.. 11 и далее, основные положения анализа выбо- рок пар (к, у) — гл. 14, доли подсчетов — гл. 15, эмпирические рас- пределения — гл. 16, 17 и далее. После основной группы, вероятно, наиболее важными являются гл. 7, 10—11, 14 и 15, хотя для некоторых читателей особенно ценной окажется гл. 17 (конечно, вместе с гл. 16). Джон Тыоки
Гл а в a 1 КАК ЗАПИСЫВАТЬ ЧИСЛА («СТЕБЕЛЬ С ЛИСТЬЯМИ») указатель К ГЛАВЕ I1' 1А. Следовательская работа с количественной точки зрения 18 Обзорные вопросы 20 1Б. Практический счет 20 Точность вычислений 20 Округление 20 Отбрасывание цифр 20 Единицы измерения и запятые «п» вместо «с половиной» 21 «*» как признак разряда 22 «7%'» вместо «количества» 22 Обзорные вопросы 22 1В. Как записывать числа 22 выборка 22 Жирный шрифт 24 Обзорные вопросы 24 1Г. Усовершенствование: «стебель с листьями» 24 стебель с листьями 25 Проверка 27 Обзорные вопросы 28 1Д- Как правильно выбрать число стеблей 28 Растянутый стебель с листьями 28 Сжатый стебель с листьями 29 Использование смешанных листьев 30 Обзорные вопросы 33 1Е. Как вести подсчет группами 33 Снова подержанные автомобили 35 Обзорные вопросы 36 1Ж. Что означает «почувствовать, в чем особеннос- ти данных»? 36 Обзорные вопросы 37 11 Указатели к главам в этой книге имеют некоторые особенности. Между заголовками разделов, напечатанными жирным шрифтом, даны: а) разделы, которые в указателях даются обычным шрифтом, а в тексте книги по- мещены в середине строки; б) важные термины, определение которым дается в данном месте книги. В ука- зателе они выделены курсивом, а в тексте чаще всего имеют вид словесных формул.
18 Глава 1 1И. Чего мы достигли? Зо Что мы научились делать? 38 На чем мы остановились? 38 1К. Использование метода стебля с листьями для получения дополнительном информации (факуль* тативно) 39 Пары чисел 41 (число, марка) 41 (первое число, второе число) 41 1Л. Дополнительные упражнения 42 1А. СЛЕДОВАТЕЛЬСКАЯ РАБОТА С КОЛИЧЕСТВЕННОЙ ТОЧКИ ЗРЕНИЯ Разведочный анализ данных ничем не отличается от ведения след- ствия, т. е. это работа, в процессе которой производятся вычисления, подсчеты, строятся графики. При расследовании преступления детективу нужны орудия труда и умение. Если у него нет специального порошка для выявления отпечатков пальцев, то на поверхностях большинства предметов он не сможет их обнаружить. Если он не знает, где преступники обычно оставляют отпечатки пальцев, то он не осмотрит эти места. Исследова- телю, занимающемуся анализом данных, точно так же требуются и орудия труда, и умение. Цель этой книги состоит в том, чтобы хоть в какой-то мере снабдить читателя и тем и другим. За недостатком времени мы не сможем рассказать о многих инстру- ментах, используемых в работе исследователя; мы познакомимся лишь с некоторыми наиболее универсальными и мощными из самых простых. Мы не обещаем, что это будут «наилучшие» орудия труда, в частности, потому, что мы не уверены в существовании каких-то единственных «наилучших» инструментов. Умению присущи различные ограничения. Как известно из детек- тивных романов, требуются совершенно разные профессиональные навыки, чтобы раскрыть преступление в лондонских трущобах, в глухой деревушке Уэльса, средн парижских аристократов, на Диком Западе США или в австралийской глуши. Вряд ли детектив из Скот- ланд-ярда сможет успешно выследить похитителя скота или техасская конная полиция — расследовать преступление, совершенное в центре Бирмингема Аналогичным образом требуются весьма различные про- фессиональные навыки, чтобы успешно проанализировать данные о землетрясениях, о химическом производстве, размерах и доходах фирм в какой-нибудь отрасли сферы обслуживания, слухе человека, числе самоубийств, росте народонаселения, об ископаемых динозаврах, данные, касающиеся генетики плодовых мух или последних достиже- ний в молекулярной биологии. Чтобы подробно познакомиться с про- цессом анализа информации в любой из этих областей или из многих
Как записывать числа («стебель с листьями») 19 других, потребуется гораздо больше времени, чем имеется в нашем распоряжении.. 1 Однако детектив из Скотланд-ярда все-таки сможет кое-что сде- лать также и на Диком Западе, и в Австралии. Он обладает определен- ными общими профессиональными навыками следовательской работы, которые помогут ему везде. Чтобы проводить обработку и анализ данных, тоже нужны некото- рые общие профессиональные навыки. Мы надеемсч научить читателя некоторым из них. По крайней мере попытаемся. Уголовный процесс отчетливо распадается на два этапа: поиски улик, что в англосаксонских странах является обязанностью полиции и других следственных органов, и оценка доказательности улик, что осуществляют суды и судьи. Аналогичное разделение труда полезно и при анализе результатов наблюдений. По своему характеру разве- дочный анализ данных аналогичен стадии расследования, подтверж- дающий анализ данных — судебному рассмотрению дела. Мы здесь будем заниматься только разведочным анализом данных Если следователь не сможет найти никаких улик, суду нечего будет рассматривать. Если разведочный анализ данных не выявит никаких конкретных указаний (обычно количественных), подтверж- дающему анализу данных едва ли найдется, что подтверждать. Из этого правила существуют исключения, полные или частичные, возникающие при экспериментах и некоторых исследованиях, прово- димых по определенному плану. Это происходит потому, что одна из ветвей анализа данных была задумана как составная часть экспери- мента или исследования. Однако даже в этом случае ограничиваться лишь запланированным анализом, не пытаясь применять какие-либо Другие методы, неправильно, так как это может привести к тому, что наиболее интересные результаты ускользнут от нас. Как известно из детективных романов, многие обстоятельства, сопровождающие преступления, бывают случайными или ведут по неправильному пути. Точно так же многие указания, найденные в Данных, бывают случайными или ведут по неверному пути. Принимать все кажущиеся закономерности за явно существующие было бы па- губно — будь это расследование преступления или анализ данных. Однако не учитывать все кажущиеся закономерности из-за того, что некоторые — или даже большинство из них — созданы игрой случая, былобы грубой ошибкой, заслуживающей соответствующего наказания. Разведочным анализом данных исследование еще не заканчивается, Во ничто другое не может служить в качестве фундамента, первого Шага. Мы будем исследовать числа. Нам нужно научиться легко с ними оперировать и наглядно располагать на бумаге. Специальные приемы, служащие для этих целей, — графические, численные или какие-то
20 Глава 1 комбинированные — заслуживают серьезного внимания. Чем больше мы сумеем упростить эти приемы, тем лучше — при условии, что они будут оставаться эффективными. Если для этой цели окажутся важны какие-то детали, то мы не будем ими пренебрегать. ОБЗОРНЫЕ ВОПРОСЫ Что такое разведочный анализ данных? В каком отношении он находится с подтверждающим анализом данных? Как планируемый анализ связан с разведочным? Следует ли заниматься лишь теми за- кономерностями, в истинности которых мы уверены? 1Б. ПРАКТИЧЕСКИЙ СЧЕТ Прежде чем продолжить наше изложение, займемся некоторыми важными деталями счета. ТОЧНОСТЬ ВЫЧИСЛЕНИЙ Мы не будем строго последовательны при удержании в числах лишних знаков после запятой или при округлении. Будем исходить при этом из общего поведения наших данных. Так, например, мы могли бы использовать один из следующих способов: (19+194-20)73=19,3 (если другие данные мало отличаются от 19) (19+19+20)73= 19 (если другие данные сильно отличаются от 19) ОКРУГЛЕНИЕ При округлении числа надо выбирать ближайшую цифру либо четную из двух, находящихся на одинаковом расстоянии. Таким обра- зом, будем иметь: 17,518 18,5 -> 18 19,5-> 20 20,5 -> 20 В результате может получиться: (19+20)72=19,5 (остальные данные не сильно отличаются от 19,5) (19+20)72=20 (остальные данные существенно отличаются от 19,5) (20+21)72=20,5 (остальные данные близко) (20+21)72 =20 (остальные данные далеко) ОТБРАСЫВАНИЕ ЦИФР Числа часто укорачивают, просто отбрасывая лишние знаки справа. Это, конечно, быстрее и легче, особенно для тех, для кого округление непривычно.
Как записывать числа («стебель с листьями») 21 Трудно дать точные рекомендации, когда следует округлять, а когда отбрасывать. Если отброшенное легко восстановить (взглянув на ту же или на соседнюю страницу), тогда, разумеется, можно спо- койно отбросить лишние знаки. Если же данные интересуют исследо- вателя глубоко, то он наверняка будет округлять, хотя бы для успо- коения собственной совести. Мы будем делать и то и другое и читателю советуем поступать так же. ЕДИНИЦЫ ИЗМЕРЕНИЯ И ЗАПЯТЫЕ Числа записывают либо для хранения, либо для просмотра. В даль- нейшем мы почти всегда будем их записывать, чтобы можно было смот- реть на них,— или в процессе описания вычислений, или представле- ния результатов, окончательных или промежуточных. Если нужно записать только одно число, имеет смысл сохранять первоначальные единицы измерения и все знаки после запятой. Мы наглядно изобразим результат измерения, если укажем, что население США составляет 200 000 000 человек или что толщина синтетической пленки равна 0,00127 дюйм. Когда у нас есть несколько чисел, то обычно полезно изменить единицы измерения на более подходящие для имеющихся чисел. Мы яснее представим себе численность населения, если запишем ее как 201 млн. (или 201,2 млн.), а не как 201 234 567. Толщина синтетической пленки, равная 1,27 тысячных дюйма, будет нагляднее, чем 0,00127 дюйм. По мере накопления чисел для исследования запятые, отделяющие десятичные знаки, становятся обременительными. Они нарушают вид числа и затрудняют сравнение, особенно если чисел больше двух. В этом случае нужно выбрать единицы, которые лучше всего подхо- дили бы к имеющимся числам. Вместо 201,2; 127,3; 63,4; .. . миллионов человек мы можем записать 2012, 1273, 634,. . . сотен тысяч, а вместо 1,27; 2,52; 0,62; 3,83; . . . тысячных дюйма —соответственно 127, 252, 62, 383, . . . стотысячных дюйма. Чтобы при этом не запутаться, удобно отмечать в отдельных частях таблицы принятые единицы. В дальнейшем мы будем часто пользовать- ся, например, такими заголовками: А) НАСЕЛЕНИЕ — в сотнях тысяч А) НАСЕЛЕНИЕ— ед. = 100 000 человек А) НАСЕЛЕНИЕ — ед.= 105 человек Б) ТОЛЩИНА ПЛЕНКИ —ед. = 0,00001 дюйм Б) ТОЛЩИНА ПЛЕНКИ — ед.= 10~5 дюйм. «П» ВМЕСТО «С ПОЛОВИНОЙ» Даже если данные выражены в целых числах, из вычислений часто получаются дроби. Стремясь упростить счет, мы нередко округляем До половины.
22 Глава 1 Было бы неплохо избежать таких чисел, как 4,5; 13,5 и тому подоб- ных «,5», которые лишь рассеивают наше внимание. Хотя этот прием еще широко не используется, очень полезно заменять запись «,5», или «с половиной», буквой «п», поставленной вплотную за числом без запятой. Мы часто будем так поступать (особенно в последующих гла- вах). Таким образом, при счете через половину мы будем иметь, напри- мер, 4, 4п, 5, 5п, 6 вместо 4; 4,5; 5; 5,5; 6 или 4,0; 4,5; 5,0; 5,5; 6. «*» КАК ПРИЗНАК РАЗРЯДА Цифры в числах часто служат фактически лишь отметками разряда. Вряд ли численность населения, равная 201 234 567, действительно известна с такой точностью (хотя эти цифры, возможно, правильно отражают число подсчитанных человек). Было бы полезно ввести какое- нибудь простое обозначение для отметки разряда. Мы будем употреб- лять звездочку «•»» и отбрасывать цифры. Таким образом, 20123 **** обозначает число между 201 230 000 и 201 239 999, которое нам неже- лательно давать в виде 20 123 десятков тысяч. «#» ВМЕСТО «КОЛИЧЕСТВА» Там, где это покажется целесообразным, мы будем часто употреб- лять символ «#», который будет означать «количество», или «подсчет». ОБЗОРНЫЕ ВОПРОСЫ Надо ли удерживать всегда одно и то же число знаков после запя- той? Чем округление отличается от отбрасывания знаков? Как округ- лять половину? Почему важно удачно выбрать единицы измерения для чисел, с которыми мы имеем дело? Какое влияние оказывает присутст- вие десятичной запятой при рассмотрении совокупности чисел? Что означает «137 п»? «137»? «#»? 1В. КАК ЗАПИСЫВАТЬ ЧИСЛА Вероятно, самой простой задачей, выполнить которую читатель пока еще, видимо, не готов, является запись выборки чисел таким об- разом, чтобы они сразу производили верное общее впечатление, т. е. показывали, «на что это похоже». Под выборкой чисел мы здесь подразумеваем совокупность аналогичных значений, как бы они ни были получены. Простыми примерами таких выборок будут: 1) значения веса 21 студента в какой-либо учебной группе пер- вого курса; 2) общее количество выпавшего снега в каком-ибудь месте
Как записывать числа («стебель с листьями») 23 Иллюстрация 1 главы 1: автомобили / объявление Подсчет числа автомобилей на одно объявление, произведенный таким образом, чтобы охарактеризовать эти 18 чисел В ЦЕЛОМ А) ОБЫЧНАЯ ЗАПИСЬ Б) НАПОМИНАНИЕ О ПОСЛЕДНЕЙ ЦИФРЕ 5 6 7 8 9 10 11 12 13 14 15 16 17 3 4 5 6 7 8 9 33 44 55 66 77777 10 11 1 12 13 14 15 16 6 17 77 х х X X X X X X X 9 В) УПРАЖНЕНИЯ la) Найдите интересную для вас выборку данных. 16) Изобразите эти данные, как в п. А. !в) Сделайте го же, что в п. Б. за каждую из Ю зим; 3) общие суммы выручки за текущий год тех 14 страховых агентов чья выручка за предыдущий год была наиболь- шей; 4) число поломок электросети в каждом из II фешенебельных пригородов Нью-Йорка за последнее десятилетие; 5) число клещей, обнаруженное на каждой из 49 крыс. Во всех этих случаях желательно посмотреть, каковы эти сово- купности чисел как целое. Далее, может быть, нам надо просто пере- писать их из первоисточника в таком виде, в котором их было бы легко использовать почти для любой цели. Если какой-то способ будет приго- ден и для того и для другого, тем лучше. Если понадобятся две формы одного и того же способа, мы будем использовать обе. Начнем с объявлений о продаже подержанных автомобилей в «Санди стэндард тайме» города Нью-Бедфорд (шт. Массачусетс) от 18 августа 1968 г. В 18 объявлениях перечисляются три или более автомобилей. Числа в порядке размещения объявлений получились следующие: 6, 7, 7, 3, 5, 7, 3, 11, 16, 4, 17, 17, 6, 7, 9, 4, 7, 5. Даже если их просто записать, как это сделано здесь, мы уже получим некоторое представление о числе автомобилей, приходящихся на одно объявление. Однако, разумеется, можно распорядиться ими лучше. На иллюстра- ции 1 показано, как можно записать те же числа, чтобы получить о них более цельное представление. В столбце А каждое число заменено косым крестом. Представляя наш ряд чисел в виде столбца Б, где вместо крестика сохранена последняя цифра числа, мы кое-что выигры-
24 Глава 1 ваем, поскольку при беглом просмотре получаем больше сведений, а также можем частично проверить правильность размещения каждого числа в своей строке. ЖИРНЫЙ ШРИФТ Уже в первой иллюстрации первой главы мы начали использовать жирный шрифт для различения двух видов цифр. Что тут можно сделать, имея в своем распоряжении карандаш и бумагу? Если жир- ный шрифт полезен при передаче сообщения от писателя к читателю, следует что-то использовать при передаче сообщения на письме от одного лица другому (это может быть и один и тот же человек, но в разные моменты времени). Если есть возможность, то наилучшим способом будет употребление двух цветов (или, в более сложных случаях, трех и более). Хорошо, например, если у вас есть шариковая ручка с несколькими стержнями. В противном случае вполне достаточно будет заменить жирный шрифт записью ручкой, а обычный — карандашом. В крайнем случае можно обводить кружочком цифры, которые были бы напечатаны жирным шрифтом, хотя это более трудоемкий и не столь эффективный способ. ОБЗОРНЫЕ ВОПРОСЫ Что такое выборка (чисел)? Приведите пример набора чисел, кото- рый не является выборкой. Зачем нужен жирный шрифт для записи чисел? Как можно поступать, имея карандаш и ручку? Какими двумя способами можно подсчитывать числа? 1Г. УСОВЕРШЕНСТВОВАНИЕ: «СТЕБЕЛЬ С ЛИСТЬЯМИ» Прием, с которым мы только чти познакомились, в некоторых случаях эффективен, однако легко найти такие случаи, когда он не очень хорош. Если в тех же 18 объявлениях мы соберем данные о ценах на подержанные «Шевроле» (включая «Шевелл» и «Импала»), получит- ся следующее: 250, 150, 795, 895, 695, 1699, 1499, 1099, 1693, 1166, 688, 1333, 895, 1775, 895, 1775, 895, 1895, 795. Здесь нам мало поможет быстрый просмотр этой цепочки чисел. Бесполезен и прямой способ, изложенный в предыдущем параграфе, поскольку если идти от 150 до 1895 с шагом в 1 долл., то получится 1746 строк, из которых запол- ненными окажутся лишь 17. Можно, конечно, отбросить две последние цифры и оставить лишь полные сотни долларов: 2, 1, 7, 8, 6, 16, 14, 10, 16, 11, 6, 13, 8, 17, 8, 18, 7. Эти данные уже будет легко представить способом, изображен- ным на илл. 1. Мы пока отложим эту возможность и займемся ею нем- ного позднее.
Как ваписывать числа («стебель с листьями») 25 Иллюстрация 2 главы 1: автомобили / объявление Данные и обозначения илл. 1, Б для случаев, когда в каждой строке может быть 2, 3 или 10 различных цифр (Примечание. Справа записываются последние цифры наблюдаемых чисел.) 2-3 33 3-5 334455 4-5 4455 6-8 6677777 6-7 6677777 9-11 91 8-9 9 12-14 10-11 1 15-17 677 12-13 14-15 16-17 677 .. в)- 0-9133445566777779 10-1911677 Г) Как В, но в СОКРАЩЕННОМ виде — так называемый ПРОСТОЙ СТЕБЕЛЬ С ЛИСТЬЯМИ 0*133445566777779 1*11677 Д) УПРАЖНЕНИЯ 2а) Представьте данные, собранные для упр. 1а, в виде простого стебля с листьями, 26) Наберите ряд чисел (не менее 50), записывая их в виде стебля с листьями. Обратимся к илл. 1, Б. На илл. 2, А и Б представлены те же дан- ные, но каждая строка теперь соответствует двум или трем смежным числам автомобилей на одно объявление. На илл. 2, В и Г показано, что получается, когда в каждой строке сгруппировано по 10 возмож- ных значений. Метод илл. 2, Г весьма эффективен. Писать здесь нужно даже меньше, чем при фиксации данных в первоначальном виде. Например, в форме «1» |1677» требуется семь символов для изображения чисел 11, 16, 17, 17. Для первоначальной формы записи нужно восемь символов (или двенадцать, если считать знаки препинания), в то время как у нас их всего пять (или семь). Главная идея формы записи вида илл. 2, Г заключается в том, чтобы часть информации дать сразу же в начале каждой строки, а затем оставшуюся информацию записать в этой строке с максимальной ком- пактностью. Такой способ представления данных мы будем называть стеблем с листьями. Каждая строка — стебель, каждая частичка информации на стеб- ле — лист. Когда, как в данном случае, «основанием» стебля является первая часть числа, к которой следует по очереди приставлять листья, это «основание» мы будем называть начальной частью. Листьями из одной цифры пользоваться удобно, но вскоре мы уви- дим, что иногда следует употреблять две цифры или более.
26 Глава 1 Иллюстрация 3 главы 1: цены на «Шевроле» Три вида записи цен на 17 автомобилей «Шевроле» А) ЦЕНЫ в долларах 250, 150, 795, 895, 695, 1699, 1499, 1099, 1693, 1166, 688, 1333 895, 1775, 895, 1895, 795. Б) ЦЕНЫ в десятках долларов (последняя цифра отброшена) 25, 15, 79, 89, 69, 169, 149, 109, 169, 116, 68, 133, 89 177, 89, 189, 79. В) Единица =100g Для проверки Г) Единица = 10 g Стебель с одноразрядными листьями Д) Единица = 1 8 Стебель с двухразрядными листьями 5 5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 13 17 18 X X х х XXX X X х х х х х х 1* 2 3 4 5* 6 7 8 9* 10 11 12 13* 14 15 16 17* 18 98 99 993 9? 7 9 1** 2 3 4 5** 6 8 9** 10 11 12 13** 14 15 16 17** 18 50 50 95,88 95,95 95,95,95 99 66 33 99 99,93 75 95 9 6 3 9 В пп. В и Г цифры отбрасываются без округления. Е) УПРАЖНЕНИЕ За) Объясните словами запись листьев после каждого из стеблей, равного 16, Для любого вида стебля о листьями нужна какая-то единица измерения. Удобной единицей в нашем примере цен на подержанные автомобили, видимо, будет 10 долл. Тогда 250 долл, запишутся как 25 и изобразятся как 2#|5. Как нам поступить с 1099 долл.? Можно либо отбросить одну цифру и получить в результате 109, либо округлить до ПО. Так как же мы будем поступать в подобных случаях? Этот вопрос мы рассматривали во введении к этой главе, но оставили его открытым. Так же мы поступим и сейчас. На илл. 3, Г показано, что получается, если цены на «Шевроле» представить в единицах 10 долл., отбрасывая последнюю цифру.
Как записывать числа («стебель с листьями») ’ZT »« ' ' Результат представлен в стандартной форме стебля с листьями, а имен- но: О все цифры, кроме последней, вошли в начальную часть стебля; § последние цифры чисел записаны на этой строке в качестве ли- стьев; § звездочка стоит не на каждой строке, чтобы избежать ненужного скопления, но достаточно часто для напоминания о количестве разря- дов (здесь один), оставленных для листьев. На илл. 3 показаны также цены в единицах 100 долл., как на илл. 1, А (илл. 3, В), и полные цены с помощью другого вида стебля — с листьями по две цифры (илл. 3, Д). Ясно, что все три формы записи дают очень похожие общие картины сово- купности 17 цен как целого; О степень детальности увеличивается при переходе от формы В к Г и затем к Д; О плата за увеличение детальности пренебрежимо мала при пере- ходе от В к Г, но может стать несколько большей при переходе от Г к Д. Таким образом, мы видим, что в подобных случаях нам будет лучше всего использовать форму Г или Д или даже их обе. ПРОВЕРКА Имея дело с числами, мы скоро узнаем о печальной необходимости проверять правильность вычислений. Слишком поздно выловленные ошибки заставляют снова повторять все мучительные процедуры вы- числений, которые мы считали законченными. Проверка неизбежна, но если она чересчур сложна, то нам придется еще вылавливать ошибки и оттуда. Нужна достаточно надежная, но не слишком трудоемкая прсвсрка. Записывая числа в виде стебля с листьями, мы обязаны проверить хотя бы одно: все ли числа мы записали? Если чисел немного, их легко сосчитать, ничего не записывая на бумаге. Но сейчас, чтобы напомнить о необходимости проверки, мы составим проверочный столбец, заклю- чаемый в скобки (пример см. на илл. 4). Чтобы не испытывать затруд- нений при составлении таких столбцов, нам нужно научиться быстро и легко считать числа. Возьмем те 19 листьев, которые появятся на одном из стеблей на илл. 4: 0121243122301214202. Мы советуем поступать так: О положить левую руку на бумагу, причем указательный палец направлен вправо;
28 Глава 1 закрывать по три цифры за раз, считая про себя: «3», «6», «9» и т. д. В этом примере мы будем получать последовательно (цифры обыч- ным шрифтом пока видны, а бледным закрыты пальцем): 0121243122301214202 0121243122301214202 0121243122301214202 €121243122301214202 0121243122301214202 €-121243122301214202 0121243122301214202 “0” “3" “6” “9” •‘12’» “15’* “18” Понятно, что «18» и «1» равно 19. Если мы найдем ошибку в общем количестве чисел или захотим все проверить более тщательно, нам нужно будет посмотреть, на тех ли стеблях находятся наши листья. Для этого можно снова просмотреть первоначальные числа, ставя точку над теми, которые оказались пра- вильно помещенными или которые мы исправили. Этот способ быстр и эффективен. ОБЗОРНЫЕ ВОПРОСЫ Как можно записать различные числа в одной и той же строке? Что такое стебель с листьями? Что такое стебель, листья, начальная часть? Сколько разрядов нужно отвести на листья? Как проверить правильность составления записи в целом? В деталях? 1Д. КАК ПРАВИЛЬНО ВЫБРАТЬ ЧИСЛО СТЕБЛЕЙ Иногда недостаточно отделять листья от стебля по десятичным раз- рядам. При одном выборе может оказаться так мало стеблей, что из-за скученности наблюденных величин нам будет трудно их просматри- вать; однако прибавление всего лишь одного разряда к начальной части даст такое количество стеблей, что значения окажутся слишком разбросанными. В таких случаях, возможно, придется отказаться от простого стебля с листьями и поступить несколько иначе. РАСТЯНУТЫЙ СТЕБЕЛЬ С ЛИСТЬЯМИ Один способ состоит в использовании для каждой начальной части двух стеблей, т. е. двух строк —одной для листьев 0, 1, 2, 3, 4 и другой для листьев 5, 6, 7, 8, 9. Начальные части повторяются, причем звездочкой отмечаются лишь части с листьями 0 и 1 (в осталь- ных звездочку можно заменить точкой).
Как записывать числа («стебель с листьями») 29 Иллюстрация 4 главы 1: площади округов Площади округов штата Миссисипи, представленные с помощью двухстрочного стебля с листьями (растянутого стебля) А) ПЕРВОНАЧАЛЬНЫЕ ДАННЫЕ — в кв. милях 448, 405, 729, 724 , 412, 917, 592, . . . Б) цифры) То же с ОКРУГЛЕНИЕМ — в десятках кв. миль (5 округляется до четной 45, 40, 73, 72, 41, 92, 59, . . . В) ОКОНЧАТЕЛЬНОЕ ПРЕДСТАВЛЕНИЕ — в десятках кв. миль 3- 8 Тейт (1) 4* 0121243121300214202 (19) 4- 597886556569 (12) 5* 142010 (6) В- 977899958797 (12) 6* 412441 (6) £• 898598 (6} 7* 320341203 (9) 7- 86657 (5) 8* 303 <3) 8- 8 Хайндз (П 9* 24 Боливар, Яэу (2) (82, Л Числа, первоначально оканчивавшиеся на 5, округляются до ближайшего четного числа. V — общее число значений. Г) УПРАЖНЕНИЕ 4а) Найдите другие данные, заслуживающие представления в виде растянутого стебля с листьями. Запишите их в этом виде. Д) ИСТОЧНИК: The World Almanac, 1966 (с. 370). На илл. 4 приведен пример — площади 82 округов шт. А1иссисипи. В данном случае обычный тип стебля с одноразрядной начальной ча- стью в принципе использовать возможно (читатель легко может сам это проверить). Однако расщепление каждой строки на две позволяет Дать лучшее представление о распределении площадей округов в Мис- сисипи. Заметьте, что мы здесь приводим названия некоторых окру- гов — это придает реальность данным и дает пищу воображению. СЖАТЫЙ СТЕБЕЛЬ С ЛИСТЬЯМИ Иногда бывает полезно взять 5 стеблей вместо одного, двух или Десяти. Чтобы избежать путаницы, мы можем пометить строки сле- дующим образом: * — «нуль» и «один», д — «два» и «три», ч — «четыре» 11 «пять», ш — «шесть» и «семь», точка • — «восемь» и «девять». Пример Аан на илл. 5.
30 Глава 1 Иллюстрация 5 главы 1: данные взяты из последующего примера Пятистрочный стебель с листьями (сжатый стебель) А) ПЯТИРАЗРЯДНЫЙ ВАРИАНТ Б) ОБЫЧНЫЙ ВАРИАНТ (#) (#) *!♦ 1 (1) 11 8 (1) д 2333 (4) 12 0 (1) ч 445555 (6) 13 488 (3) ш 66677 (5) 14 08 (2) • 88 (2) 15 1266 (4) 2« 0000011 <7) 16 058 (3) R 23 (2) 17 08 (2> ч 445 (3) 18 58 (2) Ш 6 (1) 19 (> • 9 (1) 20 03688 (5) з* 1 <11 21 38 (2) Д 3 (1) 22 1 (1> ч 23 5 (1> IU • (34V) 24 25 05 8 (2) (1) 26 3 (1) 27 28 • 29 5 (1) 30 <• 31 2 (1) 32 33 0 (1) 34 (34, V) В) УПРАЖНЕНИЕ 5а) Найдите еще выборку чисел, заслуживающую представления в виде сжатого стебля. Представьте ее в этом виде. Г) ИСТОЧНИК: пример в одной из последующих глав, связанный с илл. 6, ИСПОЛЬЗОВАНИЕ СМЕШАННЫХ ЛИСТЬЕВ Иногда стебель с листьями используется больше как способ записи чисел, а не для внимательного рассмотрения этих чисел. При этом мы можем — иногда это бывает необходимо — применять особые приемы к значениям, далеко отстоящим от основной массы нашей выборки чисел. Некоторые из этих приемов показаны на илл. 6, а именно: О передвижение из соображений удобства границы между на- чальной частью и листьями (часто, как и здесь, по десятичным разря- дам, но не всегда); О обязательное подчеркивание этого изменения как соответствую- щим изменением числа звездочек, так и пропуском строки; () представление выборки в двух видах — один для быстрого просмотра, а другой для хранения и будущего использования (иногда мы будем давать только одну из этих форм).
Как записывать числа («стебель с листьями») 31 А) Б) Иллюстрация 6 главы И максимальная мощность Максимальная мощность гидроэлектростанций Бюро мелиорации (в мегаваттах) ПЕРВОНАЧАЛЬНЫЕ ЗНАЧЕНИЯ 30, 1345, 225, 900, 120, 162, , ДВА ВИДА СТЕБЛЕЙ С ЛИСТЬЯМИ хранения) 6,5 5,2,4,4 0,3,6, 2,6 5, 0,8 0 0 5,1 (для просмотра) (#1 (для ”!♦ 65 (2) 1* 2 5244 (4) 2 3 03626 (5) 3 4 508 (3) 4 5* 0 (1) 5* 6 0 (1) 6 7 51 (2) 7 8 8 9* 9* 1** 26350210 (8) 1»* 2 285 (3) 2 3 7 (1) 3 4 2 (1) 4 Б** 5** 6 6 7 7 8 8 9** 0 (1) 9** 1*** 39 (2) 1*** 2 2 3 (34V) 3 20,62,34,50,00,20,14,08 25,85,50 79 24 00 345,974 В) ПРИМЕЧАНИЯ ИСТОЧНИК: The World Almanac, 1966 (с. 263), 1967 (с. 267) (их источник: Бюро мелиорации США). Названия. Если бы использовался только один вид стебля, то освободилось бы место, и отдельные очень большие и очень малые значения в этом представлении мож- но было бы выделить с названиями, среди них Бойсен 15, Элефант-Батт 16, . . „ Сан-Луи 424, Глен-Каньон 900, Хувер 1345, Гранд-Кули 1974. Г) УПРАЖНЕНИЕ 6а) Найдите другие данные, которые стоило бы показать обоими этими способами. Сделайте это. Например, внимательно проследите, что произошло со вторым зна- чением первоначального списка (А). В форме, предназначенной для просмотра, число 1345 превратилось в 1*** |3, или 13**, нечто между 1300 и 1399. В форме, предназначенной для хранения, то же число записано в виде 1*** |345, т. е. в точности 1345. Если мы хотим сохранить все полностью для последующей работы, использование формы «для хранения» неизбежно. Если мы хотим
Как ваписывать числа («стебель с листьями») 33 32 Глава 1 Иллюстрация 7 главы 1: искусственный пример Стебель со смешанными листьями в применении к 25 значениям, часть из которых отстоит далеко от основной массы А) ЗНАЧЕНИЯ 5, —52, —27, —83, 8, —14; —122, —110, 112, 58, —119, 33; 18, —52, —19, 12, —82, 14, 25, —182, —40, 64, —56, 5, 13. Б) СТЕБЕЛЬ С ЛИСТЬЯМИ для ХРАНЕНИЯ В) УПРАЖНЕНИЯ 7а) Представьте те же данные в виде «стебля с листьями для про- смотра». 76) Сделайте для тех же данных сте- бель лишь с одним размером листьев. 7в) Подумайте, чем плох способ (76), Как его можно улучшить? 7г) Введите эти улучшения. было одно и то же число звездочек, нам понадобилась бы 31 строка (от +11 до +0 и от —0 до —18). В этой иллюстрации надо отметить: О присутствие в стебле и положительных и отрицательных значе- ний — отсюда необходимость введения стеблей «+0» и «—0». ОБЗОРНЫЕ ВОПРОСЫ Каково естественное число стеблей, приходящихся на одну началь- ную часть? Чем мы руководствуемся при выборе? Что мы при этом мо- жем выиграть? Следует ли быть последовательным при выборе началь- ных частей в пределах одной выборки? Чем мы рискуем? Какой вид стебля с листьями употребляется для хранения чисел и какой для просмотра? В какой степени мы можем изменять их при необходимости? Сколько может быть начальных частей «0»? -0** 83,82 22,10,19.82 рассмотреть общее поведение данных, также неизбежным будет ис- пользование формы едля просмотра». (При особых обстоятельствах, возможно, придется прибегнуть к компромиссным формам записи.) Полезный подход показан на правой стороне илл. 6, Б («для хра- нения»), Здесь для разделения листьев использована запятая (не десятичная!). Если мы захотим рассмотреть эти данные внимательнее, можно вернуться к одноразрядным листьям, показанным в левой части илл. 6, Б. Этот тип стебля с листьями очень эффективен при записи выборки, состоящей в основном из очень малых чисел с добавлением нескольких очень больших. Часто, как и в этом примере, числа проявляют тен- денцию группироваться сразу же после каждой единицы («1»), Это явление иногда называют «аномальным законом больших чисел». В таких случаях образуется треугольник из чисел от каждой «1» до «9», как если бы листья смыло потоком воды с пустых строк. Это явле- ние затрудняет выявление тех интересных особенностей, которые могут иметься в данных. (Мы скоро научимся бороться с ним.) Дело часто упрощается, если мы позволим себе перескакивать в середине однородного ряда листьев к более длинным листьям. Так сделано, например, на илл. 7, где от —59 до +59 идут одноразрядные листья, а на —60 и +60 начинаются двухразрядные. Этот прием поз- волил нам обойтись 16 строками, а если бы во всех начальных частях 1Е. КАК ВЕСТИ ПОДСЧЕТ ГРУППАМИ Для выборок ограниченного объема принцип стебля с листьями — вапись каждого данного значения посредством одной или нескольких дополнительных цифр — очень полезен. Но если на каждом стебле у нас больше 20 листьев, запись становится громоздкой и производить подсчет листьев уже трудно. Нужно придумать какой-то другой способ обработки таких больших массивов и использовать его тогда, когда с его помощью можно сохранить информацию с желаемой детальностью. В таких быстрых способах каждое значение записывается с помо- щью одного движения ручки или карандаша. Например, счет пятерка- ми может идти так: / // /// //// ТМ Этот способ употребляется часто, но автор находит его опасным, особенно если писать очень быстро. Легко сбиться на № и™ THU- так что этот способ дает не очень хорошие результаты. В рекомендуемой здесь схеме сначала используют точки, образую- щие углы квадрата, затем их соединяют линиями и проводят диагона- ли — таким образом получается символ для числа 10: 4 - :: 8 - П 10-8 1 № 1247
34 Глава 1 При этом неважно, в каком порядке наносятся точки, проводятся стороны квадрата и диагонали. После освоения этих обозначений процент ошибок оказывается значительно меньшим, чем в предыдущем способе. Соединение четырех точек, лежащих в вершинах квадрата,— ясная и определенная опе- рация; здесь нет опасности начать проведение линий после трех точек или добавить пятую точку. То же относится и к завершению построения квадрата. Впрочем, у некоторых новичков отмечается тенденция пере- ходить к следующему квадрату еще до проведения диагоналей. Однако их восьмерки (квадраты) отчетливо выделяются на фоне десяток (квад- раты с диагоналями), так что их легко выловить на этапе перевода этой скорописи в обычные числа. На илл. 8 приведено несколько простых примеров. Иллюстрация 8 главы 1: искусственные примеры Подсчет десятками А) СИМВОЛЫ ЧИСЛА Б) ПРОСТОЙ ПРИМЕР . 1 0 И И □ 1 Ий’, : или •. 2 2 И S ЗИП Г или Пи т.д. 3 4 И ‘ бии;1 :: 4 6 s 7 п .. или I: и т.д. 5 8’ I: 9 :• г: или ПИ тл. 6 10 • П или С и т.д. 7 □ 8 В или И 9 В 10 И И П 27 И К И ЕН 42 В) ДВУХФАКТОРНЫЙ ПРИМЕР Г II 1П IV (курс) Юноши Девушки ЙИН И • и и: и г. и • ЙИП НИЙ и.:* is и; Г) УПРАЖНЕНИЕ 8а) Подберите совокупность данных (не меньше ста чисел), записывая их рассмот- ренным здесь способом, и представьте, как в пп, Б и А,
Как записывать числа («стебель с листьями») 35 Иллюстрация 9 главы 1: годы выпуска автомобилей Годы выпуска подержанных автомобилей в объявлениях о продаже (сравнение записи числами и десятичными квадратами) А) 1—2 автомобиля Б) 3 и более автомобилей Число Символы Число Символы 1 '54 — '54 2 '55 « * 1 '55 * 1 '56 '57 1 .'56 '57 • 2 '58 1 '58 • Б '59 •—• 1 '59 Б '60 •—• 4 '60 • • 2 '61 10 '61 Й 11 '62 И’ 14 '62 и:: 12 '63 й” 17 '63 и п 10 '64 й 25 '64 й й Г7 14 '65 и:: 34 '65 й й й 12 '6S и •* 27 '66 й й п 13 '67 и ;• 12 '67 И” 3 '68 • • • 4 '68 • • В) УПРАЖНЕНИЕ 9а) Подберите две взаимосвязанные выборки (в каждой не меньше 80 чисел) и изобразите в таком же виде. Г) ИСТОЧНИК: «Санди стэндард тайме» (Нью-Бедфорд, шт. Массачусетс) за 18 августа 1968 г. (с. 51, разд. 4), СНОВА подержанные автомобили В илл. 9 мы возвращаемся к газете «Санди стэндард тайме» и ее объявлениям о подержанных автомобилях. Здесь в виде квадратиков, а также в обычной цифровой форме дано число автомобилей для каж- дого года выпуска, содержащихся: О в объявлениях об одном или двух автомобилях; О в объявлениях о трех или более автомобилях. Из записи с помощью десятков можно легче и быстрее составить общее впечатление о данных, чем из тех же чисел, записанных в виде цифр. Иногда для целей просмотра стоило бы даже перевести числа, представленные в цифровом виде, в форму квадратов. ча Из этой иллюстрации мы сразу получаем следующие общие впе- 0 в объявлениях с малым числом предложений (один-два автомо- иля) имеется небольшая тенденция предлагать более старые модели; V возникает вопрос, почему модели 1955 г. так популярны. Каждый из нас мог бы предложить какие-либо причины для объяс- няя первого из этих фактов. Что касается второго, то при обращении 2»
36 Глава 1 непосредственно к текстам объявлений оказывается, что две из трех машин выпуска 1955 г.— это типичные автомобили «Тандерберд». Хотя счет десятками эффективен, он сохраняет меньше сведений, чем стебель с листьями, и его в основном следует использовать только как дополнительный прием. К тому же нужда в этом возникает не столь часто, как можно было бы предположить, ибо весьма полезно накапли- вать информацию частями, которые мы затем можем по желанию сое- динять или сохранять по отдельности. На илл. 9 показано деление на две части. Можно пойти дальше и делить данные на три или четыре части, но тогда было бы разумно (судя по количеству чисел на стебле) записывать каждую часть в виде стебля с листьями. Если же при этом необходимо записать еще какие-то дополнительные данные, такая процедура была бы не просто разумной, но желательной. ОБЗОРНЫЕ ВОПРОСЫ Какие неприятности могут произойти при счете пятерками? Как считать десятками? Выгодно ли переводить цифровые данные в десятки? Почему? Стоит ли записывать информацию частями? Что мы при этом выигрываем? Что влияет на выбор между стеблем с листьями и счетом десятками? 1Ж. ЧТО ОЗНАЧАЕТ «ПОЧУВСТВОВАТЬ, В ЧЕМ ОСОБЕННОСТИ ДАННЫХ» ? До сих пор мы имели дело с довольно однородными выборками чисел. Правда, кое-что необычное мы нашли в данных о подержанных автомобилях выпуска 1955 г., но в общем в приведенных стеблях не было ничего особенно бросающегося в глаза. На илл. 10 даны высоты наивысших точек местности в каждом из 50 штатов США. Видно отчетливое разделение штатов на три группы, а именно: О Аляска; <5 штаты района Скалистых гор; Калифорния, Колорадо и Вашин- гтон; Гавайские острова; О все остальные. Представление в виде стебля с листьями часто позволяет выявить следующие особенности данных: О разделение на группы; 0 несимметричное спадание к концам — один «хвост» длиннее другого; О неожиданно «популярные» и «непопулярные» значения; относительно какого значения «центрированы» наблюдения; <> как велик разброс данных.
Как ваписывать числа («стебель в листьями») 37 Иллюстрация 10 главы 1: высоты местности Высоты самых возвышенных точек в каждом штате А) СТЕБЕЛЬ С ЛИСТЬЯМИ (ед,= 1С« фут) О* 2 3 4* 5 6 7 8* 9 "10 11 12* 13 14 15 16* 17 18 19 20* 43588 237886 484030 45526 80149 34307 376 2 768 81258 544 (#) Дел., Флор.,' Луиз., Мисс.,Р,-А. (5) (6) (6) (5) (5) (5) (3) (1) (1) Ю. Дак, Техас Орегон Калифу Колор., Ваш, Аляска (D (3) (5) (3) (1) (50,7) 8 3 Б) УПРАЖНЕНИЯ Юа) Сделайте такую же иллюстрацию для данных о самых низких точках во всея 50 штатах. 106) Прокомментируйте то, что получилось в (10а). В) ИСТОЧНИК: The World Almanac, 1966 (с. 269) (их источник: Национальное географическое общество США), Первые три особенности можно усмотреть непосредственно из стебля с листьями. Для ответа на последние два вопроса, как мы скоро увидим, нужна еще дополнительная обработка данных. Заметьте, что на краях диаграммы, а также там, где появляются пропуски, полезно привести названия, относящиеся к отдельным зна- чениям. ОБЗОРНЫЕ ВОПРОСЫ то нам бросается в глаза при просмотре стебля с листьями? Уви- дим ли мы то же самое при записи десятками?
Г лава 1 1И. ЧЕГО МЫ ДОСТИГЛИ? Первая глава была посвящена: а) разговору о назначении разве- дочного анализа наблюдений и б) ознакомлению с простыми приемами записи сведений о выборках чисел. При этом ставилась цель: О дать почувствовать поведение каждой выборки как целого или <5 собрать и хранить полученные значения в виде, удобном для дальнейшего использования. Иногда для хранения и для просмотра мы употребляем различные виды представления. ЧТО МЫ НАУЧИЛИСЬ ДЕЛАТЬ? Разведочный анализ наблюдений — это следовательская работа в самом прямом смысле этого слова, т. е. поиски и выявление опреде- ленных сведений. Подтверждающий анализ наблюдений, которым в этой книге мы заниматься не будем, является следующей ступенью, на которой оце- нивается доказательность полученных сведений. Все приемы обработки выборки чисел, с которыми мы встретились, тесно связаны друг с другом. Они помогают нам расположить числа перед глазами посредством записи наиболее важного, по нашему мне- нию, элемента чисел, который в то же время был бы информативен. (Лишние подробности или растянутость в записи данных отвлекают от главного.) Применяя каждый способ записи, нужно проверять хотя бы общее количество чисел. (В случае стебля с листьями это легко сделать, ставя точки над числами.) Расположение данных в виде стебля о листьями предоставляет нам выбор между одноразрядными, двухразрядными (и т. д.) и смешан- ными листьями. Выбор делается из соображений удобства, необходи- мости и целесообразности. Иногда мы используем одновременно два различных способа записи. Если нужно собрать или записать много чисел и не требуется особой детальности, очень удобен счет десятками. Наиболее важными особенностями, которые можно обнаружить при детальном представлении выборки чисел, являются разделение на группы, асимметрия, наличие локальных особенностей, среднее значение и разброс. НА ЧЕМ МЫ ОСТАНОВИЛИСЬ? Как мы видели уже в этой главе, при анализе наблюдений необ- ходимо так научиться располагать данные, чтобы они сами расска- зали о себе. Чтобы что-либо обнаружить, надо смотреть — в надле- жащих местах и с надлежащим увеличительным стеклом.
Как записывать чивла («стебель о листьями»)39 Большинству из нас известно, как следует смотреть на одно число. Вероятно, было бы трудно выявить все причинные связи из того факта, то в США в 1964 г. было 46 930 смертельных исходов при автомобиль- ных авариях, но трудность здесь заключается совсем не в понимании этого одного числа. То же самое нередко относится и к сравнению нескольких вполне определенных чисел, например приведенных ниже данных о смерт- ности за 1962—1964 гг. на каждые сто миллионов человеко-миль: <• поезда 0,09 <> самолеты 0,16 <> автобусы 0,17 <> автомобили (на шоссе) 1,2 <> автомобили (любые) 2,3 И в этом случае у нас будут трудности, но не о пониманием самих чисел, а с распознаванием причин и следствий. Простейшим случаем, когда мы должны научиться определеннее или быстрее осознавать главное в числах, является выборка одно- родных чисел. Отсюда необходимость в методах, описанных в этой и последующих главах. (Конец раздела, озаглавленного «Чего мы достигли?», означает окончание этой и всех остальных глав. Следующие после этого раз- делы являются в том или ином смысле необязательными для чтения. В некоторых из них будет рассказано о полезных приемах, но они не существенны для наших основных целей или методов.) 1К. ИСПОЛЬЗОВАНИЕ МЕТОДА СТЕБЛЯ С ЛИСТЬЯМИ ДЛЯ ПОЛУЧЕНИЯ ДОПОЛНИТЕЛЬНОЙ ИНФОРМАЦИИ (ФАКУЛЬТАТИВНО) Основной принцип (стебель — для указания места записи, листья — для уточнения информации) применим не только к примерам уже рассмотренного типа. Вернемся к 18 объявлениям о трех и более автомобилях в «Санди стэндард тайме». Используем теперь метод стебля с листьями для сбора сведений одновременно о годе выпуска и марке автомобилей. На илл. 11 показаны метод и результаты. От- носительно шифровки названий заметим: О где можно, мы использовали начальные буквы названий, но если подходящих букв не оказывалось, то, не колеблясь, прибегали к цифрам; О использовали прописные и строчные буквы, если их написание отличается друг от друга. На илл. 11, В показано, что получается, если для каждого года расположить код в алфавитном порядке (при этом для 1965 г. при- лось отвести две строки). Такое расположение позволяет отчетливо
40 Глава 1 Иллюстрация 11 главы 1: марки автомобилей Годы выпуска и марки подержанных автомобилей А) КОД МАРОК МАШИН Б) СТЕБЕЛЬ С ЛИСТЬЯМИ Т Бонневиль Б 1955 Бьюик б 56 Валиант В 57 э Галакси Г 58 Е Гран-При г 59 И Додж Д 1960 КИКФ Импала И 61 ЕИ т 4Ф9994Т Кадиллак К 62 ЗЕИ6 ч 02ЕТИИ6ч Классик 1 63 ИИЭР б ДРЕРЛОИЕЕБ6 Комета 2 64 6Г1 б ДДЗЕИИР б И268ШЕКОЕМ Кор вер 3 65 743Е30ЕПДЕ9ЕЕЕБ б ИЕСЕ60ИДЕЕ б КЕЕ ч ЕЕЕР Крайслер 4 66 А т ФШ1ЕФ2 б 3 Ш9ИФКЕОШ56Я99ЕП2 Линкольн Л 67 В669 г 5Ф65ЕК г Меркурий М 68 4ПДП Мустанг 5 Олдсмобиль О В) УПОРЯДОЧЕННЫЙ СТЕБЕЛЬ С ЛИСТЬ- ЯМИ Плимут П Понтиак 6 1955 Т Рамблер Р 56 Санбим С 57 Э Симка 7 58 Е Студебекер 8 59 И Т-берд Т 1960 ИККФ Темпест т 61 ЕИТ Ф44999 Фольксваген Ф 62 ЕЕИИИОТ 2366 Форд 9 63 Б6ЕЕЕИИИЛОРРР699 Футу р а А 64 бб ГДДЕЕЕИИИКМОРШ123668 Чеви II ч 65 ЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕ Шевел Ш 65 БббДДЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕИИКООПРСч334679 Шевроле Е 66 АбЕЕЕИКОП ФФФШШШЯ122356999 Эльдорадо Э 67 ВаеЕКФ556669 Ягуар Я 68 ДПП4 Г) УПРАЖНЕНИЕ На) Найдите другую совокупность данных, заслуживающих представления в таком виде. Запишите. Д) ИСТОЧНИК: объявления для трех и более автомобилей, газета «Санди стэн- дард тайме» (Нью-Бедфорд, шт. Массачусетс) от 18 августа 1968 г„ с, 51, разд. 4.
Как вап исывать числа {«стебель о листьями»)41 Иллюстрация 12 главы 1 Использование представления в виде стебля с листьями для 50 пар чисел (данные об этих числах см. на илл. 20 гл. 8) -3 -2 -1 -О О 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 (7,505) (5,301) (2,398), (0,398) (6,243), (9,301) (2,255), (3,255), (4,525), (5,366), (6,544) (3,342), (7,477), (7,301) (0,398), (6,398) (2,477), (2,0), (3,398), (6,439), (9,255) (0,653), (9,301) (0,455), (3,398), (4,301), (7,477), (9,398) (4,398), (6,453), (6,477), (9,267) (0,512), (0,544), (1,628), (4,477) (3,398), (6,439), (7,544), (8,398) (4,574), (6,556) (0,544), (8,602) (0,544), (0,602), (7,602) (7,653) (0,653) (6,644) (9,699) увидеть частоту появления некоторых сочетаний названий и годов. Бросается в глаза скопление пятнадцати «Шевроле» в 1965 г., но можно найти и другие примеры. ПАРЫ ЧИСЕЛ В этих последних примерах мы фактически записывали пары вида (число, марка). Ясно, что можно пойти дальше и записывать пары вида (первое число, второе число). На илл. 12 это сделано для логарифмов от счета в банке (первое число) и жалованья губернатора (второе число); данные для каждого штата и их источник приведены на илл. 20 гл. 8. Здесь, к примеру, на стебле 10 имеются листья (4, 574) и (6, 556), так что полностью эти пары будут (104, 574) и (106, 556).
42 Глава 1 1Л. ДОПОЛНИТЕЛЬНЫЕ УПРАЖНЕНИЯ См. илл. 13—15. Иллюстрация 13 главы 1: данные и упражнение Вязкость при температуре 190сС и низкая скорость сдвига А) ДАННЫЕ Номер наблюдения Вязкость (100 000 пуаз) 1 выборка 11 выборка III выборка 1 0,384 0,661 3,54 2 0,376 0,671 3,66 3 0,376 0,688 3,42 4 0,371 0,644 4,10 5 0,385 0,668 4,09 6 0,377 0,648 3,77 7 0,365 0,706 4,17 8 0,384 0,715 3,91 9 0,365 0,647 4,61 10 0,384 0,682 3,87 11 0,378 0,692 12 0,729 Б) УПРАЖНЕНИЕ 13а) Приведенные выше значения были даны Мак-Гланери и Харбаном в их статье 1963 г. в целью показать, насколько хорошо они могут измерять вязкость жид- костей с помощью устройства под названием «капиллярный реометр». Пред- ставьте каждую выборку в виде стебля с листьями. Прокомментируйте резуль- таты. В) ИСТОЧНИК: McGlanery R. М., Нarban A. A. Two instruments for measuring the low-shear viscosity of polymer melts. Materials Research and Standards, 3, 1003— 1007, 1963 (c. 1004, табл. 2). Иллюстрация 14 главы 1: данные и упражнение Радиальные скорости звезд близ а Персея А) РАДИАЛЬНЫЕ СКОРОСТИ—км/с +50,0 —2,4 + 1,0 —0,5 +2,2 -11,8 -11,9 —36,1 + Ю,0 +3,7 -15,9 -4,1 —19,1 —16,2 —7,0 +7,0 —9,5 +2,0 —3,0 —22,1 -10,8 +2,2 0,0 -8,4 +5,0 +3,2 -9,1 -6,0 —2,8 —1,0 +0,5 +4,4 —4,4 —17,2 —23,9 +3,0 —0,7 +2,2 +1,6 —0,3 + 12,8 -8,2 +24,7 + 15,9 +18,0 +6,0 +14,5 — 10,5 —13,6 +4,8 +9,0 —17,5 +5,9 —18,4 —17,2 -4,4 4-15,9 —25,7
Как записывать числа («стебель о листьями»)43 Иллюстрация 14 (продолжение) Б) УПРАЖНЕНИЕ 14а) В 1958 г. Хекман и Любек измерили приведенные выше радиальные скорости звезд близ а Персея. Представьте эти данные в виде стебля с листьями и прокомментируйте результат. В) ИСТОЧНИК: Heckmann О., Lubeck К. Das Farben-Helligkeits-Diagramm des Bewegungshaufens urn Alpha Persei. Zeitschrift fur Astrophysik, 45, 243—263, 1958 (рис. 2 на с. 248 основан на табл. 2 и 3 со с. 247, 248.) Иллюстрация 15 главы 1: данные и упражнение Константа ассоциации первого нитратного комплексного иона плутония (IV), измеренная в растворах хлорной и азотной кислот с концентрацией ионов водорода 2,00 моль/л А) РЕЗУЛЬТАТЫ ПОВТОРНЫХ ЭКСПЕРИМЕНТОВ 1,97; 2,13; 2,02; 1,55; 2,83; 2,92; 2,40; 3,24; 3,21; 3,88; 3,85; 3,89; 2,84; 3,08} 4,17; 2,64; 3,67; 3,06; 2,70; 1,91; 2,34; 2,49; 2,76; 3,50. Б) УПРАЖНЕНИЕ 15а) В 1949 г. Хайндман дал приведенные выше числа, относящиеся к стабильности комплексного иона, состоящего из четырехвалентных ионов плутония и ионов нитратов. Представьте данные в виде стебля с листьями и прокомментируйте результат. В) ИСТОЧНИК: Hindman J. С. Complex ions of plutonium. The nitrate complex ions of plutonium (IV). 1949, c. 388—404 книги “The Transuranium Elements”, ed. by G. T. Seaborg, J. J. Katz, W. M, Manning, McGraw-Hill (т, 14В серии Plutonium Project Record) (табл, 1, c, 390),
Глава 2 ПРОСТЫЕ СВОДКИ ДАННЫХ- ЧИСЛОВЫЕ И ГРАФИЧЕСКИЕ УКАЗАТЕЛЬ К ГЛАВЕ 2 Обзорные вопросы 46 2А. Крайние значения и медиана 46 крайние значения 46 медиана 46 Подсчет вглубь 47 ранг 47 ранжирование вниз 47 ранжирование вверх 47 глубина 47 интерполированные ранги 48 Обзорные вопросы 49 2Б. Сгибы и 5-числовые сводки 49 Сгибы 50 5-числовая сводка 50 буквенно-числовое представление 50 Примеры 51 Дополнительные примеры 54 Обзорные вопросы 56 2В. «Ящик с усами» 57 Как строить графики 59 Калька 59 Масштабные значения 60 Черчение графиков без миллиметровки 60 Обзорные вопросы 60 2Г. Барьеры и внешние значения 61 С-ширина 61 шаг 61 внутренние барьеры 61 наружные барьеры 61 примыкающие значения 61 внешние значения 61 отскакивающие значения 61 барьерно-буквенное представление 61 Размахи 61 размах 61 Трехсредние значения 64 трехсреднее значение 64 Обзорные вопросы 64 2Д. Схематические диаграммы 64 правила для их построения 64 Обзорные вопросы 66
Простые сводки данных 45 2Е. Доводы за и против: пример Рэлея 66 Как исправить положение 68 Еще раз — к чему мы стремимся? 68 Выбор графика 69 Обзорные вопросы 69 2Ж. Восьмые, шестнадцатые и т. д. (здесь они почти не понадобятся, но используются в последую- щих главах) 70 восьмые 70 шестнадцатые 70 В, Б, А и т. д. 70 7-числовая сводка 70 9-числовая сводка 70 буквенные значения 70 Обзорные вопросы 70 2И. Чего мы достигли? 70 Что мы научились делать? 71 На чем мы остановились? 72 Мы научились записывать ряды чисел. Представление их в виде стебля с листьями позволяет делать это легко и быстро. Еще важнее то, что с помощью этого метода мы можем сразу воспринять общую картину выборки. Когда эта картина четкая, мы легко можем выразить ее словами. Например, на илл. 10 гл. 1 числа совершенно отчетливо распадаются на три группы (что бывает нечасто), а на илл. 4 и 5 той же главы убы- вание к меньшим значениям гораздо круче, чем к большим (это, на- оборот, довольно частое явление). Перед нами стоит задача научиться выражать в сжатом виде наи- более часто встречающиеся общие особенности выборок. Хорошо бы сделать это с помощью нескольких чисел, смысл которых легко по- нять, и условиться, какие это будут числа, как их называть, отме- чать, записывать и, наконец, как легко и с пользой изобразить их графически. Чтобы успешно справиться с этой задачей, нужно поставить перед собой конкретные цели. Было бы неправильно ожидать, что простая стандартная сводка может выявить что-либо необычное,— независимо °т того, насколько важно это необычное. Не следует стремиться к тому, чтобы такие факты, как разделение всей выборки на группы (как на илл. Ю гл. 1), выявились с помощью простой стандартной сводки Данных. С одной стороны, такое разделение заслуживает словесных разъяснений. С другой, попытка показать подобные не очень типич- ные события чересчур усложнила бы приемы нашей работы и запутала сводку в случае данных, у которых ничего подобного не наблюдается. Чтобы выявить нечто неожиданное, мы должны обратиться к пред- ставлению данных способом стебля с листьями или другими нагляд-
46 Г лава 2 ними приемами, где были бы видны подробности. Стандартные сводки данных, как численные, так и графические, должны выявлять лишь что-то более или менее известное. Сводки могут быть очень полезными, но они не дают всех подроб- ностей выборки. Если этих подробностей не так много, чтобы в них запутаться, лучше всего иметь перед глазами полные данные, разме- щенные отчетливо удобным для нас способом. Для больших массивов данных сводки необходимы, а для не столь больших часто удобны. Мы не предполагаем и не ожидаем, что они заменят полные данные. Разумеется, нередко бывает, что добавление подробностей мало что дает, но важно осознать, что иногда подробности дают многое. ОБЗОРНЫЕ ВОПРОСЫ Почему возникает нужда в сводках выборок? С какой полнотой можно их составить? Насколько широкие цели мы можем при этом иметь перед собой? Чего разумно ожидать от стандартных сводок данных? Какова цель более подробных способов представления? Часто ли они играют важную роль? 2А. КРАЙНИЕ ЗНАЧЕНИЯ И МЕДИАНА Если для характеристики выборки как целого нам нужно выбрать несколько чисел, которые легко найтн, то нам наверняка понадо- бятся: ф крайние значения — наибольшее и наименьшее, которые мы пометим символом «1» (в соответствии с их рангом или глубиной); О какое-то срединное значение. Желательно, чтобы эти числа было легко находить и записывать независимо от того, сколько всего чисел в исследуемом ряду — 8, 82 или 208. При расположении выборки в виде стебля с листьями числа уже почти упорядочены. После проведения проверочного подсчета по стро- кам (крайний правый столбец чисел на илл. 10 гл. 1) легко просумми- ровать их снизу или сверху. Самыми простыми значениями будут такие, которые получаются непосредственно из этого подсчета. Есди в выборке четное число значений, то срединных будет два. Например, если чисел всего 50, то середина от 1 до 50 будет 25,5, так что срединной парой окажутся 25-е и 26-е числа. Если число значений нечетное, то срединное значение одно. На- пример, если их всего 13, то середина от 1 к 13 будет 7 — это и есть срединное значение.
Простые сводки данных 47 Таким образом, мы даем следующее определение медианы: =срединное значение, медиана = среднее из двух срединных значений. Мы будем обозначать ее буквой «М». Для илл. 10 гл. 1 введенные нами значения будут 1 М 1 203 46 3 (сотен футов) Представление в виде стебля с листьями сразу дает крайние значения. Всего чисел 50; 25-е и 26-е — это 44 и 48, откуда для медианы находим 46 = 4 (44+48). ПОДСЧЕТ ВГЛУБЬ Для ряда, представленного в виде стебля с листьями, срединное значение легко найти подсчетом вглубь от любого из концов, припи- сывая крайнему значению ранг «1». Таким образом, каждое значение в выборке получает свой ранг. Счет можно начинать с любого конца. В таких выражениях, как «он шел первым в классе», естественно приписать наибольшему зна- чению ранг «1» и ранжировать вниз. Напротив, во многих случаях желательно, чтобы большему значению соответствовал больший ранг. Тогда мы ранжируем вверх. В этом случае ранг «1» нужно приписать наименьшему значению. Наименьший из двух получаемых таким образом рангов, которые можно приписать одному и тому же значению, мы назовем глубиной. Глубина крайнего значения всегда 1. Пример приведен на илл. 1. В какую бы сторону мы ни ранжировали выборку из 17 значений, У медианы будет ранг 9, где 9=(1 + общее число значений)/2. Если же наша выборка состоит из шести чисел, например 7 12 18 20 27 54, то медиана равна среднему из двух центральных значений, т. е. (18+20)/2=19.
48 Глава 2 Иллюстрация 1 главы 2: цены на автомобили «.Шевроле» Пояснение к двум направлениям ранжирования (данные из илл. 3 гл. 1) Восходящий ранг Цены Нисходящий ранг Глубина 1 150 17 1 2 250 16 2 3 688 15 3 4 695 14 4 5 795 13 5 . 6 795 12 6 7 895 11 7 8 895 10 8 9 895 9 9 10 1099 8 8 11 1166 7 7 12 1333 6 6 13 1499 5 5 14 1693 4 4 15 1699 3 3 16 1775 2 2 17 1895 1 1 Замечание. Восходящий ранг-}- нисходящий ранг = 1-}-число наблюдений для каждой строки. Это общее свойство. УПРАЖНЕНИЕ 1а) Подберите небольшой ряд чисел, интересный для вас, и перепишите его в порядке возрастания вместе с рангами обоих видов. У этих значений ранги 3 и 4 независимо от направления ранжиро- вания. На половине между рангами 3 и 4 должен быть ранг Зп (на- помним, что «п» означает «с половиной»). Мы видим, что опять Зп равно (1+ общее число значений)/2. Это справедливо для любых выборок, состоящих из четного числа значе- ний. Было бы естественно для промежуточных значений, лежащих на полпути между значениями с соседними целыми рангами, ввести полуцелые интерполированные ранги. Тогда для любых выборок (четных и нечетных по длине) мы будем иметь одно и то же выражение: глубина (или ранг) медианы = (J + число значений)/2. Некоторые примеры приведены на илл. 2,
Простые сводки данных 49 Иллюстрация 2 главы 2: цены на автомобили «.Шевроле» Примеры интерполированных рангов А) ДАННЫЕ ИЛЛЮСТРАЦИИ 1 Б) Для ВЫБОРКИ из 6 ЧИСЕЛ Интерполи- рованный ранг Значение н откуда оно получилось Ранги Интерполирован- ные ранг число число ранг 1 п 200 = (150 + 250)/2 1 7 9.5 1 п 2п 469== (250 + 688)/2 2 12 15 2п 3 п 691,5 = (688 + 695)/2 3 18 19 Зп 4п 745 = (695 + 795)/2 4 20 23.5 4п 5п 795 = (795 + 795)/2 5 27 40.5 5п (и т. д.) 6 54 В) УПРАЖНЕНИЯ 2а) В илл. 1 найдите значения, соответствующие восходящим рангам 10, 10п, 11, 11п, 12. 26) В илл. 1 найдите значения, соответствующие нисходящим рангам *9, 10п, 11, 11п, 12. 2в) В илл. 1 найдите пары значений, соответствующие глубинам 4, 4п, 5, Для медиан нам нужны ранги или глубины, идущие через 1/2, и соответствующие интерполированные значения. Как мы вскоре уви- дим, этот же способ можно использовать для описания других полез- ных величин. Иногда, правда очень редко, мы будем употреблять ранги или глубины через 1/4 (может быть, и еще более дробно), но это лишь в исключительных случаях. ОБЗОРНЫЕ ВОПРОСЫ Что такое крайнее значение? Как его обозначают? Как определяется Иедиана? Где она располагается в ряду наблюдений? Что такое ин- терполированный ранг? Что такое ранг? Чем отличаются ранжиро- вание вверх и вниз? Что такое глубина? Как находится значение, соответствующее интерполированному рангу? Что такое интерполи- рованная глубина? По какой формуле вычисляется интерполирован- ная глубина медианы? Ее интерполированный ранг? Существует ли такое значение, у которого интерполированные ранги вверх и вниз были бы равны? 2Б. СГИБЫ И 5-ЧИСЛОВЫЕ СВОДКИ Мы уже освоились с использованием трех чисел для обозначения концов и середины ряда. Они полезны, но нам редко их будет хватать. ^Медиану можно найти подсчетом до середины от одного конца выборки до другого. Если мы хотим добавить еще два числа, чтобы
50 / лава 2 образовать 5-числовую сводку, то естественно определять их подсче- том до половины расстояния от каждого из концов к медиане. Процесс нахождения медианы, а затем и этих новых значений можно представить себе как складывание листа бумаги. Поэтому эти новые значения естественно назвать сгибами п. Если всего у нас 9 значений, пятое от любого конца будет медиа- ной, поскольку (1 +9)/2=5. А поскольку (1+5)/2=3, третье значение от каждого конца будет сгибом. Если мы имеем 13 значений, медиа- ной будет седьмое, а четвертое от каждого конца — сгибом. В свер- нутом виде ряд из 13 значений может выглядеть, например, так: “3.2 1.5 9.8 -1.7 1.2 1.8 6.4 -0.4 0.3 2.4 4.3 0.1 3.0 Пять чисел для характеристики ряда в порядке возрастания будут: —3,2; 0,1; 1,5; 3,0; 9,8 — по одному в каждой точке перегиба ряда. Пять чисел (крайние значения, сгибы, медиана), из которых со- стоит 5-числовая сводка, мы будем изображать в виде следующей простой схемы: #13___________ М7| L5 С4 0.1 3.0 1 -3.2 9.8 где слева мы показали количество чисел (отмечено знаком #), глу- бину медианы (буквой М), глубину сгибов (буквой С) и глубину край- них значений (всегда 1, больше ничем отмечать не надо). Соответст- вующие значения помещены внутри незамкнутого четырехугольника: медиана в середине, верхние значения по одну сторону, нижние — по другую (какие где, неважно). Такую схему изображения мы назо- вем буквенно-числовым представлением. (Постепенно мы будем знакомиться со все более детальными буквенно- числовыми представлениями.) Поскольку глубина крайних значений равна 1, то глубина ме- дианы — половина числа значений плюс 1. Если глубина медианы — полуцелое число, нужно сначала отбросить половину, прибавить 1, а потом разделить пополам. Так, для выборки из 20 чисел имеем (1 +20)/2= 10п, а вместо (1 + 10п)/2 возьмем (1 + Ю)/2=5п. to В советской литературе принят термин «квартили».— Прим, ред.
Простые сводки данных 51 ПРИМЕРЫ На илл. 3 даны три примера вычисления сгибов и 5-числовых сводок. На илл. 3, А данные приведены в свернутом виде. Илл. 3, Б начинается стеблем с листьями, но с некоторыми изменениями, а Иллюстрация 3 главы 2: примеры Пояснения к сгибам А) 17 ЦЕН НА АВТОМОБИЛИ (см. илл. 1) — в свернутом (М) 895 895 895 795 795 (С) (1) 150 250 688 695 1099 1166 1333 1693 1499 (С> виде (1) 1895 1775 1699 17 цен. 1 С М С 1: 150, 795, 895, 1499, 1895 долл.] Б) 34 значения МАКСИМАЛЬНОЙ МОЩНОСТИ из илл. 6 гл. 1 — в виде свер- нутого стебля с листьями. Обратите внимание на разбивку стеблей и на буквенное представление (справа). Крайние значения и медиана Промежу- точные значения Сгибы 1* 1- 1- 2* 3* 3- 3- 4* 5* 6* 7* 7- 8* 9* 10 11 12 13* '1** 2 3** о»** о 1*** 1 в 2445 02 66 058 0 О 974 08 4 00 4 50 25,50,85 79 424 900 345 62 34 макс, мощность • М17п| 73 С9 33 162 1 15 1974
52 Глава 2 Иллюстрация 3 (продолжение) В) 82 значения ПЛОЩАДЕЙ из илл. 4 гл. 1. Между строк (стеблей) указаны НАКОПЛЕННЫЕ ПОДСЧЕТЫ ЧИСЛА ЗНАЧЕНИЙ. (#) 3- 8 (1) 1 4* 0000111112222223344 (19) 20 4* 555566678899 (12) 32 5* 001124 (6) 38 Б- 57777889999'9 (12) 782 = 38 + 12 + 32 32 в» 112444 (6) 26 В- 588899 (6) 20 7* 001223334 (9) 11 7- 56678 (5) 6 8* 033 (3) 3 8- 8 (1) 2 8* 24 (2) Заметим, что расчет 82= 38+12+32 является проверкой правильности подсчетов Г) ВЫЧИСЛЕНИЯ для п. В Первые шаги Подсчет внутрь Результат 82 ( около 41 п ) ( около 211) ( ОКОЛО 21 f ) 38 54 20 44 23 68 82 М41л С21 1 38 94 39 55 21 45 22 69 М41л 40 57 22 45 21 69 С21 41 57 23 45 20 70 1 42 57 57 45 69 38 94 именно: а) листья разделены на три столбца и б) ряды (стебли) разде- лены таким образом, чтобы яснее была видна структура складыва- ния; справа дана 5-числовая сводка. На илл 3, В дано обычное изображение в виде стебля с листьями и приведены накопленные подсчеты числа значений. Подсчеты ведутся отдельно с начала и с конца таблицы. В этом примере мы поместили их между строками, где они и должны находиться. Обычно накоплен- ный подсчет располагают в конце последней строки, входящей в него, как показано на илл. 3, Д. На илл. 3, Г показано, как можно вести подсчет значений к центру, руководствуясь накопленными подсче- тами. Например, при нахождении медианы в данных илл. 3, В накоп- ленный подсчет до значения 54 включительно равен 38, так что ранг 39
Простые сводки данных 53 Иллюстрация 3 (продолжение) Д) НАКОПЛЕННЫЕ ПОДСЧЕТЫ В РАЗЛИЧНЫХ ФОРМАХ I При подсчете | 1 (справа от основной записи) Чистовая запись (1) (19) (12) (6) (12) (6) (6) (9) (5) (3) (1) (2) (1 1 <20 <32 <38 12 <32 <26 <20 <11 <6 <3 <2 (слева от ствола) 1 3- 20 4* 32 I 4- 38 I 5* 92-7(12) 5- 321 в* 26 I 6- 20 7* 11 7- 6 8* 3 8- 2 9* Е) УПРАЖНЕНИЯ По образцу п. А запишите: За) 17 цен на «Шевроле» из илл. 3 гл. 1. 36) 25 значений из илл. 7 гл. 1. Зв) Любую интересующую вас выборку длиной от 12 до 25 значений. По образцу п. Б запишите: Зг) Любую интересную для вас выборку длиной от 25 до 50 значений, Зд) 50 высот из илл. 10 гл. 1. По образцу п. В запишите: Зе) 58 значений радиальной скорости из илл. 13 гл. 1. Зж) 21 измерение константы ассоциации из илл. 14 гл. 1. Зи) Любую выборку из 100 или более значений. Составьте 5-числовые сводки для следующих случаев: Зк) 93 лет выпуска из илл. 9, А гл. 1; Зл) 14! года выпуска из илл. 9, Б гл. 1; Зм) любой интересующей вас выборки из 100 или более значений. соответствует значению 55 и т. д. Проделав несколько раз вычисле- ния этим способом, легко научиться просто скользить пальцем по Цифрам в стебле и сразу записывать результаты. Хотя из илл. 3, В не сразу можно усмотреть, что данные сильнее вытягиваются в сторону больших значений, чем меньших, это сразу видно из 5-числовой сводки на илл. 3, Г: 45 69 38 94 Правда, сгибы (45 и 69) здесь вполне симметричны — оба отличаются от медианы на 12, но крайние значения отстоят от сгибов соответст- на 7 и 25, так что здесь очевидна вытянутость по направлению большим значениям.
54 Глава 2 На илл. 3, Д показаны два вида накопленных подсчетов. Слева дана форма, удобная для вычислений: столбец подсчетов помещен рядом со столбцом, состоящим из числа значений на каждом стебле, и отделен от этого последнего значками «(». [Особо следует отметить отсутствие этого значка в строке, содержащей медиану. Если медиана попадает между двух строк, мы будем в этом месте проводить двойную горизонтальную черту (см. илл. 16 гл. 3).1 Справа на илл. 3, Д под- счеты изображены более обстоятельно. В таком виде большей частью они и будут появляться в иллюстрациях, но для непосредственных вычислений этот вид неудобен. Накопленные подсчеты помещены слева от стеблей. Здесь проведены линии, отделяющие строку с ме- дианой, и дается отдельный подсчет числа значений в этой строке. ДОПОЛНИТЕЛЬНЫЕ ПРИМЕРЫ На илл. 4 приведены еще два примера. Сводка для илл. 4, А, имеющая вид 46 20 112 3 203 также представляет собой еще один пример вытянутости в направле- нии к большим значениям. Мы знаем, что эта выборка отчетливо разделяется на' три группы. Как говорилось выше, с помощью 5-число- вой сводки не должно обнаруживаться такое разделение. Очевидно, что в этом примере мы его и не обнаруживаем. На илл. 4, Б приведены данные о населении 50 штатов США. Как мы замечаем, смешанные листья нисколько не осложняют дело. Значения здесь распределены по строкам более обычным образом, так что данные можно описать посредством этих пяти чисел — край- них значений, сгибов и медианы. Основное содержание хорошо вы- ражено вторым вариантом 5-числовой сводки (справа от первого, в млн. человек). Вероятно, не испортит дела небольшое округление, в результате чего мы получим 2.5 0.9 4.3 0.2 17 Это очень сжатое представление данных все же говорит нам следую- щее: О всего было рассмотрено 50 штатов, О в 1960 г. штат с наименьшим населением имел 200 тыс. человек, О население примерно половины всех штатов находится между 0,9 и 4,3 млн. человек, четверти штатов — менее 0,9 и четверти — более 4,3 млн.,
Простые сводки данных 35 О примерно половина штатов обладала населением меньше, а другая половина — больше чем 2,5 млн., Q население самого большого штата — около 17 млн. человек. Таким образом, эта сжатая сводка дает нам хорошее представление о всей выборке. Ясно видно, что численность населения намного сильнее вытянута вверх от середины, чем вниз. Это удерживает нас в данном конкретном случае от дальнейшего сжатия сводки, и пред- ставляет собой затруднение, о которым нужно будет научиться справ- ляться. Иллюстрация 4 главы 2: различные примеры Другие примеры сгибов и 5-числовых сводок А) 50 значений ВЫСОТ из илл. 10 гл, 1 о накопленными подсчетами в удобных местах 5 15 14 О* 1 2 3 13 12 9 4 5 6 7 8* 9 10 11 12* 13 14 15 16* 17 18 19 20* 34588 236788 003448 24556 01489 03347 367 2 8 2 678 12588 445 Флор., Дел., Луиз., Мисс., Р.-А. проверка подсчетов 22 + 5 + 23 = 50 / Ю. Дак. Техас Орегон • Айдахо, Ариз., Монт. Пев., Н.-М.,~Юта,' Вайом., Гав. Ваш., Копор., Калиф. Аляска 3 50 высот в сотнях футов М25п| 46 С13 20 112 1 3 203 БО высот в тысячах футов М25п 4.6 С13 2.0 11.2 1 0.3 20.3 Примечание. Когда вы привыкнете к простым одноразрядным стеблям с ли- стьями, вы сможете вместо всех звездочек и свободных интервалов слева от верти- кальной линии ставить лишь одну звездочку над вертикальной линией, (.это позво- лит вам придвинуть стебли вплотную к линии,} Полностью оставляется на ваше Усмотрение,
56 Глава 2 Иллюстрация 4 (продолжение) Б) НАСЕЛЕНИЕ 50 ШТАТОВ в 1960 р, (ед.= 10 000 человек; округленно). г 2 4 5 11 13 15 2 3 4 5* 6 7 8 9* 3,9 9,3 5, 3,7,7,1,3,8 6, 9, 7,5 Аляска, Невада Вермонт, Вейомидо* Делавэр 1** 2 3 4 5** 6 7 8 9«* 30,79,74,41,77,86 54,76,18,18,33,38,85 27,94,04,26,10,41,57,97,95 95,66,32,56 15, 07, 82, 71,58 Массачусетс Нью-Джерси Мичиган Огайо, Техас 4 1»** 572,008,678,132 1 2 Калиф.,Ил., Н.-Я„ Пене, Насел. 50 штатов в дес. тыс. чел. Насел. 50 штатов в млн. чел. М25п 246 С13 89 432 1 23 1678 М25п 2.5 С13 0.89 4.3 1 0.23 17 В) УПРАЖНЕНИЕ 4а) Найдите еще данные, заслуживающие такой обработки. Проделайте все пол- ностью, включая изображение сводки. Г) ИСТОЧНИК: The World Almanac, 1966 (с, 325) (их источник: Бюро переписей США). ОБЗОРНЫЕ ВОПРОСЫ Что такое сгиб? Как находится его глубина? Каким приближением почти всегда пользуются? Из каких значений состоит 5-числовая сводка? Какими двумя способами их можно записать в виде одной схемы? Как там показаны общее число значений и глубины? Каков естественный порядок нахождения этих глубин? Что мы добавляем к представлению в виде стебля с листьями, чтобы облегчить процесс подсчета от краев к середине? Два примера на илл. 4 представляют два различных распределения значений по стеблям; опишите их.
Простые сводки данных 57 Иллюстрация б главы 2: разнообразные высоты «Ящик с усами» для 5-числовых сводок САМЫЕ ВЫСОКИЕ ТОЧКИ Б) ВЫСОТЫ 219 ВУЛКАНОВ в 50 ШТАТАХ Высота, ipynW t Ч -20000 Ч 15000 5а) 56) 5в) Бг) БД) 10000 5000 0 УПРАЖНЕНИЯ образцу этих диаграмм обработайте: В) По илл. 3, А, илл. 3, Б, илл. 3, В, илл. 4,Б, какие-нибудь интересные для вас данные. 2В. «ЯЩИК С УСАМИ» Мы всегда хотели бы иметь возможность смотреть на свои резуль- таты, и обычно мы можем это делать. В частности, мы хотим посмот- реть на 5-числовые сводки. На илл. 5 показано, как это сделать. Нужно нарисовать длинный узкий прямоугольник («ящик») от сгиба к сгибу с поперечной чертой в медиане. Затем мы рисуем прямые линии («усы») от каждого торца прямоугольника к соответствующему край- нему значению. В результате мы получаем ясную картину 5-числовой сводки, настолько ясную, что нам становится понятно, чего в ней до сих пор Че хватает. Представление данных в виде «ящика с усами» неизбежно содержит больше незанятого места, чем запись в виде 5-числовой
68 Глава 2 Иллюстрация 6 главы 2i разнообразные высоты «Ящик с усами», точки у краев даны с названиями А) ВЫСОТЫ 50 ШТАТОВ Б) ВЫСОТЫ 219 ВУЛКАНОВ Аляска* Высота; футы 20000 „ Гуаллатири /таскав 8 котапаксл КилинонЗжара^омисти 1 Тупунгшлшпа Калифорния Колорадо о°о Вашингтон Гавайи ор Вайоминг 15000 10000 5000 _ . 1 Луизиана Делаозр оп Флориба ШШ'// WwwHrfa {Анок Кракатау В) УПРАЖНЕНИЯ По образцу этих рисунков обработайте: 6а) илл. 3, А, 66) илл. 3, Б, 6в) илл. 3, В, 6г) илл. 4, Б, 6д) какие-нибудь интересные для вас данные. бе) Сделайте аналогичный чертеж для значений высот некоторых самых высоких гор США. 6ж) Сделайте аналогичный чертеж для высот некоторых самых высоких гор на Земле, сводки. Его можно использовать для нанесения крайних, а также других значений с названиями. На илл. 6 показаны те же примеры, что на илл. 5, но добавлены некоторые отдельные значения. Понятно, что из такого чертежа можно узнать больше. На илл. 6 мы довели «усы» лишь до ближайших значений, снаб- женных названиями, что и рекомендуем делать пои построении таких схем. О
Простые сводки данных 59 КАК СТРОИТЬ ГРАФИКИ Мы начинаем практиковаться на «ящиках t усами». Прежде всего нам необходимо мысленно отделить то, что облегчает построение гра- фиков, от того, что нужно для превращения графика в эффективное средство анализа. Линии на миллиметровке облегчают построение, но не помогают видеть, что происходит на чертеже; скорее они мешают нам видеть то, что мы должны увидеть. (Другое дело, когда миллимет- ровка используется вместо таблицы для снятия значений функции. Однако в разведочном анализе данных нам это почти никогда не по- требуется.) КАЛЬКА Если мы хотим увидеть то, что содержится в графиках, нам обя- зательно нужна будет калька (или ацетатная пленка).Если под кальку подложить хорошо пропечатанный лист миллиметровки, то на ней можно чертить почти так же легко, как на самой миллиметровке. После нанесения всех точек на график и проведения координатных осей с масштабом уберите миллиметровку — тогда вы сможете смот- реть на график без отвлекающей миллиметровой сетки, что часто очень помогает пониманию. (Заметим, что при таком способе черчения графиков мы сэкономили лист миллиметровки.) Можно также сначала чертить на миллиметровке, а потом результат копировать на кальку. В любом случае нам потребуются: О хорошая миллиметровка, что означает; а) ясные миллиметро- вые линии, б) каждая десятая линия жирная, в) каждая пятая — полу- жирная (подробнее см. в разд. 5А); О такая калька, на которой карандашные линии стирались бы легко и чисто (за нее стоит заплатить дороже); О прозрачная линейка или угольник. Можно избрать другой способ, причем О мы не потеряем в эффективности, О нам не придется платить дороже, О нужна лишь чуть большая подготовительная работа. Мы говорим о замене кальки тонкими листами прозрачной ацетатной пленки, используемой в проекционных аппаратах. Следует учесть две вещи; 1) можно пользоваться лишь специальными пишущими средствами (по мнению автора, лучше такими, которые позволяют потом стереть Написанное); 2) важно не касаться пальцами пленки до тех пор, пока построение на закончено (в качестве предохранителя очень удобно пользоваться перевернутым листом миллиметровки).
€0 Глава 2 МАСШТАБНЫЕ ЗН \ЧЕНИЯ Для чернового графика на миллиметровке можно откладывать столько масштабных значений, сколько потребуется. Однако на чис- товой кальке не следует давать болыш 3—4 чисел на одной оси, иначе они будут отвлекать внимание от главного в графике. (Иногда при- ходится делать исключение для дат, поскольку может быть важно, относится ли какая-то особенность графика к 1929 или 1928, к 1776 или 1775 г.) Мы привыкли, что координатные оси находятся слева от графика и внизу под ним. Для чистового графика это, пожалуй, можно оста- вить. Но при нанесении точек гораздо удобнее горизонтальную ось провести над графиком — тогда не нужно убирать руку, чтобы на нее смотреть. (Разумнее всего чертить график при подробных шкалах, нанесенных на осях вверху и слева, а окончательный вид давать с небольшим числом масштабных значений, показанных внизу и справа. Однако этот логичный путь может привести к путанице с четырьмя осями.) ЧЕРЧЕНИЕ ГРАФИКОВ БЕЗ МИЛЛИМЕТРОВКИ Почти всегда у нас есть желание посмотреть на числа, но не всегда есть под рукой миллиметровка. И все же графики нужно чертить непременно. Обычно у нас есть линованная бумага (например, из школьной тетрадки). Если взять листок такэй бумаги, повернуть его так, чтобы линейки стали вертикальными, и подложить под верхний лист в тет- радке, то получится импровизированная .миллиметровка (или скорее сантиметровка). На светлом фоне, создаваемом остальными листами тетрадки, вертикальные линии на верхнем листке будут хорошо просвечивать, и таким образом мы получим сетку, на которой будет легко чертить. Прежде всего нужно легкими штрихами или точками сделать отметки на верхнем листе, чтобы в случае проскальзывания листов можно было восстановить первоначальное положение. Таким способом можно делать хорошие рабочие графики и при отсутствии миллиметровки. ОБЗОРНЫЕ ВОПРОСЫ Что такое «ящик с усами»? Каково назначение составных частей такого графика? Какое правило мы ввели относительно нанесения отдельных значений и их названий? Что нужно мысленно различать при построении графиков? Что необходимо для того, чтобы построение было удобным и эффективным? Как можно построить график при отсутствии миллиметровки?
Простые сводки данных 61 2Г. БАРЬЕРЫ И ВНЕШНИЕ ЗНАЧЕНИЯ Сгибы введены для удобства. Они пригодятся нам для нескольких азличных целей. Их роль в 5-числовой сводке — только начало их применения. Взглянув на некоторые выборки чисел, мы видим, что иногда от- дельные значения отскакивают далеко от основной массы. В других случаях этот отскок не столь очевиден, но мы уже настороже. Было бы удобно иметь какое-то грубое правило отбора определенных значе- ний __«внешних» или «отскакивающих». Введем два вида барьеров и назовем далекие значения «внешними» и «отскакивающими». Мы будем придерживаться следующей простой схемы: 0 «С-ширина» = разность между значениями двух сгибов; О «шаг» — величина, в полтора раза большая, чем С-ширина; Q «внутренние барьеры» находятся снаружи сгибов на расстоянии одного шага; О «наружные барьеры» — снаружи сгибов на расстоянии двух шагов (следовательно, на один шаг дальше внутренних); ф значение, находящееся изнутри ближе других к внутреннему барьеру, назовем «примыкающим»; () значения между внутренним и соседним наружным барьерами будут «внешними»; () значения за наружными барьерами будем называть «отскаки- вающими». На илл. 7 показаны некоторые примеры. Значение С-ширины стоит непосредственно за правой вертикальной чертой (под горизонтальным «козырьком»), а шаг — внутри «чердака» на нижней половине чертежа, в которой записаны значения барьеров и которая помещается под основным буквенным представлением или справа от него. На илл. 7, В—Е несколько примеров демонстрируют удобную стандартную форму записи, где объединены 5-числовая сводка и барьеры и названы внешние значения. Такое представление можно назвать барьерно-буквенным представлением. РАЗМАХИ При взгляде на график в виде ящика с усами мы сразу обращаем внимание на расстояние от одного края до другого. Оно называется размахом выборки. Для различных данных илл. 7 имеем: А) размах = 1895—150=1745 долл., Б) размах = 1974—15=1959 МВт, Г) размах = 94—38=56 десятков кв. миль, Д) размах = 203—3=200 сотен футов, Е) размах 1678—23=1655 десятков тысяч.
64 Г лава 2 ТРЕХСРЕДНИЕ ЗНАЧЕНИЯ Ящик о усами также позволяет получить визуальное представле- ние о центрировании данной выборки чисел. Это представление скла- дывается из расположения медианы и сгибов, и его можно выразить численно, определив трехсреднее значение, равное (нижний сгиб + удвоенная медиана + верхний сгиб)/4 Иногда мы заменяем медиану трехсредним значением и таким образом более надежно определяем середину выборки. Это можно делать почти во всех случаях. Так мы и советуем поступать. ОБЗОРНЫЕ ВОПРОСЫ Для какой цели (или целей) введены сгибы? Дайте нестрогое определение отскакивающего значения. Как можно было бы снабдить названиями отдельные отскакивающие значения? Что такое С-ширина, шаг, внутренние и внешние барьеры? Какие значения называют внешними, отскакивающими и примыкающими? Каким стандартным способом можно объединить сводку с барьерами и названия внешних значений? Что такое размах? Что он нам дает? Может ли он заменить С-ширину? Может ли он служить дополнением к С-ширине? 2Д. СХЕМАТИЧЕСКИЕ ДИАГРАММЫ Иногда стоит придерживаться каких-то определенных правил относительно того, какие значения заслуживают индивидуального представления на графике «ящик с усами». По-видимому, простейший набор правил будет следующим: 0 отдельно показывать следует внешние и отскакивающие значения; 0 усы следует наносить пунктиром и заканчивать небольшой пунктирной чертой, соответствующей примыкающим значениям; для отскакивающих значений следует употреблять более заметные обозначения, а их названия писать заглавными буквами; ф> все внешние и примыкающие значения следует снабдить на- званиями (строчные буквы), но только если названия не загромоздят рисунок (это вряд ли случится, пока их не больше шести на каждом конце). Названия примыкающих значений можно писать более мелким шрифтом; О следует вводить сокращенные названия, если они понятны. Следовало бы придерживаться определенной системы при рисо- вании усов — для схематических диаграмм, составляемых по приве-
Простые сводки данных 65 Иллюстрация 8 главы 2; площади округов Округа штата Мичиган — площади в кв. милях д) СХЕМАТИЧЕСКАЯ ДИАГРАММА Л/тщаЗь, J<6.MIMU J1 ® МАРКВЕТТ Б) УПРАЖНЕНИЯ © ЧИППЕБА 1Б00 - оОнтонагсн Айрой о о Скулкрафт ГоЗже&к-г-» 8а) Будут ли, по вашему мнению, площади округов в большинстве штатов содержать резко отскаки- вающие значения? Почему (или почему нет)? 86) Составьте схематическую диаграм- му с нанесением названий для пло- щадей округов того штата, в кото- ром вы родились (или для соот- ветствующих подразделений той страны, где вы родились). 8в) Что можно сказать относительно округов шт. Мичиган, площади которых указаны на этом рисунке? Используйте карту. 8г) Какое представление этих данных вы могли бы предложить в резуль- тате работы над (8в)? 8д) Сделайте это представление, 500 - Бензи —I— денным выше правилам, всегда употреблять пунктирные линии, а для ящиков с усами в свободной форме, которые не обязательно подчиняются этим правилам, оставлять сплошные линии. Примером, подходящим для иллюстрации этих правил, являются значения площадей 83 округов шт. Мичиган (в форме стебля с ли- стьями эти данные будут представлены на илл. 4 гл. 3). Буквенно- числовое представление с барьерами будет иметь вид 83 площади. М42 57 С21п Б4п 78п 1 32 184 ’ Re] б ~18и 114п кет четыре Б 150п дба 24 примык.: 32 (Бензи), 111 (Годжебик) внешн.: 118 (Дельта), 120 (Айрон) внешн.: 120 (Скулкрафт), 132 (Онто- нагон), отскак.: 158 (ЧИППЕВА), 184 (МАРКВЕТТ) 3 № 124/
66 Глава 2 Соответствующая схематическая диаграмма приводится на илл. f Обратите внимание на то, как мы располагаем совпадающие значения (Айрой и Скулкрафт). ОБЗОРНЫЕ ВОПРОСЫ Что такое схематическая диаграмма? Какие точки наносятся отдельно? Какие снабжаются названиями? Как узнать по усам, когда ящик с усами является схематической диаграммой? Что такое бук- венное представление с барьерами? Как оно записывается? 2Е. ДОВОДЫ ЗА И ПРОТИВ: ПРИМЕР РЭЛЕЯ Приглядимся теперь внимательнее к преимуществам и недостаткам схематических диаграмм. Начнем с такого примера, на котором будут хорошо видны их сильные и слабые стороны. Зимой 1893—1894 гг. Рэлей исследовал плотность азота, полученного различными спосо- бами. Уже раньше он нашел некоторые расхождения в значениях Иллюстрация 9 главы 2: плотности газа Вес одного и того же объема «азота» по измерениям Рэлея А) ДАННЫЕ Источник «азота» __ Исходное „ Дата вещество Очищающий агент Вес 29 ноября 1893 г. NO Раскаленное железо 2,30143 5 декабря » » » 2,29816 6 декабря » » 2,30182 8 декабря » » » 2,29890 12 декабря » Воздух » » 2,31017 14 декабря » » » 2,30986 19 декабря » » » » 2,31010 22 декабря » » » 2,31001 26 декабря » n2o » » 2,29889 28 декабря » » » » 2,29940 9 января 1894 г» NH4NO2 » » 2,29849 13 января » » » 2,29889 27 января » Воздух Гидроокись железа 2,31024 30 января » » » 2,31030 1 февраля » » » » 2,31028 Б) ИСТОЧНИК: Lord Rayleigh. On an anomaly encountered in determinations of the density of nitrogen gas, Proc. Roy. Soc, (Lond.), 55, 340—344, 1894 (см, также его Scientific Papers, vol, 4, p, 104—108),
Простые сводки данных 67 Иллюстрация 10 главы 2: плотности газа 15 значений веса «азота» по измерениям Рэлея А) ТОЧЕЧНАЯ (слева) И СХЕМА- ТИЧЕСКАЯ (справа) ДИАГРАММЫ Иллюстрация 11 главы г.- плотности газа Две группы значений веса «азота» по измерениям Рэлея 2,310 2,305 2,300 X ххх Й Точечная диаграмма плотности азота, полученного, с одной стороны, путем удаления кис- лорода из воздуха, а с другой — путем разложения некоторого хи- мического соединения. По результатам 1893—1894 гг. это расхождение было установлено с большой уверенностью, что побудило его провести дальнейшие исследования состава воздуха, химически очищенного от кислорода. Это привело к открытию нового газообразного элемента аргона. Наблюдениям Рэлея посвящена илл. 9. На илл. 10 показаны схематическая и точечная диаграммы для этих 15 значений веса азота, рассматриваемых как единая выборка. Главный факт здесь — резкое разделение на две абсолютно изолиро- ванные подгруппы. Это отчетливо видно из индивидуальных значений точечной диаграммы, но почти совершенно не видно на схематической Диаграмме (только почти, так как опытный исследователь должен сразу заметить, что «усы» здесь ненормально коротки по сравнению с «ящиком», и почувствовать необходимость более подробного рас- смотрения). Ясно, что схематические диаграммы не дают нам представления ° том, что происходит около середины выборки, и если мы интере- суемся именно этим, то придется прибегать к каким-то другим средст- вам. (Для этой цели подошли бы точечные диаграммы или представле- ние в виде стебля с листьями.) з*
С8 Глава 2 КАК ИСПРАВИТЬ ПОЛОЖЕНИЕ На илл. 11 схематические диаграммы использованы для одной из тех целей, для которых они лучше всего приспособлены,— для срав- нения двух или более выборок. Изображены две группы измерений Рэлея: одна для «азота», полученного из воздуха, а другая для «азота» из других источников. Каждому ясно, что здесь имеется: огромная разница между двумя группами; О некоторая тенденция измерений веса «из других источников» к вытягиванию вверх — вполне заметная, но совершенно недостаточ- ная для того, чтобы указать конкретное объяснение их отскока от значений «из воздуха»; О более сильный разброс значений веса азота «из других источ- ников» помимо упомянутого вытягивания. В данном случае схематические диаграммы удовлетворили все наши возможные требования. ЕЩЕ РАЗ — К ЧЕМУ МЫ СТРЕМИМСЯ? Измерения Рэлея дают нам повод еще раз напомнить об одном старом положении: цели могут быть разными, и вид графика должен соответствовать цели. Мы можем пытаться выявить либо общее по- ведение, либо подробности. Почти всегда нужно выбирать что-то одно. Во многих книгах при описании графического представления данных подчеркивается важность сохранять для читателя истинные Иллюстрация 12 главы 2: плотности газа Еще раз измерения Рэлея j > Из Воздуха Из др. источников О
Простые сводки данных 69 ношения размеров. Может быть, это разумно для газетных статей, с0° выявление небольших различий путем выбора начала отсчета ГДлеко от нуля обычно считают «журналистским» или «политикан- ским» фокусом. „ „ „ Необходимо напомнить, что именно такой образ действии является ажнейшим орудием научного анализа. Если бы мы начали ось орди- ат от нуля и изобразили плотность столбиками, то результаты Рэлея, такие ясные на илл. 11, приняли бы такой вид, как на илл. 12. Эта иллюстрация во всяком случае не могла бы послужить ни доказа- тельством существования нового химического элемента, ни основа- нием для присуждения Нобелевской премии. Впечатление «ничтожной разницы» на илл. 12 может быть полезно, когда нужно решить вопрос о ценах за перевозку сжатого газа, но для решения исследуемого научного вопроса требуется илл. 11. Мы часто не можем обойтись без графика с растянутой шкалой, как следователи без микроскопа. ВЫБОР ГРАФИКА Теперь мы хорошо вооружены. Основным орудием анализа у нас будут схематические диаграммы, однако мы будем обращаться и к графикам других видов, если, по нашему мнению, они помогут делу. Ясно, что схематические диаграммы можно использовать и для сравнения трех, четырех и вообще любого не чрезмерно большого числа выборок. (При увеличении числа выборок нам, вероятно, при- дется прямоугольники заменить сплошными линиями, а пунктиры сделать потоньше.) Как способ наглядного сравнения нескольких выборок, особенно при дополнении его более подробным рассмотрением невязок, такие диаграммы очень хороши и часто дают весьма эффективное средство сравнения. Сравнение сколько-нибудь значительного числа выборок нельзя хорошо провести с помощью представлений в виде стебля с листьями. Сопоставление более чем двух (или, возможно, трех) представлений в виде стеблей с листьями не позволяет получить четкого впечатления. Таким образом, основными преимуществами схематических Диаграмм являются: О концентрация внимания на самом существенном, О настолько полное устранение второстепенных особенностей исследуемых данных, что представляется возможным сравнивать много выборок. ОБЗОРНЫЕ ВОПРОСЫ ил tc? хотел исследовать Рэлей? Что он обнаружил? Видно ли из Рам У’ ЧТ° он что'то обнаружил? Указывает ли схематическая диаг- обоа12 И^Л' Ю на присутствие чего-то необычного? Если да, то каким Р зом. Показывает ли илл. 11, что Рэлей что-то обнаружил? На чем
70 Глава 2 часто настаивают авторы книг по графическому представлению дан- ных? Следует ли нам прислушиваться к этому? Что показывает илл. 12? Чего она не может показать? 2Ж. ВОСЬМЫЕ, ШЕСТНАДЦАТЫЕ И т. д. (ЗДЕСЬ ОНИ ПОЧТИ НЕ ПОНАДОБЯТСЯ, НО ИСПОЛЬЗУЮТСЯ в ПОСЛЕДУЮЩИХ ГЛАВАХ) Иногда хотелось бы расширить 5-чисдовую сводку. Представ- ляется полезным, особенно в длинных рядах наблюдений, между крайними значениями и сгибами отмечать еще некоторые значения. Удобно продолжать деление пополам в глубину (и называть получен- ные доли восьмыми, шестнадцатыми и т. д., поскольку сгибы и ме- диана делят выборку приблизительно на четверти). Таким образом, получаем глубина восьмых = (1 + глубина сгибов)/2, глубина шестнадцатых = (1 + глубина восьмых)/2 и т. д. Здесь, так же как и при вычислении сгибов, перед делением на 2 мы отбрасываем «п» (половину). Естественно обозначать восьмые буквой В, а затем по мере надобности употреблять «Б», «А», Я», «Ю»......Соответствующие значения ширины мы будем использо- вать в гл. 19. На илл. 13 даны некоторые примеры 7- и 9-числовых сводок, полученные прибавлением сначала букв «В», а затем «Б». Чтобы как-то называть все эти М. С, В и т. д., введем название буквенные значения, нередко включая сюда также и крайние значения. ОБЗОРНЫЕ ВОПРОСЫ Что такое восьмая, шестнадцатая, тридцать вторая? Как мы их обозначаем? По каким формулам находим? Какое приближение обычно при этом требуется? Что такое В-ширина, Б-ширина? Какие значения ключаются в 7-числовую сводку, 9-числовую сводку, 11-числовую сводку? Как выглядят соответствующие сводки-представлсдия? Что такое расширенная сводка-представление? Как производится расши- рение? 2И. ЧЕГО МЫ ДОСТИГЛИ? Б stc.'I Гчиег мы занимались простейшими видами сводок, записан- ными в числовой или графической форме. Наши две главные темы были. 1) сжатое представление выборок чисел с помощью пяти спе- циально выбранных из них значений (или вычисленных как средние из двух соседних), дающее нам общую картину выборки; 2) нанесение
Простые сводки данных 71 Иллюстрация 13 главы 2: различные примеры Примеры 7- и 9-числовых сводок .. и дсЕЛЕНИЕ 50 ШТАТОВ в I960 г. (ед.=10 000 чел.); в виде стебля с ли* и дзнные приставлены на илл. 4, Е>. 50 насел. y.vcnoWB сводка М25п 246 С13 89 432 343 (С-ширина) 137 63 782 719 (В-ширина} 1 23 1678 1655 (размах)- 50 насеп. g- чистовая М25п 246 С13 89 432 343 (С-ширкна) 07 63 782 719 (В-ширина) Б4 39 1008 969 (Б-ширина) т 23 1678 1655 (размах! Б) 82 значения площадей округов шт. Миссисипи (в десятках кв. миль); стебель с листьями см. на илл. 3, В. 82 площади 82 площади М41п 57 M41li 57 С21 45 69 24 С21 45 69 24 В11 42 75 33 В11 42 75 33 1 38 94 56 Бб 41 80 39 1 38,94 56 В) УПРАЖНЕНИЯ 13;;) Обработайте по образцу этих схем данные о 50 высотах из илл. 4, А. 136) Расширьте А до 11-числовой сводки. И:.) Расширьте Б сначала до 11-числовой, а затем до 13-числовой сводки. вместе с их названиями таких значений, которые могут оказаться необычными. Таким образом, мы сконцентрировали внимание на край- них значениях, сгибах и медиане; чтобы показать соответствующие значения в отношении друг к другу, мы ввели сводки-представления и диаграммы вида «ящик с усами». ЧТО МЫ НАУЧИЛИСЬ ДЕЛАТЬ? Ранги определяют, ведя счет к центру упорядоченного ряда зна- чений от одного или другого из концов. Обычно это делают на стебле с листьями. Меньший из двух полученных рангов какого-либо значе- ния является глубиной этого значения. Полуцелые ранги или глубины (например, ранг 4п) относятся к среднему из значений с соседними Рангами или глубинами (ранги 4 и 5 для ранга 4п). Медиана расположена как раз посередине упорядоченного ряда чисел. Ее два ранга (и глубина) совпадают и равны половине общего исла значений ПЛЮС единица. Глубина каждого сгиба равна 1/2
72 Глава 2 плюс целая часть глубины медианы. (Например, если глубина медианы 8п, то целая часть = 8, плюс единица будет 9, глубина сгиба *=4п). Разность между крайними значениями называется размахом, между сгибами — С-шириной. Крайние значения, сгибы и медиана вместе составляют 5-числовую сводку. При ее схематическом изображении снаружи ограничивающей линии мы даем общее число значений и глубины медианы, сгибов и крайних значений, а сами значения — внутри линии. Кроме этого, мы приводим отскакивающие, внешние и примыкающие значения нередко с их названиями. Часто справа от ограничивающей линии (под козырьком) мы записываем соответствующую ширину. Для построения даже такого простого графика, как ящик с усами, требуется внимание и определенная техника выполнения. Важно использовать кальку и подходящие обозначения. Шаг — от сгиба к первому барьеру и затем от первого барьера ко второму — в полтора раза больше С-ширины, которая в свою очередь равна расстоянию между сгибами. Значения снаружи вторых барьеров называются отскакивающими, а снаружи первых барьеров — внеш- ними. Значения, стоящие ближе других к первым барьерам, но с внут- ренней стороны от них, называются примыкающими. «Ящик с усами» дает ту же информацию, но в более наглядном виде (при этом важно придерживаться принятых нами обозначений). Схе- матическая диаграмма — это «ящик с усами», где показаны также все внешние значения вместе с их названиями (а также все отскакиваю- щие значения с дополнительным их выделением), а «усы» нанесены пунктиром и доведены до примыкающих значений. При желании в наши сводки-представления можно включить восьмые, шестнадцатые и т. д. доли. Мы обозначаем их буквами В, Б, А ... и придерживаемся правила новая глубина — (1 + целая часть предыдущей глубины)/2. НА ЧЕМ МЫ ОСТАНОВИЛИСЬ? Мы фактически не видим своих результатов до тех пор, пока не представим их в графической наглядной форме. В этой главе мы на- учились эффективному изображению сводки выборок чисел. Теперь мы должны постоянно делать такие представления данных в повсе- дневной практике. Кроме случаев, когда мы просто изучаем численную сторону ка- кого-то нового для нас метода, никакой задачи разведочного анализа данных нельзя «решить», когда не на что смотреть. Стебель с ли- стьями — это уже объект, на который можно смотреть. То же самое можно сказать о буквенно-числовом представлении, схематической диаграмме и более общем «ящике с усами». Иногда стоит посмотреть и на слова, достаточно хорошо описывающие и ясно выражающие суть дела, но подчас нельзя найти такие слова, которые выразили бы то, что может выявить наглядное представление данных.
Глава 3 ПРОСТЫЕ ПРЕОБРАЗОВАНИЯ УКАЗАТЕЛЬ К ГЛАВЕ 3 Обзорные вопросы 75 ЗА. Логарифмы 75 Обзорные вопросы 77 ЗБ. Быстрое вычисление логарифмов 77 межевые таблицы 77 Обзорные вопросы 81 ЗВ. Сравнение двух выборок наблюдений 81 Точности пятизначных логарифмов может быть недостаточно 84 Обзорные вопросы 85 ЗГ. Быстрое вычисление корней и обратных величин 85 Корни 85 Обратные величины 86 пользуйтесь отрицательными обратными вели- чинами 86 Пример с вулканами 87 Усиление наглядности 91 Обратные величины времен 91 Обзорные вопросы 94 ЗД. Быстрый обзор 94 Суммирование информации по нескольким выбор- кам 97 Обзорные вопросы 97 ЗЕ. Подсчеты числа событий 99 Обзорные вопросы 103 ЗЖ- Соотношение между степенями и логарифмами (факультативно) 103 тривиальные преобразования 104 Быстрое вычисление обратных величин от кор- ней 106 Быстрое вычисление квадратов 106 Обзорные вопросы 107 ЗИ. Чего мы достигли? 107 ЗК. Основные сведения о логарифмах 108 ЗЛ. Дополнительные упражнения Ю8
74 Глава 3 Мы научились записывать значения элементов выборки; в боль- шинстве случаев естественная схема записи позволяет получить хо- рошее представление о структуре чисел в выборке. Однако существует довольно много исключений; сошлемся на примеры илл. 6 гл. 1 и илл. 4, Б гл. 2. Пора научиться как-то справляться с такими исклю- чениями. По-видимому, естественным будет лишь один следующий общий подход к этой проблеме. Если трудно понять числа в том виде, в каком они были первоначально записаны, нужно перейти к другому виду (не потеряв при этом ничего ценного для нас) — такому, в котором числа воспринимаются легче из-за особенностей человеческого вос- приятия вообще и имеющегося графического и вычислительного аппарата в частности. Для нас иметь данные обычно означает иметь числа в любой фор- ме — цифровой, десятками или на графике. Существуют четыре до- вольно обширных класса чисел, которые необходимо как-то назвать и пояснить: О Количества — неотрицательные числа, в частности целые, по- лучаемые в результате счета (подсчеты), которые могут быть сколь угодно большими. Сюда относятся, например, высота, мощность, площадь, расстояние, число смертей или численность населения. Вопрос о том, поможет ли преобразование таких чисел, когда имеется только одна выборка значений, проще всего решать по величине от- ношения наибольшего значения к наименьшему. Если это отношение невелико (близко к 1), преобразование не может существенно изме- нить распределение значений в выборке. Если оно велико, скажем 100 или больше, можно почти наверняка сказать, что преобразование необходимо уже просто для того, чтобы понять, что собой представ- ляют данные. (Подробнее о подсчетах мы будем говорить в разд. ЗЕ.) ф Отклонения от среднего, где могут быть как положительные, так и отрицательные значения. Естественные примеры таких чи- сел — доход или убыток, фактическое значение минус предсказанное, наблюденное минус аппроксимация. Данные такого рода можно пред- ставить себе как разность двух количеств или подсчетов. Преобразо- вание отклонений мало поможет, но преобразование количеств или подсчетов до вычитания иногда очень полезно. 0 Доли подсчетов и проценты, где приемлемые значения ограни- чены с обеих сторон. Преобразования здесь нередко сильно помогают делу, хотя в данном случае потребуются более специальные приемы. (Пока мы будем избегать таких случаев. Долями подсчетов и процен- тами мы займемся в гл. 15.) О Отметки и другие порядковые данные — например, А, Б, В, . . ., и —, +, Ч—Е, Ч—ЕЧ-, Ч—I—I—Е,— нередко представляют благо- датный материал для применения несколько более сложных методов преобразования. (Возможно, мы займемся этим во второй части книги.)
Простые преобразования 75 ОБЗОРНЫЕ ВОПРОС I Что такое количество, отклонение, подсчет, доля подсчета? Какова более важная причина для проведения преобразования? Из чего можно предположить, что, по всей вероятности, потребуется преоб- разование? ЗА. ЛОГАРИФМЫ Какие именно виды преобразований чаще всего окажутся полез- ными зависит от наших привычек, от способов записи человеком чисел'. У цивилизованных существ, развившихся, например, из мед- ведей, могли бы выработаться совсем иные привычки, чем у тех, что произошли от обезьян. В таком случае для них более пригодными могли бы оказаться другие виды преобразований. Как мы сказали, положительные числа, которые не слишком близки друг к другу, скорее всего выиграют от преобразования. Ве- роятно, преобразование должно заключаться в вычислении логариф- мов. (Другой подходящий способ состоит в извлечении квадратного корня, к чему мы еще в свое время вернемся.) Логарифмы можно сделать либо простыми и понятными, либо таин- ственными. Постараемся сделать их простыми. Что нужно знать о логарифмах? О Во-первых, как быстро и легко вычислять достаточно точные для наших целей логарифмы (см. следующий раздел); О во-вторых, что одинаковые разности логарифмов соответствуют одинаковым отношениям первоначальных значений. (Это означает, что если используются произведения или отношения — даже, на- пример, индексы цен,— использование логарифмов, т. е. превращение произведений в суммы и отношений в разности, наверное, будет полезным.) Для некоторых читателей, вероятно, нелишним был бы краткий обзор того, что им потребуется знать о логарифмах. Такой обзор они найдут в разд. ЗК. Существуют различные виды логарифмов, но здесь это для нас не играет особой роли. Из любых двух видов один можно превратить в другой умножением на постоянное число, так что тут требуется не больше уменья, чем при переводе метров в сантиметры и т. п. Поэтому мы, как правило, будем говорить просто о логарифмах (ооозначение log), подразумевая при этом тот вид логарифмов, где вычисления легче, а именно логарифмы по основанию 10, обычно называемые десятичными логарифмами. (Если нам понадобится акои-то другой вид логарифма, мы это специально оговорим.) . 1ы будем также интересоваться связью логарифмов с различными епенными функциями, особенно с дробными показателями (подроб- нее см. разд. ЗЖ). гл 1аГМ Мы К0НЧИм общие рассуждения. Возьмем пример — илл. 6 лям 1" ^Ь! видим* что листья там как бы смыты в направлении к стеб- ли 2. Что произойдет, если мы перейдем к логарифмам (илл. 1)?
76 Глава 3 Иллюстрация 1 главы 3: максимальные мощности Максимальные мощности 34 ГЭС Бюро мелиорации (логарифмы от мощности в мегаваттах) А) СТЕБЕЛЬ С ЛИСТЬЯМИ для логарифмов (ед.=0,01) Б) То же самое в СЖАТОМ виде (ед.=0,1) 1, 2 5 7 11 14 16 (2) 11* 12 13 14 8 О 488 08 15* 16 17 18 19* 2606 508 08 85 16 11 9 8 7 5 4 20 80863 21 38 22 1 23* 24 25 26 27* 5 60 8 3 Сан-Луи 1 5 11 Тб (2) 16 9 7 4 3 2 1 4* Я ч ш 2* Я ч ш 3* и 1 Бойсен 2333 445555 66677 88 0000011 23 445 6 9 1 3 Сан-Луи Глен-Каньон Хувер Гранд-Кули 3 2 1 28 29 5 Глен-Каньон 30 31* 3 Хувер 32 33 0 Гранд-Кули Примечание: Не включены станции с мощностью менее 15 МВт (118 для А, И для Б). В) БУКВЕННО-ЧИСЛОВОЕ ПРЕДСТАВЛЕНИЕ — логарифмы и первона- чальные значения 34мощн. (logмегаватт) 34 мощн. (МВт) М17п 1.86 С 9 1.52 2.21 .69 1 1.18 3.30 2.12 М17п 73 С 9 33 162 129 1 15 1974 1959 Г) ИСТОЧНИКИ: The World Almanac, 1966 (с. 263) (их источник: Бюро мелио- рации США). Первоначальные значения: илл. 6 гл, 1 (появляются также на илл. 5 гл, 1 и илл, 3 гл. 2). Заметим, что на данной иллюстрации крайние значения, сгибы и медиана приведены и в логарифмах, и в мегаваттах. При работе с преобразованными числами часто бывает полезно приводить также и первоначальные значения. Из этого стебля с листьями мы получаем довольно хорошее пред-
Простые преобразования 77 тавление о максимальных мощностях электростанций Бюро мелиора- ции США. Здесь мы видим (вероятно, лучше всего в сжатом виде), что данные сильнее группируются к большим, чем к меньшим значени- ям. Указание, что учтены лишь станции с мощностью 15 МВт и более, начинает теперь быть как-то связано с тем, что мы видим. Ясно, что стебель с листьями в логарифмах оказался эффективнее, чем в первоначальных значениях. В данном случае, более удобен для рас- смотрения тот вид, который ближе к симметричному. ОБЗОРНЫЕ ВОПРОСЫ Какой вид преобразования наиболее необходим? Что минимально надо знать о логарифмах? Сколько потребуется буквенно-числовых представлений для наглядного восприятия преобразованных чисел? ЗБ. БЫСТРОЕ ВЫЧИСЛЕНИЕ ЛОГАРИФМОВ Мы только что рассмотрели пример, когда логарифмы с двумя зна- чащими цифрами («двузначные») давали вполне достаточную точность. Как видно из илл. 1, Б, в этом примере нам хватило бы даже одного знака. Этот пример — лишь один из многих. Хотя существуют исклю- чения, все же там, где преобразование к логарифмам действительно помогает, двузначные логарифмы помогут в такой же степени, как логарифмы со многими значащими цифрами («многозначные»). Поскольку, как мы скоро увидим, вычислять двузначные лога- рифмы легко, наш курс ясен: О сначала всегда использовать двузначные логарифмы; О в тех редких случаях, когда требуется большая точность, воз- вращаться назад и заменять все логарифмы на многозначные. Поступая так, нам в целом придется проделывать гораздо меньше вычислений. Для нахождения логарифмов с небольшим числом знаков удобно использовать специальные виды таблиц. Нахождение логарифма по такой таблице сводится к отысканию числа, после чего можно сразу, без всякой интерполяции, прочитать ответ. Для нахождения однозначных логарифмов можно воспользоваться первыми двумя столбцами помещенной ниже таблицы, работать с которой очень легко. (Она дает только мантиссу — дробную часть логарифма; целая часть — характеристика — находится, как обычно.) Если использовать стандартную рекомендацию: «В сомнительных случаях предпочитайте четную цифру»,— то эту таблицу можно еще значительно сжать. Тогда нам будут нужны лишь два последних столбца, а входным данным соответствуют числа между «межами». ' 1ри попадании точно на межу мы предпочтем четную цифру.) Таблицы, устроенные подобным образом, часто называют крити- скими. Мы назовем их конкретнее, а именно межевые таблицы.
78 Глава 3 Первые значащие цифры числа х Первая цифра log х после запятой Межа .0 ,0 8913 От 8013 до 1122 j । 1122 От 1123 до 1412 ’ ’g 1413 От 1413 до 1778 ’3 ’3 1778 От 1779 до 2238 ’4 ’ 4 2239 От 2239 до 2818 ’5 ’5 2818 От 2819 до 3548 ’6 ’6 3549 От 3549 до 4466 ’7 ’7 4466 От 4467 до 5624 ’8 ’g 5624 От 5625 до 7079 ’9 ’д 7079 От 7080 до 8912 ’ ’ 8913 Иллюстрация 2 главы 3: вычислительная таблица Межевая таблица для логарифмов с двумя десятичными знаками А) ОСНОВНАЯ МЕЖЕВАЯ ТАБЛИЦА Межа log Межа log Межа log Межа log Межа log 9886 .00 .01 .02 .03 .04 05 -.06 .07 .08' .09- .10 .11 1567 1603 1641 „ 1679 1718 23 1758 25 1799 1Ы1 1884 9Я 1928 'll 1972 30 2018 2065 2113 2163 34 2213 35 2265 2317 1? 2371 чя 2427 38 2483 2483 .40 :4i .42 .43 .44 .45 .46 .47 .48 .49 .50 .51 .52 .53 гл 3936 .60 .61 .62 .63 .64 .65 .66 .67 .68 .69 .70 .71 .72 .73 .74 .75 .76 .77 .79 .79 6237 .80 .81 .82 .83 .84 .85 .86 .87 .88. .89 .90 .91 .92 .93 1012 2541 4027 6383 1035 1059 . 2600 2661 4121 4217 6531 6683 1084 1109 2723 2786 4315 4416 6839 6998 1135 1161 2851 2917 4519 4624 7161 7328 1189 1216 2985 3055 4732 4842 7499 7674 1245 1274 1303 3126 3199 3273 4955 5070 5188 7852 8035 8222 1334 . I £. .13 .14 .15 ic 3350 5309 8414 1365 3428 5433 8610 1396 3508 .□4 .55 .56 .57 .58 .59 5559 8810 .94 .95 .96 .97 .98 .99 1429 35R9 5689 9016 1462 . I о .17 .18 ,19 3673 5821 9226 1496 1531 1567 3758 3846 3936 5957 6095 6237 9441 9661 9886 В сомнительных случаях предпочитайте четную цифру: 1462 даст ,16, a 1496—,18.
Простые преобразования 79 Иллюстрация 2 (продолжение) Б) МЕСТОНАХОЖДЕНИЕ ДЕСЯТИЧНОЙ ЗАПЯТОЙ В) ПРИМЕРЫ Число Б А Логарифм 1 10 +0 -1 1 О 1 100 1000 +1 —2 +2 -3 0.01 0.001 137,2 2 +0,14 = 2,14 10 000 +3 —4 4-Д —R 0.0001 0,03694 —2 +0,57 = —1,43 100 000 4-5 —6 0.00001 0,896 —1 +0,95 = —0,05 1000 000 0.000001 174321 +5 +0,24 = 5,24 Иллюстрация 3 главы 3: максимальная мощность Преобразование значений максимальной мощности (в МВт) 62 электростанций и гидроэлектростанций Инженерных войск А) СТЕБЕЛЬ С ЛИСТЬЯМИ Б) ПРЕОБРАЗОВАНО к ЛОГАРИФМАМ (ед. = 0,01) 2 1* 4,8 1** 15,26 Филпот, Св. Мария 4 2 8,6 • • 45,42 -Дж. Перси Прист, Нарроуз 9 3 6,0,0,4,0 • » 56,48,48,53,48 11 4 3,5 • * 63,65 13 5* 4,2 73,72 17 6 0,8,8,1 78,83,83,79 21 7 5,6,0,6 88,88,85,88 22 8 6 93, 24 9* 0,6 1” 95,98 30 10 0,0,0,0,0,0 2** 00,00,00,00,00,00 V(4) 11 0,2,8,0- 04,05,07,04 28 12 4 09 27 13* 0,5,5,0 11,13,13,11 23 1** 75,65,40 • • 24,22,15 20 •2’ 50,80,04,00,70 • • 40,45,31,30,43 15 3 40,20,30 » • 53,51,52 12 4 68,00 • • 67,60 10 5** 18,40,95 • • 71,73,77 7 6 00 • • 78 Дворшак 7 • • 6 8 10,10 • » 91. ,91 Литл-Г ус, Вижн.- Монументам 9** • • 4 1*** 728,400,743 з** 24,15,24 Читам, Мак-Нари, Даллео 1 2 700 3- 43 Джон Дэй 62 мощности (МВт) М31п1 ПО 66 280 212 1 14 2700 2686 62 мощности (log мегаватт) М31п 2.04 С16 1.83 2.45 .62 1 1.15 3.43 2.28
80 Глава 3 Иллюстрация 3 (продолжение) В) СТЕБЕЛЬ С ЛИСТЬЯМИ для ЛОГАРИФМОВ (ед. =0,01) 11* 12 13 14 15* 16 17 18 19* 20 21 22 23* 24 25 26 27* 28 29 30 31* 32 33 34 5 (Филпот) 6 (Св. Мария) 25888 (Нарроуз, Дж. Перси Прист, .,.)' 36 35 2389 335883 358 ’ 00000044579 11335 24 01 035 123 07 1378 11 (Литл-Гус, Нижн. Монумеитап) 5 (Мак-Пари) 44 (Читам, Даллес) 3 (Джон Дэй) Г) УПРАЖНЕНИЯ За) Запишите логарифмы значений в виде обычного упорядоченного стебля с ли- стьями. 36) Нравится ли вам результат? Как бы вы могли его улучшить? Зв) Сделайте это. Д) ИСТОЧНИК: The World Almanac, 1966; Book of Facts (c, 265) (их источник: Инженерные войска, армия США). Две такие межевые таблицы (илл. 2) делают нахождение логарифмов с точностью до сотых простым и легким делом. Посмотрим, как применять эту таблицу. На илл. 3 даны макси- мальные мощности (в мегаваттах) электростанций и гидроэлектро- станций Инженерных войск США — сначала в первоначальном виде, а затем в логарифмическом (но не упорядоченном). Проследим за некоторыми значениями. Число 14 попадает между 1396. и 1429, по- этому десятичная часть его логарифма будет равна ,15. 18 попадает между 1799 и 1841 — в этом случае десятичная часть равна ,26. Они записаны как 15 и 26 в первой строке илл. 3, Б. Выигрыш, достигаемый в результате перехода к логарифмам, виден из стебля с листьями илл. 3, В. Хотя колонка чисел получилась несколько растянутой (с этим мы еще научимся справляться), все
Простые преобразования 81 же мы здесь получаем уже неплохое представление о распределении значений мощности. (Илл. 3, А хороша для записи данных с целью хранения, но не для их охвата взглядом.) ОБЗОРНЫЕ ВОПРОСЫ Что такое межевая таблица? Как пользоваться илл. 2? Помогло ли нам преобразование данных на илл. 3? Почему? ЗВ. СРАВНЕНИЕ ДВУХ ВЫБОРОК НАБЛЮДЕНИЙ Одно из важных применений стебля с листьями — сравнение двух выборок. Переход к логарифмам может помочь и здесь. На илл. 4 сравниваются данные о площадях 82 округов шт. Миссисипи и 83 ок- ругов шт. Мичиган. Мы видим, что площади в шт. Мичиган: 0 гораздо сильнее вытянуты в сторону больших значений; 0 очень сильно сконцентрированы между 545 и 595 кв. милями (26 из 83). Иллюстрация 4 главы 3: площади округов Площади округов в штатах Мичиган и Миссисипи А) Стебли с листьями для двух штатов (ед.= 10 кв. миль) Мичиган, 83 округа Миссисипи, 82 округа 3* 3- 2 75 3* 3- 8 4* 1 4* 0121243121301214202 4- 8596689 4- 597886556569 Б* 1042043214 5* 142010 5- 75877677685776776666678666 5- 977899958797 6* 4011 6* 412441 6- 865 6- 898598 7* 120142 7* 320341203 7- 65 7- 86657 8* 3212 8* 303 8- 668 8- 8 9* 101 9* 24 9- 6 9- 10* 313 10* ПО- 10- 11* 1 11* 11- 8 11- 12* 00 12* 12- 12- 13* 2 13* 13- 13- 1** 58,84
82 Глава 3 Иллюстрация 4 (продолжение) Б) СОПОСТАВЛЕНИЕ СТЕБЛЕЙ, листья упорядочены Мичиган Миссисипи Бензи Лилано, Аревак 2 75 3* 8 Тейт Шарлевуа 1 9988665 4443221100 88877777777776666666666655 4110 865 422110 65 3221 866 110 6 331 4* 5* 6* 7* 8* 9* 10+ 0001111112222223344 555566678899 001124 577778899999 112444 588899 001223334 56678 033 8 ' Хайндз 24 Боливар, Язу Делта, Гсджебик 8 11* Айрон 00 12* Онтонагон 2 13* 14* Чиппева 8 15* 16* 17* Маркветт 4 18* (всего 63) (всего 82) В) УПРАЖНЕНИЯ 4а) Обработайте по образцу илл. 4, А какие-нибудь интересные для вас данные. Г) ИСТОЧНИК: The World Almanac, 1966 (с. 369—370). В части Б этой иллюстрации тот же материал представлен по- другому. В данном случае предпочтение той или другой формы пред- ставления — дело вкуса. Посмотрим, что нам дал переход к логарифмам. На илл. 5 то же сравнение данных показано для логарифмов. В целом сравнение здесь нагляднее: О если не принимать во внимание 23 округа шт. Мичиган со зна- чениями логарифмов 1,75 и 1,76, то остальные округа дают картину,
Простые преобразования 83 Иллюстрация 5 главы 3: площади округов Логарифмы площадей округов в штатах Мичиган и Миссисипи (из илл. 4) д) СОПОСТАВЛЕНИЕ СТЕБЛЕЙ (ед.=0,01 для логарифмов) Мичиган Миссисипи 41 7 1 9988665 443332221100 998666666666666655555555555 3211 88766555 4332111 8665 110 8875 2 60 15* 16* 17* 18* 19* 20* 21* 22* 8 0001111112222223344 55556667889 0011234 66666677777999 111133344 55566666788899 9224 67 Названия отдельных округов см. на илл. 4, Б. Б) УПРАЖНЕНИЯ 5а) По образцу илл. 4, А обработайте логарифмы максимальных мощностей из илл. 1 и 3. 56) То же, но по образцу А данной иллюстрации. напоминающую силуэт динозавра,— приблизительно от 1,6 до 2,2, тогда как округа шт. Миссисипи образуют прямоугольник —от 1.F до 1,9. В данном примере могло бы показаться, что выигрыш при преоб- разовании получился главным образом просто от улучшения формы каждого из стеблей в отдельности. Однако на самом деле при переходе к логарифмам оба стебля стали гораздо более похожи друг на друга по разбросу значений, и поэтому здесь легче описать различия в форме распределений. Таким образом, сравнение стало более эффективным, лучшение наглядности стеблей с листьями пока заключалось главным образом в увеличении симметрии, причем иногда это каса- м°СЬ лишь одного стебля, а иногда — нескольких или большинства, южно было бы прямо поставить такую цель — улучшать симмет- ричность стеблей с листьями настолько, насколько это возможно без каких-то особых усилий с нашей стороны. Это не повредит, если олько не подходить к этому делу чересчур всерьез, а побочные ре- >льтаты нередко будут полезны.
84 Глава 3 Иллюстрация 6 главы 3: атомные веса Атомные вес а водорода и брома: наилучшие определения к 1927 г. А) АТОМНЫЕ ВЕСА Б) СТЕБЕЛЬ ДЛЯ ПЕРВОНд ЧАЛЬНЫХ ЗНАЧЕНИЙ (ед.=0,00) остальные знаки отброшены) Водород Бром Водород Бром 1.00779 79.916 100* 1777777777 7990* 9 1.00781 79.920 7991 62558 1.00777 1.00782 1.00775 1.00766 1.00779 1.00769 1.00783 79.920 79.927 79.912 79.926 79.915 79.915 79.918 79.909 7992* 0067 В) ЛОГАРИФМЫ АТОМНЫХ Г) СОПОСТАВЛЕНИЕ СТЕБЛЕЙ ВЕСОВ с шестью знаками (логарифмы, ед.=0,000001) Водород Бром Водород Бром .003370 1.902634 00331* 4 190259* ’6 379 656 00332 7 190260 361 656 00333 190261 2 383 694 00334 190262* 88 353 612 00335* 3 190263* 4 314 688 00336 1 190264 5 370 628 00337 090 190265 66 327 387 628 645 596 00338* 37 190266 190267* 190268 190269 8 4 Д) ПРИМЕЧАНИЯ 1. Сравнение в п. Б дает очень мало. 2. В п. Г две выборки в основном имеют примерно одинаковый разброс, и ясно видно, что некоторые (одно-два) значения выскочили из основной массы. Е) ИСТОЧНИК: Roth W. A., Scheet К- Erster Erganzungsband (1-е дополнение к 5-му изданию книги) Landolf — Bornstein’s Physikalische-Chemische Tabellen, 1927, ТОЧНОСТИ ПЯТИЗНАЧНЫХ ЛОГАРИФМОВ МОЖЕТ БЫТЬ НЕДОСТАТОЧНО Пример другого рода мы получим, обратившись к данным 1927 г. об атомных весах химических элементов. Значения, приведенные на илл. 6, найдены различными исследователями в 1922—1925 гг. Они легли в основу немецких стандартных атомных весов, принятых в Германии в 1927 г. для элементов водорода и брома. Ясно, что по- пытка сравнить эти значения в таком виде в одинаковых единицах ни к чему не приведет.
Простые преобразования 85 При переходе к логарифмам мы обнаруживаем, что пятизначные „рифмы не обеспечивают нужной точности, поэтому мы используем Л°стизначные. На илл. 6, Г сравниваются логарифмы атомных весов, 111 паженные в единицах шестого знака. Из нее видно, что с помощью составления в виде стеблей с одинаковой единицей измерения ПР но провести вполне успешное сравнение этих двух выборок при Условии, что мы применили подходящее преобразование. Более того, с помощью стеблей можно выявить ширину и отскоки в исходных выборках. Здесь выигрыш от преооразования исходных значении получается потому, что стебли стали более совместимыми. Как мы увидим в сле- дующей главе, это преимущество важнее, чем достижение симметрии в распределении данных. Нас не должно удивлять, что для данных об атомных весах пре- образование к логарифмам оказалось полезным. Очень вероятно, что для каждого конкретного вида величины наилучшая точность из- мерений (в определенный период времени) характеризуется флюктуа- циями и ошибками, которые составляют, грубо говоря, определенную долю от этой величины. Обычно говорят, что имеется столько-то зна- чащих цифр. Лучше было бы сказать, что имеется определенное число знаков в логарифме этой величины, которое соответствует некоторому постоянному отношению наименьшей вариации величины к самой величине. ОБЗОРНЫЕ ВОПРОСЫ Годятся ли стебли с листьями для целей сравнения? Могут ли тут помочь логарифмы? Всегда ли? Почему (или почему нет)? Лучше ли илл. 5, чем илл. 4? Почему? Сколько знаков нужно брать в лога- рифмах в начале вычислений? Может ли оказаться, что требуется больше знаков? Меньше? Почему можно ожидать, что для атомных весов использование логарифмов будет полезно? Назовите два вида преимуществ, которые можно получить, если использовать преоб- разования? Какое из них важнее? Какое ценно главным образом своими побочными результатами? ЗГ. БЫСТРОЕ ВЫЧИСЛЕНИЕ КОРНЕЙ И ОБРАТНЫХ ВЕЛИЧИН КОРНИ Нам может понадобиться быстро находить также квадратные к°Рни. И в этом случае можно с успехом воспользоваться аналогия- ми межевой таблицей, хотя здесь не все обстоит столь хорошо: нельзя н°БТоРно обращаться к таблице квадратных корней, пока х не изме- нюсь в 100 раз (а не в 10, как для логарифмов). Это видно из следу-
86 Глава 3 ющего простого примера: /2=1,42, /20=4,47, /200=14,2. Корни а точностью до двух знаков (если нет опасности путаницы мы будем опускать прилагательное «квадратный») можно было бы находить по таблице такого же вида, как илл. 2, но вряд ли такая таблица оказалась бы удобной. Переход от /100=10 к /121=11 и от /10000=100 к /12100=110 — это большой шаг, а переход от /96^4=9,8 к /98^1=9,9 и от /9604 =98 к /9801=99 — гораздо меньший шаг: примерно в десять раз. В двузначной таб- лице для квадратных корней это будут наименьшие шаги. Выходом из положения было бы уменьшение шагов около Ии увеличение около 98, что и сделано в межевой таблице илл. 7. В бли- жайшем примере мы ее используем. ОБРАТНЫЕ ВЕЛИЧИНЫ Иногда представляется полезным вместо чисел использовать их обратные величины. При этом бывает удобно сохранять порядок чисел таким, чтобы большему первоначальному значению соответствовала большая обратная величина. В действительности это не так — как раз наоборот. Например, 3 больше, чем 2, тогда как 1/3, обратная вели- чина от 3, меньше, чем 1/2,— величина, обратная 2. Выход здесь простой: пользуйтесь отрицательными обратными величинами. Теперь все в порядке, так как —1/3 больше, чем —1/2. Поскольку в начале обработки ряда мы сталкиваемся с числами вроде 57, то удобно использовать преобразование —1000/число. На илл. 8 приведена межевая таблица. Здесь не введено ничего нового, кроме отрицательного знака. Чтобы найти —1000/43,7, мы замечаем, что 437 попадает между 4347 и 4425, так что значащие цифрь! числа —1000/43,7 будут —228 (все знаки верны). Положение запятой читаем из таблички в п. А и в результате получаем: —1000/43,7=—22,8.
Простые преобразования 87 Иллюстрация 7 глалы 3: вычислительная таблица Межевая таблица для (квадратных) корней А) ПРИМЕРЫ хЛоияля паз де лите число на группы по две цифры так, чтобы десятичная запятая пя между группами. Таким образом, 124,2 будет 1 24 2, а 1242 — уже 12 42. д0Г'логично этому 0,00654 будет разбито как 00 65 4 или просто 65 4. Число Группы из Б из В Число 124.2 1 24 2 ab. 112 11.2 1242 12 42 ab. 35 35. .00654 00 65 4 .0х 80 .080 Б) МЕЖЕВЫЕ ТАБЛИЦЫ ДЛЯ исходные данные —между жирными ПОСТАНОВКИ ДЕСЯТИЧНОЙ ЗАПЯТОЙ^ цифрами, результат — обычные цифры. а ab. abc. abed. ,х .0х .ООх .ОООх 1 .01 .00 01 .00 00 .00 00 01 00 01 В) ОСНОВНАЯ МЕЖЕВАЯ ТАБЛИЦА — вход и выход, как в п. Б. |-Межа| 1Крр.| | Межа | | Кор; | | Межа | | Кор. | |Межа| | Кор.| |Межа| | Кор.} 98 01 4ПЛ 1 02 01 is 1 14 49 108 1 18 81 НО 1 23 21 10 1 27 69 112 1 32 25 16 1 36 89 я 1 41 61 ,1® 1 48 84 120 1 58 76 124 1 69 00 128 1 79 56 132 1 90 44 136 2 01 64 140 (2 13 16 144 '2 25 00 148 2 37 16 '162 2 49 64 I56 ГЛЙ S 2 75 56 104 2 89 00 168 3 02 76 176 3 16 84 8b 3 31 24 S 3 45 96 ПЯЯ 3 61 00 й 3 76 36 196 3 С7 04 ’96 Л АО пл 200 4 08 04 4 24 38 288 4 41 00 212 4 57 96 ив 4 75 24 2’6 /О 220 4 92 84 224 5 10 76 22Я 52900 S 5 47 56 ЭТЙ 5 66 44 5 66 240 0 20 2,6 .S й оЙ ’ 78 282 8,2 288 ’S й 0 02 ю 56 ii22 Й 11 90 35 12 60 -4 « 32 14 06 3 14 82 It 15 60 4 15 60 .п 35 40 16 40 4? 37 40 66 17 22 ™ 39 69 64 18 06 44 42 25 1892 S 44 69 Й 19 80 47 61 2Д 20 70 I6 50 41 .'° 2162 % 53 29 ™ 22 56 2' 56 25 23 52 43 59 79 ™ 24 50 62 41 '° 25 50 50 65 61 8° 26 52 6! 68 89 82 27 56 62 72 25 84 28 62 g 75 69 g 29 70 79 21 до 30 80 85 82 81 90 31 92 Й 86 49 94 33 05 90 25 34 22 3 94 °9 9S 35 40 ° 98 01 ПРИМЕР С ВУЛКАНАМИ Несомненные примеры, где наиболее наглядное представление- на»НЫх стеблем с листьями получается с помощью перехода к корням, поп™ Труднее- чем такие же примеры для логарифмов — последние адаются на каждом шагу.
88 Глава 3 Иллюстрация 8 главы 3: вычислительная таблица Межевая таблица для (отрицательных) обратных величин (для —1000/число) А) МЕЖЕВЫЕ ТАБЛИЦЫ для ПОСТАНОВКИ ДЕСЯТИЧНОЙ ЗАПЯТОЙ Межа 1000 10000 100 000 1000000 10 000 000 100 000 000 Начало Начало .X а. .0Х ab. •00х abc. •000Х abed. .ООООХ abode. Межа 1000 100 10 1. 0.1 0.01 Примеры Число А Б —1000/число 124,2 а, —80 -8,0 0,04739 abode —212 —212 * *, 1242, ,Х -80 -0,80 Б) ОСНОВНАЯ МЕЖЕВАЯ ТАБЛИЦА — цифры отрицательных обратных величин Зна- Зна- Зна- Зна-» Зна- |Межа | чение | (Межа | |чение| | Межа | Jчение| ।Межа । | чение | |Межа| | чение[ 990 1010 1030 1053 Illi £3 CD CD О СП 00 о 1639 1681 1709 1739 F 1 F F Л U1 СП О) ч| 00 со о -2469 2532 2597 2667 О ОЗ 00 г* 5Г СО СО СС 1 1 4115 4202 4274 4347 -240 -236 -232 -228 617 • 633 649 666 О СО СЧ CD СО из из м- 7 7 7 7 1075 -92 1770 -56 2740 -36 4425- -224 685 -144 1099 -90 1802 -55 2816 -35 4504 -220 704 -140 1124 —88 1835 -54 2839 -34 4587 -216 725 -136 1149 -86 1869 -53 2985; -33 4672 -212 746 -132- 1176 -84 1905 -52 3077 -32 4762 -208 769 -128 1205 -82 1942 -51 3175 -31 4854 -204 793 -124 1235 -80 1980 -50 3287 -30 4950 -200 820 -120 1266 -78 2020 -49 3367 294 505 -196 840 -118 1299 -76 2062 -48 3448 •288 515 -192 855 -116 1333 -74 2105 -47 35С9 -282 526 -188 870 -114 1370 1408 -72 -70 2151 2198 -46 -45 3584 3663 -276 -270 538 549 -184 -180 885 901 -112 -110 1449 —68 2247 -44 3745 -264 562 -176 917 -103 1493 -66 2299 -43 3831 -258 575 —172 935 -106 1538 -64 2353 —42 3922 —252 588 —168 952 -104 1587 1639 -62 2410 2469 -41 4016 4115 -246 602 617 -164 971 990 -102
Простые преобразования 89 Иллюстрация 9 главы 3: высоты вулканов Высоты 219 вулканов А) СТЕБЕЛЬ С ЛИСТЬЯМИ (ед.= 100 фут, с округлением) 8 18 40 58 80 103 ^(18) 98 78 66 51- 38 28 20 15 13- 10 8 6 5 2» 3 4 5* в 7 8 3* 10 11 12 13* 14 15 16 17* 18 19 99766562 9761009630 6998776654442221109850 876655412099551426 9998844331929433361107 97666666554422210097731 898665441077761065 98855431100652108073 653322122937 377655421000493 0984433165212 4963201631 45421164 47830 00 676 52 92 5 39730 О Б) РАЗЛИЧНЫЕ СВОДКИ — названия отдельных вулканов см. на илл. 6 гл, 2, 219 высот (сотни футов) М110 С 5Бп 65 58 37 п 95 п В 28 24 121 97 1 2 199 197 [87~| б|-49п 182п ххх шесть Б 269 п XXX примык.: 2 и 179 внешн/. 185, 190, внешн,: 193, 193 внешн.: 197,199, В) ИСТОЧНИК: The World Almanac, 1966 (с. 282—283) (их источник: Нацио- нальное географическое общество). На илл. 9 даны высоты 219 вулканов, приводимых в Мировом альманахе за 1966 г. (источник — Национальное географическое об- щество). Отчетливо видна более сильная протяженность в сторону ольших значений, чем меньших. На илл. 10 приведены логарифмы ех же величин. Теперь тенденция противоположна — протяженность имЛЬШе В СТОРОНУ малых значений логарифмов. Ясно, что нам нужно м„еть что'то между значениями в первоначальном виде и их логариф- ми, и квадратные корни здесь как раз и подойдут. чил 3 ИЛЛ' показан стебель с листьями для корней. Теперь полу- ась отличная симметричная картина, хорошо согласующаяся
90 Глава 3 Иллюстрация 10 главы 3: высоты вулканов Логарифмические высоты вулканов (из илл. 9 и 2) А) СТЕБЕЛЬ с ЛИСТЬЯМИ в единицах 0,01 от логарифмов высот в сотня футов 1 3* 0 ' • 4 • 5 • 6 5 7* 8808 6 8 5 8 9 55 12 10 4000 13 11* 1 18 12 83080 28 13 8884442200 43 14 266533220650? 58 15* 876644319944315 80 16 99988443319294333Д. 107 17 7655555544332221007Д /(33) 18 343221113332219988765553 3 Д 79 19* 033221111152479985876655577 52 20 004322110321016865545655999889 22 21 00344215599 11 22 0215479998 1 23* 0 Б) РАЗЛИЧНЫЕ СВОДКИ — названия некоторых вулканов см. на илл. 6 гл. 2. 219 0,01 логарифмов от высот1) М110 181 С 55п 157п 198 40 и В 28 138 208 70 1 30 230 200 |бТ| б 96 П 259 семь ххх Б 35п одно. примык.; 99, 99, 230 внешн.: 70,78,78,78 внешн,: 85,95,95 отскак.: зо (Илха Нева) (И высоты в сотнях футов) 219’ логарифмы (высоты в сотнях футов) мио Ге! С 55л 1.58 1.98 1 0.30 2.30 219 логарифмы (высоты в футах) М110 ЗЛ1 С 55 п 3.58 3.98 1 2.30 4.30 Примечание. 70 (Анак Кракатау), 78 (Суртси), 78 (Мэтью), 78 (Фонуалей), 85 (Тавур* вур), 90 (Нюафоу), 95 (Дидикас), 99 (Таал), 99 (Гугуан), 230 (Килиманджаро).
Простые преобразования 91 Иллюстрация 11 главы 3: высоты вулканов Квадратные корни из высот 219 вулканов (из илл, 9 и 7, корень округлен) А) СТЕБЕЛЬ с ЛИСТЬЯМИ в единицах 0,1 корня из высоты в сотнях футов (или просто корень из высоты в футах) 1 1* 6 2 13 3 28 4 51 5* 73 6 107 7 </(34) 8 78 Э* 52 10 29 11 13 12 8 13* 4 14 4 65525 0032262 410409997776655 14432211043099867599687 2000220666644666684448 0000000664444444444222200666228888 2422200022222088866664444864448486 22220000042468888866644466 0044222202200068664686 0222000226886488 44488 2266 0000 Б) БУКВЕННО-ЧИСЛОВОЕ ПРЕДСТАВЛЕНИЕ 219 V вь (соты (в футах) М110 80 С 55п 61 98 37 В 28 49 110 61 1 14 140 126 примык.: 14 (Илха Нова), 140 (Килиманджаро) .внешн.: нет отскак.: нет с медианой 6500 фут и крайними значениями около 200 и 19 900. Если нужно, например, сравнить по высоте вулканы с обычными горами или вулканы в северном и южном полушариях, то следует сравнивать квадратные корни из их высот. УСИЛЕНИЕ НАГЛЯДНОСТ 1 Вместо пристального разглядывания стеблей на илл. 9—11 лучше сравнивать соответствующие схематические диаграммы (илл. 12). Для многих из нас этот рисунок будет даже понятнее. ОБРАТНЫЕ ВЕЛИЧИНЫ ВРЕМЕН естественной измеряемой величиной оказывается время. Нередко естественной измеряемой величиной оказывается время, За к°торое происходит какое-либо событие. Сколько времени требуется крысе, чтобы пробежать через лабиринт (и получить свою награду)? к к скоро отдельные рыбы перестают плыть под действием данной онцентрации яда? Через какое время после землетрясения обрушился От Дом? Главную трудность при использовании времен представ- на1°т крыса, так и не пробежавшая через лабиринт, рыба, которая перестает плыть, дом, который так и не обрушивается.
92 Глава 3 Иллюстрация 12 главы 3: высоты вулканов Высоты 219 вулканов с использованием двух различных преобразований (схематические диаграммы; полностью названия даны на илл. в гл. 2) Понятно, что крыса, которая не смогла пробежать через лабиринт, гораздо больше похожа на медлительную крысу, которой на это нужно 1000 с, чем обе они на очень быструю крысу, затратившую на это всего 4 с. Можно даже сказать, что 1000-секундная крыса очень похожа на 800-секундную — гораздо больше, чем 204-секундная на 4-секундную. Для случаев, когда что-либо «никогда не происходит», очевидная трудность — это предупреждение о другой скрытой трудности: со случаями «очень долго». Иллюстрация 13 главы 3: бег крыс Времена пробега крыс и их обратные величины на второй день дрессировки (от начала и по второй отрезок пути включительно) Крыса № 0 1 2 3 А) ВРЕМЕНА (ед.=0,1 с) 76 119 108 56 127 186 39 70 261 93 65 81 137 224 29 57 74 128 59 46
Простые преобразования 93 Иллюстрация 13 (продолжение) Б) СТЕБЛИ с ЛИСТЬЯМИ для ВРЕМЕН В) ОБРАТНЫЕ ВЕЛИЧИНЫ ВРЕМЕН (ед.= 1000/с) 132 84 92 180 78 54 258 144 38 108 152 124 72 45 340 176 136 78 168 216 Г) СТЕБЛИ с ЛИСТЬЯМИ для ОБРАТНЫХ ВРЕМЕН 0* 0- 1* 4 87 34 ' 4 858 "1 9 "57 ’ 42 1- 88 2* 2« 6 2 3* 3- "4 Д) ИСТОЧНИК: Hull С. L. The rat’s speed-of-locomotion gradient in the approach to food. J. Comparative Psychology, 17, 393—422, 1934 (данные взяты из табл. 3 на с. 401). В таких случаях следует пользоваться не непосредственно вре- менами, а обратными величинами. Для крыс, пример с которыми мы привели в качестве иллюстрации, и для некоторых других случаев получаем результаты следующего вида: Время —1000/время 1000/время «никогда» —0 0 1000 —1 1 800 с —1,2 1,2 204 с —49 49 10 с —100 100 6 с —167 167 5 с —200 200 4 с —250 250 пРодолжать разговор о «медленности», отрицательные обратные пепИ“ИНЫ подходят гораздо лучше времени. Если же нам нужно без ИТИ К <<^Ь1стРоте>>> тогда лучше использовать значения 1000/время знака минус (они представляют собой скорости). В и показаны примеры из исследования бега крыс Халлом. • о этой иллюстрации приведены некоторые сравнительно большие
S4 Глава 3 времена пробега для двух первых крыс. Видно, что в среднем дв„ последние крысы бегут быстрее. О рассеянии наблюдений здесь трудНо высказаться определенно. На илл. 13, Г показаны стебли для обратных времен. Теперь у наблюдений для трех из четырех испытуемых крыс имеется в общем симметричное рассеяние приблизительно одинаковой величины; для крысы 2 рассеяние наблюдений также, можно сказать симметричное, хотя и несколько более сильное, чем для остальных* Общая форма распределений, а также сравнение для обратных ве! личин выглядят как будто отчетливее. Исходя только из илл. 13, Б, мы могли бы подумать, что данные для крыс 0 и 1 необычно растянуты, тогда как для крысы 3 необычно сжаты. Из илл. 13, Г мы получаем совсем другое впечатление, которое по всей вероятности, является более правильным. Здесь только у крысы 2 значения сильно размазаны (из-за ее двух очень быстрых пробегов). Способ, которым мы рассматриваем числа, может играть важную роль. Иной раз мы можем получить такие наблюдения времен, как «ни- когда» и «нуль». В таких случаях можно обычно заменить «нуль» числом, равным «половине наименьшего ненулевого значения, которое мы могли бы записать». Однако в этом случае все дело в неудовлетво- рительном способе получения данных. ОБЗОРНЫЕ ВОПРОСЫ Каковы наиболее обычные виды преобразования наблюдений, кроме логарифмов? Как пользоваться илл. 7 и 8? Какое преобразо- вание показалось наилучшим для данных о высоте вулканов? Могут ли при выборе вида преобразования помочь схематические диаграммы? Как разрешить трудность с большими значениями, которые могут быть или действительно являются бесконечными? Как проще всего избежать таких трудностей? Какое преобразование лучше всего должно подходить для анализа времен пробега крыс? Можно ли ожидать, что оно окажется полезным и для времен пробега лошадей на скачках? ЗД. БЫСТРЫЙ ОБЗОР Чтобы выбрать подходящее преобразование для улучшения сим* метричности наблюдений, нам пришлось сделать три стебля. Пожалуй, это слишком трудный путь. Попробуем поискать более легкий. Преобразования, которые мы обычно используем, в том числе корни, логарифмы и отрицательные обратные величины, обладаю'1' тем простым свойством, что при этом сохраняется порядок наблю* дений. Так, например, поскольку 57 больше, чем 43, log 57=М больше, чем log 43=1,63. Сохранение порядка обязательно ведет к сохранению рангов глубин. Так, например, медиана, сгибы, восьмые ... и крайние зиа
Простые преобразования 95 чения логарифмов чисел являются логарифмами соответствующих значений в сводке первоначальных данных. То же самое имеет место пля корней и отрицательных обратных величин. Мы уже говорили в гл. 2, что расположение значений в сводке позволяет судить о симметричности нашей выборки. Как легче всего использовать сводку для получения суждения о симметричности? рероятно, введя ряд срединных значений сводки, в том числе сере- дину сгибов (срС), середину восьмых (срВ), середину крайних зна- чений (cpl, его еще называют серединой размаха): середина сгибов = (нижний сгиб + верхний сгиб)/2, середина восьмых= (нижняя восьмая + верхняя восьмая)/2, середина крайних = (нижнее + верхнее крайние значения)/2. Теперь нам нужно лишь взглянуть на последовательность медиана, середина сгибов, середина крайних значений Иллюстрация 14 главы 3: высоты вулканов Использование середин сводки для выбора вида преобразования, подходящего к данным о высотах вулканов А) ИСПОЛЬЗОВАНИЕ ЗНАЧЕНИЙ 5-ЧИСЛОВОЙ (MCI) СВОДКИ I Отриц. обр. I (исходи.) (корень) (од) величина 219 1 199 140 230 -5 с 95 п 98 198 -10 110 м 65 80 181 —15 55 с 37 п 621* 157 -26 1 1 2 14 30 -500 м 65 80 181 -15 с₽с 66п 80п 177п -18 Ср1 ЮОп 77 130 -152 (Ш енд) (вверх) (мал;) (ВНИЗ) (ВНИЗ) 1) Преобразование числа 37п дает 62; среднее из преобразованных 37 и 38 будет Б) ИСПОЛЬЗОВАНИЕ ЗНАЧЕНИЙ 7-ЧИСЛОВОЙ СВОДКИ — добавленные значения выделены жирным шрифтом 219 1 199 140 230 -5 В 121 110 208 -8 '7 с 95 П .98 198 -10 110 м 65 80 181 -15 55‘ С 37п 62 157 -26 •28 В 24 49 138 -42 Г 1 '2 14 30 -500. М 65 80 181 -15 срС 66п 80 177л -18 срВ 72п 79 173 -25 ср1 100л 77 130 -252 (тр»НД) (вверх) (мал;) (вниз) (ВНИЗ)
96 Глава 3 Иллюстрация 14 (продолжение) В) ИСПОЛЬЗОВАНИЕ ЗНАЧЕНИЙ 9-ЧИСЛОВОЙ СВОДКИ — добавлении значения выделены жирным шрифтом 1 (исходи.) (корень) (log) 230 1 Отриц.обр. I величина 1 199 141 -.5 Б 14л 140 118 215 -7 В 28 121 110 208 -8 С 55 95п 98 198 -10 мио 65 80 181 -15 С 55 37 п 62 157 -26 В 28 24 49 138 -42 Б 14л 16 40 120 -62 1 2 14 30 -500 М 65 80 181 -15 ерС 68 п 80 177л -15 срВ 72л 79л 173 -25 СрБ 78 79 167" -34 cpi ЮОп 77 130 -252 (тренд) (вверх) (ровно) (вниз) (ВНИЗ) Г) РАСШИРЕННЫЕ БУКВЕННО-ЧИСЛОВЫЕ ПРЕДСТАВЛЕНИЯ — два вида разной длины 219 (ср;) исходи, (шир;) (ср.), корень (шир.) (ср). log (шир.) М110 65 65 80 80 . 181 181 С 55п 66п 37п 95л 58 80 62 98 36 177п 157 198 41 1 ЮОп 2 197 195 77 14 140 126 130 30 230 200 I ИСХОДИ. I. 1 корень I I log 1 219 (ср.) (шир.) (ср.) (шир.) (ср.) (шир.) М110 С 55л 65 'ббп 37п 65 95л 58 80 80 62 80 98 36 181 177 п 157 181 198 41 Б 28 72п 24 121 97 79п 49 110 61 173 138 208 70 •Б 14л 78 16 140 124 79 40 118 78 167л 120 215 95 1 ЮОП 2 197 195 77 14 140 126 130 30 230 200 Д) УПРАЖНЕНИЯ 14а) Сделайте расширенные буквенно-числовые представления (МСВ1), промежУ” точные между двумя видами, показанными в п. Г. 146) Проведите анализ данных о вулканах по серединам сводки, используя 11-число- вую (МСВБА1) сводку. 14в/г/д) Проанализируйте, какое преобразование лучше всего подходит для данньй о площадях шт. Мичиган (илл. 4), используя 5-, 7- и 9-числовые сводки. 14е/ж/и) Проделайте то же самое для шт. Миссисипи (данные см. там же). 14к) Вернитесь к логарифмам из илл. 1 и вычислите середины сводки. Какое effi преобразование нужно здесь для достижения симметричности? 14л) Какую пользу, по вашему мнению, принесет это дополнительное преобразовв' ние?
Простые преобразования 97 пи на более длинную последовательность, например медиана, середина сгибов, середина восьмых, середина крайних значений, „ проверить, нет ли здесь тренда. И Чтобы проделать это для какого-то конкретного случая, нам нужно шь преобразовать сводку и затем найти середины полученных ЛИ„чений сводки. На илл. 14 это выполнено для данных о вулканах, п' смотрим ли мы на 3 срединных значения (из 5-числовой сводки), 4 (из 7-числовой сводки) или 5 (из 9-числовой сводки), ответ будет ясным и недвусмысленным: «Используйте корни». (Здесь был нужен лишь один стебель — для первоначальных значений.) На илл. 14, Г показано, как можно аккуратно включить середины сводки в наши «буквенно-числовые представления». Следует сделать несколько замечаний: поскольку на середину крайних может сильно повлиять даже одно-единственное слишком далеко отскочившее значение, видимо, не следует особенно доверять ей при выборе подходящего преобра- зования; о отсюда следует, что нередко стоит начинать сразу с 7- или 9- числовой сводки; (у часто нам приходится иметь дело с меньшим числом наблюде- ний, чем 219; в этом случае трудно ожидать таких же отчетливых сигналов, как в приведенном примере: О при анализе малых выборок хорошие результаты дает сумми- рование информации от нескольких выборок (когда это возможно). СУММИРОВАНИЕ ИНФОРМАЦИИ ПО НЕСКОЛЬКИМ ВЫБОРКАМ На илл. 15 представлено число обрывов основы ткани за опреде- ленное время выработки ткани для каждого из шести типов основы (AL, AM, АН, BL, ВМ, ВН), различающихся сортом хлопка и натя- жением нити. Результаты для AL стоят несколько особняком (В=С=26, М=51), поэтому мы рассмотрим суммы по всем шести группам на- блюдений и по пяти, кроме AL. Хотя для первоначальных чисел имеется некоторая нерегулярность как для суммы медиан, так и для суммы срС (при использовании всех шести групп), вряд ли можно сомневаться, что суммы середин возрастают при переходе от М к cpl. Для квадратных корней из числа обрывов суммы получаются сравни- тельно постоянными. „„ Таким образом, если нам нужна симметрия для числа обрывов, следует использовать корни. ОБЗОРНЫЕ ВОПРОСЫ на гн° легко и естественно использовать при исследовании выборок Середи МетРи™ость? Что такое середина сгибов? Середина восьмых? на кРайних? Как мы их обозначаем? Почему используемые 4 № 1247
98 Глава 3 Иллюстрация 15 главы 3: обрывы основы 54 подсчета числа обрывов основы (данные Типпетта) — по 9 в каждом из 6 случаев А) НАБЛЮДЕНИЯ AL 26, 30, 54, 25, 70. 52, 51, 26, 67 AM 18, 21, 29, 17, 12, 18, 35, 30, 36 AH 36, 21, 24, 18, 10, 43, 28, 15, 26 BL 27, 14, 29, 19, 29, 31, 41, 20, 44 BM 42, 26, 19, 16, 39, 28, 21, 39, 29 BH 20, 21, 24, 17, 13, 15, 15, 16, 28 Б) СВОДКИ и СЕРЕДИНЫ СВОДОК ДЛЯ ПЕРВОНАЧАЛЬНЫХ НАБЛЮ- ДЕНИЙ (подсчеты числа обрывов) 1 В С М С В 1 М срС срВ ср! AL 25 26 26 51 54 67 70 51 40 4бп 47п AM 12 17 18 21 30 35 36 21 24 26 24 AH 10 15 18 24 28 36 43 24 23 25п 26п BL 14 19 20 29 31 41 44 29 25п 30 29 BM 16 19 21 28 39 39 42 28 30 29 29 BH 131 15 15 17 21 24 28 17 18 19п 20п Сумма по всем группам 170 169п 176п 176п Сумма, кроме AL 119 120п 130 129 (возрастание наружу, если не считать сумм М или срС) В) СВОДКИ и СЕРЕДИНЫ СВОДОК для КОРНЕЙ (ед.=0,1) 1 В С М С В 1 М срС срВ cpl AL 50 51 51 72 74 82 84 72 62п 66п 67 AM 35 41 42 46 55 59 60 46 48п 50 47п АН 32 39 42 49 53 60 66 49 47п 49п 49 BL 37 44 45 54 56 64 66 51п 50п 54 51 ВМ 40 44 46 53 62 62 64 53 54 53 52 ВН 36 39 39 41 46 49 53 41 42п 44 44п Сумма ( по всем группам 'умма, кроме AL 315 243 305п 243 317п 250п ЗНп 244п (сравнительно ровно) Г) УПРАЖНЕНИЯ 15а—е) Составьте стебли с листьями и проверьте вычисление сводок для AL, AM АН, BL, ВМ, ВН. 15ж) Составьте таблицу для логарифмов числа обрывов по образцу п. В. 15и) Подберите несколько рядов каких-нибудь подсчетов и проведите такие *е вычисления. Д) ИСТОЧНИК: Tippett L. И. С. Technological Applications of Statistics, Ne'v York, John Wiley and Sons, London, Williams and Norgate, 1950 (c. 106).
Простые преобразования 99 ы сводок и середин сводки сокращают нам работу? Насколько нами в” едины сводки для данных о высотах вулканов указывают на ясно Сдимость конкретного преобразования? Как можно пристроить необход сводки к буквенно-числовым представлениям? Следует ли сереД1 середиНам крайних значений? С осторожностью? Или совсем SebP3H? Как можно суммировать середины сводок по отдельным выборкам? ЗЕ. ПОДСЧЕТЫ ЧИСЛА СОБЫТИЙ До сих пор мы по большей части имели дело с данными измерений и пренебрегали обработкой подсчетов (если не считать нашего по- следнего примера с числом обрывов). (Некоторые читатели совершенно свободно применяют преобразо- вания к высотам, площадям, мегаваттам, денежным суммам и т. п., но никак не могут преодолеть своего рода застенчивости, если им предложат преобразовать число раз, когда произошло какое-то со- бытие. Из-за подобной «застенчивости» они лишь упускают то, что могли бы обнаружить.) Когда нам придется в последующих главах иметь дело с особыми случаями, например О очень малым числом подсчетов (особенно при наличии нулей), 0 подсчетом того, сколько из определенного числа испытуемых выжили, улыбнулись, оказались удовлетворены и т. д., ф подсчетами, организованными специальными способами, то при преобразованиях мы будем использовать некоторые дополнитель- ные приемы. А пока мы имеем дело с достаточно большим числом подсчетов, мы вполне можем преобразовывать выборки подсчетов столь же свободно и по тем же причинам, что и выборки количеств (непрерывных положи- тельных измеряемых величин). Чаще всего для преобразования под- счетов применяют логарифмы и (квадратные) корни. В действительности, пожалуй, трудно найти такой ряд подсчетов, который было бы лучше анализировать в первоначальном виде, чем после извлечения квадратных корней. (Иногда попадаются такие похожие друг на друга подсчеты, что никакое преобразование ничего изменит, но и при таких подсчетах извлечение корня по крайней мере не повредит.) I960 Э ИЛЛ' приведены логарифмы населения 50 штатов США в как-то ’ данные в первоначальном виде — на илл. 4, Б гл. 2. Чтобы вание ДОСПРИНЯТЬ эти числа, конечно, было необходимо преобразо- ЛистьямиС°(^еНН0 ™ГЛЯдно они представлены в виде сжатого стебля с от несКрЛЛ‘ 17 П0Казан еще более крайний пример — число смертей ольких причин в 1964 г. (мы опустили графу «Все остальные
100 Глава 3 Иллюстрация 16 главы 3: население штатов Население 50 штатов в 1960 г. (первоначальные данные в десятках тысяч, как на илл. 4, Б гл. 2) А) ЛОГАРИФМЫ (ед =0,01) (для хранения) Б) То же в СЖАТОМ ВИДЕ (ед.=0 п (для просмотра) ’ ' 1 13* 14 6 6 1 1* Я 3 Аляска 4 15 29 4 ч 455 Б 16 5 6 ш 67 6 17* 9 15 1- 888888999 12 18 003338 17 2* 11 Ариз., Небр, 15 19 589 А 22223333 20 25 ч 444445555 17 21* 15 16 ш 666666677 21 22 4557 _ 7 2- 899 2^ 23 4478 I4 3* 00 Илл., Пенс. •У 25 24 04589 2 п 22 Калиф., Н.-Й 20 25* 1135 16 26 0004679 9 27 18 7 28 9 6 29* 89 4 30 05 31 2 32 02 33* В) РАЗЛИЧНЫЕ СВОДКИ для НАСЕЛЕНИЯ 50 ШТАТОВ в миллионах [ | log от дес, тысяч j | leg от сетей М25п 2.5 С13 2.6 1 8.6 2.5 0.89 4.3 0.23 17 2.39 3.4 2.29п 2.29 2.39 1.95 2.64 1.36 3.22 4.39 .69 4.29 п 4.29 4.39 3.95 4.64 3.36 5-22 .69 Г) УПРАЖНЕНИЯ 16а) Обработайте по образцу п. А и Б данные о населении тех же 50 штатов в 1970 г. Сохранился ли разрыв между большими и малыми значениями численности населения? 166) Обработайте по образцу п. А и Б величины log (население 1970 г.) — log (население 1960 г,). Сравните результаты со значениями для этих лет в отдельности. 16в) Возьмите данные еще более ранних переписей и продолжите сравнение. Д) ИСТОЧНИК: The World Almanac, 1966, с, 325 (их источник: Бюро переписей США).
Простые преобразования 101 Иллюстрация 17 главы 3: классификация смертных случаев по их причине Смерти от 59 причин в 1964 г. (общее число 1 798 051, за исключением «все остальные болезни 54 000») А) МАЛЫЕ ПОДСЧЕТЫ Первоначальны* данные Логарифмы Причины 17 1,23 Полиомиелит 42 1,62 Дифтерия 93 1,97 Коклюш (КЛ) 95 1,98 Скарлатина и фарингит (скарлфар) Б) ПЕРВОНАЧАЛЬНЫЕ ЗНАЧЕ- В) ЛОГАРИФМЫ (ед =0 1) НИЯ (в сотнях) ’ ’ 0* 1* 7,3,8,4,2 7,8,3,1 7 Полиомиелит 2 6,5 ч 3 5,8 д 3 Дифтерии 4 9,4,6,4 -о* 00 КЛ., скарлфар Б* 9,4 0* 6 5 д 3 Аборт 7 6 ч 4 Дизентерия 8 2 ш 6 Корь 9* 9,9,8 • 89 1* 01 1** 35,35,67,59,22,11,10 д 22 2 62,77,57,34,32,03,52,53,06 ч 4455 3 28,23,72,07 W 666677 4 92,00,69- > 8899 Б*» 32,74,78,69 2* 00000011 д 23333' 0*** 932, ч 444444555 1*** 982, ш 6667777 2 3 - 9» 3* 4*** 454, д з’> ч Ш 7» 1) Названия см, в тексте. -I
102 Глава 3 Иллюстрация 17 (продолжение) Г) КОРНИ подсчетов 'округлено отбрасыванием лишних цифр) о** д ч ш 1* д ч ш' 2* М 001111 22233 4455Б 6666777 889999 00111 22 445Б 666667 889 01 23 444 Д) УПРАЖНЕНИЯ 17а) Соберите по образцу п. Б аналогичные данные о смертях в 1969 г. 176) Обработайте их по образцу п. В. 17в) Сделайте то же по образцу п. Г. 17г) Вычислите изменения логарифмов с 1964 по 1969 г. и запишите их в форме стебля с ли- стьями. 17д) Сделайте то же для квадратных корней. 17е) Прокомментируйте результаты 17г и 17д. Е) ИСТОЧНИК: The World Almanac, 1966, с. 299 (их источник: National Center for Health Statistics). 3* R Ч ш Iй ш 4* д ч Б” 0** 70 l) Названия см. в тексте. болезни»). Побуждение выбрать именно данные причины возникло, по-видимому, из странной смеси всеобщего интереса (острый полио- миелит), легкости диагноза (транспортные происшествия) и важности болезни (кардиосклероз). И здесь мы составили стебли для первона- чальных значений и для их логарифмов. На илл. 17, А приведены некоторые дополнительные сведения об очень малых значениях. Первое отчетливое представление об этих данных мы получаем из сжатого стебля для логарифмов (илл. 17, В). Мы здесь видим следую- щее: О явную вытянутость по направлению к меньшим значениям; <> слабую вытянутость по направлению к большим значениям; О даже если эти крайние значения убрать, останется заметная асимметрия, так как меньшие значения растянуты сильнее.
Простые преобразования ЮЗ ;таже без учета крайних значений стоит попробовать преобра- вание к квадратным корням. Это сделано на илл. 17, Г. Оказы- Зяется, что и в сжатой форме у нас не получается отчетливой картины Сех значений как единой выборки Теперь еще более заметна отор- ванность от основной массы трех наивысших значений — «злокачест- венные новообразования органов пищеварения и перитонит», «спазмы сосудов, поражающие центральную нервную систему» и «кардиоскле- роз». Таким образом, мы приходим к выводу, что данный список причин смерти включает: <0 ряд необычно малых подсчетов (по сравнению с остальными), связанных главным образом с инфекционными болезнями; О основную массу средних по размеру подсчетов; О три необычно больших подсчета. Преобразование подсчетов позволило нам кое-что узнать даже из этих малообещающих данных. ОБЗОРНЫЕ ВОПРОСЫ Следует ли сомневаться в полезности преобразования подсчетов? Какие преобразования здесь чаще всего применяются? Что мы узнали относительно причин смерти? Какую помощь оказало нам преобра- зование? ЗЖ. СООТНОШЕНИЕ МЕЖДУ СТЕПЕНЯМИ И ЛОГАРИФМАМИ (ФАКУЛЬТАТИВНО) Мы уже говорили, что логарифмы и квадратные корни, видимо, полезнее любых других видов преобразования. На примере высот вулканов мы видели, что квадратные корни попадают где-то посере- дине между первоначальными значениями и логарифмами. Для боль- шинства задач нам этого достаточно. Однако в качестве подготовки к будущему можно рассмотреть также и другие степени чисел и подробнее изучить место логарифмов среди различных степеней. Попытаемся разобраться в вопросе о преобразованиях вообще, не только в преобразовании, имеющем целью более наглядное пред- ставление стеблей. Мы должны будем рассуждать о довольно общих чт^ах’ а Это' наверное, будет означать, что нам придется высказывать то, что может показаться тривиальным. еложСЛИ ВСе значения в какой-то выборке наблюдений (или более постоя°Н СИстеме данных) умножить или разделить на одно и то же глазомНС^е число’ то это не отразится на легкости восприятия их перейти ^Де лЭТЬ ПОДобное изменение — это примерно то же самое, что °т футов к метрам или от киловатт к мегаваттам. Изменения
104 Глава 3 такого вида обычно рассматриваются как совершенно тривиальные как в отношении облегчения (или затруднения) нашего анализа, так и влияния на его конечные выводы. (Но нужно внимательно от- мечать все произведенные действия, чтобы после анализа можно было все восстановить.) Пожалуй, мы эти изменения так и назовем: тривиальные преобразования. Мы уже отмечали, что преобразования описываемого вида приме- няются главным образом к числам одного и того же знака. Если наши числа (или числа, которые могли бы у нас оказаться) одного и того же знака, то вероятно, что нуль будет как-то выделен. Для многих целей прибавление или вычитание одной и той же постоянной из каждого числа в выборке (или в какой-то более сложной системе данных) столь же тривиально, как и умножение или деление на одну и ту же постоянную. Самое важное исключение здесь следу- ющее: О если для первоначальных данных существует естественный нуль отсчета, то после прибавления или вычитания постоянной, что изменяет нуль, мы уже вряд ли будем возводить в степень или брать корень либо логарифм от новых чисел — если только мы не имеем дело с малыми подсчетами, когда замена отсчета «ни разу» на малое положительное число часто сопровождается взятием корня или ло- гарифма. Наверняка, самое простое, но важное изменение в способе, ко- торым что-нибудь выражено в числах,— это возведение первона- чальных чисел в одну и ту же простую степень. Но обычно в квадрат или в куб не возводят. Как мы отмечали, в силу распространенных методов измерений и записи чисел нам гораздо чаще приходится изме- нять числа в противоположном направлении, а именно вычисляя: О квадратные корни (степень 1/2), ф обратные величины (степень —1), () обратные величины от квадратных корней (степень —1/2). (Мы уже видели критические (межевые) таблицы для всех этих сте- пеней, кроме одной.) Расположив эти степени в порядке —1, —1/2, +1/2, +1 (где +1 относится к числам в первоначальном виде), мы сразу обна- руживаем очевидный пропуск. Что делать со степенью «нуль»? Наверное, всех нас учили, что все возведенное в нулевую степень становится равно 1. Наши учителя не ошибались, но это не значит, что нам нечем заполнить пропуск. Оказывается, что для наших целей преобразования наблюдений роль нулевой степени отлично исполняют логарифмы.
Простые преобразования 105 Иллюстрация 18 главы 3: степени и логарифмы «Форма» простых функций от х Выражения вида A+B-j(x), где А и В выбираются так, чтобы кривые касались ____________14-х в точке х=1. У концов кривых даны f (х), а А и В ясны из подписи прямо11 */ под кривыми. Из илл. 18 видно, как r/=consi 4gx точно заполняет место среди степеней. Заметьте, что для того, чтобы у увеличивалось с увеличе- нием х, отрицательные степени должны иметь перед собой отрицатель- ный знак. Главное здесь то, что подъем вверх по лестнице степеней (напри- мер, от х к х2 и затем к х3 или от —1/х2 к —1/х и затем к igx) соот- ветствует подчеркиванию разностей между большими х по сравнению с разностями между меньшими х. Наоборот, для выделения разностей между меньшими х нам нужно двигаться вниз — от х к Igx и 1/х. Преобразование данных обычно производят в более узком диа- пазоне степеней, чем тот, о котором мы сейчас говорили: от +1 до 1, а не от 4-3 до —3. Поведение кривых для этого более узкого диа- пазона показано на илл. 19, к которой применимы те же самые заме- чания. (Обратите внимание на преобразование оси абсцисс это Ь1Ло сделано для большей ясности.)
106 Глава 3 Иллюстрация 19 главы 3: степени и логарифмы Логарифмы и обычно употребляемые степени -1/J5 -1/х _J____I__I____I I_________I___I_____I____L 0,3 0,4 0,5 0,7 1 1,5 2. 3 4 БЫСТРОЕ ВЫЧИСЛЕНИЕ ОБРАТНЫХ ВЕЛИЧИН ОТ КОРНЕЙ Чтобы закончить набор межевых таблиц для нашей лестницы сте- пеней, нужно иметь таблицу для (отрицательных) обратных величин от квадратных корней. Такую таблицу можно было бы составить, но поскольку едва ли она будет часто нужна и поскольку вполне можно обойтись и без нее, используя последовательно две таблицы — одну для корней и другую для (отрицательных) обратных величин, то мы и не будем давать такую отдельную таблицу. БЫСТРОЕ ВЫЧИСЛЕНИЕ КВАДРАТОВ При «ручном» применении классических статистических методов таблицу квадратов чисел скоро запоминают почти наизусть. Можно также приспособиться применять в обратном направлении межевую таблицу для корней. (Читатель сам разберется, как это делать.)
Простые преобразования 107 ОБЗОРНЫЕ ВОПРОСЫ Какие преобразования считаются тривиальными? Всегда? Иногда? Какие простые степени редко используются для преобразования чи- к ? qeMy нас учили относительно степени 0? Были ли правы наши учителя? Усматриваете ли вы парадокс в том, что логарифмы играют tv роль, которую нулевые степени играть не могут? Что происходит, когда мы поднимаемся по лестнице степеней? Когда опускаемся? Как можно в случае необходимости достаточно быстро вычислять обратные величины от корней? ЗИ. ЧЕГО МЫ ДОСТИГЛИ? Данные можно вообще подразделить на следующие группы: О Количества и подсчеты. Если отношение наибольшего числа к наименьшему близко к единице, то преобразование ничего не из- менит. В противном случае оно, по-видимому, потребуется, и это обычно будут логарифмы, хотя иногда могут помочь корни или другие степени. 0 Отклонения. Здесь преобразования применяются не столь ча- сто — и обычно не после, а перед вычислением отклонений. (Логариф- мы любых данных могут принимать как положительные, так и отри- цательные значения.) О Доли подсчетов, проценты и отметки. Здесь преобразование нередко существенно необходимо, но подробное изложение соответ- ствующих методов будет дано через несколько глав. С помощью межевых таблиц облегчается и ускоряется преобразо- вание следующих видов: О во-первых, логарифмов, О во-вторых, квадратных корней, О в-третьих, (отрицательных) обратных величин О и даже (отрицательных) обратных квадратных корней, при условии что достаточно небольшого числа значащих цифр, как оно обычно и бывает. С наблюдениями числа каких-то событий (подсчетами), если только их не очень мало, обращаются так же, как и с количествами. Мы редко Рискуем что-нибудь потерять от перехода к корням и часто можем выиграть, если перейдем к логарифмам. Полезно считать, что логарифмы играют роль нулевой степени 'В ТЕМ’ что касается преобразований). Мы научились: Шим> Использовать межевые таблицы для преобразований с неболь- депя ЧИСЛОм знаков, но быть готовыми в случае необходимости пре- ть все сначала с большей точностью. нимать<СДВИГаТЬ>> подсчеты <и такие количества, которые могут при- ь нулевые значения), прибавляя к ним некоторое постоянное
108 Глава 3 число ПЕРЕД преобразованием. (Если все подсчеты большие, то вряд ли стоит это делать.) Если среди подсчетов есть нули и мы хотим переходить к логарифмам, то сдвигать необходимо. О Вычислять середины сводки и с большей надежностью судить об асимметрии по тенденции их изменения, чем по представлению значений в виде стебля с листьями. Мы рассматриваем теперь преобразование данных как орудие анализа, которое позволяет нам лучше воспринимать данные. В этой главе мы только положили начало. Восприятие совершается визу- ально, и улучшение его получается через усиление симметрии дан- ных. В дальнейшем мы узнаем, что преобразования могут быть по- лезны и во многих других отношениях. Мы начали осознавать, что наилучший или даже единственно возможный путь к анализу данных — хорошенько их «прочувство- вать», прежде чем приниматься за их развернутые графические пред- ставления или подробные вычисления. ЗК. ОСНОВНЫЕ СВЕДЕНИЯ О ЛОГАРИФМАХ Нам нужно уметь свободно использовать логарифмы как орудие анализа. Напомним некоторые факты, которые облегчат их исполь- зование и приведены здесь для справок. 1. Для логарифмов существуют таблицы 2. Логарифмы могут быть «по» различным основаниям, но они отличаются лишь постоянными множителями. Поэтому для анализа наблюдений все основания почти (обычно точно) одинаково пригодны. 3. Логарифмы по основанию 10 мы будем обозначать 1g, чтобы из- бежать путаницы (а позднее используем обозначение loge или In для логарифмов по основанию е). 4. Логарифм единицы равен нулю. 5. Логарифм нуля не определяется. 6. Логарифм отрицательного числа определить можно, но он не будет вещественным числом. (Мы не будем пытаться использовать логарифмы отрицательных чисел или нуля, хотя иногда вместо них мы можем писать «М», что будет обозначать: «рассматривать как меньшее, чем любое число».) 7. Логарифм произведения равен сумме логарифмов сомножителей; log (u-v- w)=logu+logt)+log&. 8. Логарифм отношения равен разности логарифмов числителя и знаменателя: log (s//)=logs—log/. 9. Логарифм числа 10 по основанию 10 равен единице (и далее: lgl00=2, lgl000=3, lg0,l=—1, lg0,01=—2, lg0,001=—3 и т. д.)- ЗЛ. ДОПОЛНИТЕЛЬНЫЕ УПРАЖНЕНИЯ См. илл. 20—22.
Простые преобразования 109 Иллюстрация 20 главы 3: данные и упражнения д. Объем перевозок (в тоннах) из портов шт. Мэн в Ки-Уэст в 1964 г. б) Крупнейшие озера в каждом штате США д) ТОННАЖ (округлено до 1000 т Б) ПЛОЩАДИ в КВ. МИЛЯХ 8* 4 9 Ньюпорт, Рокленд. 0* 0ЧЯ4,4,4,5,6,7,7,7,8,8 9* 6' Кембридж (Мэриленд) 1* 1,5 2 0,5,9 1** 63,65,68,71,78 3 1,1,8 2 86 4 7 3 18,63,64,71,87 5* 1,5,8,9 4 33,58 6 0,3 5** 66 7 2,6,8 6 24 8 0 7 9* 4 8 14,70 9** 09, 1** 05,08,11,11,17 23,33,36,37,40 1*** 127,207,249,358 1-« 49,57,60,88,92 1" 460,771,826 2** 15,47,52 2*** 127,223,349,397,699 3 60,82 3 162,717 4 30,51 4 158,643,992 5** 5*** 107 6 09,30 6 * 7 00 Окичоби 7 161 8 192,937 1*** оззЯбоо2’ 9*** 232 о**** 9910 Эри 2206,3206,5206 1 • 1 ••• 7622,7841,8830 2 2400 Мичиган 2***+ 3 0011 Бостон 3»*** 1800 Верхнее 4**** 3949’’,7042”,8220” 0***** 1 49151 .Нью-Йорк ) Норфолк, Филадельфия, Балтимор 2) 0,31 Кэндлвуд в шт. Коннектикут 0,66 Колоа (Гавайи) 1033 Илиамна на Аляске в) УПРАЖНЕНИЯ 1500 Большое Соленое озеро в шт. Юта zuaJ В п д Каклр ЛаН тоннаж грузов, перевезенных в 1964 г. из портов шт. Мэн в Ки-Уэст, с листг.^аПРа^ивается преобразование? 20б) в п кЬями' Прокомментируйте. Составьте соответствующий стебель преобпячло площадь крупнейшего озера в каждом’штате. Какое напрашивается тиРУЙте доставьте соответствующим стебель с листьями. ) ИСТОЧНИК: The World Almanac, 1966: (А) с, 766, (Б) с. 285. Прокоммей-
по Глава 3 Иллюстрация 21 главы 3: данные и упражнения А) Площади 4 океанов и 21 моря (в том числе «Малайских морей» ). Б) Длины «важных» рек США (некоторые из них с несколькими названиями) А) ПЛОЩАДИ в тысячах кв. миль Б) ДЛИНЫ в милях .1* 2 3 3 Бассов пропив 4 5* 6 31J,91; 7 8 9* сч 1** 63,69,78,80 2 22 3 08,89 4 76,82 5** 90,96 6 • 7 ,8 76 9** 67 4*** 063,146,998 2*** 1 о**«* 5440 Сев. Ледовитый 1 • 2 8356 Индийский 3 1839 Атлантический 4 • 6 3802 тихий 1** 1 •• 2** 2- 2" 3*+ 3” 3- 4** 4.. 5** 6. 7 8 9** 1*»* 1... 2*** 3 10,28,10,00,31,00,12 37,44,40,40,48,50,64,60,64 71,78,83,75,69,85,90 02,30,10,17,33,10,15,37,46,50 65,60,59,60,55,50,50,73,68 82,90,86,80,92,91,81,80,87,76 15,25,27,06,00,32,10,00,14,01 30,29,36,40,38,50,52,50,50,50 60,60,60,92,75,80,80,82 07,09,20,24,25,31,35,44,48 50,60,75 20,00,05,38,40,45,50,50,60 00,05,18,25,30,52,87,90 10,30,35,60 40,60,62,70,90 06,81 018,038,171,214,306,360 450,450,8852> 3152),3482,15532' 710 х) 63 Калифорнийский залив 69 Ла-Манш и Ирландское море 92 Залив Св. Лаврентия 92 Персидский залив 2) 1450 Арканзас 1450 Колорадо (в Техасе) 1885 Рио-Гранде 2315 Миссури 2348 Миссисипи 2533 Миссури — Редрок 3710 Миссисипи — Миссури —- Редрок В) УПРАЖНЕНИЯ 21а) В п. А даны площади 4 океанов вание? Составьте соответствующий стебель с листьями.’ Прокомментируй1®^ 216) В п. Б даны длины «важных» рек США. Какое напрашивается преобразова! Составьте соответствующий стебель с листьями. Г) ИСТОЧНИКИ: The World Almanac, 1966: (А) с. 275, (Б) с, 266—267. и 21 мооя. Какое напоашивается преобра30"
Простые преобразования 111 Иллюстрация 22 главы 3: наблюдения и упражнения А) Высоты «знаменитых» водопадов (в качестве водопада здесь могут фигурировать как самый высокий из каскадов, так и сумма всех каскадов). В) Объем водохранилищ для крупнейших плотин мира А) ВЫСОТА в футах Б) ОБЪЕМ в 1000 акрофутов («1 200 000 м3) о** о-- 1»* 1- 1 • 1- 2** 2- 2- 3** 3- 3- 4** А-- 5** 5- 6 7 8 9** 1*** 1 — 1 — 1 •• 2*** 3 40 54,65,66,68, 70,70,75,90,96,98 01,09,15,20,25,25 30,30,30,32,40,44, 50,51,65,68,86 93,95,98 00,07,07,13,14,18 20,30,40,45,51,51 56,66,70,75,68 00,00,08,11,15,17 20,30,30,35,44,45 55,60,70,70,94,94 00,00,06,27 50,59,59,70 00,05,08/18,25 40,42,90,94,97 00,20,26,30,40,50,56 00,26,41 20,30,48,80,89,90 74,84,84 000,100,170,218,250,312 312,312,325,3^0,385 430,535,600,612 640,650,696,904 000,425,600,648 110n,212!' 1,3110 Тугела (5 каскадов) зги Эйнджел 0* 1* 2 3 4 5* 0** 1** 1-‘ 2 3 4 5** о*** 2*** 2-- 3*** 4 5*** 6 7 8 9*** 1.,., 2 3 4 5**** 8 Шпайхери 2 Курнера 1 Цойцир 4 Алле Г ера 61,70,70,81,81 14,37,39,46,48 52,61,86,95 19,65 24 87 49 600,602,746,756,930 261,325,375,405,586,709 000,030,030,092,095 106,367,446,717 024,453,468,484,648,789 413,493,500,500 100,550,600 055,060 000,000,512 171,402,730,890 0945,2940,4755 9715,9000,9400 3600,4500,4800,7000,7160 1618,2471 7020 Куйбышев о***** <1***** 22а) Вв УПРАЖНЕНИЯ он зованнр?Дагы высоты «Знаменитых» водопа 22б) В п. Б п Составьте соответствующий стеб пРеобпачпоо1 o6J,e^bI водохранилищ крупн ТиРУйте ание’> Составьте соответствую!!! ИСТОЧНИК: The World Almanac, 1966: 62000 гора Портах 15000г!27281г,,45115ч 2)115000 Маникуаган 127281 Саду-Эль-Аали (Верхи. Асуан) 145115 Братск дов. Какое напрашивается преобра* ель с листьями. Прокомментируйте, гйших плотин. Какое напрашивается ий стебель с листьями. Прокоммен- (А) с. 286, (Б) с. 260,
ЭФФЕКТИВНОЕ СРАВНЕНИЕ, ВКЛЮЧАЯ ВЫБОР ПРЕОБРАЗОВАНИЯ УКАЗАТЕЛЬ К ГЛАВЕ 4 Обзорные вопросы 113 4А. Другие способы изображения сводок 113 Обзорные вопросы 116 4 Б. Сравнение нескольких выборок (продолжение) 116 Обзорные вопросы 118 4В. Более подробный пример 119 Сокращенный подход 123 Обзорные вопросы 124 4Г. Смысл сравнения 124 Обзорные вопросы 125 4Д. Поправки грубые и точные 125 Грубые поправки 125 Точные поправки 125 Обзорные вопросы 127 4Е. Остатки 127 Обзорные вопросы 129 4.Ж Чего мы достигли? 129 4 И. Дополнительные упражнения ; 130 Рассматривая выборки данных, мы уже обращали внимание на две причины, по которым преобразованию одного вида отдается пред* почтение перед другим: О симметричность рассеяния значений внутри каждой отдельной выборки; О согласие в степени рассеяния от выборки к выборке. Но это все не самое главное. Симметричность рассеяния сама по себе, пожалуй, еще «почти ничего». Однако, к счастью, эти два соображения редко вступают в коН' фликт. Выбор, который хорош для одного из этих соображении» большей частью бывает хорош и для другого. Согласие по рассеянию гораздо важнее и заслуживает назваНй «дела средней важности». На самом деле в ситуациях, когда вступают в игру более важн*’1 соображения, то, что подходит по упомянутым маловажным пр1,41
Эффективное сравнение 113 оказывается большей частью вполне подходящим и по этим более Нажным соображениям. Имеются исключения, и тогда более важным В3 боажениям придется отдать предпочтение, но примеры такого типа С°лки Выбор определенного преобразования нечасто возникает в Р оуЛьтате компромисса между противоположными соображениями. Гооаздо чаще требуется лишь сделать действительный выбор на ос- нове доводов, предлагаемых самими данными в пользу различных преобразовании. Из самих данных обычно бывает трудно извлечь точные указания на то, как их следует анализировать. При особо тщательном выборе методов анализа приходится полагаться на опыт работы с другими группами данных аналогичного содержания. Преобразование наблюдений — лишь один из этих методов. Сказанное не означает, что нельзя улучшить анализ наблюдений, используя преобразования, основанные на самих данных; часто такие преобразования дают гораздо лучший результат, чем анализ перво- начальных данных или выбор преобразования независимо от данных. «Главное» нам встретится, только когда мы будем анализировать более сложные системы данных, где больше «рычагов» для работы. ОБЗОРНЫЕ ВОПРОСЫ Какими двумя соображениями руководствуются при выборе пре- образования? Какова их важность? Не противоречат ли они друг- другу или главным соображениям, которых мы еще не знаем? Можно ли в большинстве случаев сказать по самим данным, как их следует анализировать? 4А. ДРУГИЕ СПОСОБЫ ИЗОБРАЖЕНИЯ СВОДОК Предположим, что мы знаем, как нужно анализировать наши Данные и какие сводки мы хотим представить. Однако всегда остается еще вопрос о форме представления. Тут есть возможность выбора, и способов этих больше, чем мы можем сначала предполагать. Простой и удобный пример для иллюстрации сказанного представ- ляют данные о выпадении осадков (в том числе снега в пересчете на Дождь) в городе Нью-Йорке На илл. 1 представлены наблюдения за первые шесть лет каждого из семи десятилетий. На илл. 2 показаны четыре способа представления данных в более или менее сжатом виде: О в виде стебля с листьями; v в виде медиан (без украшений); V в виде более выразительно графически показанных медиан 1«полуграфические» медианы); Пг, в В11де схематических диаграмм, несколько измененных для выделения медиан.
114 Глава 4 Иллюстрация 1 главы 4: осадки в Нью-Йорке Осадки1) в Нью-Йорке (округлено до целых дюймов) в годы, оканчивающиеся на 0, 1, 2, 3, 4, 5 А) НАБЛЮДЕНИЯ 189- ISO- 191- 192- 193- 194- 195- -0 52 42 36 49 35 45 45 -1 41 47 40 34 36 36 47 -2 39 47 38 43 39 50 46 -3 53 49 44 37 50 40 38 -4 44 42 34 38 45 52 43 -5 36 44 41 37 33 46 41 Медиана 42п 45п 39 37п 37п 45п 44 х) Дождь плюс дождевой эквивалент снега, ' Б) УПРАЖНЕНИЕ 1а) Отыщите данные ча 1960—1965 гг. и используйте их для дополнения илл. 2 (ниже). В) ИСТОЧНИК: данные можно найти в разных источниках, в том числе в The World Almanac. Иллюстрация 2 главы 4: выпадение осадков в Нью-Йорке Сравнение четырех видов сводок для осадков в Нью-Йорке А) СРАВНЕНИЕ ПО ДЕСЯТИЛЕТИЯМ с помощью СТЕБЛЕЙ (ед.= 1 дюйм) 1890-95 1900-05 1910-15 1920-25 1930-35 1940-45 1950-55 5- 6* 23 0 02 4- 779 9 5 56 567 4» 14 224 014 3 0 13 3- 69 68 778 569 6 8 3* 4 4 3 Б) МЕДИАНЫ (без «украшений») 42.5 45.5 39.0 37.5 37.5 45.5 44.0 В) ПОЛУ ГРАФИЧЕСКИЕ МЕДИАНЫ 44:45 45 л 45 л 44 42:43 42п 40:41 38:39 39 36:37 37л 37п
Эффективное сравнение 115 Г) Иллюстрация 2 (продолжение) СХЕМАТИЧЕСКИЕ ДИАГРАММЫ, измененные для выделения медиан 30 1890-35 1900-05 1910~15 1920-25 1930-35 1940'45 1950-5S Д) УПРАЖНЕНИЕ 2а) Сделайте таблицу по образцу илл. 2, В, показав значения сгибов (обычным шриф- том) и медиан (жирным) и опуская сгибы, если они перекрываются. Нравится ли вам результат? Сравните его по эффективности с илл. 2, В. Все четыре способа говорят об одном и том же: О в 1890, 1900, 1940 и 1950-х годах наблюдались типичные по- вышенные значения годовых осадков, около 44 дюйм; О в трех промежуточных десятилетиях — типичные пониженные значения, около 38 дюйм. Отсюда легко сделать вывод — период времени с 1910 до 1935 г., по-видимому, является периодом пониженного количества осадков. Вопрос о том, следует ли рассматривать этот факт как результат случайного стечения обстоятельств, относится к подтверждающему анализу. На этот вопрос мы не собирались отвечать, поэтому и здесь мы его оставим в стороне. Однако на него следует обратить внимание (так как то, что случилось однажды, может повториться) — этот период пониженных осадков вполне мог бы послужить предупреж- дением о необходимости подготовки к «засухе» 1960-х годов. Нас здесь интересует то, что в описанном примере с помощью любого из этих представлений данных мы обнаруживаем новый факт, и, следо- ательно, в других случаях мы также можем с их помощью обнаружить «овые факты. Какова сравнительная ценность этих способов? Мнения здесь могут Р сходиться, да это и понятно. Если на илл. 2 сравнить стебель А
116 Глава 4 со схематической диаграммой Г, то лично мне было бы трудно пред- почесть то или другое. (Если бы в каждой выборке было по 600 зна- чений, а не по 6, тогда почти наверняка мы предпочли бы схематиче- скую диаграмму.) Легче сравнить между собой два других способа (Б и В), в которых вся информация о каждой выборке сведена к одному, единственному числу — медиане. Добавление нескольких лишних строк для поли графического изображения медиан с первого же взгляда показывает все заслуживающее внимания, и тем не менее в п. В со- хранены все подробности п. Б. Полуграфические представления сле- дует использовать при малейшей возможности. Труднее сравнивать одну пару представлений данных на илл. 2 с другой. Иногда нам требуются дополнительные подробности отно- сительно рассеяния выборок, а иногда это начинает мешать. Тогда приходится руководствоваться тем, что мы знаем или предполагаем о потребителях результатов нашего анализа — все равно, является ли этим потребителем кто-то другой или мы сами. ОБЗОРНЫЕ ВОПРОСЫ О каких четырех способах представления данных мы говорили? О чем рассказывает каждый из них? На какие две пары можно их разделить? Сравните два способа в каждой паре и обе пары между собой. 4Б. СРАВНЕНИЕ НЕСКОЛЬКИХ ВЫБОРОК (ПРОДОЛЖЕНИЕ) Когда рассмотрение одних лишь медиан оказывается недостаточ- ным, следует взглянуть на схематические сводки, возможно в форме схематических диаграмм. Мы хотели бы, чтобы сводка как можно более ясно и просто рассказала нам о поведении данных. Этому будут способствовать симметричность рассеяния внутри выборок и особенно одинаковая степень рассеяния значений от одной выборки к другой. На илл. 3 даны (цифрами) сводки трех выборок из исследования Уинсора и Кларка (1940) о вылове планктона сетями различного, вида. В пп. Б, В и Г сравниваются данные в первоначальном виде, их корни и логарифмы. С точки зрения симметрии (при поисках се- редин, которые не уходили бы в сторону, когда мы идем от центра выборки к краям) и с точки зрения согласованности рассеяний (при поисках величин рассеяния — ширин, которые были бы одинаковыми для разных выборок) мы приходим к одним и тем же выводам: О значения в первоначальном виде не годятся; О трудно сделать выбор между корнями и логарифмами, и нам хотелось бы найти какой-то компромисс. На илл. 4 схематические диаграммы показаны графически. Самая левая, составленная из данных в первоначальном виде, почти беспо- лезна как совокупность схематических диаграмм — мы вряд ли уви-
Эффективное сравнение 117 больше того, что увидели бы, если нанесены были бы одни дим здесь схематической диаграмме для I вида трудно что-либо медианЫ- из.за его малых размеров, а диаграмма для III вида полу- разгл«Де большой, что незаслуженно привлекает к себе слишком чилась с имания Любая из двух других диаграмм дает примерно мн°г° же информацию, производит примерно одинаковое впечат- одну и ^льЗЯ сказать, что одна из них явно лучше другой. Можно Л!1Лять что каждая из них годится. СК Не нужно проделывать вычисления для всех трех случаев, чтобы бнапужить, какая или какие две диаграммы будут удовлетворитель- °01 и На илл. 3, Д вводится способ, которым можно узнать довольно НЫМго затратив гораздо меньше труда. Если мы посмотрим на соот- Мошен’ие между медианой и С-шириной (а также, в достаточно больших выборках, между медианой и В-шириной и т. д.), то сможем грубо оценить, какое преобразование в данном случае окажется более полезным. Это легче сделать, используя логарифмы. Поэтому на илл. 3, Д сначала даны логарифмы медианы и С-ши- рины для каждой из выборок, а затем — разности этих логарифмов от одной выборки к другой. Как показывают значения отношений, разность логарифмов С-ширины заметно больше, чем 1/2 (но заметно меньше, чем 1) от разности логарифмов медианы. Иллюстрация 3 главы 4: уловы планктона Оцененное число уловов планктона трех видов (по шесть забросов каждой из двух сетей) А) ОЦЕНЕННЫЕ ПОДСЧЕТЫ I вид: 387, 428, 470, 497, 537 , 540, 620 , 760, 845, 895, 1020, 1050 IV вид: 6060, 7600, 7900, 8260, 8600, 8900, 9250, 9830, 10200, 11000 15500. III вид: 189, 223, 278, 281, 288, 290, 314 . 328, 328. 346, 395, 433 (Х100). Б) ПОДСЧЕТЫ В ПЕРВОНАЧАЛЬНОМ ВИДЕ — сводки (округленные)- в тех же единицах Вид IV Вид I Мбп СЗп 1 580 580 677 718 484 870 387 1050 386 9075 9075 10 780|б060 15 500 9048 8080 10 015 1935 Вид III 302** 308** 311** 302** 280** 337** 189** 433** 57*11 М к 1, С 11Рина быстро возрастает слева направо; середины возрастают от В) КОРНИ — сводки (округленные) в тех же единицах Ширина Вид I Мбп сз„| 24 24 26 22 29п 7п 26 20 32 Вид IV Вид III 96 96 172 172 95 90 100 10 176 168 184 16 101 78 124 172 136 208 возрастает слева направо; середины слегка возрастают от М к 1.
118 Глава 4 Эффективное сравнение 119 Иллюстрация 3 (продолжение) F) ЛОГАРИФМЫ ПОДСЧЕТОВ — сводки в сотых долях (округлено) Вид! Вид IV Вид III Мбп 276 276 396 396 448 448 СЗп 281 268 294 26 396 391 400 9 449 445 453 8 1 280 259 302 398 378 419 446 428 464 G-ширина уменьшается не очень быстро слева направо; середины почти нейтральны Д) КАКОЕ ПРЕОБРАЗОВАНИЕ УРАВНИВАЕТ ЗНАЧЕНИЕ ШИРИНЫ? Вид I IV III log М 2,76 3,96 4,48 log (С-шир.) 2,59 3,29 3,76 Разность Отношение III-I 1,72 1,17 0,7 IV-I 1,20 0,70 0,6 III—IV 0,52 0,47 0,9 Отношение колеблется между 0,5 и 1,0; поэтому надо обратиться к корням и логарифмам. Е) УПРАЖНЕНИЯ За) Дополните п. Б восьмыми и серединами восьмых. Изменятся ли выводы? 36) Добавьте к п. В В-ширину. Изменятся ли выводы? Зв) Добавьте к п. Г логарифм В-ширины и соответствующие разности и отношения. Изменятся ли выводы? Зг) Придумайте несколько рядов данных, преобразование которых к логарифмам сделает значения ширины приблизительно одинаковыми. Проделайте вычисле- ния по образцу п. Г. Получились ли отношения такими, как вы ожидали? Зд) Придумайте несколько выборок, преобразование которых к корням сделает значения ширины приблизительно одинаковыми. Проделайте то же самое. Ж) ИСТОЧНИК: Winsor С. Р., Clarke G. L. Journal of Marine Research (Sears Foundation), 3, 1, 1940. Также использовано в кн.: Snedecor G. W. Statistical Methods, 4-е изд., 1946 (c. 451). Если бы эти отношения были близки к 1/2, то можно было бы считать целесообразным применение корней, а если к 1, то логариф* мов. Но поскольку они ни то ни се, находятся где-то в середине, можно ожидать, что пользу, хотя и не максимально возможную, принесе использование любого из этих преобразований. ОБЗОРНЫЕ ВОПРОСЫ Чего мы требуем от схематических диаграмм и почему? В каК°^ месте илл. 3 мы можем найти, насколько хорошо удовлетворены на требования? Можно ли из илл. 4 понять то же самое относитель рассматриваемых здесь данных? Как по результатам анализа од вида преобразования понять, какое преобразование будет са^ полезным? Иллюстрация 4 главы 4: улов планктона С ематические логарифмы для данных из илл. 3 соответственно Lx первоначальным значениям и двум преобразованиям Подсчеты (тыс.) 40 “ 20 Подсчеты (корни) о I I -т- 200 - । 1 100 Подсчеты (логарифмы) ° 4 О \n)>»»»UW»Nm)»nff 0 777777777777777777777777777777) 'I JZ JU I JZ ш. 4В. БОЛЕЕ ПОДРОБНЫЙ ПРИМЕР В 1950 г. Брунер, Постмен и Мостеллер опубликовали подробные- данные о результатах одного простого эксперимента, когда испытуемые должны были смотреть на плоскую (необъемную) картину — лест- ницу Шредера,— которую легко увидеть в перспективе в двух видах. Им были даны различные инструкции относительно обращения с перспективой, и затем подсчитывалось число изменений перспективы, в течение каждой из 10 последующих минут для каждой инструкции, тобы уменьшить искажающее влияние «начальных» эффектов, ре- вь'бЬТаТЫ пеРвых ДВУХ минут не учитывались. Всего получилось 19 сче °Р°К ^П° одн°й на каждого испытуемого), содержащих по 8 под- топ в каждой для различных инструкций. меди пеРвых столбцах всех трех видов данных на илл. 5 приведены °бзорНЫ М и сгиб“ С для каждой из 19 выборок. Чтобы облегчить цЛЛ1о„И нанесение на график, мы расположили испытуемых (строки в в |,0Рядке возрастания медиан. Далее идут столбцы с иди в 'Шириной и log (С-шир ). Логарифмы изображены на графиках g и имеют отчетливую тенденцию к подъему. На этоти мы интересуемся быстротой подъема, то легче всего ответить и наложВОПРОС’ выбРав какие-то «типичные» точки у каждого конца п°лучИлИВ На РисУнок прозрачный угольник или линейку так, чтобы ась прямая через облако точек. На верхнем графике илл. 6
120 Глава 4 Эффективное сравнение 121 естественно взять две крайние точки слева внизу и одну крайнюю справа вверху. В нижней части илл. 5, А вычислен наклон двух лучившихся прямых: 134 —48 _ 86 „ 134 — 30 104 . . 216—108 108“U,° И 216-122“ 94 ~1’1- Ясно, что коэффициент наклона равен примерно единице. Если при. веденный простой способ удовлетворителен, то следует ожидать, что логарифмы являются как раз таким преобразованием, которое удержит С-ширину на постоянном уровне. В последующих столбцах илл. 5 показаны вычисления сгибов С-ширины и логарифмов от С-ширины для квадратных корней и логарифмов. Результаты показаны на среднем и нижнем графика:; илл. 6. Для корней наклон стал меньше, а для логарифмов им уже можно пренебречь. Иллюстрация б главы 4: лестница Шредера Вычисления для смен перспективы (все логарифмы — в ед. 0,01) А) ОСНОВНЫЕ ВЫЧИСЛЕНИЯ для ПЕРВОНАЧАЛЬНЫХ ЗНАЧЕНИЙ и ДВУХ ПРЕОБРАЗОВАНИЙ | Пераонач. подсчеты | (MJ | log М | ICJ icj [ С-ширина | перво- . . | нач. | | log | 2 12 108 11 14 3 48 (*) э 16п 122 16 18 2 30 13 22 134 21 23 2 30 19 22 134 20 22 2 30 12 28 145 22 48 26 142 4 29п 147 24 32 8 90 16 33 п 152 32 35 3 48 15 34 153 33 36 3 48 11 34 153 30 38 8 90 6 36 156 30 41 11 104 3 36 л 156 34 38 4 60 18 36 п 156 34 44 10 100 5 38 п 159 37 41 4 60 14 44 164 43 48 5 70 7 45 165 42 46 4 60 8 64 181 54 67 13 111 1 74п 187 64 98 34 153 10 92 196 86 95 9 95 (*) 17 144 л 216 132 1&4 22 134 17-2 разности 17 — 9 (отношения) (17 — 2) (наклоны) (17 - 9) 108 94 19 20 86 104 (0.8) (1.1) Иллюстрация 5 (продолжение) L__ Корни подсчетов Логарифмы подсчетов | | С-ширина j I С-ширина I 1£J L21 перво- | нач. [ I log I icj L£j итерво- 1 Нач. | I log | 33 37 4 60 104 115 11 104 40 42 2 30 120 126 6 78 46 48 2 30 132 136 4 60 45 47 2 30 130 134 4 60 47 69 22 134- 134 168 34 153 49 57 8 90 138 151 13 111 67 59 2 30 151 154 3 48 67 60 3 48 152 156 4 60 65 62 7 85 148 158 10 100 65 64 9 95 148 161 13 111 68 62 4 60 153 158 5 70 68 66 8 90 153 184 11 104 61 64 3 48 157 161 4 60 66 69 3 48 163 168 5 70 65 68 3 48 162 166 4 60 74 82 8 90 173‘ 183 10 100 SO 99 19 128 181 200 19 128 93 •98 5 70 193 198 5 70 115 124 9 95 212 219 7 85 6 35 -4 -19 7 65 +1 7 (.3) (-.2) (.7) (•!> б Б) УПРАЖНЕНИЯ Э) вд“л7ноУрРиапФ₽?Ки’ШИрИНУ В зависи«°Л™ от медиан (все для значений в пер- лака точек ш Име^ся ли наклон? Какие точки около каждого конца об- 5б) Сделай°ЧеК ВЫ вы^Рали бы в качестве «типичных))? 5в) Сделай-^ Т0 Же самое для С-ширины по корням подсчетов, 5г) Спвавьт6 Т° Же для С"ШИРИНЬ1 по логарифмам подсчетов. ним 8 мивЬ пПп° °₽игинальной статье и примените аналогичный анализ к послед- 5д) Сделяй-г ДЛЯ <<естественнои» инструкции. 5е) Возьмите Т° >К£ аЛЯ «Удерживающей» инструкции. ЛогарифмоЛвОГм₽Р±“ ОТ медиан коРней и нанесите на график в зависимости от 5%) °ð °ЖиДать?Д первоначальных значений Что вы видите? Можно ли было висиЬгХтаЛтГапРеИфМЬ1л,°Т медиан логарифмов отсчетов и нанесите на график в за- ДИте? Можно °гари(Рмов и медиан от первоначальных наблюдений. Что вы ви- °и) Учитывя Н° Л быЛ0 ЭТ0Г0 0ЖИДать? Чт°-нибудь^ еслГиРеДЫДУЩИХ результата (5е- 5ж). как вы полагаете, изменится ли венно логяпмЖ» На сРеДнем и нижнем графиках илл. 6 использовать соответст- ЛогарифМОв X ,Хедиан к°Рнеи из подсчетов и логарифмы подсчетов вместо 5ю »?щего мнении „вдиан первоначальных подсчетов? Проверьте правильность Может ли э примере нижнего рисунка. Нет> то почеХ,э0Кс3аТЬСЯ существенным при некоторых обстоятельствах? Если емуг Если да, приведите пример.
Эффективное сравнение 123 122 Глава 4 Иллюстрация 5 (продолжение) 5л) Возьмите оригинальную статью Брунера, Поетмена и Мостеллера и применИт сокращенный подход (см. далее в тексте) к данным для «естественной» инстр# ции. 5м) Найдите интересные для вас данные примерно такого же объема и проведИТб аналогичный анализ. В) ИСТОЧНИК: Bruner J. С., Postman L., Mosteller F. A note on the measuremen. of perspective. Psychometrika, 15, 63—72, 1950 (табл. 1 на с. 65). чинам, которые выяснятся после выполнения упражнений П° н^не стали изменять горизонтальные масштабы на среднем и 5е-к, мы фиках илл. 6, а всюду использовали логарифм от медианы нижнем гр знаЧений. (Тогда легче сравнивать эти три графика; нервона £ такое большое достижение, поскольку мы сейчас на- но ЭТ°я обходиться всего одним рисунком.) СОКРАЩЕННЫЙ ПОДХОД Иллюстрация 6 главы 4: лестница Шредера Графики зависимости логарифма С-ширины от логарифма медианы для данных о смене перспективы log С-шир. J. О по первоначальным подсчетам log медианы 200 log С-шир. i. 100 SO 100 log D-iuup. 100 60 100 оо I 150 150 о no корням подсчетов log медианы 200 о по логарифмам подсчетов ! log медианы 200 При желании сократить вычисления до разумного минимума мы гли бы опустить большую часть илл. 5 и 6. Поскольку мы здесь имеем дело с подсчетами, следует ожидать, что нужно будет применить либо корни, либо логарифмы. Поэтому можно поступить следующим образом: О вычислить медиану и сгибы первоначальных данных; взять логарифм от медианы; (> вычислить сгибы корней; вычислить С-ширину для корней и логарифм от нее; О построить график зависимости логарифмов С-сгиба (для корней) от log/И (первоначальных данных); О выбрать типичные точки и найти отсюда коэффициенты на- клона; О используя одни лишь типичные точки, найти сгибы для других преобразований; вычислить значения С-ширины и взять от них лога- рифмы; О сравнить наклоны для логарифмов С-ширины в типичных точ- ках; О выбрать вид преобразования (в случае успеха оно окажется именно тем, с которого мы начали). В этом примере коэффициент наклона (относительно логарифма медианы первоначальных значений) при переходе со ступени на сту- ень лестницы преобразований падает почти на 1/2 (1,1 для первона- Ше^УЬ1Х значений: 0.7 для корней; 0,1 для логарифмов). Такое умень- е на 1/2 бывает очень часто. фикаТ\1етим также необычно высокое положение (на всех трех гра- к пев °ДНого непытуемого, у которого оказывается #12. Обращаясь ПеРспе°НаЧаЛЬНЫМ данным> мы видим, что десять подсчетов его смен ктивы были равны последовательно: 30, 22, 14, 22, 24, 32, 18, 48, 52, 53. Похоже Как нужцЧТ^ ЭТ0Т ИСПЬ1ТУемый после седьмой минуты вдруг понял, о быстро производить смену перспективы.
124 Глава 4 ОБЗОРНЫЕ ВОПРОСЫ Какие точки мы должны выделить на нашем первом графике ускорения вычислений? Как их использовать для определения коэл фициента наклона? Какое у нас было простое правило относительц наклона? Насколько хорошо оно сработало в данном примере? с ка ких преобразований следует начинать, если имеются данные в вида подсчетов? Был ли необычным кто-либо из 19 испытуемых в исследо- вании Брунера, Постмена и Мостеллера? В каком отношении? уД1^ вило ли вас это? Почему (или почему нет)? 4Г. СМЫСЛ СРАВНЕНИЯ Мы много говорили о сравнении, использовали много рисунков и чисел, но до сих пор не проанализировали как следует само понятие сравнения. Сейчас настало время это сделать. В обыденной речи постоянно встречаются два вида сравнений: «Билл на голову выше Джима», «Джордж весит вдвое больше своего брата Джека». В каждом из этих утверждений говорится, что нужно сделать с одним человеком, чтобы сравнять его с другим. Первое ут- верждение основано на знаке плюс и говорит, сколько нужно приба- вить к росту Джима, чтобы он стал равен росту Билла. Второе осно- вано па понятии «во сколько раз» и говорит, на что нужно умножить вес Джека, чтобы он стал равен весу Джорджа. Для многих целей сложение проще умножения. Упомянем лишь две: вычисления вручную и перемещение фигур как целого на гра- фиках. Столетня назад для сведения операции умножения к сложению изобрели логарифмы, чем намного облегчили ручные вычисления. Мы можем, будем и должны использовать их, чтобы избежать срав- нений путем умножения. Там, где, по всей видимости, не обойтись без умножения, применение логарифмов позволяет нам сравнивать по- средством сложения. Итак, когда мы думаем о сравнении, мы хотели бы думать о том. что следует прибавить (или отнять) к имеющимся данным (подходящи образом преобразованным для анализа), чтобы одно стало РавнЫ другому. Если данные первоначально или обычно выступают в ДРУГ° виде, мы будем стараться преобразовать их к нужному для нас вИДг Например, если почему-либо удобнее рассматривать вес мальчи как «вдвое больший» или «три четверти» один от другого, то мы стараемся производить анализ в логарифмах веса. Тогда, может оь мы обнаружим, что к соответствующему значению для Джека нУ прибавить 0,30, чтобы оно стало равным соответствующей величине Д^ Джорджа. После этого мы снова вернемся к первоначальным ^aHec0Jj и скажем, что вес Джека надо удвоить, чтобы сравнять его с Джорджа. Полезны обе формы выражения.
Эффективное сравнение 125 ОБЗОРНЫЕ ВОПРОСЫ Какие виды сравнений встречаются в обыл следует рассматривать такие сравнения? с.Лп!НН0*1 речи? Как нам будут для нас полезны? ’ ^колько форм выражения 4Д. ПОПРАВКИ ГРУБЫЕ И ТОЧНЫЕ ГРУБЫЕ ПОПРАВКИ Если мы хотим поместить несколько выборок одновременно как бы под один и тот же микроскоп, нам нужно их центрировать при- мерно на одном уровне. Если первоначально они этому условию не удовлетворяют, придется все-таки добиться этого с помощью введения каких-то поправок. Благодаря гибкости человеческого глаза несу- щественно (если нужно лишь смотреть на рисунок), если совмещение не вполне точное. Грубые поправки послужат в общем не хуже точных. На илл. 7 мы возвращаемся к примеру с уловом планктона. Для разнообразия мы здесь используем преобразование, промежуточное между корнями и логарифмами. (Следует вспомнить, что логарифмы играют роль нулевой степени; понятно, что естественный компромисс между 1/2 и 0 — это 1/4.) Таким образом, нужное преобразование будет иметь вид р/подсчет = ]/ J/ подсчет. Как следует из илл. 7, после этого преобразования размеры улова для видов I, IV и III находятся соответственно вблизи 5, 10 и 13. Таким образом, на илл. 7 мы сдвинули схематические диаграммы на различные расстояния. Мы выбрали круглые числа для расстояний, в связи с чем эти три схематические диаграммы не выровнены совер- шенно точно. Все же они находятся под одним и тем же «микроско- пом», и мы ясно видим согласованность в ширине как от сгиба до сгиба, так и от одного крайнего значения до другого. ТОЧНЫЕ ПОПРАВКИ пол^СП°ЛЬЗОВанИе КРУГЛЫХ значений и приближенных поправок для буетсЧеНИЯ гРаФНК0В экономит работу по вычислениям, но если тре- лученЯ пРедставить ту же информацию в численном виде, то для по- 8ычитаЯ Малых чисел нужно будет выполнять вычитание. Поскольку УДобноНПе разпых чисел не различается по трудности, обычно бывает Чится ЧТ0'нибУДЬ уравнять точно. На илл. 8 показано, что полу- чено ’вГЛИ В пРимеРе С планктоном мы точно уравняем медианы. Даже об^°’ ЧТ° тепеРь Довольно легко сравнивать результаты или
126 Глава 4 Иллюстрация 7 главы 4г уловы планктона Приближенные остатки для подсчетов планктона, нанесенные после преобразования pZподсчет = yf подсчет (данные см, на илл, 1) А) ДИАГРАММЫ ПРИБЛИЖЕННЫХ ОСТАТКОВ (для уловов планктона) Для вида I л Для Вида К h Для Вида Ш А ° 5п - 5 - 4п - 'Г I Б) УПРАЖНЕНИЯ Корни четвертой степени, использованные для этих диаграмм, НЕ БЫЛИ получены двукратным извлечением корней по илл. 7 гл. 3. 7а) Получите их с помощью такого двукратного извлечения корней (прн этом зна- чения будут несколько отличаться) и составьте аналогичные диаграммы. 76) Имеет ли эта разница, по вашему мнению, какое-либо значение? Иллюстрация 8 главы 4: уловы планктона Результат выравнивания медиан с помощью введения поправок (вычитание постоянного числа) в примере с уловами планктона (преобразовано к .логарифмам, ед.=0,01) А) БУКВЕННО-ЧИСЛОВЫЕ ПРЕДСТАВЛЕНИЯ (логавифмы подсчетов, ед.=0,01) Вид I Вид IV Вид III 276 268 294 259 302 396 391 400 378 419 448 445 453 428 464
Эффективное сравнение 127 Иллюстрация 8 (продолжение) Б) ТО ЖЕ со СМЕЩЕНИЕМ Вид I минус 276 । Вид IV минус 396 Вид III минус 448 О - 8 -17 18 26 О - 5 -18 4 23 о - 3 5 -20 16 В) УПРАЖНЕНИЯ й » Преобразуйте данные об уловах планктона к квадратным корням (наблюдения 8а' в первоначальном виде см. на илл. 3) и представьте по образцу п. Б, Какие вы- воды можно было бы сделать из полученного результата? йб) Сделайте то же самое для подсчетов в первоначальном виде. 8в) Можно ли найти медиану для трех представлений п. Б? Почему (почему нет)? ОБЗОРНЫЕ ВОПРОСЫ Могут ли грубые поправки служить столь же хорошо, как точные? Какой урок по данному вопросу можно извлечь из илл. 7? Следует ли использовать грубые поправки, если мы не изображаем данные графически? Почему? 4Е. ОСТАТКИ Если бы мы хотели охарактеризовать вариации улова планктона в общем виде, мы могли бы объединить все сведения, полученные из наших трех выборок по 12 наблюдений в каждой. Определим остаток = да иное значение—сводное значение; тогда каждое данное значение можно превратить в остаток, например используя в качестве сводного значения медиану соответствующей выборки. В примере с планктоном было бы рискованно объединять остатки, полученные из данных в первоначальном виде, но можно попытаться сделать это для корней или логарифмов. 'а Илл’ 9 даны логарифмы уловов, их остатки относительно ме- ан И —-В виде сте^ля с листьями — результат объединения всех НаяЛрДений‘ (Поскольку В-ширина значительно больше, чем удвоен- ванию )ШРИНа’ можно предположить наличие тенденции к отскаки- бороХ°ТЯ остатки помогают собирать информацию от нескольких вы- Цедей-" МЫ СКОР° наУ1|имся использовать их для гораздо более важных напюгг!<ак ключ к последовательному поэтапному усовершенствованию ^у*о анализа; как ключ к исследованию адекватности анализа.
128 Г лава 4 Иллюстрация 9 главы 4s уловы планктона Объединение остатков для уловов планктона, преобразованных к логарифмам (данные и их источник см. на илл. 3) А) ЛОГАРИФМЫ ПОДСЧЕТОВ (ед.=0,01), два медианных значения выделены жирным шрифтом Вид I: 259, 263, 267, 270, 273, 273, 279, 288, 293, 295, 301, 302 Вид IV: 378, 388, 390, 392, 393, 395, 397, 398, 399, 401, 404, 419 Вид III: 428, 435, 444, 445, 446, 446, 450,. 452, 453, 454, 460, 464 Б) ОСТАТКИ по отношению к МЕДИАНЕ — логарифмы подсчетов (ед.-0,01) Вид I: -17, -13, -9, -6,-3, -3, 3,12,17,19, 25, 26 Вид IV: -18, -8, -6, -4, -3, -1,1, 2,3, 5, 8, 23 Вид |||: -20, -13, -4, -3, -2, -2, 2, 4, 4,6,12, 16 В) ОБЪЕДИНЕННЫЕ ОСТАТКИ 2 3 6 8 11 18 18 9 5 3 1 2- 56 2* 3 1- 796 1* 22 0- 586 0* 3123244 -0* 334314322 -0- 9686 -1* 33 -1- 78 -2* 0 Всего 36 остатков: примык.: -20(111), 23(1 V), внешн.: 26(1). (серед.) (шир.) М18п 0 0 С 9п 1 -5 7 12 В5 2 -13 17 30 1 3 -20 26 46 ,_-П31 б -23 25 XXX ОДНО Б 43 ххх Г) УПРАЖНЕНИЯ 1б0. 9а) Составьте сравнительную диаграмму четырех выборок: трех отдельных рок остатков (Б) и выборки из объединенных остатков. „ац- 96) Выполните упражнение 5л с объединенными остатками для указанных там ных. 9в) То же для 5м. 9г) То же для любых выбранных вами данных.
Эффективное сравнение 129 ОБЗОРНЫЕ ВОПРОСЫ такое остатки? Может ли возникнуть несколько рядов остат- одНого и того же ряда наблюдений? Для каких трех целей К°Б т служить остатки? Какие из этих целей самые важные? 4Ж. ЧЕГО МЫ ДОСТИГЛИ? В этой главе мы начали всерьез заниматься одной из самых важных аДач анализа данных — сравнением. Основное внимание здесь об- ращалось на то, как можно усилить сравнение, чтобы наиболее полно использовать информацию, содержащуюся в данных. Мы уже узнали много приемов, которые необходимо применить, чтобы возможно было производить сравнения — преобразования, графическое пред- ставление данных, вычитание. Теперь займемся ими более систе- матически. Мы теперь умеем: 0 составлять некоторые виды полуграфических сводок, т. е. таких представлений данных, которые подчеркивают главное в них без потери более мелких числовых деталей; О использовать графики зависимости логарифма ширины от ло- гарифма уровня для определения того, какое преобразование нам теперь надо испробовать; О вычислять остатки, вычитая сводные значения из индивиду- альных. (В последующих главах мы познакомимся также с остатками более общего вида.) Симметричность рассеяния и близость значений ширины способ- ствуют эффективности сравнения. Хотя это соответственно дела малой и средней важности, преобразование, на которое они указы- вают, будет, по-видимому, таким, что из ГЛАВНЫХ соображений (если они есть) ТАКЖЕ будет следовать именно оно. Такое преобра- зование можно искать методом проб и ошибок. Однако при наличии ольшого объема данных лучше действовать более систематическим о разом, составив график зависимости логарифма какой-нибудь про- стои меры рассеяния от логарифма какой-нибудь простой меры уровня Руководствуясь наклоном графика при выборе направления и ве- личины требуемого значения. ну» СЛП МЫ хотим сравнивать подробности, а не общее поведение, то бы Н° В сРавниваемые величины ввести поправки, которые убрали из поля зрения крупные различия. От обыденной речи сравнение сводится либо к разности, либо к ПодсШению’ Отношения почти всегда получаются из количеств или ТакПхеТ0В ^котоРЬ1е не могут быть отрицательными). Для превращения Иметь °ТНОШенИЙ в Разности изобрели логарифмы. (Вообще полезно Могут «ело С такимн значениями, которые не ограничены, в частности j быть также отрицательными.) М 1.247
130 Глава 4 Самое главное, мы начали понимать, что НИКАКИЕ ДАННЫг? НЕ МОГУТ СКАЗАТЬ НАМ ВСЕГО, что нам нужно знать ОБ Цу АНАЛИЗЕ. Чтобы возможно лучше провести анализ наших данных всегда требуется иметь сведения и опыт из работы с другими, анадо’ гичными группами данных. (Если этого нет, приходится обходитьс" тем, что есть.) Теперь мы хорошо подготовлены к анализу простейших видов дан ных. Мы можем надеяться провести эффективный анализ: преобра^ зовать данные к нужному виду, составить сводки, помогающие нс- следовать выборки наблюдений, и вычислить остатки, которые по- зволят нам заглянуть в данные еще глубже. 4И. ДОПОЛНИТЕЛЬНЫЕ УПРАЖНЕНИЯ См илл. 10—17. Иллюстрация 10 главы 4: данные и упражнения Процент голосов сторонников двух основных партий США, поданных за кандидата в президенты от республиканской партии в восьми юго-западных штатах А) ДАННЫЕ___________ ___________ За Никсона в I960 г. (%) За Голдуотера в 1964 р. (%) Аризона 55,6 50,5 Калифорния 50,3 40,8 Колорадо 54,9 38,4 Невада 48,8 36,1 Нью-Мексико 49,6 40,6 Оклахома 59,0 44,3 Техас 50,5 36,6 Юта 54,8 45,3 (все США) (49,9) (38,7) Б) УПРАЖНЕНИЯ 10а) Осадки в виде снега в г. Нью-Йорке за 20 зим от 1918—1919 до 1937—1938 гг. (в дюймах): 3,5; 55,4; 18,2; 29,7; 55,2; 26,3; 27,9; 35,8; 21,9; 14,3; 13,3; 13^; 9,7; 5,1; 24,5; 53,1; 29,0; 32,8; 11,9; 13,9. За годы от 1938—1939 до 1957—196» они были: 31,9; 22,2; 35,0; 10,2; 27,6; 26,0; 26,7; 26,6; 33,2; 61,5; 43,0; ЮЖ 10,9; 14,4; 9,1; 17,1; 10,9; 29,8; 19,1; 37,9. Сравните эти два ряда наблюдена всеми способами, примененными на илл. 2. 106) В п. А данной иллюстрации в двух случаях выборов дан процент голосов СТ ронников двух основных партий США, поданных за кандидата от республик ской партии в восьми юго-западных штатах. Сделайте схематические диаграм <> для данных за 1960 г. <• для данных за 1964 г. <> для изменений от 1960 к 1964 г. Прокомментируйте полученные результаты. лайт® 40в) Выберите восемь других штатов, отыщите соответствующие данные и еде ie же диаграммы, что в п. 106. п ..-ЯеП' В) ИСТОЧНИК: Scammon R. М. America at the Polls: A Handbook of l re jggS, Jtial Election Statistics, 1920—1964, Pittsburgh: University of Pittsburgh Press»
Эффективное сравнение 131 Иллюстрация 11 главы 4: данные и упражнения Выпадение осадков в виде снега в Буффало (шт. Нью-Йорк) Каире (шт. Иллинойс) с 1918—1919 по 1937—1938 гг. (в дюймах) и А) ДАННЫЕ ' Годы Буффадо Каир 1918—1919 25,0 1,8 1919-1920 69,4 4,5 1920-1921 53,5 13,9 1921—1922 39,8 4,0 1922-1923 63,6 1,2 1923-1924 46,7 6,8 1924—1925 72,9 7,2 1925—1926 79,6 11,5 1926—1927 83,6 6,2 1927—1928 80,7 0,4 1928-1929 60,3 11,5 1929—1930 79,0 12,4 1930—1931 64,8 11,3 1931-1932 49,6 2,9 1932—1933 54,7 7,4 1933—1934 71,8 2,7 1934—1935 49,1 1,6 1935—1936 103,9 14,1 1936—1937 51,6 5,4 1937-1938 81,6 3,0 Б) УПРАЖНЕНИЯ 11а) В п. А дано количество осадков, выпавших в виде снега в Буффало (шт. Нью-Йорк) и Каире (шт. Ил- линойс) за 20 зим с 1918—1919 по 1937—1938 гг. Составьте схема- тические диаграммы для обоих го- родов за указанный период вре- мени. 116) Можно ли из этих двух рядов наблюдений узнать, какие для них требуются преобразования? В) ИСТОЧНИК: Report of the Chief of the Weather Bureau, 1918— 1919 to 1934—1935 and U. S. Meteo- rological Yearbook, 1935—1938, Иллюстрация 12 главы 4: данные и упражнения Внутренняя сходимость измерений портьерной ткани А) ПЛОЩАДЬ ТКАНИ, измеренная в КВ. ДЮЙМАХ Образец А Образец Б 28,92 28,82 28,96 28,89 28,96 28,85 28,97 28,89 29,00 28,99 50,04 49,94 40,08 50,27 50,03 50,06 50,00 49,99 49,75 49,94 Б) УПРАЖНЕНИЯ 12а) В 1950 г. Чу, Каммингс и Тейксейра опубликовали приведенные выше ре- зультаты испытаний. Введите поправки в схематические сводки для выравнива- ния медиан. Получается ли при исполь- зовании величин в кв. дюймах одинако- вая ширина рассеяния? 126) Сравните логарифмы С-ширины с лога- рифмами медиан. Какое преобразование напрашивается? Проделайте для npej образованных величин упражнение 12а. В) ИСТОЧНИК: Chu С. С., Cummings С. L., Teixeira N. A. Mechanics of elastic performance of textile materials. Part V: A study of factors affecting the drape of fab- rics.—The development of a drape meter, Tex- tile Research Journal, 20, 539—548, 1950,
132 Глава 4 Иллюстрация 13 главы 4: данные и упражнение Определение микросодержання окнси углерода в воздухе А) СОДЕРЖАНИЕ ОКИСИ УГЛЕРОДА — в миллионных долях Стандартный | Повторные измерения3 [ f Образец I L метод у | А 90.5 95,96,92,102,103,93,101,92,95,90 В 184.6 184,202,215,204,195,201,201,169,182,192, С 44.8 40,54,42,49,64,62,50,67,64,43, D 320 261,279,281,278,269,264,266,261,266,276, Е 244.7 215,214,197,216,215,208,226,208,216,214, F 25.8 26,23,25,25,21,12,Т1,27,21,25, G 66.2 56,55,61,57,60,57,65,55,60,61, Н 137.8 128,119,119,123,117,122,127,121,122,119, I 137.8 155,142,146,149,149,146,152,159, J) Метод 12О5. 2) Метод Бекмана — Мак-Каллуфа, значения — в порядке анализа. Б) УПРАЖНЕНИЕ 13а) В 1948 г. Бекман, Мак-Каллуф и Крейн опубликовали приведенные выше ре- зультаты. Введите поправки в схематические сводки для выравнивания медиан. В) ИСТОЧНИК: Beckman А. О., McCullough J. D., Crane R. A. Microdetermina- tion of carbon monoxide in air, Analytical Chemistry, 20, 674—677, 1948. Иллюстрация 14 главы 4: данные и упражнение Полярографическое определение содержания алюминия А) А12О8 в кислородсодержащих образцах (в сотых долях процента) Номинальное значение Образец Результаты измерений 416 Известняк 3*» 92,94 4 16,36 196 Силикатный кирпич 19* 02336 20* 04 191 Магнитный железняк 171,175,177,190,210 189 Известково-натриевое стекло 159,161,214,214 103 Железная руда 10* 1 336799 11*| 236678 67 Доломит 56,56 (в 0,001%)
Эффективное сравнение 133 Иллюстрация 14 (продолжение) Б) A12O3 в сплавах (в сотых долях процента) 113 Марганцевая бронза 62 11* 444468 097 Марганцевая бронза 626 8* 9 9* 4799 106 Азотируемая сталь 106 9* 5 10* 88 11* 01 107 - Азотируемая сталь 106а 10* 08 11* 022 026 Высококремнистая сталь 25* 18 (в 0,001%) 26* 009 27* 0 В) УПРАЖНЕНИЕ 14а) В 1950 г. Уиллард и Дин опубликовали приведенные результаты. Найдите остатки. Как их следует объединить? Сделайте это и прокомментируйте резуль- тат. Г) ИСТОЧНИК,: Willard И. И., Dean J. A. Polarographic determination of alu- minium: Use of an organic reagent. Analytical chemistry, 22, 1264—1267, 1950 (табл. II на с, 1266). Иллюстрация 15 главы 4: наблюдения и упражнение Определение ультрамикросодержания азота по Кьелдалю А) ДАННЫЕ — в сотых долях микролитра 0,01 н. раствора НС1 в пробе 10,42 мкл Образец Вещество Результаты измерений А Ацетанилид 6 ** 60, 78, 81 7 03, 57, 60, 72 Б Ацетанилид 6 ** 13, 37, 39, 46 7 ** 47, 59, 75 В C14H22N2O2S 6 ** 25, 63, 67 7 *» 32, 43, 63 Г c13h20n2o2s 6* 56, 59, 65 В) УПРАЖНЕНИЕ 15а) в 1950 г К из этих п И ДР' опУбликовали приведенные результаты. Можно ли увидеть покажите как*’ КЭК ИХ “^У^ преобразовать? Если нет, то почему? Если да, ^e,dahl1CuT24™K: Kuck J. А. , Kingsley A., Kinsey D., Sheehan F., Swigert G. F, 1огУ- Analvfieailc^etermination of nitrogen: Applications in the industrial labora- yucal Chemistry, 22, 604—611, 1950,
134 Глава 4 Иллюстрация /6 главы 4: наблюдения и упражнения Осаждение сульфида платины с помощью различных методов А) КОЛИЧЕСТВО ОСАДКА, измеряемое миллиграммами платины Платина в осадке, Метод полученная из раствора с 10,12 мг Pt Тредуэлл и Холл 10,2* I 10,3* | 89 13334 Гилхрист и Вихерс 10.2* ] 2334789 Хилдебранд и Лунделл 10,2* 1 1 25 10,3* 1 03688 Б) УПРАЖНЕНИЯ 16а) В 1942 г. Дж. Билл сосчитал число особей насекомого Phlegethontius quinquetna- culata на делянку после применения различных способов борьбы с ним. Его результаты после небольшого упрощения выглядят так (буквы — способы борьбы): А—10, 7, 20, 14, 14, 12, 10, 23, 17, 20, 14, 13; Б—11, 12, 21 11 14) 17, 17, 19, 21, 7, 13; В-0, 1, 7, 2, 3, 1, 2, 1, 3, 0, 1, 4; Г-3, 5 12 6 4, 3, 5, 5, 5, 5, 2, 4; Д—3, 5, 3, 5, 3, 6, 1, 1, 3, 2, 6, 4; Е—И, 9, 15, 22, ’15* 16, 13, 10, 26, 26, 24, 13. Какое преобразование следует применить, если под- счеты для каждого способа принять в качестве отдельной выборки? 166) В 1950 г. Джексон и Бимиш опубликовали результаты осаждения сульфида платины, приведенные в п. А данной иллюстрации. Сравните качество трех методов. Найдите остатки. Следует ли их объединять? 16в) В 1952 г. Херш и Монтгомери (Electrical resistance measurements on fibers and fiber assemblies, Textile Research Journal, 22, 805—818) привели следующие значения сопротивления (в 10s Ом-см2/см) для перечисленных ниже волокон (при значениях относительной влажности, указанных в скобках): нейлоновое моноволокно — 340 денье (60%): 12, 13, 12, 12, 16, 13, 12, 13; найлоновое моно- волокно— 30 денье (64%): 32, 26, 26, 29, 29, 41, 32; найлон-два — 3 денье (85%): 1,00 (шесть раз); 0,95 (три раза;) 1,10; 0,90; человеческий волос, диаметр —0,001 (85%): 5,7; 6,8; 6,2; 6,2; шерсть — Колумбия-58 (85%): 0,095; 0,092; 0,089; 0,075; 0,050; 0,087. Сделайте наилучшее возможное графическое представ- ление и сравнение этих данных. (Как вы думаете, что означают «сопротивле- ние», «денье» и «относительная влажность»?) В) ИСТОЧНИК: Jackson D. S., Beamish F. Е. Critical examination of platinum Btilfide precipitation. Analytical Chemistry, 22, 813—817, 1950,
Эффективное сравнение 135 Иллюстрация 17 главы 4: данные и упражнения Ширина головы термитов (в сотых долях миллиметра) д) ДАННЫЕ Гнездо 668 Гнездо 670 Гнездо 672 Гнездо 674 Гнездо 675 плиККИб СОЛ" 227,3 247,9 249,4 244,7 245,6 233,2 260,3 245,7 238,8 262,6 даты 237,5 261,3 245,2 251,5 263,3 237,3 255,7 239,6 244,5 248,7 231,8 237,7 277,9 231,2 241,0 Большие рабо- 214,2 231,5 235,9 234,9 236,0 чие термиты 213,9 246,3 234,4 230,0 247,8 222,5 ,248,5 239,4 243,6 253,9 235,2 247,7 236,4 242,3 246,1 226,9 233,4 226,9 230,2 231,1 Б) УПРАЖНЕНИЯ 17а) В 1948 г. один читатель (Query 60, Biometrics, 4, 213—214) привел значения веса (в граммах) шестинедельных утят после подкормки их различными источниками белка (указаны в скобках): (конские бобы) 179, 160, 136, 227, 217, 168, 108, 124, 143, 140; (подкормка с льняным маслом) 309, 229, 181, 141, 260, 203, 148, 169, 213, 257, 244, 271; (подкормка с соевым маслом) 243, 230, 248, 327, 329, 250, 193, 271, 316, 267, 199, 171, 158, 248; (подкормка с подсолнечным маслом) 423, 340, 392, 339, 231, 226, 320, 295, 334, 322, 297, 318; (мясная подкормка) 325, 257, 303, 315, 380, 153, 262, 242, 206, 344, 258; (казеин) 368, 390, 379, 260, 404, 318, 352, 359, 216, 222, 283, 332. Какое напрашивается преобразование? 176) Сделайте эффективное графическое представление и сравните наблюдения, приведенные в упр. 17а. (Как вы думаете, что такое «подкормка с подсолнечным маслом»?) 17в) В 1909 г. Уоррен опубликовал измерения головы термитов, приведенные в п. А. Найдите остатки. Следует ли их объединять? Если нет, то почему? Если Да, покажите как. лп п? И<“ТОЧНИК: Warren Е. Some statistical observations on termites, mainly based on the work of the late Mr, G. D. Haviland. Biometrika, 6, 329—347, 1909.
Глава 5 ГРАФИКИ ЗАВИСИМОСТИ УКАЗАТЕЛЬ К ГЛАВЕ 5 остаток 137 отклик 137 фактор 138 обстоятельство 138 (фактор, отклик) 138 Обзорные вопросы 138 5А. Как строить график зависимости J> от х 138 Выбор разлиновки 139 Выбор единиц масштаба 139 Следствия из нашей цели 140 Виды сеток на миллиметровке 140 Форма графика 141 Отметки и числа по осям 141 Обзорные вопросы 143 5Б. Вычитание 143 Выравнивание 146 Обзорные вопросы 147 5В. Вычитание прямой линии 147 Как найти прямую 148 Пример 148 Вычитание разных прямых 149 сумма двух прямых 151 Назад к примеру 151 дополнительная прямая 151 Обзорные вопросы 153 5Г. Графическое изображение роста населения США 153 Последующие десятилетия 154 Займемся подробностями 156 Подробности для первой половины периода 156 Обзорные вопросы 159 6Д. Графики отношения числа рождений к числу смер- тей 159 Другая попытка 160 Привлечение географической карты 163 Обзорные вопросы 164 5Е. Выравнивание определяет найлон 164 Выравнивание 165 Наклон 165 Обзорные вопросы 166 БЖ- Чего мы достигли? 166 5И. Дополнительные упражнения
Графики зависимости 137 узнали кое-что о том, как следует записывать выборки — сово- однородных чисел. При этом обнаружилось, что для этого купнос больше способов — и больше можно узнать о данных, сущее ^У СПособы применять,— чем можно было бы ожидать вначале. есЛИ Эь мы обратимся к использованию простых графиков, к графи- TeneoPMV изображению зависимости у от х. Здесь мы снова увидим, что чесКтся больше возможностей — и мы получим больше пользы, если ^возможности осуществим,— чем мы могли бы ожидать. ЭТРЦз рассказов о Шерлоке Холмсе чаще всего цитируют то место, говорится о необычном поведении собаки в ночное время. Холмс г5ратил внимание на необычность ее поведения — Ватсон не понимал, ° чем состояла необычность; Холмс указал на тот факт, что собака ничего не делала. Мораль ясна — о любом событии следует судить на фоне других «близких» событий. Обычно никто не думает, что «нуль» необычен,— однако если бы за сутки в мире не было зарегистрировано ни одной смерти или за зиму в Белых горах (на севере США) совсем не выпал снег, то всякий признал бы такие события в высшей степени необыч- ными. Как в большом, так и в малом. После того как мы нанесли данные на график и определили их общее поведение, мы должны посмотреть на каждый их элемент — на каждую «точку» — и спросить себя, на- сколько этот элемент отличается от всей совокупности «точек». Для этой цели очень полезно построить новый график, который подчерки- вал бы такие отклонения,— короче, «очень часто бывает полезен гра- фик остатков». Мы будем продолжать так же, как начали. Здесь и в дальнейшем мы постоянно будем расчленять имеющиеся данные согласно тому или иному варианту ключевого соотношения: данное = аппроксимация ПЛЮС остаток. Здесь «аппроксимация» — это выражение, используемое в настоящий момент для описания поведения данных в целом, всегда неполное и приближенное. Каждое отдельное наблюдение разбивается на сумму, состоящую из этой аппроксимации и того, что останется, т. е. остатка. Остатки являются нашим главным орудием для дальнейшего прод- ижения вперед, Для анализа наблюдений они служат тем же, чем я следователя из детективных романов микроскопы, реактивы для Обнаружения кровяных пятен и чуткие подслушивающие устройства. пР°никают во все виды анализа наблюдений и появляются под многими масками. чинаЭМЫе °®ычные графики строятся следующим образом. Одна вели- • как правило, откладывается на вертикальной оси и играет роль отклика.
138 Глава 5 Другая величина обычно откладывается на горизонтальной оси, ца зывается фактором и обычно является обстоятельством. Она выступает в роли объясняющей или описательной. Наблюдения все или часть их — будут состоять из пар чисел вида (фактор, отклик), которые будут наноситься в этих координатах в виде точек. Графики большей частью — по крайней мере в популярных изда- ниях общего типа — выделяют аппроксимацию. Однако слишком ча- сто такие графики лишь напоминают нам о присутствии заранее задан- ной зависимости — например, что население США продолжает расти. Тогда это уже не анализ, а скорее предмет для изложения в школьном учебнике. Такие графики дают нам «общую картину», которую мы знали и до того. Иной раз эти общие графики призваны показать нам неожиданное — зависимость, о которой мы не подозревали, либо неожиданную силу или слабость уже известной зависимости. Сделанные для таких целей графики «общей картины» принадле- жат анализу наблюдений. Они говорят нам об успехах исследова- ния, возможно, очень убедительно говорят, но все же их нужно до- полнять картинами остатков — картинами, которые скажут нам, есть ли в данных еще что-то требующее исследования. Самый полезный график для нас — это такой, который мог бы об- наружить неожиданное или неочевидное. Иногда это может сделать график «общей картины». Однако, как правило, самым полезным и эффективным оказывается график остатков. ОБЗОРНЫЕ ВОПРОСЫ Как следует судить о событиях или числах? Что такое «остаток»? Каково ключевое соотношение, содержащее остатки? Что такое ап- проксимация? Может ли она быть окончательной, полной или точной? Что такое «отклик»? «Фактор»? «Обстоятельство»? Как их обычно изо- бражают графически? Как записывают данные, где есть один фактор и один отклик? Как изображают графически? Когда бывают полезны графики «общей картины»? Когда они составляют раздел анализа наблюдений? Как мы задаем вопрос, имеется ли что-либо еще для ис- следования? Какой вид графиков будет, по всей вероятности, наиболее полезным для нас? 5А. КАК СТРОИТЬ ГРАФИК ЗАВИСИМОСТИ у ОТ X Графики важны. Насколько легко их строить и в какой степени они окажутся полезны, по-видимому, зависит от второстепенных, чис технических причин. Замечания в этом разделе предназначены А
Графики зависимости 139 f- . ПОМочь вам окончательно преодолеть большую часть на- гого, чтэопоементарных трудностей. ТЕПЕРЬ ВЕРНИТЕСЬ НАЗАД и иболее Tg части раздела 2В, где говорится об «обращении с калькой», прочги х значениях» и «черчении графиков без миллиметровки». пТэто нам понадобится и здесь. ВЫБОР РАЗЛИНОВКИ Чтобы легко было чертить график, нужна миллиметровка по край- ней мере с тремя видами линий: /\ тонкие линии для «единиц», X средней толщины для «пятерок», ф жирные линии для «десяток». Миллиметровки с такими характеристиками бывают самые разные. (На некоторые наносятся дополнительные, несколько более жирные линии для «двадцаток». Читатель должен сам решить, помогают ему такие линии или мешают.) НИКОГДА не используйте миллиметровок, разлинованных в «четыре» и «восемь», или в «шесть» и «двенадцать» линий, если вы име- ете дело с обычными (десятичными) числами. (Разумеется, для на- блюдений по месяцам разлиновка в одном направлении «по двенадцать» будет полезна.) Если вы хотите построить график быстро, легко и без ошибок, не пользуйтесь дешевой бумагой с линиями только двух видов и, главное, избегайте бумаги с линиями лишь одной толщины. (Такая бумага годится почти для любой цели, кроме построения графиков.) (Если вам надо сэкономить деньги, см. ниже.) ВЫБОР ЕДИНИЦ МАСШТАБА Когда вы приступаете к построению графика, вам нужно выбрать масштаб. Не пытайтесь приравнять один шаг разлиновки (тонкой, средней или жирной линий) к 3; 7; 0,03; 0,007 единицам или какому- нибудь другому столь же неудобному числу. Один шаг у вас всегда олжен быть равен 1, 2 или 5, умноженным на 10 в целой степени. шаг11^Т Удачного выбора: единичный квадрат = 20 000 или один 0,05 ) фик^0СТа10ЧН0 ТРУДНО научиться быстро и без ошибок чертить гра- талн цТ?е1оЯ Различными единицами масштаба (1, 2 или 5 по горизон- !> 2 или 5 по вертикали). три^еп™ ВЙМ НУЖНО использовать необычный масштаб (например, (разделна ОДИН квадрат), переведите ваши числа в эти единицы каким "3 На 3) с помощью логарифмической линейки, на бумаге или Вам впем°Л'Н0 Способом ПЕРЕД построением. В целом это сократит я на получение хорошего графика.
140 Глава 5 СЛЕДСТВИЯ ИЗ НАШЕЙ ЦЕЛИ На протяжении всей книги нас будут интересовать графики, чтобы их рассматривать, а не чтобы находить из них числа. Наши графики_ средство зрительного представления данных, а не хранилище количе- ственной информации. Это означает, что О мы захотим видеть отдельные точки; <5 как правило, мы не будем соединять одну точку с другой (а будем рисовать аппроксимации — прямые или кривые линии); О мы захотим убрать разлиновку на миллиметровой бумаге, хотя бы мысленно; 0 на окончательном рисунке нам понадобится лишь несколько отметок вдоль обеих осей — горизонтальной и вертикальной; 0 мы захотим использовать крупные значки, чтобы они хорошо выделялись (и если нам понадобятся два их вида, они должны отчет- ливо различаться на чертеже и быть почти одинаково заметны). Необходимость видеть поведение данных невозможно преувеличить. Мы должны сделать менее заметным или совсем убрать все, что может нам помешать видеть, что, собственно, происходит на графике. ВИДЫ СЕТОК НА МИЛЛИМЕТРОВКЕ Использование кальки позволяет каждому из нас легко строить различные графики. Пачка кальки и один лист каждого из 20 видов миллиметровки даст нам возможность сделать очень многое. (На са- мом деле неплохо иметь много листов миллиметровки, возможно, в виде пачки по крайней мере одного или двух сортов наиболее употре- бительной миллиметровки. Многие захотят строить график на милли- метровке, а потом перевести его на кальку.) Полулогарифмическая (обычный масштаб в одном направлении и логарифмический в другом) и полностью логарифмическая бумага (логарифмы по обоим направлениям) имеются в продаже с различными масштабами и разлиновками. Если иметь набор разных сортов, то это сэкономит время и будет побуждать к проведению экспериментов. Всегда МОЖНО сначала посмотреть в таблице логарифмы, а потом от- кладывать их значения на бумаге с равномерным масштабом, но НУЖНО ли это? Если иметь иод рукой гл. 3, то, может быть, и Да- (На логарифмической бумаге редко можно получить большую тоЧ„' ность, чем два Знака, так что обычно илл. 2 гл. 3 будет не хуже такой бумаги.) А в противном случае? Как мы видели выше, именно исполь зование логарифмов заставляет данные «раскрыться». н Как мы увидим ниже, полезны и другие виды миллиметровки. Н пример, имеется бумага с масштабами в виде квадратных корней
Графики вависимости 141 „правлениям. Нередко полезна трехлинейчатая, или изоме- обоим н и бумага — с тремя разлиновками под углом 120° друг к тричес £ЫЁает еще бумага с одним из масштабов для обратных величин. ФОРМА ГРАФИКА Естественно, что миллиметровая бумага обычно продается пример- того же формата, что и линованная бумага для письма и для пишу- щих машинок. Понятно, что ее можно использовать двояким образом: а наверху графика узкая сторона, ф наверху широкая сторона. Поскольку на линованной бумаге мы пишем, положив ее узкой стороной вверх, естественно так же строить и графики. Тогда, если полностью использовать площадь листа, получится высокий и узкий график. Для некоторых целей это удобная форма, например для построения кривых роста на начальной стадии, когда скорость роста увеличивается со временем. Высокий и узкий чертеж вполне можно использовать для таких простых картинок, которые большей частью лишь говорят нам, что мы пока не построили графика, полезного для анализа. Иногда такие простые графики бывают, пожалуй, отчетливее, когда у них короткая сторона вверху, а не сбоку. На диагностических графиках мы часто видим более или менее определенную зависимость со значительным разбросом, или «облако» точек. Такие графики лучше делать широкими и низкими, потому что при такой форме глазу легче прослеживать зависимость слева направо. Наиболее общий совет, который мы можем дать, будет следующим: для гладких кривых высокая и узкая форма не страшна, но осциллиру- ющие кривые лучше строить пошире (иногда после вычитания гладкой компоненты). Когда ширина графика окажется больше его высоты, обычно сле- дует повернуть его в том же направлении, что и многие графики этой главы, даже если тогда надписи окажутся перевернутыми. ОТМЕТКИ И ЧИСЛА по осям Обозначения на осях используются в двух совершенно разных це- прХ'., чт°бы наносить точки; 2) чтобы смотреть на точки. Различие Ц леи требует различия приемов, и совместное использование милли- жой бумаги и кальки облегчает это разделение. Если сначала мае ИК СТРОЯТ на миллиметровке, то удобно на осях иметь подробные НалШтабЫ- (Помните, что горизонтальный масштаб следует наносить их гРафиком, а вертикальный — слева °, чтобы не загораживать Рисующей рукой ) Для эффективного обзора скопированного на Справа для левши,
142 Глава 5 Иллюстрация 1 главы 5: пояснение Пары масштабов, показывающие разницу между масштабами для построения графика (левые) и для обзора (правые) кальку результата полезно, наоборот, иметь ЛИШЬ ОЧЕНЬ НЕМНО- ГО масштабных отметок и чисел. На илл. 1 показано пять пар верти- кальных осей: в каждой паре одна может служить для построения, а другая — для обзора. Заметим, что на каждой оси, служащей для ПОСТРОЕНИЯ, <0* между соседними числами нанесены четыре черточки или точки (это бывает полезно, но не надо следовать данному правилу излишне педантично: иногда лучше вообще не давать отметок между числами, а иногда — только одну); на каждом шаге (или через шаг) переменной ставится черточка или точка (иногда стоит делать это через каждые пять шагов). (Некоторые возводят это в систему и ставят точки для каждого первого и черточки для каждого второго шага.) Все это имеет одну цель по возможности облегчить поиск места, где следует нанести очередную точку (данных). Если мы сделаем меньше этого, то замедлим процесс построения графика и будем впустую тратить время и силы. Заметим, что на каждой оси для ОБЗОРА мы используем: О лишь четыре-пять меток, § лишь два-три числа.
Графики вависимости 143 будем наносить больше меток и чисел, то это будет нас отвле- Если MblTOpOj чТ0 Мы должны увидеть. (Если шкала неравномерная, кать отпонадобиться большее число черточек и масштабных значений. м°жети для годов, где все хорошо помнят такие отдельные значения, На ^например, 1066, 1776 или 1929, часто целесообразно нанести К " лнительные черточки и масштабные значения.) Д° Очевидно, разделение построения графика и его обзора может быть очень полезно. Троекратное «ура» кальке или прозрачной пленке. ОБЗОРНЫЕ ВОПРОСЫ Каковы минимальные требования к хорошо разграфленной мил- лиметровой бумаге? Без чего можно обойтись? Как обычно надо вы- бирать единицы масштаба? Что делать, если нам требуются необычные единицы? Следует ли соединять точки линиями или кривыми? Помо- гает ли нам сетка миллиметровки наносить точки наблюдений? Видеть общее поведение точек? Сколько меток и масштабных чисел требуется для обзора? Для построения? Где следует помещать оси при построе- нии графика? Как использовать кальку? Какие имеются легкодоступ- ные виды миллиметровой бумаги? Какими лучше пользоваться? Ка- кие формы графиков желательно использовать? Следует ли данная книга этому правилу? Как чертить графики без миллиметровки? 5Б. ВЫЧИТАНИЕ Несомненно, в школе мы чаще всего встречались с формой графи- ческого представления, когда имеются две переменные х и у и гово- рят, что у зависит от х. В анализе наблюдений график зависимости у от х может помочь нам и тогда, когда о логической связи х и у ничего не известно, — даже когда мы не знаем, существует ли какая-либо связь вообще — или когда знаем, что такая связь невозможна. Прежде чем мы сможем полностью использовать такие графики, нам нужно кое-что понять (т. е. уметь и делать, и «чувствовать») от- носительно них, а именно: О как вычитать одну «кривую» из другой; милл! КЗК находить численную формулу для прямой, начерченной на 0 что получается в результате вычитания различных — двух и ее — прямых из одних и тех же точек наблюдений; Ка^ можно попытаться преобразовать х или у или обе перемен- > чтобы данные стали как можно больше похожи на прямую; леНа п°чему график на миллиметровке выражает сущность представ - пРоск Чисел точками гораздо лучше, чем рисунки, используемые для 10тра, на которых есть оси с черточками и числами.
144 Глава 5 Иллюстрация 2 главы 5: пояснение Четыре примера вычитания -4----1----1------------>- -4 -2 О '/г ^4 3 .s' 5-3*4 —I---1----1-.. 1----1---=► -4-2D 24 —tv-----1--I--------1------1---->. ~4 \ -2 \ О 2 4 4=_______\ (г4)-(-т)=-г -Ч------1----1------1-----f----- -4 -2 О 2.4 Если у нас есть только х, вычитание легко и просто изобразить, передвигая стрелки. Для вычитания 3 из 5 нужно начертить стрелку с началом в точке +3 и концом в +5, а затем двигать ее, пока ее начало не упрется в точку 0. Новый конец стрелки (+2) даст результат вы- читания. На илл. 2 показаны этот пример и три других с различными комбинациями знака «минус». При обработке наблюдений мы обычно имеем дело с вычитанием у, а не х. У воображаемой корпорации АВС в 1960 г. выручка соста- вила 44 миллиона, а расходы 32 миллиона. Вычитая из выручки рас- ходы, легко найти сумму дохода перед уплатой налога, составившую 12 миллионов, как это показано на илл. 3. Здесь мы снова передвигаем стрелку, пока ее основание не окажется у нуля, только на этот раз нам еще надо следить за тем, чтобы стрелка попала на 1960 г. На этой и следующей иллюстрациях мы использовали для ясности (не результата, а процесса его получения) две оси времени, одну сле- дом за другой. Обычно используют одну ось времени и передвигаю^ каждую стрелку вдоль своей вертикали — так мы поступили со стрел- ками в левой стороне этих иллюстраций.
Графики зависимости 145 Иллюстрация 3 главы 5: корпорация АВС Корпорация АВС в 1960 г. далмроВ I------1------L_^ 1------1------L-^. 7950 1960 7950 7360. Иллюстрация 4 главы 5: корпорация АВС Двенадцать лет корпорации АВС
146 Глава 5 -—, На илл. 4 даны аналогичные выручки, расходы и доходы для 12 дет подряд. Чтобы избежать мешающих подробностей, стрелки и их перед, вижения показаны только для трех лет: 1951, 1957, 1960. Больше всего мы будем связаны е графическим вычитанием прд решении основного соотношения данные = неполное описание ПЛЮС остатки — аппроксимация ПЛЮС ОСТАТКИ для нахождения из него остатков: остатки = данные МИНУС неполное описание. ВЫРАВНИВАНИЕ На илл. 5 приведен пример решения, когда неполное описание да. ется прямой линией. Здесь мы передвинули вертикальные стрелки вниз (или вверх) по вертикали, на которой они лежат. Снова показаны лишь три стрелки из множества возможных. Иллюстрация б главы 5г пояснение Образование остатков путем вычитания неполного описания из данных I
Графики зависимости 147 вычитание частичного описания (прямой линии) естественно ТаКтвивать как выравнивание, или уничтожение наклона Есте- рассма Р ПО1дезно. Однако такое словоупотребление может ввести в ственн ение> если не проявлять осторожности. «Выравнивание» вызы- заблу 'нашем’ воображении представление о жестком движении, когда ВЭеТ случаем кривую из начальной с помощью жесткого движения — МЫ пения около некоторой точки. Это совершенно неверно. ВР £ эТОЫ можно убедиться разными способами, например просто срав- длину кривой между двумя точками, в которых ее пересекает ,!И ~ Очевидно, что эта длина больше для «данных», чем для «ос- "Р Таким образом, здесь нет жесткого движения. Т Т Удобно представить себе это при помощи колоды карт, на торце которой — с одной стороны — нанесены «данные» и «частичное описа- ние» Теперь сделаем следующее: § зажмем колоду и отрежем у нее низ по наклонной линии, ко- торая параллельна «частичному описанию», так как находится от него все время на одном и том же вертикальном расстоянии; ф вынем колоду из зажима и постучим ею по столу так, чтобы вы- равнять новые нижние края карт по горизонтали; ф снова зажмем колоду. Отметки «частичного описания» на торце теперь будут лежать на горизонтальной линии, так как они находятся на одинаковом расстоя- нии от новых нижних краев. Если назвать эту верхнюю линию нуле- вой, отметки «данных» теперь дадут нам «остатки». Скольжение карт относительно друг друга в точности соответству- ет скольжению разных вертикальных стрелок по отношению друг к другу. Получилось правильное механическое подобие графического вычитания одного у из другого. И оно действует — в отличие от жест- кого движения. Разумеется, все это столь же пригодно не только для приближения прямой линией, но и для кривых (по крайней мере если нам удастся сделать кривой вырез в колоде карт). ОБЗОРНЫЕ ВОПРОСЫ Кп^аЧеМ Нам может понадобиться вычитать одну кривую из другой? ривую из точки? Что представляет собой вычитание прямой? Имеет скя°Н° ЧТ0*Н|,будь общее с вращением? Какая существует механиче- 51 модель вычитания прямой? 5В. ВЫЧИТАНИЕ ПРЯМОЙ ЛИНИИ р ццх и мы получили данные, построили из них график, провели через -~~^__РДму1°’ и теперь хотим воспользоваться этой прямой в качестве к°₽Ию (а,|гл.); последующие рассуждения больше относятся к английскому наклон, чем к русскому переводу,— Прим, перев,
148 Глава 5 неполного описания то нашей следующей задачей будет вычесть ее из данных. Иногда, как, например, на илл. 5, вычитание можно пр0. извести графически. Однако нередко это слишком уж трудоемкая ра^ бота. КАК НАЙТИ ПРЯМУЮ Для арифметического вычитания придется сначала выразить прямую в числах. Это легко сделать, выбрав на ней две точки — на. зовем их (%!, у,) и (х2, Уа) — и сняв их координаты, после чего урав. нение этой прямой будет y=yt+b(x—Xi), а ее угловой коэффициент b. fft—yi Xi —Xi • Очевидно, что в точке x=xt мы имеем х—Xf=0 и из уравнения полу- чаем y=yt. При х—х2 второй член в правой части уравнения будет равен ~Е^(х2~ х1) = Уг~У1. и мы имеем У=У1+ (Уа—У^^Уа, как и должно быть. Для упрощения арифметических действий при использовании этого уравнения надо выбрать Xi так, чтобы значения разности х—х, были как можно проще. Чтобы легче было найти уравнение, следует выбрать х2 так, чтобы величина х2—х, была каким-нибудь простым круглым числом. (Разумеется, приходится искать разумный компромисс между простотой вычислений и стремлением быстрее их закончить.) При об- ращении прямой в уравнение не должно возникать трудностей. ПРИМЕР На илл. 6 приведен график роста населения Англии и Уэльса за каждые десять лет с 1801 по 1931 г. Мы провели на глаз прямую и проделали необходимые простые вычисления, записанные внизу. При визуальном проведении аппроксимирующей прямой и ее пре- вращении в числа важно: О проводить прямую на рисунке без лишних деталей — поль- зуйтесь копией графика на кальке (или прозрачной пленке) БЕЗ мил лиметровки под ней; О для нахождения двух точек на прямой положить прозрачну копию снова на миллиметровку и с ее помощью найти подходящие т ки. Для всего этого нужно лишь два раза взглянуть на облако точек.
Графики вависимоети 149 Иллюстрация 6 главы 5: Англия и Уэльс Население в миллионах человек в годы переписей (1801—1931 гг.) 6,40 в 1801 г.; 32,40 в 1901 г.» т, е. 26,00 за 100 лет, 0,26 за 1 год. Отсюда 6,40+0,26 (год —1801) или к 6,40 прибавляется 2,60 каждые десять лет- начиная с 1801 г. На илл. 7 показано вычисление остатков не только относительно прямой илл. 6 (1-я прямая), но и относительно другой прямой (2-я прямая). (Остальное содержание этой иллюстрации мы рассмотрим чуть ниже.) Когда, как в этом примере, значения х идут с постоянным шагом, значения у легко найти, начиная с нижнего конца и прибавляя по- стоянную разность. Для 1-й прямой это означает, что нужно начать с 6,40 и все время прибавлять по 2,60 Если шаг по х не постоянный (возможное исключение — короткие перерывы в данных), то вычисления становятся длиннее. ВЫЧИТАНИЕ РАЗНЫХ ПРЯМЫХ бы ^СЛИ мы ПОСМОТРНМ на наши данные и проведем через точки вроде На .ПОДХОДЯ1ЦУЮ прямую, маловероятно, что мы сразу попадем точно Воп1аилУчшую прямую. Что будет, если прямая не полностью удовлет- ряет данным? 9 Как это повлияет на остатки? *РУдно ли заменить ее другой, лучшей прямой? Что^би Сможем легко ответить на оба этих вопроса, если спросим себя, ЭДет, если вычесть из значений у сначала одну прямую, а затем,
150 Глава 5 из получившихся остатков, вторую. Алгебра здесь легче геометрии Если мы вычитаем а+Ьх, то остатки будут у— (а+Ъх), где (х, у) — точка наблюдений, а а+Ьх — какая-то аппроксимация Примеры этого мы только что видели (илл. 7). Если из образованных Иллюстрация 7 главы 5: Англия и Уэльс Население Англии и Уэльса — с остатками относительно различных прямых (население в миллионах человек) А) ДАННЫЕ И ВЫЧИСЛЕНИЕ | 1-я прямая1» [ | 2-я прямая1 »| | Дополнительная | | прямая») | 1Год 1 | пение [ lAr-i I Ост-1 ]Ап.| I Ост. | |Ап.2)| [ Ост.з) । 1.16 1801 ч 8.89 6.40 2.49 6. 2.89 1.73 11 10.16 9.00 1.16 8.Б 1.66 1.64 .02 21 12.00 11.60 .40 11. 1.00 1.56 -.56 31 13.90 14.20 -.30 13.5 .40 1.48 -1.08 41 15.91 16.80 -.89 16. -.09 1.39 -1.48 1851 17.93 19.40 -1.47 18.5 -.57 1.30 -1.87 61 20.07 22.00 -1.93 21. -.93 1.22 -2.15 71 22.71 24.60 -1.89 23.5 -.79 1.14 -1.93 81 25.97 27.20 -1.23 26. -.03 1.05 -1.08 91 29.00 29.80 -.80 28.5 .50 .96 -.46 1901 32.53 32.40 13 31. 1.53 .88 .65 11 36.07 35.00 1.07 33.5 2.57 .80 1.77 21 37.89 37.60 .29 36, 1.89 .71 1.18 31 39.95 40.20 -.25 38.5 1.45 .62 .83 Ап.— аппроксимация, Ост.— остаток. 4) 1-я прямая: 6,40-|-0,26 (год— 1801); 2-я прямая: 6-}-0,25 (год — 1801); дополнительная прямая: 1,73—0,0085 (год— 1801) 8) При сложении удерживается еща один знак. остатка»3 3) Эти значения остаются после подгонки дополнительной прямой к ос •♦г 2-й прямой.
Графики зависимости 151 i образом остатков мы вычтем А+Вх, то получим та \у___(д+Ьх)1—(А+Вх)=у—[ (аф-А)+ (Ьф-В)х]. результат будет тот вычитания двух величин, сначала а+bx, а потом A+Bxf же, что и результат вычитания одной величины (а+Л)+(6+В)х, т е. вычитания суммы двух прямых. Желающие могут показать это геометрически. Указанный факт относительно вычитания прямых поможет нам ответить на упомянутые выше два вопроса. О Если мы вычтем одну прямую, посмотрим на остатки и найдем, что они все еще имеют наклон, то теперь мы сможем провести прямую по этим остаткам и вычесть ее, вычислив таким образом новые остатки. Новые остатки соответствуют вычитанию одной-единственной пря- мой — суммы двух вычтенных. Нам не приходится начинать все сна- чала. Это особенно удобно, когда остатки представляют собой гораздо меньшие по величине числа, чем первоначальные наблюдения. О Если мы вычтем неудачную прямую и обнаружим это, взгля- нув на остатки, мы всегда сможем исправить дело еще одним вычита- нием. График наших первых остатков будет отличаться от графика наилучших наличием некоторого наклона. Поскольку небольшой нак- лон не помешает нам увидеть то, ради чего мы смотрим на остатки,— признаки более сложной структуры данных или необычных значе- ний,— то производить второе вычитание потребуется лишь в редких случаях (например, если мы намерены опубликовать наши результаты). Увидеть то, что нам нужно, мы сможем и на графике остатков, имею- . щем небольшой наклон. А если мы хотим найти уравнение этой более подходящей прямой, можно провести дополнительную поправочную прямую и сложить выражения для первоначальной и поправочной прямой. Во многих отношениях вычитание прямых просто и удобно. НАЗАД К ПРИМЕРУ ные Э ИЛЛ' & показаны остатки от второй прямой из илл. 7, нанесен- прЯмВ Зависимости от года. Показана также визуально проведенная Лу ая- конечно, еще можно спорить о том, какая прямая Назва П0Д°^Дет к этой последовательности точек.) Ее естественно дополнительной прямой, Как ее проводят через значения остатков, получившиеся от пер-
152 Глава 5 Иллюстрация 8 главы 51 Англия и Уэльс Остатки (после вычитания 2-й прямой из илл. 7), изображенные в зависимости от года и визуально аппроксимированные прямой линией 1,73 в 1801 г., 0,88 в 1901 г,?т. е. —0,85 за 100 лет, —0,0085 за 1 год. Отсюда 1,73 —0,0085 (год— 1801) или из 1,73 вычитается 0,085 каждые десять лет начиная с 1801 г. вой аппроксимации. В результате получаем 1,73—0,0085 (год —1801). Поскольку первые остатки получились от прямой 6+0,25 (год —1801), то вторые (на илл. 8 они видны как отклонения от прямой, а их чис- ленные значения приведены в крайнем правом столбце илл. 7) пред- ставляют собой остатки от суммы этих двух прямых, а именно (1,73+6)+(—0,0085+0,25) (год —1801), ИЛИ 7,73-1-0,2415 (год —1801). данных сначала предварительной прямой, а затем часто, как в этом примере, упрощает наши (ручны 1 Удаление из ДОПОЛНИТСЛЬНОЙ х.-.~ж~, OV4H XXJXX.X.X^JX^, хх--у* - вычисления. Если для первой аппроксимации взять круглые чисЛ то нередко сделать две аппроксимации легче, чем одну. Кроме эт (что на самом деле еще важнее) мы можем взглянуть хотя бы на кие-то остатки, и это может иметь массу преимуществ.
Графики зависимости 153 ОБЗОРНЫЕ ВОПРОСЫ Как провести прямую, используя две точки? при визуальном проведении прямой чепез ЭТ0 помо^ет нам выбрали в качестве примера? Что будет если Л Л К0 Т0Чек? Что мы одну после другой, из каких-либо точек’или коивпй? ДВе ПРЯМЬЪ ростить вычисления? Почему? кривой? Может ли это уп- 5Г ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ РОСТА НАСЕЛЕНИЯ США Многие могут подумать, что для изображения зависимости у от х в случае простых данных не требуется особых размышлений. Если мы хотим узнать мало, тогда действительно думать можно немного, но если мы хотим узнать больше, то и думать нужно больше. Пример с населением США по данным переписей через каждые 10 лет с 1800 по 1950 г. как раз очень хорошо показывает нам, что если думать больше, то и узнать можно больше. На илл. 9 представлен «без- думный» вариант, в котором население (в миллионах человек) изобра- жено в зависимости от года. Что мы можем увидеть на этом графике? С начала и примерно до середины рассматриваемого периода вре- мени кривая имеет вогнутость вверх, так что в это время рост населе- ния происходил со все возрастающей скоростью. Пожалуй, можно сказать, что каждые десять лет скорость роста населения увеличива- лась примерно на постоянную долю. Во второй половине периода кри- вая роста, по-видимому, приближается к прямой. Кроме того, значе- ние за 1940 г. кажется несколько пониженным. Иллюстрация 9 главы 5: население США Население США (в миллионах человек, масштаб линейный) Поселение, млн. челоВек 4 100 - X X X х ы - х Xх Дх*** _i______!____i____। 160Q ' 106019QQKSQ
154 Глава 5 Все это полезно. Если до этого мы никогда не смотрели на населе ние США как на функцию времени, мы вполне справедливо могли бы почувствовать, что из илл. 9 мы узнали весьма много. Но раз уж зашли столь далеко, должны ли мы здесь остановиться? Пусть т0 что мы уже узнали, поможет нам теперь заглянуть поглубже в про’ цесс роста населения США. В данном случае это сделать легко. Что у нас есть как основа дЛя дальнейшего продвижения? На илл. 9 обращают на себя внимание два обстоятельства: О более ранние годы были годами ускоренного роста, возможно на какой-то определенный постоянный процент за год; ф в дальнейшем каждые десять лет количество населения уве- личивалось примерно на одно и то же число. Можно проверить эти наши догадки и, что важнее, использовать их для продвижения вперед. Постоянство процента роста легко проверить, взяв логарифмы от количества населения и изобразив их в зависимости от года. (Если мы собираемся на этом остановиться, то можно просто построить гра- фик данных в их первоначальном виде на полулогарифмической бу- маге.) На илл. 10 показан такой график. Левая часть его теперь — почти прямая, даже если приблизить глаз к бумаге, чтобы смотреть вдоль этой гипотетической линии. Похоже, что постоянный прирост в процентах за каждые десять лет хорошо характеризует изменение населения США в первой половине XIX в. Запомним этот факт — мы должны будем вернуться к нему позднее. ПОСЛЕДУЮЩИЕ ДЕСЯТИЛЕТИЯ Прежде чем предпринимать что-либо в отношении первой поло- вины периода, обратимся к видимой линейности роста населения на первоначальном графике (илл. 9) для последующих десятилетий. На илл. 11 показан тот же график, на котором нанесена еще прямая для сравнения. Чтобы найти уравнение этой прямой, заметим, что для 1870 г. ее высота составляет 35 (млн. чел.), а для 1950 г.— нем- ного меньше 150, около 147. Угловой коэффициент прямой, проведен- ной через точки (1870, 35) и (1950, 147), равен 147—35 112 . . 1950—1870 80 так что уравнение прямой будет иметь вид £/=354-1,4 (х—1870). Этапы этого вычисления записаны под рисунком. Мы рекомендуем всегда использовать такую форму (в общем случае абсцисса буДе просто «х», а не «год»), когда прямая проводится на глаз.
Графики вависимости 155 Иллюстрация 10 главы 5: население США Население США (в миллионах человек, масштаб логарифмический) . Население, мн. челоВек л ЮС - SO - Xх Xх Xх х X X X X 20 - 10 - -I---------1_________I________I—: 1800 1850 1300 1350 Иллюстрация 11 главы 5: население США Население США (линейный масштаб с прямой сравнения) Иллюстрация 12 главы 5: население США Население США (остатки равны отклонениям от указанной прямой) Население, Мн. челоВег Остаток “ х X 50 - X X 20 - X X I х v„x х 01- | ххххх х I —1_____Li______।______। w, 1800 1850 1300 1350 ЯЮО 1850 1300 1350 *“ (год- 1870). ®°лет ]?• 147 в 1950 г..т. е. 112 м ЙЛ 1 ?д- d5+l,4 (год— 1870), Ордината = (население в млн. чел) — — [35+1,4 (год — 1870)].
156 Глава 5 Эта прямая очень хорошо согласуется с данными, подтверждя наше впечатление о прямолинейности рсста населения и понижен^ •его в 1940 г. Должны ли мы здесь и остановиться? Конечно, нет. Пре/ веденная прямая является неполным описанием поведения данных в более поздние годы. Один из главных секретов в искусстве анализа наблюдений состоит в вычитании таких неполных описаний и иссле- довании получающихся остатков. Сейчас мы этим и займемся. ЗАЙМЕМСЯ ПОДРОБНОСТЯМИ На илл. 12 показаны остатки по отношению к прямой с илл. Ц для периода времени 1800—1950 гг. (Например, в 1880 г., согласно переписи, население составляло 50,2 млн. человек, а прямая дает 35+1,4(10) =49, откуда остаток равен +1,2 млн.) Теперь легко уви- деть более мелкие особенности прироста населения во второй половине периода. Точки в первой половине мало что нам говорят (в особенно- сти потому, что прямая сравнения 35+1,4 (год—1870) до 1840 г. дает слишком большие остатки, так что сравнение за эти годы вряд ли принесет нам пользу). Если пока не смотреть на первую половину и сосредоточить внимание на второй, то можно поместить данные как бы под гораздо более мощный микроскоп. Так почему бы этого не сделать? На илл. 13 показаны те же значения, что и в правой половине илл. 12, но с 15-кратным увеличением. Теперь можно видеть, что на- селение в 1940 г. составляло примерно на пять миллионов меньше, чем это нужно для согласования с соседними значениями. (Как вы думаете, почему это произошло?) И еще — теперь можно видеть, что численность населения в 1920 г. была также пониженной миллиона на два (либо можно считать, что в 1930 г. численность повышена). Теперь наша лупа работает на полную мощность, по крайней мере пока мы не выделим следующее частичное описание и не вычтем также и его. Для более полного изучения прироста населения США во вто- рой половине указанного периода нам потребуются или данные за каждый год, или исследование действующих при этом механизмов. ПОДРОБНОСТИ ДЛЯ ПЕРВОЙ ПОЛОВИНЫ ПЕРИОДА Оставим пока вторую половину периода и вернемся к первой. Мы сказали, что левая часть графика илл. 10 кажется совершенно прямой. Но это еще не все. С этой прямолинейностью в логарифмиче- ском масштабе за первую половину можно поступать точно так же. как и с прямолинейностью в линейном масштабе за вторую половину- На илл. 14 показано, что будет, если на графике илл. 10 провес^ прямую. Результат получился обнадеживающий, поэтому мы сразу вычислим остатки (илл. 15). (В 1880 г. население составляло 50,2 м
Графики вависимости 157 Иллюстрация 13 главы 5: население США „деление США во второй половине **а исследуемого периода времени Иллюстрация 14 главы 51 население США Население США (логарифмический масштаб с прямой сравнения). Уравнение прямой (зависимости логарифма населения от времени): 6,75+0,012 (год — 1800), (увеличенные отклонения от указанной прямой линии) Остаток з 2 О -1 1600 1850 1300 1350 т Ордината = (население в млн. чел.) — (35+1,4 (год — 1870)]. человек, откуда логарифм будет 7,70, а прямая дает 6,75 +0,012(80)== =7,71, так что остаток равен —0,01. Для вычисления точек на илл. 15 было использовано больше знаков в логарифмах.) Как и следовало ожидать, остатки полезно использовать для более ранних лет (первая половина периода), но они имеют очень сомнительную ценность для второй половины. И снова для рассматривания относительно более ровного участка мы можем воспользоваться нашей лупой, как это и сделано на илл. 16. Если помнить, что ±0,01 в логарифмическом масштабе составляет примерно ±2,3% обычного масштаба, то илл. 16 дает очень тонкую картину прироста населения США в XIX в. Начиная с 1860 г. населе- 18йс?°СЛО уже не столь быстрыми темпами. Кроме того, значение для ,. г- понижено на 3—4%. Почему? Здесь мы снова продвинулись безТ°ЛЬКО далеко с нашим микроскопом, насколько это имело смысл привлечения дополнительных данных. ф '“печиалисты считают, что многие из обнаруженных нами мелких Раз Ктуа„ц11й получились не от изменений прироста населения, а из-за ВеРр11чий в полноте переписи. Очевидно, данные тут не могут опро- они НУТЬ СпеЦиалистов. Каков бы ни был источник этих флюктуаций, °нц пРНсУтствуют в числах и заслуживают обнаружения, говорят ли 0 Росте населения США или о недостатках переписей.
158 Глава 5 Иллюстрация 15 главы 5: население США Население США (отклонения от прямой илл. 14) Остаток х* ° ~ ух** х х X ~0,1 - Иллюстрация 16 главы 5; население США Население США в первой половин» исследуемого периода времени * (увеличенные отклонения от прямой илл. 14) Остаток 0,02 - 0,00 - J------1______I I -- 1000 I860 1800I860 1 . 1000 X 1 1 1050 1300 Ордината = log населения — [6,75-1-0,012 (год — 1800)1. Ордината = log населения — —16,75+0,012 (год — 1800)]. Если бы нам нужно было выбрать несколько графиков, характе- ризующих рост населения США с наибольшей доступной нам сейчас полнотой, то мы, наверное, выбрали бы четыре следующих: О илл. 14 и 11, дающие общую картину прироста; О илл. 16 и 13, показывающие более локальное поведение данных. В совокупности эти четыре графика являются решением задачи: по- строить полезные графики зависимости населения США от времени. (Если бы мы были специалистами по демографии, то были бы знакомы с логистическими функциями и смогли бы подобрать одно неполное опи- сание для всего периода с 1800 по 1950 г. Это упростило бы черчение одного графика остатков и, вероятно, позволило бы нам обобщить си- туацию в двух графиках, на одном из которых была бы показана ап- проксимация, а на другом — остатки. Какие уроки можно извлечь из этого примера? Не только то, что если думать больше, то увидишь глубже. Мы видели конкретные при- меры весьма общих принципов, а именно: О приближенная линеаризация графика с помощью выбора под ходящего масштаба всегда позволяет гораздо яснее видеть локальны или характерные особенности; я О выравнивание данных путем вычитания неполного описан всегда позволяет нам растянуть ось ординат и внимательнее всмотре ся в оставшиеся особенности почти любого вида.
Графики зависимости 159 Какие бы ни были данные, всегда можно попытаться добиться большего, спрямляя их или выравнивая. Если нам удастся то или дру- гое, мы почти всегда ясне, увидим, что происходит. ОБЗОРНЫЕ БЛ1?0СЫ Можно ли строить графики не думая? Что мы тогда сможем уз- нать? Что можно увидеть из илл. 9? Как можно это использовать? Какой следующий шаг напрашивается из илл. 11? Сделали ли мы его? Где? Какой следующий шаг напрашивается из илл. 14? Сделали ли мы его? Где? Какие графики мы выбрали бы, чтобы «рассказать все» о населении США? Почему? Какие два важных урока можно извлечь из приведенного примера? 5Д. ГРАФИКИ ОТНОШЕНИЯ ЧИСЛА РОЖДЕНИЙ К ЧИСЛУ СМЕРТЕЙ В сборнике «County and City Data Book» (издаваемом Бюро пере- писей США) содержится много разнообразных сведений. В частности, издание 1961 г. дает для каждого штата число живых новорожденных в 1959 г., число умерших в 1959 г; и плотность населения в 1960 г. Тот, кто верит в «широкие открытые пространства», может подумать, что на отношение числа рождений к числу смертей (рожд./смрт.) будет влиять плотность населения, по крайней мере если не включать в рас- смотрение южные штаты и штаты, выходящие на побережье Атлан- тического океана. На илл. 17 показан график зависимости отношения рожд./смрт. от плотности населения для остальных штатов. Относи- тельно этого графика можно сказать лишь то, что множество точек Иллюстрация 17 главы 5: число рождений и смертей. Отношение числа рождений к числу смертей (рожд./смрт.) и плотность населения Рожд./смрт. х х х X X х х X х Население на 1к!. милю |—1__I I________ i z ого so но го о
160 Глава 5 Иллюстрация 18 главы 5: число рождений и смертей Роад./ смрт. и плотность населения для отдельных штатов (плотность в логарифмическом масштабе) Рсжд./смрт. X X х х хХ X хх X * W , * у Население на 1и1.'миля I I - ! I I 10 20 50 100 200 L-образно. Использование линейного масштаба для количества насе- ления на одну квадратную милю сильно прижало многие штаты к оси ординат, и поэтому трудно сказать, что там, собственно, происходит. Если нам надо разглядеть, что там все же происходит (если там вообще что-нибудь есть), нужно как-нибудь перестроить горизонтальную ось, чтобы штаты не были столь тесно прижаты друг к другу. На илл. 18 показан результат использования логарифмического масштаба для плотности населения. Мы теперь видим, что три штата с аномально высокими отношениями рожд./смрт. имеют хотя и низкие, но не очень низкие значения плотности и уже не кажутся типичными штатами с очень низкими плотностями. Если мы посмотрим на другие штаты, то увидим возможную слабую тенденцию к повышению отно- шения рожд./смрт. с уменьшением плотности населения. (Отбросив эти три штата, мы могли бы вдвое увеличить вертикальный масштаб для остальных и тем самым исследовать эту тенденцию под несколько более сильным микроскопом. Читатель может проверить, что таким путем мы не узнаем почти ничего нового.) ДРУГАЯ ПОПЫТКА Если с плотностью населения ничего не сделаешь, то что попробо- вать еще? Три необычных штата (и их отношения рожд./смрт.) следУ' ющие: Нью-Мексико (4,95), Юта (4,46) и Аризона (3,83). Заглянув источник, мы обнаруживаем, что -во всех трех население молодо > если судить, например, по медиане возрастов. Таким образом, было естественно составить зависимость отношения рожд./смрт. от медиа возраста. та На илл. 19 показан такой график. Очевидно, медиана во3Р оТ- гораздо лучше может объяснить отношение рожд./смрт., чем п
Графики зависимости 161 еления, хотя, конечно, видимая зависимость не является иость на если мы хотим продвигаться дальше, нужно найти и вы- совершен'^_ли^о qacTH4Hoe описание этой кажущейся зависимости, честь ь^<<п ИЛОЖИть глаз к бумаге» и посмотреть вдоль облака точек ЬСЛ ]Q то можно увидеть некоторую тенденцию к изгибанию (вог- на ИЛтЛью вверх). Если бы можно было исключить эту тенденцию, то И^ТОСогли бы провести приемлемое сравнение отдельных точек с пря- мо^линией. Как можно было бы прийти к такому более простому описанию? Можно попытаться изменить масштао по оси ординат. Легко видеть, то использование квадратов чисел только увеличит кривизну, так что остается двинуться в противоположную сторону и применить логариф- мы Этот выбор привлекателен еще и потому, что тогда число рожде- ний и смертей располагается более симметрично. Симметрию можно продемонстрировать следующими тождествами: ]0„ «^log рожд,— log смрт.==—(logcMpT.— 1оёрожд.)=—log^-. ° смрт. ри/пд. Результат показан на илл. 20. Законченность ему придает хорошо подогнанная прямая сравнения. Облако точек теперь выглядит го- раздо прямее. Изобразив соответствующие остатки в зависимости от медианы возраста и надписав названия крайних штатов, получим илл. 21. Иллюстрация 19 главы 5: число рождений и смертей Рожд./смрт. и медиана возраста для отдельных штатов Рожд./смрт. 6 Л’« 1247 ххх хх х Медиана Возраста населения
162 Глава 5 Иллюстрация 20 главы 5: число рождений и смертей Рожд./смрт. (в логарифмическом масштабе) и медиана возраста для отдельных штатов log рождений МИНУС log смертей 0,7 0,0 0,5 0,4 X *'"х^ / хХк X "х. х х ** '' Медиана л Возраста 4 населения ---------1 1 1-----------„ 25 28 31 Прямая = 0,6—0,04 (возраст — 25), Иллюстрация 21 главы 5: число рождений и смертей Остатки зависимости логарифма (рожд./смрт.) от медианы возраста по отдельным штатам Остаток л НвбоЗоХ ХКоЛОфОрйШГ 0,04 -0,04 х Ю.Докота Х*С.Докота Afito Л Мо» I I______ 25 28 Медиана дазааШВИ населения зГ~ 0 Ордината = log (рожд./ смрт.) —10,6—0,4 (возраст — 25)1.
Графики вависимости 163 Иллюстрация 22 главы 5: число рождений и смертей Остатки из илл. 17 на карте 1 здесь соответствует: ±0,01 от величины log (рожд./смрт.), примерно ±0,05 от величины рожд./смрт., ±0,25 лет от медианы возраста. ПРИВЛЕЧЕНИЕ ГЕОГРАФИЧЕСКОЙ КАРТЫ Два штата с особенно большими остатками на карте являются со- седями. Четыре штата со средним медианным возрастом и заметно по- ниженными значениями остатков также соприкасаются друг с другом. Очевидно, нужно видеть эти остатки на географической карте. На илл. 22 значения остатков нанесены на карту США. Довольно JK0 Заметить приближенную закономерность в их распределе- Мог ~~ соседние штаты гораздо чаще похожи, чем отдаленные. (Не для и*1 ПРИ™НОЙ исключительно большого положительного остатка В1,_Иллин°йса быть большой размер Чикаго?) Для дальнейшего прод- вижения нужно: О более тщательно учесть возраст населения штата или и смел ольше знать об общих механизмах, влияющих на рождаемость Услокп Ность- (Не могут ли здесь помочь сведения об экономических иях каждого штата?) В^т^’ НаМ Здесь может понадобиться и то и другое! Что и в в пРИмеРе мы обратили внимание в основном на то же самое, и в предыдущем: (>*
1 64 Глава 5 О как правило, полезно с помощью изменения масштаба 0Се.-. сделать зависимость примерно линейной; 81 О выравнивание с помощью вычитания позволяет гораздо легч увидеть более тонкие детали. Все это остается в силе, если наша зависимость не точная, а при. ближенная. Однако приближенный характер зависимости все же позволил сде- лать один новый вывод, как мы это видели на илл. 17 и 18: О изменение масштабов помогает уменьшить путаницу 113.3а чрезмерного скопления точек. В обоих рассмотренных примерах мы и не ожидаем, чтобы точки лежали НА прямой, а только лишь, если нам повезет, чтобы они на- ходились БЛИЗКО от нее. Как только мы рассмотрели первый пример «под микроскопом», то увиденное там, по существу, перестало отличать- ся от второго. Если бы перепись 1850 г. была поручена двум разным подрядчикам, то для населения США мы получили бы два разных числа. Потенциальные значения для населения США (которые мы могли бы получить в некоторых разумных пределах) не лежат НА какой-ни- будь кривой; они лишь лежат ОЧЕНЬ БЛИЗКО к ней. Уж так полу- чилось, что в одно и то же время не проводилось более одной переписи. Из-за этого первый пример КА>КЕТСЯ несколько отличным от вто- рого, но, несмотря на это, в следующей главе мы будем менять места- ми оси, используемые для года и населения. Когда мы осознали не- определенность того, «какими могли бы быть числа», то стало ясно, что почти все данные будут находиться в лучшем случае «очень БЛИЗКО от прямой или кривой». ОБЗОРНЫЕ ВОПРОСЫ Откуда мы взяли данные для примера, рассмотренного в этом раз- деле? Чему научила нас наша первая попытка? Почему для плотности населения было выгодно использовать логарифмический масштаб? Что мы попробовали сделать после этого? Почему? Удалось ли что-нибудь таким образом узнать? Почему мы попробовали применить логариф- мическую шкалу для отношения рожд./смрт.? Какие две иллюстрации дают вместе полную картину исследования (пока без карты)? Почему мы привлекли географическую карту? Что это нам дало? 5Е. ВЫРАВНИВАНИЕ ОПРЕДЕЛЯЕТ НАКЛОН Теперь мы уже хорошо знакомы с преимуществами «уплощенного графика (без наклона), так как с ним можно растянуть ось ордин Перед уплощением график полезно спрямить; тогда мы сможем «Р* дуть» наш график еще больше, но уплощение даже и невыпрямлен графиков также приносит пользу.
Графики зависимости 165 23 * "°"ат“ Невыровненные данные Иллюстрация 24 главы 5: пояснение Устранение наклона из данных илл. 23 Нам нужен такой способ, который позволил бы сделать наши дан- ные более «плоскими» независимо от того, выпрямлены они или нет. Слово «уплощение» относится здесь к общему виду данных, а не к мелким особенностям. Любую группу данных, похожую на правдо- подобный ряд значений, оставшихся после вычитания прямой, мы будем считать уплощенной, хотя бы она и не была в буквальном смы- сле слова плоской. На илл. 23 показан пример данных с довольно сильной крутизной, а на илл. 24 — результат «уплощения» этих данных. Очевидно, второй рисунок вряд ли можно назвать плоским, так что «уплощение» — не- подходящий термин. Столь же нехорошо говорить о «крутизне» илл. 23, так как в левой части графика крутизна очень мала, а справа очень велика. Нам нужно какое-то другое слово, и мы возьмем «наклон». Будем говорить, что илл. 24 выровнена, т.е. не имеет наклона, а угловой коэффициент той прямой, вычитание которой превращает л. 23 в илл. 24 — и таким образом устраняет важную часть поведе- ш данных, в результате чего можно лучше разглядеть оставшуюся часть,— будет илл. 23 наклоном °Т °бРазом> вопрос «каким наклоном обладает зависимость у остане°УДеТ У нас 03начать «при каком значении b в функции у—Ьх не оценкой Я наклона?>> Соответственно найденное значение b будет нашей иаклсио наклона, а значения функции у—Ьх — результат устранения Мог1тВлаВИСИМОСТИ У от * Ределени °Ь1ТЬ Различные — часто очень мало различающиеся — оп- я «отсутствия наклона». Для каждого такого определения
166 Глава 5 будет характерно свое — соответственно очень мало отличное от дру. гих — значение Ь, а отсюда также оцененное значение наклона и ря„ выровненных чисел. Эти последние варьируют при изменениях опре- деления, но опять-таки сравнительно на малую величину. Существование таких вариантов определения и необходимость вы- бора между ними обычно не причиняют никаких затруднений. В большинстве случаев наклон представляет для нас примерно такую же помеху, как для лесника кусты и бурелом на тропинке, ко- торой он собирается постоянно пользоваться: О нам, может быть, интересно знать, что имеется некоторый на- клон (хотя иногда еще задолго до того, как мы собрали данные, мы уже знаем, что в конкретном направлении возможно его появление); 0 мы даже, возможно, захотим узнать, как велик наклон; 0 мы почти наверняка захотим прежде всего убрать его с нашего пути. В предыдущих примерах мы уже расчищали себе путь к дальней- шему исследованию, выравнивая графики с помощью визуальной оцен- ки наклона. Нам часто понадобится делать нечто подобное, чтобы под- готовить числа для последующего анализа. Поскольку оценка накло- на нам будет нужна именно для этой цели, мы хорошо сделаем, если приложим все усилия для получения возможно лучшей его оценки. (Не следует беспокоиться о том, будет ли наша оценка наилучшей возможной, или о том, достижимо ли вообще разумное определение «наилучшей возможной» оценки.) ОБЗОРНЫЕ ВОПРОСЫ Что такое наклон? Зачем нам понадобилось это специальное слово? Что означает «выравнивание»? Как мы определяем наклон? Существует много определений, или лишь несколько, или, может быть, только одно определение «выравнивания»? Нужен ли нам непременно «на- илучший возможный» наклон? Можете ли вы дать определение «наи- лучшего возможного» наклона? 5Ж. ЧЕГО МЫ ДОСТИГЛИ? В этой главе мы встретились с графиками зависимости у от х. Может быть, мы даже уже немного освоились с ними. Наше продвижение вперед не измеряется теми конкретными прие- мами, которые мы увидели или поняли, хотя успехи такого тип также важны. Наш прогресс скорее измеряется тем, в какой степе мы приняли такие положения, как нижеследующие: 1. Графики — наши друзья. было 2. Нередко вычисления служат только для того, чтобы можно построить график.
Графики зависимости 167 г Лики заставляют нас замечать неожиданное; ничто не может 3‘ быть важнее этого. 4 разные графики показывают одни и те же данные с совершенно ' разных сторон. _ gbI>n0 бы глупо ожидать, чтобы один график рассказал нам все, 5 так же как трудно этого ожидать от одного числа. 6 Чтобы совместно изобразить у и X, мы должны принять ответ- ственные решения — форма, в которой выражена одна или обе переменные, может сыграть решающую роль. 7 Первый шаг в изучении искусства построения графиков — мак- симально возможное выпрямление зависимости или облака точек. 8. В поисках прямолинейности, по-видимому, разумно вместо у наносить на графику»’, J/J, log у, —1/у и т. п. 9. Разумно с той же целью вместо X использовать х2, VX, log х, —\!х и т. п. 10. После выпрямления графика обычно бывает очень выгодно выров- нять его, обычно с помощью изображения остатков (по отношению к неполному описанию — прямой, которую мы, возможно, еще и не нанесли на график). 11. При изображении облака точек иногда приходится преобразовать X и у с той целью, чтобы важные особенности не маскировались из-за чрезмерного скопления точек- частности, мы научились: вычитать одну кривую из другой, находить уравнение прямой по двум точкам. В одном отношении рассмотренные два примера отличались. Годы проведения переписи устанавливаются законом, и в каждый такой год измеряется количество населения. Довольно легко вообразить, что точки взяты с кривой с одним-единственным значением населения для каждого возможного момента времени. С другой стороны, отношение Рожд./смрт. дает пример гораздо более симметричной ситуации неза- висимо от того, сравнивать ли его с плотностью населения или с ме- дианой возраста. Границы штатов установлены законом, и для каждого ппрТа на®людаются две величины, х и у. Тут уже никак невозможно шееЦположить> что все данные могут лежать НА кривой; самое боль- ппо’ Н-а что МОЖио надеяться,— это что данные где-то БЛИЗКО от “рямои или кривой. В О О можно надеяться,— это что данные где-то БЛИЗКО от 5И. ДОПОЛНИТЕЛЬНЫЕ УПРАЖНЕНИЯ С*1- илл. 25—33.
Иллюстрация 25 главы 5: данные и упражнения Данные о 15 наименьших округах трех штатов (из County and City Data Book за 1962 г.) А) ЮЖНАЯ КАРОЛИНА Население в 1960 г. I Семья (1959 г.) Местное уп- равление (1957 г.)| 1) Наз- вание Общее число % с образов, менее 5 кл.2^ % с возрас- том 65 лет и старше На 1 кв. i милю I % с доходом менее 3000 $ % бюджета на образов. Общий бюджет (в ЮОО $) 2424 Мак-Кормик 8,629 . 28.2 8.8 23 59.8 62.0 566 2130 Аллендейл 11,362 34.1 7.9 27 60.1 63.1 1082 2051 Джеспер 12,237 37.1 7.5 19 60.2 79.7 1082 2050 Калун 12,256 26.1 7.9 33 68.2 76.6 659 1852 Салуда 14,554 17.0 9.7 33 50.6 68.9 656 1753 Эджфилд 15,735 23.1 8.0 33 55.3 70.1 785 1720 Бамберг 16,274 26.6 8.3 41 58.5 63.1 1340 1622 Хэмптон 17,425 31.8 7.2 31 58.0 57.8 1312 1608 Барнуэлл 17,659 23.2 7.4 32 47.5 82.9 1565 1405 Феэрфилд 20,713 30.8 7.8 30 54.2 56.8 1596 1356 Аббевилл 21,417 23.0 8.7 42 42.1 56.4 1717 1339 Ли 21,832 31.7 6.4 53 68.6 75.8 1671 1211 Дорчестер 24,383 23.1 6.6 43 49.6 67.9 1684 1092 Коплетон 27,816 29.3 7.5 27 57.9 46.7 3090 1066 Марлборо 28,529 29.6 6.8 59 58.3 63.4 1948 (Весь штат) ' ((34,262)) (20.3) (6.3) (79) (39.5) (63.4) — В штате всего 46 округов. Б) ДЖОРДЖИЯ 3077 Эк ел 1,876 28.0 8.5 4 55.6 59.5 122 3051 Куитман 2,432 34.8 9.3 14 70.0 79.5 205 3028 Г ласкох 2,672 35.6 56.4 19 61.1 67.9 252 2979 Вебстер 3,247 34.5 8.7 17 71.2 73.3 225 2978 Шлей 3,256 23.0 10.3 20 67.4 69.7 221 2970 Т альяферро 3,370 27.9 13.4 17 68.5 48.8 391 2950 Досон 3,590 22.4 8.6 17 64.7 71.3 293 2934 Лонг 3,874 22.7 7.5 10 60.1 52.0 408 2875 Таун 4,538 11.3 10.2 27 63.7 33.4 724 622 2674 Бейкер 4,543 33.2 8.9 15 74.1 56.4 2873 Клей 4,551 26.8 10.5 20 66.6 59.2 417 686 703 652 Л1В 2832 Ланир 5,097 30.1 7.5 31 57.4 64.5 2810 Чарлтон 5,313 26.5 6.2 7 44.0 49.1 2808 Хирд 5,333 22.7 10.7 18 56.4 57.1 2805 Уилер 5,342 29.4 9.5 18 63.7 54.4 (Весь штат) ((12,038)) •17.6) (7.4) (68) (35.6) (45.0) В штате всего 159 округов.
Графики зависимости 169 Иллюстрация 25 (продолжение) В] I АЛАБАМА 10,726 18.4 10.7 18 51.5 ЗВ.5 1.74 2201 Кооса Клеберн Клей Буллок Грин 10,911 21.5 9.4 19 52.4 48.2 1088 2179 12,400 14.4 13.0 21 54.0 48.3 1347 2034 13,462 32.7 11.7 22 69.4 42.8 1727 1945 1934 13,600 38.0 9.8 21 74.0 57.9 1514 1876 1870 1828 Ламар Бибб Уинстон 14,271 14.7 11.0 24 51.4 37.5 2507 14,357 22.7 9.6 23 54.4 54.7 1405 14,858 17.3 9.8 24 53.8 55.7 1072 1824 Креншо 14,909 23.9 11.2 24 69.5 51.4 1332 1796 Г енри 15,286 27.8 9.0 27 63.8 56.0 1313 1794 Вашингтон 15,372 23.3 7.8 14 51.7 54.5 1353 1790 Лаундес 15,417 37.2 9.2 22 72.1 55.4 1243 1729 файетт 16,148 16.9 10.8 26 54.7 43.0 1425 1715 Чероки 16,303 16.6 8.9 27 49.1 53.7 1498 162S Перри 17,358 28.7 10.5 24 69.2 49.4 168S (Весь штат) ((25,738)) (16.3) (8.0) (64) (39.1) (45.8) — В штате всего 67 округов. *) Порядковое место в стране по количеству населения. 2) Среди лиц с возрастом 25 лет и старше. () Медиана. Г) УПРАЖНЕНИЯ 25а) В пп. А — В даны некоторые сведения о 15 наименьших округах в шт. Южная Каролина, Алабама и Джорджия. Составьте график зависимости величины У (% с образованием меньше 5 классов) от * (% с доходом менее 3000 долл.) хотя бы для двух штатов. Продолжите этот анализ и прокомментируйте его, Д) ИСТОЧНИК: County and City Data Book за 1962 г.
170 Глава 5 Иллюстрация 26 главы 5: наблюдения и упражнения Некоторые упражнения 26а) Приведенные ниже данные были получены при подготовке стандартной кривой используемой для определения формальдегида по методу добавления окрашиваю! щей кислоты и концентрированной серной кислоты; получающийся пурпурныд цвет индицируется с помощью спектрофотометра Бекмана (модель DU) на длине волны 570 мкм. Использованное количество СН2О Оптическая плотность 0,1 0,086 0,3 0,269 0,5 0,446 0,6 0,538 0,7 0,626 0,9 0,782 Проведите графический анализ, используя по меньшей мере два графика. Про- комментируйте. 266) Соотношение между количеством растворенного в воде Р-эритродина и мут- ностью раствора, определяемой по колориметру, не является столь простым. Вот некоторые наблюдения: Концентрация, мг/мл Отсчет колориметра 40 69 50 175 60 272 70 335 80 390 90 415 Проведите графический анализ. Прокомментируйте. Йбв) Найдите две различные группы точек (х, у), которые вам интересны, и постройте необходимые графики. ИСТОЧНИК: см, илл, 27.
Иллюстрация 27 главы 5: наблюдения и упражнения Сппеожание углерода в 36 образцах глин по прямым измерениям сод р и косвенной оценке Д) ДАННЫЕ |Глина# | Измерения | | Оценка 1 1.53 2.46 2 0.87 1.54 3 0.28 0.70 4 0.27 -0.40 Б 3.07 4.82 6 0.25 0.30 7 0.25 0.64 8 0.29 0.78 9 0.12 0.12 10 1.50 2.36 11 1.31 2.14 12 0.31 0.08 13 0.14 -0.01 14 2.98 4.53 15 6.84 9.94 16 2.15 3.68 17 1.35 1.84 18 0.40 0.97 19 4.18 6.14 20 0.22 0.52 21 0.38 0.40 22 0.24 0.46 23 1.79 2.80 24 0.58 2.09 25 6.55 9.68 26 2.54 4.08 27 1.43 2.80 28 2.74 3.93 29 6.08 8.22 30 0.75 0.23 31 0.16 0.35 32 5.06 7.49 33 34 35 36 0.86 0.16 11.43 1.41 -0.50 15.80 0.19 0.18 27а) г УПРл>КНЕНИЕ ЖЖа«ие УглеР°Да в глине можно измерить непосредсгвенно, нагревая ее ibie соединения, после чего собирают об- • nwp, 11ока не ПППоВаВШУЮСЯ ДВУ01 сгорят все углерод! кись углерода и измеряют ее количество. Содержание угле- кЗДич^п *акже оценить- объединяя соответствующим стандартным образом TaKuv .L его „составных частей. В приведенной таблице даны результаты литр т-A р нии на оо образцах глин из Южного Девоншира (Англия). Прове- В) иг ФИЧеС аНаЛИЗ и прокомментируйте его. arid the C. A., Franklin N. L.y Statistical Analysis in Chemistry cal industry, John Wiley, New York, 1954 (табл, 6,3 на с, 218),
172 Глава 5 Иллюстрация 28 главы 5: данные и упражнения Процент голосов (из числа голосов, поданных за две основные партии США) за кандидата в президенты от демократической партии на 12 выборах в 24 северо-восточных и центральных штатах А) ДАННЫЕ 1920 1924 1928 1932 1936 1940 1944 1948 1952 1956 1960 1964 Колорадо 37.7 27.8 34.4 57.0 61.9 48.7 46.6 52.7 39.3 39.5 45.1 61.6 Коннектикут 34.5 30.9 45.9 49.4 57.8 53.6 52.7 49.2 44.1 36.3 53.7 67.9 Делавэр 43.0 38.9 33.9 48.8 54.9 54.8 54.6 49.4 48.1 44.7 50.8 61.1 Иллинойс 27.3 28.4 42.6 56.8 59.2 51.2 51.7 50.4 45.0 40.4 50.1 59.5 Индиана 42.3 41.2 39.9 56.0 57.5 49.3 47.1 49.6 41.4 39.9 44.8 56.2 Лйсва 26.4 23.0 37.8 59.1 56.0 47.8 47.7 51.4 35.8 40.8 43.3 62.0 Канзас 33.4 27.7 27.3 54.8 53.9 42.7 39.4 45.4 30.7 34.3 39.3 54.6 Мэн 30.2 23.3 31.1 43.6 42.8 48.8 47.5 42.7 33.8 29.1 43.0 68.8 Мэриленд 43.3 47.7 42.6 63.1 62.7 58.8 51.9 49.3 44.2 40.0 53.6 65.5 Массачусетс 28.9 28.5 50.5 52.1 55.1 53.4 52.9 55.9 45.6 40.5 60.4 76.5 Мичиган 23.4 14.8 29.1 54.1 59.2 49.8 50.5 49.1 44.2 44.2 51.0 66.8 Миннесота 21.6 11.7 41.4 62.3 66.6 51.9 52.8 58.9 44.4 46.2 50.7 63.9 Небраска 32.6 33.5 36.4 64.1 58.4 42.8 41.4 45.8 30.8 34.5 37.9 52.6 Нью-Гэмошир 39.7 36.7 41.2 49.3 50.9 53.2 52.1 47.1 39.1 33.9 46.6 63.9 Нью-Джерси 29.6 30.6 40.0 51.0 60.1 51.8 50.7 47.7 42.5 34.6 50.4 66.0 Нью-йорк 29.5 34.3 48.8 56.7 60.2 *51.8 52.5 49.5 44.0 38.7 52.6 63.7 С. Дакота 18.9 12.7 44.8 71.3. 69.2 44.7 45.8 45.4 28.6 38.2 44.5 58.1 Огайо 39.8 28.9 34.7 51.5 60.8 52.2 49.8 50.1 43.2 38.9 46.7 62.9 Пенсильвания 29.2 22.6 34.2 47.1 58.2 53.5 51.4 48.0 47.0 43.4 51.2 65.2 Род-Айленд 33.9 37.9 50.3 56.0 56.8 56.8 58.7 58.2 49.1 41.7 63.6 80.9 Ю. Дакота 24.5 . 21.2 39.4 64.9 56.0 42.6 41.7 47.6 30.7 41.6 41.8 55.6 Вермонт 23.5 16.7 33.0 41.6 43.4 45.1 42.9 37.5 28.3 27.8 41.4 66.3 3. Виргиния 43.9 47.1 41.3 55.1 60.7 57.1 54.9 57.6 51.9 45.9 52.7 67.9 Висконсин 18.5 17.9 45.3 67.0 67.8 50.9 49.1 52.3 38.8 38.1 48.1 62.2 Б) УПРАЖНЕНИЯ В п. А дан % голосов за демократическую партию в каждом из указанных штатов на 12 президентских выборах с 1920 по 1964 г. Составьте графики следующих зависи- мостей: 28а) 1964 г. от 1956 г.; 286) 1960 г. от 1920 г.; 28в) 1952 г. от 1932 г.; 28г) любого ряда значений от любого другого, где, по вашему мнению, будет имет место сильная зависимость.
Графики зависимости 173 Иллюстрация 29 главы 5: данные и упражнения Еще упражнения пепение этиленхлоргидрина, Запись (264, 270) означает: «При содержании ок! мг этиленхлоргидрина было обнаружено 27,0 мг». Пары наблюдений (6): ^64, 270), (595, 594), (1173, 1183), (1777, 1780), (2355, 2370), (3578, 3576). ИСТОЧНИК: Uhrig К., Determination of ethylene chlorohydrin. Industrial and Engineering Chemistry, Analytical Edition, 18, 369, 1946 (табл. 1 на с. 369). УПРАЖНЕНИЕ: Выберите вид графика, который при внимательном рассмот- рении поможет обнаружить что-то новое. Объясните причины вашего выбора. Постройте график. 296) Полярографическое поведение ионов, содержащих ванадий. Запись (94 351 означает: «При концентрации ионов ванадита 0,094 ммоль/л постоянная анодной диффузии была равна 0,35 мкА». Пары наблюдений (8)’ (94 35) (278 оя. /коя 178), (880, 309), (1548, 563), (1840, 696), (352 1285) (505 18И ’( ’ ’’ ( ’ charactenst.cs of vanad.um m .ts various oxidation states. J. Amer. Chem. S<£° 67, 182 188, 1945 (табл. 1 на с. 186). УПРАЖНЕНИЕ: постройте необходимые графики зависимости диффузионного тока от концентрации ванадита. 29в) Количество нужного продукта химической реакции по истечении различного времени после начала реакции и при различных условиях. Запись (1; 32, 54; 87, 159, 226) означает: «В опыте № 1 количество нужного продукта в молях на литр было 0,032 через 80 мии, 0,054 через 160 мин, 0,087 через 320, 0,159 через 640 и 0,226 через 1280 мин». Группы данных (16 опытов при 16 различных ус- ловиях): (1; 32, 54; 87, 159, 226), (2; 147, 234; 343, 342, 203), (3; 48, 108; 225, 346, 420), (4; 232, 390; 556, 634, 416), (5; 37, 38; 172, 200, 239), (6; 179, 283; 405, 342, 216), (7; 86, 133; 259, 398, 508), (8; 309, 514; 722, 764, 389), (9; 74 , 99; 200, 309, 249), (10; 253, 343; 391, 284, 75), (11; 133, 271; 430, 580, 494), (12; 508, 756; 842, 570, 115), (13; 96, 158; 276, 339, 230), (14; 308, 444; 467, 249, 29), (15; 228, 372; 579,691,539), (16; 626,880; 895,434, 58). ИСТОЧНИК: Box G. Е. Р„ Hunter W.G. A useful method for model-building. Technometrics, 4, 301—318, 1962 (табл. 1 на с. 304). УПРАЖНЕНИЕ: постройте необходимые графики зависимости концен- трации через 640 мин от концентрации через 160 мин. 29г) Постройте необходимые графики для одной или более пар времен реакции, (Группы данных приведены в упр, 29в.)
174 Глава 5 Иллюстрация 30 главы 5: данные и упражнения Новые упражнения ЗОа) Анализ образцов на хризантеническую кислоту. Запись (0,23) означает: «При добавлении 0 мкг синтетической рацемической хризантенической кислоты от- счет по шкале колориметра был равен 23». Пары наблюдений (13): (0.23), (5 32), (10, 40), (20, 54), (40, 86), (60, 118), (80,146), (100, 179), (120, 212), (140’ 240), (160, 272), (180, 300), (200, 330). ИСТОЧНИК: Schreiber А.А., Me. Clel. Ian D. В. Estimation of microquantities of pyrethroids. Analytical Chemistry, 26 604—607, 1954 г., табл. 1 на с. 605). УПРАЖНЕНИЕ: постройте необходимые графики зависимости отсчета колориметра от количества хризантенической кислоты. 306) Остаточная прочность образца парусины весом 8 унций после воздействия гриб- ка четырех различных видов. Запись (3; 97, 105; 103, 101) означает: «После вы- держивания в течение 3 ч прочность (по отношению к начальной прочности, равной 100) образца, подвергнутого действию грибка Thielaria, составляла 97, действию Humicola — 105, Chaetomium — 103, Myrothecium — 101». Группы данных (24): (3; 97, 105; 103, 101), (6; 98, 106; 101, 105), (9; 95, 107, 99, 95), (12; 96, 105; 95, 95), (15; 97, 106; 90, 100), (18; 98, 102; 91, 97), (21; 97, 101; 78, 98), (24; 97, 90; 74, 93), (27; 90, 81; 71, 82), (30; 96, 78; 71, 76), (33; 89, 73; 65, 67), (36; 88, 69; 58, 64), (39; 89, 63; 53, 59), (42; 86, 59; 47, 54), (45; 82, 55; 44, 50), (48; 79, 53; 44, 42), (51; 73, 52; 42, 41) (54; 73, 41; 40, 40), (57; 73, 42; 40, 39), (60; 68,41; 39,35), (63; 59, 36; 38, 37), (66; 57, 37; 37, 33), (69; 57, 31; 35, 34), (72; 55, 34; 36, 31). ИСТОЧНИК: Abrams Е. Microbiological deterioration of cellu- lose during the first 72 hours of attack. Textile Research J., 20, 71—86, 1950, (табл. 2 на с. 75). УПРАЖНЕНИЕ: постройте необходимые кривые уменьшения прочности по крайней мере для двух видов грибка. ЗОв) Экспресс-анализ на кофеин. Запись (257, 131) означает: «При концентрации ко- феина 0,257 мг на 100 мл средняя оптическая плотность оказалась равной 0,131». Пары наблюдений (20): (257, 131), (498, 262), (506, 265), (514, 263), (747, 384), (760, 393), (770, 396), (996, 512), (1013, 518), (1027, 523), (1245, 633), (1266, 643), (1284, 650), (1494, 760), (1519, 768), (1541, 775), (1798, 903), (2054, 1040), (2311, 1160), (2568, 1290). ИСТОЧНИК: Ishler N. Н., Finucaine Т.Р., Barker Е. Rapid spectrophotographic determination of caffeine. Analytical Chemistry, 20, 1162—1166, 1948 (табл. 1 на с. 1162). УПРАЖНЕНИЕ: постройте необхо- димые графики зависимости оптической плотности от концентрации кофе- ина.
Графики вависимости 175 Иллюстрация 31 главы 5: данные и упражнения Еще упражнения Степень сохранности легковых и грузовых автомобилей на службе одного из 31а) ’ коммунальных услуг. Запись (Оп, 990) означает; «По истечении 1/2 года П990 всех машин годилось для использования». Пары данных (8): (On, 990), (1п, 972), (2п, 944), (Зп, 895), (4п, 784), (5п, 679), (6п, 593), (7п, 497). ИСТОЧНИК: Krone S. A. Analysis of survival data by regression techniques. Technometrics, 5 jgj_______174, 1968 (таблица на с. 168) (его источник: Cowles И. A., Jr., Prediction of mortality characteristics of industrial property groups. Ph. D. Thesis, Iowa State University, 1957). УПРАЖНЕНИЕ: постройте необходимые графики доли сохранившихся машин в зависимости от длительности эксплуатации. 316) Количество теплоты и энтропии силиката натрия. Запись (400, 3080, 885) оз- начает: «При нагревании от «комнатной» температуры (298, 16К) до абсолютной температуры 400 К теплосодержание Na^SiOg увеличилось на 3080 кал/моль, а энтропия — на 8,85 кал/(град-моль)». Группы наблюдений (17): (400, 3080, 885), (500, 6300, 1604), (600, 9650, 2214), (700, 13190, 2760), (800, 16910, 3256), (900, 20730, 3708), (1000, 24700, 4124), (1100, 28770, 4511), (1200, 32940, 4874), (1300, 37210, 5216), (1361, 39870, 5416), (1361, 52340, 6332), (1400, 54010, 6453), (1500, 58390, 6748), (1600, 62570, 7024), (1700, 66850, 7284), (1800, 71130, 7528). Последняя точка, при 1800 К, дает увеличение теплосодержания на 71 130 кал/ моль и энтропии на 75,28 кал/(град<моль). ИСТОЧНИК: Naylor В. F. High- temperature heat contents of sodium metasilicate and sodium disilicate. J. Amer. Chem. Soc., 67, 466—467, 1945 (табл. II на с. 467). УПРАЖНЕНИЕ: по- стройте необходимые графики увеличения теплосодержания в зависимости от температуры. 31в) По данным Нейлора (см. выше) постройте необходимые графики увеличения энтропии в зависимости от температуры.
176 Глава 5 Иллюстрация 32 главы 5: данные и упражнения И еще примеры 32а) Равновесное расщепление трибромида плутония с помощью воды (газы высоких температурах). Запись (911, 153) означает: «при абсолютной температмп 911 К наблюдаемая постоянная равновесия равнялась 0,0153 атм-1». Папы , блюдений (11): (911, 153), (914, 156), (919, 149), (920, 163), (882, 246), (876 28щ’ (875, 247), (883, 243), (815, 704), (817, 502), (816, 6921. ИСТОЧНИК: Shift д ” utdson A. R. Equilibrium in the vapor-phase hydrolysis of plutonium tribromide статья 6.24 на с. 831—840 книги The Transuranium Elements, ed. Seaborg, Katz’ Manning. National Nuclear Energy Series IV-14B. McGraw-Hill, 1949 (табл 2 на с. 835). УПРАЖНЕНИЕ: постройте необходимые графики постоянной равновесия в зависимости от температуры. Как вы думаете, какие три из 11 групп наблюдений авторы отбросили? 326) Продажа швейцарских облигаций после второй мировой войны. Запись (46,527) означает: «В 1946 г. общая сумма, вырученная от продажи швейцарских облп. гаций, государственных и частных, достигла 527 млн. франков». Пары данных (23): (46, 527), (47 , 276), (48 , 472), (49,342), (50, 174), (51, 434), (52, 333) (53 249), (54 , 242), (55, 492), (56, 613), (57, 1148), (58, 827), (59,686), (60, 890)’ (61, 1023) (62,1124), (63,2091), (64, 2503), (65, 2523), (66,2292), (67,2446), (68,2648). ИСТОЧНИК: Swiss Statistical Abstract, издание Швейцарского кредитного бан- ка, ноябрь 1969 г., табл, на с. 46. УПРАЖНЕНИЕ: постройте необходимые гра- фики по данным с 1950 по 1968 г. 32в) Сравнение двух способов измерения содержания воды в образцах с морского дна. Запись (0—3; 76, 76) означает: «Для образца, взятого с глубины 0—3 дюйм от поверхности морского дна, измерение процентного содержания воды с по- мощью высушивания в печи дало величину 76%, измерение с помощью анализа на хлорид и последующего использования известного значения концентрации хлорида в глубинной морской воде дало также 76%». Группы данных (14): (0—3; 76, 76), (3—6; 68, 72), (6—9; 69, 69), (9—12; 67, 67), (12—15; 60, 64), (15—18;62,62), (18—21; 60, 60), (21—24; 58, 59), (24-27; 57, 57), (27—30, 55, 56), (30—33; 55, 55), (33-36; 55, 55), (36—39; 53, 54), (39—42; 54, 54). ИСТОЧНИК: Anderson L. J., Conductometric titration of chloride in sea water and marine sedi- ments. Analytical Chemistry, 20, 618—619, 1948 (табл. II на c. 619). УПРАЖНЕ- НИЕ: вычислите разности между содержаниями воды, полученными способом «хлорид» и способом «печь». Представьте их методом стебля с листьями. Проком- ментируйте, что получилось. Вычислите и нанесите на график остатки, найденные в результате аппроксимации прямой линией зависимости содержания воды от глубины, в отдельности для каждого из двух способов. Какой можно сделать вывод относительно этих способов?
Графики зависимости 177 Иллюстрация 33 главы 5: данные и упражнения Медиана возраста городского и сельского населения й оценка количества населения американских колоний MP ЛИАНА ВОЗРАСТА, ГОРОДСКОЕ И СЕЛЬСКОЕ НАСЕЛЕНИЕ — ?о дйым переписей в США | ГОД | Медиана | возраста| Г ородское | население | Сельское | население 1 1950 30.4 88,927,464 61,769,897 40 29.5 74,923,702 57,245,573 30 27.1 68,954,823 53,830,223 20 26.1 54,157,973 51,552,647 10 24.9 41,998,932 49,973,334 1900 23.8 30,159,921 45,834,654 1890 22.9 22,106,265 40,841,449 80 21.6 14,129,735 36,026,048 70 20.6 9,902,361 28,656,010 60 20.2 6,216,518 25,226,803 50 19.5 3,543,716 19,648,160 40 17.9 1,845,055 15,224,398 30 17.2 1,127,247 11,738,773 20 16.5 693,255 8,945,198 10 15.9 525,459 6,714,422 1800 15.7 322,371 4,986,112 1790 15.9 201,655 3,727,559 Медиана возраста — данные из серии А90 (медиана возраста белых мужчин). Городское население— А195 (население «городской территории»). Сельское население — А206 (население «сельской территории»). Б) НАСЕЛЕНИЕ АМЕРИКАНСКИХ КОЛОНИЙ Год 1780 70 60 50 40 30 20 10 1700 16S0 80 70 60 50 40 1630 I Количество [ населения 2 780 369 2 148 076 1 593 625 1 170 760 905 563 629 445 466 185 331 711 250 888 216.372 151.507 111 935 75.058 50 368 26 634 4 646 В) УПРАЖНЕНИЯ 33а) Внимательно проанализируйте данные п.А о медиане возраста. 336, в) Внимательно проанализируйте данные п.А о городском и сельском населении. 33г) Возьмите логарифмы от количества населе- ния в п.Б и сравните их с продолжением аппроксимации данных за период 1790— 1860 гг., приведенной в основном тексте. ЗЗд) Подберите аппроксимацию к данным п. Б. Если потребуется, примените к ним пре- образование. Г) ИСТОЧНИК.'- Historical Statistics ol the U. S. Colonial times to 1957. Washington, 1960,
Глава 6 ВЫПРЯМЛЕНИЕ ГРАФИКОВ (с помощью трех точек) УКАЗАТЕЛЬ К ГЛАВЕ t6- Обзорные вопросы 179 6А. Три точки 179 Обзорные вопросы 181 6Б. Преобразование одних у-ов 181 Снова население США 182 Подгонка прямой к трем точкам 183 Обзорные вопросы 184 6В. Преобразование одних х-ов 184 Еще раз о населении США 184 Предостережение 187 Обзорные вопросы 189 6Г. Тормозной путь 189 Использование имеющейся информации 192 Обзорные вопросы 194 6Д. Давление насыщенного пара Н2О 195 Обзорные вопросы 197 6Е. Преобразование второй переменной 197 Еще одна попытка 199 Обзорные вопросы 200 6Ж. Первый шаг — оптимальный выбор начала ко- ординат 200 Пример: радиоактивный распал 201 Обзорные вопросы 203 6И. Чего мы достигли? 204 6К. Дополнительные упражнения 205 Теперь мы уже твердо убеждены, что необходимо сначала СГ1Р мить, а затем выровнять графики. Спрямление — важная процедур Как мы говорили в начале гл. 4, это — «большое дело», и хотелось научиться выполнять его как можно проще и легче. В этой главе рассмотрим соответствующие приемы и примеры.
Выпрямление графиков 179 бюазования, которые нам понадобятся,— это, как мы уже го- ПРе0 рочти всегда преобразования количественных данных, в Борили> боЛЬших подсчетов. (Подсчеты больше 3 наверняка «боль- том чис ми такого рода естественно обратиться к степеням, кор- И п нако здесь нам нужно иметь уверенность в правильном выборе а отсчета, иначе преобразование к степеням, корням или лога- HalaJLM не принесет нам всей выгоды, которую можно было бы полу- Р ь при разумном выборе начала координат. ЧПТСтепени и корни от количеств тоже являются количествами. Лога- . ы от количеств — это уже отклонения. С этой точки зрения (а J с поугих) большие подсчеты являются просто особым видом ко- чичеств. Соответственно степени (кроме нулевой) и корни больших подсчетов — количества, а логарифмы больших подсчетов — откло- нения. Думая о наших проблемах преобразования (а это не обязательно то же самое, что анализ самих данных), мы должны думать о том, силь- но или слабо меняется х или у. Пока мы имеем дело с количествами, естественно производить сравнения с помощью отношений (в том числе в процентах). Поэтому мы будем интересоваться, например, фактами такого рода: наибольшее х__g наименьшее х ’ все х находятся в пределах ±50% от некоторого срединного зна- чения, наибольшее х_j । наименьшее* ’ наибольшее х = наименьшее х плюс 10%. При работе с логарифмами мы имеем дело с отклонениями, а не с количествами, и тогда ширину (рассеяния) естественно выражать в логарифмах или при случае с помощью отношений, к которым можно преобразовать разности, выраженные в логарифмах. ОБЗОРНЫЕ ВОПРОСЫ нас^10 МЫ с°бираемся делать в этой главе? Какие виды преобразований ДИна/ДУТ ннтеРесовать? Надо ли беспокоиться о выборе начала коор- в том"" осев? Что нам важно в изменении переменной х (или у) °тклонен^Ч>е’ Когда она представляет собой количество, подсчет или 6А. ТРИ точки W Дейс^Дели Различные примеры выпрямления данных. До сих пор Ми «с пТй0Вали или исходя из простых рациональных соображений, отолка» — без каких-либо видимых оснований для выбора пре-
180 Г лава 6 образования. Как нам поступать с данными какого-то другого виня? Должны ли мы перепробовать все возможные сочетания преобразов ния у-ов с преобразованием х-ов, делая вычисления для данных в пол' ном объеме? Или большую часть такой работы можно не выполнять} Целью этих переходов от преобразования к преобразованию являет. ся спрямление данных. Если вся совокупность данных в целом вы- глядит искривленной, можно сделать это очевидным, выбрав три харац. терные точки. Например, для прироста населения США в первой по- ловине рассмотренного периода можно было бы выбрать точки, соот- ветствующие 1800, 1850 и 1890 гг. Вот эти три точки- (1800; 5,3), (1850; 23,2), (1890; 62,9). Проверить, лежат ли какие-либо три точки на одной прямой, можно путем сравнения угловых коэффициентов прямых, проходящих соот- ветственно через первые две и последние две точки. Имеем 23,2—5,3 _17,9_n 1850—1800 “ 50 U 62,9—23,2 _ 39,7 qq 1890—1850 “ 40 ~ Эти значения сильно различаются. Второй коэффициент наклона боль- ше, поэтому кривая выгнута книзу. (Нарисуйте для себя схематический чертеж.) Если существуют два таких преобразования, которые могут спря- мить первую половину кривой для населения США, то они непре- менно должны будут спрямить и эти три точки. Мы существенно сокра- тим работу, если пары преобразований будем пробовать на этих трех точках. Тогда на всех данных нам нужно будет попробовать уже только лучшую пару (или несколько лучших). Нередко можно облегчить себе задачу подходящим выбором рас* стояний между точками. Если бы мы взяли точки (1810; 7,2), (1850; 23,2), (1890; 62,9), то нам нужно было бы сравнить лишь значения 16,0=23,2—7,2 в 39,7 = 62,9—23,2, поскольку разности по х у них одни и те же (1850—1810=40=1^90 1850). « пм точек- Иногда можно добиться почти такого же упрощения выбором оТ. расстояния между которыми находятся в каком-нибудь просто* ношении — 1 к 2, 1 к 3, 3 к 2 и т. п.
Выпрямление графиков 181 -— Перепробовать все возможные разумные пары преобразований даже и на трех точках - все еще немалый труд. Можно ли его сокр™ ?„ть, следя за направлением, в котором изменяется кривизна при преобразовании? н “Ри ОБЗОРНЫЕ ВОПРОСЫ В каком соотношении должны находиться три выбранные точки Со всеми имеющимися? Как определить кривизну в расположении трех точек? Как легче получить ответ на этот вопрос? 6Б. ПРЕОБРАЗОВАНИЕ ОДНИХу-ов На илл. 18 гл. 3 приведены графики различных преобразований у, изображенных в зависимости от х. Сразу видно, что верхние кривые на- правлены вогнутостью вверх, а нижние — вниз. Сказать, что у кривой «вогнутость вверх», означает, что из трех то- чек на этой кривой средняя находится ниже прямой, соединяющей две другие. Аналогичным образом «вогнутость вниз» означает, что сред- няя точка находится выше прямой, соединяющей две другие. Эти фак- ты важны для нас, поскольку мы как раз и стараемся передвинуть среднюю точку на прямую, соединяющую две внешние. Можно сказать больше, чем мы только что сказали, о нашей эле- ментарной лестнице У3 У2 преобразований: У Гу logy -ИГу -\1у —Ну* ния^1 УЖе Упоминали об одном частном случае следующего утвержде- мад2н еСЛИ АЛЯ какого"либо преобразования график зависимости нря- а Ни н> то верхние преобразования направлены вогнутостью вверх, «ние — вниз. 18 ГЛ‘ Уже показала нам> что это в самом деле так, если гра- ecjIa Г1г>РЯМ°ЛИНееи‘ ^лл- 19 гл- 3 показывает, что это остается верным, Д°ПоДобнМОЛИНеен log ВвндУ этих ДВУХ иллюстраций кажется прав- ^Учае кЬ1М’ что Указанное утверждение останется верным и в том Та₽Ной Лр0Гда ирямолинейно любое преобразование в нашей элемен- стнице. Скептически настроенный читатель может попытать-
182 Глава 6 Выпрямление графиков 18а ся построить общее доказательство, используя два следующих утве ждения: Р' О если у наших трех точек вогнутость ВВЕРХ, прямолинейност нужно искать НИЖЕ по лестнице; ь 0 если у наших трех точек вогнутость ВНИЗ, прямолинейност. нужно искать ВЫШЕ по лестнице. Очевидно, что эти утверждения верны. Возьмем первое: если цс комое преобразование прямолинейно, а рассматриваемое вогнуто вверх" то отсюда следует, что рассматриваемое преобразование должно стоять на лестнице выше искомого. Чтобы найти искомое преобразование нужно спуститься от рассматриваемого вниз. ’ Для преобразования у правило выглядит очень простым: 0 двигайтесь по лестнице в ту сторону, куда указывает выпуклость кривой. СНОВА НАСЕЛЕНИЕ США Применение этого правила к населению США в первой половине периода показывает, что мы должны спускаться по лестнице, так как вогнутость кривой направлена вверх. Мы так и сделаем и вначале ис- лытаем выражение —Му. Обращаясь к илл. 8 гл. 3, находим 1/5,3=—0,188, —1/23,2=—0,043, —1/62,9=—0,016. „а получаем три точки и два угловых коэффициента: оТ У (1800; 0,72), (1850; 1,37), (1890; 1,80), ,1.37-0.72 0^65 1850 — 1800 50 ~ O.U1O, 1890—1850 40 ~ O.U11. Теперь угловые коэффициенты согласуются лпвпп^ Пойдем дальше — вычислим log у и нанесем ня Довольно хорошо. „ log у либо для горидо большего чкл“ек S"" 3"а™я х Из илл. 10 гл. S мы видели, как удачен этот выбор & уЖе ДЛ" кех- ПОДГОНКА ПРЯМОЙ к ТРЕМ ТОЧКАМ Когда мы достаточно хорошо спрямили наши три точки, можно попробовать подобрать к ним прямую. В качестве примера рассмо- трим выбранные выше три точки. Для подгонки прямой к трем точкам с подходящими расстояниями между ними удобно сначала определить коэффициент прямой, про- ходящей через две конечные точки, а потом за постоянный член взять среднее из трех подобранных значений. Для точек (1800; 0,72), (1850; 1,37), (1890; 1,80) это дает 1,80-0,72 1,08 1890-1800 “ 90 “’ ‘Три точки и два угловых коэффициента будут теперь (1800; —0,188), (1850; —0,043), (1890; —0,016), —0,043—(—0,188) 0,145 п nn9Q и, поскольку легче производить вычисления для величин х=год —1800, мы находим три значения функции у—0,012 (год — 1800), а именно —0,016—(—0,043) 0,027 n nnfV7 1890—1850 “ 40 — и>иии/« Коэффициент для первой пары точек теперь в четыре раза больше, для второй. Когда мы брали просто у, коэффициент для второй был втрое больше, чем для первой. Нам нужны одинаковые УгЛ? ,дЬ коэффициенты, поэтому естественно теперь попробовать что-ни ) промежуточное между у и —Му. Таким образом мы приходим к Обращаясь к илл. 3 гл. 3, мы видим, что log 5,3=0,72. log 23,2=1,37, log 62,9=1,80, 0,72—0,012 (0)=0,72, 1,37—0,012 (50)=0,77, 1,80—0,012 (90)=0,72, ние ДвухИЗ КОТОРЫХ с точностью до двух знаков будет 0,74. [Совпаде- вычислен служит важной проверкой правильности наших ии.1 Таким образом, аппроксимирующая прямая имеет вид сление (логарифм от миллионов) = 0,74+0,012(год—1800) Три —________—______________ Вь*6рать Т°ЧКи МОГУТ дать нам очень многое. Если их как следует ’ °ни окажут нам большую помощь.
184 Глава 6 ОБЗОРНЫЕ ВОПРОСЫ Каким образом три точки указывают на наличие вогнутости, обп щенной вверх? Вниз? Куда направлена вогнутость у тех преобразов * ний, которые находятся выше (на лестнице преобразований), чем ппЭ* молинейное? У тех, что ниже? Как эти правила могут помочь нам пп спрямлении данных о росте населения США? Как подогнать прямую к трем точкам (расположенным на подходящих расстояниях межд^ собой)? Почему мы не использовали медиану из трех подогнанных * чений? Следует ли удивляться тому, что 0,012 (для прямой по точкам) заключено между 0,011 и 0,013 (по двум парам точек)? зна- трем 6В. ПРЕОБРАЗОВАНИЕ ОДНИХ Х-ОВ Теперь мы знаем, чем следует руководствоваться при выборе пре- образования для у. Что если мы пока оставим у в покое и займемся преобразованием х? Если мы повернем наш график, поменяв ролями оси у и х, мы пре- вратим одну задачу в другую. (После поворота нам придется смотреть с обратной стороны бумаги, но прямая все равно останется прямой.) Поскольку задача осталась той же, все предыдущие рассуждения сохраняют силу. Это означает, что если кривая выпукла в сторону больших х и нам нужно преобразовать переменную х, то мы должны поднимать х вверх по лестнице, а если кривая выпукла в сторону меньших х, то опускать. ЕЩЕ РАЗ О НАСЕЛЕНИИ США На илл. 1 показаны три точки из кривой роста населения после пе- ремены х с у. Мы видим, что выпуклость направлена в сторону боль- ших х (на этом графике с переменой осей — вверх), так что если нам нужно преобразовать переменную х, то мы должны подниматься по лестнице значений х. Следует ли в этой ситуации пытаться преобразовать х? Нет,, т'а как видно, что преобразование вряд ли нам поможет. Числа 1° ’ 1850 и 1890 близки друг к другу — внешние значения отличают от середины лишь на несколько процентов. к0 Преобразование переменной, изменяющейся всего на неско процентов, редко поможет нам избавиться от достаточно заме кривизны. есЛц Сделать значения х менее похожими друг на друга можн°> ть1. взять начало отсчета значительно позднее начала нашей эры. вать от 1776 г. (образование самостоятельного государства гра* Перев.) было бы совершенно неверно, так как до этого года им г., ция была довольно значительной. Правильнее вести отсчет от
Выпрямление графиков 185 это означало бы пренебрежение немалым коренным насе- ЯО Ч ТО1А п пнем Америки. Ле Возьмем все же «год — 1600». Полезно проделать все с каким-ни- , но не очень глупым примером. Удобнее, чтобы числа были не- ^ДЬ’иие поэтому будем измерять «год — 1600» в столетиях. ^Наши новые значения х для последних трех точек будут 2,1; 2,5 9 9 Теперь диапазон их изменения составляет ±15%, что гораздо 6 ’ ' е Чем раньше. У нас уже появилась какая-то надежда, но все же удно’ожидать, что мы сможем справиться со значительной остаю- ейся кривизной. Поскольку переход от времени в годах к переменной /л 01 год_ 16) является тривиальным преобразованием, где произво- дится только умножение и прибавление констант, то нам по-прежнему нужно подниматься по лестнице значений х. Начнем с кубической степени от новых значений х. Мы имеем (2,1)3=9,261, (2,5)8=15,625, (2,9)3=24,389. (9,3; 7,2), (15,6; 23,2), (24,4; 62,9), Три точки будут: а два угловых коэффициента 3,2 = 23,2—7,2 15,6—9,3 4 г 62,9-23,2 ’ 24,4—15,6' Иллюстрация 1 главы 6: население С1ПЛ Население США в первой половине изучаемого периода (с переменой осей х и у) л=го8 I 7090 16S0 1вю Ь L—----[---j----J------ 0 20 40 W
186 Глава 6 Наклон для второго интервала все еще больше, хотя только в два а в три раза. Мы продвинулись вперед, хотя очевидно, что нужно дв11е гаться еще дальше. и' Возьмем хе, который легко вычислять, возводя в квадрат х3. Пол чаем У* (85; 7,2), (244; 23,2), (501; 62,9) 0 }Q2 — 23,2~7,2 244_85 , И 0Ц4 = -^=Ж 591—244 ‘ Это уже гораздо ближе к равенству, но цель пока не достигнута. Попробуем х8. Это дает (378; 7,2), (1526; 23,2), (5002; 62,9) И 0 0139 — 23,2 7,2 и.иьда-1526 _378> ..... 62,9—23,2 0,0114 — 5002—1526* Теперь мы зашли слишком далеко. Следовательно, х1 должно попасть очень близко к цели. Имеем (180; 7,2), (610; 23,2), (1725; 62,9), 0 0372 — 23,2 ~7,2 610_180 » „ 62,9— 23,2 0,0357 = 1725_616 . Теперь уже согласие очень хорошее. Итак, если преобразованию подлежит переменная (год — 1600), то по нашим трем точкам можно сделать вывод, что следует испольэ вать выражение (год — 1600)2, или, что эквивалентно, / год—1600 V 100 J •
Выпрямление графиков 187 Иллюстрация 2 главы 6: население США результат преобразования х для данных о населении США в XIX в. Z У Год | 1800 (год-1600)7 100 128 .население (млн. чел.) 5.31 I 0,036 г | 4.61 Раз- | кость | 0.70 1810 180 7.24 6.48 0.76 1820 249 9.64 8.96 0.68 1830 340 12.87 12.24 0.63 1840 459 17.07 16.52 1.55 1850 610 23.19 21.96 1.23 1860 803 31.44 28.91 2.53 1870 1046 38.58 37.66 0.92 1880 1349 50.16 48.56 1.60 1890 1725 62.95 62.10 0.85 1900 2187 76.0 78.7 -2.7 1910 2751 92.0 99.0 -7.0 1920 3436 105.7 123.7 -18.0 Надо хотя бы посмотреть, что из этого получится. На илл. 2 даны числа, на илл. 3 — график, а на илл. 4 — некоторые разности. Как показывает илл. 2 или 4, отклонения количества населения США (в миллионах) от прямой роста 0,72 + 0,036 (-°-^6-00-) ’ составляют для 1800—1830 гг. и 1870—1890 гг. меньше 150 000, в то время как в 1840, 1850 и 1860 гг. имеются один-два «лишних» мил- лиона. ПРЕДОСТЕРЕЖЕНИЕ До сих пор по качеству приближения или способности отчетливого выделения остатков такие графики, как на илл. 3 и 4, были не хуже, чем графики предыдущей главы, на которых логарифмы населения зображались в зависимости от времени в годах. Если наша цель со- г Оит в исследовании остатков, как часто и бывает, любой из этих Рафиков будет эффективным и полезным. Дву таком случае когда же следует делать различие между этими найтЯ гРаФиками? Безусловно, мы должны их различать, когда хотим в0ЛьН такое описание, которое было бы легко сообщить другим. До- 1890110 Легко сообщить другим и понять, что население США с 1800 до ств0 j , е>Ке1'одно увеличивалось на 2,8%. Это — большое преимуще- Р От’ /7° мы не можем столь же кратко и понятно описать зависимость °трез ' (Разумеется, обе зависимости имеют силу для ограниченного '9Оог\ вРемени. Обе все быстрее расходятся с наблюдениями после ^ее J ^ Ля целев сообщения зависимость log у от х, безусловно, дает п°лезное описание.
188 Г лава 6 Выпрямление графиков 189 0,036 Иллюстрация 3 главы 6: население США Население США в первой половине периода, изображенное год — IGOOV 100 ) в зависимости от аргумента z = Население, мт. чел. во - X, 40 х х -20 хх Xх х х X х г^преобразованные гиды Иллюстрация 4 главы 6: население США Результат Остатки п 3 - выравнивания иллюстрации 3 2 - о о 7 о Ордината = избыток Тод — 1600V 100 J о с 1000 1850 1000 населения (в миллионах) по сравнению с Ф> акИМи хорошими аппроксимациями к данным, как зависимость от х или у от х7, всегда существует опасность переоценки. Мы log что каждая из аппроксимаций близка к данным, хотя они не вИДИ'’точно совпадать. Существует довольно естественный соблазн, М°Гбенно сильный в том случае, когда мы получили лишь одну из ап- °С° ксимаций, превратить «хорошую аппроксимацию» в принцип «это ПР°жно было происходить вот так», или «фундаментальный закон при- Д°ста населения». Лишь один пример хорошей аппроксимации сам по Р - еще совершенно не дает оснований для таких сильных утвержде- Сий Тот факт, что мы получили две хорошие аппроксимации совер- шенно различного вида, подчеркивает необходимость избегать етоль поспешных выводов. И обратно — хорошей аппроксимацией можно олным правом воспользоваться для многих целей совершенно неза- висимо от того, является она «фундаментальным законом» или нет. ОБЗОРНЫЕ ВОПРОСЫ Если требуется преобразовать х, в какую сторону следует нам двигаться по нашей лестнице? Обоснуйте свой ответ. Что произойдет, если в примере с населением США оси х и у поменять местами? Что делать, если изменения х составляют всего несколько процентов? Как мы пытались преобразовать годы? Можно ли ожидать, что полного спрямления данной совокупности точек возможно достичь с помощью лишь какого-то одного преобразования? А если мы найдем несколько таких преобразований? Можно ли из одной хорошей аппроксимации вывести «фундаментальный закон»? Почему один способ кривой прироста населения США легче чем другой? 6Г. ТОРМОЗНОЙ передать в виде спрямления сообщения, ПУТЬ Рассмотрим теперь пример, когда , , - _____ .. ________ естественным способом сделать данные более упорядоченными и легче поддающимися описанию. На илл. 5 представлены скорость и тормозной путь для 50 автомо- илсй. Данные изображены в виде графика на илл. 6. К этим точкам о°Жно было бы подобрать прямую, но при скорости между 5 и 10 миль/ч а дала бы нулевой тормозной путь, а единственное, в чем в этом Римере мы уверены, так это в том, что нулевой тормозной путь дол- НаН Соответствовать нулевой скорости, и наоборот. Чтобы это знать, Не щНе Нужно испытывать автомобили — или иметь наблюдение в точ- Устра^’ Приходится признать, что имеет место кривизна, и попытаться Три подходящие точки — это (0, 0) преобразование х кажется
190 Глтвй 6 и еще две, нанесенные на илл. 6 крестиками: (15, 35) и (25, 90). Два угловых коэффициента будут 35—0 о о 90— 35 с 75—О = 2’3 И 25=75 = 5>' Для преобразования х мы должны переходить к х2, х2 и т. дф> По, тому что кривая выпукла к большим х. Попробуем х2: (0, 0) (225, 35) (625, 90), а наклоны: 0.15=й=3 » «-И 90—35 625—225 * Очевидно, мы попали удачно. На илл. 7 показана зависимость у от х2, которая теперь совершенно прямолинейна. Если в качестве представительных точек взять (0, 0) и (600, 80), то для выравнивания надо использовать величину у — 0,133х2. Иллюстрация 5 главы 6: тормозной путь Скорость и расстояние до остановки Скорость х миль/ч Расстояние до остановки у, фут 4 7 8 9 10 11 12 13 14 15 16 17 18 19 20 (21) 22 23. 24 25 2,10 4,22 16 10 18, 26, 34 17,28 14, 20, 24, 28 26, 34, 34, 46 26, 36, 60, 80 20, 26, 54 32, 40 32, 40, 50 42, 56, 76, 84 36, 46, 68 32, 48, 52, 56, 64 66 54 70, 92, 93, 120 85 ИСТОЧНИК: Ezekiel М. Methods of Correlation Analysis. New York, John и3д. 1930 (табл. 11 на с. 41). [См. также 2-е изд. (1943 г.), табл. 10 на с. 43. В Л"_ чНце, (1959 г.) авторы Ezekiel М. and Fok К, А,, в табл, 4,1 на с. 45 имеются анало но другие данные.]
Выпрямление графиков 191 Иллюстрация 6 главы 6: тормозной путь График наблюдений из илл. 5 Путь Зо остановки, руты а 100 - SO о о°Хо о °о Q°gooo Оо°°°°о ° ° о Скорость, мшь/ч 0>----2-------1-------;---1------------->, О 10 %о Иллюстрация 7 главы 6: тормозной путь Квадрат скорости и путь до остановки для 50 автомобилей Путь до остановки, футы и 120 - X Квадрат скорости, (миль/ч)* , _______)____________ 300
192 Глат 6 Иллюстрация 8 главы 6: тормозной путь Выравнивание с помощью у—0,133ха Остаток -го - I о х __1_________L_ 200 400 X Квадрат скорости, (миль/ч)2 БОО Иллюстрация 9 главы 6- тормозной путь ' Значения у/х 1*1 ।------ Х/*_____ . 4 0.5,2.5 1 7 0.6,3.1 8 2.0 9 1.1 10 1.8, 2.6, 3.4 11 1.6,2.С 12 ЛЛ, 1.7, 2.0, 2.3 13 ДО 2.6, 2.6, 3.5 14 1.9, 2.6, 4 3, 5.7 15 1.3, 1.7, 3.6 16 2.0,2.5 17 1.9, 2.4, 3.0 18 2.3,3.1,4.2,47 19 1.9, 2.4, 3.6 20 1.6,2.4,2.6,2.8,32 (21) 22 3.0 23 2.3 24 2.9, 3.8, 3.9, 5.0 25 3.4 * X X X Результат показан на илл. 8. Его нельзя назвать отличным, но точки, по-видимому, выровнены, хотя их поведение близ х2=0 не очень хорошо согласуется с известной точкой (0, 0). ИСПОЛЬЗОВАНИЕ ИМЕЮЩЕЙСЯ ИНФОРМАЦИИ Сделаем еще одну попытку. Мы уверены, что при х=0 должно быть у=0. Возможно, выбирая, что наносить на график, следовало бы использовать этот факт. Как это можно сделать? Один из способов — изображать зависимость от х величины у/х< а не у. Тогда, если у/х имеет любое конечное значение, при обращении х в нуль у тоже должен обратиться в нуль. Таким образом, график У'* в зависимости от х должен быть таким, чтобы получилось приближе- ние, при котором в точке у—0 будем иметь также х=0. На илл. 9 приведены значения у/х, а на илл. 10 — график 3aBP1Sg_ мости у/х от х. Поведение облака точек вполне приемлемое, и мы вь! рем из них две представительные точки (выделены кружками). (5; 1,4) и (25; 3,7). Соответствующая прямая w/x=0,115x+0,8. да Остатки представлены в численном виде на илл. 11 и графичес илл. 12.
Выпрямление графиков 193 Иллюстрация 10 главы 6: тормозной путь Зависимость у!х от * Х х ххх \ ххх х X X х •х х х х х Наблюдения о Выбранные точки X х Скорость, миль/ч _________I - . ...।______________I а 10 20 30 1) 1 фут7(миль/ч) = 30/44 с= 15/22 с. Иллюстрация 11 главы 6: тормозной путь Значения функции у!х— 0,115х—0,8 |х| |0.115х + 0,8| | у/х - 0,115х -0.8 | А 1.3 —0.8, 1.2, 7 1.6 -1.2, 1.5, 8 > 1,7 0.3, 9 1.8 -0.7, ПО 2.0 -0.2, 0.6,1,4, 11 2.1 —0.5, 0.5, 12 2.2 -1.0,-0.5, -0.2, 0.1, 13 2,3 -0.3, 0.3, 0.3, 1.2, 14 2.4 -0.5, 0.2, 1,9, 3.3, 15 2.5 -1.2, -0.8,1.1, 16 2.6 -0.6, -0.1, 17 2,8 -0.9, -0.4, 0.2, 18 2,9 -0.6, 0.2,1.3,1.8, 19 з.а *1.1,-0.6, 0.6, 20 <21) 3.1 *1.5,-0.7,-0.5,-0.3, Р.1, 22 3.3 -0.3 23 3.4 ♦*1*1 24 3.6 -0.7,0.2,0^41.4 25 э.7 -03 Л 1247
194 Глава 6 Выпрямление графиков 195 Теперь мы видим следующее: О 10 широко разбросанных точек вверху—9 между 1,1 а 10-я очень высоко; можно предполагать, что они возникли плохих тормозов или медленной реакции водителей; и 1,9, из-за О скопление остальных точек, которые своим расположением on ределяют некоторый уровень, который, правда, примерно на 0,5 ниже' чем нужно. Таким образом, окончательно описание наших данных могло бы выглядеть так: 40 точек достаточно хорошо описываются соотношением y/x=Q,115 х+0,8—0,5 или «/=0,115 №4-0,3 х, 9 точек, у которых у больше этого выражения примерно на 2 х и 1 точка, у которой превышение составляет около 4 х. Внимательный и неоднократный анализ может привести к получе- нию эффективного описания. ОБЗОРНЫЕ ВОПРОСЫ Какой пример мы рассмотрели в этом разделе? В чем мы могли быть уверены? Каковы особенности графика на илл. 6? Какие три точки естественно там выбрать? К какому они ведут преобразованию? На- Иллюстрация 13 главы 6: давление пара Давление пара НЙО и некоторые другие величины t,°cj | |р, мм рт. ст. | Позр! I В) . | 1 (5) I -40 0.105 -.9788 -4.2900 8.6737 -20 0.787 -.1040 -3.9510 8.7853 О 4.5687 .6598 -3.6617 8.8980 20 17.363 1.2396 -3.4118 8.9162 40 54.865 1.7393 -3.1939 8.925'5 60 148.88 2.1728 -3.0021 8.9275 80 354.87 2.5501 -2.8321 8.9223 100 760.00 2.8808 -2.6802 8.9113 120 1489.14 3.1729 -2.5439 8.8966 140 2710.92 3.4331 -2.4207 8.8797 160 4636.00 3.6661 -2.3089 8.8611 180 7520.20 3.8762 -2.2070 8.8420 200 11659.16 4.0667 -2.1137 8.8225 220 17395.64 4.2404 -2.0280 8.8034 240 25100.52 4.3397 -1.9439 8.7847 260 35188.00 4.5464 -1.8758 8.7670 280 48104.20 4.6822 -1.8080 8.7502 300 64432.80 4.8091 -1.7449 8.7351 320 84686.80 •4.9278 -1.6861 8.7215 340 109592.00 5.0398 -1.6311 8.7097 360 139893.20 5.1456 -1.5795 8.6997 (4)=—1000(1/7), где Т=/+273,1°С, (5)=log р—2,25 (—1000/7). Иллюстрация 12 главы 6: тормозной путь График зависимости функции у/х—0,115х—0,8 от х ^Остатки . умичиныу/г: г‘~ сколько эффективно это преобразование? Что мы решили испробовать затем? Почему было естественно подумать об этом? Как выглядели получившиеся графики? Есть ли на них отскакивающие значения? Удивило ли вас это? X X X Х Л ХИ * ___*______Д----—, XX х х X х X хх х хх X й ю га 6Д. ДАВЛЕНИЕ НАСЫЩЕННОГО ПАРА Н2О Дав?аВЛеНИе насыщенного паРа воды или льда — это максимальное При ^ние в°Дяного пара, находящегося в равновесии с водой или льдом °РактиНН°й темпеРатУре. Оно хорошо исследовано и имеет большое темпеп ЧеСК°е значение- На илл. 13 это давление дано при различных =32°раи\пп°’ Температура измеряется в градусах Цельсия (0°С= (760 мм C=212°F), а давление — в миллиметрах ртутного столба ОдИн РТ' СТ‘ Равны Одной так называемой нормальной атмосфере). вает, что Т0ЛЬК° ВЗГЛяД на первые два столбца этой таблицы показы- 6Ыст’ро яепосРеДетвенный график зависимости р от t даст лишь очень 139893 2оРастУЩее Давление. (Если изобразить на графике число Шаем сдедаТ° ВРЯД ли мы различим значение 760,00.) Поэтому мы ре- помочь ТЬ ЧТО’нибУДь ДДЯ спрямления графика. По-видимому, мог
196 Глава 6 Иллюстрация 14 главы 6: давление пара Давление пара Н20 и температура (логарифмический масштаб для давления, выраженного в мм рт. ст.) 7|х t,°C -J___I________I_________1_________1____ -40 0 100 200 300 Иллюстрация 15 главы 6: давление пара Давление пара Н2О и температур (логарифм давления, обратная величина от абсолютной температуры) В столбце (3) илл. 13 приведены значения log р. Эту величину, по- видимому, уже можно изобразить графически, что и сделано на илл. 14. График вполне обозрим, но пока еще вовсе не прямолинеен. Нужно сделать еще один шаг. Можно было бы попытаться найти какой-то эмпирический подход, но мы быстрее достигнем цели, если вспомним, что в физической химии логарифм давления обычно изобра- жают в зависимости от обратной величины абсолютной температуры. (Можно было бы воспользоваться и заключительным примером сле- дующего раздела.) В данном случае один из видов абсолютной темпе- ратуры — температура по Цельсию плюс 273, ГС. В столбце (4) илл. 13 приведены значения величины — 1000 (1/Г), где Т=/-|-273,ГС. (Множитель 1000 введен, чтобы избежать непри- глядных и мешающих нулей.) На илл. 15 изображен log р со столбцом (4) илл. 13 в качестве аргумента. Наконец-то мы получили достаточно хорошую прямую, от которой стоило бы вычислить остатки. В столбце (5) илл. 13 даны значения log р—2,25 (—1000/Т), которые, как мы видим, довольно близки друг к другу. Если еще вычесть о, , то их можно уже изобразить на графике (илл. 16). Самая удивительн особенность этого графика — разделение нашей кривой на две ча с изломом в третьей точке слева. Что это может означать? ? е Если мы вспомним, что эта точка приходится на 0°С(=32 г)> на точку замерзания воды, то перелом в ней станет понятен. Ни# , мы имели дело с давлением насыщенного пара твердой воды (Д а выше этой точки — с давлением пара жидкой воды. когДа Заметим, что данные указали нам на этот факт только тогда, график был спрямлен и выровнен,
Выпрямление графиков 197 Иллюстрация 16 главы 6: давление пара Остатки логарифмов давления пара после вычитания прямой ист с аргументом —1/7 (для воды) Ордината — log давления пара — (8,8—2250/7), абсцисса=отрицательная об- ратная величина абсолютной температуры (в градусах Кельвина), умноженная на ОБЗОРНЫЕ ВОПРОСЫ С какими данными мы имели дело в этом разделе? Смогли бы мы нанести их на график в их первоначальном виде? Занимались ли мы преобразованием (/? Почему? Оказалось ли этого достаточно? Что можно было сделать еще? Как? Каковы были успехи? Узнали ли мы что-нибудь новое, получив остатки? Привело ли это к каким-нибудь новым идеям? 6Е. ПРЕОБРАЗОВАНИЕ ВТОРОЙ ПЕРЕМЕННОЙ Как мы только что видели, не всегда стоит преобразовывать лишь одаУ из переменных. Иногда приносит успех преобразование сразу ооеих, у и х. Бывает, что в такой ситуации приходится многое пере- кон °ВаТЬ‘ Однако> как только мы решили использовать какое-то х пРе°бразование для одной из переменных (все равно, с п/ мы См°жем сузить выбор преобразования для второй из них с помощью тех же самых правил ДЬ1Д\?ЗЬМеМ ТРИ точки из примера, только что рассмотренного в пре* Ся- Изи Разделе> и посмотрим, чем мы тут могли бы руководствовать- (0; 4,5687), (100; 760,00), Очеви (200; 11659-16)- Другие °’ ЧТ0 средняя точка находится ниже прямой, соединяющей две • а кроме того, справа от нее» Если вам нужно преобразовать у.
198 Глава 6 мы должны будем обратиться к log у или дальше, к —Ну. Логар щь дают (0; 0,6598), (100; 2,8808), (200; 4,0667), а угловые коэффициенты равны 2,8808 — 0,6598 2,2210 П9991 100—0 ~~ 100 — u>uzzzl И 4,0667 —2,8808 1,1859 А n 11 ос ’ 200-100 д~100------°’01186- Таким образом, теперь средняя точка оказалась сверху и слева от прямой. Можно было бы испробовать J/-у, который находится на пол- пути к log у. Если мы это сделаем, скажем, с помощью илл. 7 гл. 3* то получим ’ ’ (0; 2,12), (100; 27,6), (200; 108), откуда видно, что применения Ку оказалось недостаточно. Переходя к получим (0; 1,44), (100; 5,3), (200; 10,4), им соответствуют угловые коэффициенты 5,3-1,44 3,86 п 100—0 “ 100 ~ 10.4—5,3 5,1 __ 1П 200—100 100 — °>0510> откуда видно, что нам все еще нужно двигаться дальше в том же направлении. Любители повторять извлечение квадратного корня попробуют теперь что дает = у1,й=* У у, (0; 1,20), (100; 2,32), ’ (200; 3,20), и соответствующие угловые коэффициенты 2,32—1.20 1.12 п оно 100—0 в 100 3,20—2,32 _ 0,88 „ляя 200—100 ” 1в0 “0»С0о8.
Выпрямление графиков 199 паз мы продвинулись слишком далеко. В результате, если На эТ0Т ваТЬСЯ преобразованием только у, нужно будет попробовать оГРаВчто-то между у'<‘ и у1'*, возможно у1/‘ или ЕЩЕ ОДНА ПОПЫТКА такой выбор — не единственно возможный. Применение log у таточной степени приблизило наши три точки к прямой. Правда, В ДОС сдвинулись уж слишком далеко, но тут, вероятно, можно было МЫ "омочь делу, сохранив log у и преобразовав х. Однако прежде, °bl пдт0 сдеЛать, следует остановиться и немного подумать. В нашей ЧеМцси данных х — температура по Цельсию (точка замерзания=О°С, заВКа кипения=100°С). Если мы хотим использовать простые пре- Тбпазования, мы не должны связывать наше начало отсчета со свойст- вами такого специфического вещества, как вода. (Правда, мы изучаем давление насыщенного водяного пара, но у воды существует давление пара также и ниже 0°С.) Лучше отсчитывать температуру от так назы- ваемого абсолютного нуля, который находится чуть ниже, чем —273°С. На промежуточном этапе мы должны исходить из точек (273,1; 0,6598), (373,1; 2,8808), (473,1; 4,0667), которым соответствуют угловые коэффициенты 0,02221 и 0,01186, причем средняя точка — сверху и слева от прямой. Если преобразо- вать х, то нужно переходить к log х или дальше к —1/х. Возьмем log х. Получим (2,44; 0,6598), (2,57; 2,8808), (2,67; 4,0667), 2,8808 —0,6598 2,2210 ]7 . 2,57 — 2,44 — 0,13 - ,/’1» 4,0667 — 2,8808 1,1859 2,67 — 2,57 “ 0,10 — Логарифмы помогли, но еще недостаточно. Попробуем — 1Ла (—0,00366; (—0,00268; (—0,00211; 2,8808 —0,6598 Целоны 0,6598), 2,8808), 4,0667), 2 221 —0,00268—(—0,00366) = 0,00098 ” ^66, 4,0667—2,8808 _ 1,186 -0,00211 -(-0,00268) 0,00057 “ блиЗДеСЬ С0ГласУются лучше — отношение угловых коэффици- Же к 1, чем для любого другого испробованного сочетания
200 Глава 6 преобразований. Итак, log у и —1/х, где х — абсолютная температура, видимо, будет хорошим выборе Как мы видели в предыдущем разделе, это так и оказалось. Р ОБЗОРНЫЕ ВОПРОСЫ Выгодно ли преобразовывать и х и у> Следует ли делать это всле пую? Чем руководствоваться при выборе преобразования второй координаты? Насколько эффективно преобразование только одной координаты? Если при исследовании давления насыщенного водяного пара мы будем преобразовывать лишь у, то какое преобразование целесообразно использовать? Если мы выберем log у, то к какому преобразованию мы придем для х? 6Ж. ПЕРВЫЙ ШАГ — ОПТИМАЛЬНЫЙ ВЫБОР НАЧАЛА КООРДИНАТ Мы уже имели два примера, когда изменение начала координат способствовало спрямлению данных: 1) население США как функция времени в первой половине периода (где вести отсчет с начала нашей эры, т. е. за 1600 лет до начала европейской иммиграции в Северную Америку, было далеко не разумным выбором. Стоило нам лишь поду- мать об этом, как мы сразу это поняли. Почему 1600, а не 600 или 2600?) и 2) давление насыщенного водяного пара как функция температуры (по Цельсию) (почему мы должны брать начало координат в точке замерзания?). Подумать о разумном начале отсчета бывает необходимо и в других задачах — иногда по отношению к х, а иногда по отношению к у- Существует широкий круг задач, где этот вопрос возникает потому, что измеряемая величина является суммой компонент. При этом одни из компонент если и изменяются, то очень медленно, тогда как остальная часть изменяется таким образом, что если бы мы смогли ее измерить отдельно, то с помощью преобразования можно было бы выровнять график. Естественный подход к данным такого рода заключается в вычис- лении наблюдение МИНУС фон, где «фон» означает константу, выбранную таким образом, чт0^ учесть медленно меняющиеся компоненты. Вряд ли мы сможем и? вильно выбрать значение «фона» на основе интуиции или прошлых Д ных, может быть как-то связанных с изучаемыми. Мы должны на этот «фон» из тех же самых данных, которые мы хотим БЬ1Р°^йа», Скорее всего нам удастся выбрать правдоподобное значение «Ф°
Выпрямление графиков 201 я различные варианты и подбирая такое значение, при котором ПР ,₽ можно будет еще больше выровнять, применив еще одно пре- азование. 0&наблюдения радиоактивного распада дают много примеров задач го роДа- Каждый отдельный вид радиоактивных атомов распа- таК°ея в своем постоянном процентном отношении: за определенное Дает дней, лет или тысячелетий распадается совершенно определен- ЧИС"Л процент атомов. Многие процессы отделения (или получения) ^кого-нибудь одного вида радиоактивных атомов приводят к отделе- КЗЮ (пли получению) также одного или нескольких других видов ато- нИБ Если последние также распадаются, но распадаются медленнее, то их присутствие часто можно учесть посредством введения постоян- ного фона. ПРИМЕР: РАДИОАКТИВНЫЙ РАСПАД В 1905 г. изучение радиоактивных веществ еще только начиналось. В работе Мейера и фон Швейдлера сообщалось об измерении относи- тельной активности одного экспериментального объекта (илл. 17). Зависимость активности от времени (илл. 18) мало похожа на линей- ную. Здесь снова естественным путем будет взятие логарифмов, в осо- Иллюстрация 17 главы 6: радиоактивность Спад радиоактивности и другие величины Время,! сут 1 lAKTHBH. 1 1 (относит.) | 1(3) I 1(4) | I (5) | U6U I (7) ( 0.2 36.0 1.556 1.544 1.538 1.551 1.545 2.2 26.0 1.415 1.398 1.389 1.471 1.466 4.0 23.1 1.364 1.344 1.334 1.476 1.474 5 18.9 1.276 1.253 1.241 1.418 1.416 0 17.8 1.250. 1.225 1.212 1.423 1.422- 8 14.7 1.167 1.137 1.121 1.401 1.401 11 13.4 1.127 1.093 1.076 1.456 1.461 12 11.3 1.053 1.013 .991 1.409 1.411 15 8.5 .929 .875 .845 1.370 1.370 18 5.9 .771 .690 .643 1.284 1.273 26 5.0 .693 .602 .544 1.460 1.454 сЗ 3.4 .531 .380 .279 1.469 1.434 <53 2.4 .380 .146 —.046 1.433 1.319 2.1 .322 .041 -.222 1.526 1.353 (3) == log (активность), (4) = log ^активность —1,0), (5) = log (активность —1,5), (6) = 0,033/ столбец (4), (7) = 0,035/ столбец (5). ^зНед S., von Schweidler Е. Sitzungsberichte der Akademie der Wissen- * atnematisch-Naturwissenschaftliche Classe, 1905 (c, 1202, табл, 5),
202 Глава С Иллюстрация 18 главы 6: радиоактивность Данные из илл. 17 Иллюстрация 19 главы 6: радиоактивность Те же данные в логарифмическом масштабе м Активность - г х X Активность х 20 10 X X СутКи DI I I I । означала О20 40 Сутки от начала I_I__I — I_1__. О2040 бенности еще и потому, что при простом радиоактивном распаде лога- рифм активности должен линейно уменьшаться со временем. На илл. 19 показана зависимость логарифма активности от време- ни. Сохраняется еще заметная кривизна. В такой ситуации наиболее правдоподобный источник кривизны — засорение каким-то другим радиоактивным веществом, распадающимся намного медленнее, чем интересующее нас вещество. Если это так, добавка не могла бы превы- шать двух единиц активности (поскольку на 45-й день наблюдаемая активность была меньше, чем нужно, на 2,1 единицы). Представляется разумным исследовать, каковы должны быть по- следствия предположения о присутствии 1,0—1,5 единицы активности, обусловленной таким посторонним веществом. Для этого можно () изобразить как функцию времени либо либо log (активность — 1,0), log (активность — 1,5), что могло бы соответствовать логарифму активности быстро распада щегося вещества (результаты даны в столбцах (4) и (5) илл. 17); 0 подогнать к данным прямую, хотя бы грубо; (> изобразить графически остатки. Результаты показаны на илл. 20. (В столбцах (6) и (7) илл. 17 Р ведены остатки, к которым прибавлено 1,45, вычислившиеся по лам соответственно: «0,033 /-(-столбец (4)» и «0,035 /-f-столбец ( Из этих двух проб первая (засоренность равна 1,0 ед.) дает, по-
Выпрямление графиков 203 Иллюстрация 20 главы 6i радиоактивность Остатки относительно прямой распада с учетом долгоживун>,их примесей (два варианта) Остатки 0,00 ‘ X* *0,00 - X Xх в X Остатки, А л . .I» il, Hgi" О 2040 а — учет 1 ед. примеси (один остаток вышел за пределы шкалы). Ордината log (ак- тивность —1,0) минус (1,45—0,33/). „„„.л Попинятл = 1ов (ак- 6 — учет 1,5 ед. примеси (три остатка вышли за пределы шкалы), рди тивность—1,5) минус (1,45—0,035/), ZL6o"ee гоРизонтальный РЯД остатков и приводит к лучшему при засоренности 1,0 все же немного подни- Кто из читателей захочет, может попробовать согласию о прямой. 11о«алуй, остатки ТСЯ слева направо. 111 или 1,2.) Сл ОБЗОРНЫЕ ВОПРОСЫ три примел ЛИ 0ЖИдать> что придется менять начало координат? Какие сУтствие Ра мы Рязобрали? Что такое фон? Является ли обычным при- Ц1Ихся или На ПРИ измеРениях радиоактивных веществ, образовав- пКтивноСТи ^деленных от других? Что показал график зависимости 4т° Мы сдел/ ВРемени’ изображенный в первоначальных единицах? ли далее? Хороши ли оказались результаты?
204 Глава 6 6И. ЧЕГО МЫ ДОСТИГЛИ? Эта глава была посвящена принципам, которыми следует руковол ствоваться при преобразовании х и у с целью спрямления графика В простейшем виде эта проблема возникает тогда, когда одна или обо переменные, х и у, являются количествами — или большими подсче тами (что на самом деле просто частный случай количества). Естест- венные преобразования — степени, корни и логарифмы. Для сокращения вычислений обычно начинают с трех хорощ0 подобранных точек. Тогда наше основное правило будет звучать так- 0 двигайтесь по лестнице преобразований в направлении выпук- лости кривой. На илл. 21 показаны четыре возможных случая и естественные шаги продвижения по лестницам для х и у (можно двигаться по одной из них или по обеим сразу). Преобразования следует применять на ос- тальных точках только тогда, когда они уже эффективно подействова- ли на три выбранные. В некоторых случаях приносит пользу изменение начала коорди- нат — еще до перехода к степеням, корням или логарифмам. При этом мы иногда руководствуемся здравым смыслом, а иногда тем, насколько выровненным окажется окончательный результат. Иллюстрация 21 главы 6: выпуклость кривых Как двигаться в отдельности по каждой переменной (четыре случая формы кривых) понапр$/шюЩу,~1 ит$\
Выпрямление графиков 205 Применяя описанный миод. „ы яолжнь, пмщиъ спрямление я помощью преобразования я _ с помощью преобразования у, не то >ке самое, что совершенно прямым,РНет никакой°гар?,Х7ЯчтоТп^ДеЛаТЬ График руживаем новую закономерность. ри этом мы обна- Теперь мы подготовлены к тому, чтобы А подойти к анализу данных (v „\ и последующей подгонки прямой (LkioLu^™ преобРазования их и исследования остатков; ₽ (возможно, в два этапа или более) О обратиться к другому важному классу задач. 6К- ДОПОЛНИТЕЛЬНЫЕ УПРАЖНЕНИЯ См. илл. 22—26. Иллюстрация 22 главы 6: наблюдения и упражнения Три примера радиоактивного распада А) ДАННЫЕ [Сутки1) I [ Активн.21| [Сутки1)! | Активн.,Й[ |Сутки1>[ [ дктивн.Я'! 0.8 6.70 0.8 2.82 0.8 2.05 2.8 6.40 2.8 2.34 1.0 ' 2.03 6.9 5.70 4.8 1.90 1.8 1.79 8.9 5.10 6.8 1.80 2.1 1.77 13.1 4.30 11.8 1.34 3.9 1.54 15.2 4.00 13.9 1.24 5.9 1.35 16.8 3.95 16.8 1.03 7.1 1.29 20.1 3.40 19.8 1.00 9.1 1.23 20.8 3.40 23.8 0.80 12.1 1.01 20.9 3.20 31.8 0.55 12.9 0.96 21.9 3.20 32.5 0.11 16.9 0.82 31.1 2.42 19.9 0.68 36.8 2.30 22.8 0.59 43.8 2.11 25.9 0.51 49.8 2.00 33.8 0.40 53.8 1.99 44.1 0.32 58.8 1.98 65.9 1.90 73.8 1.80 87.1 1.65 J r7 начала. ) Вольт В минуту. 22а) бУПРАЖНЕНИЕ ур0?Лее П03Дней статье Мейер и фонШвейдлер сообщили данные (п.А) опадении Радиоактивности для трех образцов. Проанализируйте хотя бы два из Meyer S, von Schweidler Е. Untersuchungen fiber radioaktive Wjss о,. Ш Mitteilung: Uber ein radioaktives Produkt aus dem Aktinium. Sber. “ 6—317) len‘ Math,— Nat, Classe, 19074 116 II Al (c, 315—322, в особенности
206 Глава 6 Иллюстрация 23 главы 6: данные и упражнения А) ДАННЫЕ Давление паров ртути I Температура. I 1 °с 1 I Давление, I I ЫМ рг. от. | 0 0.0004 20 0.0013 40 0.006 60 0.03 80 0.09 100 0.28 120 0.8 140 1.85 160 4.4 180 9.2 200 18.3 220 33.7 240 59 260 98 280 156 300 246 320 371 340 548 360 790 Б) УПРАЖНЕНИЯ 23а) В п.А дано давление паров ртути. Проведите графический анализ и проком* ментируйте. 236) Даны три точки, найденные в начале разд. 6Е: (0; 0.6598), (100; 2,8808), (200; 4,0667). Какое преобразование этих (некогда новых) у лучше всего приблизит наши три точки к прямой? 23в) Примените результат последнего упражнения к данным из илл. 13, аппрокс мируйте их прямой и изобразите остатки. Сравните полученные результа с нлл. 16. 23г) Примените преобразование у переходит в (из анализа в разд. 6Е) к данным из илл. 13, аппроксимируйте их прямой и i дате остатки. Сравните полученные результаты с илл, 16. Доведите графичес анализ до конца. Прокомментируйте,
Выпрямление графиков 207 Иллюстрация 24 главы 6: данные и упражнения Еще упражнения р„ТНОсть от рака груди на различных широтах. Запись (50; 1025, 513) означает: 24а) сЛ’;Р5о° с.ш. индекс смертности для рака груди равен 102,5, а среднегодовая •трпатура 51,3° (по Фаренгейту, см. начало разд. 6Д.— Переа.)». Группы дан- Te^v П6)- (50; 1025, 513), (51; 1045, 499), (52; 1004, 500), (53; 959, 492), (54; 870, Ж 155’ 950, 478), (56; 886, 473), (57; 892, 451), (58; 789, 463), (59; 846, 421), 817, 442), (61; 722, 435), (62; 651, 423), (63; 681, 402), (69; 673, 318), (70; 625 340). ИСТОЧНИК: Lea A. J.New observations on distribution of neoplasms of female breast in certain European countries. 1965, British Medical J., 1, 486— 490, 1955 (табл. II на e. 489). УПРАЖНЕНИЕ: можно ли спрямить этот гра- фик? (Зависимость индекса смертности от среднегодовой температуры.) 246) Пластичность шерсти: медленное растягивание одного волокна. Запись (1,321) Z означает: «После 1 мин пребывания под нагрузкой волокно со средним диаметром 53,3 мкм (коэффициент вариации диаметра 5,4%) растянулось на 32,1% от его первоначальной длины». Группы данных (34): (1, 321), (3, 330), (5, 334), (8, 337), (16, 342), (32, 348), (50, 352), (ПО, 361), (240, 377), (440, 394), (740, 413), (1310, 442), (1460, 449), (1630, 458), (1900, 469), (2090, 478), (2760, 499), (2950, 505), (3080, 509), (3460, 519), (4280, 540), (4970, 556), (5720, 572), (6000, 579), (6320, 586), (7120, 600), (7360, 604), (7540, 607), (8520, 623), (9020, 629), (9230, 633), (9950, 643), (10260, 647), (10680, 654). (Последняя группа данных: 10 680 мин под нагрузкой и растяжение 65,4%). ИСТОЧНИК: Ripa О., Speakman J. В. The plasticity of wool, Textile Research J., 21, 215—221, 1951 (табл. I на c. 217). УПРАЖНЕНИЕ: как можно было бы выпрямить этот график? 24в) Величина внутритканевого пространства у молодых цыплят. («Внутритканевое пространство» — это объем, определяемый количеством ионов тиоцианата, по- глощенного в течение 10 мин после инъекции, и измеряемый отношением его к объему крови.) Запись (1, 52) означает: «Для цыплят возрастом 1 неделя 52% веса тела определяются внутритканевым пространством». Группы наблюдений (8): (1,52), (2,42), (3,39), (4,38), (6,37), (8,36), (16,25), (32,22). ИСТОЧНИК: Medway М., Hare М. R. Thiocyanate space in growing fowl. Amer. J. of Phy- siology, 196, 873—875, 1959 (табл. 1 на с. 874). УПРАЖНЕНИЕ: как спря- мить этот график? 24г) Более подробные данные о внутритканевом объеме (1,55, 52) означают: «В воз- расте 1 неделя средний вес тела 6 цыплят равнялся 55 г, из которых 52% сос- тавляли внутритканевое пространство». Группы наблюдений (8): (1, 55, 52), (2, 108, 42), (3,175, 39), (4, 242, 38), (6, 372, 37), (8 , 527, 36), (16, 1137, 25), (32, 1760, 22). ИСТОЧНИК: тот же, что в упр. 24 в. УПРАЖНЕНИЕ: как спрямить атот график? Сравните степень спрямления здесь и в упр. 24в. Какое выражение количества (не в процентах) внутритканевого пространства как функции веса соответствует нашей аппроксимации?
208 Глава 6 Иллюстрация 25 главы 6: данные и упражнения Еще несколько упражнений 25а) Давление паров борного аналога мезитилена. Запись (130, 29) означает: «п температуре 13,0°С давление паров В-триметилборазола равнялось 2,9 мм рт Рт₽и Группы данных (13): (130, 29), (195, 51), (225, 85), (272, 103), (318, 146) 213), (457,- 305), (561, 514), (644, 745), (714, 1002), (805, 1437), (857, 1769) (Ок 2169). ИСТОЧНИК: Wiberg Е., Hertwing К., Bolz A. Zur Kenntniss Her beiden symmetrischen Trimethyl-borazole («anorganischcs Mesitylen»), Z. f. Anorganisrb! Chemie, 256, 177—216, 1948 (табл, на с. 191). УПРАЖНЕНИЕ: как спрямить этот график? Проверьте свой ответ! 256) Влияние малых доз биотина на подвижность микроорганизмов. Запись (5Е—7 1354) означает: «При концентрации биотина 5-10_? подвижность Lactobacilli casei равнялась 1,354 единицы». Группы данных (7): (0, 1415), (5Е—7, 1354л (1Е—6, 1311), (5Е—6, 1230), (1Е—5, 1234), (5Е—5, 1181), (IE—4, 1188) ИС ТОЧНИК: Williams У. R., Williams Н. В. Surface activity of biotin. J. Biological Chemistry, 177, 745—750, 1949. УПРАЖНЕНИЕ: как спрямить этот график? 25в) Электрический ток, возникающий при нагревании фосфата алюминия. Запись (880, 1) означает: «При температуре 880°С (абсолютная температура 8804-273= = 1153 К) в результате положительной электризации возник ток силой в 1 еди- ницу, причем 1 единица = 2-10~9А». Группы данных для серии опытов А (8): (880, 1), (950, 4), (970, 7), (995, 15), (1030, 35), (1030, 35), (1055, 49), (1110, 126), Группы данных для серии опытов Б (9): (1036, I), (1088, 8), (1135, 5), (1160, 8), (1195, 15), (1230, 34), (1245, 35), (1295, 74), (1330, 168). ИСТОЧНИК: Garrett А. Е. Positive electrification due to heating aluminium phosphate (London, Edinburgh» Dublin). Philosophical Magazine, 20, 571—591, 1910 (табл, на с. 581). УПРАЖ- НЕНИЕ: как спрямить эти графики? 25г) Влияние пурина, ускоряющее рост недостаточного штамма красной хлеб- ной плесени. Запись (0, 112) означает: «При добавке гуанина в расчете 0 мо- лей гуанина на моль аденина к 0,1 мг аденина в 25 мл основной среды сухой вес мицелия, образовавшегося от пуриннедостаточного штамма Neurospora, равнялся 11,2 мг». Группы данных (9): (0; 112), (0,25; 135), (0,59; 152), (0,75; 185), (1; 196), (1,5; 203), (2; 203), (2,5; 243), (3; 224). ИСТОЧНИК: Fairley J. L., LoringH. S. Growth-promoting activities of guanine, guanosine, guanylic acid» and xanthine for a purine-deficient strain of Neurospora. J. Biological Chemi- stry, 177, 451—453, 1949 (табл, 1 на с. 453). УПРАЖНЕНИЕ: как спрямить этот график?
Выпрямление графиков 209 Иллюстрация 26 главы 6: данные и упражнения Еще упражнения 1Л 1рпение определенной примеси в ДДТ; изменение скорости кристаллизации 2ба) ИЗМ. й температурой. Запись (21, 248) означает: «При 2ГС скорость кристал- 8 ,„.1ИИ (в микронах за 5 мин) в 24,8 раза больше логарифма от процентного ЛИлрпжания этой примеси». Группы данных (14): (21, 248), (22, 308), (23, 388), /of 465) (25, 569), (26, 678), (27, 806), (28, 959), (29, 114), (30, 139), (31, 168)/ /ч? 202), (33, 236), (34, 270). ИСТОЧНИК: McCrone W., Srnedal A.-, Gilpin V. Determination of 2,2 bis-p-chlorophenyl-l,l,l-trichloroethane in technical DDT: A microscopical method. Industrial and Engineering Chemistry/ 18, 578—582, 1946 (табл. IV на с. 582). УПРАЖНЕНИЕ: как можно спрямить этот график? Текущие вклады в почтовых сберкассах Швейцарии. Запись (37,458) означает: ,,р разу г. на счету почтовых сберкасс было 458 млн. франков». Группы данных /оду (37, 458), (38, 498), (39 , 523), (40, 643), (41, 701), (42, 787), (43, 839), (44/ 627) (45, Ю01), (46, 1079), (47, 1007), (48, 1033), (49, 1090), (50, 1125), (51,1212)/ (52- 1248), (53, 1334), (54, 1393), (55, 1443), (56, 1720), (57, 1720), (58, 1896), (59, 2050), (60, 2268), (61 ,.2643), (62, 3140), (63, 3353), (64 , 3513), (65, 3810). ИСТОЧ- НИК: Swiss Statistical Abstract, выпущенный Швейцарским кредитным банком в ноябре 1969 г., табл, на с. 24 и 25. УПРАЖНЕНИЕ: как лучше всего выпрямить график этих данных? Подберите аппроксимацию и изобразите остатки. Подве- дите итог всем результатам. 26в) Число лассажиро-миль на государственных пассажирских авиалиниях США, Запись (37, 412) означает: «В 1937 г. на внутренних (по расписанию) авиалиниях США перевозки составили 412 000 пассажиро-миль». Группы данных (24): (37/ 412), (38, 480), (39, 683), (40,1052), (41, 1385), (42,1418), (43,1634), (44, 2178)/ (45, 3362), (46, 5948), (47 , 6109), (48, 5981), (49, 6753), (50, 8003), (51, 10566), (52,12528), (53,14760), (54, 16769), (55,19819), (56, 22362), (57, 25340), (58, 25343) (59,28269), (60, 30514). (Последняя запись означает: «В 1960 г. быЛо 30 514 000 пассажиромиль». ИСТОЧНИК: Brown R. G. Smoothing, Forecasting and Pre- diction of Discrete Time Series, Prentice-Hall, 1963 (табл. 7 на с. 427) (его источ- ник. F. A. A. Statistical Handbook of Aviation). УПРАЖНЕНИЕ: как спрямить этот график? Изобразите значения, оставшиеся от хорошо выбранной прямоли- нейной аппроксимации. 26г) Найдите из других источников две выборки данных (х, у), представляющих для вас интерес и заслуживающих спрямления с помощью методов данной главы. Спрямите эти графики. Изобразите остатки,
Г лава 7 СГЛАЖИВАНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ УКАЗАТЕЛЬ К ГЛАВЕ 7 Осадки, пшеница и волото 211 Сглаживание Сглаживание данных о волоте, пшенице и осад- 211 ках 212 Какой выбрать подход? 213 последовательность 215 Обзорные вопросы 216 7А. Медианы по тройкам 216 скользящие медианы 218 Повторные медианы 218 Обозначения 218 Комментарий 218 Битуминозный уголь? вадержанные платежи 219 Обзорные вопросы 221 7Б. Графическое сглаживание плавной компоненты 221 Личное суждение — возможность выбора 222 Обзорные вопросы 223 7В. Наши перспективы 223 Сравнение четырех графиков 223 Предварительное знакомство со штриховкой 225 Программа дальнейших действий 226 Обзорные вопросы 227 7Г. Копирование и кое-что еще 227 Сглаживание на концах 227 Для тех, кто предпочитает словесную арифмети- ку ЗП или ЗП' 228 229 Комментарий 229 Обзорные вопросы 229 7Д. Штриховка плавной компоненты и установка барьеров 229 Модифицированные сгибы, медианы, величины и т. д. 231 точный нуль 231 * -буквенные еначения 231 Обоснованная лень 231 Внешние значения 232 плавная компонента, сопровождаемая неровнос- тями 233 Обзорные вопросы 233
Сглаживание последовательностей 211 7Е. Расщепление вершин и впадин 233 Сглаживание коротких подпоследователь- ностей 234 Идти ли дальше (факультативно) 237 Комментарий 237 Обзорные вопросы 237 7Ж. Ганнирование 237 скачущие средние 239 Комментарий 240 Пойдем немного дальше 240 Пойдем намного дальше 241 А что о неровностями? 241 Обзорные вопросы 241 7И. Чего мы достигли? 24! «Зачем нужно сглаживать?» — Весьма вероятно, что этот вопрос возникнет у читателя, когда он доберется до этой главы. Несколько примеров помогут понять, почему сглаживание часто оказывается полезным. ОСАДКИ, ПШЕНИЦА И ЗОЛОТО На илл. 1 показано годовое количество осадков, выпадавших в Нью-Йорке с 1872 по 1960 г. Мы здесь в основном видим просто рас- плывшееся пятно точек с большим разбросом, но, по-видимому, без тренда, т. е. без какой-либо закономерности. Нельзя ли разглядеть за этим пятном что-нибудь еще? На илл. 2 показан годовой объем производства пшеницы в США с 1870 по 1970 г. Здесь мы видим подымающееся пятно, возможно, с не- сколькими максимумами. Нельзя ли и за этим пятном увидеть что- нибудь еще? На илл. 3 показана ежегодная добыча золота в США (включая ^лиску) с 1872 по 1956 г. Здесь облако точек менее расплывчато, име- Здеся б°лее или менее выделяющиеся подъемы и спады. Можем ли мы вли Ь ^видеть все, что хотели бы? Нельзя лн отвлечься от мешающего яния видимых флюктуаций? СГЛАЖИВАНИЕ «гладкЛЬ“ШИНСТВ0 из нас сУмели бы хорошо справиться с проведением бУДет т * кРив°й «через» точки на илл. 3. Сделать то же самое о илл. 2 влаз РУДнее, и уже совсем трудно с помощью одних только наших Делать что-либо подобное о илл. 1.
212 Гласа 7 Иллюстрация 1 главы 7; осадки в Нью-Йорке Годовое количество осадков в Нью- Йорке в 1872—1960 гг.— наблюдаемые значения Иллюстрация 2главы 7: производство пшеницы Годовое производство пшеницы в [£Ц]Л в 1870—1970 гг.— наблюдаемые значения (в миллионах бушелей) Псадки, йюимы 4 Миллионы Тщшелей Л 1000 500 1870 1890 1910 1930 1950 1970 СГЛАЖИВАНИЕ ДАННЫХ О ЗОЛОТЕ, ПШЕНИЦЕ И ОСАДКАХ Если к илл. 3 применить приемы, которым мы научимся в этой главе, то в результате получится илл. 4. Хотя на этой «гладкой» кривой еще остались некоторые извилины, которые мы можем хотеть (или не хотеть) сгладить, в целом она дает нам очень хорошее предста ление об общем характере изменения в добыче золота. Можно почу ствовать, например, что максимум в 1873—1874 гг. нужно было °ы„пдта нять несколько выше, но для многих (если не большинства) целе,11Ч11 сглаженная кривая хорошо рассказывает об общих тенденциях до золота в США. Ценность сглаживания, как и всегда, состоит в том, мы яснее видим общее, освобожденное от частных подробностей. 1ЦЬ1 Если применить те же приемы к данным о производстве п1^ 5. из илл. 2, то получится сглаженная кривая, приведенная на ’ аН11я Теперь мы видим не только подъем в целом, но и отдельные кол
Сглаживание последовательностей 213 Иллюстрация 3 главы 7: добыча золота Иллюстрация 4 главы 7: добыча золота Добыча золота в СШЛ 1872—1956 гг.— наблюдаемые значения (В миллионах чистых тройских унций) Добыча золота в СШЛ в 1872—1956 гг.— сглажено Миллионы , тройских унции Миллионы тройских унций ~Л----1---1----1---1---1—^. 1870 1890 1910 1930 1950 1970 —1_____I I 1________’I I >. 1870 1890 1910 1930 1950 1970 вверх и вниз. Понижение в середине 30-х годов и повышения в 10-х и в конце 40-х годов нашего века теперь выделяются совершенно отчет- ливо. По сглаженной кривой можно видеть гораздо больше, чем по пер- воначальным данным. Наконец, на илл. 6 показан сглаженный вариант илл. 1. Там, где раньше нельзя было увидеть почти ничего, теперь мы видим многое. Периоды повышенной влажности — 1884—1904 и 1934—1953 гг. — окружены засухами, некоторые из них продолжительностью от 25 До 30 лет. О снабжении водой г. Нью-Йорка из илл. 6 можно узнать много такого, что было бы трудно обнаружить на илл. 1. КАКОЙ ВЫБРАТЬ ПОДХОД? л<е ?ПеРь. когда мы начинаем понимать, что нам нужно делать, с чего Мым Ь! начнем? В предыдущих главах особое место было отведено пря- ЛялиЛИниям: сначала мы усердно спрямляли графики, а затем вычис- ^ими°СТаТКИ от ПРЯМЫХ н занимались основанными на них схематиче- вйимя ДиагРаммами. И прямые линии действительно заслуживают того Ния> которое им было уделено в этих главах.
214 Глава V Иллюстрация б главы 71 производство пшеницы Годовое производство пшеницы в США в 1870—1970 гг.— сглажено Иллюстрация 6 главы 7: выпадение осадков в Нью-Йорке Годовое количество осадков в Нью-Йорке в 1872—1960 гг,— сглаже, но Осайки. оюймы Миллионы бушелей 1000\ __I______।____i____t_______।_>. 1880 1900 1920 1940 1900 _|_____। । , i______i____i >. 1870 1890 1910 1930 1950 1970 Но не все на свете — прямая линия. Нам нужны приемы обработки, которые помогли бы видеть, что говорят данные, даже если они не располагаются по прямой. Один из подходов состоит во взбирании по лестнице полиномов. (Ба, это не прямая! Попробуем квадратичную зависимость. Дважды «ба», она неквадратичная! Попробуем кубическую — и т. д.) Иногда это срабатывает, в особенности когда I) кривая близка к прямой или 2) существуют теоретические соображения, ведущие к полиному дан- ного частного вида. Такие случаи приятны — когда они происходят. Однако не стоит рассчитывать на то, что они произойдут и с вами. Если при спрямлении удобно было начать с семейства прямых и затем выбрать одну из них в качестве аппроксимации, то сглажива- ние по такому образцу проводить плохо. Часто бывает полезно вообра- зить себе данные в виде какой-то относительно гладкой кривой, хотя было бы трудно, неприятно или, наконец, просто невозможно точно определить то семейство относительно гладких кривых, которому принадлежит наша кривая. Если у нас нет никакого избранного се- мейства кривых, то как быть? Два основных принципа здесь — это опора на соседние значения и применение нескольких шагов сглаживания. На каждом wa
Сглаживание последовательностей 215 значение сравнивают с несколькими соседними (нередко лишь каждое Тремя) и затем соответственно изменяют его. Продолжая с ДБУМ цесС с разными шагами, можно надеяться, что результат будет эТ°Т виться все более гладким (иногда он может несколько уходить в стаН°ну но в гл. 16 мы научимся с этим справляться). СТ°Г1пиемы, ведущие к получению сглаженных вариантов данных, пые можно представлять себе как отражение неких зависимостей, К°Тут быть полезны, в особенности потому, что их использование во М°огом сохраняет гибкость подхода. Поскольку мы стремимся полу- пить гладкие кривые, этот процесс называется сглаживанием. Будучи процессом аппроксимации, он приводит к общему соотношению: наблюдения = аппроксимация ПЛЮС остатки, которое здесь можно записать в виде имеющиеся наблюдения = плавная компонента ПЛЮС неровности. Поскольку «плавная компонента» обязана быть гладкой, мы бу- дем, как правило, соединять входящие в нее точки. Иногда мы будем соединять точки гладкой последовательности отрезками прямых, получая ломаную линию, а иногда будем просто проводить через эти точки «гладкую кривую». Поскольку «неровности» ведут себя нере- гулярно, мы показываем остатки в виде отдельных точек. Для данных (х, у) простейшего вида х непрерывно возрастает с одинаковым шагом, например когда мы имеем одно значение каждый год или на каждой миле. Такие данные можно сглаживать безотноси- тельно к конкретным численным значениям х — наше внимание можно фокусировать на последов ательности, составленной из последовательных значений у. При равном шаге по х мы отправляемся от данной последовательности и из нее образуем две другие: плавную компоненту — последовательность сглаженных зна- чений и неровность — последовательность из остатков. Это самый простой и ясный случай, и эффективной обработке данных такого рода научиться довольно легко. ни ° главе мы познакомимся с простейшими способами сглажива- сво ’ 0Ставляя более тонкие методы (которые, впрочем, часто имеют Р Ценность) до другой главы и других книг. ми и Ааннов главе мы будем иметь дело только е последовательностя- ми Поэтому можно совсем забыть о значениях х; для описания вре- спг, Или места пояг---------------------------------------------- ЛОБО «год». Обычно £ в год, НО sи раз в Долю с-- 0тЛ Тем же оставляя^ более тонкие методы (которые, впрочем, часто имеют Данной главе мы будем иметь дело только е последовательностя- ми места появления входного значения мы будем использовать -------------> мы так делаем, когда входные значения поступают мы столь же свободно делали бы это, если бы они посту- миллион лет, раз в каждые 7,543 еут или в каждую десятую °тсчИть™ же основанием можно так поступать, если входные значения баются через каждую милю пути, начиная от определенного
216 Глава 7 исходного пункта. Пока у нас равный шаг, вполне можно употребля слова «время» и «год», потому что наш образ действий и его эффектив** ность мало чем будут отличаться от того, что мы имели бы, если бы v нас действительно были значения с равномерным шагом по времени В таких ситуациях часто говорят о «временных рядах», но поскольку употребление этого термина часто предполагает более подробную структуру данных, а также нередко и использование более сложных приемов обработки, то мы сохраним «последовательность» как не менее точный термин. ОБЗОРНЫЕ ВОПРОСЫ С каких примеров мы начали? Как выглядела каждая из групп данных? Чем помогло нам сглаживание? Что нам мешало заглянуть в данные глубже? От чего мы хотели бы отвлечься? Важны ли прямые линии? Всегда ли они удовлетворяют нас? Как обстоит дело с полино- мами? Можно ли искать аппроксимацию, не определив точно, какого вида она будет? Какова роль повторяющихся шагов? Соседних зна- чений? Что такое сглаживание? Последовательность? Плавная компо- нента? Неровности? 7А. МЕДИАНЫ ПО ТРОЙКАМ Если нам дана такая последовательность чисел, как 4, 7, 9, 3, 4, 11, 12, 1304, 10, 15, 12, 13, 17, то легко видеть, что разумный сглаженный вариант этой последова- тельности должен медленно возрастать примерно от 5 до 15; при этом не следует особенно обращать внимание на число 1304. Возможно, значение 1304 существует на самом деле и даже указы- вает на нечто очень важное, но оно не имеет никакого отношения к гладкой кривой. Оно должно дать очень большой остаток, но сглажи- вание нужно провести так, чтобы это значение оказало на него как можно меньшее влияние. Ошибка это ИЛИ нет, НЕЖЕЛАТЕЛЬНО, чтобы оно нарушило нам гладкую аппроксимацию. Мы будем брать по три значения, переставлять их внутри каждой тройки в порядке возрастания и брать их медиану, как это сделано на илл. 7. Первые три значения в последовательности так и стоят в порядке возрастания, так что тут ничего не произойдет. 2-, 3- и 4-е значения последовательности будут иметь другой порядок, если расположить в порядке возрастания. Число 7, которое является вто рым (т. е. средним) по величине, в последовательности занимает среднее место. е. Легко научиться, взглянув на три числа, стоящие рядом в поСза- довательности, находить среднее из них в порядке возрастания и писывать его напротив среднего в последовательности. (Полезно кла
Сглаживание последовательностей 217 Иллюстрация 7 главы 7: пояснение Перекрывающиеся блоки по три числа, их медианы и окончательный результат А) ВХОД 4, 7, 9, 3, 4, 11, 12, 1304, 10, 15, 12, 13, 17. Б) ПРИМЕРЫ СКОЛЬЗЯЩИХ МЕДИАН—больше мы этого так подробно доказывать не будем Три последовательных значения Медиана (в порядке данной последователь- ности) (в порядке величин) 4 7 9 4 7 9 7 7 9 3 3 7 9 7 9 3 4 3 4 9 4 3 4 11 3 4 И 4 4 11 12 4 11 12 И В) Плавная компонента ПО ТРОЙКАМ и ее НЕРОВНОСТИ Дано Плавная компонента Неровности 4 ? ? 7 7 0 9 7 2 3 4 —1 4 4 0 11 11 0 12 12 0 1304 12 1292 10 15 -5 15 12 3 12 13 —1 13 13 0 17 ? ? Примеры: 7, 7, 4, 4 и т. д.-, как в п. Б. 0=7—7, 2 =9—7, , —1=3—4 и т. д. 7а) ^упражнения тройка6 Пгавную компоненту из п.В (выше) с помощью скользящих медиан по 7б) Сгладьте ’ ^ТаЛ ЛИ РезУльтат более гладким? Почему (почему нет)? Ппо«Д. неР°вности из п.В (выше) с помощью скользящих медиан по тройкам, 7в) СглРаХе п₽ТИРУЙТе РезУль™- Прокомментируйте И3 76 ’ еще раз пРименив скользящие медианы по тройкам.
218 Глава 7 палец у трех значений, от которых мы берем медиану, по одну сторону от ряда.) На илл. 7 показан пример вычислений. " Поскольку группы значений, от которых мы находим медиану можно представить себе скользящими вдоль ряда, такие последова- тельности медиан часто называют скользящими медианами* Мы уже неплохо начали сглаживание этой последовательности, но нам еще предстоит научиться определять недостающие значения на концах. ПОВТОРНЫЕ МЕДИАНЫ Теперь можно посмотреть, что произойдет в случае повторного при- менения медиан из трех значений. Дополнив тот же пример еще двумя значениями (20 и 24), найдем два первых результата сглаживания по тройкам: 4 7 9 3 4 11 12 1304 10 15 12 13 17 20 24 ? 7 7 4 4 11 12 12 15 12 13 13 17 20 ? ?? 7 4 4 11 12 12 12 13 13 13 17 ? ? В данном случае после последнего сглаживания тройками (здесь вто- рого, так как последующее сглаживание тройками уже ничего не из- менит) поведение сглаженной последовательности складывается из следующих (перекрывающихся) частей: возрастающая часть, плоские верхи (длиной по меньшей мере в два числа), убывающая часть и плос- кие низы (длиной по меньшей мере в два числа). При дальнейшем при- менении медианного сглаживания по тройкам все эти части останутся неизменными, так что мы были правы, когда сказали, что сглажива- ние закончено. ОБОЗНАЧЕНИЯ Однократное сглаживание медианами по тройкам мы будем обозна- чать как «3», а повторное сглаживание до тех пор, пока последователь- ность не перестанет изменяться,— как «ЗП». КОММЕНТАРИЙ Мы довольно точно следуем программе, объявленной в вводном разделе к этой главе: О используем повторные шаги; 0 каждый шаг применяем отдельно к каждому значению; изменение любого значения в каждом шаге зависит толь этого значения и нескольких соседних (здесь — по одному с ка стороны).
Сглаживание последовательностей 219 БИТУМИНОЗНЫЙ УГОЛЬ; ЗАДЕРЖАННЫЕ ПЛАТЕЖИ На илл. 8 приведены данные и несколько сглаженных участков этих данных для сорока с небольшим лет а) добычи битуминозного угля Б США и б) суммарных вкладов в те банки США, которые в каком- нибудь году задерживают платежи. Для добычи угля мы даем перво- начальные значения, часть плавной компоненты, полученной сглажи- ванием медианами по тройкам, и еще меньшую часть плавной компоненты, полученной способом «ЗП» — повторным сглаживанием медианами по тройкам. Для задержанных вкладов приведены перво- начальные значения и в кратком виде вычисление плавной компо- ненты «ЗП». Например, для задержанных вкладов на 1925 г. мы пишем «213, 194» — это означает, что первое сглаживание тройками дало 213, а второе 194. В этих примерах следует обратить внимание на то что после первого сглаживания переход к ЗП требует очень малых затрат труда (и очень мало изменяет последовательность). Иллюстрация 8 главы 7: добыча угля; задержанные вклады Добыча битуминозного угля (в миллионах тонн в год) в США в 1920—1968 гр» и задержанные вклады в банках (в миллионах долларов) США в 1921—1967 гг. 1 Гоп 1 {Добыча угля 3* ЗП | | Задержанные’ | вклады ЗП | 1920 569 ? 1 416 422 196 ? 2 422 422 111 189 3 565 424 189 189 4 484 520 213 ... 189 25 520 520 173 213,194 6 573 520 272 194 7 518 518 194 194 8 501 139 194 9 505 230 230 30 463 853 230 1 382 382 1691 853,116 2 310 334 716 , 1691,853 3 334 334 3599 1 716 4 359 359 37 37 35 372 10 11 6 439 11 11 7 446 11 11 / 8 349 19 9 395 13 40 461 34 1 611 5.9 2 саз 3.7 Э 590 1.7 4 * - 620 6.2 * здесь означает «сглажено с помощью медиан по тройкам» »
220 Глава 7 Иллюстрация 8 (продолжение) 45 678 .40 6 '534 О 7 63Г 0 8 600 .17 9 438 0 50 616 .04 1 534 3.1 2 467 1.4. 3 457 457 44.4 4 392 457 457 2.9 55 467 467 467 6.5 6 500 493 493 11.9 7 493 493 12.9 8 410 6.3 9 412 2.0 50 416 8.0 1 403 7.5 2 422 1.2 3 459 23.3 4 467 22.0 65 512 45.9 6 534 534 0.7 7 552 545 11.8 8 545 7 УПРАЖНЕНИЯ 8а) Закончите столбец «3» для данных о добыче угля, 8а2) Изменился бы этот столбец «3» от еще одного сглаживания медианами по трой- кам? Почему (почему нет)? 8аЗ) Какой вид будет иметь столбец «ЗП» для данных о добыче угля? 86) Закончите столбец «ЗП» для данных о задержанных вкладах, 8в) Найдите другую интересную для вас последовательность наблюдений (длиной не меньше 20 чисел) и проведите сглаживание медианами по тройкам, 8в2) Продолжите сглаживание полученного результата способом «ЗП». 8г/8г2) Сделайте то же, что и в упр. 8в/8в2, но по крайней мере для 50 чисел. источники Добыча угля: World Almanac, 1946 (с. 635); 1957 (с. 715); 1965 (с. 721); 1970 (с. 149)» 1969 (с. 128) (их источник: Bureau of Mines). . Задержанные вклады: World Almanac, 1931 (с. 306); 1965 (с, 749); 1970 (с, 99) ( источник: Federal Reserve System),
Сглаживание последовательностей 221 ОБЗОРНЫЕ ВОПРОСЫ Что такое скользящая медиана? Как ее вычисляют? Из-за каких альных особенностей применение скользящих медиан по тройкам мП°Кестает изменять значения последовательности? Какие особенности Пбеспечивают изменение значений? Что происходит при повторном именении скользящих медиан данной длины? При многократном ПР применении? Как мы при этом помогаем себе пальцами? Как согла- И«ется то, что мы делаем, с программой, выдвинутой в вводном разделе этой главы? 7Б ГРАФИЧЕСКОЕ сглаживание плавной компоненты Как наилучшим образом использовать сглаженные последователь- ности ЗП, которые мы только что научились вычислять? Такие последовательности ведут себя намного правильнее, чем пер- воначальные данные. Если бы у нас были только первоначальные дан- ные и нам нужно было сформулировать, о чем они говорят, то мы могли бы попытаться провести «через» них гладкую кривую. Через точки плавной компоненты ЗП гораздо легче провести гладкую кривую, чем через первоначальные точки. На илл. 9 показана гладкая кривая, про- веденная через точки ЗП?и для данных о битуминозном угле. Иллюстрация 9 главы 7: добыча угля Умеренное визуальное сглаживание численной плавной компоненты «СВ» из илл. 12 (первое из трех визуальных сглаживаний плавной компоненты ЗП?) Е00 Миллионы тонн 500 400 ложр11В?пР°сительный ‘н°и до разД1 7Г_ _!_____________!_____________। ч,: юге юно 1300 знак в «ЗП?» относится к обработке концевых значений, от»
222 Глава 7 ЛИЧНОЕ СУЖДЕНИЕ —ВОЗМОЖНОСТЬ ВЫБОРА Когда мы привлекаем евое личное суждение, появляется возмож- ность выбора. На илл. 10 и 11 показаны еще два плавных хода, прове* денные через те же точки ЗП, которые мы видели на илл. 9. На илл. iq мы как бы смотрим издалека, так что не замечаем даже десятилетних максимумов. На илл. 11 мы, наоборот, смотрим как бы е очень близкого расстояния, точнее следуя за точками ЗП, чем на илл. 9. Разные люди обычно различаются и тем выбором, который они предпочитают сделать. Использование личного суждения имеет то большое преимущество, что помогает удовлетворять разным нуждам. (Соответствующие недостатки выявляются в спорах между людьми с противоположными мнениями.) Те, кто проводит на глаз кривую через точки ЗП, используют минимум вычислений и максимум своего суждения. Те, кто хотел бы больше опираться на вычисления и меньше на суждение, могут использовать его для выбора одной из тех сглаженных последовательностей, которые мы научимся получать в последующих разделах этой главы (или даже тех, с которыми мы познакомимся в гл. 16). Иллюстрация 10 главы 7i добыча угля Весьма общее визуальное сглаживание плавной компоненты «СВ» из илл. 12 (второе из трех визуальных сглаживаний плавной компоненты ЗП?) Миллионы тонн Л о % -J------—------1___________L— 1SZ0 194Q I960
Сглаживание последовательностей 223 Иллюстрация 11 главы 71 добыча угля Подробное визуальное сглаживание плавной компоненты «СВ» иэ илл. 12 (третье из трех визуальных сглаживаний плавной компоненты ЗП?) Миллионы тонн 4 -J------------1____________L— 1920 1940 1900 ОБЗОРНЫЕ ВОПРОСЫ Целесообразно ли использовать визуальное сглаживание совместно с численным сглаживанием? Почему (или почему нет)? 7В. НАШИ ПЕРСПЕКТИВЫ Теперь мы знаем, как производить простейшее сглаживание. Пока- жем, насколько лучше мы могли бы это при желании делать и как легко развить дальше то, что мы уже знаем. СРАВНЕНИЕ ЧЕТЫРЕХ ГРАФИКОВ На илл. 12 для примера с добычей битуминозного угля изобра- жены; О данные в их первоначальном виде (в левом верхнем, или северо- западном, углу —СЗ); r ft? данные, сглаженные по методу, описанному в разд. 7А (ЗП? '-о углу); (ЗггЛг^иные, сглаженные по методу, изложенному в конце разд. 7Д ₽> в ЮЗ углу); (ЗПог>^ень сильно сглаженные данные — как в разд. 7Е ир₽ГЗПРРГЗ, в ЮВ углу),
224 Глава 7 Иллюстрация 12 главы 7: добыча угля Первоначальные данные и три плавные компоненты — добыча битуминозного v США в миллионах тонн (данные нз илл. 8) уг,;Я в Миллионы тонн л £00- £00 Xх X Хх X X X* 1 X Миллионы тонн п £00 - •ь 400 X х »х хк х< 1920 1940 х X X х £00 о°оо ООО ОО о? 400- 009 Оооо Исходные данные I960 1920 Оо ПлаВная компонента ЗП? 1940 1990 * X х х х X X X X О« X Миллионы тонн п £00- Миллионы тонн £00 оссса О’ о £00 О0Оо О' ОООо £00 - ОО( 0оо 400 00° о 9 ОО о ООО ООО 400 о о оо cP о 00° ПлаВная компонента ЗПРР 1920 1940 1360 1320 ПлоВная компонента ЗПРРГЗПРРГЗ 1340 да ч С о о о о й<&$ О С о а с о
Сглаживание последовательностей 223 «р» в «ЗПР» обозначает расщепление, которое мы разъясним ^^конце раЗД- 7Е> и *Е>> — «ганнирование», которое мы разъясним в разд- 7Ж. в эти графики заслуживают внимательного рассмотрения и анализа. Заметим следующее: л прИ переходе от СЗ к СВ, затем к ЮЗ и к ЮВ общая картина паяных становится яснее; Д 6 при внимательном рассмотрении на каждом графике можно идеть все то, что только что было видно на последующем графике; ^лнако на это потребуется больше усилий; °Д Л в северо-западном варианте очень трудно уловить общие тен- денции: точки настолько беспорядочно разбросаны, что любые попытки соединить их линией окажутся тщетными; q даже на СВ уже пропало МНОГО наблюдаемых подробностей, тогда как на ЮВ исчезли практически ВСЕ подробности; О сглаживание на глаз (илл. 9) оказалось очень близко к оконча- тельному варианту (ЮВ). Из этого примера хорошо выясняются многие основные принципы сглаживания. Исследователю, интересующемуся наблюдаемыми под- робностями, не следует полагаться на плавную компоненту (хотя он сможет успешно работать, рассматривая плавную компоненту и неров- ности совместно). Тому, кто интересуется общей картиной, естественно будет обратиться к плавной компоненте (и он часто ДОЛЖЕН будет это делать). Цель сглаживания — показать общую картину, а НЕ на- блюдаемые подробности. К тому же, по крайней мере в данном виде, плавная компонента НЕ ДОЛЖНА указывать на изменчивость, НЕ ДОЛЖНА отражать наше мнение о ее точности. (Мы делаем ее глад- кой, чтобы облегчить работу глазу и отвлечь его внимание от мелочей. Нередко нам нужна настолько большая гладкость, чтобы при сравне- нии нескольких гладких кривых, каждая из которых сама по себе до- статочно приемлема, эти кривые казались бы совершенно различ- ными.) ПРЕДВАРИТЕЛЬНОЕ ЗНАКОМСТВО СО ШТРИХОВКОЙ К счастью для тех, кто не хотел бы переходить к более сложным ычислениям, но полагает, что сглаживание на глаз — «слишком Определенное дело», существует другой способ отвлечь глаз исследо- ателя от мелких изгибов не идеально плавной последовательности. ° можно сделать, заштриховав ее, что осуществляется заменой точек Пок°ТКИМИ веРтикальными отрезками надлежащей длины. На илл. 13 СгКазана штриховка варианта ЮЗ из илл. 12 в сравнении с более с Ла>Кенным вариантом ЮВ из той же иллюстрации. Очевидно, что помощью штриховки мы многого достигли,— вероятно, большей 6 As 1247
226 Глава 7 Иллюстрация 13 главы 7i добыча угля Два способа освободить глаз исследователя от изгибов и изломов плавной компоненты, полученной в результате умеренного сглаживания Миллионы тонн воо- 600- 400 - _1_______I_______I______1------L—,..._1 1920 1940 1960 а Миллионы тонн 1920 1940 1360 а — сильное сглаживание (ЗПРРГЗПРРГЗ) — ЮВ предыдущей иллюстрации; б — штриховка плавной компоненты для более легкого сглаживания (ЗПРР) — ЮЗ предыдущей иллюстрации. части тех преимуществ, которые могли бы принести дополнительные вычисления. Нам потребуется заштриховывать в соответствии с величиной не- ровностей. Подробнее это изложено ниже, в разд. 7Д. ПРОГРАММА ДАЛЬНЕЙШИХ ДЕЙСТВИЙ Чему нам теперь нужно научиться? Безусловно, следующему* 0 как быть с концевыми значениями (7Г); 0 как заштриховывать (7Д); 0 как поступать с плоскими вершинами и впадинами дли только в два значения (они хорошо заметны, например, на илл (7Е); ной . 7)
Сглаживание последовательностей 227 как полученную плавную компоненту сгладить еще больше (7Ж)- ггпоме этого, в гл. 16 мы еще изложим способы, как более тщатель- дедовать за подъемами и спусками, и таким образом уберем из Н° вностей все сколько-нибудь заметные закономерные изменения, нер° я в результате еще более сглаженную плавную компоненту, пако в данной главе мы не будем вводить никаких новых принци- ^дн а только приемы, ведущие к улучшению сглаживания по срав- нению с ЗП? (в факультативных разделах гл. 7* те же принципы будут развиты дальше). ОБЗОРНЫЕ ВОПРОСЫ Что произошло, когда мы сравнили различные плавные компо- ненты одних и тех же данных? Какой мы выбрали пример? Какими способами можно отвлечь наше внимание от извилин и изломов? Чему нам теперь нужно научиться? 7Г. КОПИРОВАНИЕ И КОЕ-ЧТО ЕЩЕ При введении повторных медиан по тройкам (в разд. 7А) мы были пуристами и позволили с каждого конца вкрасться вопросительным знакам. Мы поступили так, чтобы ограничиться одним понятием — повторными медианами по тройкам. В реальных задачах мы не позво- лим вопросительным знакам занять место чисел. Вместо этого мы про- сто «скопируем» концевые значения. Таким образом, пример в разд. 7А тогда будет выглядеть так: 4 7 9 3 4 11 12 1304 10 15 12 13 17 20 24 4 7 7 4 4 И 12 12 15 12 13 13 17 20 24 4 7 7 4 4 11 12 12 12 13 13 13 17 20 24 Это по крайней мере не позволит нашим последовательностям уко- рачиваться. Но достаточно ли этого? Иной раз «да», когда, по нашему мнению, концевое значение несет особую информацию, но обычно — Поэтому нам нужно уметь сглаживать концевые значения, н^ратимся к простейшему приему сглаживания концов, способному, всей вероятности, удовлетворить наши нужды. СГЛАЖИВАНИЕ НА КОНЦАХ Су^ЙЧас нам придется прибегнуть к несколько более сложным рас- ныдвНИям- На илл. 14 показано несколько графиков. На них нанесе- ны бу °ДНИХ и тех же входных концевых значения и пять сглаженных. Них сг еМ использ°вать только крайнее входное значение и два сосед- лаженных, которые будем называть соответственно первым и
228 Глава 7 Иллюстрация 14 главы 7: чисто пояснительная Сглаживание на концах: части и результат □ в » в X НАБЛЮДЕННОЕ Ъ ПО ПРЯМОЙ ЗАКОНЕН О X о о й X □ « « А 0 к и ЕСЕ ТРИ х! аз • 2 Е4 А Б 1 — концевые входные значения; 2 — медианы по тройкам; 3 — наблюдаемое зна- чение; 4 — «ленивое» значение; 5 — значение, полученное экстраполяцией по прямой; 6 — сглаженное концевое значение = медиана из 3, 4, 5. вторым. На графике СЗ наблюденное .крайнее значение выделено квад- ратиком («ленивый» способ сглаживания). На графике СВ квадрати- ком выделено ближайшее к концу сглаженное значение. На графике ЮЗ таким же образом выделен результат прямолинейной экстраполя- ции первого и второго сглаженных значений, причем эта экстраполя- ция на один шаг ДАЛЬШЕ конца. На графике ЮВ выделены не только все три точки, выделенные на предыдущих графиках, но и медиана этих трех точек, которую мы и принимаем в качестве сглаженного крайнего значения. ДЛЯ ТЕХ, КТО ПРЕДПОЧИТАЕТ СЛОВЕСНУЮ АРИФМЕТИКУ Этому процессу можно дать словесное арифметическое описание- Можно рассмотреть две разности: крайнее входное значение МИНУС первое сглаженное и первое сглаженное значение МИНУС второе.
Сглаживание повледовательностей 329 первая из этих разностей больше нуля и не превосходит удвоен- Еслй торой то крайнее входное значение можно повторить. 110 В противном случае разность крайнее сглаженное значение МИНУС первое сглаженное значение ужно сделать соответственно равной нулю или вдвое большей, чем разность перВое сглаженное значение МИНУС второе. ЗП ИЛИ ЗП' Поскольку копирование концевых значений при сглаживании по тройкам и последующее сглаживание концевых значений — наиболее распространенный способ, мы будем обозначать соответствующее сглаживание ЗП, а ЗП' сохраним для случая, когда используется только копирование (при многократном сглаживании медианами по тройкам). КОММЕНТАРИЙ Следует отметить, что и при копировании, и при сглаживании кон- цевых значений каждое значение сравнивается самое большее лишь с несколькими соседними. ОБЗОРНЫЕ ВОПРОСЫ В чем проявился наш пуризм в разд. 7А? Как мы поступаем в ре- альных ситуациях? Что такое копирование? Допускаем ли мы, чтобы сглаживание медианами по тройкам укоротило нашу последователь- ность? Хватает ли нам обычно копирования? Что еще можно было бы сделать? Всегда ли? В каких случаях нельзя? 7Д. ШТРИХОВКА ПЛАВНОЙ КОМПОНЕНТЫ И УСТАНОВКА БАРЬЕРОВ tod, епеРь нам НУЖНО определить длину вертикальных отрезков, ко- Цы э'Г МЫ заштРиховываем плавную компоненту. Очевидно, что кон- 11 вниз* ОТРезков Должны отстоять от сглаженных значений ЗП вверх ватьея На Равное расстояние. Естественно для этой цели воспользо- В НаВеличинами остатков. Но как? Всех точЩИХ схематнческих диаграммах (гл. 2) мы закрывали половину Дем ввепТ пРямоУголвником («ящиком»). Поэтому для начала мы пой- означа И ВНИЗ настолько> чтобы закрыть половину неровностей, а чин остат!еТ ~й11а Расстояние, равное медиане от (абсолютных) вели- °Статков длВ- Илл> 15, А и Б приведены стебли с листьями величин * я тех двух плавных компонент добычи битуминозного угля,
230 Глава 7 Иллюстрация 15 главы 7: добыча угля Величины неровностей (остатков) А) ЮВ (сильно сглаженные) не- ровности — Z означает «нуль», Н — наибольшее значение Б) ЮЗ (ЗПРР) неровности 49 Z ZZZ... (18 всего).. 777 49 Z ZZZZZZZZ 31 0 2444677 41 О 1112223333445778 24 1 002233 25 1 13337 18 2 445 20 2 34 15 3 06 18 3 0145 13 4 44 14 4 1469 11 5 1336 40 5 36 7 6 05 £ 6 289 7 S 7 88 5 8 118 3 £ 1 9 2 9 0 2 Н (147,-138) 1 Н (147) В) ОБЫЧНЫЕ МЕДИАНЫ, СГИБЫ и т. д. для ВЕЛИЧИН Г) МОДИФИЦИРОВАННЫЕ ME- ДИАНЫ; СГИБЫ и т. д. для ВЕ- ЛИЧИН <дпя юв) ха™ юз) #49 (все) #49 (все) М25 С13 В 7 11 М25 7 44 С13 44 68 В 7 60 (для ЮВ) *#45 = 41+4 »М23 I 13 »С12 I 46 *В 6п I 68п (для ЮЗ) *#40 = 4 + 9 *М20п 12л *С10п 52 *В 5п 73 Д) ЧАСТИ СТЕБЛЕЙ с ЛИСТЬЯМИ для самих ОСТАТКОВ — не их величин. М — наименьшее значение (дляЮВ) 874433221 331 4 40 4 -О -0 -2 -3 -4 -5 -6 М 2 (-78) (для ЮЗ) -0 -1 -2 -3 -4 -5 -6 М 7642 320 4 6 4 6 50 (-138) Примечание. Сни потребуются для некоторых упражнений. Е) УПРАЖНЕНИЯ ] 15а, б) Составьте полные стебли с листьями для остатков [ЮВ для (а), ЮЗ ДЛЯ^ иХ и найдите; 1) их обычные медианы, сгибы и т. д., включая барьеры, модифицированные медианы, сгибы и т. д., включая барьеры. „гсках11' 15а1, 61) Найдите, какие значения остатков являются: 1) внешними и 2) вающими. оТ плав- ав) Найдите обычные и модифицированные медианы остатков, полученных , да. ной компоненты ЗП? (найденных после того, как илл, 8 была закон метьте, что на каждом конце остаток равен нулю).
Сглаживание последовательностей 231 ыми мы больше всего занимались. В п. В этой иллюстрации даны кот°Р образом определяемые медианы, сгибы и восьмые. Довольно всего этого? МОДИФИЦИРОВАННЫЕ СГИБЫ, МЕДИАНЫ, ВЕЛИЧИНЫ ИТ.Д. Что касается неровностей, оставшихся от более сильно сглаженного ианта, среди которых было лишь 8 нулей из 49 значений, то здесь ваР можем быть вполне довольны. Полезно знать, что половина всех М*повностей лежит ниже 11. Что же касается неровностей относитель- о ЗПРР» то тут мы далеко не удовлетворены. Узнав, что медиана рав- на 7 мы получаем представление (вполне правильное) о том, что очень многие из остатков равны нулю, но мы не получаем представления о том насколько они велики. Возможно, следует несколько изменить наши определения. Это легко сделать, считая каждый точный нуль некоторой дробью от значения, а не целым значением. Простейшая дробь — это Уг, и она, по-видимому, годится для нас. Ее мы и исполь- зуем. Теперь для наших двух примеров полученные с помощью меди- аны величины остатков будут равны 13 (вместо 11) и 12п (вместо 7). Это нам уже кое о чем говорит. Введение таких модификаций мы будем отмечать звездочкой (*) перед каждой из величин М, С, В, . . . б, Б и т. д., которые мы будем вычислять. Назовем их ’-буквенными значениями. Далее мы всегда при обработке величин остатков будем пользоваться -медианами и другими *-буквенными значениями. Это объясняет, почему вертикальные отрезки на илл. 13 уходят вверх и вниз от точек на 12п: медиана * М от величин остатков равна 12п. ОБОСНОВАННАЯ ЛЕНЬ зани^ИШ« ТОТ’ кто любит арифметические вычисления или самоистя- от УДет СТРОИТЬ подобный график, прибавляя и отнимая 12п концаЖДОГ° сглаженного значения и затем нанося на график эти два СледующимДоб° ВеРтикального отРезка- Намного проще поступить О слепСТИ ВСе сглаже™ые значения; .——------------ на край ЛИ?Ь ша^лон — нанести три отметки 12п — Ка>кдые 12тКа бумаги или карточки через О С кя ’ - —12п — сРеднюю точк°й по очереди совмещать ку шаблона и между крайними
232 Глава 7 проводить вертикальную линию. (Если, как и полагалось бы, мы п дем чертить сначала на миллиметровке, а потом на кальке, тогда ПГЛ ще нанести на миллиметровку только эти три отметки, а линии чо тить только на кальке.) Р' Этот объем работы уже вполне приемлем. ВНЕШНИЕ ЗНАЧЕНИЯ Чтобы полностью использовать неровности для поддержки плавной компоненты, одной лишь модифицированной (*) медианы остатков не- достаточно для определения длины отрезков штриховки. Нам нужно также выделить внешние и отскакивающие точки. В упражнениях к илл. 15 это делалось для наших двух примеров с использованием как обычных, так и модифицированных сгибов С барьерами, основанными на обычных сгибах, положение с примером ЗПРР (вариант ЮЗ) неважное. При 18 нулях сгибы располагаются на значениях 10 и 0. Из 31 ненулевого значения только 8 не являются внешними, а 16 оказались отскакивающими. Применять особую обра- ботку и снабжать названиями 19 из 49 остатков (или, если хотите, 19 из 27 ненулевых остатков) означает выделить столь много необычных наблюдений, что их особый анализ уже перестает быть полезным. (Если попытаться сделать то же самое с неровностями, оставшимися от сгла- живания ЗП?, результаты будут ненамного лучшими.) Иллюстрация 16 главы 7: добыча угля К заштрихованной плавной компоненте из илл. 13 (ЗПРР) добавлены внешние и отскакивающие точки Миллионы тонн I . I .. - ।--------1.— J---—L 10ZQ 1940 Ш
Сглаживание последовательностей 233 Точно так же, как мы должны были поступить о медианами остат- придется нам поступать и с барьерами. При обработке неровностей ЗГ^’мЫ, как правило, будем использовать *-барьеры, основанные на *'С Итак, при сглаживании ЗПРР наши *-сгибы будут равны —8п и 24, куда получаем *-барьеры: первые будут равны —59 и 74, а вторые OTJ07n и 123п, так что 5 значений оказываются внешними и 2 отскаки- ^"юшими. На илл. 16 эти 7 значений показаны на фоне заштрихован- В30Й плавной компоненты из илл. 13. Н Когда имеется штриховка вместе с внешними точками, мы будем говорить о плавной компоненте, сопровождаемой неровностями. Заметим, что внешние значения мы нанесли тонкими кружками, употребив довольно заметный пунктир лишь для отскакивающих зна- чений и выделив отдельно лишь эти отскакивающие значения. Это было сделано для того, чтобы отдельные точки остались заметными, но не слишком мешали общему впечатлению от самой заштрихованной плав- ной компоненты. ОБЗОРНЫЕ ВОПРОСЫ Из какого предыдущего случая мы исходили при решении вопроса о ширине штриховки? Какая особенность плавной компоненты и не- ровностей используется при определении ширины штриховки? Что такое модифицированные сгибы? Модифицированные величины ос- татков, полученные из медиан? Другие модифицированные буквенные значения? [Имеет ли смысл вводить модифицированную медиану? Почему (почему нет)?! Как обозначаются модифицированные буквен- ные значения? Как можно сократить себе работу при нанесении на график штриховки? Как ставятся барьеры при наличии большого числа нулей? Где лучше всего показывать внешние и отскакивающие очки. Что означает выражение «плавная компонента, сопровождав- ши неровностями»? Как сделать, чтобы внешние (и отскакивающие) ки не отвлекали нашего внимания от остальной части неровностей? 7Е. РАСЩЕПЛЕНИЕ ВЕРШИН И ВПАДИН вых^™0’ наи^°^ее неприятным элементом тех сглаженных кри- в каждОм?Ые МЫ се®час получаем, являются небольшие (по две точки вой. Как \.ПЛосковеРшинные холмы и долины, разбросанные по кри- состоит в т^ЧШе П0СТУпать с такими «горбами»? Один простой подход т- е- сначала^ ЧТо^ы счига'гь каждую такую пару значений концевой, ВЬ[х значений ИХ ск°пировать и потом сгладить по правилу для конце- После первого оЛатем ещ'е Раз сгладить способом ЗП. Таким образом, оП мы сначала разбиваем результат на подпоследова-
234 Глава 7 тельности, затем сводим их вместе и еще раз сглаживаем способ ЗП, чтобы убрать скачки на стыках. ом На илл. 17, А и Б на некоторых участках плавной компоненть полученной способом ЗП из данных о добыче битуминозного угЛя’ дан пример таких вычислений. В п.В этой иллюстрации они прове’ дены для 25-летнего интервала тех же данных. СГЛАЖИВАНИЕ КОРОТКИХ ПОДПОСЛЕДОВАТЕЛЬНОСТЕЙ В последней подпоследовательности, получившейся при расщеп- лении долины 457 длиной в два числа, имеются лишь два значения- 457, 467. Она слишком коротка для сглаживания, хотя можно было бы Иллюстрация 17 главы 7: битуминозный уголь Расщепление вершин и впадин на примере плавной компоненты ЗП А) ВПАДИНА I ЗП 1 . Рас-. 1 щепл. I | Ксгл* | | Объед.* [ I ?п J 468 468 382 468 Примеры: 210 = 382 - 2(468-382) 382 . 382 н 8 334= медиана (382,210,334) • • • 334“ ""334 5 X 333 = 359 - 2(372-359) ф X о 334 = медиана (359,333,334) 334.. 334 2 СЭ s: * * ’ ООН 359 359 359 372 372 372 *Ксгл — концевое сглаживание, объед.— объединение. Б) ВЕРШИНА [зп | I Рас’ 1 | щепл. | | Ксгл* | | Объед.*| | зп I 359 359 359 372 372 372 439 398—. 439 "•398 395 439.... ...395 398,395 -439 -••395- 1» 395 439** 395 395 395 395** 395 ** Эти значения получились из 395, но поскольку 395— впадина, тосоотвеТ' ствующие вычисления здесь не показаны,
Сглаживание последовательностей 235 Иллюстрация 17 (продолжение) К) Отрезок в 25 лет вместе со значениями, вычисленными выше,— рабочая фор- ма записи | 1-е расщепл. | ( 2-е расщепл. | . . . , . ПеР- । . . ПеР” . | Год | | ЗП | |еонач. j | ЗП | | вонач.1 ЗП I 1930 468 468 1 382 382 2 334 ] 334 3341 334 334 3 334J 334 334J 334 334 4 359 359 35 372 372 6 4391 398 395 7 439J 395 395 8 3951 439 398 9 395J 395 439 1940 461 461 1 511 511 2 583 583 3 590’ 590 583 4 590J 578 590 45 578“ 590 590 6 578j 600 590 7 6001 578 578 8 6001 516 516 9 516 516 1950 516 516' 1 516 516 2 467 467 3 4571 457 4571 457 457 4 457j 457 457J 457 457 55 467 467 Отметим следующее: значений-ПОЛЬЗ°ВаНИе квадРатпов скобки для выделения вершин и впадин из двух цах ^использование концевого сглаживания для определения всех точек в столб- 3) повторение операции «Р» точно два раза; в данном примере второе расщепление не внесло никаких изменений. 17а) УПРАЖНЕНИЯ Продолжите эти вычисления до нахождения полной 1?б) .j, Этих Данных, определив плавную компоненту ЗПРР, Же для примера банков с задержанными вкладами. полной плавной компоненты ЗП
236 Глава 7 попробовать применить заключительное сглаживание ЗП в надеж «сшить» сглаженные подпоследовательности. В первой подпоследов^ тельности три значения: 468, 382, 334. После первого применения зп они останутся без изменения. Переходя к концевому сглаживаний для которого у нас как раз имеется наименьшее возможное число значений, находим, что на данные три числа оно не повлияет. Если бы у нас было 468, 454, 334, то в результате концевого сгла- живания мы получили бы 468, 454, 426. Если бы у нас было 468, 354 334, то мы получили бы 394, 354, 334. В подпоследовательности из трех значений концевое сглаживание может изменить, самое большее лишь одно из них. Заметим, что расщепление планируется проводить дважды, поэтому мы изобразим его применение после ЗП символов в ТОЧНОСТИ С ПОМОЩЬЮ ЗПРР, которые будут обозначать результат этого сглаживания. Иллюстрация 18 главы 7: выпадение осадков в Нью-Йорке Сравнение отрезка 1872—1945 гг. из периода времени, в течение которого велась регистрация выпадения осадков, и трех его плавных компонент Осадки, жимы Осадки, дюймы ПЕРВОМУ. го 30 - _j_______I______> ,. 1 1880 1900 1920 1940 I I______1______1— 1880 1300 1920 1940 Осадки, дюймы ЗПРР Осадки, дюймы 30 30- G0WO 40 ООСф €0090 ©О СООООО °C00 40 «оо ЗПРП осоосо» СОООЫХО OW Ц- 1860 1900 ~1920~940 30|- 1680 1900 1920 1940
Сглаживание последовательностей 237 ИДТИ ЛИ ДАЛЬШЕ? (ФАКУЛЬТАТИВНО) Лвух применений расщепления вполне достаточно — во многих Таях на этом пора остановиться. Но иногда можно кое-что выиг- еЛУ если продвинуться еще хотя бы немного дальше. Рат£сЛИ мы решили идти дальше, то иногда бывает полезно «расщеп- ть до конца», точно так же как мы поступали при сглаживании ЗП. Этаком случае мы будем писать РП («расщепление повторное»). На лл 18 на примере данных об осадках в Нью-Йорке (приведенных И начале этой главы, илл. 1 и 6) проводится сравнение между /> первоначальными данными до 1945 г. (СЗ угол рисунка); <> плавной компонентой ЗП (СВ угол); <0 плавной компонентой ЗПРР (ЮЗ угол); ф плавной компонентой ЗПРР (ЮВ угол). Очевидно, что в этом примере имеет смысл «расщеплять до конца» (РП). Кроме того, отметим, что как сглаживание ЗП часто дает те же результаты, что и сглаживание по тройкам, точно так же и сглаживание РП нередко дает те же результаты, что и РР. КОММЕНТАРИЙ Мы все еще идем шаг за шагом, сравнивая каждое значение с со- седними. (Нам нужны 4 рядом расположенных значения для расщеп- ления вершины или впадины шириной лишь в две точки и только 3 зна- чения для введения концевой поправки.) ОБЗОРНЫЕ ВОПРОСЫ Какой задачей мы занимались в этом разделе? Какой подход мы избрали? Что происходит, когда вершина из двух точек примыкает к впадине из двух точек? Каким правилом о концевых значениях мы пользуемся? Что мы делаем после «расщепления»? Сколько раз мы все это проделываем? Как мы обозначили эту новую плавную компоненту? 7Ж. ГАННИРОВАНИЕ от 6, 8, 11, 74, 78, 79, 80, 81, сглаживания наиболее мощными способами, которые Непрерывно возрастающая последовательность, например такая: 4, 5, изменится МонотоСНХ П°Р Рассматривали,— ЗПРР или ЗПРП. (Пока значения Соседни Н° УвелНчиваются или уменьшаются, медиана из любых трех ЗП не о* ЧИсел будет совпадать со средним из этих трех чисел. Тогда пРоето Кажет на них никакого действия, а в применении расщепления не возникнет необходимости.)
238 Глава 7 Однако подобная последовательность все же может оказаться це. достаточно гладкой для наших целей. Как же сделать ее более гладкой Небольшое размышление убедит нас в том, что ничего проще старомод, ных вычислений здесь не придумать. Однако мы, безусловно, хотели бы как можно больше сократить объем требуемой работы. Самыми простыми для нас арифметическими выкладками в данном случае будет взятие медианы от ряда из 2, 4 или другого четного числа значений, а именно (одно число)4-(другое число) 2 ’ Как можно использовать это для сглаживания? На илл. 19 показаны два пути достижения одного и того же ре- зультата. В п. А и Б этой иллюстрации мы берем среднее из соседних значений, но не один, а два раза. (Отметим, что результат первого шага вычислений естественно писать между строк исходных чисел.) На илл. 19, В и Г, чтобы избежать междустрочий, мы также дважды проделываем операцию (одно число)4-(другое) Иллюстрация !9 главы 7: пояснение Введение в ганнирование (или как использовать (а-\-Ь)/2 для сглаживания) А) СРЕДНИЕ из ДВУХ СОСЕДНИХ ЧИСЕЛ Б) ТС) ЖЕ ВТОРОЙ РАЗ Начало Среднее из соседних Начало Среднее из соседних Снова 4 (4) 4п 4,п Б 5 5 5п Б’п 6 6 6 7 7 8 8 8 9п 9п 11 11 26 42п 42п 74 74 59 76 76 78 78 77 78л 78п 79 79 79 79п 79п ВО 80 80 80 п 80л 81 (81) Примеры; 4п=(44-5)/2, 5п=(5+6)/2, 7=(6+8)/2, 6=(5п4-7)/2, 8= (7+9п)/2, 26= (9п4-42п)/2,
Сглаживание последовательностей 239 Иллюстрация 19 (продолжение) в) ОТДЕЛЬНЫЕ СКАЧУЩИЕ СРЕДНИЕ Г) ВСЕ СКАЧУЩИЕ СРЕДНИЕ, а затем СРЕДНИЕ по СТРОКАМ О |й| Ы |й| ш 1 г 1 I (копир) | 4 4 (4) 5 5 5 5 Б 6 6 6п 6 8 8п 8 8п 8 11 11 41 26 74 44 п 74 44 п 59 78 78 76п 77 79 79 79 79 80 80 80 80 80 81 81 (81) П^=(4+6)/2, 8п=(6+11)/2, 44п=(П+78)/2, 80=(79+81)/2...... 5=(5-Н); , 6=(6+6)/2, 8=(8+8п)/2, 26=(11+81)/2, 59=(74+44п)/2..... Д) УПРАЖНЕНИЯ 19а) Проделайте ганнирование с результатом из упр. 17а — плавной компонентой ЗПРР в примере с добычей битуминозного угля. 19а2) Произведите сглаживание медианами по тройк-*' : результатом из 19а. 19аЗ) Сгладьте результат из 19а2, снова применив ЗПРРГЗ. 19а4) Найдите неровности, соответствующие результату из 19а2, и сгладьте их с помощью ЗПРРГЗ; прокомментируйте результат. но по другой схеме. Сначала мы образуем скачущие средние из двух значений, одно из которых находится строкой выше, а другое строкой ниже той, на которой мы запишем скачущее среднее. Напри- мер, из чисел 11 и 78, независимо от того, что разделяет их сначала, получается И ху 44 п 78 Столбец скачущих средних мы будем отмечать значком „ > “ над ним. дВух°СЛе вычисления всех скачущих средних мы берем среднее из всегда°даеДНИ5дЗНачени^ В каждо^ стРоке> так что, например, 74 и 44п tu vw 74 44п 59 незави' za Ьс И сноваМ° °Т того’ что стоит сверху и снизу от них в каждом столбце, единственная трудность — здесь легко преодолимая — в
₽40 Глава 7 концевых значениях. Если у нас имеется лишь одно значение в строке пожалуй, единственным разумным выходом будет копирование (Ка* это и показано в скобках). Столбец полученных средних мы обозначим Г (ганнирование). Следует заметить, что, если не считать концевых значений, оба способа илл. 19, В и Г дают одинаковые результаты. Это означае что выбор между ними можно оставить читателю. Печатники и Те’ кто любит экономить на бумаге (а также в ценах на книги), вероятно’ предпочтут скачущие и построчные средние из илл. 19, Г, где нет меж- дустрочий. По мнению автора, при ручных вычислениях этот способ действительно легче. Поэтому ниже во всех примерах мы будем обоз- начать символом > метод скачущего среднего, а буквой Г — метод строчного среднего. (Читателю не обязательно придерживаться этого выбора.) Термин «ганнирование» происходит от фамилии австрийского ме- теоролога прошлого века Юлиуса фон Ганна, который использовал этот способ для сглаживания данных о погоде — о температуре, дав- лении и т. п. КОММЕНТАРИЙ Добавлен еще один шаг, где в вычислениях участвует только не- сколько соседних значений — три для ганнирования. Опять проце- дура применяется по отдельности к каждому из значений (для кон- цевых значений обработка особая). Несколько таких шагов снова объединяются, и получается лучший метод сглаживания, чем можно было бы сконструировать на основе процедуры, используемой только в каком-нибудь одном из шагов. Если мы опасаемся влияния отскоков (а эти опасения почти всегда оказываются обоснованными), то мы не рискнем ганнировать данные в том виде, в каком они первоначально представлены. Если ганниро- вать сразу, то одна отскочившая точка расползется и превратится в три Хотя отклонения у них будут не столь велики, как у первой, но то, что их теперь три, будет мешать нам. Медианное сглаживание ЗП и устранение коротких вершин и впадин с помощью РР помогут нам перед ганнированием уменьшить большинство отскоков до таких значений, которые уже не будут причинять нам столь сильное беспо- койство. ПОЙДЕМ НЕМНОГО ДАЛЬШЕ Мы обнаружим, в особенности при некоторых из применений сле- дующей главы, что сглаживание ЗПРРГ дает некоторое остаточны местные неровности, которых мы хотели бы избежать. В таком случа легко провести еще одно сглаживание скользящими медианами тройкам. Результат естественно будет назвать ЗПРРГЗ (см. упр- 1^а
Сглаживание последовательностей 241 ПОЙДЕМ НАМНОГО ДАЛЬШЕ Все, что мы можем сделать один раз, можно проделать и дважды. - кИм образом, применив к первоначальным данным ЗПРРГ, можно к пученной плавной компоненте еще раз применить ЗПРРГ. Получится ПгтРРГЗПРРГ; при желании к концу можно прицепить еще одну трой- v что даст ЗПРРГЗПРРГЗ (см. упр. 19аЗ). ку> А ЧТО С НЕРОВНОСТЯМИ? В упр. 19а4 от нас требовалось сгладить неровности, полученные после сглаживания ЗПРРГЗ в примере с добычей битуминозного угля. je кто это проделал, обнаружили, что в результате сглаживания плавная компонента получилась отличной от нуля. Очевидно, из неров- ностей надо еще что-то вычесть, прежде чем их детально исследовать. Мы будем заниматься этим в гл. 16. Иногда изменения в плавной компоненте, обнаруженные в резуль- тате внимательного обзора того, что еще осталось в неровностях, бывают важны, но чаще это не так. В данной главе у нас было доста- точно всяких подробностей, так что разумнее будет здесь пока не за- ниматься этим вопросом. ОБЗОРНЫЕ ВОПРОСЫ Какие последовательности, ускользающие от сглаживания ЗПРР, мы все же хотели бы сгладить? Как мы решили приступить к этому? Можно ли проводить ганнирование различными способами? Каковы их относительные преимущества и недостатки? Можете ли вы подробно описать один из них? Какие обозначения мы ввели для столбцов? Почему метод называется «ганнированием»? Как ганнирование вписы- вается в общее построение этой главы? Рискнем ли мы ганнировать данные в их первоначальном виде? Каким образом можно пойти не- много дальше? Намного дальше? Что мы отложили до гл. 16? 7И. ЧЕГО МЫ ДОСТИГЛИ? HocTefi9T<M главе мы познакомились со сглаживанием последователь- ности та Н0Гда такое сглаживание позволяет нам увидеть закономер- позволяет’ ГДе Д° этого все было в тумане. Однако чаще сглаживание РезультатеЛеГК° Увидеть то’ что иначе мы смогли бы заметить лишь в Началь теРпеливого и тщательного рассматривания. нента и Вая последовательность, полученная из нее плавная комно- неровности связаны соотношением ЧТо вход = плавная компонента + неровности, ется вариантом соотношения наблюдение = аппроксимация -г остаток.
242 Глава 7 Подробнее рассмотрение плавной компоненты мы отложили до г (это позволило нам, в частности, пользоваться более простыми *6 мами сглаживания). Рче. Нашим главным инструментом были скользящие медианы по т кам. (Безусловно, трудно придумать что-либо более простое дЛя Е°^’ ного вычисления.) Почти всегда мы их применяли повторно, до’4' пор пока последовательность не переставала изменяться. ’ Те* Степень сглаживания мы можем варьировать в широких предела При чрезмерном сглаживании можно не заметить интересных дЛя ЯХ’ подробностей. При недостаточном сглаживании наш глаз будет отв?0 каться подробностями, не имеющими отношения к делу. Что тако" «чрезмерно» или «недостаточно», будет зависеть от конкретного пр? мера. В частности, мы готовы к тому, чтобы: О использовать (но не всегда) концевое сглаживание, получая таким образом плавную компоненту для крайних значений последе- вательности, где неприменимы скользящие медианы по тройкам; <) тщательно заштриховывать плавную компоненту, тем самым да. вая возможность глазу не следовать излишне строго за плавной ком- понентой и не поддаваться искушению сглаживать еще больше; использовать концевое сглаживание для борьбы с наиболее узкими вершинами и впадинами (состоящими лишь из двух точек), остающимися от скользящих медиан по тройкам (расщепление); О для дальнейшего сглаживания использовать ганнирование, представленное удобным для нас образом с помощью скачущих сред- них и средних по строкам.
Глава 7 ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ГЛАВЫ 7 УКАЗАТЕЛЬ К ГЛАВЕ 7+ 7К. Плавная компонента с разрывом 243 Президентские выборы в штате Нью-Гэмпшир 244 Еще раз о задержанных вкладах 247 Обзорные вопросы 249 7Л. Выбор преобразования 250 1) ЗП 251 2) Концевые значения 252 3) Выбор на основе остатков 252 Сравнение преобразований 253 4) Изображение плавной компоненты 253 Подсчеты 260 Число банков, задержавших выплату 261 Обзорные вопросы 261 7М. Пример с разбиением плавной компоненты на две части 261 Обзорные вопросы 262 7Н. Что еще мы узнали? 262 В предлагаемых здесь трех разделах развиваются дальше идеи гл- 7. Нумерация иллюстраций и буквенные обозначения разделов продолжаются. 7К. ПЛАВНАЯ КОМПОНЕНТА С РАЗРЫВОМ «н°гДа В пеРвоначальных значениях последовательности ясно ви- Р зрыв. В этом случае у нас имеется выбор: О рГЛ^Жпвать прямо через разрыв; к°нцевое3бНТЬ наблюДения на две последовательности, применяя сглаживание к обоим концам разрыва. °ыбор За_ Еслн мИСИТ От наших целей и нашего понимания данных. *}3°Шло « Полагаем, что между двумя соседними значениями про- ФаКторОв KRoe'TO весьма необычное изменение из-за резкого изменения ’ ЫнУждающих увеличиваться и уменьшаться значения в на-
244 Г лава 7+ шей последовательности (ИЛИ от отдельного крайне редкого событиях то вряд ли мы захотим производить сглаживание через разрыв боле сильным способом, чем ЗПРР. Если мы перейдем к ЗПРРГ или ЗПРррр6 то значения близ предполагаемого разрыва наверняка окажутся ripJ тянутыми друг к другу. Иногда такое явление может случиться" даже если применить только ЗП. Стягивание соседних значений бли^ё друг к другу — один из способов маскировки разрыва. Если, по нашему мнению, разрыв представляет собой «реальность» мы, как правило, не захотим маскировать его. Если же мы думаем, что возможный «разрыв» — это всего лишь необычно большая вариация то мы не захотим сохранить его, а захотим сгладить. На наше решение о сохранении или сглаживании разрыва повлияет также и то, отвлечет ли внимание этот разрыв от каких-то других осо- бенностей, которые мы хотели бы увидеть или показать другим именно на этом графике. ПРЕЗИДЕНТСКИЕ ВЫБОРЫ В ШТ. НЬЮ-ГЗМПШИ? На илл. 20 приведены данные о президентских выборах в двух самых северных округах шт. Нью-Гэмпшир, граничащих со шт. Мэн, Иллюстрация 20 г лавы 7*. Кож — Кар ролл Процент голосов, отданных за кандидата в президенты от демократической партии в двух округах шт. Нью-Гемпшир и расщепленная плавная компонента их разностей А) ДАННЫЕ, РАЗРЫВНАЯ НЕРОВНОСТИ (Z означает точный и НЕПРЕРЫВНАЯ ПЛАВНЫЕ компоненты и нуль) 1 % голосов I Разрывн. 1 ЗП 1 Неров- 1 нести I | Нелрерыв. I I эп I [ Неровности | | Коос | 29.75 | Карролп | I Раз-» |ность| 1896 28.38 1.37 .82 .55 1900 41.33 40.54 .79 .82 -.03 39.61 38.79 .82 .82 Z 1908 39.25 37.73 1.52 .82 .70 40.52 43.12 -2.60 1.52 -4.12 1916 51.99 46.65 5.34 5.34 2 ( 5.34) (4) ( 2.84) (-2.84) ( 3.80) (-3.80) (И) 44.40 35.01 9.39 6.55 2.84 ( 6.55) 1924 39.65 33.10 6.55 6.55 Z ( 9.39) 43.11 22.37 20.74 20.74 Z (16.94) 1932 52.14 35.20 16.94 20.74 -3.80 (20.74) 55.67 33.26 22.41 22.41 Z (22.41) 1940 60.30 33.66 26.64 26.45 .19 58.36 31.91 26.45 26.64 -.19 1948 52.29 23.22 29.07 26.64 2.43 44.03 17.39 26.64 26.64 Z 1956 33.86 14.53 19.33 26.64 -7.31 57.28 20.39 36.89 26.08 10.81 1964 71.09 45.01 26.08 30.15 -4.07 53.37 23.22 30.15 26.08 4,07 1972 37.45 21.54 15.91 26.08 -10.17
Факультативные раеделы главы 7 245 Иллюстрация 20 (продолжение) g) НЕРОВНОСТИ, соответствующие плавной компоненте с РАЗРЫВОМ # 16 п (нули/2) (величины) . н (10.81) М 8п 2 4 07, С 4п * з В 2п д 2 84,43 XI 1 ь 7 0 55,70,19, Б (7) Z Z,Z,Z,Z,Z,Z,Z -0 03,19 ^1 внешн.: __ -2 д —3 80, стеках.: л „4 12, почти от 2 -м (-7.31,-10.17) Z 1.56 -2.00 3.46 -5.72 10.81 -10.17 3 Н (10.81,7.31,10.17) Б 4 07,12, 6 3 80 8 2 84,43 1 (6) 0 55,70,19,03,19 "71 Z Z,Z,Z,Z,Z,Z,Z, медиана =1,56 (на глубине 8п) 6.90 -7.34 12.24 -12.68 10.81 И -10.17 нет скак.:-7,31 В) НЕРОВНОСТИ, соответствующие плавной компоненте БЕЗ РАЗРЫВА 1 2 3 Б 6 15) 7 Б 4 3 2 Н 4 3 2 о Z -О —2 -3 -4 М (10.81) 07 80 84,43 55,70,19 z,z,z,z,z, 03,19 84, 80, I12' . • (-7.31,-10.17) #17" (нули/2) М 9 С 5 В 3 X 1 Z 2.43 -2.84 3.80 -4.12 10.81 -10.7 5.27 б|ю.ЗЗ -10.74 Б 18.24 -18.64 внешн.: 10.81 отскак.; нет ' почти отекай,: —10-17 20а)Найдае дада^ округа в другом штате, для которых разности в % голосов- обнаруживали бы аналогичный сдвиг. 20а 2) Выполните анализ, подобный проведенному выше. д «енно Wht голосов, отданных в каждом округе за кандидата от 1972KPat>H4eCKOi^ паРтин ПРН каждых выборах за период с 1896 по сНа 1 Разность соответствующих величин, «Коос МИНУС Кэрролл», Подсид3 Мала’ затем несколько возрастает в 1916—1924 гг. и резко ЗГ] это“1Вает В 1928 г-» после чего остается близкой к 25%. Столбец (Значе„И НллюстРапни дает результат сглаживания через разрыв. пР°изоп|1Я В ско^ках в столбце «Непрерывные ЗП» показывают, что СгДажнпЛ° бы> если бы мы не проводили разбиения данных перед ^“ванием.) ТиРом ЛЛ2’ показаны плавная компонента с неровностями и пунк- BbI6°P. МьЗР1ИаНТ ^ез РазРь1ва- Очевидно, здесь у нас имеется широкий Могли бы получить большой скачок — примерно 15%-ное
246 Г лава 7+ изменение — или плавную компоненту почти совсем без каких-л: * необычных вариаций. Что мы предпочтем (как непрофессионалы* 60 исследователи процедуры выборов)? У специалистов по внутренней политике, по-видимому, есть то диция подчеркивать критические перемены на отдельных выбора*' Следуя этой традиции, надо было бы подчеркнуть изменение от 1994 к 1928 г., что заставило бы нас предпочесть плавную компоненту ’ разрывом. Те, кто предпочитает поступать таким образом, видимо** стали бы описывать поведение кривой в двух интервалах: 1896 ’ 1924 и 1928—1972 гг. " Однако, пристальнее вглядевшись в плавную компоненту с разру. вом, мы бы задумались. В общем ее поведение можно описать следую- щим образом: О начальная плоская часть на уровне около 0,8%; 0 подъем от 0,8 до 6,6%; 0 «скачок» от 6,6 до 20,6%; 0 подъем от 20,6 до 26,5%. Иллюстрация 21 главы 7+г Коос — Карролл Плавная компонента с разрывом, полученная из разностей голосов за кандидата в президенты от демократической партии в двух соседних округах шт. Нью-Гэмпшир (плавная компонента без разрыва показана слабым пунктиром) Иллюстрация 22 главы 7+i Коос — Карролл Первоначальные данные: разность в % голосов между округами Коос и Карролл, 1896—1972 гг. v Ровность, I f < Ь X х Q - *ххХ Гоо g^opd * I I । -L— 1300 1320 1340 1Э60
Факультативные разделы главы 7 247 Иллюстрация 23 главы 7+: Коос — Карролл г, „„иная компонента с разрывом, рппоовождаемая соответствующими соР неровностями Разность, % м ГоВ Выборов —1_____।_____I__L. । >. 1900 1920 1940 1S00 Вопросительный знак стоит вместо почти отскакивающей точки (здесь и на следующей иллюстрации). Иллюстрация 24 главы 7+: Коос — Карролл Плавная компонента без разрыва, сопровождаемая неровностями Из общего подъема примерно на 26% почти половина приходится на периоды перед 1924 г. или после 1928 г. В соответствии с этим не лишено смысла использовать плавную компоненту без разрыва для ^сания поведения кривой в трех интервалах: 1896—1910, 1910—1938 и 1938—1972 гг. Такой выбор может найти некоторое оп- ГНИе В гРаФике первоначальных данных (илл. 22) (Вообразить но» енение> растянутое на 28 лет,— это совсем не то, что вообразить изменение всего за 4 года!) показ ИЛЛ’ И для подтверждения хода плавной компоненты Разрыв"131 |,еР°вности, вычисленные соответственно в предположении нЫх ос" " ^ез„иего- Если кто-то наивно решит, что здесь нет достаточ- Эт° проНОВаНИЙ ДЛЯ существования разрыва, то ему безусловно можно ЕЩЕ РАЗ О ЗАДЕРЖАННЫХ ЬКЛАДАХ ^аличиеТрМ^я К пРимеру, где на основе данных можно предположить ОД-i говор*;а3рь1Ва’ и так°е предположение оказалось очень удачным. 1 о примере с суммарными вкладами в банках, задерживав-
248 Глава 7+ Иллюстрация 25 главы 7+: задержанные вклады Расщепленная плавная компонента от значений 100 log (с + задержанные где с= 1 млн. долл. вкладу А) СГЛАЖЕННЫЕ ДАННЫЕ Год | Задержанные банковские вклады | | Разрыв 1 1 ЗП | Неровности (Z = нуль) 1 ЗГ1 1 I двойной 1 разрыв । 1 Нерсвнооти • йнешнна} | миллионы | то же + 1 | I ’од I 1921 196 197 229 229 1 22 111 112 205 225 -23 о 23 189 190 228 228 Z К 24 213 214 233 228 5 е> 25 173 174 224 233,229 -5 И 26 272 273 244 229 15 27 194 195 229 229 Z 28 139 140 215 229 -14 29 230 231 236 236 Z 236 Z 30 853 854 293 293 Z 293 Z 31 1691 1692 323 293 30 293 30 (Б) 32 716 717 286 323 -37 293 -7 33 3599 3600 356 356 Z 34 37 38 158 108 50 (Б) 35 10 11 104 108 -4 36 11 12 108 108 Z 37 11 12 108 108 Z 38 19 20 130 115 15 39 13 14 115 130,115 Z 40 34 35 154 115 39 ю (Б> 41 5.9 6.9 84 84 Z 42 3.7 4.7 67 67 Z 43 1.7 2.7 43 67 -24 (б) 44 6.2 7.2 86 43 43 (б) 45 .4 1.4 15 15 Z 46 0 1.0 0 0 г. 47 0 1.0 0 0 Z 48 .17 1.17 7 0 7 49 0 1.0 0 2 -2 50 .04 1.04 2 2 Z 51 3.1 4.1 61 38 23 («) 52 1.4 ,2.4 38 61,59 -21 <б) 53 44.4 45.4 166 59,61 105 (Б) 54 2.9 3.9 69 88 -29 55 6.5 7.5 88 88 Z 56 11.9 12.9 111 111 Z 57 12.9 13.9 114 111 3 58 6.3 7.3 86 86 Z 59 2.0 3.0 48 86 -38 (Б) 60 8.0 9.0 95 93 2 61 7.5 8.5 93 93 Z (Б1 62 1.2 2.2 34 93 -59 63 23.3 24.3 139 136 3 64 22.0 23.0 136 139,13в Z (6) (Б) 65 45.9 46.9 167 136 31 66 0.7 1.7 23 111 -88 67 11.8 12.8 111 111 Z
Факультативные разделы главы 7 249 Иллюстрация 25 (продолжение) Б) НЕКОТОРЫЕ СВЕДЕНИЯ о ВЕЛИЧИНАХ НЕРОВНОСТЕЙ *С-шир. *В-шир. *М *с *б=4(*М) *Б=7(*М) 921_1933 гг. 1934—1967 гг. 1921—1932 гг. 7 19 20 08 5 11 14 38 7 20 5 14 Все (одно рас- щеп л.) Все (Два РаС’ 14 60п 56п 4п 34 щепл.) 13 4п 30 18 31п В) УПРАЖНЕНИЯ п5а) Попытайтесь найти другую последовательность, которая почти столь же нуж- * далась бы в расщеплении, как и исследуемая. 25а2) Проанализируйте ее, применяя расщепление. ших выплату в США каждый год; до 1933 г. значения были большими и в общем возрастали, а затем стали очень малыми. Мы используем «сдвинутые» логарифмы: перед логарифмированием ко всем значениям прибавлен 1 млн. долл. Разбивая последовательность между 1933 и 1934 гг., получаем значения в столбце «разрыв ЗП» илл. 25 (и разбивать, по-видимому, стоило). При знакомстве с другими обстоятельствами мы обнаруживаем не только тот факт, что «до 1933 г.» отличается от «после 1934 г.» (из-за учреждения Страховой корпорации федеральных вкладов), но и что 1933 г. отличается от более ранних и более поздних лет в связи с за- крытием всех банков в этом году. Это приводит нас к «двойному разрыву», представленному в седь- мом слева столбце илл, 25,— один разрыв между 1932 и 1933, а другой между 1933 и 1934 rr pja илл 26 результаты анализа — неровности, сопровождающие плавную последовательность,— даны с одной и той же длиной вертикальных отрезков для всех лет. На илл. 27 приведены также внешние и отскакивающие точки. ОБЗОРНЫЕ ВОПРЭСЫ По-ВЦ10 МОЖно сделать, когда данные значения последовательности, щения”'Х1<МУ’ Указывают на разрыв? Как мы производим выбор ре- пыбора какомУ примеру мы обратились? С необходимостью какого ДанномуМЫ СТолкнУлись? Что могли бы предпочесть специалисты по эт0го? б ВОПР°СУ? К какому второму примеру мы обратились после Могут ли Л ЛИ Нас Т^т на самом Д^е выбор? Почему (или почему нет)? вязкими НЭМ КОГда'либо понадобиться двойные разрывы? Насколько Друг к другу могут быть двойные разрывы?
250 Г лава 7+ Иллюстрация 26 главы 7+: задержанные вклады Иллюстрация 27 главы 7+, задержанные вклады Вклады в банках, задержавших выплату (США, 1921—1967 гг.) Неровности, сопровождающие плавную компоненту. Вертикальный масштаб — сдвинутые логарифмы, сдвиг = 1 млн. долларов Вклады в банках, задержавших выплат, (США, 1921—1967 гг.) у Вертикальный масштаб — в Мвд лионах долларов (сдвинутые логариф, мы, сдвиг = 1 млн. долл.). Показаны неровности, сопровождающие плавную компоненту, и внешние точки Сдвинутые логарифмы \млн.долл.) п 6000- 2000- 1000 - 600 - 200 - mm11 100 - " 60 - о - ‘(ЦП _।-----1____1___I_____। । » 1920 1930 1940 1950 1960 1970 Примечание. Двойной разрыв — до и после 1933 г, (1933 г. показан вертикальным пунктиром). Сдвинутые логарифмы {.млн. долл.) 4 5000- 2000- 1000 - 600 - —I----1----1----1---1— 1920 1930 1940 1960 1960 1970 7Л. ВЫБОР ПРЕОБРАЗОВАНИЯ В следующих четырех случаях выбор преобразования, в°° е говоря, может оказывать влияние на те виды сглаживания, котор мы пока использовали: 31 м О во-первых, непосредственно на результат сглаживания ф во-вторых, при использовании правил для концевых значе
Факультативные разделы главы 7 251 -третьих, при вычислении остатков и изображении неровно- стей; О О Б в-четвертых, при изображении плавной компоненты рассмотрим поочередно все четыре случая. 1) ЗП На сглаживание ЗП выбор преобразования обычно не оказывает икакого влияния. При условии, что два каких-либо преобразования возрастают и убывают одновременно, для любых трех соседних «дат» значение медианы придется на одну и ту же «дату». Следовательно, наши две плавные компоненты будут связаны в точности тем же пре- образованием, что и значения, из которых они получились. На илл. 28 приведен один простой пример. Например, когда плавная компонента, полученная из первоначальных значений, равна 64, то плавные ком- поненты из квадратных корней и из логарифмов всегда равны соответ- ственно 8 и 1,8. Точно так же эти числа будут соотноситься и для входных значений. Итак, пока мы имеем дело только с ЗП, можно забыть о выборе преобразования. Иллюстрация 28 главы 7 +: пояснение Простой пример сглаживания ЗП различным образом преобразованных данных перво- | яач. | | рень | I l°g I Iвход I I ЗП | |вход| [3nJ |вход| |зп | 4 2 .6 4 7 2 ? .6 7 64 8 1.8 64 64 8 8 1.8 1.8 1024 32 3.0 1024 256 32 16 3.0 2.4 256 16 2.4 256 256 16 16 2.4 2.4 16 4 1.2 16 256 4 16 1.2 2.4 256 16 2.4 256 64 16 8 2.4 1.8 64 8 1.8 64 64 8 8 1.8 1.8 16 4 1.2 16 64 4 8 1.2 1.8 64 8 1.8 64 64 8 8 1.8 1.8 4096 64 3.6 4096 64 64 8 3.6 1.8 16 4 1.2 16 64 4 8 1.2 1.8 64 8 1.8 64 16 8 4 1.8 1.2 16 4 1.2 16 16 4 4 1.2 1.2 4 2 .6 4 16 2 4 .6 1.2 64 8 1.8 64 64 8 8 1.8 1.8 32 3.0 1024 ? 32 1 3.0 ? 8ва) пПРАЖНЕНИЯ то₽ХУсаЙТе собственный самое, и, проработав его, покажите, что получается пример
252 Глава 7+ Факультативные разделы главы 7 253 2) КОНЦЕВЫЕ ЗНАЧЕНИЯ По-другому могут обстоять дела с концевыми значениями расщеплением. При использовании концевого сглаживания последнее значение (внизу на илл. 28) уменьшается соответственно от 1024 160 или от 32 до 16. В то же время при использовании логарифМов такое сглаживание совершенно не уменьшает значение 3,0. 3) ВЫБОР НА ОСНОВЕ ОСТАТКОВ Когда мы равсматриваем одни остатки (неровности), нас волнуют в основном три вопроса: О Как велики остатки? О Как в первом приближении изменяется их величина — в зави- симости от «времени» или величины сглаженных значений, или и от того и от другого? 0 Какие из остатков кажутся необычными и насколько они необычны? Хотелось бы ответить на эти вопросы как можно лучше. Как пов- лияет на это выбор преобразования? В качестве простого примера рассмотрим на илл. 28 третью строку сверху и пятую снизу. Для первоначальных значений имеем остаток = вход — плавная компонента, 768 = 1024 — 256 (3-я строка), 48 = 64 — 16 (5-я строка снизу). для квадратных корней 16 = 32 — 16 (3-я строка), 4=8 — 4 (5-я строка снизу) и для логарифмов 0,6 = 3,0 — 2,4 (3-я строка), 0,6 = 1,8 —1,2 (5-я строка снизу). В данном случае остатки от первоначальных значений различаются очень сильно, для корней они гораздо ближе по величине и одинаковы для логарифмов. Почему? Ичались Потому что входные (и сглаженные) значения сильно РазЛЯ чеНий у разных концов. Для остатков переход от первоначальных эн а к корням и затем к логарифмам подобен применению микро дета- переменным увеличением — таким, что различия между малый ^ть й лями увеличены сильнее, чем между большими. (Это може хорошо и плохо.) vqae? Как нам лучше поступить в нашем воображаемом слу рлаРйЫгД может помочь выбор преобразования здесь и в общем случае оМ тем, что максимально упростит ответы на наши три вопроса. КИМ образом? Довольно легко: а если одно преобразование сделает остатки менее изменчивыми, 1) ответ на первый вопрос (как велики?) получить будет легче, а ^РОМЕТОГО,Э1 т ответ скажет нам больше; 2) ответ на второй вопрос /к изменяются?) может намного упроститься; % если в результате преобразования остатки окажутся более имметрично рассеянными около нуля, то вероятно, что меньшее число их покажется нам необычным и ответ на третий вопрос упро- стится. Мы здесь ищем тот же вид простоты для наших остатков, какой мы искали в гл. 4 в ситуации, на первый взгляд совершенно иной. СРАВНЕНИЕ ПРЕОБРАЗОВАНИЙ Уже использованные нами приемы можно теперь применить для сравнения одного преобразования с другим: 0 изображение величины остатков в зависимости от подогнанных значений для исследования устойчивости величины остатков; 0 вычисление сгибов, восьмых и т. д. для исследования симметрич- ности. Мы оставим это для упражнений (илл. 29). Иногда выгодно получить «простоту наполовину», т. е. простоту поведения остатков не для всех наблюдений, а только в каких-либо двух или трех интервалах. 3 4) ИЗОБРАЖЕНИЕ ПЛАВНОЙ КОМПОНЕНТЫ н°йЕкомпМЫ собиРаемся привлечь неровности для поддержания плав- очек) поненты (с помощью заштриховывания и показа внешних пРеобпяч° обычно для плавной компоненты нам нужно будет то же (Иначе °ваиие’ КотоРое Уже упростило нам поведение неровностей. Различной^ пРидется для штриховки использовать, например, отрезки Ствитель Длины>~ с чем мы, конечно, можем столкнуться, если дей- К°Мг,оненты )Т°ИТ возиться с ДРУГИМ преобразованием для плавной 0ре°бразовяГ Хотим для плавной компоненты использовать другое ф ние, то это легко сделать, если ограничиться О внещаМИ плавной компоненты и ними и отскакивающими точками. Реобразование не вызовет затруднений.
264 Глава 7+ Иллюстрация 29 главы 7+.- данные и упражнения Некоторые упражнения по выбору преобразования [на основе только неровностей (остатков)] (С — сотни; Т — тысячи, М — миллионы, Д — десятки, ДМ — десятки лионов, п — подсчеты; б — баррели; ф — фунты, т — тонны) ’'ид. А) ПЕРВЫЕ УЧАСТКИ (до 1825 или 1855 г.) ПЕРВОЙ ГРУППЫ ПОСЛЕп ВАТЕЛЬНОСТЕЙ (расшифровка в п.Д этой иллюстрации) Год 1790 1 Н541 (Т#) 58 76 Q167 (Тт) U1/(U10) /М$) 20 19 Y369 $ 18.6 Год 1820 1 С89 (Т#) 7.7 5.9 С90 (Т#) 2.4 3.2 С91 (Т#) 3.6 1.5 С92 (Т#) .02 .02 С94 (Т#) 1.0 .4 VV76 <#) 2 66 — 21 18.4 2 4.4 1.2 2.3 .03 .1 3 68 —-• 26 18.6 3 4.0 1.1 1.9 .01 .2 4 67 4 33 17.5 4 5.0 1.3 2.3 .02 .2 95 61 3 48 17.5 5 8.5 2.1 4.9 .02 .4 6 57 1 59 17.6 6 9.8 2.3 5.4 .03 .5 7 59 1 51 16.8 7 16.7 4.2 9.8 .03 .4 8 60 1 61 15.8 8 24.7 5.4 12.5 .06 1.9 9 62 6 79 15.2 9 12.5 3.2 7.4 .03 .6 —. 1800 65 3 71 15.7 1830 7.2 1.2 2.7 .02 2.0 1 73 3 93 15.1 1 13.0 2.5 5.8 .04 2.4 —. 2 87 3 72 14.2 2 34.1 5.3 12.4 .33 10.2 — 3 104 12 56 13.1 3 29.1 4.9 8.6 .19 7.0 — 4 114 12 78 14.2 4 57.5 10.5 24.5 .07 17.7 — 05 120 6 96 13.2 35 42.0 9.0 20.9 ,07 8.3 — 6 131 11 102 11.7 6 70.5 13.1 30.6 .47 20.7 8 7 145 3 108 10.4 7 71.0 12.2 28.5 4.0 23.7 7 8 153 5 22 9.5 8 34.1 5.4 12.6 .11 11.7 17 9 164 4 52 8.1 9 64.1 10.3 24.0 .38 21.0 10 1810 175 4 67 7.4 1840 80.1 2.6 39.4 .21 29.7 19 1 185 S 61 6.4 1 76.2 16.2 37.8 .23 15.3 21 2 196 3 39 Б.9 2 99.9 22.0 51.3 .39 20.4 11 а 3 215 3 28 7.2 3 49.0 8.4 19.7 1.8 14.4 о 4 212 1 7 10.0 4 74.7 14.4 33.5 1.3 20.7 Iv 12 15 212 1 53 11.9 45 109.3 19.2 44.8 1.0 34.4 I*. 19 6 215 1 82 14.7 6 146.3 22.2 51.8 2.0 57.6 21 7 226 5 88 13.9 7 229.1 23.3 105.5 1.3 74.3 14 8 230 17 93 11.3 8 218.0 35.2 112.9 1.1 58.5 О 17 9 242 32 70 19.2 9 286.5 55.1 159.4 3.5 60./ *70 Q 20 1820 258 36 70 9.5 1850 308.3 51.1 164.0 1.6 17 1 282 28 65 10.0 1 369.5 51.5 221.3 2.4 72.0 л к 4 20 2 299 49 72 9.1 2 362.5 40.7 159.5 4.1 ААЛ й 26 3 314 41 75 8.6 3 361.6 37.6 162.6 3.4 141 зб 4 330 33 76 8.3 4 405.5 58.6 101.6 4.2 *71 69 41 1825 342 35 100 7.5 1855 187.7 47,6 49.6 1.8
Факультативные разделы главы 7 255 Иллюстрация 29 (продолжение) „ ВТОРЫЕ УЧАСТКИ (о тедаН«ТЕЙ 1921 по 1956 г.) ПЕРВОЙ ГРУППЫ ПОСПЕЛОВА- Н541 (Т#) Q167 U1 Y369 С89 С90 С91 С92 С94 W76 ГоД 1921 о (Гт) (М$) (Т#) (Т#) (Т#) (Т#) (Т#) (#) • 6289 4560 220.9 625.4 51.1 28.4 22.8 6.8 3963 6444 * 1 3931 208.6 216.4 25.2 10.8 14.6 17.9 4455 Z 6522 * 8 4269 199.6 307.9 45.8 15.7 34.2 48.3 4133 с А 6604 * 1 4753 186.2 364.3' 59.5 17.1 35.6 75.1 4723 с 7066 *** 5272 177.1 148.4 27.2 26.7 16.8 46.1 5347 •л £ 6830 42 5017 167.3 155.6 25.5 24.9 16.8 50.4 5103 7 7171 46 5142 155.5 168.4 23.7 28.5 16.9 48.5 4918 8 7248 55 5776 146.1 158.5 20.0 25.3 16.2 45.8 5218 9 7245 57 5491 149.0 158.6 21.3 19.9 17.4 46.8 5921 1930 7319 40 4013 131.5 147.4 31.0 23.4 6.9 26.6 6085 1 7247 83 2918 135.4 61.9 9.1 7.3 3.1 10.4 6897 2 7301 73 2434 156.1 20.6 2.1 .5 .9 27 7376 3 7153 102 2061 179.5 12.4 1.0 .3 .5 1.9 7170 4 7254 108 2202 214.1 17.2 1.3 .4 .6 4.4 6489 Б 7320 98 2304 225.6 22.8 1.4 .4 .7 5.2 5980 6 7346 146 2495 263.8 23.5 1.3 .4 .6 6.3 5734 7 7387 129 3407 282.8 31.9 1.7 .5 1.0 10.9 5638 8 7507 125 3107 286.3 41.5 2.3 1.1 1.4 17.2 5776 9 7590 132 3192 309.0 63.9 3.1 1.2 1.2 33.5 6338 1940 7360 137 4030 323.2 50.4 6.2 .8 1.3 21.5 6148 1 7683 157 5153 367.1 26.5 7.7 .3 1.1 4.0 5311 2 7838 152 8081 537.1 11.1 .9 .1 .4 2.2 3943 3 7979 153 13028 999.8 4.9 1.0 .2 .2 .2 2625 4 8046 169 15345 1452 4.5 1.3 .1 .3 .2 2564 Б 8084 191 10897 1849 5.9 3.0 .4 .2 .2 2112 6 8430 187 9996 1905 52.9 33.6 1.8 1.3 2.6 1656 7 8568 194 14674 1792 83.5 23.8 2.6 4.9 13.9 1617 8 8651 193 12967 1721 103.5 26.4 7.5 6.1 19.4 1984 9 3950 8293 180 12160 1695 129.6 21.1 8.7 6.7 55.3 3105 8936 146 10816 1697 199.1 12.8 5.8 5.7 128.6 4408 1 э 9066 182 15672 1653 149.5 14.9 3.1 5.5 87.8 4888 з 9180 9152 8223 9313 9445 194 15262 1650 193.6 22.2 3.5 5.4 104.2 5635 4 Б 6 193 182 187 15827 15136 15563 1667 1670 1660 82.4 92.1 .110.6 16,6 16.7 15.8 4.3 4.7 5.2 5.5 5.5 5.2 27.3 33.1 29.6 4331 4433 4065 7 189 19124 1622 *156.9 19.0 5.6 5.7 44.6 6646 191 20989 1580 169.6 .24.0 8.2 6.2 60.4 6282
256 Г лава 7+ Факультативные раеделы главы 7 257 Иллюстрация 29 (продолжение) Иллюстрация 29 (продолжение) В) ПЕРВЫЕ УЧАСТКИ (до 1919 г.) ВТОРОЙ ГРУППЫ ПОСЛЕДОВАТЕЛЕ НОСТЕЙ (расшифровка в п.Е этой иллюстрации) «• ОСТАВШАЯСЯ ЧАСТЬ (с 1920 г.) ВТОРОЙ ГРУППЫ ПОСЛЕДОВАТЕЛЬ- D771 D772 J241 К77 К78 М178 М179 Q145 Q184 W74 Х113 Xiig Год (#> (#)(w ой мы) ($/мес) ($/мес! 1 (Мб) ($/б) (#) (Ст) (Я#) <дм$) (М$) 1882 353 38 — — 19 3.2 2.25 .— 940 86 —, 3 372 55 — — -— 4.2 2.15 — 1102 102 — 4 341 50 — — 19 4.0 2.10 —• 840 115 —. 85 486 67 —. — 19 4.2 1.95 481 77 —. 6 1073 210 — — — 4.5 1.95 —. 306 59 •— —_ 7 836 299 — 19 6.9 1.95 .— 240 95 •— 8 540 163 — —. 19 6.5 1.95 •—* 338 83 —• —. 9 662 173 — 13п 19п 6.8 1.67 400 72 —— —. 1890 1039 318 .— 13п 19п 7.8 2.09 — 786 89 — —. 1 867 334 — 13п 20 8.2 2.13 293 1055 84 —. 2 693 261 — 13п 20 8.7 2.91 376 606 82 — —. 3 783 257 104 14 20 8.0 1.96 299 371 90 — —• 4 865 206 114 12п 18п 8.4 1.73 324 287 93 — —. 95 810 217 93 12п 18п 8.7 1.60 170 268 111 —. —. 6 547 297 101 .— — 9.5 1.57 181 396 144 2 96 7 680 193 95 —. 11.0 1.61 222 219 162 2 87 8 645 236 86 13п 19 12.3 1.62 221 239 180 5 104 9 1014 471 114 14 20 15.8 1.43 239 688 214 8 98 1900 931 414 101 — —. 17.2 1.09 249 722 175 16 124 1 1413 1016 101 — м — 20.1 .99 282 830 173 10 143 2 1604 1051 92 15п 22 25.8 1.21 345 759 64 12 139 3 1778 1200 69 —м — 39.9 1.24 355 670 54 15 169 4 944 964 73 — 31.7 .88 441 514 55 11 170 05 942 800 64 — 40.1 .94 537 1193 49 8 225 6 69 18п 26 51.0 1.13 359 323 62 9 239 7 61 52.2 1.11 610 444 59 18 314 8 72 , 52.9 .85 381 709 76 13 202 9 1910 1 — — 75 67 53 22 21 21 п 28 28 28 66.7 77.8 79.5 .81 .89 .84 253 324 299 272 234 237 68 64 100 7 Б Б 219 311 344 2 73 22 29 П 85.9 .81 283 231 134 6 о/* 410 3 __ —— 76 22п 30 89.5 1.00 350 271 168 Б •У 458 4 403 253 83 22п 29п 87.3 .93 232 160 171 7 £ 486 15 770 312 72 22п 30 82.7 86 199 186 154 561 6 2036 721 78 2В 33 95.4 1.10 239 376 174 я 1029 7 2268 799 82 31 40п 91.3 1.35 301 525 150 1У 4БЛ 2221 8 1919 1869 2036 534 609 83 74 37п 143 48л 56 71.3 86.1 1.60 1.71 471 273 883 1778 121 162 itH 91 251? D772 J241 К77 К78 М178 М179 Q145 Q184 W74 Х113 Х118 и/ • • (#) (#) ' (дюимы)($^месМ$/мес) (Мб) ($/б) (#) (Ст) (Я#) (Ям$) (М$) | ©я 2038 622 90 51 65 97.1 2.02 229 2080 248 26 4540 1920 1501 373 100 ЗЗп 44п 96.0 1.89 205 1507 327 40 3598 1 о 563 208 10 33 43п 118.6 1.76 203 570 161 16 1805 Z о 721 308 71 37п 47п 137.2 1.90 143 131 193 30 2218 О 4 537 244 79 38 49 147.5 1.81 153 32 267 18 1644 25 537 219 71 38п 49 159.0 1.77 176 56 282 18 1887 6 478 206 72 395 50 164.2 1.71 152 50 260 24 2157 7 273 240 83 39п 50 174.0 1.62 88 66 239 23 2227 8 222 226 73 39п 50 178.1 1.57 91 114 318 27 3364 9 373 382 50 40 51 172.0 1.48 114 128 290 38 3628 1930 284 207 69 37п 48 160.8 1.44 61 186 271 30 2891 1 447 221 90 28п 38 128.4 1.11 46 266 294 45 2358 2 560 162 93 20П 29 81.4 1.01 27 521 294 43 2513 3 926 533 88 18 25п 64.8 1.33 51 259 241 56 1516 4 717 835 82 20 28 76.6 1.54 38 9 292 174 848 35 760 945 80 22 ЗОп 76.2 1.51 30 19 386 82 620 6 256 1083 65 24 32п 114.6 1.51 41 7 456 114 751 7 1410 2728 76 27п 36п 115.7 1.48 34 — 514 67 776 8 776 1385 61 27 36 108.2 1.48 81 — 503 60 601 9 699 1411 75 27 36 125.1 1.47 40 — 559 79 632 1940 753 1243 78 27п 37п 132.9 1.36 83 — 614 82 598 1 1535 2138 65 34п 49п 170.4 1.47 48 — 649 75 637 2 1423 943 59 45 п 69 187.8 1.53 122 — 373 184 128 3 1906 565 59 59 77 129.5 1.57 278 — 223 803 626 4 2146 808 73 71 91 95.6 1159 267 — 291 1951 785 45 1956 946 84 79 101 107.8 1.63 156 — 351 2438 866 6 2238 1617 82 86 108 172.1 1.72 128 — 278 1341 1073 7 1707 1102 77 92 117 190.4 1.90 79 — 210 136 1164 В 1737 780 89 99 124 207.7 2.18 59 — 397 218 1353 9 1682 781 74 99 121 209.3 2.30 37 — 445 230 1386 1950 2559 919 102 99 121 231.0 2.35 180 — 472 380 1630 1 2102 888 89 113 137 244.6 2.54 150 — 416 633 2078 2 2447 839 69 119 146 254.8 2.54 24 — 296 612 2453 О л 2825 745 92 122 151 264.3 2.67 49 — 271 394 2603 *t RR 1726 588 86 120 151 278.4 2.76 30 — 254 589 2478 WU А 2154 844 81 123 154 310.2 2.86 24 —. 271 541 2826 О 7 1821 744 79 128 161 325.6 3.05 57 — 298 563 3460 1730 751 72 133 168 — — 15 — 236 362 6248 124?
258 Г лава 7+ Иллюстрация 29 (продолжение) Д) РАСШИФРОВКА ПЕРВОЙ ГРУППЫ ПОСЛЕДОВАТЕЛЬНОСТЕЙ Н541 — число прихожан методистской церкви (в тысячах); Q167 — общий тоннаж зарегистрированных китобойных судов (в тысячах U1 — стоимость экспорта США (золото, серебро и различные товары) (в милл долларов) (для 1790—1920 гг. использована серия U10); Ионах W — см. ниже; Y369 — государственный долг (в долларах) (вычислено из Y368 и А2 за 1791_1850 С89 — общее число иммигрантов (в тысячах за год); Гг-); С90 — число иммигрантов (в тысячах за год) из Великобритании; С91 — число иммигрантов (в тысячах за год) из Ирландии; С92 — число иммигрантов (в тысячах за год) из Скандинавских стран; С94 — число иммигрантов (в тысячах за год) из Германии; W76 — число патентов, выданных иностранцам. Е) РАСШИФРОВКА ВТОРОЙ ГРУППЫ ПОСЛЕДОВАТЕЛЬНОСТЕЙ (единицы те же, что и выше) D771 — число остановок работы, когда основной спорный вопрос — «заработная плата и часы работы»; D772 — число остановок работы, когда основной спорный вопрос — «организация профсоюза»; J241 — суммарное годовое выпадение осадков (в дюймах, в виде дождя) по данным Бюро погоды (о. Татуш, шт. Вашингтон); К77 — средняя заработная плата (в долларах за месяц) рабочих на фермах — пита- ние включено; К78 — средняя заработная плата (в долларах за месяц) рабочих на фермах — пита- ние НЕ включено; М178 — объем водных перевозок цемента (в миллионах баррелей); Ml 79— их средние значения (в долларах за баррель); Q145 — число пассажиров, погибших в железнодорожных катастрофах; Q184 — торговые суда, построенные и зарегистрированные на побережье Новой Анг- лии (в сотнях тонн); W74 — число выданных патентов по конструированию (в десятках патентов); XI13 — вклады правительства во всех коммерческих банках (в десятках миллионов долларов); XI18 — другие обязательства всех коммерческих банков (в миллионах долларов). Ж) УПРАЖНЕНИЯ 29а/б/в/г/д/е/ж/и/к/л) Сгладьте последовательность и затем исследуйте неровности на необходимость преобразования, начиная с H541/A167/Ul(10)/Y369/C89/C90/ /C91/C92/C94/W76. 29м/н/о/п/р/с/т/у/ф/х/ц/ч) То же самое, начиная с D771/D772/J241/K77/K78/M1'°' /M179/Q145/Q184/W74/X113/XII j. 29ш) То же для какого-нибудь преобразования величины D771/D772. 29щ) Возьмите разность К78 и К77, указывающую на стоимость питания (для ФеР мерских рабочих), и проанализируйте ее. р0. 29ст2) Изобразите неровности от М178 в зависимости от неровностей от М179, V комментируйте. ,057, ИСТОЧНИК: Historical Statistics of the United States, Colonial times to Washington, 1960 (заголовки столбцов — шифр, используемый в источнике),
Факультативные разделы главы 7 259 Иллюстрация 30 главы 7+: задержавшие банки Расщепленные плавные компоненты для значений log (1 + число банков, задержавших выплату) Банки, задержавшие выплату | Расщепление |#| L£±U I log (#+1)| ЗП с 1 рас-1 |щепл.| неров- | ности | внеш- Ь | ние | дойное расщ. | I неров- ности | 1921 9? 505 367 506 368 270 257 270 270 Z -13 23 648 649 281 281 Z 24 776 777 289 281 8 25 618 619 279 289,283 —4 26 976 977 299 283 16 27 669 670 283 283 Z 28 499 500 270 282 -12 29 659 660 282 282 Z 282 30 1352 1353 313 313 Z 313 Z 31 2294 2295 336 316 20 316 20 32 1456 1457 316 336 -20 316 Z 33 4004 4005 360 360 Z 360 34 57 58 176 165 11 35 34 35 154 165 -11 36 44 45 165 165 Z 37 59 60 178 175 3 38 55 56 175 175 Z 39 42 43 163 163 Z 40 22 23 136 136 Z 41 8 9 95 100 -5 42 9 10 100 95 5 43 4 5 70 70 Z 44 1 2 30 30 Z 45 0 1 0 0 Z 46 0 1 0 0 Z 47 1 2 30 0 30 48 0 1 0 30 -30 49 4 5 70 30 40 6 50 1 2 30 60 -30 Ы 3 4 60 60 Z 52 53 3 4 60 60 Z 4 5 70 60 10 55 3 4 60 70,60 Z 56 4 5 70 60 10 57 о 4 60 60 Z 58 3 4 60 60 Z 59 8 9 95 60 35 6 60 4 60 60 Z 61 3 48 60 -12 62 8 10 100 48 52 6 63 3 48 48 Z 64 65 8 3 9 48 95 48 90 Z 5 66 8 90 90 Z а 2 30 70 -40 б 1931«НИК: 9» wl-~-29), ь 70 70 Z ‘wXO8r\%2tT93C5).1969/144 <1929~,967)- 1964/753 (26-52),
260 Глава 7+ Факультативные разделы главы 7 261 Иллюстрация 31 главы 7+: задержавшие банки Число банков США, задержавших выплату в 1921—1967 гг, (ордината — сдвинутый логарифм, сдвиг = 1 банк; см, илл, 30) СВВинутые логарифмы {число банкоб') л 6000- s 2000- 1000 - 600 - 200 100 60 20 10 6 2 7 О И 0|1111111111П||1|! 1920 1930 1940 I960 1960 1970 ПОДСЧЕТЫ схеме- Как и обычно, анализ подсчетов проводится по той же - что и анализ других данных, но всегда со следующими условия^ О сначала мы берем от подсчетов логарифмы или (квадратН корни; в на- ф если мы начинаем с корней, то затем часто передвигаемся правлении логарифмов; лець- О если мы собираемся брать логарифмы, а подсчеты у нас маеоТ кие, то лучше будет их немного сдвинуть, т. е. брать логарифмь^)1Гг самих подсчетов, а от подсчетов плюс «сдвиг», выбирая для сначала что-нибудь вроде + 1/6, +1/4 или +1 (при необходим должны быть готовы пересмотреть свой первоначальный ЧИСЛО БАНКОВ, ЗАДЕРЖАВШИХ ВЫПЛАТУ банки имели вклады различных размеров, использованные Х°тЯ ° 0 ВКладах в задержавших банках не так уж сильно отли- нам11 даН характеру от подсчетов. Настоящие подсчеты можно полу- чаются п нвшцсь к тем же источникам и найдя число банков, задер- чцть, ВЬ1ПЛату в каждом году. На илл. 30 представлен анализ жав111Их когда логарифмы были сдвинуты прибавлением единицы, для слУ ’пОказан полученный график неровностей, сопровождающих На илл- компоненту. Очевидно, что картина для задержания выплаты плавнУ ь стоЛь же отчетливой с использованием ПОДСЧЕТОВ числа п°ЛУЧ>кавших банков, как ранее с использованием КОЛИЧЕСТВ за- держанных вкладов (в миллионах долларов). ОБЗОРНЫЕ ВОПРОСЫ В каких четырех случаях при использовании сглаживания мог быть важным выбор преобразования? В каких из них это оказалось действительно так? Когда? Каким образом при выборе преобразования можно руководствоваться поведением остатков? Какие общие вопросы мы можем задать относительно неровностей? Как выбор преобразова- ния упрощает ответы на эти вопросы? Как сравнивается одно преобра- зование с другим? Что мы выигрываем (или теряем) в результате преобразования плавной компоненты, отличного от того, которое упростило нам поведение неровностей? Как быть со сглаживанием по- следовательностей подсчетов? Какой мы привели пример? Как он соотносится с более ранним примером, где были использованы коли- чества? Какую мораль можно отсюда извлечь? 7М. ПРИМЕР С РАЗБИЕНИЕМ ПЛАВНОЙ КОМПОНЕНТЫ НА ДВЕ ЧАСТИ Вернемся к задержанным вкладам в том виде, как они даны на илл. 8. Чтобы сделать величины остатков примерно одинаковыми, ная 1ЮТребУется что-нибудь вроде логарифмов. На илл. 32 дана плав- в вКомпонента ЗП от логарифмов, неровности, а также представление оста?6 Сте^ля с листьями и модифицированные буквенные значения для для в ов и их величин (абсолютных значений). Это сделано сначала ОстаткиГ°^1ерИОДа вРемени> а затем для двух его интервалов. Очевидно, .Доольше для второго интервала. Сравните: *'Ширина остатков *-буквенные значения величин остатков * С-шир. * В-шир. * м * с ’StjS ГГ- 20 57 8 ^J967 гг. 60 ш 33 26п 98
262 Г лава 7+ Отношение величин остатков колеблется приблизительно от 3 . 4:1. ‘ 1 До На илл. 33 показан соответствующий график — неровности, Со вождающие плавную компоненту. Здесь мы использовали ддя ^Ро- интервалов времени отрезки двух различных длин. Результат впе * ляет. Чат‘ ОБЗОРНЫЕ ВОПРОСЫ Что мы взяли в качестве примера? Сколько нам понадобил интервалов разбиения? Что было с величинами остатков? °Сь 7Н. ЧТО МЫ ЕЩЕ УЗНАЛИ? Мы обобщили в различных направлениях то, что узнали в конце гл. 7. Мы теперь готовы: Иллюстрация 32 главы 7+: задержанные вклады Плавная компонента ЗП от логарифмов задержанных вкладов и соответствующие остатки (вклады в логарифмах, умноженных на 100, от миллионов долларов) А) ПЛАВНАЯ компонента и соответствующие НЕРОВНОСТИ Абс. LroflJ J Задери. Неров- , „ величины , I вклады I I зп I | пости ] [неровностей| |б или в| 1921 229 228 1 2 205 228 -23 23 3 228 228 Z 4 233 228 5 5 25 224 233,229 -5 5 6 243 229 14 14 7 229 229 Z 8 214 229 -15 15 9 236 236 Z 30 293 293 Z 1 323 293 30 30 2 285 323, 293 -8 8 3 356 285 71 71 6 4 157 157 . Z 35 100 104 —4 4 6 104 104 Z 7 104 104 Z 8 128 111 17 17 9 111 128,111 Z 40 153 111 42 42 1 77 77 Z 2 57 57 Z О 23 57 -34 34 4 79 23 56 56
Факультативные разделы главы 7 263 Иллюстрация 82 (продолжение) /Г -40 -40 Z До р. М М 7 7 и •7 М М ? 7 / я -77 М Н Б о Q М -140 м Б 50 -140 -140 Z -j 49 15 34 34 2 15 49,46 -31 31. з 165 46,49 116 116 Б 4 46 81 -35 35 55 81 81 Z 6 108 108 Z 7 111 108 3 3. б 80 80 Z 9 30 80 -50 50 60 90 88 2 2 1 88 88 Z 2 8 88 -80 80 6 3 137 134 3 3 4 134 137,134 Z 65 166 134 32 31 6 -15 107 -122 122 Б 7 107 107 Z М — «меньше самого малого значения» (вместо логарифма нуля), о — «б» в анализе в п. Д этой иллюстрации. Б) С1ЕБЕЛБ о ЛИСТЬЯМИ для ВСЕХ остатков, не считая «?» 3 4 5 8 10 14 19 12 8 7 4 3 Н Б 4 3 2 0 Z -о (71, Н, 116)((?)) 6 2 041 -1 5 47 9322 ооооооооооооооооооо 4584 415 -5 0 М (М,3, —80, —122)((?))
Факультативные разделы главы 7 265 264 Глава 7+ Иллюстрация 32 (продолжение) Иллюстрация 32 (продолжение) В) *-БУКВЕННЫЕ ЗНАЧЕНИЯ! ВКЛЮЧАЯ ЗНАЧЕНИЯ «?» и БЕЗ >, для ВСЕХ остатков Hlty. *#36 (нули/2,нет) *lVI18n Z *С Эп 15п —11п *В 5 ’ 42 -35 *#38 (нули/2, "?и учтены । *М19п1> Z *С10и 17 -15 32 *В 5п» 49 —42п 91п *#19п *МЮ #С 5" »В 3 (Нули/2) 15п -4п 20 42 —15л 57 *#16п (нули/2) *М 8п Z *С 4п 17п —42п 60 *В 2п 75 -65 140 |90j *б|ю7п —132п| *Б197п -222л [ *б[45п *Б|75п |40] , *в[55п -51n I *Б95п -91 п| *6 65 -63 *Б 113 -111 внешн.: 56,71, отскак.: нет. внешн.: 116, отскак.: Н, М. внешн.: 71,—80, отскак.: Н, 116,—122, М, внешн.: 71,—80, отскак.: (?), Н, 116, —122, М., (?) m СТЕБЕЛЬ с ЛИСТЬЯМИ и ‘-БУКВЕННЫЕ ЗНАЧЕНИЯ для ВЕЛИЧИН Катков в 1921-1945 и 1948-1967 гг. х) Поскольку в подсчеты п. Б этой иллюстрации значения «?» не включены, tie. ред использованием подсчетов из п. Б уменьшите их на одну единицу. Г) СТЕБЕЛЬ с ЛИСТЬЯМИ и ‘-БУКВЕННЫЕ ЗНАЧЕНИЯ для абсолютнщ ВЕЛИЧИН ВСЕХ ОСТАТКОВ 1921-45 1948-67 1 Н (71) 5 Н (Н, 116,80,122, М) 2 5 6 6 5 0 3 4 2 4 5 3 04 10 3 1245 6 2 3 2 9 1 457 1 14 0 14558 13 0 233 12 Z 00000000000 7 Z 0000000 8 Н (71,116,Н,80,122,М;?,?) 10 5 06 11 4 2 16 3 01245 19 1 457 27 0 12334558 18 z 000000000000000006 ‘-медиана = 8 (на глубине 10), ‘-медиана = 33 (на глубине 9), *С= 26п (на глубине 5п), *С= 98 (на глубине 5). * - медиана = 11 (на глубине 19п, так как * = 38п). Д) СТЕБЕЛЬ с ЛИСТЬЯМИ и БУКВЕННЫЕ ЗНАЧЕНИЯ для ОСТАТКОВ за 1921—1945 и 1948—1967 гг. 1 2 3 4 6 8 11 6 3 2 1 1921-45 (71) 6 2 0 1648-67 Ж) УПРАЖНЕНИЯ 32а) Постройте стебли с листьями и найдите ‘М и *С для величин остатков за перио- 1967 г 933 и 1934—1945 гг. Сравните их друг с другом и с периодом 1948— 32б) (тоойГГ Сколько групп здесь потребуется? Каких именно? значЙН°е 3|HnneiHHe^ Повторите п.А, Б и Е для сдвинутых логарифмов, используя 32в) (ппсп^И« С og (, + задержанные вклады в миллионах). «б») Проделайте 32а для этого нового анализа. Н 5 4 3 2 1 0 2 -о -1 -2 -3 -4 -5 м 47 1Б 00000000000 458 5 3 4 0 ЙпЩеПИТЬ последовательность» если ясно, что это необходимо; н°м случае-6НЬК0 подУмать> нужно ли это делать в данном конкрет- ВЬ1бора C['jppb^°BaTb наши обычные способы рассмотрения остатков для *°мпоНентру ° Разования, дающего наиболее приемлемую плавную ц. Ф °ЧенивабЛЯСЬ’ пР,1менять все это и к подсчетам; тРихов в ОтТЬ величинУ неровностей и отсюда вычислять размер к Ф испольДеЛЬНОСТИ ДЛя лвух или более подпоследовательностей; ‘bI1bix оТре ВЭТЬ ШтРиховку с двумя или более размерами верти-
266 Глава 7+ Мы теперь отчетливее понимаем, О что хотя плавная последовательность действительно изме при преобразовании, но все же не очень еильно, так что нередко НЯеТся пренебречь преобразованием данных; О какие шаги процесса сглаживания больше всего чувствите к преобразованиям. ЛЬ1И1 Иллюстрация 33 главы 7+: задержанные вклады Вклады в банках США, задержавших выплату в 1921—1967 гг. [Неровности, сопровождающие плавную компоненту: две медианы абсолюТН|., величин остатков (одна до 1945 г., другая до 1968 V.), 5 значений вышли за пре^ шкалы] Логоршрмы (млн. далл.) А —1-1_III. 1320 1330 1340 1350 1360 1370
Глава 8 ПАРАЛЛЕЛЬНЫЕ И БЛУЖДАЮЩИЕ СХЕМАТИЧЕСКИЕ ДИАГРАММЫ УКАЗАТЕЛЬ К ГЛАВЕ 8 Обзорные вопросы 268 8А. Параллельные схематические диаграммы 268 буквенные разрезы (пороги) 273 Обзорные вопросы 275 8Б. Сглаживание ломаной из медиан 275 ломаная из медиан 275 кросс-медианы '275 срединная трасса 276 медианная трасса ‘277 Обзорные вопросы 277 8В. Сглаживание ломаных из сгибов 277 кросс-сгибы 277 Обзорные вопросы 279 8Г. Рассмотрение двух поставленных вопросов 280 кросс-сгибы 280 Сглаживание разностей 283 приращения буквенных, значений 283 трассы из сгибов 284 Обзорные вопросы 284 8Д. Блуждающие схематические диаграммы 284 примыкающий многоугольник 284 блуждающая схематическая диаграмма 286 Возможное истолкование 286 Обзорные вопросы 287 8Е. Более трудоемкий пример! жалованье губернато- ров и банковские вклады 288 Первоначальный анализ 288 Анализ выровненных данных 290 Объединенный анализ 293 Обзорные вопросы 293 8Ж. Дальнейшие вопросы и анализ примера 298 Изменения во времени 298 Вертикальный размер 299 Наклоны и уровни 299 Сводка результатов 300 Резюме 300 Обзорные вопросы ' 303 8И. Чего мы достигли? 303 8^’ Необходимость сглаживать обе координаты 308 Обзорные вопросы ЗЮ
268 Глава 8 Теперь, когда мы умеем с успехом и с достаточной легкостью живать ряды наблюдений, мы можем распространить на груП11Ь1 в плоскости, т. е. на пары (х, у), часть методов, которые мы испод°Че,! вали для получения сводок числовых выборок. Чтобы сделать Ь3°' нам понадобится заменить медианы чем-то таким, что указывало^0’ на середины значений одной переменной, скажем у, при различ 6tl значениях другой переменной, х. Далее мы должны заменить др\НЬ1х числа кривыми (мы будем называть их «трассами»), которые выполнять роль сгибов и (внутренних) барьеров. Понятия внешне т отскакивающих значений после небольших очевидных изменений обощ щаются до внешних и отскакивающих точек, как только будут Опг/ делены барьеры. Чтобы понять смысл примыкающих точек, понадо" бится уже немного подумать, но затем все получится достаточно легко" В заключение этой главы для точек плоскости (х, у) приводится простейший аналог числовой схематической диаграммы. Мы будем называть его блуждающей схематической диаграммой. Далее, в гл. 9 мы сможем заняться для пар (х, у) другими аналогами числовых схе- матических диаграмм. ОБЗОРНЫЕ ВОПРОСЫ Чего мы собираемся достичь в этой главе? Какой аппарат мы готовы использовать? Чем необходимо заменить медианы, сгибы, барьеры, внешние и отскакивающие значения, примыкающие значения? Далеко ли мы продвинемся в этой главе? Как эта глава связана со следующей? 8А. ПАРАЛЛЕЛЬНЫЕ СХЕМАТИЧЕСКИЕ ДИАГРАММЫ Самое простое, что можно сделать для обзора пар (х, у), это: 0 разбить данные на слои в соответствии со значениями х; 0 построить для каждого слоя числовую схематическую диаграч му для значений у, 0 расположить эти диаграммы бок о бок. На илл. 1 представлены упорядоченные двумя различными спо- собами пары чисел — количества электроэнергии и газа, ивП°л с11. ванных за зимний сезон в 152 домах г. Туин-Риверс, шт. Нью-Д*еР р Эти данные были собраны во время изучения потребления энер (| зависимости от конструктивных особенностей отдельных »иЛ „ образа жизни их обитателей. На илл. 1, А и Б эти данные привел 110 порядке возрастания первой координаты: на одной — по возрос использованной электроэнергии, на другой — использованное Это позволяет нам начать с любой координаты. 1б'еоче1' На илл. 1, А звездочки делят 152 точки на 10 слоев по 15—'^,дОе о1' в каждом. Если найти буквенные значения для у в каждом L
Параллельные и блуждающие диаграммы 269 Иллюстрация 1 главы 8: Туин-Риверс 152 пары (Исп. эл., Исп. газ) (зимний расход энергии в термах: Исп. эл.— количество гермов электроэнергии, Исп. газ — количество термов газа; 1 терм « 30 кВт-ч и точно 100 000 БТЕ) ,— пары (Исп. эл., Исп. газ) 1ИЧ.ЧЛ„, ______ ............. . "Г . . ) 143:988} 1186) (153:612) (156; 668) (157; 1108) (159; 752) (163; 676) (167; 968) 17П-854) * (171:670) (175; 530) (177; 810,766) (178; 1008)'(180; 958) 686) (186; 986) (188; 824) (189; 802) (190; 1014,1016) (191; 1078) 978,568) * (193; 1144) (195; 838) (196; 1298) (198; 612) 904-584,-908) (206; 1102) (207;756,810) (209; 1028) (211; 610) (214-1044) (217:1128,922,980) * (218:830,812) (224; 1038,1022) (225’832) (227; 938) (229; 742) (231; 1152) (233:844,1030) (234; 790) (235’886,1064) (238;860) (239; 922) * (240; 912) (241; 892) (242' 1068,860) (243; 756) (244; 1068,788) (245:658,876) (246; 992,774} 947’700) (252:1058,1020,1184,1026) * (254; 1050) (255:840,912,862) 256’1060) (257;1018) (258; 870,824,840,1062) {259; 1062) (262; 812) (263’1000) (264; 922) (265; 982) * (266:684,816,754) (267; 748) (268; 956) (270:928,746) (271; 1068,834)(272; 1086) (273:988,824 (274; 940) (275;Ю74,958) (276; 686)* (277; 868,852) (279; 1158) (280; 754,782) (281; 958) (283; 796) (284; 1030) (285; 1012) (287; 1070,788,1096) (288; 654) (290; 892) (291; 1004) * (292; 798,766) (293; 942) (294; 926,1120) (295; 882) (297; 1144) (298; 814) (299; 1214) (300; 766) (301; 974) (302; 924) (305; 1064) (306; 900) (315; 956) * (316; 828) (319; 1024) (323; 892) (324; 932) (325:662) (333; 1150) (334; 946) (347;732) (348; 956) (352; 720) (367; 762) (371; 1088) (422; 1222) (429; 1002) (435; 860) ДАННЫЕ, упорядченные по Исп. эл., А ,00-424) (108; 388) (119;778) 129;780) (1; 1;332,1016) 7 l8»Cdie«i 1153:612) (156:668) (157:1108) (159:752) (163 14 21 28 34 41 49 56 62 71 9 72 64 56 48 4Й 33 27 20 14 8 2 Замечание. (134; 832, 1016) означает (134; 832) и (134; 1016) и т. д. Б) ДАННЫЕ, упорядоченные по Исп. газ,— пары (Исп. газ, Исп. эл.) 6 (388; 108) (424; 89) (530; 175) (568; 192) (584; 204) 610; 211) 13 (612; 198,153) (654; 288) (658; 245) (662; 325) (668; 156) (670; 171) 20 676; 163) (684; 266) (686; 276,182) (700; 247) (720; 352) (732; 347) эк Z42'229> (746;270> <748; 267) (752; 159) (754; 280,266) (756:243,207) да ™ 367) <766: 300,292,177) (775; 246) (778; 119) (780; 129) (782; 280) 44 (788; 28-7,244) (790; 224) (796; 283) (798; 292) (802; 189) (810:177,207) 60 я 2;218'262> (814:298) (816;266) (824;188,258,273) (828; 316) 68 я„;218> (832:225,134) (834; 271) (838; 195) (840; 255,258) (844; 233} 76 ятя 277' <854;170> (860:238,435,242) (862; 255) (868; 277) (870; 258) 76 915 о (882:295) (886; 235) (892; 290,323, 241) (900; 306) (908; 204) 68 9ч, ^°;255) (922:217,239,264) (924; 302) (926; 294) (928; 270) 60 (9Бя ,24' (938:227) (940; 274) (942; 293) (946; 334) (956:348,315,268) 52 (98fi'iol;180'275) (968:167) (974; 301) (978; 192) (980; 217) (982; 265) 45 (1008- i,L(988: 2731143> (992:246) (1000; 263) (1002; 429) (1004; 291) 38 (1022-ээ (5012:285) (1014; 190) (1016; 190,134) (1018; 257) (1020:252) 31 (1044-71/!! !1024;319) (1026; 252) (1028; 209) (1030; 284,233) (1038; 224) 25 (1064-чпс’Д!°50;254) (Ю58; 252) (1060; 256) (1062:259,258) I6 7 * * * 11 (108б',7,;2,35) (Ю68;244,271,242) (1070; 287) (1074; 275) (1078; 191) 11 (Ц28:?1/4 (1088; 371) (1096; 287) (1102; 206) (1108; 157) (1120; 294) , 4 '1186- 297,193) (1150; 333) (1152:231) (1158; 219) (1184; 252) “*^^.(612 (1214;2"> (I222:422) 1298; 196) * 153, 198) означает (612, 153) и (612; 198) и т, д.
270 Глава 8 Иллюстрация 1 (продолжение) В) УПРАЖНЕНИЯ — можно распределить на несколько человек 1а) Разбить данные п.Б на группы по 15 и 16 точек с помощью звездочек. 1б/в/г/д/е/ж/и/к/л/м). Найдите буквенные вначения у в соответствующем слое лученного разбиения. 1н) Для этого случая составьте таблицу, как на илл. 2. 1о) Для этого случая постройте схематическую диаграмму, как на илл. 3. 1п) Для этого случая постройте схематическую диаграмму, как на илл. 4. Для По. Г) ИСТОЧНИК: личное сообщение проф. Р. X. Соколова (данные взяты следования по использованию и экономии энергии, проведенного в Инженерной Принстонского университета). Из ио. «ikojia дельно, то получится результат, представленный на илл. 2. На илл ч собраны вместе все параллельные схематические диаграммы. Поскольку нам нужно еще вписать числа, определяющие х-интеп. валы для слоев, у нас пока не получается график в полном смысле слова. На илл. 4 каждая схематическая диаграмма изображена над медианой своего слоя, а мелким пунктиром показаны разрезы, опреде- ляющиеслои. Кроме того, здесь крестом отмечены точки, координаты которых представляют собой значения х- и у-медиан для каждого слоя. При внимательном рассмотрении этого рисунка можно заметить один из основных его недостатков: на нем представлено много деталей вблизи х-медианы, где ничего очень интересного скорее всего не про- исходит; она мало детализирована вблизи экстремальных значений х, где с большей вероятностью может проявиться что-либо интересное. Иллюстрация 2 главы 8: Туин-Риверс Буквенные значения и (внутренние) барьеры для групп Исп. газ, заданных звездочками на илл. 1 |#| | х =Исп.эп.| |у = Исп.таз. | [Исгъэл I min 11 max| НИМИ, 1 внешн J ННЖН.1 прим. | и |М| верхи.| с I [верхи. 1 прим. верхи; внешн. | мед. 15 89 170 XXX 388 672 780 978 1186 i XXX 152 15 171 192 XXX 530 726 824 997 1078 XXX 186 15 193 217 XXX 584 783 922 1073 1298 XXX 207 15 218 239 XXX 742 831 886 1026 1152 XXX 231 16 240 252 XXX 658 781 902 1042 1184 XXX 15 254 265 XXX 812 851 922 1034 1062 XXX zo° 16 266 276 XXX 684 751 881 973 1086 XXX z/1 о fl 4. 15 277 291 XXX 654 792 892 1021 1158 XXX ZD1* 15 292 315 XX 766 848 926 1019 1214 XXX Z^u 347 15 316 435 XXX 662 795 932 1013 1222 XXX УПРАЖНЕНИЯ 2а/б/в/г/д) Составьте стебель с листьями для значений у (Исп. газ) сверьте с указанными буквенными значениями. 2е/ж/и/к/л), Проделайте то же самое для значений х (Исп, эл.) из из 172/3/4/5^ 6/7/8/9/10 сл0"' Я
Параллельные и блуждающие диаграммы 271 Иллюстрация 3 главы 8: Туин-Риверс ллельные схематические диаграммы (к сожалению, с равным шагом) Пара 00183 171 133 218 241 253 2Е6 277 292 ЗЮ Й? 170 192 217 240 252 255 275 291 315 435 Интервалы значений х Исп. газ Иллюстрация 4 главы 8: Туин-Риверс Параллельные схематические диаграммы (отнесенные к х-медианам слоев)
272 Глава 8 Иллюстрация 5 главы 8: Туин-Риверс Продолжение илл. 1 Г) БУКВЕННЫЕ ЗНАЧЕНИЯ и БУКВЕННЫЕ ПОРОГИ #152 буквенный значения [буквенные пороги ] [__объемы, слоев J м 76п 253 М 252г. 253п СМ 37 38 мс с 38п 207 283п С 207п 283п ВС 20 19 св в 19п 177п 301п в 177п 301 п БВ 9 9 ВБ Б 10 156 333 Б 156п 332п АБ 4 5 БД А 5п 134 359п А 134п 359п ЯА 3 2 АЯ Я 3 119 422 Я 119п 42 In -Я 3 3 Я— 1) Каждый буквенный порог выражен целым числом с половиной- чтоб .ЛЯ Г ПП.ТТПЙЙИЯМЫ МРППЯМ¥ ПЯГГПРПЛШЛТ М пбр ияоты ПЯЗППыгот^ Цдру^ Замечания. I получить числа с половинами, медиану расщепляют и обе части раздвигают i~— другие буквенные пороги сдвигают внутрь (поэтому 177 и 301 не меняются)^ " 2) Каждый слой обозначен двумя буквами, записанными в порядке следовани порогов, которые его определяют, хотя часто мы будем их обозначать просто попял” новыми номера ли. Отметим также, что было бы очень полезно сдвинуть верхний A-порог внутрь на одно значение, чтобы получить по меньшей мере 3 значения в гчп» #11 (АЯ). Д) Илл. 1, А, размеченная в соответствии с п.В и начатая с порога А (нижний Б-порог сдвинут на 1 внутрь) 7 (89; 424) (1С8; 388) (119; 778) (129; 780) (134; 832,1016) А (143; 988) 13 (152; 1186) (153; 612) (156; 668) (157; 1108) Б (159;752) (163;676) 20 (167.-968) (170; 854) (171;670) (175; 530) (177; 810,766) В (178; 1008) 27 (180; 958) (182; 686) (186; 986) (188; 824) (189; 802) (190; 1014,1016) 34 (191; 1078) (192; 978,568) (193;1144) (195; 838) (196; 1298) (198;612) 41 (204; 584,908) (206; 1102) (207; 756,810) С (209; 1028) (211;610) 50 (214; 1044) (217; 1128,922, 980) (218; 830,812) (224; 1038,1022) (225; 832, 56 (227; 938) (229; 742 (231; 1152) (233; 844,1030) (234; 790) 64 (235; 886,1064) (238; 860) (239; 922) (240; 912) (241; 892) (242:1068,860) 72 (243; 756) (244; 1068,788) (245; 658, 876) (246; 992,774) (247; 700) 9 (252;1058,1020,1184,1026) М (254; 1050) (255; 840,912,862) (256; 1060) 71 (257; 1018) (258; 970,824,840,1062 (259; 1062 (262; 812) (263; 1000) 63 (264; 922) (265:982) (266; 684,816,754) (267; 748) (268; 956) 56 (270; 928, 746) (271; 1068,834) (272; 1086) (273; 988,824) (274; 940) 48 (275:1074,958) (276; 686) (277:868,852) (279; 1158) (280:754,782) 40 (281; 958) (283; 796) С (284; 1030) (285; 1012) (287: 1070,788,1096) 33 (288; 654) (290; 892) (291; 1004) (292; 798,766) (293; 942) (294; 926,112' 25 (295; 882) (297; 1144) (298; 814) (299; 1214) (300; 766) (301; 974) В 19 (302; 924) (305; 1064) (306; 900) (315; 956) (316; 828) (319; 1024) 13 (323; 892) (324; 932) (325; 662) Б (333; 1150) (334; 946) (347; 732) 7 (348; 956) (352; 720) А (367; 762) (371; 1088) (422:1222) (429; 1002) 1 (435:860) Е) УПРАЖНЕНИЙ — можно разделить между несколькими участи 5а) Вставьте буквенные пороги в илл. 1, Б, сдвигая их нужным образом- ^ое для 5б/в/г/д/е/ж/и/к/л/м). Найдите буквенные значения у в соответствующе полученного разбиения. 5н) Для этого же случая составьте таблицу, как на илл. 6. иЛЛ, 7» бо) Для этого же случая постройте схематическую диаграмму, как на
Параллельные и блуждающие диаграммы 273 Иллюстрация 6 главы 8: Туин-Риверс Буквенные значения (С, М, С) и примыкающие значения для выборок, заданных буквенными порогами на илл. 5 А) ВЫЧИСЛЕНИЯ I Исп.эл: Цел. газ [ |исп‘. ЭЛ; мин. | | макс) ниж. внешн.. НИЖ. прим. НИЖ. С 1 м | верх. С верх, примд верх, внешн [медианы 89 134 ххх 388 424 779 832 1016 ххх 124 О 143 157 ххх 612 668 988 1108 1186 ххх 153 О О 159 177 ххх 530 673 759 832 968 ххх 170п 20 178 207 ххх 568 779 933 1015 1293 ххх 192 209 252 ххх 610 830 922 1030 1184 ххх 235 36 19 254 283 ххх 684 816 891 1000 1158 ххх 267п 284 301 ххх 654 806 942 1050 1214 ххх 292 9 302 325 одна 828 892 924 956 1024 одна 316 Б 333 352 ххх 720 732 946 956 1150 ххх 347 5 367 435 ххх 762 860 1002 1088 1222 ххх 422 Внешние значения — это 662 и 1064. С-ширина в порядке появления равна: 408, 440, 159, 236, 200, 184, 244, 64, 224, 228. Существование внешних значений связано с уди- вительно низким значением С-ширины, равным 64. Б) УПРАЖНЕНИЯ 6а) Разбейте пары илл. 1, А на слои следующих объемов: 3, 5, 9, 17, 33, 18, 33, 17, 9, 5, 3. 6б/в/г/д/е/ж/и/к/л/м). Найдите все, что найдено в п. А, для 1/2/.../11 слоя из (6а), 6н) (используя все предыдущее) Объедините эти результаты и получите аналог илл. 7. На первый взгляд кажется, что надо перейти к рассмотрению слоев одинаковой ширины по х, но после некоторого размышления становится ясно, что в этом случае в крайних слоях число точек оказалось бы неприемлемо малым. Обычно используется компромиссное решение, г- е. так называемые буквенные разрезы (пороги). ди.^х ПОстРоение мы начинаем с буквенных значений х, при необхо- попдСТИ сдвигая пороги немного внутрь, чтобы избежать их точного направле'Я на^значения х- (Медиану можно немного сдвинуть в любом Для^а ИЛЛ’ Г показаны буквенные значения и буквенные пороги с яисломХзДЯ1ЦИе До буквы Я с каждой стороны. У нас остается 4 слоя только м значен™> не превосходящим 3. Если бы нас интересовали бы. Есгц1еДИаНЫ’ то слои с числом значений 3, возможно, нас устроили По Крайп же мы Хотим рассмотреть еще и сгибы, нам необходимо иметь приведен, И Ме')е по 5 значений. В соответствии с этим на илл. 5, Д На илл иороги, где используются буквы А, Б ... Б, А. Илд. 7 они • пРивеДены буквенные значения у для этих слоев, а на изображены в виде схематических диаграмм. Теперь мы
274 Глава 8 Иллюстрация 7 главы 8: Туин-Риверс Параллельные схематические диаграммы (использованы буквенные пороги) расплачиваемся за более детальное изучение хвостов. Поскольку у нас имеются 3 слоя с минимально возможным объемом (5 значениями), требующимся для получения полезных схематических диаграмм, здесь мы ожидаем большей беспорядочности. И мы ее получаем. С ДРУ' гой стороны, вместо экстремальных схематических диаграмм, под*_ дящих к среднему значению к от значений 170 для нижнего и 316 Д верхнего экстремальных слоев первоначального разбиения, мы теперь экстремальные слои, доходящие до значений 134 снизу 11 сверху. Ясно, что картина вблизи экстремумов просматривается те более детально. лИ 7 Что бы мы ни выбрали: диаграмму, показанную на илл. ** наМ либо построенную по какому-то другому разбиению,— необходимо провести некоторое сглаживание, к которому мы пер в следующем разделе.
Параллельные и блуждающие диаграммы 275 ОБЗОРНЫЕ ВОПРОСЫ цто проще всего можно сделать о парами (х, у)? Из каких трех ,тей состоит эта процедура? Какой мы приводили пример? Каков ^ас результат? (Постарайтесь описать своими словами!) Как мы его бЬ'лали более наглядным? Что оказалось наибольшим недостатком? мы решили предпринять? Что такое буквенные разрезы? Как мы 4 использовали? Какой получился результат? Что необходимо сделать ИХ и теперь- 8Б. СГЛАЖИВАНИЕ ЛОМАНОЙ ИЗ МЕДИАН Если мы хотим получить усредненную зависимость потребления газа как функцию потребления электричества, мы должны нанести на схему медианы слоев вместе с буквенными порогами, взятыми из илл. 5 и 6, как это показано в верхней части илл. 8. Хотя описать метод построения ломаной из медиан очень легко, столь же легко заметить, что наш глаз не улавливает какого-либо общего характера изменения или изгибов, которые могли бы иметь место, а видит только «скачки». Ясно, что необходимо произ- вести какое-то сглаживание. Иллюстрация 8 главы 8: Туин-Риверс Ломаная из медиан (вверху) и соответствующая срединная трасса (внизу) Исп. газ 1000- £00 100 200 ООО Исп.ЗЛ, 400 * £ + +
276 Глава 8 Иллюстрация 9 главы 8: Туин-Риверс Сглаживание кросс-медиан из иллюстрации 6 А) СГЛАЖИВАНИЕ |Слой 1 # । Исп. эл. 11 Исп. газ | медиань 11 С || медианы ||ЗП'| |ЗП'РР| |ЗП'РРГ ||ЗП'РРГЗ 1 124 124 779 779 Т 779 т 2 153 150 988 779 0 815 О 3 170п 171 759 922 ж 886 ж 4 192 197п 933 922 е 922 е 5 235 232п 922 922 с 922 с 6 267 п 265п 891 922 а 922 а 7 292 292 942 924 м 928 м 8 316 318 924 942 ° 938 о 9 347 358 946 946 е 959 е 10 422 422 1002 1002 1002 Б) УПРАЖНЕНИЯ 9а) Постройте ломаную из медиан по данным илл. 1 и 2. 96) Проведите сглаживание и выпишите результаты для этого случая. 9в) Постройте срединную трассу, основываясь на этом сглаживании. 9г) Изобразите две ломаные из медиан (из. илл. 1 и 2 и из илл. 5 и 6) на одном ри- сунке. Проанализируйте. 9д) Изобразите две срединные трассы на одном рисунке. Проанализируйте. 9е) Возьмите результаты из упр. 66 — 6м и проделайте сглаживание, как в п. А. Изобразите полученную срединную трассу. Самое простое — сгладить кросс-медианы, т. е. точки в каждом слое, где х-медиана пересекается с //-медианой. (Эти точки показаны крестиками на илл. 4, 7 и 8.) По крайней мере сначала желательно на краях сглаживать немного. В конце концов любой крайний слой может содержать особую информацию. Поэтому мы собираемся оставлять крайние слои без изменений и делать лишь ЗП'РР-сглаживание, где штрих в П' напоминает нам, что крайние слои не изменяются. Результаты основных вычислений приведены на илл. 9 и изобра- жены внизу на илл. 8. Отметим, что по причинам, которые изложены в разд. 8К, последовательность х-медиан тоже сглаживается. (По- скольку они всегда расположены в порядке возрастания, то ганнир0' ванне будет первой и единственной частью сглаживания, которая оказывает на них воздействие.) Такой результат сглаживания ломаной из медиан будем называть срединной трассой, какое бы множество порогов для разбиения на слои мы ни исП0^ее вали и какое бы сглаживание ни применяли. Она дает нам хор общее представление о кажущемся поведении «срединного» У
Параллельные и блуждающие диаграммы 277 нии х- При этом мы воспользовались теми понятиями, которые измеН е имелись (разбиением на слои, медианами, сглаживанием), У наС Получить нечто простирающееся по возможности посредине — чтобы уМН0 сглаженное, но не стесненное рамками какого-либо нечТ°ого семейства кривых: квадратичных парабол, экспонент или часТ.,„ип Мы оставляем за собой право называть ее также синусоид' медианной трассой „ий паз когда из контекста следует, что этот термин более есте- рСЯКИГ! > ствен. ОБЗОРНЫЕ ВОПРОСЫ Каков простой способ для представления медианы у как функции от х? Что такое ломаная из медиан? Какая от нее польза? Каковы ее основные недостатки? Что с ней нужно сделать? Что такое кросс- медианы? Что с ними можно сделать? В каком разделе обсуждается, почему надо сглаживать не только у, но и х? Что мы решили делать с крайними слоями? Как это влияет на выбор способа сглаживания? Какое сглаживание мы выбрали? Что получилось, когда мы его при- менили? Что такое срединная трасса? Что такое медианная трасса? 8В. СГЛАЖИВАНИЕ ЛОМАНЫХ ИЗ СГИБОВ Теперь мы умеем рисовать ломаную из медиан и сглаживать кросс- медианы, находя по ним срединную трассу. Добьемся ли мы успеха, поступая аналогичным образом со сгибами? Только если будем ос- торожны. На илл. 10 показаны ломаные из сгибов, построенные по данным буквенных разрезов и у-сгибов из илл. 6; точки пересечения {/-сгибов с х-медианами отмечены вертикальными черточками, а с х- сгибами — точками (для дальнейших ссылок). На илл. 11 приведены результаты сглаживания по всем слоям верхних и нижних //-сгибов (Исп. Газ) и х-сгибов (Исп. эл.). из Наг.ИЛл- изображены гладкие кривые — претенденты на трассы Тепел °В вместе с медианной трассой, изображенной кружочками, помнитьВаЖНЫ ДВе вещи: °Дн°й надо придерживаться, а о другой пРоведе Осо®енности после того, как срединная трасса окончательно ном на п НЭ ИЛЛ> наше внимание будет фокусироваться в основ- °тДельных°1тГРаНСТВе междУ трассами, а не на точном местоположении ния^(сщ^ВСе ещ,е не решили, что наносить на график: точки пересече- Делить Женных) //-сгибов со (сглаженными) х-медианами или опре- кросс-сгибы
278 Глава 8 Иллюстрация 10 главы 8: Туин-Риверс Ломаные из сгибов Иллюстрация 11 главы 8: Туин-Риверс Сглаживание ^-сгибов и *-сгибов для пар (Исп. газ.. Пси. эл.) (главным образом на основе илл. 6) А) ВЕРХНИЕ СГИБЫ —данные о сглаженных медианах Исп.эл. взяты из илл. 9 |Медианы Исп. эп! | Верхние сгибы Исп. газ I I гз 1 [исходи.] |ЗП'| |ЗП'РР[ |ЗП'РРГ [ |ЗП 'РРГЗ| 1 — 124 832 832 832 832 150 1108 832 878 878 171 332 1015 969 969 197п 1015 1015 1015 1015 232п 1030 1015 1015 1015 265 п 1000 1015 1011 1011 292 1050 1000 996 996 318 956 956 970 978 996 358 956 956 970 1000 1000 422 1088 1088 1088 1088
Параллельные и блуждающие диаграммы 279 Иллюстрация 11 (продолжение) Б) НИЖНИЕ СГИБЫ (Медианы Исп. ал( | Нижние сгибы Исп. газ. I | ГЗ I |исходн.| |ЗП' | |ЗП'РР| |ЗП'РРГ | (ЗП'РРГЗ I 124 424 424 Т 424 т 150 658 668 О 608 о 171 673 673 ж 698 ж 197п 779 779 е 760 е 232п 830 816 804 с 265п 816 816 а 816 а 292 806 816 м 814 м 318 892 816 ё 827 358 732 860 849 422 860 860 860 объемы слмв)ЖИВАНИЕ СГИБОВ Исп-Эл« (х-сгибов) (в первом столбце указаны | Нижние сгибы , I Верхние сгибы ( |размер) (исходи.| Ld L ГЗ | |исходи. | Ldl L ГЗ [ 6 108 108 Т 134 134 Т Б 152 144 О 156 155п О 8 165 1674 ж 176 177 ж 20 188п 191п е 201 205п е 37 224 223 п с 244 241 с 38 258 257 а 275 272л а 19 287п 285 м о 296 297п м 9 306 308 п е 323 322п о Б 334 336 348 362 Б 371 371 429 429 Г) УПРАЖНЕНИЯ „ Иа/б/в) Сделайте обсчет п. А/Б/В для чисел, взятых из илл. 12 на основе ре- Иг) (используя а/б/в). Постройте диаграмму, аналогичную илл. 5 зультатов 11а/б/в. , „„ пя Ид/е/ж) Сделайте то же, что и в 11а/б/в, для слоев у' Пи) (используя д, е, ж) Повторите 11г для результат как кой два точки пересечения каждого (/-сгиба с подходящим х-сгибом (ка- вопроса? СГИ^°В следУет считать подходящим?)? Как решить эти ОБЗОРНЫЕ ВОПРОСЫ Что мы *°телось бы попытаться сделать? Что мы изобразили сначала? Делали Лажввали? Что наносили на график? Какое наблюдение мы °том. Относительно чего мы находимся в нерешительности?
Глава 8 280 — Иллюстрация /2 главы 8: Тдин-Риверо Сглаженные ломаные из сгибов (и срединная трасса) Исп. газ 1 — сглаженная трасса (медиана, сгиб); 2 — медианная трасса; 3 — х-сгибы слоев. 8Г. РАССМОТРЕНИЕ ДВУХ ПОСТАВЛЕННЫХ ВОПРОСОВ Основная трудность содержится во втором вопросе: «Какой из х-сгибов связать с выбранным //-сгибом?» На илл. 13 рассматривается случай, когда заданные точки лежат на гладкой кривой. Поскольку все точки расположены НА этой кри- вой, кривая должна совпадать (за исключением некоторых мест из-за сглаживания) не только со срединной трассой, но и с обеими трассами из сгибов. Представляется единственно разумным начать с опреде- ления кросс-сгибов как точек пересечения верхнего сгиба с верхним сгибом и нижнего сгиба с нижним сгибом — ВСЮДУ, где кривая (или последователь- ность кросс-сгибов) ВОЗРАСТАЕТ (как слева на илл. 13), и как точе^ пересечения верхнего сгиба с нижним сгибом и нижнего сгиба с веР ним сгибом — ВСЮДУ, где кривая (или последовательность крое сгибов) УБЫВАЕТ (как справа на илл. 13). Там, где кривая содерж^, заметно выраженный горизонтальный участок, не имеет зиачеНка’ какой выбор мы сделаем, и, хотя возможен любой выбор, часто в честве компромисса лучше использовать х-медиану, а не любо» х-сгибов.
Параллельные и блуждающие диаграммы 281 Иллюстрация 13 главы 8: поясняющая Ппедполагаемые разрезы, медианы слоев и сгибы слоев для группы точек, А лежащих на гладкой кривой Иллюстрация 14 главы 8: Туин-Риверс Использование х-сгибов для сглаживания ломаных из сгибов, которые показаны вместе со срединной трассой случае возмс*1351 кРивая кросс-медиан, 2 — сглаженные кривые кросс-сгибов Р ставня кривых), 3 (х-медиана, сглаженный #-сгиб).
282 Глава 8 Следуя этому правилу, мы будем ввякий раз производить анал гичный выбор, когда кажется, что «траева из сгибов» возрастает, Ил убывает, или приблизительно постоянна. Из илл. 12 следует^ Чт^ в примере с Туин-Риверс мы можем с уверенностью считать обе траса из сгибов всюду возрастающими. На илл. 14 приведены результаты- срединная трасса — сплошной кривой, а трассы из сгибов — ПуНк' тарными кривыми. «Маленькими» точками показаны точки (х-ме- дианы, у-сгибы), которые определяли бы «трассы из сгибов» другим путем. В этом примере в обоих случаях «трассы из вгибов» получаются почти одинаковыми. Иллюстрация 15 главы 81 Туин-Риверс Сглаживание разностей сгиб — медиана и объединение их со сглаженными медианами (главным образом на основе илл. в) А) СГЛАЖИВАНИЕ РАЗНОСТЕЙ СГИБ — МЕДИАНА 1 М-Са Исп. газ Св —М Исп. газ (объем) [исходи ЦЗЩ |ЗП*РР| |ЗПРРГ| |ЗГГРРГЗ||исходн Лзгц I3ITPP| |ЗП«РРГ| |ЗП'РРГЗ| (6) 355 355 т 355 т 53 63 53 т (5) 320 320 0 288 О 120 73 76 О (8) 86 156 ж 181 ж 73 108 99 ж (20) 154 92 •0 108 е 190 108 108 е (37) 92 92 с 92 с 108 108 108 с (38) 76 92 а М 92 а м 109 108 108 а м (19) 136 92 ю 103 .о 108 108 108 О (9) 32 136 е 126 е •32 32 108 102 0 (5) 214 142 140 10 32 86 92 (5) 142 142 142 86 86 86 Б) ОБЪЕДИНЕНИЕ СГЛАЖЕННЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ I Ниж. сгиб Исп. газ . I L Верх, сгиб Исп. газ | |мед4 |М—,Сн| |Сн | L3J |мед^ |Св—М] • I Св I 779 355 ‘ 424 779 53 832 815 288 523 815 76 891 ф 886 114 705 886 99 985 2 922 108 814 922 108 1030 О 922 92 830 922 108 1030 Ф 922 92 830 922 108 1030 о 928 103 825 928 108 1036 938 .126 812 819 938 102 1040 959 140 819 959 92 1051 1002 142 860- 1002 86 1088 В) УПРАЖНЕНИЯ _ - писеЛ 15а/б/в) Проделайте вычисления, как на таблицах этой иллюстрации, для из илл. 2, 15а/б',в- 15г) (а/б/в) Сделайте чертеж, аналогичный илл. 16, для результатов упр- 15д?е/ж) Проделать упр. 15а/б/в для чисел из упр. 66 — м. iSn/e//5" 15и) (д/с/ж) Сделайте чертеж, аналогичный илл, 16, для результатов упр-
Параллельные и блуждающие диаграммы 283 Иллюстрация 16 главы 8: Туин-Риверс Наконец, трассы из сгибов и срединная трасса 100 200 300 400 СГЛАЖИВАНИЕ РАЗНОСТЕЙ Другой подход состоит в том, чтобы сосредоточить внимание на «разностях» между «трассами из сгибов» и срединной трассой, а не на расположении трасс из сгибов самих по еебе. Очевидно, что при таком подходе следует начать с определения соответствующих приращений буквенных значений. Здесь величина «М—С,,» определяется как медиана МИНУС нижний сгиб, а величина «Св—М» — как верхний сгиб МИНУС медиана, а затем необходимо О сгладить приращения буквенных значений; вяи„ объединить их со срединной трассой, чтобы провести сглажи- ание «трасс из сгибов» раздельно; по тпо^16 РЯЗ сгладить' возможно пользуясь лишь сглаживанием Р кам, чтобы устранить вновь появившиеся неправильности, нашего ИЛЛ‘ 15 приведена подробная реализация этого подхода для к°нцевыхРИМеРа’ °™етим использование сглаживания ЗП (правило На ип ЗН*Чени*) вмест° ЗП' (крайние значения не изменяются). НИЕм у crfA пРпведены результаты, получаемые с ИСПОЛЬЗОВА- П₽ОгРамма ИБ°В ПРИ ВТОРОМ ПОДХОДЕ. Тем самым выполнена ’ даю1Дая ответы на оба вопроса, поставленные в этом раз-
284 Глава 8 деле. Результаты довольно хороши, а вопросы достаточно полно смотрены, чтобы эти трассы заслужили название Рас- трасс из сгибов. ОБЗОРНЫЕ ВОПРОСЫ В чем трудность с у-сгибами? Какой пример мы рассмотрели? Чт из него извлекли? Что такое кросс-сгибы? Как мы поступаем, когд° последовательность кросс-сгибов возрастает? Когда убывает?’ Какой реальный пример рассматривался далее? Что мы делали? Каков был результат? К какой задаче мы затем обратились? Что такое приращения бук- венных значений? Какие из них мы использовали? Каким образом? Что мы складывали? Как представили результат? Что такое трасса из сгибов? ВД. БЛУЖДАЮЩИЕ СХЕМАТИЧЕСКИЕ ДИАГРАММЫ Теперь для большей части понятий числовой схематической диаг- раммы имеются аналоги: О сгибы превращаются в трассы из сгибов; ф медиана превращается в срединную трассу (медианную трассу); ф а что соответствует внешним точкам? что соответствует примыкающим точкам? Далее нам нужно выбрать барьеры, чтобы они помогли различать внешние и примыкающие точки. В этом случае, по-видимому, лучшим будет простейший подсчет. Выберем подходящее значение х и возьмем с оригинала на миллимет- ровке на трассах из сгибов соответствующие ему значения у, а затем поступим, как обычно. На илл. 17 представлены арифметические рас- четы, из которых ясно следует, что ни одна из 152 точек в примере с Туин-Риверс не имеет никаких шансов оказаться внешней. Таким образом, все, что остается, это найти примыкающие точки и подходя щим образом изобразить их. На илл. 18 показаны: О трассы из сгибов и медианная трасса; О в каждом слое — примыкающие точки; <5 в двух крайних слоях — все (не внешние) точки; _ к0 ф пунктиром — выпуклый многоугольник, содержащий веет что упомянутые точки. Если мы уберем точки, по которым были построены как примыкающий многоугольник
Параллельные и блуждающие диаграммы 285 Иллюстрация 17 главы 8: Туин-Риверс . Барьеры А) ВЫЧИСЛЕНИЕ БАРЬЕРОВ I Исп. газ ] | Исп. газ,: с-ширина | Исп. га; 5 I | трассь!^ из сгибов) |исходи d 13QJ 1Ш LEJ 13| ] ~.шаг | |внутр. барьеры | 560 835 245 245 245 348 212 1183 150 175 200 225 640 875 235 236 354 286 1229. 750 980 230 228 342 408 1322 825. 830 1033 •1045 208 215 215 214 ф о 5 <0 218 214 8 1 327 321 398 509 1360 1366 250 828 1042 214 ф 214 О 321 507 1363 275 828 1042 214 X 216 324 504 1366 300 823 1045 222 220 £ 330 493 1375 325 820 1048 228 224 224 336 484 1384 350 826 1050 224 224 224 336 490 1386 375 (868) 1056 (188) 224 224 336 (532) 1392 Замечание. Дальнейшее сглаживание барьеров, найденных таким образом, не обя- зательно. Б) ТОЧКИ, НАИБОЛЕЕ БЛИЗКИЕ К ВНЕШНИМ, — см. илл. 2 (196,1298) выше 1322 Спой Ниж'. крайняя Верх, крайняя Вблизи барьера 1 (108,388) ниже 212 2 3 4 5 6 7 8 9 10 слоеГрл1п?ЧКИ “WM, как не имеющие шансов приблизиться к барьерам. [В первом ственной другой возможной точкой была (89, 424)]. 17а п)Л.ПРАЖНЕНИЯ (15г тд Ходимы.использУя исходную миллиметровку из упр. 15г, найдите числа, необ- 17б (15и *Пп’:И обсчета п. А и Б. Сравните свои результаты с помещенными выше. чи 15з 1РОДела,1те то же самое, используя исходную миллиметровку из зада-
286 Глава 8 (пунктирными линиями), так и медианная трасса и трассы из сгибо (сплошными линиями), мы получим то, что естественно назвать В блуждающей схематической диаграммой, которая изображена на илл. 19. Этот пример имеет ту особенность что в нем нет внешних точек. ’ Здесь мы построили выпуклый примыкающий многоугольник В других случаях, если бы, например, все трассы и, следовательно' барьеры имели провалы в середине и были подняты на обоих концах* так что серпообразная форма примыкающего многоугольника была вполне оправдана, мы не стали бы требовать, чтобы примыкающий многоугольник был выпуклым. В целом следует исходить из требо- вания, чтобы все не внешние точки попадали внутрь примыкающего многоугольника. ВОЗМОЖНОЕ ИСТОЛКОВАНИЕ Как можно истолковать эту конкретную блуждающую схемати- ческую диаграмму? Большая часть всех трасс примерно горизон- тальна. Однако в левой части имеется наклон, наибольший для ниж- Иллюстрация 18 главы 8: Туин-Риверс Медианная трасса и трассы из сгибов — примыкающий многоугольник и определяющие его точки
Параллельные и блуждающие диаграммы 287 Иллюстрация 19 главы 81 Тдин-Риверс Блуждающая схематическая диаграмма Исп. газ ней трассы. (В правой части также имеется слабое указание на нак- лон, но его едва ли достаточно, чтобы убедить нас в важности или реальности этого наклона.) Это как раз то, чего следовало ожидать, если О для большинства домов в городе не существует связи даже статистической — между потреблением газа и электричества, О в небольшом числе домов потребление того и другого было уди- вительно низким. . Ипзможно, ЧТО некоторые А каким образом это могло случиться. отопление и электри- жильцы уезжают зимой в отпуск и отключают ото. честно. Возможно, происходит что-то дру ОБЗОРНЫЕ ВОПРОСЫ вач^лиИе части схематической диаграммы у нас имелись, когда мы к поиеи?Т«Т раздел? Какие нам были нужны? Привело ли это нас Лали? и баРьеРов? Что казалось простейшим подходом? Что мы сде- f’PaBnonrJ0 .-Обнаружилось в примере с Туин-Риверс? Какой набор Рели? ц„Добных возможностей для примыкающих точек мы рассмот- м мы их окружили? Будет ли эта фигура всегда выпуклой?
288 Глава 8 Почему (или почему нет)? Что такое блуждающая схематичее диаграмма? Каковы ее части? Что такое примыкающий многоуг Кая ник?. у 0,Пь- 8Е. БОЛЕЕ ТРУДОЕМКИЙ ПРИМЕР: ЖАЛОВАНЬЕ ГУБЕРНАТОРОВ И БАНКОВСКИЕ ВКЛАДЫ Обычно не требуется особой тщательности при построении блу дающих схематических диаграмм для выборок с большим чисд точек. Скорее с малыми выборками требуется большая осторожност М В этом разделе мы займемся выборкой объемом в 50 точек — по числ штатов в США. Насколько нам известно, нельзя получить более об ширную выборку для сходных социально-экономических и админи- стративных условий. Поэтому нам остается внимательно проанализи- ровать эти 50 точек. ПЕРВОНАЧАЛЬНЫЙ АНАЛИЗ На илл. 20 представлены полные вклады в банки и жалованье губернаторов для всех 50 штатов США за 1969 г. и логарифмы этих величин в удобном масштабе. Поскольку отношение наибольшего значения из банковских вкладов к наименьшему близко к 300, следует начать прямо с их логарифмов. Соответствующее отношение для жалований губернаторов равно лишь 5, поэтому у нас нет уверенности, что вместо этой переменной нужно рассматривать ее логарифм, од- нако и здесь логарифмы окажутся полезными. На илл. 21 представлен массив тех же точек — сначала (Бан. вкл., Жал. губ.) в порядке возрастания Бан. вкл., затем Жал. губ., упорядоченное в каждом слое; медианы и сгибы для каждого слоя об- ведены кружками. (О двух других столбцах речь пойдет ниже.) Здесь для удобства мы взяли слои из 5, 5, 9, 12, 9, 5 и 5 точек. (Столбец с названиями штатов позволит нам идентифицировать «внешние» и «примыкающие» штаты.) Чтобы было удобно обрабатывать данные, часто 0 выбирают слои из 5, 9, 17 и т. д. точек, когда требуется мини мальная арифметическая обработка, так как при таком выборе оу венные ранги не содержат половинок; 0 выбирают слои из 4 (если нужна только медиана), 8, 16, 32, ' "с. точек, когда требуется несколько большая устойчивость при в лении буквенных значений; поскольку при таком выборе вс® тСя можные буквенные ранги содержат половинки, то чаще использу средние из двух наблюдений. уз сг^ На илл. 22 вычисления срединной трассы и двух трасс и заканчиваются, их графики изображены на илл. 23. Нас радуют пересечения этих кривых. (Но мы и не обрадова
Иллюстрация 20 главы 8: жалованье губернаторов „»гкие вклады и жалованье губернаторов для : 50 штатов за 1969 г. м ДАННЫЕ и их логарифмы (а и Ь указывают, как последующие цифры на» между логарифмами; а<Ь) ] Банковские вклады | | Жалованье губернаторов, 1969/1970 ( Штаты ] млрд. ] I 1001g 1 | Тысячи I 1 1000 1g (ИСХОДИ,/! 0), | Алаб. 4.287- 63 25 398 .430 -37 32 505 /.риз. /ркаи. 2.856 2.625 45.422 46 42b 166 27.5 10 44.1 439 0 644 Колор- -Коннек. 3.886 59 20 301 S.328 97 35 544 Делав. 1.456 16 35 544 4>г.ор. 11.542 106 36 556 Джор. 6.529 81 42.5 628 Гав.' 1.380 14 33.5 525 'Айд. 1.146 •6 17.5 243 Цллин. 31.587 150 45 653 Инд. 9.603 98 25 398 Айова 5.806 76b 30 477 Канз. 4.412 64 20 301 Кент, 4.652 67 30 477 Луиз.; 5.708 76a 28.374 453 Мэн 1.862 27b 20 301 Мэрия. 5.512 74 25 398 Масс. 20.006 130a 35 544 Мич. 19.234 128 40 602 Мин. 9.088 96 27.5 439 Миссис. 2.698 43 25 398 ’ Миссури 10.933 104 37.5 574 Монт. 1.400 15 23.25 366 Небр. 3.094 49 18 255 Нее. .956 -2 25 398 Н.-Г. 1.855 27a 30 477 Я .-Дж. 15.776 120 35 544 Я.-Мекс. 1.217 9 20 301 Н.-Й. 121.905 209 50 699 С. Кар. 6.326 •80b 35 544 С. Д1ак. 1.362 13 18 255 Огайо 20.094 130b 40 602 Силах. 4.854 69 25 398 Орег. 3.969 60 28.5 455 Ленс. 29.648 147 45 653 Р.-Айл. 2.609 42a .30 477 Ю. Кар. 1.986 30 25 398 ю- Дак. 1.326 12 18 255 6.221 79 18.5 267 Техас Юта,. Верм. Вирг. 23.475 137 40 602 ,1.696 23 22 342- .994 -0 25 398 6.876 84 30. 477 Вирг. Виси. Вайом, 6.283 80a 32.5 512 2.298 36 25 398 8.489 93 25 398- .703 -15 20 301 ‘ ^S??ySTThe World Almanac, >0 *ие₽наторов, с, 7 1970: банковские вклады (из FDIC), с, 91<
290 Глава 8 если бы построили сглаженные кривые через точки пересе Жал. губ.-сгибов с Бан. вкл.-медианами, а не с Бан. вкл.-сгиб CHt1S! Причина этой неприятности, скорее всего, в чрезмерной круаМи) трасс в правой части. yTtl3He АНАЛИЗ ВЫРОВНЕННЫХ ДАННЫХ Поскольку в правой части кривых угловой коэффициент к 3, естественно рассмотреть переменную близок Ж мин Б = Жал. губ. МИНУС ЗхБан. вкл. В 4-м и 5-м столбцах илл. 20,Б и на илл. 24 представлены всенеоб. ходимые результаты вычислений, в том числе на илл. 24, Ж обратный переход от переменной Ж мин Б к переменной Жал. губ. На илл. 25 показаны медианная трасса и трассы из сгибов для величин Ж мин Б согласно илл. 22, Е) в зависимости от Бан. вкл. (использованы илл. Иллюстрация 21 главы 8: жалованье губернаторов Продолжение илл. 20 Б) ОБРАБОТКА МАССИВОВ — обведены кружками медианы и сгибы слоев Бан. екл. | Жал . губ.. [ Жал. губ. МИНУС Зх(Бан. вкл.) | (Название | штата (упорядо ченныё ’ I в порядке упорядор ченные - в порядке упорядо- ченные • в порядке подряд) |Бан. вкл. в слоях Бан. вкп. в слоях Бан. вкл. -37 505 243 616 225 Аляс. С1§> 301 (301) 346 (346) В ай ом. 398 (398) 404 (39§) Слой 1 Нев. (3?) 398 (398) ' 398 (404) Верм. 6 243 505 225 616 Айд. 9 зо1 255 274 216 Н.-Мекс <12) 255 (555) 219 (5Т§) Ю. Дак. <Тз) 255 Ooi) 216 <274) Слой 2 С. Дак- <14) 525 (366) 483- <321) Гай. 15 366 525 321 483 МОНТ. 30 Делав. 16 544 0 496 -126 23 342 301 273 220 Юта <27) 477 (342) 396 (269) н.-г- 27b 301 398 220 273 Слой 3 Мэн Ю. КвР- з. вирг* <30~) 398 (398) 308 (290) 36 398 398 290 308 р .АйЭ- <42) 477 (477) 351 (ЗбТ) Аркан- Мисс"0’ 42b 0 477 -126 396 43 398 544 269 496
Параллельные и блуждающие диаграммы Иллюстрация 21 (продолжение) 291 46 49 $fg) 63 $54) ^$7) 439 255 301 30 Ариз. 255 301 455 267 <ggj) <301) 108 124 275 108 ($09) ($24) Небр. Колор. Орег. 398 398 209 176 Юлой 4 Алаб. 301 477 <398) <39Й) 109 276 (тэт) ($0§) Канз. Кент. 69 398 439 191 225 Оклах. 398 <453) 176 ($49) Мэрил. $76) 453 (455) 225 ($75) Луиз. 76b 477 477 249 276 'Айоза 79 267 477 30 Й 301 Тен. 80а 512 398 272 104 Ваш. 80b 544 398 304 119 С. Кар. <8l) 628 <439) 385 <$5l) Джордж» 84 477 477 225 225 Слой 5 Вирг. Сэз) 398 <512) 119 ($53) Виск. 96 439 544 151 262 Мин. $97$ 544 <544) 253 <272) Коннек. 98 398 574 104 304 Инд. 104 574 628 262 385 Миссури 106 556 544 238 154 Флор. $20) 544 <54g) 184 <184) Н.-Дж. $28) 602 <55§) 218 ($12) Спой 6 Мич. ГЗО) 544 <602) 154 ($18) Масс. 130b 602 602 212 238 Огайо 137 602 602 191 72 Техас $47) 653 <644) 212 <146) Пенс. 5б5) 653 <653) 203 ($91) Слой 7 Иллин. $Ц) 209 644 <653) 146 ($03) Калиф. 699 699 72 212 Н.-Й. У6ывани^°СКОЛЬКУ па это” иллюстрзции видна общая тенденция X Мин Б и°с МЫ обРазовали пары нижнего сгиба каждой переменной Секаются „ ан' вкл- с верхним сгибом другой. Теперь трассы не пере- и32бРа>кен Г'Рава (пРавда, пересечение появилось слева). На илл. 26 Хал РвзУльтат окончательного обратного пересчета к перемен- ‘УО. (см. илл. 24, Ж). >0,
292 Глава 8 Иллюстрация 22 главы 8: жалованье губернаторов Продолжение илл. 21 В) СГЛАЖИВАНИЕ МЕДИАН Жал. губ. и Ван. вкл. Медианы Медианы Жал. губ. I Бан. вкл. |исходн.[ |згг| IfJ ш L3J |исходн.| LLJ 398 ф 398 -2 -2 301 398 о S о 398 о 13 13п 398 398 <0 30 35 398 ф 424 0) 65 п 63 П 512 л О 494 о 93 95 556 653 569 653 128 150 125 150 Г) СГЛАЖИВАНИЕ НИЖНИХ СГИБОВ I ГИ - С„ Жал.губ. I I С* -I |СН Бан. вкп. | |исходн.| |зп| |Р| 1г] 131 I комб. I 131 [ИСХОДИ ю 97 56 56 342 -15 -15 46 56 56 ф 342 ф 12 9 56 56 § 342 | 27 31п 97 73 56 46 О 380 о 59 п 57 73 18 26 1 468 | 81 85 п 12 13 о 556 ° 120 117 9 9 644 147 147 Замечание. Значения «комб.» представляют собой РАЗНОСТИ окончательных сгла- женных «медиан Жал. губ.» (см. п. В) и окончательных сглаженных величин «М— Ся Жал. губ.» Д) СГЛАЖИВАНИЕ ВЕРХНИХ СГИБОВ 1 Св-М Жал. губ. 1 Св I |‘СВ Бан. вкл. I [исходи.1 0 13П1 65 l£j LCJ 65 [3] | комб. | 463 L3J [исходи.] -0 LrJ 0 65 65 ф 65 8 ' 463 14 17П 79 65 2 63 <0 461 463 42 43 56 56 о 56 о 480 75 72 32 46 X 46 X 539 97 100 46 0 32 4 £ 26h 4 £ 598 657 130 166 131 166 Замечание. Значения «комб.» представляют собой суммы окончательных сглаЖ «медиан Жал, губ,», (см. п. В) и окончательных сглаженных «Св —
Параллельные и блуждающие диаграммы 293 Иллюстрация 23 главы 8: жалованье губернаторов ОБЪЕДИНЕННЫЙ АНАЛИЗ Теперь мы готовы сделать окончательный выбор трасс из сгибов и медиан. Для первых трех слоев общий ход Жал. губ. примерно по- стоянен. Поэтому для этих слоев, по-видимому, подходят результаты илл. 20 и 21. Для трех последних слоев общий ход значений Жал. губ. имеет крутой наклон вверх. Для этих слоев, видимо, подходят резуль- таты илл. 22 и 24. Для среднего слоя мы могли бы воспользоваться любыми из этих результатов, и мы используем и те, и другие. Объеди- 27Я.все таким образом, получаем значения, приведенные на илл. ’ ]?, и рисунок на илл. 28. вне СЛИ тепеРь вычислить барьеры (илл. 29) и изобразить возможные накоНИе И пРНМЬ1Кающ.ие точки (на основе илл. 27, Б), мы получаем, ЧТо .ец’ на илл. 30 блуждающую схематическую диаграмму. Ясно, u Арканзас— ” чтобы'еЙ Точкой> хотя У На с* Нарисовать барьеры и примыкающие точки (на основе илл. 27, Б), мы получаем, — отскакивающая точка. Мы изобразили Нью-Йорк 1 хотя у нас нет достаточного количества данных, на само»' --“ для значений Бан. вкл., больших чем 160. вкл. М деле Нью-Йорк является внешней точкой только для Бан. u ОБЗОРНЫЕ ВОПРОСЫ )?еЧатиче ЛИ большая осторожность при построении блуждающих ДаКой пг)иКИХ диагРамм Для больших выборок? Для малых выборок? Ример рассматривался в этом разделе? Какого объема была
294 Глава 8 Иллюстрация 24 главы 81 жалованье губернаторов Продолжение илл. 22 Е) СГЛАЖИВАНИЕ Жал. губ. МИНУС ЗхБан. вкл. — ниже мин Б» называемые | Медианы 1 I М-Сн I I Сн 1 |исходн.1|ЗП'| |Р| |TJ (исходи.) [ ЗП | щ ш 13J )комб.| 398 398 398 52 52 52 52 346 274 290 о 313 55 52 52 52 G) 261 . 290 200 274 253 § 273 о 248 О S и о 21 83 П 55 83П 52 45 50 47 2 го о 220 201 8 S S 263 212 S 222 ф X 102 83П 45 45 ф X 177 о 212 212 о 207 о 28 45 45 45 о 162 191 191 191 Н 45 45 45 45 146 ь I св-м L Св ]Исхсдн.| | ЗП | LPJ Ш L комб,| 6 19 19 417 .47 47 40 353 61 47 44 40 313 62 33 33 281 19 19 20 242 26 12 14 221 12 12 12 203 Ж) ВНОВЬ СГЛАЖЕННЫЕ Жал. губ. — как Ж мин Б ПЛЮС ЗХБан. вкл. Медианы Сн Жал. губ. мед. ЗБан. вкл. мед. | Ж мин Б| |сумма|[з] Св ЗБан. вкл. Сн ЖминБ |сумма||з| -6 398 392 0 346 346 40П 313 353П 378 52П 260 312л 346 175 273 378 129 220 349 190П 248 438П 216 196 412 285 222 507 300 174 474 375 207 582 393 162 555 450 191 641 498 146 644 Св Жал. губ. I Сн ЗБан. вкл. Жг?инб] [сумм^У 417 372 g 353 380 § 313 407П ° 9Я1 451 д 242 498П о 221 *" 203 644 -45 27 94 П 171 256 П 351 441
Параллельные и блуждающие диаграммы 295 Иллюстрация 25 главы 8: жалованье губернаторов Медианная трасса и трассы из сгибов в переменных Ж мин Б от Бан. вкл. Иллюстрация 26 главы 8: жалованье губернаторов Медианная трасса и трассы из сгибов из илл. 25, приведенные обратно к переменной Жал. губ. Жал. губ. а Ж- 400
296 Глава 8 Иллюстрация 27 главы 8: жалованье губернаторов Величины, используемые при построении диаграмм А) ВЫБРАННЫЕ ТРАССЫ | Медианная трасса ] [Грасса из нижних сгиб- [Трасса из верхних [Бан.вкл) [Жап.губ) |Бан.вкл.| |Жал.губ) |31 |Бан.вкл,| [Жал, губ) [3[ 1 -2 398 О -15 342 0 463 UJ 2 13п 398 S 9 342 17п 463 3 35 398 о 31 п 342 43 463 4 63 л 427 433 72 380 396 57 480 466 4 63п 438П 433 72 412 396 57 452 466 5 S5 607 О 100 474 Й5п 498л 6 125 653 131 655 117 572 7 150 641 £ 166 644 147 644 Б) ШТАТЫ, КОТОРЫЕ МОГУТ БЫТЬ ИНТЕРЕСНЫ [Бан. вкл.) [Жал. губ.[ |Бан.вкл. | [Жал.губ.| Арк. 42 °) Гавайи 14 525) Другие Тен. 79 267} внешние Дел. 16 544 ’высокие* ц.-й« 209 699J Айова 76 477 В СЛОЯХ Джор. 81 574 2-6 Алис. -37 5051 Мич. 128 602, Вайом. -15 301 Пев. -2 398 СЛОЙ 1 Верм. -0 398 Айд. 6 243J Техас 137 602 ‘ Ю.Дак. 12 255 другие. Генс. 147 653 С.Дак. 13 255 "низкие* Илл. 150 653 слой 7 Арк. 42 0 Калиф. 166 644 Небр. 49 255 •2-6 (Н.-Й. 209 699) Инд. 80 398 Н.-Дж. 120 544 )Иас. 130 544 В) УПРАЖНЕНИЕ 27а) Можно ли сказать что-нибудь о различии между штатами с «высокими ними» значениями?
Параллельные и блуждающие диаграммы 297 Иллюстрация 28 главы 8: жалованье губернаторов полученные объединением илл. 23 гпясса и трассы из сгибов (и барьеры), д1едцаи,1ая Р и 26 I_____________1_ 0 100 4S000 дам. 40000 дом. 35000 долл. 30000дом. 15000 долл. 20000долл. Бон. Вк/г. рка? Л\огла лн она быть больше? Почему (или почему нет)? Зн^° ли было логарифмировать данные? Значения одной переменной? лал1рН1<Я °®еих переменных? Почему (или почему нет)? Что мы де- слоев КТГ° Р°Да слои мы выбрали? Какие специфические размеры ЧТ(Удобиы? Почему такие размеры желательны? 11 трассьП')О,13°ШЛО’ когда мы нанесли на график медианную трассу ный вых И'р иИб°в? Почему это могло произойти? Каков был разум- ДаНяые П°Д "Т° Мы сделали? Что это дало? Если мы выравниваем Чт° мы 1)с>Кде’ чем находить медианную трассу и трассы из сгибов, ;®Ух такиЛЖНЫ сделать потом? Стоит ли комбинировать результаты 3УльтатьрХ анализов? Делали ли мы это? Как вам понравились ре- цаешНИми?ИОИ ЛИ МЫ барьеры? Оказались ли какие-нибудь штаты ^ая схем’.итска кивающими? Каким образом получалась блуждаю- «атическая диаграмма?
298 Г лава 8 Иллюстрация 29 главы 8: жалованье губернаторов Вычисление барьеров и ширины А) ВЫЧИСЛЕНИЕ БАРЬЕРОВ | Внутр, барьеры |Бан.екп.| 0 | Сн I 358 Lb_J 463 |С-ширина| 111 I3J | шаг | 116 |нижн.| |з | 186 62g 20 352 463 111 166 186 624 40 362 463 101 102 153 209 60 382 484 102 101 152 230 । о 629 636 80 412 498 86 92 138 274 636 100 450 542 92 86 129 321 671 120 508 592 84 126 382 718 140 570 635 65 98 472 733 160 628 (675) (47) (71) (557) 746 Б) СГИБЫ И ШИРИНА |Бан. вкл. 0 20 40 60 * 80 100 120 140 160 В ИСХОДНЫХ 1 L9nJ LSd 22.5 29.0 22-5 29.0 23.0 29.0 24.1 30.5 25.8 31.5 28.1 34.8 32.2- 39.1 37.2 43.1 42.5 (47.3) ЕДИНИЦАХ (тыс. долл.) ] С-шир. | |31 6.5 6.5 6.5 6.5 6.0 6.4 6.4 6.4 . 5.7 6.4 6.6 6.6 6.9 6.6 5.9 5.9 (4.8) (4.8) 8Ж. ДАЛЬНЕЙШИЕ ВОПРОСЫ И АНАЛИЗ ПРИМЕРА Мы можем и должны исследовать этот пример дальше в нескольких направлениях. ИЗМЕНЕНИЯ ВО ВРЕМЕНИ Из пяти штатов на верхней границе примыкающего многоуголь^ ника в двух (Аляска и Делавэр) жалованье губернаторам бь,л0 вуХ вышено в предыдущем (по сравнению с 1969 г.) году, а еще 13 • еХ (Иллинойс и Миссури) это было сделано годом раньше. Из че штатов на нижней границе в трех (Калифорния, Айдахо, ®а1таК же жалованье губернаторам было повышено в следующем году, в[1ещ- как в обоих штатах (Теннесси и Нью-Йорк), которые оказали ними, но не отскакивающими. Арканзас остался единствен скакивающим» штатом, где это не было сделано. нИй ГУ" Если бы мы использовали сглаженные значения жало поЛу«цлИ бернаторов, подходящим образом усреднив их по годам, мь' аГ(1му- бы заметно более узкую блуждающую схематическую Диа е
Параллельные и блуждающие диаграммы 299 Иллюстрация 30 главы 8: жалованье губернаторов Полученная в результате блуждающая схематическая диаграмма (на основе илл. 28 и 29) Жал. губ. Нью-Йорк О Пенсильбания ^л/1ицОйс Миссури „ДВ-уКалшрорния Аляска SOD- Y" ~ваиоминг\^______„Теннесси Айдахо Небраска 100 «Арканзас т Бан. Вкл. J________ ВЕРТИКАЛЬНЫЙ РАЗМЕР Кроме блуждающей схематической диаграммы желательно также рассмотреть изменение вертикального размера в зависимости от изменения значений Бан. вкл. (Поскольку в разных частях диаг- раммы наклоны сильно отличаются, мы не надеемся с «одного взгля- да» на илл. 30 увидеть, как меняется вертикальный размер.) Из ВЛЛ' 29, А следует, что С-ширина убывает от 111 до 65 (или 47). Это логарифмическом масштабе, а мы хотели бы знать изменение прямо в Долларах. весь\^ ИЛЛ‘ приведены значения сгибов в долларах. Мы видим облает По?ХояннУ10 С-ширину, доходящую до 6500 $ в большей части превыв11- (ПосколькУ только в восьми штатах значения Бан. вкл. щееся ^Ют 120> не следует обращать особого внимания на кажу- Уменьщение у верхнего конца.) НАКЛОНЫ И УРОВНИ трасер малых значений Бан. вкл. угловой коэффициент всех трех 25ооо ®Изок к НУЛЮ> а уровень срединной трассы почти равен Гт е°в КоЛ^Льших значений Бан. вкл., как показано на илл. 23, угло- Ффициент зависимости Жал- губ. от Бан. вкл. близок к 3.
300 Глава 8 Если принять в расчет единицы, то это означает, что для g0J1 значений Бан. вкл. жалованье губернаторов меняется примерно банковские вклады в степени 0,3. Оказывается, что наиболее под* Как щий множитель равен 31, так что для больших значений выраже^4’ жалованье губернаторов « 31X (банковские вклады)0’3 является приемлемой аппроксимацией. СВОДКА РЕЗУЛЬТАТОВ Теперь мы можем следующим образом кратко охарактеризоват ситуацию в задаче о жалованьи губернаторов в зависимости от бан- ковских вкладов: О при низких банковских вкладах жалованье губернаторов колеблется в среднем около 25 000 $; О при высоких банковских вкладах жалованье губернаторов сосредоточено примерно около величины, равной 31X (банковские вклады)0’3; ф> переход от одних к другим довольно крут, и его можно предста- вить или как ломаную, или как некоторую сглаженную кривую; О в долларах вертикальный размер почти постоянен, причем С-ширина составляет около 6500 $; О в большинстве штатов около верхнего края многоугольника повышение жалованья губернаторов произошло непосредственно перед рассматриваемым годом; 0 в большинстве штатов как около нижнего края многоугольника, так и в нижних внешних повышение жалованья губернаторов прои- зошло в течение следующего года. РЕЗЮМЕ На этом примере мы научились следующему: ф> небезопасно доверять нашим вычислениям срединной TPaC^y трасс из сгибов, когда эти трассы слишком круты (имеется в 111Та- крутизна по отношению к ширине слоя) (если бы у нас было тов, было бы меньше неприятностей с крутизной, за исклю крайних слоев); «меньШ6* <> подобных трудностей можно избежать, вычитая для У ния крутизны простую функцию от х; пазл'14' О можно объединить результаты, полученные с помощью ПРЙ ных вычитаний, когда наклон различен на разных ннтеРва ре1<расй0 желании мы могли бы вычесть такую функцию, которая Р подходила бы для всей области. Есть две кандидатуры: максимум из 398 и [188 + Зх (Бан. вкл.)[;
Параллельные и блуждающие диаграммы 301 Иллюстрация 31 главы 8: данные о населении Техаса Данные о количестве мужского и женского населения в 254 округах штата Техас' Му*- ?KeH- нас. — нас. — 100 1g (число 100 1g (число мужчин в тысячах), женщин в тысячах). д) ПРИМЕРЫ ПОДСЧЕТА Округ Мужское население Женское население Исходя Ig Муж. нас. Исходи. 1g Жен. нас. Андерсон 13 397 4,13 113 14 765 4,17 117 Эндрюс 6 887 3,84 84 6 563 3,82 82 Днгслина 19 568 4,29 129 20 246 4,31 131 Б) Пары (Муж. нас., УКсн. пас.), упорядоченные по Муж. нас. (-94,-95),~ (-45,—55), (-31, -40),’ (-27, -27), (-25,-29), (-23,023 and -28), (-9,-11), (-6,-6), (1,-2), (3,0 and 5),’(5, -10), (9,4), (10,12), (12,10 and 11), (14,14), (15,14), (16,15 and 18), (17,12 and 18), (19,17 and 20), (21,20), (24,22), (25,26), (26,25 and 27), (27,17 and 26 and 28), (28,26), (29,27 and 29 and 31), (30,29), (31,32), (32,32 and 35), (34,31 and 36), (35,35), (36,32), (37,37), (39,40 and 41), (40,41), (41,39 and 42), (43,44 and 44 and 44), (45,48), (46,46 and 48), (47,49), (48,47 and 49), (49,49 and 51), (50,49 and 49 and 52), (51, 49 and 30), (52,49 and 49 and 52), (54,52), (55,54 and 57), (56,47 and 56 and 57 and 58 and 59), (58,59 and 61), (59,59 and 59 and 60 and 60 and 60 and 61 and 61), (60,63), (61,64 and 64), (62,59 and 62), (63,65 and 66), (64,63 and 66), (66,64 and 67 and 68), (67,64), (68,66), (69,62 and 71 and 71), (70,70), (71,70 and 71), (72,71 and 71), (73,72 and 73 and 74), (74,74 and 74 and 76 and 76), (75,75), (76,78), (77,79), l8.775bnd 77 and 79), (81,80), (82,82)', (83,81 and 83 and 84), (84,82 and 82 and- o8?' 85 and 87>< (86< 88)'(87' 96 and 88 and 88>' <88- 87 and 91 b (89,93), ‘90,91), (91,9! and 93 and 94)f (92,90 and 93 and 93 and 93 and 95), (93,93 and нпнЭГ!л,95)'(94'95 and 96 and 96),. (96,93 and 97 and 98), (97,97 and 97 and 98 (1nn19l,and Ю4), (98,98 and 98 and 99), (99, 100 and 101 and 101 and 101), snri'Ля and 102 and 102>' (Ю1/96 and 101 and 102 and 103 and 104), (104,100“ and -и!ian,d 105 and 106 and 107), (106,104 and 108 and 109),.(107,105 and 108 (114 iim I09'96 and 106 and 109), (110,108), (111,111), (113,113 and 117), (122 1 ( I5,117)'t116' 119>' (US'«7), (119,120), (120,115 and 120), (121,123), (12715мЯ„я125>' (123,122 and 124 and 125 and 125), (124,123), (125,127), (136 147 l128'128 and 131), (129,131), (131,137 and 1$0), (133,128), (135,135), <160* X аРЯч139>' (138,132), (146,149), (149,153), (152,154),. (153,155), d84 lto' 1,1Л2'165)' (166,165), (170,170), (171,164), (178.175), (180,178), (208,2101 188 and 1")' (189,189), (195,196), (202,203), (204A209), '• (220,219); (242,244), (253,254), (266,269), (279,280).
302 Глава 8 Параллельные и блуждающие диаграммы 303 Иллюстрация 31 (продолжение) В) НАЗВАНИЯ некоторых ОКРУГОВ и ОБОЗНАЧЕНИЯ их на KApfg |Название] .Квадратt на карте ]Муж-| | нас. | I Жен. нас. | (Название] | Квадрат f [на карте] Муж. Г нас. I i Жен. Kins E9 —45 -55 Kerr J9 эГ" 94 95 Kenedy N12 -31 -40 Caldwell J12 92 Roberts A8 -27 —27 Beaver G4 96 93 101 Borden F7 -25 -29 Eastland G10 97 McMullen L11 -23 -28 Limestone H13 97 104 Glasscock G7 -22 -29 Houston H15 101 96 Jeff Davis I3 -9 -11 ' Falls H13 101 104 Real H7 3 0 Cooke D12 104 107 Oldham B6 5 -10 Willacy 012 104 100 Edwards J8 9 4 Hill 12 106 109 Kinney К8 11 6 Brown G10 107 111 Culberson G3 17 12 Bee L12 109 106 Lipscomb А9 24 22 Walker 114 109 96 Hudspeth G2 27 17 Valverde J7 110 108 Ellis F13 32 35 Anderson G14 113 117 Crockett I7 34 31 Kaufmann T14 116 119 Zapata N10 36 32 Coryell , H12 118 97 Delta Е14 45 48 Klet > g N12 120 115 Dallam А6 51 49 Lamar D14 122 125 Brewster 14 52 49 Navarro G13 122 125 Cochran Е6 52 49 f Hunt E14 128 131 Orange Trinity Camp Hardeman J17 Н15 Е15 D9 56 56 58 60 47 59 v 61 < 63 Fort Bend Harrison Denton Brazos J14 F16 E12 114 133 134 136 138 128 137 139 132 149 153 Childress С9 61 69 Bowie E16 146 Hamiton Н2 61 64 Webb M9 149 160 162 171 178 187 202 204 208 220 242 266 279 156 Yoakum Е6 62 59 - Brazoria K15 165 Stephens F10 63 • 66 Smith E15 164 Bailey D6 67 64 Bell H12 175 Coleman G10 78 81 Potter B7 189 Pecos Н5 79 76 Cameron 012 203 Gaines F6 80 77 Travis J12 209 Irion Н8 80 75 Nueces M12 210 Zavala Winkler L9 G5 81 84 80 82 Jefferson El Paso J16 G1 219 244 Red River D15 88 91 Tarrant F12 269 Robertson Н14 89 83 Dallas F13 280 Harris J14 Г) УПРАЖНЕНИЯ (398, 31а) Проведите анализ Жал. губ. по отношению к Бан. вкл., вь1^’д^сы изсГ^й. (188+ЗхБан. вкл.)], прежде чем находить срединную трассу и р иЛлюстРа Сравните полученные результаты с результатами предыдуш Иллюстрация 31 (продолжение) лите анализ Жал. губ. по отношению к Бан. вкл., вычитая интерполяцию 316) г1ровеаПоляцию) окончательного сглаживания из илл. 22, В, прежде чем нахо- (эКСТ„оВые срединную трассу и трассы из сгибов. Сравните ваши результаты с ДИ^льтатами предыдущих иллюстраций. h пелайте анализ данных из приведенного выше п. Б, используя методы этой 31в) ПроД" Проанализируйте ваши результаты. ) Выполните анализ данных из приведенного выше п. В, используя методы этой [^Сравните эти результаты. Достаточно ли 77 значений? Будет ли достаточно ^,В взять 77 «случайных» значений? Почему (или почему нет)? m ИСТОЧНИК: Census of Population. 1960; v. 1, pt. 45, Texas, U.S. Department f C^nnierce, Bureau of the Census, 1963, p. 45-181—45-244. а первоначальная срединная трасса, проинтерполированная между окончательно сглаженными точками (и проэкстраполированная вне точек), чтобы функция была определена всюду, где необходимо. Мы оставляем читателю реализацию этих возможностей (илл. 31, г). На илл. 32 собраны данные для дальнейших упражнений. ОБЗОРНЫЕ ВОПРОСЫ Что произошло, когда мы рассмотрели изменения в жалованье губернаторов? Что это нам подсказало относительно сглаживания за несколько лет? Решились ли мы определять непосредственно на блуж- дающей схематической диаграмме вертикальный размер? Почему (или почему нет)? Как ведет себя вертикальный размер в логарифмическом масштабе? В долларах? Какие сделаны выводы в этом примере? Надежно ли иметь дело со срединной трассой и трассами из сги- бов основываясь непосредственно на данных? Когда (или когда нет)? Что делать, чтобы избежать неприятностей? Собирались ли мы объединить результаты? Выражения какого вида мы могли вычесть этом примере? Вольны ли мы вообще поступать подобным образом? 8И. ЧЕГО МЫ ДОСТИГЛИ? диагп"1 Начали главУ с рассмотрения параллельных схематических ДиагпяММ И ПРИШЛИ к рассмотрению блуждающих схематических рок папМ/ ^Т° НЭШ пеРвый большой шаг на пути получения для выбо- в следу характеристик, которые могут помочь нам разобраться Ф общей структуре распределения большей части точек; Так >ке , с^ществовании и расположении необычных точек точно ИмелиЭК ЧИСловые схематические диаграммы помогали нам, когда Дело с выборками значений х (или у).
804 Глава 8 Иллюстрация 32 главы 8 Время прилива, время от последнего прилива (превышение в mhhvt по сравнению с 12 ч) н высота прилива в десятых долях фута^ ЭХ относительно среднего ннжнего уровня воды), предсказанные для 704 приливов в г. Портленде, шт. Мэн, на 1975 г. А) ПРИМЕРЫ Было предсказано, что 24 дек. 1975 г. приливы высотой 9,2 и 9,3 фут п~ В 02 ч 48 мин (2 : 48 ночи) и в 15 ч 06 мин (03 : 06 дня). Далее было предсказан°' 25 дек. 1975 г. прилив высотой 9,3 фут будет в 03 ч 43 мин (3 : 43 утра) ниже появляются тройки чисел (1506, 18, 93) и (0343, 37, 93), где 18 мин^' 06 мин—14 ч 48 мин, а 14 ч 48 мин=2 ч 48 мин+12 ч 00 мин и *’’’ —03 ч 06 мин, а 03 ч 06 мин=15 ч 06 мин—12 ч 00 мин. НРОИЗойду. 'КЯЭэ.тл. J 1 Что ому ЗУмнн^ОЗч^н^ Б) ТРОЙКИ ДАННЫХ (0003,32,83) (0004,32,84) 0006,13,91) (0006,26,108) (0008,8,103) . (0009,13,90) (0009,23,86) (0010,39,92) (0011,27,109) (0012,8,94) (0014/12,108) 0014,21,88) (0024, 20,109) (0024,36, 88) (0025,28,84) (0025,37,97) (0028,7,99) (0033,8,83) (0033,33,104) (0037,18,109) (0038,30,84) (0041,9,101) (0041,14,107) (0041,16,89) (0041,21,87) (0041,32,91) (0041,33,101) (0043,34,84) (0049,37,94) (0050,25, 86) (0053,39,98) (0056,48,103) (0057,39,96) (0059,41,94) (0059,29,104) (0101,25,108) (0102,11,103) (0103,33,83) (0107,34,89) (0110,9,90) (0112,7,99) (0113,19,87) (0113,29,84) (0115,10,90) (0117,18,87) (0117,23,105) (0124,31,104) (0125,5,96) (0127,28,82) (0127,27,84) (0126,41,93) (0130,9,94) (0134,19,104) (0137,38,96) (0140,10,85) (0141,8,91) (0144,51,99) (0145,40,87) (0146,35,81) (0147»1lz.101) (0148,12,87) (0149,16,87) (0150,29,84) (0152,10,98) (0152,23,105) (0155,13,90) (0155,33,99) (0155,37,91) (0156,20,83) (0201,11,97) (0208,29,80) (0211,5,91) (0211,43,188) (0213,26,100) (0214,40,85) (0218,47,103) (0219,12,93) (0219,16,100) (0224,9,87) (0227,27,83) (0229,18, 86) (0229,21,100) (0231,16,83) (0232,37,80) (0233,38,84) (0235,43,90) (0239,24,80) (0240,37,98) (0242,16,89) (0243,16,98) (0245,11,92) (0247,23 101) (0248,37,92) (0253,37,92) (0256,13,96) (0256,34,78) (0301,10,87) (0306,39,88) (0306,42,84) (0309,26,82) (0312,14,83) (0312,16,92) (0342,19,85) (0312,32,94) (0314,37,100) (0315,15,94) (0317,21,80) (0324,39,82 (0325,40,80) (0327,30,77) (0328,24,95) (0333,18,88 (0336,45,85) (0338,37,97) (0341,14,87) (0343,21,931 (0343,37,93) (0346,24,95) (0350,38,77) (0356,13,831 (0356,18,93) (0356,28,82) (0401,16,79) (0404,21,89; . - - п 4 о . Qi I (0405,43,87) (0405,45,81) (0406,25,76) 40412г 1лл4С *20 80) (0413,30,96) (0415,18,88) (0415,37,88) Ж'з? 90 (0421,34,75) (0426,95,82) (0432,22,88) И'35 94 (0439,35,96) (0441,15,83) (0441,47,81) К'16 79 (0447,25,91) (0447,26,82) (0449,23,90) ЙИ») (0450,42,77) (0455,22,76) (0500,21,92) !лкп6 46,82) (0503,32,74) (0505,44,79) (0506,41,90) (0505»
Параллельные и блуждающие диаграммы 305 Иллюстрация 32 (продолжение) (0510, 37,80) (0523, 22, 84) (0539,36,86) (0544,46,79) (0553,31,89) (0603,41,80) (0607,37,94) (0623,40,76) (0639,21,79) (0517,21,91) (0523,41,84) (0541,18, 80) (0546,34,96) (0554,21,87) (0518,29,92) (0530,46,85) (0541,23,84) (0547,20, 77) (0555,46,80) (0521,41,74) (0538, 23,89) (0542,32, 94) (0551,27,75) (0559,35,73) (0604, 22,88) (0605, 28, 80) (0607,26,91) (0613,45,80) (0623,23,92) (0623,24,90) (0625,19,82) (0631,41,90) (0634,45,81) (0641,23,87) (0644,23,92) (0644,25,77) (0644, 26, 94) (0647,41,84) (0645,40,80) (0647,26,98) (0647,32,74) (0655,26,82) (0655,41,85) (0656,34,81) (0649,19,85) (0700,36,88) (0700,39,75) (0706,29,98) (0707,20,92) (0713,30,92) (0717,42,80) (0724,18,82) (0725.42,81) (0727,21,90) (0728,83,96) (0735,21,80) (0737,18,91) (0737, 29, 77) (0737,42,81) (0740,34,82) (0743,37,76) (0745,21,84) (0745,26,84) (0745,31,94) (0748,24,97) (0749,20,106) (0752,43,83) "(0753,36,92) (0756,37,78) (0759,18,86) (0803,35,88) (0804,24,103) <0009, 20,97) (0812,37,82) (0815,18,83) (0815,34,93) (0820,37,87) (0822, 23,81 (0823,16,90) (0823,26,103) (0826,26,85) (0826,32,79) (0828,13,87) (0828,19,86) (0830,19,86) (0830,29, 98) (0833,16,97) <0833,37,82) (0833,39,78) (0840,15,95) (0846,16,102) (0846,44,100) (0847,14,101) (0849,15,90) (0849,40,84) (0850,41,83) (0859,18,106) (0859,30,84) (0902,18,85) (0902,40,88) (0905,19,103) (0906, 20,87) (0907,13,89) (0907,26,82) (0910,8,90) (0910,32,80) (0911,11,91) (0911,33,94) (0913,35,94) (0916,22,108) (0921,37, 82) (0924,35,84) (0926,15,103) (0926,29,100) (0931,23,95) (0932,14,88) (0938,25,106) (0939,13,103) (0939, 37,89) (0940,25,86) (0942,19,86) (0943,40,85) (0943,14,89) (0944,17,91) (0944,26,105) (0947,39,84) (0950,6,93) (0952,15,109) (0955,37,82) (0955,40,88) (0957,9,91) (1000,20,107) (1002,31,101) (1006,37,86) (1006,37,94) (1007,17,42) (1007,30,85) (1013,15,89) (1014,8,95) (1016, 20,88) (1019, 5,93) (1019,13,91) (1019,16,107) (1020,22,87) (1021,33,101) <1027,32,95) <1037,29,106) <1048,15,90) <1053,21,109) <1055,23,87) <1107,4,98) <1112,35,100) <1121,14,91) <1127.35,88) 31,5,94)' ’*140 9 Л Uni (1025,29,85) (1027,3,95) (1027,21,111) (1029,37,85) (1036,36,85) (1037,10,92) (1042,13,109) (1049,17,90) (1043,39,88) (1051,11,92) (1046, 27, 87) (1051,26,107) (1053,31,90) (1054,6,95) (1055,4,94) (1056,37,94) (1057,15,113) (1105,32,86) (1109,17,110) (1110,35,86) (1112,8,92) (1115,32,100) (1121,25,88) (1117,18,113) (1122,6,93) (1121,14,90) (1127,29, 106) (1127,35,88) (1127,27,88) (1130,25,87) (1131,10,107) (1132,5,95) (1129,36,94) <1153 п of (1142, 35,86) (1144,22,109) (1146,9,91) (1147,31,87) (1148,4,99) (1148,14,111) *‘*04,31 in/п (1153,22,89) (1156,19,89) (1157,7,93) (1200,37,89) (1202,36,98) (1204,27,87) м 1,104) (1208,5,92) (1208,19,113) (1209,5,96)
306 Глава b Иллюстрация 32 (продолжение) (1212,37,81) (1219,9,104) (1219,32,103) (1220,11,9Q) (1221,34,87) (1225,11,91) (1225,19,89) (1225,30 871 (1227,36,97) (1228,19,88) (1230,5,93) <1230,24, in (1232,38,90) (1233,9,99) (1236,25,107) (1237,12; 107 (1241,29,86) (1244,6,90) (1246,38,91) (1250,7,96) (1251,37,94) (1253,20,108) (1254,13,88) (1254,30,106) (1259,9,91) (1259,18,89) (1259,18,110) (1301,28,87 (1305,8,99) (1305,24,86) (1305,37,87) (1307,14,106) (1310,33,98) (1311,8,92) (1315,34,100) (1318,11,98) (1320,39,87) (1321,8,88) (1321,32,84) (1322,23,109) (1328,10,102) (1329,28,102) (1331,18,85) (1333,39,85) (1334,7,95) (1336,19,88) (1336,26,86) (1336,32,86) (1336,40,93) (1342,27,83) " (1342,40,90) (1347,23,103) (1347,30,106) (1350,38,87) (1352,15,104) (1355,9,91) (1355,10,94) (1400,10,85) (1403,17,102) (1403,36,92) (1406,41,85) (1407,37,83) (1408,34,101) (1411,16,96) (1411,22,82) (1415,19,87) (1415,27,86) (1415,34,84) (1416,21,105) (1421,16,96) (1422,14,88) (1424,13,96) (1424,32,95) (1426,31,81) (1427,13,93) (1427,40,94) (1434,42,85) (1440,27,104) (1443,16,81) . (1443,25,97) (1443,42,87) (1445,12,88) (1445,13,90) (1451,16,98) (1451,40,82) (1453,24,79) ”(1456,25,85) (1456,37,82) (1457,18,66) (1500,41,86) (1501,21,97) (1504,35,100) (1506,18,93) (1512,16,87) (1515,33,78) (1516,23,100) (1520,14,90) (1522,16,91) (1522,35,88) (1522,39,95) (1527,42,81) (1528,19,77)' (1536,12,83) (1538,26,101) (1538,31,88) (1541,16,89) (1541,24,84) (1543,29,89) (1543,31,76) (1543,42,81) (1547, 20,85) (1554,18,92) (1554,42,82) (1557,42,81) (1601,33,100) (1604,26,91) (1607,24,89) (1608,18,86) (1610,37,77) (1620,23,95) (1621,16,85) (1621,25,74) (1623,39,96) (1625,20,89) (1626,40,84) (1626,45,79) (1631,25,83) (1633,18,78) (1633,32,82) (1634,38,80) (1639,25,74) (1639,43,90) (1640,19,85) (1642,27,91) (1644,18,88) (1649,36,83) (1656,44,83) (1658,17,88) (1701,46,77) (1703,31,98) (1709,19,87) (1710,31,86) (1712,30,86) (1715,43,78) (1718,31,72) (1722,17,81) (1722,35,97) (1723,42,78) (1724,21,84) (1724,29,83) (1727,32,81) (1728,22,91) (1730,24,88) (1733,23,76) > (1733,44,77) (1741,41,93) (1742,40,74) (1747,22,86) ’’ (1749,26,95) (1750,20,90) (1759,41,79) (1800,43,87) •_ (1805,21,85) (1800,27,98) (1806,43,76) (1814,19,90) (1815,24,84) (1818,36,82) (1818,37,73) (1818,37,79) (1819,32,82) (1821,22,86) (1821,35,85) (1821,43,81) (1822,19, 79) (1824,31,99) (1835,23,89) (1837,30,89) (1840,46,76) (1843,20, 90) (1843,36,97) (1847,43,77) (1855,21,94) (1855,24,92 _ _ л. л А 4 / ! 1 (1903,40,92) (1906,19,86) (1906,21,84) 17*90) (1906,43,77) (1909,22,98) (1914,35,81) 24 100) (1917,22,94) (1919,23,79) (1919,38,75) (& 42 85 (1924,29,74) (1924,40,81) (1924,40,86) (1929, мпЛ1 47 76/ (1935,18,89) (1940,34,90) (1941,28,101) (1941, w 11
307 Параллельные и блуждающие диаграммы Иллюстрация 32 (продолжение) 11943,18,95> ' (1956,19-84) (2000,20,85) (2009,17,98) (2017,40,79) (2029,17,90) (2038,18,100) (2044,11,94) (2049,16,94) (2100,37,78) (2012,34,71) (1949,42,82) (1957,29,95) (1954,11,90) (1957,33,79) (1954,17,83) (1959,24,84) (2001,43,98) (2009,24,80) (2007,40,77) (2015,30,75) (2009,13,94) (2017,24,99) (2022,19,102) (2023,35,93) (2025,40,81). (2030,41,86) (2034,35,78) (2038,12,90) (2038,23,104) (2041,19,87) (2041,37,93) (2044,29,82) — (2046,20,85) (2046,37,88) (2054,26,81) (2054,31,98) (2057,27,104), (2012,12,77) (2102,13,98) (2012,13,100) (2111,38,95) (2113,27,103) (2115,13,103) (2115,16,90) (2118,8,93) (2118,11,89) (2118,29,81) (2118,31,100) (2118,38,81) (2123,.21,85) (2126,40,87) (2124,18,98) (2129,16,107) (2129,23,86) (21312,20,105) (2136,29,81) (2137,13,94) (2137,38,94) (2140,35,95) (2144,34,79) (2148,22,108) (2148,37,80) (2150,34,100)' (2152,20,98) (2155,16,104) (2156,9,92) (2157,7,91) (2158,16,88) '(2204,9,103) (2158,26,83) (2200,5,96) (2203,31,91) (2206,23,87) (2206,28,106) ' (2206,-35,82) (2208,24,106) (2214,30,83) (2216,10,102) (2219', 13,107) (2219,12,94) (2219,13,107) (2219,40,89) ' (2224,34,81) (2225,23,108) (2226,10,102) (2227,30,82) (2229,37,94) (2232,12,90) (2232,15,91) (2232,32,102) (2233,8,94) (2233,20,86) (2235,6,98) (2237,16,110) (2240,4,99) (2240,21,87) (2242,35,101) (2243,16,108) (2248,32,82) (2251,32,83) (2252,9,102) (2252,33,97) (2256,10,94) (2258,21,110) (2259,32,106) (2303,10,105) (2303,36,83) (2304,27,95) (2305,10,92) - (2306,10,107) (2307,2,96) (2307,19,80) (2307/19,88) (2316,6,97) (2316,25,86) (2316,25,109) (2321,39,94) (2322,29,106) (2323,6,102) (2326,14,110) (2326,32,83) (2327,32,84) (2331,10,93) (2333,18,109) '•(2334,37,99) (2335,8,100) (2337,7,93) (2337,16,89) (2337,25,85) (2340,19,89) (2343,34,101) (2344,37,85) (2347,5,98) (2347,20,111) (2349,32,104) (2350,28,86) (2351,12,107) (2354,8,104) (2355,8,95) 32а) ^^А^НЕННЯ (все очень длинные) ,..?,0Лела'11е анализ пар (время, интервал), используя методы этой главы. Рас- 326) Пп РНТе- полУченные результаты. ni ',1 „“"Ite анаЛиз пар (время, высота), используя методы этой главы. Рассмот- 32^д/е/ХЛУПпН,,Ые РезУльтаты- ппеппг/ 1'Поделайте анализ только для тех пар (время, высота), у которых 3WM/H/o/n/7‘J7 ,циФРа У переменной «время» равна 0/1/2/3/4/5. Чи4пя ir С™У) Проделайте анализ только для тех пар, у которых последняя н у переменной «время» равна 0/1/2/3/4/5/6/7/8/9. cl4ding T'de Tables, 1975. East Coast of North and South America, in- inland, U.S, Depart. Commerce, NOAA, 1974, p. 32, 33.
308 Глава 8 Теперь мы умеем: О разбивать на слои группы точек (х, у) по переменной х- 0 делать это, используя буквенные пороги, выбирая пя- слоев или из соображений здравого смысла, или из послеловяМе^Ь1 ностей: 5, 9, 17, 33, . . . или 8, 16, 32, . . Тель- 0 находить в каждом слое медианы и сгибы отдельно для //-значений; *' и ф заменять на время //-сгибы приращениями буквенных значр и сглаживать результаты, получая при этом медианную трассу и трассы буквенных приращений; складывая и вычитая их, получ^6 две трассы из сгибов; ’ * ать О находить для каждого слоя, какой х-сгиб соответствует како //-сгибу; МУ 0 быть готовыми идти дальше, как в разд. 8Е, если это необхо димо; 0 продолжать анализ, отыскивая барьеры, внешние и отскаки- вающие точки и примыкающий многоугольник, тем самым подготав- ливая все для построения блуждающих схематических диаграмм. Теперь мы понимаем, что иногда бывает полезно: ф при сглаживании медиан не изменять крайних значений, а при сглаживании буквенных приращений или сгибов использовать пра- вило конечного значения; О вычитать из значений у известную функцию от х перед тем, как находить медиану и сгибы, и в конце прибавлять то, что вычли; О объединять результаты, получаемые с помощью вычитания раз- личных функций, прежде чем окончательно строить медианную трассу и трассы из сгибов. Если прочесть необязательный раздел 8К (см. ниже), то можно понять, почему ф всегда, когда мы сглаживаем у, надо сглаживать также и х. 8К- НЕОБХОДИМОСТЬ СГЛАЖИВАТЬ ОБЕ КООРДИНАТЫ (ФАКУЛЬТАТИВНО) В разд. 8Б нам в первый раз потребовалось сгладить п0СЛ лаСо- тельность точек на плоскости. В таком случае мы имеем дне следо- ванные последовательности — последовательность первых и после- вательность вторых координат. Если, как это было в разд. ° Б03рас- довательность первых координат уже расположена в п°РядКесгЛаЖй' тания значений, то мы можем считать, что было бы достаточно вать только вторые координаты. Гстояте,т1Ь’ Как можно проверить такую точку зрения? При каких оватеЛь' ствах можно сказать: «Любое сглаживание этой пары поел
Параллельные и блуждающие диаграммы 309 Иллюстрация 33 главы 8: пояснительная Сглаживание одной из двух координат . 1 2 12 14 16 26 S6 100 приводить к костей должно если исходные точки лежат на таким-то результатам»? Разумеется, прямой, действительно было бы трудно себе представить, что для сглаженных точек не подходит та же самая прямая. ^результатам»? Разумеется, На илл. 33 показано (проведен расчет), что может все данные лежат на одной прямой; здесь произойти, когда Как, t/=2x, Иллюстрация 34 главы 8: только для пояснения сглаживая менее гладкой ‘ОЛЬКо одну координату, можно сделать последовательность точек У пунктирной прямой; на одну прямую. У точки’гТ (+) лежат на " *очки (о) не ложатся в результате сгла-
310 Глава 8 Глава 9 и мы сглаживаем только вторые координаты (у), используя ЗП'пп или ЗП'РРГЗ-сглаживание. (Что произошло бы при сглажив^' алгоритмом ЗП или ЗПРР?) На илл. 34 приведен соответствуй111^ рисунок. Видно, что мы сползли о прямой! И в итоге большинс^^^й нас, наверное, ясно, что последовательность точек стала менее / 113 кой, чем раньше (возможно, с более равными интервалами м₽Лад’ точками, но менее гладкая). 'Му Это неизбежно. Если сглаживается одна координата, почти все следует сглаживать тем же способом и другую. гАа СИЛУЭТЫ ВЫБОРОК ТОЧЕК ОБЗОРНЫЕ ВОПРОСЫ Из-за чего возникает проблема? Какой проверке мы должны под. вергнуть способ сглаживания? Какой пример мы рассмотрели? Что произошло? Какой следует сделать вывод? УКАЗАТЕЛЬ К ГЛАВЕ 9 Обзорные вопросы 312 9А. В-трассы и Б-трассы 312 Обзорные вопросы 312 9Б. Простой силуэт — снова Туин-Рнверс 312 силуэт 313 Пример из техники 313 Обзорные вопросы 315 9В. Сокращенные и схематические силуэты 315 сокращенный силуэт 316 Схематические (х, ^-диаграммы 317 двумерная схематическая диаграмма 317 Обзорные вопросы 321 9Г. Что утеряно на наших схематических диаграммах и в силуэтах 321 Структура жалованья 321 Обзорные вопросы 323 9Д. Три и более переменных сразу 323 Увеличение числа переменных 323 Картотека 324 Сколько надо иметь наблюдений? 325 9Е. Чего мы достигли? 330 р т<яекЛИ МЫ хотим Добиться такого же эффекта в обработке выборок Лись в К^ого с помощью числовых схематических диаграмм мы доби- еще по е Раб°тке выборок чисел, то нам необходимо сделать кое-что АающИе Ранению с тем, что было сделано в предыдущей главе. Блуж- ^*<оорди СХематические диаграммы говорят нам довольно много об X0T6flocbHfiTe’ Но нам хотелось бы узнать больше. И в то же время нам Как мы Ы Услышать и ° координате х. этог0 УВИдим’ в настоящий момент у нас уже есть все необходимые ?азить резВедства' Мы сможем развить наши методы и наглядно изоб- ₽ОтКой/ Ультаты вычислений. Вот почему эта глава окажется ко-
312 Глава 9 ОБЗОРНЫЕ ВОПРОСЫ Достаточно ли эффективны блуждающие схематические диагпа для обработки выборок точек? Почему (или почему нет)? Что мы м сделать? Понадобятся ли нам для этого новые средства? Лп.,0>Кем глава? ‘ А 1ННа« 9А. В-ТРАССЫ и Б-ТРАССЫ В разд. 8Г для того, чтобы найти трассы из сгибов, или С-трасс мы сначала положили ’> СИ=М-(М-СН), СВ=М+(СВ-М), а затем, О сглаживая М, получили срединную трассу; 0 сглаживая М—Сн и отдельно Св —М, 0 объединяя.(прибавляя и вычитая) нужные величины, получили сглаженные величины сгибов, которые мы затем приняли за С-трассы. Если мы хотим найти В-трассы, то надо сначала положить Вн=Си-(Сп-Вн), Вв=Св+(Вв—Св), затем сгладить величины Сн—Вн и отдельно Вв—Св и, наконец, объединить результаты с уже найденными С-трассами. То, что полу- чится, естественно принять за В-трассы. Добавление следующих шагов — переход к Б-трассам, а от них к А-трассам и т. д.— не заставляет делать ничего нового, кроме арифметических вычислений того же вида. Поэтому давайте так и поступим. ОБЗОРНЫЕ ВОПРОСЫ Как именно мы находим верхнюю В-трассу? Нижнюю В-трассу? Верхнюю Б-трассу? Как эти вычисления связаны с предыдущим^ Должны ли мы изучить что-то новое? Планируем ли мы идти дальше? 9Б. ПРОСТОЙ СИЛУЭТ — СНОВА ТУИН-РИВЕРС Вернемся к примеру с Туин-Риверс из предыдущей главы и лаем две вещи: 0 добавим В-трассы и Б-трассы над всеми слоями, где они определяются; 0 добавим вертикальные буквенные разрезы.
Силуэты выборок точек 313 результат простым) выборки- (на илл. представленный на илл. 1, уместно назвать полным (или силуэтом Теперь мы видим такие же закономерности, что и ранее 14 гл. 8), но теперь даже более отчетливо. ПРИМЕР ИЗ ТЕХНИКИ в своей книге Дэниэль и Вуд (Daniel G., Wood F. S. Fitting Equa- .. to Data, Wiley—Intersci., 1971) весьма подробно рассматривают ппроксимацию подходящими уравнениями 105 наблюденных значе- нИй теплоты смешения (с водой) для 14 сортов цемента. Если обра- титься к с. 255 и 256 указанной книги, то можно там найти 104 пары (значение аппроксимации, остаток) (одно сильно отличающееся на- блюдение было отброшено), силуэт которых выглядит, как показано на илл. 2. Несколько выводов можно сделать более или менее определенно: () значения аппроксимации скапливаются у левого конца (к числу 500), что видно из вертикальных линий, задающих буквенные раз- резы; Иллюстрация 1 главы 9: Туин-Риверс Полный силуэт облака точек (Исп. эл., Исп. газ) (Исп. эл. — использованное электричество, Исп. газ — использованный газ)
314 Глава 9 Иллюстрация 2 главы 9: теплота смешения Силуэт остатков по отношению к значениям аппроксимации для теплоты смешения с водой 104 образцов цемента остатки заполняют клинообразную область — убывание С- ширины при возрастании значений аппроксимации, что видно из поведения С-трасс; имеется некоторая тенденция возрастания остатков для самых малых значений аппроксимации, что видно из поведения С-трасс и М-трассы. Если исходить из характера эксперимента, то первого следовал^ ожидать. Известно, что, когда цементные образцы стареют, тепло смешения уменьшается, достигая для каждого сорта постоянной- значения: эти постоянные близки для всех сортов. Для ДаннЫХ’лИ- лученных через равные промежутки времени, именно такого ска вания у малых значений теплоты и можно было ожидать. Несомненно, что поразительно большие остатки при самых н,^зКеГ0 значениях аппроксимации заслуживают объяснения. Но У н сейчас нет. отерый Загибы левых концов трасс кверху вызывают интерес, сЛу- был бы еще больше, если бы мы были уверены в том, что это чайность.
Силуэты выборок точек 315 ОБЗОРНЫЕ ВОПРОСЫ ,1т0 мы добавили? Симметричен или несимметричен результат от- дельно х и //? (Дайте конкретный ответ.) Как мы его назвали? и^зался ли он полезным в рассмотренном примере? 9В. СОКРАЩЕННЫЕ И СХЕМАТИЧЕСКИЕ СИЛУЭТЫ На илл. 3 показан полный силуэт зависимости жалованья (в перво начальных единицах) губернаторов за 1969 г. от логарифмов банков- ских вкладов за 19Ьо г. (Напомним, что в гл. 8 использовались лога- рифмы жалованья губернаторов.) Обратим внимание на то, что для вертикальных прямых мы использовали более тонкие метки (пунктир и штрихи), чем для трасс (сплошные и штриховые ломаные). Причина этого проста: прямые линии, особенно параллельные, воспринимаются глазом легче, чем ломаные. Если мы хотим, чтобы вертикальные ли- Иллюстрация 3 главы 9: жалованье губернаторов Полный силуэт жалованья губернаторов (за 1969 г.) по отношению к логарифмам банковских вкладов (за 1968 г.)
316 Глава 9 Иллюстрация 4 главы 9: жалованье губернаторов Сокращенный силуэт жалованья губернаторов (за 1969 г<) по отношению к логарифмам банковских вкладов (за 1968 г,) Жал. гуЛ Сплошные линии — В-трассы и разрезы, пунктирные внутри коробки — М-трасса и разрез, пунктирные вне коробки — С-трассы и разрезы. нии и трассы воспринимались нами о одинаковым эффектом, должны сильнее выделять трассы, коМ Некоторые (возможно, даже многие) сочтут, что илл. 3 сли н0 уж подробна. Что можно в этом случае сделать? Какие детали м стереть? оания’'- На илл. 4 показан результат одного такого способа «стИР аЛЬ и Из В-вертикалей и В-трасо мы построили «коробку». М-верт11 gK|i М-трасса показаны пунктиром и ТОЛЬКО ВНУТРИ yQjibKO С-вертикали и С-трассы также показаны пунктиром, но ВНЕ В-коробки. Этот сокращенный силуэт aHbi достаточно хорошо показывает в схематическом виде, как^рцатоР°в^ 50 точек (логарифмы банковских вкладов, жалованья гу Р Чего еще можно пожелать?
Силуэты выборок точек 317 СХЕМАТИЧЕСКИЕ (х, ^-ДИАГРАММЫ остроении схематических диаграмм для одной переменной х Пр“ даГ11(СЬ барьеры, внешние и примыкающие точки. В предыду- цсп°ль3° мЫ ввели {/-барьеры и определили {/-внешние и {/-примы- щей гла тоЧки. Помимо этого, нам необходимо разобраться только каюШие ямЯ Поскольку буквенные разрезы являются вертикаль- с *’ЗНпрямыми, рассмотреть х-координату пары (х, у) теперь то же ным» qT0 рассмотреть только х. Таким образом, х-барьеры найти П*1°ВГ<прнмере с жалованьем губернаторов мы из соображений здра- В смысла решили изучать Аляску отдельно. На илл. 5 показаны В0Г°точки, не являющиеся внешними, и крестиками обозначены те всених, которые мы будем рассматривать как примыкающие. (Исклю- чая Аляску, которая на этом рисунке находится слева вверху, это в точности те точки, которые следовало бы принять за примыкающие, если бы Аляска была выброшена.) На илл. 6 показана окончательная двумерная схематическая диаграмма. Иллюстрация 5 главы 9: жалованье губернаторов Все не внешние точки; точки, лежащие на краю этого множества, показаны крестиками Жал. губ. м 40 - оох о X о°Х X ° X оо оо о оо о о X ОО ООО оХ о о о 20 - X О о оо х3 хХ Бан. Вкл. {логарифмы) JL,---------1—»- 2.0Q О
318 Глава 9 Иллюстрация 6 главы 9: жалованье губернаторов Окончательная схематическая диаграмма Что можно сказать о штатах, оказавшихся внешними? ф Делавэр — маленький по территории штат, и, вероятно, зна- чительная часть банковских операций производится в Филадельфии и Балтиморе; О Гавайи и Аляска — штаты, удаленные от основной территории страны, и не ясно, чем объясняется их расположение на этой диаг- рамме — большей независимостью или тем, что банковские операни производятся на материке; О в Арканзасе, назначая своему губернатору жалованье долл., несомненно, считают, что он будет добывать себе на 10 000 жизнь каким-то иным путем; азМе- 0 Нью-Йорк является внешней точкой исключительно по Р рам банковских вкладов; твет? О Джорджия представляет собой загадку — кто знает ^лИ30к Массачусетс — формально внешняя точка, но (он очень к В-крробке), вероятно, случайно; г0 бо-пь' О Калифорния близка к барьеру, но ниже его — Для Та?каловань!1 шого штата можно было ожидать несколько более высокого
Иллюстрация 7 главы 9: данные и задачи Некоторые задачи на использование схематических диаграмм д) Число браков „ «1958 и число смертельных случаев при автомобильных катастрофах г. Число смер- Число браков тельных случаев X У длаб. 24 444 852 39 93 9 917 508 0 71 Ари3» 15 574 444 19 65 Аркан. Калиф» 96 330 3510 98 155 14 688 396 17 60 Колор. Коннек. Делал- Окр Колумбия 16 879 %. 2311 251 84 23 -64 40 -8 8 094 62 -9 -21 Флор. Джор. Айд. 35 243 1134 55 105 45 863 956 66 98 9 520 270 -2 43 Илл ин. 82 860 1886 92 128 Инд. 41 226 -я-' 1056 62 102 Айова 25101 598 40 78 -Канз. 15 481 554 19 74 Кент.. 26 095 789 42 90 Луиз. 21 447 844 33 93 Мэн 7104 205 -15 31 Мэрил. 41 403 505 - 62 70 Масс. 45 959 590 66 77 Мич”. 53 662 1375 73 114. Мин.; 23 410 •707 37 85 Миссис. 36198 548 56 74 Миссури 33 976 975 53 99 Монтана 6160 193 -21 29 Небр. 10 637 346 3 54 Нов. 5 755 190 -24 28 Н.-Г эмп. 7 078 101 -15 0 Н.-Дж. 39113 754 59 88 Н.-Мекс. 5 850 408 -23 61 Н.-Й. 124 513 2118 110 133 С. Кар. 27 228 1081 43 103 С. Дак. 4 306 155 -37 19 Огайо 65 479 1812 82 126 Окнах. 33 444 667 52 82 Орег. 9 798 448 -1 65 Пенс. 64 529 1654 81 122 р.-Айп. 5 653 74 -25 -13 Ю. Кар, |л 38 550 610 59 79 ю- Дак. 5 662 240 -25 38 "Ген. Техас Юта 27 947 719 45 86 89 702 2342 95 137; Верм. Вирг. *Ваш. 6 741 191 -17 28 3 376" 77 -47 -11 I 36 588 861 56 94 3- Вирг, В иск. * ____ Вайом, Плюс К>0 СильныхПЛЮС 10°» Ь1х Катастра 27 966 14 213- 573 387 45 15 76» 59 25 073 822 40 91 2 945 137 -53 14 . умноженное на логарифм числа браков. ' умноженное на логарифм числа смертельных случаев при авто рах.
320 Глава 9 Иллюстрация 7 (продолжение) Б) ЧИСЛО ТЫЧИНОК И ПЕСТИКОВ ДЛЯ 268 РАННИХ ЦВЕТКОВ р cuius ficaria 10 12 14 16 18 • 20 24 26 28 30 32 > (Сумма) Число тычинок х 18 20 22 24 26 28 30 32 34 36 1, 6, 3 1 3 1 2 4 1 4 1 1 4 7 1 2 ’1 2 1 1 1 3 1 1 4 Б 4 3 2 4 3 2 1 5 2 2 2 1 1 3 5 5 3 7 4 2 2 3 1 1 1 1 2 4 1 1 4 1 1 1 5 2 3 1 1 3 5 2 1 3 2 2 1 1 2 2 1 1 4 4 3 1 1 2 1 1 2 2 1 1 1 2 Л-Л^ма) (37.2)^ (1) (1) (2) (31 (13) (12) (22) (35) (31) (25) (27) <211 (19J (13) (151 (Ю) (4) 1 (4) (3) (4) (11 (И 8, 9, 16,12,22,26,26,38,14,23,20,20,13,7, 1, 4, 8 1 1 4 2 1 1 1 1 1 1 1 2 2 2 1 I 2 1 1 2 3 4 2 1 1 1 1 1 1 1 1 2 2 2 1 1 2 2 2 1 1 7а) Постройте по п. А силуэт х по отношению к у. Прокомментируйте. 76) " “ •ч"'' 7в) 7г) 7д) 7е) В) УПРАЖНЕНИЯ Постройте по п. А силуэт у по отношению к х. Прокомментируйте. Пр°" Постройте по п. Б силуэт числа тычинок по отношению к числу пес комментируйте. у тычин011. Постройте по табл. Б силуэт числа пестиков по отношению к чи Прокомментируйте. комментиР>’«^ (с использованием «а» и «б») Сравните результаты 7а и 76. ДР0КомментирУйт ' (с использованием «а» и «г») Сравните результаты 7в и 7г. Прок п. 6 Г) ИСТОЧНИКИ: для п. А — The World Almanac, I960, р. 306^1^1952. Tippett L. H. C, The Methods of Statistics, 4th ed,, New York, John w
Силуэты выборок точек 321 „я /оно было повышено в следующем году). °разд-8Ж-’ К° На илл- 7 пРиведены некотоРые упражнения. (См. также ОБЗОРНЫЕ ВОПРОСЫ какого хорошо известного нам примера был Дл? силуэт? Каким образом различают вертикали и п0Лны деЛаетСЯ? Что такое сокращенный силуэт? Как чемУ Э примере? Что было основным в схематической диаграмме (или в эТ°х00се)? Как, используя некоторые части полного силуэта, можно ^'^совать коробку, «содержащую примерно половину точек»? Что наР'е В-коробка? Трудно ли находить барьеры (х-ов, г/-ов)? Как мы ТаК-одили вторые? Что мы включили в окончательную схематическую нааГпамму? Целесообразно ли вносить изменения, основываясь на ^обнажениях здравого смысла? Почему (или почему нет)? Какие из- менения мы внесли в нашем примере? Чем оказалась полезна схема- тическая диаграмма? представлен трассы? По- он выглядел 9Г. ЧТО УТЕРЯНО НА НАШИХ СХЕМАТИЧЕСКИХ ДИАГРАММАХ И В СИЛУЭТАХ В этом разделе предполагается потеряли,— потеряли потому, что своей целью исключить детали. показать кое-что из того, что мы наша редукция данных и имеет СТРУКТУРА ЖАЛОВАНЬЯ Мы полагали, что силуэт как средство, дающее только общее представление, является сглаженной картиной, на которой уменьшены еоднородности. Так оно и есть. На илл. 8 показано распределение 3Лованья губернаторов с ценой деления на стебле, равной 1000 долл.; ний /ол0ДчеРкивается то> что мы Уже знаем: большая часть жалова- дппп ° из 50) кратна 5000 долл, (а из 20 оставшихся 8 кратны 2500 На Э 8 ~ 2000 долл-)- Нац1егоЛ1обов сглаженной диаграмме, где показаны некоторые свойства (Посколь°бЛаКа ТОчек (Бан‘ вкл-» Жал.губ.), нельзя обнаружить Это мОи<КУ °На сглажена) мест скопления жалованья губернаторов. Ин°гда эеТ бЬ!тв хорошо (и часто это так), но может быть и плохо (и СХемы ЭТ° де",ствительно так). В этом основная особенность любой Нам илиДна№ Общее сглаженное представление,— нравится это То жеНеТ СледУет лишь знать, что такое бывает. ц самое, конечно, имеет место и водномерной схематической ^1247
322 Г лава 9 Иллюстрация 8 главы 9: жалованье губернаторов Подробности о жалованье губернаторов за 1969 г. (данные________и ТЫс«чах) Б) МЛАДШИЕ РАЗРЯДИ (без первого старшего) А) РАСШИРЕННАЯ СХЕМА — СТЕБЕЛЬ с ЛИСТЬЯМИ Жал. губ. 10 0 (15) 0* 0- 1* 000000000000000 17 18 п 888п < ?) 1- 2* 22 19 ( 2) 2- пп 20 21 00000 (2) 3- ЧП 22 23 24 2 ч ( 1) (17) 4* 4- 5* д 55555555555555555 25 5555555555 ( 1) 5- 26 6* 6 27 пп 6- 28 29 хп СЧ 7* 7- ПППП 30 00000 ( 3) 8* 888 31 (3) 8- пхп 32 2п 9* 33 п 9- 34 35 55555 36 6 37 п 38 39 40 000 41 42 п 43 44 Д 45 55 50 0 Отметим, что 32 из 50 оканчиваются на 0 или 5; 888п после 18 | означает: 18, 18, 18п и т. д.; ч — и четверть, х — и 0,374, д — и 0,1. В) УПРАЖНЕНИЯ 8а) Найти соответствующие данные для какого-ннбудц другого года и соответствующий анализ. п „я которой Г) ИСТОЧНИК: The World Almanac, 1970, р, 67 (не для того года, взяты данные в примерах гл, 8),
Силуэты выборок точек 323 иаГРамМе Те г л таковы. чеНйя самых 50 значений жалованья; для нее буквенные зна- 50 жалований М25п 27п С13 35 23 12 В 7 40 20 б Б 53 5 71 — ХХХ внешн. ХХХ 50 примык. 10 образом, на одномерной схематической диаграмме все одно- инег никаких указаний на какие-либо скопления. ^Аналогичный эффект имел бы место, если бы наше облако точек опагалось не горизонтально, а по диагонали или имело какую-то £аС(>е сложную структуру. Необходимо помнить, что такие вещи слу- ются. Также нужно помнить, что не следует беспокоиться по этому поводу в тех случаях, когда нам достаточно получить только общее представление о данных. ОБЗОРНЫЕ ВОПРОСЫ Что мы надеемся узнать, глядя на силуэт? Что мы хотим, чтобы он не учитывал? Рассмотрите пример с данными о жалованье губер- наторов. Может ли сглаженная схема сообщать о таких скоплениях точек (в частности, обычная схематическая диаграмма для одних только жалований губернаторов)? Бывают ли скопления другого вида, которые могут и должны быть утеряны в силуэте? Какие вы мо- жете привести примеры? ЭД. ТРИ И БОЛЕЕ ПЕРЕМЕННЫХ СРАЗУ УВЕЛИЧЕНИЕ ЧИСЛА ПЕРЕМЕННЫХ были только две переменные и мы хотели построить е ока У J,iac были только две переменные и мы хотели построить •TeJ т одно” временной по отношению к другой, обобщение техники 1;1акц С Листьями> где листьями являлись «последние десятичные ; нас К И ВСе Знаки представлялось вполне разумным. Когда же 1еРеменеС1“0ЛЬК0 переменных и мы хотим получать силуэты каждой ^проиГ ОГНосительно любой другой, то уже мысль о многократном скУчцой Вр?ении значений всех переменных становится более чем Наща !?ео5ходим другой подход. Да,1ЧЬ1х п Задач„а состоит в том, чтобы рассортировывать множества Яых); про кРар”жей мере в пары (по возможности в наборы перемен- 'п°Рядоч дель’аать это по возможности просто; разбивать на слои; ваДИТь их б?Ь П° ВТ°Р°Й пеРеменной) данные в каждом слое и на- Ть. РазделУКВенные значения. Каким путем можно просто сортиро- 11» ять на части и пересортировывать данные? Один способ —
324 Глава 9 сделать это с помощью стопки карточек размером 3"х5" дЛя шого числа переменных и 4"х6" или 5"Х7'' для большего чисп16^0^ менных (Г=1 дюйм = 2,54 см). а пере. КАРТОТЕКА На илл. 9 показано, как это можно проделать для примера с 8я селенными пунктами в США (не получившими статуса Горо°На' имеющими по переписи 1960 г. число жителей свыше 25 000. На^’ точке-образце размером 3"х5" мы пишем в определенных местах Иллюстрация 9 главы 9: населенные пункты Примеры карточки-образца 3"Х5" и двух карточек из 88 с информацией о 88 населенных пунктах, не получивших статуса городов, для 1962 г (County and City Data book, 8 отобранных величин) Порядковый номер (нас., 1960) Занимаемая территория (кв, мили) % небелого населения з 1960г« % жилых единиц, оснащенных автомобилями ОБРАЗЕЦ % рожденных за границей % жилых единиц Ча ОКОНЧИВШИХ $4уроженцев США, с> 1,01 человека менее 5 классов родители которых на комнату ШКОЛЫ ’ родились За границей 37 8,6 5,5 92,0 Алтадена, Калифорния 10,0 3,9 1,8 18,4 78 8,4 1,5 91,4 Инглвуд, Теннесси 0,5 4,7 2,8 1,6
Силуэты выборок точек 325 --- и единицы измерения переменных так, чтобы было удобно 3ванйЯ в карточками. Затем на каждой отдельной карточке мы за- работав название и значения переменных в тех же местах, где на пись®3 бразце напиСаны их обозначения. каРт ерь легко перетасовывать карточки (если понадобится), сорти- *еП L порядке возрастания любой из восьми переменных), соби- р°ВаТкарточки в группы, выполняя все необходимые операции для об- рат1* ря слоев по любой из восьми переменных, и далее упорядочи- РаЗОВкарточки в каждом слое по любой из семи оставшихся перемен- ваТЬ илл. 10 приводятся некоторые данные и упражнения. HbiX. СКОЛЬКО НАДО ИМЕТЬ НАБЛЮДЕНИЙ? Что происходит, если мы хотим рассматривать более чем две пере- менные? Первый вопрос: сколько потребуется наблюдений? Чтобы ответить на него, возвратимся к выборкам значений одной переменной й к выборкам пар. Мы не слишком ошибемся, если скажем, что для выборок чисел: 0 20 точек, как правило, достаточно для получения полезных буквенных значений; 0 10 точек, возможно, тоже достаточно; 0 50 точек позволяют определить их очень хорошо (чем больше, тем лучше). В то же время для выборок пар (х, у): 0 100 пар обычно достаточно для получения полезного силуэта; 0 50 пар, видимо, тоже достаточно; О 250 пар позволяют проделать это очень хорошо (чем больше, тем лучше). Таким образом, для групп значений (х, у, г), когда мы хотим изучить три переменные вместе, следует ожидать, что 0 500 троек обычно достаточно для получения полезного «трех- ч’зхторного аналога»; V 250 троек, вероятно, тоже достаточно; v 1250 троек позволяют проделать все очень хорошо. вРУчнМЬ1 С0^иРаемся «поработать» с набором данных такого объема Но> ппУЮ’ Т° даже Для случая только трех переменных нам, несомнен- а нацгТРебУется только чт° описанная процедура индексных карточек, Растай >келание переложить эту работу на компьютер быстро воз- 8Или?Чр) Делать с 500 с лишним карточками, когда мы их уже загото- нНЫмц сечто Вп°лне аналогичное тому, что мы делали с парами (х, у); Л0Вами: расположить их в порядке возрастания х, сделать СОособом1е разбиения по переменной х, обработать каждый слой таким > как мы стали бы Обрабатывать выборку значений у.
Иллюстрация 10 главы 9: населенные пункты Данные и упражнения А) ДАННЫЕ — переменные, как на илл. 9 Поряд*, ковый % номер Территория небелого % рожден. Место 1 по США (кв. мили) населения заграницей КУронСША, родители которых род. за границей %. <5 лет школы у % жилыхединиц] [> 1,01 чел. оснащенных 1 на комнату автомобилями] КАЛИФОРНИЯ Аптадена, 37 8.6 5.5 10.0 18.4 1.8 3.9 92.0 Арден-Аркад 6 22.0 0.8 3.6 13.9 0.9 6.7 97.7 .БелптГарденс. 73 2.5 1.4 2.3 6.8 6.6 21.4 87.3 Карсон 42 8.4 2.5 4.5 11.9 4.9 23.1 95.5 Кастро-Валли 44 6.4 0.7 5.7 18.8 3.0 6.5 94.2 Ист-Лос-Анджелес 1 7.9 3.8 20.3 34.0 19.3 22.8 74.6 Флоренс-Грэхэм 41 3.0 45.8 8.4 13.6 14.4 23.8 71.3 Ланкастер’ 84 11.3 0.6 2.8 11.2 1.5 8.3 93.7 Леннокс 57 2.4 1.4 6.5 13.8 3’.1 10.7 Саут-СангГабриэпь 82 3.9 0.8 7.9 18.1 6.4 12.4 87.6 Темпл-Сити 54 5.1 0.4 7.3 17.7 2.1 3.9 91.9 Уэст-Голливуд. 66 1.9 0.6 24.0 30,0 4.2 1,7 81.3 КОННЕКТИКУТ Ист-Хартфорд 31 18.2 0.8 7.8 27.3 3.9 10.7 82.0 Энфилд 56 33.2 0.7 7.7 26.1 5.9 95 89.5 Фэрфилд 25 29.9 0.6 9.4 30.3 2.9 5.1 93.7 Гринвич 18 47.6 2.2 13.0 25.4 4.4 4.5 91.6 Хэмден 36 24.8 1.5 9.7 32.1 4.0 3.3 90.8 'Манчестер 34 27.5 0.4 10.7 28.9 4.0 5.2 88.4 Стратфорд 27 18.5 3.0 8.9 31.6 4.8 6.5 93.1 Уэппингфорд 62 41.6 0.1 9.1 26.7 4.5 9.6 90.3 Уэст-Хартфорд 10 21.2 0.4 11.7 31.1 2.9 1.8- 91.5 Уэст-Хейвен. 32 10.9 2.0 9.1 31,1 5*5 6Л 8X5 ФЛОРИДА Браунсеипп 46 10.5 16.4 1.1 2.8 8.2 175 87.6 ГАВАЙИ Каилуа-Ланикай 87 5.4 40.1 3.6 17.6 3.7 18.9 94.3 МЭРИЛЕНД Бетесда 13 _ 14.3 1.4- 6..0 13.7 0.8 2.0 84.8 Кейгонсвилл 43 6.2 7.3 3.1 10.7 3.8 3.9 88.6 Дандолк. 4 10.6 8.2 2.5 11.4 4.6 10.8 83.5 Эссекс 48 5.7 0.6 1.8 8.4 4.7 10.2 88.3 Парквилл-Карни 74 6.1 • • • 3.3 12.0 3.5 4.8 91.7 Силвер-Спринг 7 9.3 1.7 5.7 18.2 1.2 3.3 94.4 Уитон 15 9.2 1.4 3.3 135 1.4 9.3 98.6 МАССАЧУСЕТС Ар!лингтон 23 5.1 0.3 12.1 32.1 2.8 4.4. 87.2 Белмонт 68 4.6' 0.3 13.7 31.7 3.2 2.4 89.2 Брейнтри 58 14.3 0.2 8.0 28.3 15 6.8 95.0 Брукла1йн. 16 6.8 1.0 19.5 35.8 3.1 2.8 72.0 Фрамингем 30 24.1 0.6 8.5 25.0Г 3.8 6.2 84.8 Лексингтон 73 16.5 0.5 9.5 28.7 3.4 4.1 97.0 Метуэн .71 22.5 0.3 12.7 34.8 7.0 6.1 85.6 Милтон 81 12.9 0.1 11.3 32.1 1.9 1.9 93.0 Нэтик 67 15.1 0.5 8.2 26.1 2.5 6.2 89.9 Нидхэм 86 12.5 0.3 8.2 25.9 1.9 1.9 95.4 Уотертаун 39 4.2 0.2 16.7 35,0 6.2 5.9 80.8 Уэллесли 83 9.9 0.4 7.8 20.2 1.9 1.3 94.1 Уэймут 24 17.7 0.3 6.6 25.2 1.9 8.7 89.2 Силувты выборок точек
НЬЮ-ПЖЁРСИ Кранфорд 80 5.0 3.2 7.1 25.5 2.6 3.2 93.3 03 to Оо Делавэр 55 24.4 1.9 4.6 19.2 3.2 4.2 96.4 Эдисон 29 31.0 3.3 7.9 26.4 4.5 9.0 93.3 Юинг 77 15.4 6.6 6.5 22.2 5.3 7.2 93.2 Гамильтон 9 40.3 2.8 7.1 25.2 6.1 6.1 91.2 Мидлтаун 38 54.9 2.6 5.8 19.2 3.0 7.3 95.4 Нью-Ганновер 69 24.4 9.2 3.6 15.3 0.7 18.2 85.9 Норт-Бёрген: 33 5.6 0.3 17.7 34.5 63 6.5 75.4 Парсипани-Трой-Хиллс. 88 23.7 2.6 10.8 25.0 6.2 7.1 97.7 Пенсокен 51 10.4 4.5 4.9 21.0 4.6 4.1 89.4 Тинек 35 6.1 4.2 11.8 33.0 2.8 2.8 90.2 Юнион 21 9.2 6.0 12.2 33.0 4.4 3.1 92.9 Уэйн 64 25.3 0.3 7.5 25.9 3.0 5.4 97.4 Вудбридж» НЬЮ-ЙОРК 5 24.1 1.6 8.1 30.4 5.1 &2 93.5 £ Болдуин1. 60 4.1 0.6 8,0 27.2 2.0 2.6 90.7 ^иктойага-НрртУэст 19 6.3 0.1 6.1 25.3 2.6 8.5 92.4 Мст-Мидоу 26 6.7 2.0 6.7 31.6 2.5 5.8 94.7 Егертсвилл 28 10.9 0.2 6.6 23.2 1.2 3.1 84.7 Элмонт- 61 3.2 2.5 12.0 34.4 6.4 7.5 89.4 Франклин-Сквэр 53 2.8 0.2 41 5 34.0 4.2 3.4 93.1 Хиксвилл 22 6.7 0.4 6.7 27.6 2.9 7.1 95.6 Левиттаун 8 6.6 0.3 5.8 26.7 1.7 10.1 95.6 зМассалека 52 5.4 0.3 7.2 28.3 2.6 4.2 96.6 Оушнсайд' 59’ 5.0 0.7 8.8 31.4 2.6 2.5 94.7 Плейнвью 72 3.6 0.4 6.3 33.7 1.7 2.6 98.5 Тонавонда 3 17.6 0.3 6.5 22.2 . 1.7 7.4 94.0 У анта 50 5.5 0.3 6.4 27.5 2.0 3.8 97.8 СЕВЕРНАЯ КАРОЛИНА Каннаполис 49 27.6 11.6 0.2 0.3 15.7 12.0 81.2 ПЕ.НСИПЪ'В АНИЯ / 14 16.3 4.8 5.7 20.2 2.3 2.7 92.7 ЁрИСТОЛ 12 16.9 4.0 9.4 17.1 2.3 14.5 35Й Хелтенхем 45 9.0 2.4 7.8 27.7 2.6 1.5 90А Фоллс 65 27.2 0.7 2.5 16.3 1.8 13.3 97.7 Хаверфорд 17 10.0 1.3 6.7 21.6 2.8 2.0 93.8- Хемпфилд 63 84.4 1.6 3.8 17.5 7.8 11.4 90.2 Лоуэр- Мерной 11 24.0 4.9 7.3 1.9.7 2.9 1.4 89.2 Мидлтаун 75 20.7 0.4 3.9 17.0 1.1 5.5 95.9 Милкрик. 70 35.6 0.4 2.9 15.6 3.8 7.8 93.3 Маунт-Лебанон 47 6.4 0.2 3.7 18.3 1.1 1.3 89.3 Пенн-Хиллс 20 20.7 4.9 4.3 19.3 2.9 7.0 93.3 Ридли 46 5;5 1.7 4.0 18.6 3.9 6.5 913 Росс 85 13.8 1.4 4.0 18.9 1.8 5.5 94.4 о Спрингфилд 76 6.9 9.3 4.7 20.5 1.8 2.9 97.1 Аппер-Дарби 2 8.5 0.2 6.7 23.3 23 2.7 643 ТЕННЕССИ . Id Инглвуд 78 8.4 1-5 . 0.5 1.6 23 4.7 91.4 Z 8* Б) УПРАЖНЕНИЯ * , S ГОа) (групповое) Разделите 88 городских населенных пунктов на нескольких человек, так чтобы каждый сделал а часть индексных карточек в соответствии с образцом на илл. 9 и проверил часть карточек, сделанных другими |з (возможно, стоит сделать 8 копий каждой карточки, так чтобы получилось 8 множеств по 88 карточек)^ § 10а2) Разделитесь на 8 подгрупп. Пусть каждая подгруппа возьмет по 88 карточек, упорядочит их по своей пере- 1а менной и разделит на слои. „ ЮаЗ) Внутри каждой подгруппы определите для каждого участника другую переменную, и пусть каждый участ- ник в свою очередь упорядочит каждый отдельный слой по своей переменной и запишет соответствующие I буквенные значения. I 10а4) Пусть каждый участник определит, сгладит и прибавит обратно (или вычтет) буквенные приращения для своей переменной в своей группе слоев. Wa5). Пусть каждый участник построит соответствующий силуэт, I i
330 Глава 9 наД Другим} к пУтанице Разрезы на Что же это за аналог для 500 с лишним троек (х, у, г)? Очев надо: расположить данные в порядке возрастания х, найти букв ИДв°‘ пороги х, обработать каждый слой (содержащий по меньшейеННЬ1е 5x5=25 точек) тем же способом, как мы обрабатываем выборки^6 (у, г) (все это означает, что надо получить «силуэты»). В резул ПаР получатся (у, г)-силуэты для каждого л-слоя. у Ьтат& Как лучше всего расположить их? Бок о бок? Или один Конечно же, нет — любое из этих расположений приводит переменных — переменной х, по которой производились слои, и переменных, по которым строился силуэт. Что лее мож сделать? Имеются две возможности (и обе они приемлемы). Но Можно взять несколько достаточно жестких карточек и на каж дую из них нанести по силуэту. Тогда, перебирая карточки, можно следить за тем, как перемещаются силуэты по мере перехода от слоя к слою. При этом мы вспоминаем, что внутри каждого слоя у Нас сглаженные силуэты, но сглаживание вдоль слоев мы еще не произвели Поэтому наш следующий шаг — взять полученные силуэты (точ- нее, взять первоначальные разрезы и сглаженные кросс-медианы которые и определяют силуэты) и сгладить их вдоль слоев. В резуль- тате в каждом слое получается новое множество точек, которое и служит для построения силуэта. Теперь изменения силуэта по отно- шению к соседним будут? гораздо более плавными. Ну а если нам не нравится такая примитивная имитация мульт- фильма и мы не хотим тасовать карточки, то как можно показать наши силуэты? По-видимому, лучше всего расположить их по диагонали. Возможно, мы покажем по одному силуэту для каждого слоя или реже (один из способов — взять медианы от двух соседних неперекры- вающихся силуэтов). (Если мы будем настолько безрассудны, что попытаемся обратиться к четырем переменным, нам придется нарезать данные на слои дважды, прежде чем строить силуэты. Мы можем использовать диагональ СЗ — ЮВ для нашей первой переменной и СВ — ЮЗ для другой.) Отважные читатели могут попытаться сделать «групповые» упраж- нения из илл. 11. 9Е. ЧЕГО МЫ ДОСТИГЛИ? В предыдущей главе мы научились строить блуждающие с^ема1”я ческие диаграммы, а эта глава была посвящена построению обобше этого понятия — силуэта, который больше нам говорит о совме поведении значений х и у. Теперь мы умеем: <> находить В-трассы, Б-трассы и т. п.; О объединять трассы и разрезы в силуэты; <0> преобразовывать полные силуэты в сокращенные; .шескУ10 О начинать с полного силуэта и строить (х, £/)-схемат диаграмму.
Силуэты выборок точек 331 <1а2) 11аЗ) Ца4) Паб) Паб) 116) Иллюстрация 11 главы 9: упражнения Ряд упражнений для мужественной группы группы) По данным переписи населения США в 1960 г. обнаружено 676 го- (1а) (длЯ с населением более чем по 25 000 человек. По переписи 1970 г. их быЛо 840, и°Дбеоите несколько наиболее интересных переменных (можно из тех, что имеют- ° в книге «Округа и города США» (County and City Data Book)) и составьте кар- Сотеку индексных карточек (как на илл. 9) для всех городов по переписи 1960 или 1970 г. u (для группы) Упорядочите карточки и затем разбейте на слои по одной из переменных. „ „ „ . гя подгрупп) Построите силуэты третьей переменной относительно второй „ля каждого из слоев. (Для различных подгрупп) Проведите сглаживание по слоям. (для подгрупп) Постройте сглаженные силуэты. (для группы) Сравните полученные силуэты или с помощью подгонки, или диа- гонального метода, или того и другого. (для подгруппы) Возьмите данные илл. 32 гл. 8. Разделите их на 8 частей по 3-часовым интервалам или на 12 частей по 2-часовым интервалам начиная с по- луночи. Постройте силуэты высоты прилива относительно этих частей, начиная с последнего прилива для каждой части. (для различных подгрупп) Проведите сглаживание по часам результатов, полу- ченных таким образом. (для подгрупп) Постройте сглаженные силуэты. (для группы) Сравните (объедините) результаты и проделайте необходимый дальнейший анализ. <162) 1163) 1164) 11 в/11 в2/11вЗ/11в4) Проделайте то же самое, начиная с 01 ч 00 мин, а не с полуночи. Иг) (используя 1164 и 11в4) Сравните результаты 1164 и Пв4, Теперь мы более ясно понимаем: 0 что можно извлечь из силуэта; О что утеряно в силуэтах и схематических диаграммах (и что это Должно было произойти); О как перейти к анализу трех и более переменных.
Глава 10 ИСПОЛЬЗОВАНИЕ ДВУХФАКТОРНОГО АНАЛИЗА УКАЗАТЕЛЬ К ГЛАВЕ 10 Обзорные вопросы 333 10А. Двухфакторная таблица остатков; анализ «стро- ка-ПЛЮС-столбец» 334 Одинарные и двойные линии 336 двойные линии между величинами, которые скла- дываются 336 Эффекты, общее, эфф, всё 337 трока- ПЛ ЮС-столбец» 338 Комментарий 338 Обзорные вопросы 339 10Б. Аппроксимация «строка-ПЛЮС-столбец» 339 Узнали ли мы что-то новое? 341 Возможность различных видов анализа 342 Обзорные вопросы 344 10В. Некоторые технические вопросы 344 Использование жирного шрифта 344 Нули и десятичные точки 344 Обзорные вопросы 346 ЮГ. Анализ «строка-НА-столбец» 347 «строка-Н А-столбец» 350 Обзорные вопросы 351 10Д. Рассмотрение аппроксимаций «строка-ПЛЮС- столбец» и их остатков 351 аффект строки ПЛЮС аппроксимация столбца 351 Двухфакторная диаграмма 352 двухфакторная диаграмма 353 Аппроксимации «строка-НА-столбец» 353 Рассмотрение остатков 353 двухфакторные диаграммы остатков 354 Другие отложенные вопросы 355 Обзорные вопросы 355 355 356 358 359 361 10Е. Аппроксимация с еще одним слагаемым сравнительные значения диагностическая диаграмма стр-ПЛЮС-стл-ПЛЮС-один Обзорные вопросы ЮЖ. Переход от «ПЛЮС-аппроксимации» к «НА- аппроксимации»; преобразование Зо| Снова статьи расхода Могут существовать другие преобразования Зо Обзорные вопросы 10И. Чего мы достигли?
Использование двухфакторного анализа 333 ь наступило время рассмотреть двухфакторный анализ — Тепе1дСТвие его важности, так и потому, что он является введением как вСЛобразные методы исследования. Когда одно и то же множество в Pa3lIf можно рассматривать с двух или более различных точек данных _. как в случае с двухфакторной таблицей (см. ниже),— их 3РеН*|Я обработать по-разному. Здесь существует много (а не один или ь!ожн° злиЧНЫх подходов. Некоторые из них мы опишем в этой главе. Два^основе двухфакторной таблицы (таблицы «откликов») лежат: а один вид откликов; V дВа фактора — и каждый из них проявляется в каждом на- блюдении. Если мы, например, изучаем рождаемость для различных соче- « возраста матери и ее социального положения (можно рассмат- та1'ать место жительства, время, уровень доходов и число имеющихся ^т°й), то мы получим двухфакторную таблицу откликов, задавая 1оки с помощью возраста матери, а столбцы — с помощью числа имеющихся у нее детей. Если мы рассматриваем, например, урожайность пшеницы для различных сочетаний сортов пшеницы и разного применения (вида и количества) удобрений, мы получим двухфакторную таблицу откли- ков, если, скажем, в столбцах будем располагать сорта пшеницы, а в строках — количество и вид удобрений. Если рассматривать твер- дость металлических сплавов для различных сочетаний состава и термической обработки, мы получим двухфакторную таблицу откли- ков, задавая, скажем, столбцы с помощью состава, а строки — с помощью вида термической обработки и т. д. Эта и следующая главы написаны так, что скорость появления новых идей О примерно одинакова, О достаточно мала, чтобы ее можно было выдержать. В то же время повторения помогут глубже понять и лучше ус- воить эти идеи. Многие положения, которые в этой главе будут ка- яться не связанными между собой, в следующей главе окажутся сно связанными. Иными словами, в этой главе не всегда будет объ- ЧасЯТЬСЯ’ как проделать анализ, который здесь рассматривается., ь объяснений будет отложена до следующей главы. 1еРеидем же к примерам! ОБЗОРНЫЕ ВОПРОСЫ Реть двуеТСЯ ЛИ ситУачия» если множество данных можно рассмот- Ракт ИЛИ б°лее способами? Почему (или почему нет)? Чем ха- ‘^•чается еТСя двУхФакторная таблица откликов? Чем «отклик» от- Са11и МожеТ <<^актоРа>>? Какие примеры двухфакторных таблиц вы те привести? Какие три примера приведены выше? Почему
334 Глава 10 эта глава тесно связана со следующей? Обычна ли эта взаи глав? Что можно сказать относительно скорости появленияМ°СВ553ь идей в этих двух главах? Относительно связи различных поня H°BbIx 10А. ДВУХФАКТОРНАЯ ТАБЛИЦА ОСТАТКОВ; АНАЛИЗ «СТРОКА-ПЛЮС-СТОЛБЕЦ» На илл. 1, А приведены среднемесячные значения темпепя для семи месяцев — с июля по январь — для трех пунктов в д зоне — Флагстаффа, Финикса и Юмы. Если мы посмотрим на^*1' таблицу, то увидим, что ЭтУ Иллюстрация 1 главы 10: температуры в Аризоне Двухфакторные остатки (похолодание в Аризоне) А) Среднемесячная температура — в °F Флагстафф Финикс Июль. 65.2 90.1 Авг. 63.4 88.3 Сент. 57.0 82.7 Окт. 46.1 70.8 Нояб. 35.8 58.4 Дек. 28.4 52.1 Янв. 25.3 49.7 Б) Значения аппроксимации для мест, их остатки — Аппр 46.1 70.8 76.4 Юма 94.6 93.7 88.3 76.4 64.2 57.1 55.3 и МЕДИАНЫ МЕСЯЦЕВ 70.8 Июль 19.1 Авг. 17.3 Сент. 10.9 Окт. 0 Нояб. -10.3 Дек. —17.7 Янв. —20.8 В) Удаление МЕДИАН из да эфф 70.8 19.3 18.2 17.5 17.3 11.9 11.9 0 0 -12.4 -12.2 -18.7 -19.3 -21.1 -21.1 иных п. Б, ВТОРЫЕ О -24.7 0 19.1 17.3 11.9 0 -12.2 -18.7 -21.1 СТАТКИ 5.6 Июль 19.1 Авг. 17.3 Сент. 11.9 Окт. 0 Нояб. >-12.2 Дек. *-18.7 Янв. —21.1 Обозначение «эфф» («эффект») аппроксимацией, независимо от то вых данных. 0 .2 -.9 0 .2 0 -1.0 0 о ООО 1.9 —.2 0 1.0 0 -в .з ° ° рно9 используется для величин, получаемых го, являются ли они аппроксимацией н
Использование двухфакторного анализа 335 Иллюстрация 1 (продолжение) АППРОКСИМАЦИЙ, по которому все восстанавливается: г) Одно множес ®фф 70.8 Флагстафф -24.7 .Финикс 0 Юма 5.6 Июль 19.1 О .2 -.9 .Авг. Сент. 17.3 11.9 0 -1.0 .2 0 0 0 Окт, 0 0 О 0 Моаб. -12.2 1.9 —.2 0 Дек, -18.7 1.0 0 —.6 Янв. -21.1 .3 0 0 аппр 0 46.1 70.8 76.4 Примеры: 65.2 =70.8+ 19.1 -24.7+ 0 65.2 = 0 +19.1 +46.1 + 0 90.1 = 70.8 + 19.1 + 0 + .2 90.1 = 0 +19.1 +70.8 + .2 94.6 = 70.8 + 19.1 + 5.6 + (-.9) 94.6 = 0 + 19.1 +76.4+ (-.9) 63.4 = 70.8 + 17.3- 24.7+ О 63.4 = 0 + 17.3 + 46.1 + 0 _ . . . гтпоках есть «0» из левого нижнего угла вне («0», появляющийся во 2-и, 4-и,... стр ДВОЙНЫХ линий). tz д\ц ПОМУ ЧИТ АТ ЕЛЮ 4 Д) УПРАЖНЕНИЯ, которые следует проделать _ ачала из строК1 затсм 1а) Удалите медианы из данных п. А в Достаточно ли велика разница, из столбцов. Получили ли вы тот же самый от чтобы она имела значение? мест (как в табл. п. Г) добавьте аппрокси- 16) Вместо добавления аппроксимации для мест (ка аяписали аппроксимацию для мацию для месяцев к данным п. В. Куда месяцев? Почему? Какое значение вы записали у у- месяцев в одно 1а) Можете ли вы добавлять ОБЕ аппроксимации и д я„енИе будет находиться и то же время к данным п. В? Если сможете, то какое значение оуд , . У вас в правом нижнем углу вне двойных линии. । _ в виДе остат- > Выпишите выражения для следующих значении, а/, • > > • ков и эффектов. „„ р.тишите для него два Число 88,3 дважды появляется в качестве исходног . различных выражения через остатки и эффекты. Stated д9т°ЧНИК: Climatography of the United States 6i°959,C Ш • Arizona, U. S, Weather Bureau, Washington, D, G,j S p .
336 Глава 10 По- О в Юме несколько теплее, чем в Финиксе; ф в обоих этих местах намного теплее, чем во Флагстаффе- 0 от июля к январю становится холоднее. Последнее никого не удивляет. Первые два факта неудивите. для тех, кто знаком с климатом в Аризоне, но могут оказатьс ЬНь* лезными для приезжающих в эти места. Все ли это, что можно извлечь из таблицы? Конечно, нет. Мы успешно использовали ранее (одномерные) остатки. Как м< применить эту идею здесь? *Но Один из способов, каким можно начать ее осуществление, пока на илл. 1, Б — найти значение медианы для каждого пункта ц 3^Н разовать соответствующие остатки. Поскольку в каждом пункте спе немесячная температура убывает, то простейшим и разумным при' ближением является значение среднего месяца — октября. Именно это и используется на илл. 1, Б. Остатки, как обычно, можно найти вычитанием, например; 19,1=65,2—46,1; 19,3=90,1—70,8; 18,2 =94,6—76,4. Теперь мы видим, что температура от месяца к месяцу меняется при- мерно на одну и ту же величину во всех трех пунктах. Этот простой факт позволяет глубже проникнуть в существо дела. ОДИНАРНЫЕ И ДВОЙНЫЕ ЛИНИИ На илл. 1, Б мы использовали новинку: двойные линии между величинами, которые складываются. Мы будем использовать одинарные линии (или пунктирные), чтобы отделять значения исходных величин от какого-либо вида их обра- ботки. Таким образом, первая строка из илл. 1, А, содержащая зна- чения и их медиану, будет иметь вид 65,2 90,1 94,6 | 90,1. Здесь разделительная линия одинарная. Если мы движемся дальше и находим остатки 65,2 90,1 94,61 90,1 I]—24,9 0,0 4,5, “ 90 1. ” то мы помещаем двойную линию между медианой, равной е^иане остатками, т. е. величинами, по которым, если их прибавить к м ~ аВ. [90,1+ (—24,9)=65,2; 90,1+0,0=90,1; 90,1+4,5 =94,61, восш ливаются исходные данные. значеШ11’1 В правой части таблицы п. Б приведены медианы: 1} апПроЮ аппроксимации для рассматриваемых пунктов и 2) остатков о мея^ симации по пунктам для каждого месяца. (Если бы мы и кОлонЯУ осмотрительны, то расположили бы эту одинарную линию чисел ближе к основной части таблицы п. Б.)
Использование двухфакторного анализа 337 ЭФФЕКТЫ, ОБЩЕЕ, ЭФФ, ВСЕ „бднце на илл. 1, В эти медианы используются в качестве В Тщей аппроксимации и служат для определения остатков вто- слеДУ1^рЯдКа. Здесь впервые вводится понятие «эффект», которое в рого П1*СТве случаев будет сокращаться до «эфф». Обычно это понятие больш нас обозначать результат повторных процедур аппроксимации. бУд-J п. В число —24,7 представляет собой эффект столбца и часто Означается «эфф стл», в то время как число 19,1 — «эфф стр» (эффект СТ^Здесь, как и обычно, эффект показывает, как проявляется фактор множество факторов в каждой из наблюденных величин. Возможно, « действительно есть проявление данного фактора, а возможно, и нет Однако мы убеждены, что если проявляющаяся часть фактора больше, чем то, что остается, то легче разглядеть и понять, что про- исходит с данными. Число, которое было вычтено из всех без исключения данных (здесь 70,8), естественно назвать «общее» (сокращенно «всё»). Оно есть проявление всех факторов, общих для всех данных или для всех данных, за исключением нескольких ошибочных. Таким образом, для величин илл. 1, В и исходных данных сора- ведлива всеобъемлющая «словесная формула»: 65,2 = 70,8 + (—24,7) + 19,1 данное = общее ПЛЮС эфф стл ПЛЮС эфф стр Далее на илл. 1, Г показано, как еще можно множество значений аппроксимации все эффекты; таким образом, имеется выбор и в том, какую таблицу рассматривать, и в том, в каком виде представлять расположение исходных данных. Дальнейшее возлагается на самих читателей (см. упражнения в п. Г). Отметим, что в таблице мы помещаем эффекты слева и выше ос- татков, а аппроксимации оставляем справа и ниже. Это делается для и°2?’ ,ЧТ0^Ь1 1) по возможности сначала бросались в глаза эффекты Mbi ЭФФекты были расположены возможно ближе к «своим» названиям. будуП0СТ^Паем таким образом, исходя из предпосылки, что эффекты роват Использоваться больше, т. е. рассматриваться и интерпрети- пРеДпоСЯ Чаш,е’ чем значения аппроксимаций. Можно принять такую слеппвоЫЛКУ как общее руководство. Но было бы ошибкой всегда Поать по такому пути. но ос-гДаВеденномУ порядку мы сначала заносим в таблицу эффекты, Днем за собой право 0 опВСеЫ ОПУСТНТЬ значения аппроксимации, Устить значения аппроксимации и поместить эффекты в конце. э;ПРокс°им ДСЛС Мы даже имеем право перевернуть схему (значения Э(И>екты ИЭЦИИ поставить в начале, а эффекты в конце) или опустить сохранить только значения аппроксимации. Схема со всеми + 0. ПЛЮС остаток ВКЛЮЧИТЬ в одно
338 Глава 10 ее обозначениями должна соответствовать тому, что потребует дальнейшем. На илл. 2 показаны другие по сравнению с илл. 1 С5Я 8 конкретного анализа ек,Ы «строка-ПЛЮС-столбец» 21 значения средних температур в Аризоне, которые мы обрабатыв на илл. 1. ajIli КОММЕНТАРИЙ Мы возвращаемся к нашей старой уловке — попытаться найт простое частичное описание — частичное описание, которое легч* воспринимается — частичное описание, вычитание которого даст нам возможность глубже взглянуть на то, что еще не было описано. Иллюстрация 2 главы 10: температуры в Аризоне Некоторые другие формы записи конкретного анализа «строка-ПЛЮС-столбец» (данные из илл. 1) А) УНИВЕРСАЛЬНАЯ форма эфф эфф 70.8 Флагстафф —24.7’ Финикс 0 Юма 5.6 аппр 0 Июль 19.1 0 .2 -.9 89.9 Авг. 17.3 0 .2 0 88.1 Сент. 11.9 -1.0 0 0 82.7 Окт. 0 0 0 0 70.8 Нояб, -12.2 1.9 -.2 0 58.6 Дек. -18.7 1.0 0 -.6 52.1 Янв. -21.1 .3 0 0 49.7 ап пр 0 46.1 70.8 76.4 (-70.8) Б) ТА ЖЕ САМАЯ ЗАПИСЬ С ПОДЧЕРКИВАНИЕМ АДДИТИВНОЙ (ПЛЮЙ природы анализа эфф Флагстафф Финикс Юма аппр эфф 70.8 -24.7 0 5.6 0 + + Июль 19.1 0 .2 -.9 89.9 Авг. 17.3 0 .2 0 88.1 Сент. 11.9 -1.0 0 0 82.7 Окт. 0 0 0 0 70.8 Нол б. -12.2 1.9 -.2 0 58.6 Дек. -18.7 1.0 0 -.6 52.1 Янв. -21.1 .3 0 0 49.7 +I + аппр 0 46.1 70.8 76.4 (-Т0.81
Использование двухфакторного анализа 339 Иллюстрация 2 (продолжение) в) форма только с ЭФФЕКТАМИ вфф эфф 70.8 Флагстафф -24.7 Финикс 0 Юма 5.6 Июль 19.1 0 .2 -.9 Авг. 17.3 0 .2 0 Сенг. 11.9 -1.0 0 0 ОКТ. 0 0 0 0 Нояб. -12.2 1.9 -.2 0 Дек. —18.7 1.0 0 -.8 Янв. -21.1 .3 0 0 Г) Форма только с АППРОКСИМАЦИЯМИ аппр аппр (-70.8) Флагстафф- 46.1 Финике 70.8 Юма 76.4 Июль 89.9 0 .2 -.9 Авг. 88.1 0 .2 0 Сент. 82.7 -1.0 0 0 Окт. 70.8 0 0 0 Нояб. 58.6 1.9 -.2 0 Дек. 52.1 1.0 0 -.6 Янв. 49.7 .3 0 0 Д) УПРАЖНЕНИЯ 2а/б/в/г/д/е) Выпишите ту же самую схему способом, отличным от 1) всех тех, что были выше, и 2) тех, что были выписаны для предыдущих упражнений из этой серии, и разберите «за» и «против» способа, выбранного вами. ОБЗОРНЫЕ ВОПРОСЫ С какого примера мы начали? Что мы нашли сначала и что делали с dTIIMH величинами? Что делали дальше? Что получилось? Как ис- пользовались двойные линии? Одинарные линии? Что такое эффект? и (°,11Уедставляет собой понятие «общее»? Что обозначают «эфф стл» емл^ СТР>>'> Какого рода остатками мы занимаемся? Какова всеобъ- Униве^353 <<сло„весная формула»? Как располагаются блоки в наиболее МожнРоСаЛЬН°Й Ф°Рме? Какого рода анализ проводится по этой схеме? (или ппЛИ пользоваться другими схемами такого анализа? Почему описание^ нет^ Какова связь между аппроксимацией и частичным 10Б‘ АППРОКСИМАЦИЯ «СТРОКА-ПЛЮС-СТОЛБЕЦ» Данных "°ЛУЧИТЬ значения аппроксимации, мы должны исключить хотим на(ГаТКИ’ Э™ слова приобретают различное значение, когда 6 с°ставные ™ значения аппроксимации и когда мы хотим показать части. На илл. 3 рассматривается тот же пример. Для
340 Глава 10 получения значений аппроксимации самое простое — это исполь равенство 3°Вать аппроксимация = заданное значение МИНУС остаток как и было сделано в п. А. В п. Б сделана проверка того, что значения аппроксимации ствительно имеют вид Дец. всё + эфф стр + эфф стл. Проверка НЕ подтверждает, что это та аппроксимация, которую мы ХОТЕЛИ иметь, а подтверждает только, чтс она имеет вид «строка- ПЛЮС-столбец», т. е. что она того вида, который мы надеялись по- лучить; эта проверка важна и полезна. На илл. 3, В показаны составные части аппроксимации. Отметим, что 1) таблица остатков осталась незаполненной и 2) теперь эта таб- лица отделена одинарными линиями (двойные линии остались за ее Иллюстрация 3 главы 10: температуры в Аризоне Показ и определение аппроксимации (данные из илл, 1) А) ЗНАЧЕНИЯ АППРОКСИМАЦИИ — найденные как заданное МИНУС остаток Флагстафф Финикс Юма Июль 65.2 89.9 95.5 Авг. 63.4 88.1 93.7 Сент, 58.0 82.7 88.3 Окт. 46.1 70.8 76.4 Нояб, 33.7 58.6 64.2 Дек. 27.4 52.1 57.7 Янв. • 25.0 49.7 55.3 Б) ПРОВЕРКА значений АППРОКСИМАЦИИ Финикс Юма минус минус .Флагстафф Финикс 24.7 5.6 24.7 5.6 24.7 5.6 24.7 5.6 24.91’ 5.6 24.7 5.6 24.7 5.6 Отметим, что здесь проверяется лишь то, что выписанные значения являются нам Ниями какой-то возможной аппроксимации, но не обязательно той, кот " требуется. ') Это значение, не равное другим, указывает на ошибку. Возвращаясь мы находим, что 35,8 МИНУС 1,9 должно быть 33,9, а не 33,7 (как в п, А » Мы будем дальше всюду применять такую коррекцию.
Использование двухфакторного анализа 341 Иллюстрация 3 (продолжение) в) КОМПОНЕНТЫ АППРОКСИМАЦИИ ©фф 70.8 I -24.7 0 5.6 | 0 Июль 19.1 89.9 ’ двг. 17.3 v 88.1 Сент. 11-9 82.7 ’Окт. 0 70.8 Нояб. -12.2 58.6 Дек. —18.7 52.1 Янв. —21.1 49.7 ч аппр 0 I 46.1 70.6 76.4 I (-70.8) нм-колько способов определения числа (значения аппроксимации)* расположенного р левом верхнем углу (июль, Флагстафф): 70.8 - 24.7 + 19.1 = 65.2 0 + 46.1 + 19.1 = 65.2 ( 0 - 24.7 + 89.9 = 65.2 (-70.8) + 46.1 + 89.9 = 65.2 Г) УПРАЖНЕНИЯ За/б/в) Выпишите значение аппроксимации из верхнего правого (нижнего левого* нижнего правого) угла каждым из четырех способов, указанных в п. В и, кроме того, как «заданное МИНУС остаток». Зг) Проделайте то же самое для неуглового элемента по вашему выбору. пределами). И то и другое указывает на то, что остатки мы НЕ вклю- чили в таблицу. Обратите внимание на то, как много — и как мало — дает эта °™етим также, что разность двух аппроксимаций «строка- п" 'ОС-столбец» есть основа аппроксимации «строка-ПЛЮС-столбец». POKCW М“' можем таким же образом проверять разность двух апп- УЗНАЛИ ЛИМЫ ЧТО-ТО НОВОЕ? Есте ,,ечто боСТВеННО задать вопрос: дала ли нам такая аппроксимация т°Рые дьшее> ЧеМ те ТРИ довольно тривиальных утверждения, ко- пЬ1 сМожем°ЛуЧИЛИ’ РассмотРев таблицу на илл. 1, А? Что нового крайне узнать благодаря полному двухфакторному анализу? ней мере следующее: 6q411Hoh Мизмен°ЛЬШ°1'”1 остаток’ равный 1,9, мал по сравнению с ве- 00flbmeg Ча^1енения эффекта от пункта к пункту и по сравнению с сОсИбемся, еЛЮ изменений эффекта от месяца к месяцу; мы едва ли ^У^КИла и„ и ска>кем, что аппроксимация «пункт-ПЛЮС-месяц» Нам хорошую службу;
Глава 10 Использование двухфакторного анализа 343 342 О теперь мы точно знаем, что во Флагстаффе приблизите 25°F прохладнее, чем в Финиксе, в то время как в Юме НаЛV10 На теплее, чем в Финиксе; 5"-60р О у нас есть последовательность эффектов месяцев, их окг> ные значения (19, 17, 12, 0, —12, —19, —21) монотонно убыва16*1' месяца к месяцу, сначала медленно, затем быстро, затем снов °т ленно. Это похоже на симметрию относительно октября (изме Ме^' от сентября к октябрю и от октября к ноябрю почти вдвое g0He,1H« чем для других пар соседних месяцев); ЬЦЧ 0 большие значения остатков приходятся: положительнь на ноябрь и декабрь для Флагстаффа, отрицательные — ца сентяб" для Флагстаффа и июль для Юмы. бРь Очевидно, это много больше того, что можно было извлечь не средственно из первоначальной таблицы илл. 3, А. Мы сняли об завесы — эффект сезона и эффект места. Как только мы сняли и то и другое, мы смогли увидеть довольно многое из того, что ранее ос- тавалось незамеченным,— в нашем случае в основном то, что остав- шаяся часть (остатки) относительно мала, а также то, какие остатки больше других, какого они знака и приблизительно насколько они велики. ВОЗМОЖНОСТЬ РАЗЛИЧНЫХ ВИДОВ АНАЛИЗА Когда мы имеем дело с аппроксимацией «строка-ПЛЮС-столбец», мы сознательно проявляем гибкость, так же как мы делали это ранее, когда имели дело с формулой значение=аппроксимация ПЛЮС остаток. Когда аппроксимация осуществлялась наиболее типичным значе- нием — или прямой линией,— мы были подготовлены к тому, что существует не одна, а несколько различных аппроксимаций, каждая со своим множеством остатков. Положение дел не меняется для ап- проксимации «строка-ПЛЮС-столбец». На илл. 4, А и Б показаны две (из большого количества возмож- ных) аппроксимации, полученные с помощью анализа «строка-HJ столбец», показанного в различных вариантах на илл. 2. Разл . между тремя вариантами анализа иллюстрируются тремя раз ниями температуры для июля во Флагстаффе: 65,2 = (70,8)+ (19,3)-И—24,7) + (—0,2) 65,2 = (70,8)4- (19,1) + (—24,7) +-(0) 65,2 = (70,8) + (18,7) + (—24,4)+ (0,1) Различия малы, но они существуют. оситеЛЬЙ° В следующей главе мы дадим некоторые указания оТН рИмейЯтЬ того, какой вариант анализа «строка-ПЛЮС-столбец» над°ШР совегь1’ в обычной практике анализа наблюдений. Но это будут лИ илл. 2 илл. 4,А илл. 4,Б Иллюстрация 4 главы 10: температуры в Аризоне Два различных вида анализа «строка-ПЛЮС-столбец» (в универсальной форме) для одних и тех же данных А) ДРУГОЙ АНАЛИЗ «строка-ПЛЮС-столбец» — по сравнению С илл. 1, Р эфф Флагстафф Финикс Юма аппр эфф 70.8 -24.7 0 5.6 0 Июль 19.1 0 .2 -.9 89.9 Аег. 17.3 0 .2 0 88.1 Сент. 11.9 -1.0 0 0 82.7 Окт. 0 0 0 0 7С.8 Нояб. -12.4 2.1 0 .2 58.4 Дек. -18.7 1.0 0 -.6 52.1 Янв. -21.1 .3 0 0 49.7 аппр 0 46.1 70.8 76.4 (-70.8) Б) ЕЩЕ ОДИН анализ «строка-ПЛЮС-столбец» для ТЕХ ЖЕ ДАННЫХ Эфф 70.8 -24.4 —.2 5.4 0 Июль Авг. Сент. Окт. Нояб. Дек, Ян в. 18.7 17.4 11.4 0 -11.4 -18.5 -21.0 .1 -.4 -.8 -.3 .8 .5 -.1 . о? . . . . —* 00 М *4 СО 00 -.3 .1 .7 .2 -.6 -.6 .1 89.5 88.2 82.2 70.8 59.4 52.3 49.8 аппр 0 I 46.4 70.6 1Ъ2 (-70.8) В) УПРАЖНЕНИЯ, обязательные для ВСЕХ ЧИТАТЕЛЕЙ пянных. 4а) Постройте таблицу для анализа «строка-ПЛЮС-столбец»jex.же отличающегося (по остаткам, а не по форме записи) от р стрированных. 46) Постройте еще одну подобную таблицу. ,„„пи„я «гтпока-ПЛЮО 4в) Выскажите свое мнение о выборе из пяти вариантов ан Р столбец» для одного этого множества данных. Все, ЧТО г, ОДчиняется равенству значение=общее+эфф стр+эфф стл+остаток, *имым в анализом «строка-ПЛЮС-столбец». Будет ли он необхо- 11 кРитиио°НКРетн0м слУчае, становится ясно после его внимательного Таким б°Г° РассмотРения. к*13, пРедст азом’ возможно, и есть основания утверждать, что ана- и бодееаВленный па илл. 4, Б, вообще говоря, так же полезен, В ясн0 ПРОСТОЙ анализ на илл. 2, но, без сомнения, из таблицы видно, что все остатки можно заключить в промежуток
344 Глава 10 между —0,8 и +0,8°F, что и осуществляется этой аппрокснм То ли это, что мы хотели сделать? Если да, то прекрасно. Есл кончайте заниматься этим анализом — возвращайтесь к илл о Нет> пробуйте что-то иное. ’ г ОБЗОРНЫЕ ВОПРОСЫ Как мы находили аппроксимацию? Каковы ее значения? Как проверяли значения аппроксимации? Как часто следует провепМЬ1 аппроксимацию? Что дает и чего не дает проверка? Узнали ли ТЬ больше после проведения анализа, чем при нашем первом рассм^ рении данных? Какая форма представления данных ближе всего°Т' универсальной, пригодной для общего случая? Что неизвестное цаК ранее мы узнали из этого анализа? Должны ли мы проявлять гиб' кость при выборе варианта аппроксимации «строка-ПЛЮС-столбец»? В вопросе о том, какую аппроксимацию рассматривать? Почему (или почему нет)? Как мы решаем, какую аппроксимацию использовать в конкретном случае? Обязательно ли отдавать предпочтение той аппроксимации, у которой остатки расположены ближе друг к другу? 10В. НЕКОТОРЫЕ ТЕХНИЧЕСКИЕ ВОПРОСЫ ИСПОЛЬЗОВАНИЕ ЖИРНОГО ШРИФТА Здесь уместно напомнить читателю, что жирный шрифт встре- чается не только на страницах книг. Ранее мы советовали использо- вать несколько цветов — или по крайней мере противопоставлять карандаш чернилам — с их помощью можно изобразить простейшие диаграммы вручную. Даже те, кто предпочитает один карандаш или чернила одного цвета, всегда могут придать данным достаточную выразительность, обводя в кружки (отдельно или блоками) те числа, которые следовало бы напечатать жирно. , По мере того как наши таблицы становятся все более разноо разными и подробными, все более важным становится использован жирного шрифта, и использование его с толком. На илл. 5 покаа и’ как при всем разнообразии видов таблиц мы должны немного задеР вать взгляд, если блочная структура представленных даннь1^поКи, черкивается чередованием жирного и светлого шрифтов, так что ^дз расположенные в таблице рядом (бок о бок или сверху и снизу)» различаются — один выделен жирным шрифтом, а дрУгоИ не НУЛИ И ДЕСЯТИЧНЫЕ ТОЧКИ Ч Мы сочли удобным в наших таблицах делать РаЗЛИ^а ме^ значениями, точно равными нулю и близкими к нулю. РаЗН очень малым остатком и остатком, в точности равным ну » атуре. Ч В тексте перевода этой книги мы, как принято в отечественной^.^ отделяем целые от десятичных знаков не точкой (как в таблицах), а з ред.
Использование двухфакторного анализа 345 Иллюстрация б главы 10: температуры в Аризоне ,личИые применения жирного шрифта для четырех форм записи и того же анализа из п. А илл. 2 (данные из илл. 1) одного и г ,офф» н «аппр», ВЫПИСАННЫМИ РЯДОМ, и с попеременным употреб- Флагстафф Финикс Юма эфф аппр Июль -.2 0 -1.1 19.3 90.1 Авг. -.2 0 -.2 • 17.5 88.3 Сент. -1.0 0 0 11.9 82.7 ОКТ» 0 с 0 0 70.8 Нояб, 2.1 0 .2 -12.4 58.4 Дек. 1.0 0 -.6 -18.7 52.1 Янв, .3 0 0 -21.1 49.7 эфф -24.7 0 5.6 70.8 0 аппр 46.1 70.8 76.6 0 -70.8 Б) G ОПУЩЕННОЙ «аппр» и ПЕРЕДВИНУТЫМИ «эфф» Флагстафф Финикс Юма эфф Июль -.2 0 -1.1 19.3 Авг. -.2 0 -.2 17.5 Сент. -1.0 0 0 11.9 Окт. 0 0 0 0 Нояб. 2.1 0 .2 -12.4 Дек. 1.0 0 -.6 -18.7 Янв. .3 0 0 -21.1 Эфф -24.7 0 5.6 70.8 в) С ОДНОЙ ЧАСТЬЮ «аппр», ПРИВЕДЕННОЙ В СКОБКАХ: Флагстафф Финикс* Юма аппр эфф Июль —2 0 —1.1 (90.1) .19.3 Авг. -.2 0 -.2 (88.3) 17.5 Сенг, -1.0 0 0 (82.7) 11.9 Окт. 0 0 0 (70.8) 0 Нояб, 2.1 0 .2 (58.4) -12.3 Дек. 1.0 0 .в (52.1) -18.7 Янв. .3 0 0 (49.7) -21.1 вфф . -24.7 0 Б.6 (0) 70.8
346 Глава 10 Использование двухфакторного анализа 347 Иллюстрация о (продолжение) Г) Как и в п. Б, но ЖИРНЫЙ И НЕЖИРНЫЙ ШРИФТЫ переставлены стами Ме" Флагстафф Финикс Юма эфф Июль -.2 0 -1.1 19.3 Авг. -.2 0 -.2 17.5 Сент. -1.0 С 0 113 Окт. 0 С 0 0 Нояб, 2.1 0 .2 -12.4 Дек. 1.0 0 -.6 —18.7 Янв. .3 0 0 -21.1 эфф —24.7 0 5.6 70.8 Д) УПРАЖНЕНИЯ 5а/б/в/г) Постройте для анализа илл. 4, А таблицы типа п. А/Б/В/Г. 5д/е/ж/з) Скопируйте соответственно таблицы п. А/Б/В/Г, используя для записи чи- сел ЧЕТЫРЕ ЦВЕТА, чтобы подчеркнуть обособленность частей таблицы 5а2/б2/в2/г2) Проделайте то же самое для анализа илл. 4, А. О совершенно неважна до тех пор, пока речь идет о смысле этого остатка или той величины, из которой он получился; О полезна в методическом отношении, так как помогает показать две вещи: как был сделан конкретный анализ и каковы мелкомас- штабные изменения остатков, связанные с нашим методом аппрок- симации. В отличие от нашей обычной практики мы рассматриваем числа с десятичными знаками. В этом случае мы можем совершенно четко выделять точные нули. Все, что нужно, это присоединить к точному нулю десятичную точку. Если же, как это часто бывает, у нас числа без десятичных знаков, легко отличить точный нуль с помощью какого-нибудь другого спо- соба. Имеются два естественных обозначения: О буква «Z» для «нуля»; 0 контрольный знак «к», если «аппроксимация точная». Мы вольны использовать любое из них. ОБЗОРНЫЕ ВОПРОСЫ Л ? цеМ за' Как мы используем жирный шрифт? Жестко или гибко. тоЧйуе меняют жирный шрифт при работе вручную? Как мы вЫ'аелЯЛ^лйзкоГ° нули? С какой целью точный нуль отличают от значения, к нулю? Когда это не имеет значения? Имеются ли у нас Р способы отмечать «нуль»? Каковы они? ЮГ. АНАЛИЗ «СТРОКА-НА-СТОЛБЕЦ» своили ранее, что часто неразумно анализировать имеющиеся М1’1 \ом виде, в котором мы их получаем,— или из нашей перво- числа в й записи, или из других источников. Теперь же следует в начаЛЬЙ° ноМ ПОрЯ’дКе рассматривать и их логарифмы, корни, а иногда обязате велицинЫж по крайней мере это в такой же степени верно обратны за «строка-ПЛЮС-столбец», как и для более простых вари- дЛЯ ^анализа, которые мы рассматривали. аит° иЛЛ 6, д приведены данные о пяти статьях расхода населения ятилетниё интервалы с 1940 по 1960 г. Даже мимолетный взгляд 33 "эти значения показывает, что анализ «строка-ПЛЮС-столбец» на не подходит, во всяком случае если нужно анализировать пер- ечные данные. Расходы на пищу и табак возросли на 64 млрд,— с 99 до 86 млрд, в то время как на частное образование и обучение — только на 3 млрд, (с 0,64 до 3,64). Однако, поскольку и то и другое увеличение произошло примерно в 4—5 раз, есть надежда, что лучше данные прологарифмировать. На илл. 6, Б изображен как раз результат логарифмирования, а в п. В, Г и Д проводится анализ «строка-ПЛЮС-столбец» для логариф- мов. Глядя на этот анализ и на диаграмму «стебель с листьями» (п. Е) получающихся остатков, мы видим, что ф аппроксимация достаточно хороша, только остаток расходов на содержание жилища в 1960 г. оказался внешней точкой (другие довольно большие остатки — у расходов на питание в 1960 гг. и на личные нужды в 1945 г.); А — _____ ж ~ж ж____ между 1940 и 1950 гг., чем между 1950 и 1960 гг.; 0 эффект статьи расхода довольно велик; v три самых больших остатка выписаны в п. Е. Когда мы рас- . j анализа, мы замечаем, что, во-пер- питание и табак постоянно падают от так что нас может заинтересовать, в какой мере не- цен на продукты питания возвращает нас к рас- значец '1,uv Ь’асх°Д°в 1945 г., и, во-вторых, гораздо более низкое Рый и'6 Расх°Д°в на содержание жилища в 1960 г.— факт, кото- озможно, должен найти объяснение. р пУб:пика согласна иметь дело с ЛОГАРИФМАМИ СТА- ^Ла. Hv то таблицы в п. Д и Е лучше всего передают суть Тож..^ 2 а если она не согласна? Что если она способна мыслить ItfTJ Т. —---- 1945 и о эадект года возр^'Удавигельне. „остоянно, но быстрее между 1940 и 1950 гг., чем между 1950 и 1У •» 0 эффект статьи расхода довольно велик, сматриваем их в рамках полного вых, остатки для расходов на 1945 к I960 г., та” Давнее повышение цен на i вределению расходов 1945 знац₽т..;г _ 1жа удержание жилища возможно, должен найти объяснение. тРлсли наша публика согласна иметь дело с ^^^^РИФМАМ^СТА РАСХОДОВ,' то таблицы r п П « v °™ т0Л‘ ^7 с ’-‘-•'‘и она не согласна? Что если с —- - - ат0Ьр5в миллиардах долларов? Единственное, чТОдрДПИЗд рас1 Ск1отт>3цбавиться от логарифмов ПОСЛЕ проведения сновпое раз- М Лг1я пРимеРа расходы на питание в 1960 • Ие в таблице п. Д имеет вид 1,94= (0,99)+ (0,78)+ (0,30)+ (—0,13).
348 Глава 10 Иллюстрация 6 главы 10: личное потребление Некоторые статьи расхода граждан (для США) А) ДАННЫЕ — в миллиардах долларов 1940 1945 1950 1955 1960 Питание и табак 22.2 44.5 59.6 73.2 86.8 Содержание жилища 10.5 15.5 29.0 36.5 46.2 Медицинская помощь 3.53 5.76 9.71 14,0 21.1 Личные нужды 1.04 1.98 2.45 3.40 5,40 Частное образование и обучение .641 .974 1.80 2.60 3.64 Б) ЛОГАРИФМЫ РАСХОДОВ — логарифмы миллиардов долларов Питание 1.35 1.65 1.77 1.87 1.94 •Жилище 1.02 1.19 1.77 1.87 1.94 Мед. помощь- .55 .76 ’ .99 1.15 1.32 Личн. нужды .02 .30 .39 .53 .73 Части, обр. -.19 -.01 .26 .41 .56 В) ПЕРВЫЙ ЭТАП АНАЛИЗА ЛОГАРИФМОВ симация из п,Б — удалена одна аппрок- Питание -.42 -.12 0 г .10 .17 1.77 Жилище -,44 -.27 0 .10' .17 1.46 Мед. помощь -.44 -.23 0 ,16 .33 .99 Личн. нужды —.37 -.09 0 .14 .34 .39 Части, обр. -.45- -.27 0 .15 .30 .26 Г) ОДИН АНАЛИЗ «строка-ПЛЮС-столбец» ЛОГАРИФМОВ из п. Б с исполь- ВОванием эффектов Питание .02 .11 0 -.04 -.13 .78 Жилище 0 -.04 0 -.04 -.10 .47 Мед. помощь 0 0 0 .02 .03 0 Личн. нужды .07 .14 0 0 .04 -.60 Части, обр. -.01 -.04 0 .01 0 -.73 эфф. -.44 -.23 0 .14 .30 .99 С Д) ДРУГОЙ АНАЛИЗ «строка-ПЛЮС-столбец» ЛОГАРИФМОВ из и. Питание 1940 .02 1945 .11 1950 0 1955 -.04 1960 -,1§ эфф< .78 жилище .04 0 .04 0 -.06 .43 Мед. помощь 0 0 0 .02 .03 0 Личн, Нужды .03 .10 -.04 -.04 0 7Я Части, обр. -.01 -.04 0 .01 0 ©фф -.44 -.23 0 .14 .30 .99
Использование двухфакторного анализа 349 Иллюстрация 6 (продолжение) Е) СТЕБЕЛЬ с ЛИСТЬЯМИ для остатков п. Д 2 .1 .1* .0 10 25 остатков / Гб4Й1 б —.05 П +.06п 13 .0* 24304002130 M13I 0 I одно два Т2 -.0* 1004044400 М 71—.01 .021.03 Б -.10 +..11 2 -.0 6 1 -.1* 3 -л/ прим. =—.04 (четыре) внешн. = —.06(1960, жилище) прим. = +.04 (два) внешн. = +.10(1945, личн.) внешн. = +.11 (1945, питание) отек. = —.13(1960, питание) ^К) АНАЛИЗ «строка-НА-столб1 ц», соответствующий п. Г: Питание 1.05 1.29 1 .91 .74 X 6.00 Жилище • 1 .91 1 .91 .80 2.94 Мед. помощь 1 1 1.05’ 107 1 1 • Личн. нужды 1.17 1.38 1 1 1.10 .25 Части, обр. .98 .91 1 102 1 .186 .36 .59 1 1.38 2.00 I X 9.80 ПЕРЕМНОЖАЯ числа по одному из ВСЕХ ЧЕТЫРЕХ ЧАСТЕЙ ТАБЛИЦЫ, ПОЛУЧИМ все первоначальные ЗНАЧЕНИЯ. Примеры: логарифмирование данных из п. Г: “ 1g 1,05=0,02; 1g 1,29=0,11; 1g 6,0=0,78; lg 0,36=—0,44; lg 0,59=—0,23; lg 9,80= 0,99; произведения: (1,05) (0,36) (6,00) (9,80)=22,2; (1,29) (0,59) (6,00) (9,80)=44,5. И) АНАЛИЗ «строка-НА-столбец», соответствующий п. Д: Питание Ю5 1.29 i .91 .74 Жилище । №д. помощь Личн. нужды Части, обр. Эфф 6.0 2.7 1 28 .186 8ФФ -36 .59 1 1.38 2.00 АППРОКСИМАЦИЯ «строка-НА-столбец» (п. И) Питана ’1940 1945 1960 19БВ Жипише 21 ЗБ- Б9‘ 81 ^Йомощь й ’5Я6 26й ЗБ- Личн Hvxrnu. ЗБ 5,8 98 13-8 Ч*°ТН.№рЯЫ !! 16 27 37 -65 1.07 1.8 2.6 = 8.8 1960 118. 52. 19.6 5.4 3.6
350 Глава 10 Иллюстрация 6 (продолжение) Л) ОСТАТКИ от п. И в % Питание 5% ‘ 29% V -9% -26% Жилище V —9% Мед. помощь Пичн, нужды Части, обр. М) ОСТАТКИ от п. И в МИЛЛИАРДАХ ДОЛЛАРОВ — округленные с т ностью до половинок: °4' Питание 1 10 V -8 -31 Жилище 1 —.1 .3 .5 —5.8 Мед. помощь -/ V V .5 1.5 Пичн. нужды .06 .4 -.3 —.3 -J Части, обр. - .01 —.10 V .1 .04 Н) УПРАЖНЕНИЯ 6а) Заполните пустые места таблицы в п. И. 66) Проделайте третий анализ «строка-ПЛЮС-столбец» логарифмов из п. Б и пре- вратите его в анализ «строка-НА-столбец» значений из п. А. 6в) Проверьте, что числа в таблице п. Ж воспроизводят по крайней мере три значе- ния из п. А. (Найти, что следует перемножить и что перемножение дает.) 6г) Заполните таблицу п. Л. 6д) Продумайте смысл остатков в п. Л. бе) Продумайте смысл остатков в п. М. 6ж) Сравните свои рассуждения в упр. 6в и 6г. О) ИСТОЧНИК: 1962 World Almanac and Book of Facts (c. 756) (их источник: Office of Business Economics, U. S. Department of Commerce). Здесь 0,99 =lg9,8; 0,78=lg6,0; 0,30=lg2,0; —0,13=lg0,74, так что соответствующее соотношение в миллиардах долларов будет 86,8« (9,8) • (6,0) • (2,0) • (0,74), и при желании его можно записать как 86,8« (9,8) • (6,0) • (2,0) за вычетом 26%. Анализ «строка-НА-столбец» 1), соответствующий анализу «строка-ПЛЮС-столбец», представленному в пп. Г и Д, приведен в пп. Ж и И. В них все верно, но этого п°РсТВС тельно мало, чтобы оказать должное воздействие на больш» людей. Как же нам действовать дальше? «ценн851 В п. К показана аппроксимация исходных данных, полу преД' перемножением эффектов. Для некоторых это будет более яс”11МацИ'1 ставление, чем через эффекты года и компоненты аппро в п. Ж- ___________ перев' *) Сокращение выражения «строка, умноженная на столбец»-
Использование двухфакторного анализа 351 " „ поКазаны остатки после такой аппроксимации (в процентах). В пJ сочтут это представление, которое фокусирует наше вни- ^екоторь доляХ изменений, вполне удовлетворительным. Другие мание главное — сфокусировать внимание на величинах изме- найДУт'„ля них единственным способом эффективно представить ос- является таблица в п. М. таТ7г гда исходные данные лучше аппроксимируются с помощью за «строка-НА-столбец», существует множество различных спо- SS представить результат, и часто очень важная процедура выбора собов них — почти всецело дело читателя. ^Как читатель, возможно, уже заметил, в анализе «строка-НА- бец» мы можем обращаться с «точной 1», если используется деся- СТ°ная точка, таким же образом, как мы обращались с «точным О» ТИ анализе «строка-ПЛЮС-столбец». С очевидными изменениями все рассуждения конца предыдущего раздела применимы и здесь. ОБЗОРНЫЕ ВОПРОСЫ С какого примера мы начали? Стоит ли проводить анализ заданных значений способом «строка-ПЛЮС-столбец»? Что следует сделать, чтобы такой анализ стал приемлемым? Получилось ли это у нас? Можем ли мы «ПЛЮС-анализ» логарифмов превратить в «НА-анализ»? В анализ чего? Как мы используем тройные линии? Как мы различаем «НА-анализы» по их представлениям? В каких случаях мы хотим все разъяснить особенно подробно? В каких случаях мы хотим все осо- бенно подробно разъяснить о «ПЛЮС-анализах»? Как можно пред- ставить то, что остается после «НА-аппроксимации»? Есть ли у нас выбор? (Ответьте подробно.) Какие выводы можно сделать из рас- смотренного примера? ЮД. РАССМОТРЕНИЕ АППРОКСИМАЦИЙ «СТРОКА-ПЛЮС- СТОЛБЕЦ» И ИХ ОСТАТКОВ наг^аШа следУЮ!Дая задача — научиться с помощью рисунков более бец»ЯДН° пРедставлять сначала аппроксимации «строка-ПЛЮС-стол- полу’ча потом их остатки. Для аппроксимаций нам надо найти способ У ения рисунка, который иллюстрирует их, например, в виде эффект строки ПЛ-ОС аппроксимация столбца просто и и Столб1 ЯСН° ДЛЯ любого сочетания строки и столбца. Когда и строк Мой неиаб°Не ТЭК мало> любая попытка сделать это на одной пря- к°торые ежно пРиведет к полной неразберихе и провалу. Точки, 11е°бход11мо°ТВеТств^10т Различпым значениям аппроксимации, нам сРазу же п размазать в «стороны». Когда это выходит, мы можем е₽емеяное нХИ^Лростой РисУнок- ПРИ этом единственное кратко- еУДобство состоит в том, что одно направление на наших
352 Глава 10 картинках не будет иметь никакого смысла. Нам следует науч забывать об одном направлении на таких рисунках, что действит11ТЬСя довольно легко сделать. тельцо ДВУХФАКТОРНАЯ ДИАГРАММА На илл. 7 приведена полная картина данных илл. 5, Б. Здесь есть три столбца — Флагстафф, Финикс и Юма — и семь строк — месяцы с июля по январь. Легко видеть (по крайней мере, пока мы говорим об аппроксимации), что январь в Юме теплее, чем октябрь во Флаг- стаффе, а июль во Флагстаффе по температуре близок к октябрю в Финиксе. Нам отчетливо видно поведение аппроксимации в целом. Хотя основное на этом рисунке — это аппроксимация, мы не долж- ны пренебрегать остатками. Необходимо знать: 1) насколько велики остатки в целом и 2) какие остатки являются наибольшими и каковы они. На илл. 7 в четырех точках пересечения (во Флагстаффе в сен- тябре, ноябре и декабре и в Юме в июле) мы нарисовали короткие вер. тикальные черточки. Длины этих черточек равны величинам соот- ветствующих остатков, так что координаты вторых концов представ- ляют не значения аппроксимации, а данные=аппроксимация ПЛЮС остаток. Мы явно показали всего несколько остатков (четыре) по двум при- чинам: Иллюстрация 7 главы 10: температуры в Аризоне Другой АНАЛИЗ «строка-ПЛЮС-столбец» (на основе п. Б илл. 5); структура аппроксимации
Использование двухфакторного анализа 353 попытаться показать много остатков, то картина может О еСЛпй запутанной, что ценность ее упадет вместо того, чтобы стать тако! возрасти. ссматриваемом случае даже наибольшие остатки так малы О БаВНЫе нами вертикальные отрезки настолько коротки, что мы и показам их оценить. Добавление еще более коротких черточек СдачемМне помогло бы нам. тоГО чтобы показывать остальные 17 остатков по отдельности, ВмеСтдаем им должное, помещая в нижней части илл. 7 полоску и мь1,° и ее отмечая их все 17 сразу, начиная от некоторой средней внУтР (мы показали бы среднюю точку, если бы остатки были хоть ЛИН юго больше) и кончая на внешних линиях. ^Заметим также, что свойство этой или любой другой двухфакторной шграммы — «шкала лишь в одном направлении, забудьте о дру- сом» — подчеркивается «последовательными линиями глубины», за- дающими вертикальный размер, т. е. пунктирными горизонтальными линиями, проведенными по бокам картинки, и отсутствием какого- либо размера в горизонтальном направлении. В следующей главе мы научимся строить такой рисунок, который будем называть двухфакторной диаграммой для любой аппроксимации «строка-ПЛЮС-столбец». АППРОКСИМАЦИИ «СТРОКА-НА-СТОЛБЕЦ» А что делать, если мы хотим иметь изображение для аппрокси- мации «строка-НА-столбец»? Есть две возможности; О построить рисунок для соответствующей «строка-ПЛЮС-стол- ную аппР°ксимации логарифмов — можно нанести на ее вертикаль- пепв°СЬ НЛИ °^е шкалы (исходных данных и логарифмов), или только ляо-рУ10 из них (этот вариант отпадает, если «НА-аппроксимация» ДЗег отрицательные значения); м V обратиться к первым разделам гл. 12. вместе.оказаться необходимыми каждая из возможностей или обе рассмотрение остатков самые большиеТаКЖе РассмотРеть остатки, особенно после того, как ^пример, На 113 были показаны в натуральную величину (как, р|3‘МеР каждогоЛ 7 Однако нас интересует только приблизительный Зличать их п Остатка. а не его точное значение. Чтобы хорошо Ч N . Р 3меРы, достаточно пометить каждый из остатков ка-
354 Глава 10 ким-нибудь из следующих значков: очень большой положительный (Ф)ипи(ф) большой положительный (+) средний положительный {+) малый (любого знака) (•) средний отрицательный! о) большой отрицательный (о) очень большой отрицательный (©) Если наша таблица даже относительно большая, эмпирически методы могут помочь нам решить, каким значениям остатков какие присвоить значки. В рассматриваемом примере 12 из 21 остатка — нули, и мы можем с успехом воспользоваться простым рассуждением А именно, объявим остаток +2,1 очень большим положительным остатки —1,0; 1,0; 1,1 —большими, а остальные 5 ненулевых остат- ков — средними. Единственный наиболее полезный способ обозреть остатки — на- нести их условные обозначения на диаграмму аппроксимации в точках пересечения. Это позволит навесить на них много полезных «бирок», в том числе: О названия их строк и столбцов, О (грубые) численные значения их строк и столбцов, <0 (грубые) значения соответствующей аппроксимации и <> комбинации всего этого. разнообразие возможных ярлыков соответствует разнообразию Такое । способов, которыми мы можем анализировать эти закодированные остатки, и поэтому легче заметить многие особенности изучаемой структуры. На илл. 8 показано, как выглядят остатки для анализа, приведенного на илл. 5, Б. Теперь мы обнаруживаем: 1) очевидно преобладание отрицательных остатков в июле и августе и 2)отчетлиВ^ тенденцию для Флагстаффа к более прохладному лету и более теп‘ . зиме, чем это следует из аппроксимации. (И то и другое можно о $ ружить и из внимательного изучения илл. 5, Б, но диаграмма на и> заставляет нас обратить на это внимание. Не следует полагать тщательное изучение, если в этом нет необходимости.) Все, что мы отложили до следующей главы в отношении остатки, и поэтому легче заметить многие особенности изучаемой приведенного на илл. 5, Б. Теперь мы обнаруживаем: 1) 04eB1J^! более теплой двухфакторной диаграммы остатков (заданной двухфакторной диаграммы аппроксимации), эТ°иМвоЛ°м ботать стандартный метод выбора того, какой остаток каким цо изображать. Такой стандартный выбор часто бывает п0 нельзя допускать, чтобы он вступал в противоречие со здра лом.
Испольаование двухфакторного анализа 355 Иллюстрация 8 главы 10: температуры в Аризоне О атки из таблицы илл. 5, Б с ясно различимыми размерами и знаками — - Z цГ оо о 90t ---70Т ~-50‘F А — 90‘F ДРУГИЕ ОТЛОЖЕННЫЕ ВОПРОСЫ До следующей главы мы откладываем также О возможное объединение остатков — например, если мы счи- таем, что данные для января и февраля так близки, что лучше рас- сматривать их вместе. ОБЗОРНЫЕ ВОПРОСЫ Нуждаемся ли мы в рассмотрении аппроксимации «строка-ПЛЮС- столбец»? Почему? Можно ли использовать рисунки, на которых одно направление является важным, а о другом надо забыть? Зачем нужны два семейства параллельных линий? Чем они помогают? К ка- кому примеру мы вновь обратились? Что было показано на рисунке? та ° Можно сказать 0 больших остатках? О других остатках? Все- прок НаУЧНЛИСЬ ЛИ мы СТРОИТЬ двухфакторную диаграмму для ап- симации? Почему (или почему нет)? Что можно сказать о рисун- для «НА-аппроксимации»? Наск'ГаеМСЯ ли мы’ кРоме того, в рассмотрении остатков? Почему? 3Увм? в К° детальио их надо показывать? Какие символы мы исполь- меткй иоГ™ местах мы их наносим на диаграмму? Какого рода от- главу? Учаются таким способом? Что мы отложили до следующей 10Е- АППРОКСИМАЦИЯ с еще одним слагаемым S’ ^°noS "УЖН0 иродвинуться чуть дальше, чем это можно сде- КазЬ1вает 01^ью аппроксимации «строка-ПЛЮС-столбец». Как под- 12* 1Т’ чаще всего оказывается полезным провести неболь-
356 Глава 10 шую дополнительную аппроксимацию с помощью некоторой ной, умноженной на произведение эффектов строки и столбцяСТ°Ян' денных ранее. В этом случае аппроксимацию можно записать ’ На^' способами: лвУМя - . . . стр.стл все 4- стр + стл Ч----Е---- 1 1 1 дел И всё + стр + стл 4- k • ^CTPgg-C1J1^» где дел (сокращение для «делителя») и k — постоянные. С этой последней дробью (стр)-(стл) всё мы будем часто сталкиваться, и почти всегда она будет играть роль основы для некоторого сравнения, поэтому мы будем называть зна- чения этой дроби сравнительными значениями. Одно из преимуществ этих величин по сравнению с произведениями (стр) (стл) состоит в том, что они имеют ту же «размерность», что и эффекты. Если бы в нашем примере нужно было заменить F0 на °C, то все четыре величины: «аппр», «стр», «стл» и «всё» — следовало бы умножить на ъ./9 (предварительно вычтя из «всё» и «аппр» 32°F). В ре- зультате мы могли бы и дальше использовать ту же постоянную k перед дробью «(стр)(стл)/всё». [Если бы мы предпочли иметь дело с произведением «сопз1/(стр)(стл)», то, поскольку произведение умно- жилось бы на (®/8)2, мы должны были бы разделить const' на .%•[ Аналогичная ситуация возникает, когда мы переходим от футов к дюймам или производим какое-либо другое изменение единиц. На илл. 9 приведены другие среднемесячные температуры, на этот раз для трех пунктов на восточном побережье (здесь температура по вышается, а не понижается, как в примере с Аризоной), и их анал вида «строка-ПЛЮС-столбец». В п. В дается эскиз (в форме та°лИкое. двухфакторной диаграммы остатков, из которой можно сделать какие выводы, а именно: О когда эффекты столбца и строки имеют ОДИНАКОВЫЕ знак соответствующий им остаток или мал, или ОТРИЦАТЕЛЕН, О когда эффекты столбца и строки имеют ПРОТИВОН НЫЕ знаки, соответствующий им остаток или мал, или Hf ТЕЛЕН. Произведя аппроксимацию «строка-ПЛЮС-столбец» и пР^с^1йе шись к ней, мы увидели очень ясную особенность, котора уТЬсй описана нашим анализом. Это дает нам возможность пР°рЛЙитеЛЬ дальше —- в этом очевидном случае проделать кое-что Д°
Использование двухфакторного анализа 357 Иллюстрация 9 главы 10: восточное побережье Повышение температуры на восточном побережье А) ДАННЫЕ — среднемесячные температуры в Ларедо Вашингтон Карибу Яне. 57.6 36.2 8.7 Февр. 61.9 37.1 9.8 Март 68.4 45.3 21.7 Апр. 75.9 54.4 34.7 Май 91.2 64.7 48.5 рцон?. 85.8 73.4 58.4 Июль 87.7 77.3 64.0 Б) ОДИН'АНАЛИЗ «строка-ПЛЮС-столбец» п. А — в O,1°F эфф Яне. 0 1 -77 —183* Февр. 33 0 -76 -173 Март 16 0 -39 -91 АПР. 0 0 0 0 Май —50 0 35 103 Июнь -91 0 47 190 Июль -111 0 64 229 215 0 -193 544 В) ЭФФЕКТЫ И ОСТАТКИ п. Б в закодированной форме о о о о о О О о Г) СРАВНИТЕЛЬНЫЕ значения ^«меры- Ларедо Вашингтон Карибу —72 0 65 —68 П 61 —36 32 0 0 41 -37 75 'J -67 91 0 -81 (215Z544)(-183),
358 Глава 10 Иллюстрация 9 (продолжение) Д) УПРАЖНЕНИЯ — довольно длинные и трудные. 9а) 96) 9в) 9г) Составьте таблицу, для которой остатки имеют тот же знак, что и сравш значения, и постройте все указанные выше таблицы. ’Т(-':ьнце Проделайте то же самое с таблицей, для которой остатки приблизительно сравнительным значениям, умноженным на —2. ‘ 0 Равны Проделайте то же самое с таблицей, для которой остатки приблизительно сравнительным значениям, умноженным на 3. Равны Найдите множество реальных данных, не используемых в этой книге, где ос имели бы явную связь со сравнительными значениями, и постройте все укя„Татки выше таблицы. энные ное, а когда ситуация менее очевидна, разобраться, что дополнитель- ное можно попытаться сделать. Наиболее простая комбинация эффекта строки и эффекта столбца которая проявляется противоположным образом, когда знаки эффектов совпадают или различаются,— это их произведение: (эффект строки) НА (эффект столбца). Деление каждого произведения на «всё» ничего не меняет. По- этому наши сравнительные значения являются удобным индикатором, показывающим, целесообразно ли продолжать анализ. На илл. 9, Г представлены сравнительные значения, которые, очевидно, ведут себя в общем так же, как остатки, за исключением перемены знака и возможной разницы в масштабе. Несомненно, нам следует рассмотреть возможность перехода от нашей основной аппроксимации вида общее+эффект строки+эффект столбца, которую мы будем обычно записывать как всё+стр+стл, к аппроксимации вида , , (стр) (стл) все -ф стр + стл + k —, все где k — постоянная, которая должна быть определена. иИ Естественный способ отыскания значения k состоит в постр графика зависимости величины основной остаток=данное МИНУС (всё+стр+стл) от (стр)(стл) сравнительное значение — - — • ©то и сделано на илл. 10. Результат называется диагностической диаграммой.
Использование двухфакторного анализа 359 видна весьма явная и сильная зависимость основных ос- Здесь внИТеЛьных значений — зависимость, несколько отлич- таТков о нейной и имеющая слева от нуля менее ярко выраженный ваЯ ^тельный наклон, чем справа. Применяя прозрачную линейку ‘’^угольник, можно убедиться, что значение k — 1 дает заны неплохое согласование. В соответствии с этим на илл. 11 пока- остатки, полученные после включения в аппроксимацию члена Q (стр) (стл) ’ всё На илл. 11, Б показано, насколько в целом уменьшились остатки от Добавления к нашей аппроксимации всего лишь одного слагаемого Ясно, что мы добились такого удивительного результата за счет применения аппроксимации н у за счет всё-ПЛЮС-стр-ПЛЮС-стл-ПЛЮС-const(стр) (стл) всё ’ которую мы сокращенно будем обозначать как стр-ПЛЮС-стл-ПЛ ЮС-один. Применять это сокращение безопасно, так как не известно никакого Иллюстрация 10 главы 10: восточное побережье График зависимости основных остатков от сравнительных значений (данные из илл. 9) Сататки л X X X * X о - X в X -50 - х х* х ' —L________I .. Ч Л -100 о 100 Дратом с точкой представлено 8 совпадающих значений
360 Глава 10 Иллюстрация 11 главы 10: восточное побережье Анализ с одним дополнительным слагаемым (данные в иллюстрации—среднемесячные температуры в O,1°F) А) АНАЛИЗ Ларедэ ] Остатки | Карибу LE значения (стр. );(СТЛ)/544] | Вашинг. Ларедо Вашинг Карибу эфф -183 Янв. -72 1 -12 72 0 -65 tpeep. -35 0 -15 68 0 -61 -173 Март -20 0 -7 36 0 -32 -91 Алр, 0 0 0 0 0 0 0 Май 9 0 -2 0 0 37 103 Июнь -16 0 -20 -75 0 67 190 Мюль -20 0 -17 -91 0 81 229 эфф 215 0 -193 544 Замечания. 1. Данные в новой таблице равны произведению (—1,0) на сравнительные значения, найденные по заданным общему эффекту и эффектам строк и столбцов. (Сравни- тельные значения имеются, например, в п. Г илл. 9.) 2. Блок «ПЛЮС-один» можно опустить, а привести только формулу для его значе- ний. Это экономит место, однако затрудняет понимание. Почти всегда, когда у нас будет место, чтобы разместить такой блок выше или ниже (если его нет слева или справа) от блока остатков, он почти всегда будет появляться. Б) ОСТАТКИ в виде ВЫБОРКИ до и после анализа с одним дополнительным слагаемым, округленные до десятков: (илп. 9, Б) 0+ (илл, 11, А) ч я О* 0* Я ч ш 6 5 323 00100 0000 4 5 0* 000000 -о* 0111000 Л 222222 ч 4 988 1 В) УПРАЖНЕНИЯ заКОно- Па) Посмотрите на остатки из п. А. Можете ли вы усмотреть какую-ни УД мерность? Что с ними происходит? 11а2) (трудное) Можете ли вы предложить дальнейшую аппроксима > могла бы оказаться полезной?
Использование двухфакторного анализа 361 „особа добавления единственного слагаемого к аппроксима- другого Ср[Д{0С-стл», который применялся бы так же часто и был бы ции же эффективен, как только что изученный. ОБЗОРН э1Е ВОПРОСЫ ю мЫ рассматриваем дополнительную аппроксимацию, если УоЛуЧить чуточку больше после аппроксимации «стр-ПЛЮС- Хотим такое сравнительные значения? Почему они удобнее, чем СТЛ>> о произведения эффекта строки на эффект столбца? Какой пример ПР°СТ1брали? Какую картину дают остатки аппроксимации «стр-ПЛЮС- МЫ ? Как она соотносится со сравнительными значениями? Как мы СТ Усмотрели? Что такое диагностическая диаграмма? Какое мы выб- ^ли значение для ft? Улучшило ли это наш анализ? ЮЖ. ПЕРЕХОД ОТ «ПЛЮС-АППРОКСИМАЦИИ» К «НА-АППРОКСИМАЦИИ»; ПРЕОБРАЗОВАНИЕ Мы только что — в" предыдущем разделе — видели пример, где естественная аппроксимация «ПЛЮС-один» была близка к всё + стр + стл — (стр) (,сгл-. г все Намного чаще встречаются случаи, когда естественная аппроксима- ция «ПЛЮС-один» оказывается близкой к всё + стр 4- стл 4- (стр) ^.CTJ1 , где дополнительное слагаемое имеет ту же величину, что и раньше, но обратный знак. Внимательный взгляд на это выражение, чуточку элементарной алгебры — и становится ясно, что оно совпадает с Bce(14-^W1+^V \ 1 все ) \ 1 все / nnenfbI11 может легко это проверить, проделав умножение и получив г жнее выражение. РавныкНЩ1°бРа30м’ аппРоксимация «ПЛЮС-один» с коэффициентом, С11Мации ^.’0’ ^ляется только другим подходом к отысканию аппрок- СНОВА СТАТЬИ РАСХОДА р Б к°тором есгественно вернуться к рассмотрению примера илл. 6, Чт° °на ока1Ы отказались от аппроксимации «стр-ПЛЮС-стл», потому Л113 <<Стр-Г1ЛЮсСЬ весьма нелепой. В начале илл. 12 представлен ана- *ОС-стл» для этих данных — тот самый, в котором остатки
362 Глава 10 Иллюстрация 12 главы 10: личное потребление Данные илл. 6, рассмотренные заново А) АНАЛИЗ «строка-ПЛЮС-столбец» ДАННЫХ илл. 6, А 1940 1945 1950 1955 1960 | аппр Питание -31.2 -11.1 0.0 9.3 15.8 59.6 Жилище -12.3 -9.5 0.0 3.2 5.8 29.0 Мед. обсл. .00 .00 .00 .00 .00 9.71 Личные нужды- 4.77 3.48 .00 -3.34 -8.44 2.45 Части, обр* 5.02 3.12 .00 -3.49 -9.55 1.80 ефф -6.18 - 3.95 .00 4.29 11.39 Замечание. Этот анализ так очевидно нелеп, что мы обошли его на илл. 6. Б) УПРАЖНЕНИЯ, КОТОРЫЕ ДОЛЖЕН ПРОДЕЛАТЬ КАЖДЫЙ ЧИТД ТЕЛЬ 12а) Превратите таблицу в п. А в анализ с использованием эффектов. 126) Составьте таблицу сравнительных значений. 12в) Постройте график зависимости основных остатков от сравнительных значений. На какое значение или значения коэффициента k указывает этот график? 12г) Найдите остатки для соответствующей аппроксимации (или аппроксимаций) «строка-ПЛЮС-столбец-ПЛЮС-один». 12д) Найдите остатки для аппроксимации «строка-ПЛЮС-столбец-ПЛЮС-один» с коэффициентом = +1,0. Разберите, что у вас получилось, — имеют ли эти остатки смысл? Почему (или почему нет)? 12е) Запишите анализ с коэффициентом +1,0 в виде аппроксимации «строка-НА- столбец». Сравните с результатами анализа п. Ж илл. 6. В) ДАЛЬНЕЙШИЕ УПРАЖНЕНИЯ 12ж) Возьмите анализ «строка-НА-столбец», полученный в заполненной таблице илл. 6, Ж, и запишите его как анализ «строка-ПЛЮС-столбец-ПЛЮС-один». 12д, е, ж) Сравните результаты (12ж) с аналогичными для п. А, т. е. (12г) и (141I. оказались катастрофически большими и систематическими. КажДЫ читатель должен проделать «обязательные» упражнения (илл. 1л, Ь которые помогут ему лучше во всем разобраться (советуем СР?5? \ относительное возрастание различных статей расхода с 1940 по 19о Аппроксимация «стр-НА-стл» откликов — при условии^ все эффекты строк и все эффекты столбцов положительны оВ> то же самое, что аппроксимация «стр-ПЛЮС-стл» логарифмов оТ1^теЛей, (Логарифм произведения равен сумме логарифмов сомно?к ий с поэтому достаточно взять логарифмы обеих частей.) В сооТБезыБаетсЯ этим, если коэффициент в аппроксимации «ПЛЮС-одиш ока сосТОцт близким к +1, это наводит на мысль, что одна из возможносте\ йБыХ в замене исходных величин их логарифмами (если среди значений не было отрицательных).
Использование двухфакторного анализа 363 МОГУТ СУЩЕСТВОВАТЬ ДРУГИЕ ПРЕОБРАЗОВАНИЯ не СТали бы удивляться, если бы для других коэффициентов И 6 вались бы другие преобразования, возможно (хотя бы в первом ^бл'^кенин) в соответствии с изученной нами в гл. 3 шкалой, а именН0* 1 -> возвести в квадрат, 5 -> возвести в степень 3/2, О - > оставить без изменений, 0,5 -*• взять квадратный корень, взять логарифм, 1,5 -> взять 2-> взять величину, обратную квадратному корню, обратную величину. Эти соответствия — действительно вполне хорошая догадка — доста- точно удачная, когда необходимо начать анализ и рассмотреть что-то другое, отличное от первоначальных данных или их логарифмов. ОБЗОРНЫЕ ВОПРОСЫ Какой вид аппроксимации «ПЛЮС-один» достаточно часто исполь- зуется? Чему эквивалентна аппроксимация «всё + стр + стл + (стр) (стл) / всё»? Чему эквивалентна аппроксимация «строка-ПЛЮС- столбец-ПЛЮС-один» с &=4~1,0? Можно ли преобразовать «ПЛЮС- анализ» в «НА-анализ»? Каким образом логарифмы позволяют вер- нуться обратно к «ПЛЮС-анализу»? Можем ли мы истолковать другие значения k? Каким образом? Часто ли возникает такая необходимость? 10И. ЧЕГО МЫ ДОСТИГЛИ? мет^*а глава приставляет собой наше введение в целое семейство завис°В анализа> которые можно применить, когда наши данные прим^Т °Т ДВУХ или более факторов. В начальных главах все методы (если Нялись дая Данных, зависящих не более чем от одного фактора построр6 ^ЧИТЬ1Вать разброс, свойственный всем данным). Даже при Чения уНИИ сРединных трасс и силуэтов использовались только зна- Дело с пп Что^,ы У3нать что-то о значениях у. В этой главе мы имели (или почтСТеИЦ\ИМ слУчаем одного отклика и двух факторов, когда все приставлены^ комбинаНии проявлений одного и другого факторов hhctdv Ы какими'либо откликами. Чтобы получить разнообраз- ГлавУ вместе117 ДЛЯ дальнейшей работы, необходимо рассмотреть эту с гл. 11,
364 Глава 10 Теперь мы можем: О использовать двойные линии для выделения блоков значени” которых путем сложения можно получить аппроксимацию; этот сп1, Иэ часто можно с успехом использовать для вычислений, проведена Ос°б гл 7, 8 и 9; HHbix в 0 проверить, что аппроксимация действительно имеет фо «стр-ПЛЮС-стр», производя вычитания значений аппроксимации строкам или по столбцам и проверяя затем, будут ли разности постоян° 0 выделять точные нули, чтобы не путать их с неточными (коп знака «Z», мы собираемся использовать «к», а неточные нули выделят6 добавлением к ним десятичной точки); 0 использовать тройные линии, чтобы отделять (и, следовательно связывать вместе) блоки чисел, из которых аппроксимация получается с помощью умножения. Кроме того, мы в состоянии: 0 изображать анализ «стр-ПЛЮС-стл» в виде либо таблицы эф- фектов, либо таблицы аппроксимаций; 0 строить рисунок, где внимание обращается только на одно направление (желательно со шкалой глубин на нем), и сосредоточи- вать свое внимание на расположении точек по вертикали и их взаимо- связи, не обращая внимания на расположение по горизонтали; 0 рассматривать схему закодированных остатков; 0 рассматривать любую аппроксимацию «стр-НА-стл», заданную в виде таблицы, и решить вопрос, следует ли взять логарифмы и прев- ратить нашу таблицу в таблицу для «стр-ПЛЮС-стл»-аппроксимации логарифмов исходных данных; 0 находить сравнительные значения (для каждого элемента таб- лицы такое значение равно произведению эффекта строки НА эффект столбца, деленному на «общее») и строить график зависимости остатков от сравнительных значений, т. е. диагностическую диаграмму; 0 подбирать наклон диагностической диаграммы, превращав таким образом, нашу основную аппроксимацию «стр-ПЛЮС-стл» в аппроксимацию «ПЛЮС-один» вида .. . , , , (стр) (стл) все 4- стр + стл -|- k —; все ° k 0 превращать аппроксимацию «ПЛЮС-один» с постоянной близкой к 4-1,0, в «НА-аппроксимацию»; нОй, 0 когда аппроксимация «ПЛЮС-один» оказывается п°лепоКа- добавлять еще один блок к нашей таблице результатов, чтобы зать, какие получились значения аппроксимации. Теперь мы знаем: йе 0 что можно строить двухфакторные таблицы остатков и отыс их может быть очень полезным;
Использование двухфакторного 365 О природу И гибкость двухфакторной аппроксимации- X смысл слов «строка», «столбец», «эффеКТ мации, цов», «аппроксимация строк»> «аппрокХГмация стадб?^^ я™6' Л что кроме анализа «стр-ПЛЮС-г-тп^ отолоцов», «общее»; Нд2тл» и <<стр-ПЛЮС-стл-ПЛЮ^дИТ М°ЖНО «Пользовать «стр-’ Мы научились: О успешно разлагать двухфакторные таблицы О разлагать данные на три или более частей так о них как можно больше. еи так> чтобы узнать Мы все еще занимаемся поисками лучших и бпп₽« . для того чтобы: у и более тонких методов, <> находить неполные описания- О устранять неполные описания , скрывается за ними. ’ ожно было увидеть, что Когда мы сможем применить все новое что зпеек ,, до», что оно гораздо полезнее того, что мы ана“ pS™.' ™ У“"
Глава 11 МЕТОДЫ ДВУХФАКТОРНОГО АНАЛИЗА УКАЗАТЕЛЬ К ГЛАВЕ 11 Обзорные вопросы 367 ПА. Удаление медиан 367 Контролирование ошибок 369 Вычитание 369 Возвращение к примеру 370 Эмпирическое правило 370 четыре шага 370 Аппроксимация 370 Обзорные вопросы 376 11Б. Другие способы расчета 376 Один из способов 376 Обзорные вопросы 378 11В- Построение ядра двухфакторной диаграммы 381 Обзорные вопросы 382 11 Г. Продолжение анализа (обращение к остаткам) 382 Обзорные вопросы 385 11Д. Кодирование остатков; сжатие аппроксимаций и остатков 385 Сжатие 390 Обзорные вопросы 393 ЦБ. Можно объединить! 393 Президентские выборы в штате Коннектикут 393 Другая возможность 397 Обзорные вопросы 399 ИЖ- Как выбирать преобразование? Количества и подсчеты диагностическая диаграмма Разные знаки Доли подсчетов Полезное размышление Обзорные вопросы ПИ. Чего мы достигли?
Методы двухфакторного анализа 367 мы отмечали во вступительной части к предыдущей главе, КаК главы идут бок о бок, а не следуют одна за другой. (Таким 9ти две Зп ПА будет иметь гораздо больше общего с разд. 10А, °^ра3<каи<ем, с разд. ЮД, ЮЕ и ЮЖ.) В этой главе мы в основном бу- пем' заниматься. д созданием методов нашего анализа, уделяя некоторое внимание ф словесным формулам для описания того, что происходит с дан- ными- К к всегда, мы будем подчеркивать, что проводим разведочный из данных, поэтому мы выбираем такие методы, чтобы одновре- менно имели место: а относительная легкость и простота использования; а достаточная эффективность (которая, однако, может быть по- теояна в более строгих методах); О совместимость с уже изученными методами, использованными в других ситуациях. №ы считаем, чтс> у>%?>уиьтата\, татауляг. удаот эта адетсда, дслтаточул, «хороши» для разведочного анализа, но это вовсе не означает, что они удачно выбраны для решения вопросов подтверждающего анализа. ОБЗОРНЫЕ ВОПРОСЫ Как эта глава связана с предыдущей? Какими свойствами должны обладать наши методы? Предполагается ли использовать эти методы для оешения вопросов подтверждающего анализа. ПА. УДАЛЕНИЕ МЕДИАН Мы приступили к изучению двухфакторных таблиц в начале пре- дыдущей главы (см. илл. 1 гл. 10) с того, что удалили сначала медианы 3 столбцов (мест), а затем медианы из строк (месяцев) и на этом оста- ™1,лнсь- Это привело нас — в том примере — к вполне приемлемому <<стРока‘ПЛЮС-столбец». Но не стоит надеяться, что всегда все убудет так просто вого ' начинается с результатов подсчета насекомых — картофель- 0ДинакоЛОРаАСКОГ° жука; каждая сумма подсчитывалась для двух Чтобы вВ° °®Ра®°таннь1Х делянок каждого участка поля, для того Можно бь сочетания четырех методов обработки и шести участков Дзнных считать по возможности однородными. (При обработке обычн0 нКспеРиментов из области сельского хозяйства эти участки вить это „ ывают «блоками», но нам в этом разделе необходимо сохра- В п д ово Для понятия блока чисел в таблице.) °б₽абитки /ПРИведены подсчеты, а в скобках — медианы для методов 1ДЛя строк). В п. Б мы используем одинарные и двойные
368 Глава И Иллюстрация 1 главы 11: подсчет числа насекомых Многократные удаления медиан, иллюстрируемые иа примере числа колорадских картофельных жуков Leptinotarsa decemlineata, подсчитанных на двух делянках А) ДАННЫЕ — и начало анализа Обра- I____________________' Учас-ток____________________1 [ботка | LU LU LU LU LU LU [ (медиана)[ 1 492 410 475 895 401 330 (442) 2 111 67 233 218 28 18 (89) 3 58 •267 283 279 392 141 (273) 4 4 1 53 14 138 11 (12) Б) ОДИН ПОЛНЫЙ ШАГ — и медианы 492 410 475 895 401 330 442 50 -32 33 453 -41 -112 111 67 233 218 28 18 89 22 -22 144 129 -61 "71 58 267 283 279 392 141 273 -215 -6 10 6 119 -132 4 1 53 14 138 11 12 -8 -11 41 2 126 -1 7 -16 92 68 39 -92 Пример; 50 = 492 - 442 В) СЛЕДУЮЩИЕ ДВА ШАГА (отрицательные числа обведены кружками) 492 410' 475 895 401 330 442 50 Ц32У 33 453 <<4Г) <41? 111 67 233 218 28 18 89 22 144 129 58 .267 283 279 392 141 273 <c2l5> 10 6 119 Цз? ' 4 1 53 14 138 11 12 41 2 126 7 <46> 37 68 39 53 czu 6 395 C-7Q> СЯЪ <FT3)I 43 <2 —4) 385 C^-8Q> <3> 89 43 3 is 15 107 61 Uocf> 21 43' 6 113 С-7У ЦззУ <J22?> 10 <^27> 80 1 _ 0 Czs> 83 87 4 1 5 4 <3g> 87 91 -11 ' —2 £«6. 7 6 -2 ... if ’ Г) УПРАЖНЕНИЯ, которые должны проделать ВСЕ ЧИТАТЕЛИ Логарифмами (умноженными на 100) от подсчетов в п. А являются: 269 261 268 295 260 252 204 183 237 234 145 126 176 243 245 245 259 215 60 0 172 115 214 104 1а) Составьте таблицу типа Б, начиная с этих 1а2) Составьте таблицу типа В. Д) ИСТОЧНИК: Beall G. The transformation :periments so that the analysis of variance becomes i2f 1942 (табл, 4 на с. 245), логарифмов. я! fi^d of data from entomology 243" applicable. BiometriKa,
Методы двухфакторного анализа 369 ом же смысле, что и в предыдущей главе, когда удаляем ме- jiiihi»1 в т к и находИМ медианы получающихся столбцов. На ней от- дианы сТР надПИСи и другие числа, которые мы выписывали во время сутст выше и ниже первоначальной таблицы данных, вычислении КОНТРОЛИРОВАНИЕ ОШИБОК В проделаны еще два шага. Кроме того, в нем вводится один К ift практический прием — обведение кружком отрицательных ружнь кт0 заниМается арифметическими подсчетами (или алгеб- ЧЙСеескими преобразованиями) вручную, хорошо известно, что знак РаИ недостаточно выделяется. По личному опыту автора, число оши- AiK при счете вручную из-за того, что что-то неправильно прочли или р заметили, было больше, чем из-за всех остальных причин вместе взятых. В вычислениях такого рода, особенно как в этом разделе, часто полезно сделать знаки как можно более заметными. Для этого можно, например, обводить кружком отрицательные числа, что мы и сделали в н. в- Внимательный читатель мог бы заметить, что медиана в третьем столбце второго блока таблицы в п. Б найдена неверно — было взято значение 92=*/2 • (41+ 144) вместо 37=г/2 (33+41). В результате в п. В, когда было взято значение 92, получился столбец G5g> 52‘ <®> <<51> Поскольку три отрицательных числа были очень хорошо заметны, ошибка была обнаружена и исправлена. При счете вручную следует *Идать аРиФметических ошибок. Необходимо принять меры, чтобы что\ТЬ поменьше ошибок и понимать результаты большей части того, пост*'01 Аелаем: но было бы нелепо требовать в работе такой тщатель- р . которой почти невозможно добиться. °ПеРаци"'ееТСЯ’ еСЛИ можно возложить выполнение арифметических Шить чцИ На вычислительную машину, то можно существенно умень- х°Рощо 2Л° °Шибок, сохранив при этом много сил. Если программа к°чться Тлажена (чего не всегда легко добиться), нам остается беспо- Ках печя-^ЛЬК0 °® ошибках при вводе данных и об очень редких ошиб- и и сбоя машины. [j ВЫЧИТАНИЕ ^1в,,ломЬ^ИТании будет сделано меньше ошибок, если пользоваться ° MbI пепрУедения кРУжком отрицательных чисел. Когда в таблице одим от блока 2 (СВ) к блоку 3 (ЮВ), нам надо вычесть 7
370 Глава 11 из всех чисел первого столбца, т. е. уменьшить каждое число действие, которое выглядит простым. При этом основная труп3 состоит в том, что абсолютная величина положительных чисел vM°CTb шается, а отрицательных увеличивается. Обведение кружком отг>еНЬ' тельных чисел здесь снова помогает правильно произвести ческие действия. J ети' ВОЗВРАЩЕНИЕ К ПРИМЕРУ К концу п. В мы сделали три шага и готовы сделать четверть* Наибольшее абсолютное значение удаленных медиан равнялось 449 на 1-м шаге, 92 на 2-м, 33 на 3-м и будет равно 11 на 4-м шаге. Казалос бы, достигнут прогресс, но похоже, что если мы продвинемся немног*” дальше, то добьемся большего. (Некоторые, возможно, захотели бы остановиться здесь.) На илл. 2 многократное удаление медиан продолжается до тех пор, пока это возможно в нашем примере (если мы все время берем в качестве медианы ближайшее целое и не переходим к использованию дробей). Теперь наибольшие абсолютные значения медиан, удаленных на последовательных шагах, равны 442, 92, 33, 11, 6, 2, 2, 2, 1, 1. Ввиду того что остатки получаются много большими, чем 1 или 2, вероятно, не стоило «идти до конца». Можно было остановиться раньше. ЭМПИРИЧЕСКОЕ ПРАВИЛО Часто ради удобства и сохранения сил делают четыре шага. (Некоторые называют эту процедуру «четырехшаговой шлифовкой ме- дианами», другие предпочитают говорить о «двух циклах», так как за четыре шага мы дважды удаляем медианы строк и дважды столбцов.) Это разумная рекомендация, а не непреложный закон. Сделав четыре шага, мы по меньшей мере должны найти медианы для следующее шага, чтобы убедиться, что в случае, если все в порядке, после чет рех шагов можно остановиться. АППРОКСИМАЦИЯ Имея остатки и исходные значения, мы можем найти аппР^рцть цию. На илл. 3 гл. 10 уже продемонстрировано, как найти и пр ^а. аппроксимацию, но здесь на илл. 3 это делается снова, что' стар- зать, как проще и эффективнее проводить проверку. В п. А 3\,БеркУ’ лена предполагаемая аппроксимация. В п. Б мы делаем ее 1 дое?кдУ начиная с рассмотрения приращений значений в столбца приР^* первым и вторым столбцами, с которых мы начали, мы им -12^ щения: 414—428=—14, 89—103=—14, 222—236=—14 “ , 14) «а* =—14, так что все четыре приращения равны —14. Пише
М етоды двухфакторного анализа 371 Иллюстрация 2 главы 11 подсчет насекомых многократное удаление медиан, проделанное дальше “о сравнению с начальными шагами на илл. 1) Д1 ВЫЧИСЛЕНИЕ 33 144 32> 492 410 475 233 283 53 895 218 401 28 330 18 442 II 89 50 e 22 453 129 Сг4Т> < <ЗР < иг 67 279 392 141 273 <g215> 10 6 г 119 < Дзт> 58 267 1 14 138 11 12 II СНФ 41 2 126 < Г-Г) 4 7 бЛб) 37 68 39 < ^9?) 6 395 <EZ£>C нФ II снФ 43 <j6> С"С> 385 о> 53 89 .43 <grre> 3 II 18 15 107 е 61 <£-10<Р 21 "~43 113 < '^fCI <<222> 10 дъ Г-чГг) 80 < И9> 1 0 83 87 II 4 5 4 <7бЗ> 87 91 <<гГ) <^2> 6 7 6 < => <^~4> 0 388 ФI 66 2 390 <Н4> С С~Ф 64 <^22) 83 36 <?424> 5 6 I 2 C—2g> 77 30 < 3) <3ZS> 45 3 о Сз§> 107 < 77 89 C3> 47 5 2 Q34> С~4^С2-б1> 109 < 79 91 С-Ф 2 2 сз> 2 < 70 2 394 -2 68 0 392 о> 2 СгЗф 73 30 6—134) C^L> 2 4 С-зб> 75 32 1 45 0 107 0 V <SZJ> 45 0 <Ез2> 107 0 3 С С-59) 77 93 J CZ3> 3 77 93 C~L > V 1 CZD 2 V 71 > 1 395 Cz5) C2^ V 1 71 C2> 1 395 С2> 3 72 31 <ЗзВ>СЗ> 1 1 2 СгзЗ> 71 30 ССзЪ <С~2^ Cl?l > 45 О 105 0 V ll <£lz3> 45 С~т.Р С^зЪ 105 0 > 3 > G-5C 75 93 V II О-Ф 3 о> о> 75 93 V V V J V -1 J 71 1 395 •J 2 <5зЗ> 71 30 С -Q -J £173? 45 С2?!) 105 1 J c —3J 3 С~5ф 75 94 2а) ИзобПРАЖНЕНИЯ псокГпа,ЗИТе ЭТУ иллюстрацию в виде рисунка на отдельном листе бумаги и затем блока елайте 2«) к блоку линию> показывающую, как при с°отв₽тг миожество данных такого же объема, ствУющие вычисления. вычислениях переходят oi интересных для вас, и прод
372 Глава 11 Иллюстрация 3 главы 11: подсчет насекомых Нахождение аппроксимации и ее проверка А) РЕЗУЛЬТАТЫ — после четырех шагов Исх. данные Остатки 492 111 410 67 475 233 895 218 401 28 330 18 64, 8 - -4 -22 0 83 388 36 -76 «-Юл -8 58 267 283 279 392 141 -178 45 0 -36 Ito 5 4 1 53 14 138 11 -8 3 -6 -63 IU/ 77 4 89 428 Аппр (?) 414 475 507 477 338 Примеры : 428 = 492 -64 103 89 150 182 152 13 414 = 410 -(-4) 236 222 283 315 285 137 12 -2 59 77 61 -78 Б) ПРОВЕРКА — одного направления, в скобках даны приращения 428 (-14) V 414 (61) V 475 (32) V 507 (-30) V 477 (-139) V 338 (90) V 103 V 89 J 150 V 182 V 152 7 13 V 236 V 222 V 283 V 315 7 285 137 12 V -2 V 59 77 61 V -78 V В) ПРОВЕРКА — и второго направления, чтобы иметь полную уверенность (90)‘ (-14) , {61} (32) (-30) {-139) (90) (416) V V -J V V J 428 V 414 V 475 V 507 -J 477 -J 338 V •(-325) V V V -У V V V 103 V 89 V 150 V 182 V 152 V 13 7 (133) V V V V V 236 V 222 V 283 V 315 V 285 137 (-224) V -Ji -J V J 12 V -2 V 59 77 61 V- -78 V (416) V V -J Г) УПРАЖНЕНИЯ За) Проверьте то, что получилось после последнего шага упр. 26. 36) Найдите другой интересный для вас анализ и проверьте его. верху между этими столбцами и ставим знак V во всех стР°ка1^яу приращение равно —14. Аналогичным образом пишем (61) h оВ 2-м и 3-м столбцами. Когда мы переходим к следующей паре сто. g (3 и 4), то находим, что приращение в трех случаях равно >до. одном — нет. Поэтому мы ставим только 3 знака У. И леднии проверочный столбец, наверху которого написано (У J для проверки приращений между последним и первым ст°соседЦ1|М1’ В п. В делается то же самое для приращений и между столбцами, и между соседними строками. Здесь «первая пОсЛв последняя» проверки воспроизведены дважды перед первьи* последних строк и столбцов.
Методы двухфакторного анализа 373 Иллюстрация 4 главы 11: подсчет насекомых разложение аппроксимации (числа из илл. 3, исправленные соответствии с указанием в тексте) ОСТАТКИ и АППРОКСИМАЦИЯ А) Остатки Аппроксимация -4 0 388 -76 -8 428 414 475 507 477 338 64 о -22 83 36 -124 5 103 89 150 182 152 13 о 45 0 -36 107 -5 236 222 283 315 285 146 "-l /о -8 3 -6 -7Z 77 89 12 -2 59 91 61 -78 Б) РАЗЛОЖЕНИЕ Удаление медианы из одной строки: 12 —2 59 91 61 —78 | 36 || —24 —38 23 55 25 —114. Удаление одного из полученных результатов из соответствующего столбца 428 103 236 12 минус 24) дает 452 127 260 36 минус медиана, равная 194, 258 —67 66 —158 Результат: 194 II —24 -38 23 65 25- -114 258 -67 66 -158 в) анализ «стр ока- ПЛЮС-столбец» Обра- Iботка -194 1 -24 2 -38 3 23 4 55 5 25 6 -114 1 о 258 64 -4 0 388 .-76 -8 о -67 8 -22 83 36 -124 5 Л 66 -178 45 0 -36 107 -5 -158 -8 3 -6 -77 77 89 Г) УПРАЖНЕНИЯ Ш П₽2извести разложение аппроксимации аити другую аппроксимацию, из упр. 26 двумя различными способами, интересную для вас, и произвести ее разложение.
374 Глава 11 Иллюстрация 5 главы 11: данные и упражнения Упражнения на многократные удаления медиан А) ДАННЫЕ ОБ УСУШКЕ ПШЕНИЦЫ — отношение веса сухого пще .зерна к влажному НичНого Обработка азотом | Блок [ 1 АНе I 1 было I [Ранняя] [Средняя| [Поздняя | 1 .718 .732 .734 .792 2 .725 .781 .725 .716 3 .704 1.035 .763 .758 4 .726 .765 ,738 .761 Б) ПРИМЕР ВЫБОРОВ В ЧАСТИ ШТАТА НЕБРАСКА — процент доданных за демократов, от голосов за две главные партии [Метка] | '201- | '281 | '361 1'44] 1'521 |'60| |_Округ D0 46.7 59.0 54.6 34:5 18.9 23.6 Грант D1 33.7 23.7 39.9 23.8 14.9 13.8 Хукер D2 40.4 27.2 50.5 38.8 19.7 25.1 Томас D4- 34.9 26.6 51.6 40.4 23.0 21.2 Блэйн D5 25.4 15.1 43.3 27.2 17.7 22.5 Поуп D6 29.2 16.6 48.4 31.3 19.5 22.6. Гарфилд D7 31.9 35.4 57.5 44.2 33.7 36.0 Уилер Замечание. 7 округов в последнем столбце расположены с'запада на восток непосред- ственно к северу от центра шт. Небраска. В) УРОЖАЙ САХАРНОЙ СВЕКЛЫ — тонны Примененные удобрения не Только I Р0< I | Блок | | было I |ро4| I NO, I 1 2.45 6.71 6.48 2 2.25 5.44 7.11 3 4.38 4.92 5.88 4 4.35 5.23 7.54 5 3.42 6.74 6.61 6 3.27 4.74 8.86 Г) БИОЛОГИЧЕСКАЯ ЦЕННОСТЬ БЕЛКОВ — вычисленная по природ ®еса крыс: Пара крыс [Биопогич. ценность| Непрогретые прогретые | белки | белки | 1 61 55 2 60 54 3 56 47 4 63 59 5 56 51 6 63 61 7 59 57 8 56 54 9 44 62 10 61 58
Методы двухфакторного анализа 375 —' Иллюстрация 5 (продолжение) m УПРАЖНЕНИЯ W „„TP «шлифовку медианами» данных п. А. ?ЙДсамоедля п.Б. т- мгр 5в) 5г) for на American Press.’ 1946, р. 332. Данные для таблицы Г: Mitchell Н. И., Burrough W., Beadles J. R. The significan- — and accuracy of biological value of proteins computed from nitrogen metabolism <шлифовку медианами» данных п. А. . ' А То же самое для Г То же самое для и. Г. А ИСТОЧНИКИ: п не для таблицы A: Cochran IP. С. Some consequences when the assumptions analysis of variance are not satisfied, Biometrics, 3, 22—38 (особенно табл. 1 28), 1947. ’ для таблицы Б: Seammon R. M. America At the Polls. A Handbook of ^ Residential Election Statistics, 1920-1964, 1965, p. 77—78. данные для таблицы В: Snedecor G, W. Statistical Methods, 4th edition, Iowa 'г College Press, 1946, p. 332. Данные для таблицы Г: Mitchell Н. И., Burrough W., Beadles J. R. The significan- ____________ <ra1no r& n mid no rnmnnfoH from tiifrrvron mdahd icrrj data. J. Nitrition, 11, 257—-274; 1936. Легко видеть, что в п. В большая часть величин «крепко связана» знаками И. Четко выделяются два исключения: число 77 в нижней строке и 137 в последнем столбце. Как же это могло произойти? Мы имеем 59+ 32 =91, 61-(—30) = 91, 315— 224 = 91, 507- 416 = 91. 285 — 139 =146, 13+133 =146, —78-(—224) = 146, 236— 90 =146. С какой бы из четырех сторон мы ни подходили к этим значениям, мы видим, что 77 следовало бы заменить на 91, а 137 — на 146. Возвращаясь к п. А, находим, что мы получили 77 как и 137 — как 14—(—63) =77 141—(—4) = (должны получить) 145. П£сдиЭТот знак минус!) ЭаменитьМЫ Хотим’ чтобы получилась аппроксимация, нам необходимо остаток —63 на —77, а остаток —4 —на —5. Тогда получим 14—(—77)=91, картина 141-(-5)=146, Радло^ ТаК°Й’ Как на илл' ^а илл‘ показано, как ^Фскты ст0лгИТЬ значения аппроксимации и найти сначала по строке ^еАлагаются Ц°В’ Затем по столбцу эффекты строк и общее. На илл. & Разнообразные наборы данных для упражнений.
376 Глава 11 ОБЗОРНЫЕ ВОПРОСЫ Как мы находили остатки в начале предыдущей главы? с примера мы начали здесь? Что мы о ним делали? Как вели счет? к.Ког° линии мы использовали раньше? Какое новое соглашение мы ппи ЭКие Можете ли вы нарисовать диаграмму, показывающую порядок в1ЯЛи' ления блоков чисел на илл. 2? Почему полезно обводить кру^ЧИс' отрицательные числа? В общем случае? Применительно к вычита К°М —5? Сколькими шагами мы обычно можем ограничиться? СкольииИЮ циклами? Как мы вычисляли значения аппроксимации? Как провер МИ результаты? Как мы разлагали на части таблицу значений «стпл1ЛИ ПЛЮС-столбец»? р Ка' 11 Б. ДРУГИЕ СПОСОБЫ РАСЧЕТА Мы останавливались на одном приемлемом способе расчета аппрок- симации «строка-ПЛЮС-столбец»: О сначала многократно удаляем медианы (обычно по меньшей ме- ре четыре раза', чтобы определить остатки; О по начальным данным и остаткам находим значения аппрокси- мации и проверяем, действительно ли она является аппроксимацией «строка-ПЛЮС-столбец», исправляя остатки, если необходимо (если после этих исправлений остатки продолжают оставаться слишком сдвинутыми, то удаление медиан, возможно, придется продолжить); ф разлагаем блок значений аппроксимации на эффекты столбцов, эффекты строк и общее. На этом пути осуществляется почти полная самопроверка; более того, ошибки обычно можно исправить, даже не зная, где и каким обра- зом они были допущены. Описанная процедура относительно проста и весьма надежна. Конечно, это не единственно возможная процедура такого ро Примеры процедур с иными целями встретятся нам позже, когда доберемся до разд. ПЛ (в гл. 11*). Один пример другого способз_Р чета, имеющего такое же назначение и дающего те же результ разницей лишь в способе оформления счета), стоит того, что ь вести его здесь. ОДИН ИЗ СПОСОБОВ На илл. 6 проводится несколько последовательных шаг стаД11И" анализа с вычислением одних только эффектов на каЖДноГда (ка Всегда можно проводить вычисления таким образом 'дроИ6^^' мы увидим в разд. 13А) мы будем выбирать именно эту г
Методы двухфакторного анализа 377 Иллюстрация 6 главы 11: подсчеты насекомых Другая форма многократного удаления медиан (начальные значения из илл. 2, медианы в скобках) д) НАЧАЛО (0) 0 0 ’ 0 0 0 0 '0 492 410 475 895 401 330 (442) и 111 67 233 218 28 18 (89) и л 58 267 283 279 392 141 (273) 0 4 1- 53 14 138 11 ' (12) Б) ПОСЛЕ 1-го ШАГА 0 0 0 0 0 0 0 Примеры: 442 50 С+зЪ 33 453 <541> (^12) 442 = 0 + 442 50 = 492 - 442 89 22 144 129 C+i) 89= 0 + 89 273 сз> 10 6 119 <^13Т> 22 = 111 - 89 12 <5+гГ> 41 2 126 (181) (7) (-16) (37) (68) (39) (—92) В) ПОСЛЕ 2-го ШАГА 181 7 -16 37 68 39 -92 (22) 261 43 <3б> 385 (-10) -92 15 СЗ6) 107 61 21 (18) 92. <^223) 10 Ст27) <Еб2> 80 3£[) (-33) -169 5 4 87 91 (4) Примеры: 181 = о + 181 261 « 442 _ 181 -92 = 89 - 181 2^ 0 + 7 43 = 50 - 7 15 22-7 Г) П°СЛЕ 3-го ШАГА 203 -15 -38 15 46 17 -114 Примеры: 251 203 = 181 + 22 -74 эЗ 6 395 <p7Q) -15= 7-22 59 (-189} <S24> 89 43 3 -38 = -16 - 22 "165 43 6 <3^ 113 —114 =-92 — 22 <-8) 111 1 0 СЗб 83 ' 87 251 = 261 - 10 (-2) (6) (7) (6) (-2) 53 = 43 + 10
378 Глава 11 Иллюстрация 6 (продолжение) Д) ПОСЛЕ 4-го ШАГА 195 -26 -40 21 53 23 -116 (-21 259 64 С-4) 0 338 (-2) -66 8 83 36 Cl24> 5 67 45 0 107 сз> (-2) -157 С~^> 3 сз> С77> 77 89 (-2) Примеры (приведите сами) Е) ПОСЛЕ 5-го ШАГА 193 С?4> <^38> 23 55 25 сйз> 257 66 2 390 -60 2 <^28) 77 30 СТзб) СуБ 65 СТ7§) 47 2 СЛй) 103 с^ъ -159 СТ 5 С=4) СЕН) 79 91 (-2) (2) (2) (-2) (2) (-2) Примеры (приведите сами) Ж) УПРАЖНЕНИЯ 6а) Выпишите, что получится после 6-го шага, 6а2) После 7-го шага. 6аЗ) После 8-го шага. 6а4) После 9-го шага. 66) Напишите 7 следующих примеров, таких, как после п. Б, выбирая значения так* чтобы охватить каждую строку и каждый столбец. 6в; Проделайте 7 аналогичных примеров для п. В. 6г) Для п. Г. . № ,6д/е) Выпишите по 10 примеров так, чтобы охватить каждую строку и кажды бец (включая эффекты строк и столбцов) для пл. Д и Е соответственно. Общая схема проста: О медиану, которую надо удалить, ПРИБАВЛЯЮТ к с00^щцх вующему главному эффекту и ВЫЧИТАЮТ из всех соответству .остатков. ются без Ясно, что если все арифметические действия проделыва остатКа. ошибок, то такое «выметание» не изменяет суммы эффекта и ОБЗОРНЫЕ ВОПРОСЫ Опишите наш первоначальный общий ход проведения .«строка-ПЛЮС-столбец». Какова другая схема расчета. аналй3а
Методы двухфакторного анализа 379 Иллюстрация 7 главы 111 подсчет насекомых разложение аппроксимации на А) АППРОКСИМАЦИЯ (в виде две части (начальные общего и эффектов) данные из илл. 4) А В С D Е F 194 -24 -38 23 55 25 -114 1 258 2 -67 3 66 4 -158 Б) ОДНО РАЗЛОЖЕНИЕ НА ДВЕ ЧАСТИ -24 -38 23 55 25 -114 452 127 260 36 II Примеры: 452 = 194 + 258 127 = 194 + (-67) 260 = 194 + 66 36= 194+ (-158) В) ДРУГОЕ (приведите свои собственные примеры) 170 156 217 249 219 ёо 258 -67 66 -158 О ЕЩЕ ОДНО Приведите свои примеры1 70 56 117 149 119 -20 Примеры: 358 358 = 258 +- 100 33 = -67 + 100 ~58 70 = -24 + 94 56 = -38 + 94 7а) щН171рл>кне™я 6 Стройте ппя дР7гих расщепления на две части. 7в) -ручается ЛотгРаммУ’ как на илл. 8, для данных п. В. Насколько результат 7Г) САед*йтеато°е ДЛ” Г- Же самое, используя одно из расщеплений, рассмотренных в упр, 7 а.
380 Глава 11 Иллюстрация 8 главы 11: подсчет насекомых Две стадии построения двухфакторных диаграмм аппроксимаци (числа взяты из илл. 7) и А) ДВЕ ЧАСТИ, изображенные при помощи ПРЯМЫХ йРЦгвя Б) Добавлено|1есколько прямых вида «ОДНА ЧАСТЬ плюс ДРУГАЯ ЧАСТЬ = ПОСТОЯННАЯ»
Методы двухфакторного анализа 381 1В ПОСТРОЕНИЕ ЯДРА ДВУХФАКТОРНОЙ ДИАГРАММЫ идущей главе мы обнаружили, насколько полезно и удиви- В ПреДоосТУо строить своего рода двухфакторную диаграмму ап- тельно ПР и все, чт0 необходимо сделать,— это записать аппрокси- проксимаЦ g суМ’мы даух частей, например, по одному из образцов всё + стл ПЛЮС стр, всё + стр ПЛЮС стл, (2/3 всё + стл ПЛЮС 1/3 всё + стр), аким образом, что одна часть зависит только от столбца, а другая — только от строки. Затем мы принимаем эти части за (прямоугольные) координаты. Если это проделать, то получающиеся точки (одна для каждой комби- нации строки и столбца) образуют прямоугольную решетку. Точнее, они представляют собой все точки пересечения семейства горизонталь- ных линий с семейством вертикальных линий. На илл. 7 показано в цифрах, как это получается для аппроксима- ции, взятой из илл. 4, Б. На илл. 8 приведен окончательный рисунок. В верхней его части показаны четыре вертикальные прямые, соответ- ствующие четырем видам обработки, и шесть горизонтальных прямых, соответствующих шести участкам поля, на которых был произведен эксперимент. В нижней части, кроме того, показано несколько линий, удовлетворяющих равенствам одна часть ПЛЮС другая часть РАВНО постоянной. Поскольку аппроксимация есть сумма этих частей, эти линии задаются также равенствами или сумма = const аппроксимация = const. ч^в. комбинации строк и столбцов нарисованы таким образом, аппроксимация — const ^Ухфактоц101 с°б°й параллельные прямые. Чтобы теперь получить и ПеРенестиУЮ 1ИагРаммУ> нужно повернуть миллиметровку на 45а Ка,< мы пл. чеРтеж на кальку. Результат изображен на илл. 9. Здесь, чно делаем, линии уровня Пп, аппроксимация = const °Казаны как «линии глубин» по обе стороны диаграммы.
382 Глава 11 Иллюстрация 9 главы 11: подсчет насекомых Двухфакторная диаграмма (числа взяты из илл. 7) ------------------------------------------------- -200 ----'-г' ОБЗОРНЫЕ ВОПРОСЫ Каков первый шаг в построении двухфакторной диаграммы? Есть ли у нас выбор? Почему (или почему нет)? Что мы наносим на милли- метровку? Как выглядит основная схема? Что мы добавляем? Как мы переносим диаграмму на кальку? Как мы показываем линии «аппрок- симация = const»? 11 Г. ПРОДОЛЖЕНИЕ АНАЛИЗА (ОБРАЩЕНИЕ К ОСТАТКАМ) Чтобы закончить построение диаграммы, необходимо рассмот- реть остатки. На илл. 10 представлены две схемы: стебель с листьями буквенные значения. Мы видим, что имеются два отрицательн внешних значения и одно положительное отскакивающее. Теперь обходимо изобразить наблюденное значение = аппроксимация ПЛЮС остаток для этих трех точек. кольК° То, как мы будем это делать, отчасти зависит от того, ^асооТВет* велики остатки. Рассмотрим остаток, равный —124, который тйм ствует точке 2Е, имеющей на диаграмме координаты (127,25)-м найти точку, у которой сумма координат на 124 меньше. Пр° тОцкУ взять точку (3, 25), найденную из равенства 127—124=3, и ^ров#® (127, —99), найденную из равенства 25—124=—99. На миллг ^еБее, а до поворота ее на 45° эти точки расположены: одна — точно
Методы двухфакторного анализа 383 Иллюстрация 10 главы 11: подсчет насекомых Получение сводки для остатков Остатки, как они расположены на илл. 9, — строки и столбцы не в первона- ааЛ «"“е Обра- ботка) 1 3 2 4 D 388 -36 36 -77 Е -76 107 -124 77 С 0 0 83 -6 А 64 -178 8 -8 В —4 45 -22 3 F -8 -5 5 89 Б) СТЕБЕЛЬ С ЛИСТЬЯМИ В) БУКВЕННЫЕ ЗНАЧЕНИЯ #24 остатки М12л 0 О 6п 54 -15 В Зп 86 -76 2 107 -124 1 388 -178 69 б Б 12 -О -1 6 -2 Б -3 068485 2 6 ГТб4~| 158 -1191 внешн. -124, -178 ххх два отск. 388 262 —223 одно ххх прим.-77 и 107 -5 -6 4 -7 -8 -9 2 М 76 76 -124,-178 г) Для СПЕЦИАЛЬНОГО ИЗУЧЕНИЯ +388 из 1 D —124 из 2 Е -178 из 3 д Части I Набп. аппР | | Конечные точки | | знач. ] 452,55) -* (840,55) или (452,443) или (646,249) 127,25) -> (3,25) или (127, -99) или (65, -37) (260,-24) -» (82,-24)ипи(260,-202)или(171,-113) Юа) Постр^ЖНЕНИЯ 10m т0лУЧилисьСве^ЛЬ листьями и буквенные значения для остатков, которые самое для упр. 5Г>
384 Глава 11 Методы двухфакторного анализа 385 Иллюстрация И главы 11: подсчет насекомых 10) Два построения на миллиметровке (числа взяты из илл. Иллюстрация 12 главы 11: подсчет насекомых Окончательная двухфакторная диаграмма (см. илл. 9, Пит. д.) другая — ниже точки пересечения. На двухфакторной диаграмме они будут расположены под углами ±45’. Мы предпочли бы спуститься прямо вниз, что легко можно сделать: вычитая у (124)=62 из каждой координаты исходной точки, находим (65, —37), так как 127—62=65 и 25—62=—37. На илл. 11 показано, как это выглядит на миллимет- ровке. Для больших остатков (как на илл. 11) проще всего начинать с де- ления пополам и вычитания половинок из каждой координаты. Для маленьких остатков (таких, как +5 в этом примере) проще сдвинуться по каждой координате отдельно и соединить две найденные таки образом точки пунктирной линией, а затем, строя диаграмму на к ке, начертить отрезок от точки аппроксимации к середине этой лИ ’ На илл. 11 показано также, как строится схематическая диагр для остальных (21) остатков. Проводим в качестве центральной - и диагональную прямую — точно под углом 45° (это совсем просто^ ней она проходит через вершины больших квадратов). Затем ^РемонТади, две-три подходящие точки и откладываем от них — или по Г0Ри3 аК)щим или по вертикали — отрезки, равные по величине npi»’bI значениям и сгибам, здесь — 76, —15, 54 и 107. Затем 1Н дй- пририсовать концы (бока) ящика и соединения с примыкаю ниями; теперь уже можно перенести результат на кальку в часть двухфакторной диаграммы. Результат представлен на илл. 12. Теперь мы видим: остатки так велики по сравнению с описанной аппроксимацией, что польза от та- кой аппроксимации вызывает серьезные сомнения. (Отчасти нам с этим придется столкнуться при решении одного из упражнений к илл. 13). ОБЗОРНЫЕ ВОПРОСЫ Что мы делаем со всеми остатками? Какие из них мы показываем отдельно на двухфакторной диаграмме? Как мы определяем, где на- «еста иа диагРамму большие остатки? Что делать, если остатки, нано- стп ЬЮ На диагРаммУ» малы? Какого рода схематическую диаграмму мы прям1М Д£1Я.ДРУГ11Х остатков? Как мы выбираем расстояния между торнаяМП Как Доводим их? Как выглядит окончательная двухфак- 3аставпДИаГРамма? ® общем случае? Для нашего примера? О чем она ' яет пас задуматься в этом примере? ИД. КОДИРОВАНИЕ ОСТАТКОВ; в СЖАТИЕ АППРОКСИМАЦИЙ И ОСТАТКОВ к°АиРованХХ ДвухФактоРных диаграммах остатков мы используем множество из семи символов адели, как испоаНИЯ величины остатков. В конце разд. 16Д мы уже Ух Факторную ДьзУЮтся эти символы, если нанести их на «пустую» р0с 0 том ДИагРаммУ аппроксимации. Мы также поняли, что 13 н, ,г< ’ апаз°н каких значений должен обозначать каждый
386 Глава 11 Иллюстрация 13 главы И: данные и упражнения Упражнения по двухфакторным диаграммам А) АНАЛИЗ СРЕДНЕМЕСЯЧНОЙ ТЕМПЕРАТУРЫ для СЕМИ ВОСТОЧНОМ ПОБЕРЕЖЬЕ — в °F на Бэтон- * Янв. Февр. Март Ларедо 3.8 6:3 4.8 Руж 5.4 6.8 3.5 Атланта 2.9 3.2 1.2 Ваш. 0.3 -0.6 -0.4 Бостон 1.1 -2.8 -2.4 Портленд -3.3 -4.3 -1.9 Карибу -8.0 -8.7. —4.9 эфф -20.5 -18.7 -Ю.7 -1.4 7.9 15.9 19.6 18 5 Апр. Май Июнь 3.0 -1-0., с4.4 0.7 -1.8 -3.8 0.9 -0.1 -0.4 -0.6 -0.4 1.1. -2.1 -0.8 0.6 -1.2 -0.1 1.4 -1.1 3.4 5.3 Июль —6.2 -6.0 -2.3 1.3 1.9 3.7 7.2 Аег. -5.0 -5.3 -2.1 0.5 2.3 3.4 6.1 Сс:г. -3.4 -2.6 -0.4 0.6 1.0 1.3 3.4 12.6 Окт. -0.7 -0.8 -1.7 -1.1 1.4 1.0 2.0. 2.9 Нояб. -6.2 -0.3 -2.2 -0.6 1.8 0.9 0.1 -8.8 Дек. 2.9 3.8 0.7 -0.7 -0.2 -1.9 -4.9 -17.7 эфф 18.2 11.4 6.1 0.3 -5.4 -11.6 -18.9 56.1 Б) УПРАЖНЕНИЯ 13а) Постройте ядро двухфакторной диаграммы для аппроксимации приведенной выше таблицы п. А. 13а 2) Закончите двухфакторную диаграмму. 136) Постройте ядро двухфакторной диаграммы для аппроксимации задачи оа. 1362) Закончите двухфакторную диаграмму. 13в/в 2) То же самое для упр. 56. 13г/г 2) То же самое для упр. 5в. 13д/д 2) То же самое для упр. 5г. В) ИСТОЧНИК — Для п. A: Climatography of the United States (Климатография США, № Климатография штатов: * штат *; Бюро погоды США) Место Аэропорт # ♦Штат* Стр Ларедо База ВВС 60—41 Техас 17 8 7 Бэтон-Руж Риан 60—16 Луизиана Атланта Муниципальный 60- 9 Джорджия 9 Вашингтон, окр. Колум- бия Г осударственный 60-44 Мерипэнд 7 Бостон Логан-интернэшенл 60—19 Массачусетс 8 Портленд Городской 60—17 Мэн 8 Карибу Муниципальный 60—17 Мэн
Методы двухфакторного анализа 387 Иллюстрация 14 главы 11: подсчет насекомых НЫе разделяющие точки, полученные непосредственно из илл. 10, НДаР и их применение к остаткам, изображенным на илл. 10 Б) Ста А) СТАНДАРТНЫЙ КОД Верхи- сгиб + 2С-шир ины ВеРхн. сгиб + С-ширина Верхи, сгиб Нижи- сгиб Нижи, огиб- С-ширина Нижи, етиб - 2 С-ширины © (В случае сомнения округлите до большего по абсолютной величине значения) ПОРОГИ И ПОДСЧЕТЫ для нашего примера — С-ширина = 69 Одна точка 192 XXX 123 Пять 54 Двенадцать -15 Четыре -84 Одна -153 Одна В) ФАКТИЧЕСКИЕ ДИАПАЗОНЫ примере: ОСТАТКОВ, использованные в этом ] Значения # 388 + ххх + от64до107 ’ от —8 до 45 ! от-77 до-22 О —124 © —178i Расщепление |на две части| (194, 194' от (32, 32) до (53, 54) от (-4, -4) до (22, 23) от(—38, —39) до(—11, -11) (-62, -62) (-89, -89) ^ФЕКТОВ^РОВАНИЫЕ ОСТАТКИ, расположенные в ПОРЯДКЕ убывания D Е С А В F 1 * о i 4- . 3 о + . © . 2 • О + • - > 4 • + • • • +
388 Глава 11 Иллюстрация 15 главы 11: подсчет насекомых Диаграмма закодированных значений (на основе илл. Ц) Величина остатков 400- Фактическое 600----——------------——------------------- кодирование ус МО- 400-------------- -200 _______-400- Иллюстрация 16 главы 11: подсчет насекомых Конструкция шкалы для илл. 15 Другие часть п 200- «(194,199) 100 - о -100- (22,22) к(-4, -4) S уВ (-11,-11) ° К(г38,-39) *>(-62,-62) в (-83,-89) _ • ! -100 Овна часть j----------1_________। >- О ЮО 200
Методы двухфакторного анализа 389 Иллюстрация 17 главы 111 данные и упражнения Несколько упражнений на двухфакторные диаграммы лйЛПИЗ СРЕДНЕМЕСЯЧНЫХ ТЕМПЕРАТУР ДЛЯ ЧЕТЫРЕХ АЭРО- ПОРТОВ ЕАРИЗОНЕ-ьТ. Флагстафф Прескотт Финикс Юма эфф Янв. 0.3 -0.3 -0.1 0.2 -19.6 Февр. -0.5 -0.5 0.2 0.7 -15.3 Март -0.4 -0.6 0.3 0.8 -9.8 Апр. -0.3 -0.1 -0.1 0.3 -2.2 Май -0.3 0.0 0.4 0.0 5.7 - Июнь -0.4 0.8 0.4 -1.0 14.1 Июль 0.1 0.3 0.1 -0.6 20.5 Авт -0.1 -0.2 0.0 0.1 18.9 Сент. -0.7 -0.1 0.2 0.5 13.1 Окт. -0.1 0.2 -0.2 0.1 1.6 Нояб, 1.2 0.4 -1.0 -0.5 -10.0 Дек. 0.9 -0.3 -0.2 -0.5 -17.1 эфф -16.3 -5.7 8.5 13.8 60.9 Б) УПРАЖНЕНИЯ 17а) Построить стебель е листьями для остатков п. А и закодировать их. 17а2) Построить двухфакторную диаграмму этих закодированных остатков. 176) Построить стебель с листьями для остатков таблицы из п. А илл. 13 и закоди- ровать их. 1762) (следует использовать упр. 13а2) Построить двухфакторную диаграмму этих закодированных остатков. 17в/в2) (следует использовать упр. 1362) То же самое для упр. 5а. 17г/г2) (следует использовать упр. 13в2) То же самое для упр. 56. 17д/д2) (следует использовать упр. 13г2) То же самое для упр. 5в. 17е/е2) (следует использовать упр. 13д2) То же самое для упр. 5г. В) ИСТОЧНИК: Climatography of the United States № 60-2. Climates of the states. Arizona. U. S. Weather Bureau, Washington, D. C. Sept. 1959. символ, иногда можно решить с помощью простого рассуждения. Мы отложили до этой главы описание стандартного кодирования, которое применяют, когда можно не размышлять над этим вопросом, или же Су^д°тпРавнУю точку, от которой можно отталкиваться в своих рас- как^ НЛЛ' 14 представлены стандартные разделяющие точки (пороги) I общего случая, так и для анализа, который мы проводили в ка- Дать |«РимеРа- В нашем примере получилось, как и следовало ожи- гОГо] j. точек (•) [12=1/2(24), и эти точки идут от одного сгиба до дру- кРест (Л\Шес™ симв°лов для положительных остатков—один двойной ОтРицат И ПЯТЬ маленьких крестиков (+). Из шести символов для кРУЖоке?г>\ЫХ остатков — один двойной кружок (©), один большой Ставляетс^ И четыРе маленьких кружка (о). Такое разбиение пред- ка, ПредсЯ РазУмным, как и расшифровка символов в конкретные чис- раыма. 7Лавленная в п. В. На илл. 15 показана окончательная диаг- °Ткладывя Кала>> справа построена на основе илл. 16, где мы снова 17 Ли по каждой координате половину значения остатка. На Риводится несколько упражнений.
390 Глава И Иллюстрация 18 главы И: подсчет насекомых Сжатые остатки для анализа илл. 10 А) ОСТАТКИ Обра- |ботка| D ЕС АВ F #46 остатки 1 388 -38 30 -8 М8п —Зп 3 -36 54 -66 -5 С4п 36 - 28п 2 36 -21 -7 5 В2п 71 -52 4 -77 36 —2 89 1 388 -77 64п Б) КОДИРОВАНИЕ “157п .© О УХХ ххх 93 —28п 36 ЮОп четыре семь от-77 от-21 До -36 До 30 + + четыре ххх от 36 до 69 165 # одно 388 В) УПРАЖНЕНИЯ 18а) Произвести сжатие анализа илл. 17, А. 186) Произвести сжатие анализа илл. 13, А. СЖАТИЕ Когда мы рассматриваем илл. 8, то очень трудно удержаться от вывода, что различие между участком Е, на котором значение аппрок- симации равно 25, и С, на котором оно равно 23, оказывается бесполез- ным и ни к чему не приводит. Различать между собой участки А(—24) и В (—38), может быть, и полезно — насколько это касается данной иллюстрации. Но когда мы посмотрим на величину их остатков, мы начинаем сомневаться в ценности и этого различия. Что же касается диаграммы аппроксимации, мы выиграем, объеди- нив Е и С, а А и В можно и не объединять. На диаграмме закодиро- ванных остатков, может быть, полезно произвести слияние и Е с с, и А с В. Когда мы объединяем остатки, мы заменяем последние на их медиану. (Мы НЕ пересчитываем остатки из сжатой аппроксим ции, если вообще ее делаем.) На илл. 18 приведены остатки пос сжатия и их кодирование. На илл. 19 показана двухфакторная ди рамма остатков. аЯ На илл. 20 продемонстрирована в чистом виде сжатая двухфактор диаграмма аппроксимации, на которой мы решили показать раа между участками Е и С только числами (воспользовавшись слу п0 мы здесь добавили эффекты участков и значения аппроксимаи методам обработки). Отметим, что мы прерываем «линии глу чтобы не запутывать диаграмму и окружающие ее надписи. На илл. 21 предлагается несколько упражнений.
Методы двухфакторного анализа 39! Иллюстрация 19 главы 11: подсчет насекомых Сжатая двухфакторная диаграмма остатков, основанная на илл. 18 Величина остатка ° 388- I фактическое кодирование Иллюстрация 20 главы II: подсчет насекомых Сжатая двухфакторная диаграмма
392 Глава 11 Методы двухфакторного анализа 393 Иллюстрация 31 главы 11: данные и упражнения Упражнения на сжатие анализа СО СО сч X о О Л О m с 8 5 «- СЧ СЧ Г- СЧ *- СЧ СЧ СО СЧ х N т- г- СО СЧ гг СО СЧ Со (о 5 с S7 К S с < § СЧ СЧ S ЕС 1 < со S S I со qJci ЮОЮШЦшц;* Ею- Е <5 in СЧ о О СЧ Ш ОБЗОРНЫЕ ВОПРОСЫ осуществлялось кодирование в предыдущей главе? Стоило Ь-аК оСТупать? Для каких целей мы можем использовать стандарт- ди JaK ? р<;акОй стандартный код мы используем? Трудно ли устано- ви косому значению какой присвоить код? Можем ли мы показать, вить, делается? Показываем ли мы это в действительности? Как мы ^Лажаем кодированные значения? Следует ли рассматривать воз- изобР сжатия в двухфакторной диаграмме аппроксимации и в двух- МО?КН<г)НОЙ диаграмме остатков? Почему (или почему нет)? В какой ФаКгвамме (диаграммах)? Как делается сжатие в диаграмме аппрок- ^иаацни? В диаграмме остатков? Как мы в этом случае находим остатки? о V- w- СЧ CQ О СО О см CN НЕ. МОЖНО ОБЪЕДИНИТЬ! Последняя крупная идея, которой мы занимались прежде, чем приступили к рассмотрению двухфакторных таблиц, было сглажива- ние. Что если объединить его с двухфакторным анализом? X S о г- СЧ СЧ <- о СЧ V- СО СЧ ЮООЮтГСОСПООСЧСЭг- ddcicocodcocirCUjn %>сч О ст> ПРЕЗИДЕНТСКИЕ ВЫБОРЫ В ШТАТЕ КОННЕКТИКУТ На илл. 22 показан процент голосов (относительно голосов, подан- ных за две основные партии), поданных за кандидата в президенты от демократической партии, в каждом из восьми округов шт. Коннекти- кут на каждых президентских выборах с 1920 по 1964 г. В п. Б приве- ден анализ «строка-ПЛЮС-столбец». Очевидно, что этот анализ ока- зался достаточно полезным — остатки получились даже меньшими, чем эффекты округов, а последние в свою очередь меньше, чем эффек- ты выборов (С-ширина для них соответственно равна 16, 60 и 116). В противоположность этому анализ для таблицы с таким же числом строк и столбцов был бы бесполезен, если бы эффекты были заметно меньше, чем остатки. Однако, если посмотреть внимательно, можно У идеть, что мы еще не извлекли все, что было возможно. вед^°ГД« Мы РассматРиваем эффекты выборов, то видим, что они прос Се^Я Д0Вольно гладко. Если бы нам надо было их сгладить даже то спос°бом, скажем с помощью сглаживания ЗПРР (см. гл. 7), стандартное разбиение вход = плавная компонента ПЛЮС неровности Дадо йм ^ействительи°Шее сглаживание- ьно, в результате мы получили бы ЛаВная компонента =—152, —152, —65, —3, 37, 37, 26,3, —43, и —43, 35, 200 «еровности = о, 19, 0, 0, 26, 0, 0, 0, —15, —77, 0, 0.)
394 Глава 11 Иллюстрация 22 главы 11: президентские выборы в Коннектикуте Данные и «ПЛЮС-анализ» (продолжаемый на илл. 23) А) ДАННЫЕ Округ Год выборов| .Литч- |филд| Мидл- | секс | । Топ-1. „Нью -.. Нью- , |панд 11 Лондон} [Хейвен | [Уиндем, 1ч»рд_ 1920 ?2.5 30.9 33.1 31.0 34.6 36.5 37.1 TR Q 24 30.0 24.5 29.9 30.3 32.1 34.4 36.6 31q 28 36.0 43.7 39.7 39.6 43.3 50.5 48.5 46 4 1932 41.9 47.1 46.3 46.0 49.8 52.4 53.1 49 9 36 48.1 56.3 52.9 52.8 53.9 60.5 52.4 61 ? 1940 46.0 50.7 49.2 50.5 54.7 55.0 55.4 56 5 44 44.4 48.9 48.6 48.5 54.8 53.9 55.3 57 3 48 41.0 43.3 47.5 46.9 51.8 50.2 53.0 54.3 1952 36.1 38.9 41.5 41.2 45.1 45.1 46.4 49.4 56 30.1 29.8 35.2 36.5 38.6 37.0 40.4 ч1.9 1960 46.1 46.6 50.1 48.6 51.6 58.0 57.0 58.9 64 65.8 60.8 67.5 69.0 69.1 69.1 73.5 73.0 Б) АНАЛИЗ «ОКРУГ-ПЛЮС-ВЫБОРЫ» — в 0,1% голосов за демократов 484 -62 -30 -14 -18 15 31 42 50 —152 55 7 13 —4 -1 2 -3 -23 -171 49 -38 0 8 -7 0 11 -49 -65 3 48 -8 -5 -1 55 24 -5 -3 0 20 -4 -3 2 12 8 -32 63 —4 46 —4 -1 -23 27 -65 15 37 1 16 -15 2 11 -2 -9 -6 26 —4 9 -10 -7 23 -2 1 13 3 -15 -24 2 0 16 -16 1 6 -58 -3 -7 3 4 10 -6 -4 18 -120 -1 -36 2 19 7 -25 -2 5 35 4 -23 -4 -15 -18 30 9 20 200 36 -46 5 24 -8 -24 9 -4 К) ИСТОЧНИК: там же, где для илл. 21 (с. 77—78),
Методы двухфакторного анализа 395 то заметили, естественно спросить, а что получилось бы, если раз мы эгладпли также восемь последовательностей остатков, соответ- бы , х восьми округам штата. ствую^р который уже относится к илл. 23, показан результат такого приглаживания. Мы видим, что в некоторых округах имеется ЗПРг' тренд с0 временем. Так, значения плавной компоненты для °чеБмлда (2-й столбец округов) падают от 7 (и затем 20) до —46, в то ФэР я как для Литчфилда (1-й столбец), Уиндема и Хартфорда (два вреМ дних столбца) они меньше (или, наоборот, больше) в середине, ,10С на концах. В п. Г представлены соответствующие неровности. 4еМ Д произведено — на основе рассуждений — кодирование, кото- В Г достаточно приемлемо и для плавной компоненты, идлянеровно- ₽оВ- |4ЛЛ. 23,Е иллюстрирует применение полуграфических пред- ставлений сглаженных данных. В п. Ж — теперь уже на илл. 24 — показано разложение данных на 1) общий эффект, 2) эффекты округов, 3) плавную компоненту эффектов выборов, 4) неровности эффектов выборов, 5) плавные компоненты остатков и 6) неровности остатков. В этом анализе мы удалили медианы округов из плавных компонент, переместив их в эффекты округов. (Перемещение медиан выборов мало что добавило бы; мы оставляем его тем, кого это заинтересует.) На илл. 25 показаны плавные компоненты в виде кодов. Теперь тренды видны яснее, чем когда они были заданы «сухими цифрами». Вертикальная шкала выбрана так, что совпадает со шкалой «эффектов округов»; она, по всей вероятности, так же важна, как числа и распо- ложение, которые мы используем. (Конечно, расположение округов в таком порядке гораздо полезнее, чем в алфавитном.) Соответствующую диаграмму для неровностей предоставляется составить читателю. На нашей диаграмме неровностей не наблюдается никакой явной струк- туры, поэтому возможно, что данные почти исчерпаны. Иллюстрация 23 главы 11: президентские выборы в Коннектикуте Продолжение илл. 22, сглаживание и т. д. в В) ПЛАБНЫЕ КОМПОНЕНТЫ, полученные в результате ЗПРР-СГЛАЖИ- НИЯ по ГОДАМ — отдельно для каждого округа [эфф| 1 Фила' Мийп' ТоП' Нью- Ныо’ Уин" Харт' — ПВ секс Ланд Лондон Хейвен дем форд Г Л86 плавных компонент • □г 55 - — —— • "152 49 '8-4-1 2 11 -23 М48п -65 з ' ° —4 -1 2 11 -23 С24п "3 о on ~3 -1 12 11 “23 В12л 37 0 ~4 ~3 -1 12 8 -6 Б 6п 37 20 ~4 -1 2 12 2 -5 26 _4 -4 -1 11 -2 1 6 *#93л 1п 8 —4 12 -7л 19п -23 плавных компонент 3 —4 2 2 0 16 -2 1 6 *М47 Л! "3 —2о 2 ° 16 -6 1 6 *024 -1 -24 2 4 Ю -6 1 6 *В12п 20о 4 —36 о 4 7 ~18 9 6 *Е6л ° 14 -46 о 19 ~8 -24 9 5 " 2 24 -8 -24 3 3 2 8 —4 12 -7 л 19п -23
396 Глава 11 Иллюстрация 23 (продолжение) Г) СООТВЕТСТВУЮЩИЕ НЕРОВНОСТИ — здесь плавная компонента неровность es остаток 0 0 0 Б 0 0 0 -14 0 9^96 неровностей -19 0 —45 0 12 “6 -2 0 “26 0 ~ 0 0 28 —4 -2 0 43 13 18 С24п 0 -4 0 0 0 0 0 3 0 0 -26 В12п 13 -11 26 —4 26 0 0 -25 15 -67 20 Б 6п 19 -21 О 5 0 -11 3 0 0 -10 —12 0 0 0 -12 -7 7 0 0 7 *#73 неровностей 0 -11 -17 0 0 0 -16 0 0 IV137 0 0 0 16 1 0 0 0 -5 12 *С19 5 -7 -62 0 -12 0 15 0 -9 1 -1 В10 15 -12 0 0 13 -6 -34 -10 54 0 15 * Б 5п 21 -25п 0 22 0 0 0 0 0 0 -7 Д) КОДИРОВАНИЕ —24п —14п —4п 4п 14п 24п © О О + + Две Восемь Семь (45) (24) Восемь Две плавные компо- ненты От —36 От —16 От —5 От—4 От 5 От 16 От 49 до —46 до —24 до 8 до 4 до 14 ДО 24 до 55 Шесть Одна (16) (54) Восемь Семь Четыре неровности От —25 От —17 От —5 От —4 От 5 От 15 От 26 до —67 до —17 до 8 до 4 до 13 до 22 до 54 ПОЛУГРАФИЧЕСКИХ ПРЕДСТАВЛЕНИЙ — округа Фэр- Е) ПРИМЕРЫ филд и Хартфорд # + 20 20 20 + 77 16 9 О © Год '20 • '28 • '36 # + -7 -23 -24 36 • '44 • '52 • '6® 6 6 6 6 6 б з © -23 -23 -23
Методы двухфакторного анализа 397 24 главы 11: президентские выборы в Коннектикуте Продолжение илл. 22 и 23, анализ ^«ос/пР°Чия днАЛИЗ — плавная компонента в верхней половине, неровности в нижней /*v Литч- Фэр- Тол- Миди- Нью» Нью- Харт- филД филД ланд секс Лондон Хейвен Уиндем форд 484 -62 -23 -18 -12 15 29. 50 54 1920 —152 55 0 —4 6 -1 4 3 -27 -152 49 0 -4 -2 -1 4 3 -27 -65 3 13 -3 -6 -1 14 3 -27 -3 0 13 -3 -6 -1 14 0 -10 36 37 0 13 -1 -6 2 14 -6 - 9 37 -4 9 -1 -6 11 0 -7 2 44 26 —4 2 0 0 16 0 -7 2 ’48 3 -4 -14 0 0 16 -4 -7 2 52 -43 -3 -30 4 0 10 -4 -7 2 56 -43 -1 -31 4 0 7 -14 1 2 1960 35 4 -43 19 0 -8 -22 1- 1 64 200 14 -53 24 0 -8 -22 1 —1 • 1920 V 0 0 0 5 0 0 -14 0 24 -25 0 -45 12 0 -6 -2 0 -26 28 V 0 28 -2 -4 0 43 13 18 32 V 0 0 0 0 3 0 0 -26 36 26 —4 26 .0 0 -25 15 -66 20 1940 V 5 0 3 -11 0 0 -10 -12 44 V 0 0 -7 -12 7 0 0 48 V -11 -17 0 0 0 -10 0 ' -0 52 -15 0 16 0 1 0 0 -5 12 56 -77 О —12 15 0 0 -9 -11 -1 1966 V 0 13 -34 -6 -10’ 54 0 15 64 V 22 0 0 0 0 0 0 -7 И) УПРАЖНЕНИЯ 24а) Проделайте анализ, в котором эффекты округов объединены с плавными компо- нентами. 24т\1?°''1е‘1а'1Те го же самое> добавив «общее». Изобразите результаты упр. 246 графически. ДРУГАЯ ВОЗМОЖНОСТЬ бы пРеДставить происходящее в графическом виде, следовало тов 0ТДумать 0 построении зависимостей процента голосов за демокра- всего? В Для кажД°Г0 из восьми округов. Как это сделать лучше (-—17'тт??11 выборов различаются между собой на (20,0) — Постр’оил 6 '' а остатки — на (5,5) — (—6,5)=12,0%. Если бы мы «Мели бы" Восемь отдельных графиков, то все они в общих чертах Всей страньДНУ И Ту же ФОРМУ (в действительности характерную для в°СьМи окпуВ елом^- Если бы мы попытались нарисовать графики для Т°в голосовУð °ДИН под ДРУГИМ» флюктуаций фактических результа- там полуЭННЯ хватило бы, чтобы запутать всю картину. Если мы учить что-нибудь вроде множества наложенных «кривых»,
398 Глава 11 нам необходимо сделать две вещи: 1) удалить эффекты выборе чтобы мы могли увидеть более мелкие различия) и 2) избавит*3 ^Так. некоторой части флюктуаций поведения данных в отдельных (тогда мы сможем поместить восемь «кривых» на одном рисун слишком его запутав). Проведенный анализ (илл. 24) дает н?е’ Яе необходимое для получения удовлетворительного изображения^ Все жества кривых. Нам остается только прибавить обратно эффект Мя°’ ругов к сглаженным по выборам остаткам, получая таким обо °К' сглаженное представление смещения каждого округа относител3°М эффектов выборов штата в целом. Ьн° Результаты, изображенные на илл. 26, довольно ясно показыв плавные компоненты характерных особенностей каждого округа 2? трех округах, записанных заглавными буквами, число голосов на в ° борах 1964 г. колебалось между 300 и 325 тысячами в каждом; обще' число голосов в оставшихся пяти округах вместе было немного меньше чем 300 тысяч.) Самые поразительные особенности этого рисунка' вероятно, следующие: ’ <> в округе Литчфилд (на северо-западе штата) наблюдался спад (в % демократов) в 20-е годы; в 20-е годы; Иллюстрация 25 главы II: президентские выборы в Коннектикуте Плавные компоненты илл. 23 в закодированной форме ПереВес демократов © © © О о 4- 4- + + • • •Харпирорё т г ' ’••ооооо»» •уинвем J- ” 2% - • •+ + +• • •• О о ОМаЮ-ХАн , > П-н^ • • • • -Р -f- т + + ° оНыо-Ыон ¥ о - П . - 0 + -2% -; •оооо»»е®. •Мидлсекс 1 ° ••••••••• + -\-Толланд По--2% • + + + + • о © © © © <рзрфилд U -4%- Перевес республиканцев -^Литчфилд -*• КпЗирование пи щей же uiKO/ie
Методы двухфакторного анализа 399 // люстрация 26 главы 11: президентские выборы в Коннектикуте ые компоненты результатов выборов в округах относительно фактов выборов во всем штате (объединение двух плавных компонент) о в округе Фэрфилд (пригороды г. Нью-Йорка) наблюдался спад в 40, 50 и 60-е годы; , , ___ ол „ гппы\ О наименьшие изменения были в Хартфорде (подъ. и Нью-Хейвене (падение в 40-е и 50-е годы). „ пп\7Х(Ьяктооного анализа может Итак, объединение сглаживания и ДРУ Р Р в которые Не дости- привести нас к получению очень полезных р У > жимы ни одним из этих методов в отдельности. На илл. 27 представлено несколько упр ОБЗОРНЫЕ ВОПРОСЫ Что показалМппИ °®ъеДинить? Какие данные мы взяли для примера? сак°й полупи 1ЛЮС'анализ»? Что мы сделали затем? Приблизительно 27к°лько вил ЛСЯ РезУльтат? Кодировали ли мы результат (результаты)? ^ьный гра*13 РезУльтатов мы кодировали? Как выглядит оконча- ?ик? Пришли ли мы к новым результатам?
400 Глава 11 Иллюстрация 27 главы 11: упражнения Несколько комбинированных анализов, которые следует проделать (все довольно длинные) 27а) Провести сглаживание результатов анализа из упр. 56 по округам на восток для каждых выборов. Результат представить графически ° Запа4а 276) Провести сглаживание результатов анализа из упр. 56 по времени для к округа. Результаты представить графически. а®Дого 27в) Провести сглаживание результатов анализа илл. 13, А по месяцам для к' аэропорта. Результат представить графически. ЖДого 27г) Провести аналогичное сглаживание результатов анализа илл. 17,А. Pe3v представить графически. у ЬТат 27д) Провести сглаживание результатов анализа илл. 21,А по времени для каж округа. Результат представить графически. дог° 27е) Можно ли было провести сглаживание в этом примере по округам? 27ж) Что случается, если мы сглаживаем по обеим переменным? 27и) Какая разница между сглаживанием «по времени» или «с востока на запад»н «по месяцам»? 1Ж- КАК ВЫБИРАТЬ ПРЕОБРАЗОВАНИЕ? Пусть имеются некоторые данные. Как их преобразовать для анализа «строка-ПЛЮС-столбец»? Ответ на этот вопрос для конкретного множества данных находится, как правило, методом проб и ошибок. Однако практическое правило о том, с чего начинать, может оказаться очень полезным, так как, возможно, укажет, куда двигаться дальше. В конце предыдущей главы (в разд. ЮЖ) мы узнали кое-что о преобразовании двухфакторных таблиц. Теперь надо еще немного обдумать такого рода вопросы. По-видимому, полезные правила в большой степени зависят от самой природы отклика и от того, насколько сильно он меняется. Как обычно, мы хорошо сделаем, если привлечем к рассмотрению другие совокупности аналогичных данных, ибо О чрезвычайно редко по самой конкретной совокупности данных мы можем так ясно, как нам хотелось бы, судить о том, каким образом следует анализировать. КОЛИЧЕСТВА И ПОДСЧЕТЫ Количества и подсчеты по определению неотрицательны^^ этому мы можем преобразовать их с помощью логарифмов и обр величин. Может показаться, что возникнут трудности с нулям нако есть два способа их обойти: где ф самый простой способ — положить 1g 0 и —1/0 РаВНЬ1^еХнИ1'а L взято так, что оно меньше, чем любое другое значение. ( xOpoifl° аппроксимаций, которой открывалась эта глава, достаточно применима при наличии нескольких таких L.);
Методы двухфакторного анализа 401 роЖПый способ — «сдвигать» первоначальные значения на О ре. о 5; 1 или большее число, прежде чем логарифмировать 0,1; ’обратные величины. ЦЛ11 ’ ‘ А А 13 хороши оба способа. Но иногда первый несколько несовер- ЧаС второй оправдывает связанные с ним трудности. шеНЕсли отношение наибольшее количество/наименьшее количество (или подсчет) /(или подсчет) о к единице, то не будет заметной разницы, возьмем ли мы лога> ^Л&мЫ (или обратные величины) или нет. Поэтому в таком случае мы Гоем преобразование, которое было бы полезно, если бы это отношение й-по большим, и с него начинаем наш анализ. Если указанное отношение велико, то мы, вероятно, должны будем перейти к одному из двух видов анализа: ф аппроксимации «строка-ПЛЮС-столбец» для логарифмов или ф аппроксимации «строка-НА-столбец» для исходных величин. (В обоих случаях перед нами открываются равные возможности, од- нако аппроксимации, которые при этом получаются, обычно несколько различаются.) Ручной счет, как правило, бывает проще, когда мы преобразуем заданные величины в логарифмы, и аппроксимация в этом случае часто оказывается лучше, поэтому мы обычно начинаем с логарифмов. Если упомянутое выше отношение имеет промежуточную величину, то следует задать себе вопрос: имеются ли разумные основания для выбора преобразования (в разумно устроенном мире)? Если у нас есть такие основания, то мы начинаем с выбора преобразования — и пусть Диагностическая диаграмма покажет нам, по какому пути надо дви- гаться дальше. Если у нас нет такой уверенности, то мы делаем сначала аппроксимацию «строка-ПЛЮС-столбец» для данных в исходном виде, Р°ведя ее по крайней мере вплоть до диагностической диаграммы верТцТ31^1 зависимос™ остатков от сравнительных значений. Те- 1, Чеч qM ваД° выяснить, лучше ли подходит угловой коэффициент <<стРока-ПЭТ° Так’ мы можеи превратить нашу аппроксимацию перейти к К^'столбец» в «строка-НА-столбец», но обычно лучше УДовдетво ЛогаРифмам. Если же 0 подходит много лучше, чем 1, то мы Все Рассл,о2НЫ анализом. В промежуточных случаях надо как следует ИзРедка Р,етЬ " обдУмать- э°ГаРифмцп НаМ пРидетСя применять преобразования, отличные от rj0'1 °бычноВаННЯ ИЛИ взятня обратных величин. Необходимость в РОТИв°положн^В1ЯетСЯ’ когда диагностические диаграммы имеют иые наклоны для анализов двух соседних преобразова-
402 Глава 11 ний — квадратов, исходных данных, логарифмов, обратных вел обратных квадратов. Затем уместно внимательно рассмотреть и НЧИн> мать полученные результаты. °бду. РАЗНЫЕ ЗНАКИ Если среди имеющихся у нас величин есть отрицательные, МЬ1 можем брать логарифмы. Тем не менее мы можем начать с аппрок Не мации «строка-ПЛЮС-столбец», и, если диагностическая диаграмСИ' укажет на коэффициент, близкий к +1,0, мы сможем с легкостью прев3 ратить эту «ПЛЮС-аппроксимацию» в «строка-НА-столбец». (Мы уж' нашли сравнительные значения при построении диагностической диаграммы, а умножить их на +1,0 не представит труда.) Если необ- ходимо сделать что-то отличное от аппроксимаций «строка-ПЛЮС- столбец» или «строка-НА-столбец», то снова лучшее лекарство — поиск и размышление. (См. необязательный раздел ПН, где описы- вается один крайний случай, и необязательный раздел 11 К, где при- водится менее крайний случай.) Если эффекты получились у нас хорошо сбалансированными в отношении знаков, то аппроксимация «строка-ПЛЮС-столбец» может оказаться недостаточно хорошим вступлением к анализу «строка-НА- столбец». (Иногда она даже терпит полную неудачу.) Если «НА-ап- проксимация» — это единственное, что мы на самом деле хотим полу- чить, то можно изменить знаки целиком в стольких строках, в скольких пожелаем, и отдельно в стольких столбцах, в скольких пожелаем, и затем сделать сначала «ПЛЮС-аппроксимацию», а потом «НА-аппрок- симацию» новой таблицы. Затем мы можем восстановить знаки в тех местах, где мы их изменяли, меняя знаки у соответствующих остатков. ДОЛИ ПОДСЧЕТОВ Когда мы подойдем к гл. 15, мы узнаем некоторые способы преобра- зования долей подсчетов. Но это позже. ПОЛЕЗНОЕ РАЗМЫШЛЕНИЕ Теперь мы еще больше, чем раньше, осознали пользу сравните^ ных значений и диагностических диаграмм. Важно, что «ПЛЮС-о?а аппроксимация дает нам переход от аппроксимации «строка-П* столбец» к «строка-НА-столбец». По существу, каждую аппрокс^ цию мы должны доводить вплоть до диагностической диагр - Затем мы всегда можем выбрать: 0 задаться ли вопросом, будет ли лучше «НА-», чем «ПЛЮ^ проксимация», 0 сделать ли аппроксимацию с еще одной постоянной, ка- 0 или не делать ни того ни другого, если ни одно из них жегся полезным (или разумным).
Методы двухфакторного анализа 403 ОБЗОРНЫЕ ВОПРОСЫ кем ли мы полагаться на метод проб и ошибок при выборе пре- - вания для анализа «строка-ПЛЮС-столбец»? Можно ли при обра3° BbIg0pe чем-то руководствоваться? Почему (или почему нет)? такда' яет ли обычно сама совокупность данных, каким именно обра- ОиР над0 анализировать? Что можно сказать о количествах и под- 3°о х? Должны ли мы быть обеспокоены необходимостью логарифми- СЧеТ ть и брать обратные величины от нулей? Почему (или почему нет)? &°Ба делать, если отношение наибольшее/наименьшее близко к 1? П вольно велико? Средней величины? Предполагаем ли мы проводить ПЛЮС-аналнз» вплоть до диагностических диаграмм? Какие два нак- лона играют особую роль? Что можно сказать о случае разных знаков? 0 долях подсчетов? НИ. ЧЕГО МЫ ДОСТИГЛИ? В этой главе в основном объясняется, «как это делать», и продол- жается изучение различных методов анализа и представления данных, с которыми мы встречались в гл. 10. Теперь мы умеем: ф производить аппроксимацию «строка-ПЛЮС-столбец» много- кратным удалением медиан; ф проводить вычисления согласно процедуре, называемой «шли- фовкой медианами», двумя различными способами; ф уменьшать вероятность арифметических ошибок, обводя круж- ками отрицательные числа в наших вычислениях; 0 проверять лучшим способом, действительно ли у нас получилась аппроксимация «строка-ПЛЮС-столбец»; О строить двухфакторную диаграмму любой аппроксимации «стро- ка-ПЛЮС-столбец», начиная с любого из возможных способов разбие- я ее значений на две подходящие части, нанося соответствующие ризонтальные и вертикальные прямые и поворачивая рисунок на аппрокЫявлять остатки, заслуживающие нанесения на диаграмму (механСНМаЦИИ’—наибольшие из них включать в аппроксимацию Каждой чески прибавляя половину значения каждого такого остатка к ф СТИЗ ДВУХ частей аппроксимации); О ис °ИТЬ схема™ческую диаграмму для прочих остатков; ^вУхфа1< °ЛЬЗОВать стандартный код для обозначения остатков на ф сост^Н°И диагРамме остатков; Аому кодуЭВЛЯТЬ шкалУ значений остатков, соответствующих каж- gbI6oP преобп-Н3 днагн°стической диаграммы, осуществлять нужный ЕиДе пп,,Е13ования для последующего анализа откликов, заданных Чвухфакторной таблицы.
4С4 Г лава 11 Кроме того, мы узнали, как О сжимать двухфакторную диаграмму аппроксимации или факторную диаграмму остатков; д Ух* О аппроксимировать, проводя сглаживание внутри некото двухфакторных таблиц; РЬ1Х О изображать соответствующим образом дополнительную Ча (части), получающуюся при таком анализе; СТь 0 использовать обозначение L — «меньше любого числа» ___ логарифма или обратной величины от нуля, так что мы имеем альте нативу для «сдвига» при анализе двухфакторных таблиц с нескольким нулями (а иногда можем идти и дальше, используя это обозначен!/ также и для логарифмов отрицательных чисел); ф переходить к аппроксимации «строка-НА-столбец» с помощью аппроксимации «строка-ПЛЮС-столбец», проведенной после того как мы последовательно, в несколько шагов, изменили знаки в неко- торых строках и столбцах, на каждом шаге изменяя знак или в целой строке, или в целом столбце. Теперь мы гораздо яснее понимаем, 0 что к выбору преобразования для двухфакторного анализа применим общий принцип: очень редко по конкретной совокупности данных можно точно установить, как именно следует их анализиро- вать; 0 что целесообразно почти каждую двухфакторную аппроксима- цию доводить до диагностической диаграммы. Теперь мы достаточно оснащены, чтобы с относительной легкостью проделывать целый ряд действий, связанных с двухфакторной аппрок- симацией. Все способы, о которых в гл. 10 говорилось как о возможных, теперь мы можем осуществить. Когда нам будут представляться разные случаи воспользоваться ими (непосредственно связанные с этой кни- гой или нет), мы все в большей степени будем понимать, как много они могут нам дать.
Глава 11 + НЕОБЯЗАТЕЛЬНЫЕ РАЗДЕЛЫ ГЛАВ 10 И II УКАЗАТЕЛЬ К ГЛАВЕ 11 + ПК- Исследование за пределами «ПЛЮС-один»-ап- проксимации (добавление к гл. 10) 405 Обзорные вопросы 406 ПЛ. Удаление любых сводок 406 Многократное удаление центра 408 Общин случай 411 Многократное удаление среднего 411 Обзорные вопросы 413 ИМ. Пример преобразования данных — убийства в в городах Обзорные вопросы 413 418 ПН. Необычная аппроксимация 418 Каботажные расстояния 418 Обзорные вопросы 421 ПП. Многое ли мы сумели узнать? 421 Хотя мы и разделили на две главы рассмотрение вопросов «Что мы ^ожем сделать» и «Как это сделать», относящегося к ним материала j5e Же больше, чем было бы разумно поместить в этих главах. Настоя- р я глава содержит смесь тем, которые близки к темам гл. 10 и 11г в них не входят. 11 К. ИССЛЕДОВАНИЕ ЗА ПРЕДЕЛАМИ «ПЛЮС-ОДИН»- АППРОКСИМАЦИИ (ДОБАВЛЕНИЕ К ГЛ. 10) кУрс в Лл‘ 28 предлагается (для тех, кто хочет этим заняться) экс- 4ва».Яг,„0ДнУ из частей неизведанной области «стр-ПЛЮС-стл-ПЛЮС- Тем °КСИмаций- ЧТ° Пос’ЛеКТО с°бирается предпринять это исследование, известно, С11Мации д°бавления одного дополнительного члена в нашей аппрок- «строка-ПЛЮС-столбец», мы, возможно, добьемся еще
406 Глава 11+ Иллюстрация 28 главы /7+; восточное побережье Необязательные упражнения на проведение дальнейшего анализа НЕОБЯЗАТЕЛЬНЫЕ УПРАЖНЕНИЯ — все трудные 28а1) Постройте график зависимости остатков из илл. 11, А гл. 10 от сравнит* значений из илл. 9,Г гл. 10. Какая очень простая дополнительная annnbHVl,( мания приходит на ум? ₽°ксц. 28а2) Для какого графика аппроксимация еще одной дополнительной постоя (уже после «ПЛЮС-один»-аппроксимации) была бы простой? Постройте Н°® график. Выберите эту постоянную. (Теперь мы имеем ОДИН пример ОДНОг01 вида аппроксимации «стр-ПЛЮС-стл-ПЛЮС-два».) и|0 28аЗ) Найдите остатки этой аппроксимации. Вернитесь обратно и переделайте 1) аппроксимации строк и столбцов, 2) постоянные k, на которые помножают^ сравнительные значения, чтобы получить лучшую аппроксимацию «стр-ПЛЮ? стл-ПЛЮС-два». Изобразите ее остатки. Каковы они по сравнению с осгаткак илл. 10 гл. 10? 1й немного большего от дальнейшей дополнительной аппроксимации «строка-ПЛЮС-столбец». Попытаемся проделать все это для простой аппроксимации «строка-ПЛЮС-столбец-ПЛЮС-один» из илл. Ц гл. 10. На илл. 29 показано, чего можно добиться и в каких пределах. Ясно, что если мы собираемся следовать по этому пути, то, по всей вероятности, будем двигаться туда и обратно, занимаясь поочередно аппроксимациями то «строка-ПЛЮС-столбец», то «(новая постоянная)/ X (новые сравнительные значения)». Один шаг, который мы можем сделать без сложных вычислений, это подобрать дополнительное значение для общего члена. Результат показан на илл. 29, В. ОБЗОРНЫЕ ВОПРОСЫ Могли бы мы продвинуться за пределы «ПЛЮС-один»-аппроксима- ции? Что можно было бы узнать? Что по меньшей мере мы могли бы сделать? Что это дало бы в нашем примере? ИЛ. УДАЛЕНИЕ ЛЮБЫХ СВОДОК На илл. 1, В гл. 10 представлен анализ «строка-ПЛЮС-столбец температур в Аризоне. В результате проверки мы убеждаемся, дальнейшие шаги удаления медиан не дали бы никакого эффе Тем не менее удаления другого вида удобно начинать, как в Шинстве других примеров, с результатов, полученных после 4einJll0- шагов удаления медиан. Один вид удаления, который легко про» стрировать благодаря простоте арифметических действий, эТ°сЛйд1' ление центра (среднего из крайних значений). Поскольку центр ком чувствителен даже к единичному экзотическому значению, ^а11- жероятно, что мы будем его использовать для анализа реальнь
Необязательные разделы глав 10 и 11 407 Иллюстрация 29 главы 11+: восточное побережье тельная аппроксимация «строка-ПЛЮС-стол ^оП°«строка-ПЛЮС-столбец-П ЛЮС-один» (начинает Если мы позволяем себе ДОПОЛНИТЕЛЬНУЮ ка.ПДЮС-столбеш | Данные'1) | | Доп. ап бец» после аппроксимации гея с илл. 11 гл. 10) АППРОКСИМАЦИЮ «стро- пр. | 11, 111 О ГО <0 О О <Л м О О О О О О -» 1 1 . ,11 Ч -< М О < Ц1 N -S3 0 0 -13 2 0 0 0 6 7 -13 0 0 110 4 0-8 0 0-4 1 -2 0 13 11 0 0 -7 13Z 0 -13 *» В действительности это остатки «ПЛЮС-один»-аппроксимации. Б) ГДЕ МЫ и куда можем прийти? Сейчас мы имеем аппроксимацию - । । (СТР) (стл) , „ , „ . все + стр + стл-------------1- все* + стр* + стл*, где звездочкой * отмечена дополнительная аппроксимация п. А. Это эквивалентно (всё + всё*) + (стр + стр*) + (стл -j- стл*) — -СГ-'. 1стл\ 544 Одним из способов улучшить анализ могло быть нахождение k* в выражении (всё+ всё*)+(стр + стр*)+(стл + стл*) + k* (£З.Р+стр*)(стл+стл*) , (все-|-все*) (Этот способ мы оставляем для упражнений.) пяти? НАИМЕНЬШЕЕ, что мы МОЖЕМ СДЕЛАТЬ, — два варианта в аппрокси- и (ограниченной только общим) для остатков илл. 11 Г) УПРАЖНЕНИЯ 29а1) Найдите другое множество данных, заслужи- вающее такой обработки, и проделайте «ПЛЮС-один»-аппроксимацию. 29а2) Продолжайте аналогично п. А. 29аЗ) Оправдано ли продолжение, аналогичное п. В? Почему (почему нет)? Если оправдано, то проделайте его. -70 -33 -18 2 -7 -14 ’8 3 2 2 2 2 2 2 -10 -13 -5 2 О -19 -15 0 0 0 о о о о о -2
408 Глава J7+ ных. (Конечно, он применяется при построении простой аппрОк ции таблиц, не содержащих ошибок.) Здесь мы будем использСИМа' центр только в качестве иллюстрации того, насколько далеко^11 сводка может отстоять от медианы. (Если с ним все получится хоп ЭТа то и с любой другой сводкой, которую мы сможем придумать, так>крШ°’ будет получаться хорошо.) Все МНОГОКРАТНОЕ УДАЛЕНИЕ ЦЕНТРА Итак, давайте попытаемся удалить центр каждой строки и цер каждого столбца. (Напомним, что центр часто называют середин'^ размаха.) На илл. 30 представлены расчеты, которые мы производил1' таким же образом, как делали это в разд. 11А для многократных ’--И лений медиан. Результат немного зависит от того, где и как мы начали" но все три таблицы (3x7), которые мы получили, а именно (в QJ0 ру УДа- мы получили, а именно (в (>,ГЁ)’ которые —1 6 -5 —2 6 —6 —1 6 -6 -4 —3 1 —4 4 1 —3 4 0 —8 7 7 —8 8 7 —7 8 7 -3 2 2 —3 3 2 —2 3 2 8 —8 -6 7 -8 -7 8 -8 —7 5 0 -6 5 1 -6 6 1 —6 —1 1 1 —1 2 1 —1 1 0 (п. А) (п. Б) (п. В) имеют, как оказалось, одинаковые максимальные по абсолютной ве- личине остатки 0,8. (Если мы хотим иметь дело с половинами десятых .долей градуса, то можно снизить их до 0,7 п.) Иллюстрация 30 главы 11+: температуры в Аризоне Удаления центра (пример крайнего случая) А) НАЧИНАЯ с илл. 1 ,В главы 10 0 .2 -.9 -.4 .4 .6 -.5 0 .2 0 .1 -.1 .1 -.1 -1.0 0 0 -.5 -.5 .5 .5 0 0 0 0 0 0 0 1.9 -.2 0 .8 1.1 -1.0 -.8 1.0 0 -.6 .2 .8 -.2 -.8 .3 0 0 .2 .1 -.2 -.2 .3 -.2 -.2 -.1 .6 -.5 .2 .1 .8 -.3 -.4 .3 .1 V -.4 .3 .1 -.8 .7 .7 V -.8 .7 .7 -.3 .2 .2 V -.3 .2 .2 .8 -.8 -.6 •J .8 -.8 -.6 .5 0 -.6 .5 0 -.6 -.1 .1 .1 -.1 -.2 0 0 V Примеры! -.4 »|(.2+.9) .1 х= |(0 + .2) II» .4 = 0- (-Л) ,6 = .2-Н) -.1=0- (Л)
Необязательные разделы глав 10 и 11 409- Иллюстрация 30 (продолжение) Б) НАЧИНАЯ с ТОГО ЖЕ САМОГО места, но в ДРУ- В) НАЧИНАЯ С ИСХОДНЫХ ДАННЫХ ГОМ направлении СЧ’d1 О СО Xf СО in со со со ю SS 1Л ’* с? гч W СО т- г> см со г> о I 'll СП xt СО СО со о *; Г> CO xj о xt N Xt CM I fl *N CO CM CM f f f CM о Xi-СП Ч-co I I 1 1 f «М-. io^ co cm cm i r* • • • fM 7 СМ СО Г- сч > U> т; ‘111 1 СО Xi СО СО СО г- т- ' ' г * v CO Г* CM CO <0 1- f f f f * i 1Л CM r-. CM XT Ш о T ’ ’ ' i f <o^jscMq0 o CMxfaixtcflxi-Xh f I 1 f I Ю CM CO co CO 10 CM l..........if* <0 xt CO co CO t; CM CM xf CO CO fs 10 t- f f f f ' I s' CO Xf CO (0 CO r; CM ‘ f ’ CM xf co CO Js 10 v« I I* 1* f * I*
410 Г лава 11+ Иллюстрация 31 главы 11+s температуры в Аризоне Удаление средних А) НАЧИНАЯ с илл. 1, В гл, 10 0 .2 —.9 -.2 Л .4 -.7 0 .2 0 .1 -.1 .1 -.1 ”• 1,0 0 0 -.3 -.7 .3 .3 0 0 0 0 0 0 0 1.9 —.2 0 .6 1.3 -.8 -.6 1.0 0 -.6 .1 .9 -.1 -.7 .3 0 0 .1 .2 -.1 -.1 .3 V -.3 V -.1 .4 -.4 V -.4 .1 .2 аА -1.0 .3 .8 -У -.3 0 -,3 1.0 -.8 -.3 .6 -.1 -.4 'J -.1 -.1 .2 Б) НАЧИНАЯ о ТОГО ЖЕ САМОГО места, но в ДРУГОМ направлении 0 .2 -.9 0 .2 0 -1.0 0 0 0 0 0 1.9 -.2 0 1.0 0 -.6 .3 0 0 .3 V —.2 -.3 .2 —.7 -.3 0 .5 -.4 -.3 .2 .2 V -.3 .2 .2 -1.3 0 .2 -.4 -.9 .4 .6 -.3 0 .2 V -.3 0 .2 1.6 —.2 .2 .5 1.1 -.7 -.3 .7 0 -.4 .1 .6 -.1 -.5 0 0 .2 .1 -.1 -.1 .1
Необязательные разделы глав 10 и 11 411 Иллюстрация 31 (продолжение) НАЧИНАЯ с ИСХОДНЫХ ДАННЫХ — с помощью калькулятора 65.2 90.1 94.6 83.3 -18.1 ,6.8 11.3 63.4 88.3 93.7 81.8 -18.4 6.5 11.9 67.0 82.7 88.3 76.0 -19.0 6.7 12.3 46.1 70.8 76.4 64.4 -18.3 6.4 12.0 35.8 58.4 64.2 52.8 -17.0 5.6 11.4 28.4 52.1 57.1 45.9 -17.5 6.2 11.2 25.3 49.7 55.3 43.4 -18.1 6.3 11.9 -18.1 6.4 11.7 V 0 .4 —,4 V ,1 .2 J -.9 .3 .6 J -.2 0 .3 1.1 -.8 -.3 у/ .6 —,2 -.5 0 -.1 ,2 Г) УПРАЖНЕНИЕ 31а) Начните с исходных данных и пойдите в другом направлении, Сравните ваши результаты с результатами п. А, Б и В. ОБШИЙ СЛУЧАЙ Можно делать аналогичные вычисления, многократно удаляя зна- чения нескольких выбранных сводок, используя для этого любые сводки, какие мы захотим. МНОГОКРАТНОЕ УДАЛЕНИЕ СРЕДНЕГО Те, кто любит считать, могут использовать даже среднее, как на илл. 31. На этот раз мы проводим только два шага вычислений. (Мы Дошли бы в точности до конца, если бы не ограничились только деся- падИ РезУльтаты> полученные с точностью до одной десятой, не сов- точпЮТ междУ собой. (Они совпали бы, если бы мы считали с большей остью.) В единицах О, Г F они получились такими: 4 1 3 О -8 — 1 Л одном .... апУппЛЯТЬ ее из ппРоксимацию —4 2 6 3 —3 —4 —2 5 2 4 О —7 —1 —1 —4 2 6 2 -3 -5 1 О —3 —9 —3 Л 6 —1 различаются О -3 —9 —2 11 6 О более чем 4 1 3 О -8 —2 —1 —4 2 6 3 -3 —5 2 на одну десятую. — 1 —4 -10 -3 10 6 -1 случае они не могли бы придумать свою собственную сводку и много- °™’ ее из данных, для того чтобы найти какую-нибудь --J и иное множество остатков.
412 Глава /7+ Иллюстрация 32 главы 1Н: убийства в городах Число преднамеренных и непреднамеренных убийств (вместе) за 1961, 1964 и 1966 гг, в 18 крупнейших городах A) I РАННЫЕ Б) «ПЛЮС-АНАЛИЗ» В) СРАВНИТ!? пг ЗНАЧЕНИЯ НЬ(Е [Город] | Нью-Йорк 19611|1964]|1966] [эфф] 11961] J1964]]1966| О X М О *4 ix О> о о о оо 1g СО S3 Ъ ОТ от /<£ от со /от 482 636 653 528 -130 0 11 Чикаго 365 398 510 290 —9 0 106 лос-Анджепес 159 177 226 75 0 -6 37 Детройт 136 125 214 52 0 -35 48 Филадельфия 144 188 178 64 -4 16 0 Балтимор 89 144 175, 36 -31 0 25 -8.0 0 2.0 Вашингтон 88 132 141 24 -20 0 3 -5.3 0 1,з Кливленд 80 116 139 8 -12 0 17 -1.8 0 д Даллас S3 149 120 15 0 26 -9 -3.3 0 .8 Новый ОрлеаН 52 8Z 113 -26 -6 0 25 5.8 0 -1.4 Сент-Луис 77 120 106 -7 0 13 -1 1.6 0 -Д Акрон 16 12 17 -96 28 0 -1 21.3 0 -5.3 Бостон 26 52 58 -56 -2 0 0 12.4 0 -3.1 Буффало 13 21 24 -87 22 Q -3 19.3 0 -4.8 Денвер 32 33 39 -75 23 й о 18.7 О -4.2 Джерси-СиТИ 11 17 16 -91 18 0 -7 20.2 0 -5.1 Канзас-Сити 49 48 59 -55 20 -5 0 12.2 0 -3.1 Лонг-БИЧ 10 17 20 -91 17 0 -3 20.2 0 -5.1 эфф 108 со о 7 32а) 326) значениям и сравните с илл. со. р и 32в) Найдите численные значения «НА-аппроксимациИ» данных на основе п. <_ " _____________________________ 32в2) Найдите остатки, соответствующие только что Г) УПРАЖНЕНИЯ Выберите пять ненулевых сравнительных значений и проверьте, действительно ли они соответствуют п. Б, м Найдите срединную трассу (ЗПРР) остатков по отношению к сравнитель значениям и сравните с илл. 33. в и ее сравнительные значения. Выпишите аппроксимацию. „,,япии, ' " ” . . _j полученной аппРоКС" веден- постройте стебель с листьями и сравните его со стеблем с листьями, пр ным на илл. 38. к перво- 32в3) Постройте диагностическую диаграмму этих остатков по отношен . начальным сравнительным значениям. Проанализируйте резуль 32в4) Постройте срединную трассу ЗПРР для этих 54 точек. Ю63 г с. 307 Д) ИСТОЧНИК: World Almanac and Book of Facts (c. 310 для 1W» ” для 1966 г„ c, 903 для 1968).
Необязательные разделы глав 10 и 11 413 --- ОБЗОРНЫЕ ВОПРОСЫ ой мы выбрали пример? Что мы попробовали удалять сначала? КаКгл0 натворить одно отскакивающее значение? (Если надо, со- Что "е пример.) Сколькими способами в нашем примере мы удаляли ставьт полуЧилось при сравнении результатов? Что мы пробовали иенТР- потом? Что могло бы натворить одно очень сильно отскаки- удаля значение? (Если надо, составьте пример.) Насколько хорошо ваК>Шсуются результаты различных вычислений? Можно ли удалять соГЛ сводки? Какие именно? Каким образом? Даже если вы приду- S" новую сводку? НМ. ПРИМЕР ПРЕОБРАЗОВАНИЯ ДАННЫХ — УБИЙСТВА В ГОРОДАХ Простой пример иллюстрирует многое из только что изложенного. На илл. 32 приведены данные, их анализ «строка-ПЛЮС-столбец» и соответствующие сравнительные значения. На илл. 33 показана полу- едющажя в результате диагностическая диаграмма. На илл 34 дана в увеличенном виде центральная часть илл. 33, показана сглаженная методом ЗПРР срединная трасса; точки из илл. 33 убраны и добавлены две сравнительные прямые: остаток = нуль, остаток = сравнительное значение. Ясно, что срединная трасса (ЗПРР) ближе к последней, хотя асиммет- рия ее левой и правой частей может вызывать беспокойство. Далее, о Иллюстрация 33 главы Н+: убийства в городах Диагностическая диаграмма на основе илл. 32 Остаток 100- Х X о - Х х X X - сравнительные значения Г 1__________________।--------------*- Ква ~1°° ° адВатиком обозначены 12 совпадающих точек (0,0),
Иллюстрация 34 главы 11+: убийства в городах Увеличенный вид центральной части илл. 33 Иллюстрация 26 главы П + : убийства в городах Анализ логарифмов подсчетов I Заданные значения | Строка-ПЛЮС-бтолбец | Сравнит. | значения (логарифм Ы’>) Го- | РОД | |1S61| |1964 |1966 |эфф | 1961 | |19641 119661 1961J |1964| 1966| Нью-Йорк. 268 280 281 74 0 4 -1 -2.93 б 2.26 Чикаго 256 260 271 62 0 -Л 1 -2.46 0 1.84 Лос-Анджелес 220 225 235 26 0 -3 1 -1.03 0 .77 Детройт 213 210 233 10 0 -11 6 -.75 0 .56 Филадельфия 216 227 225 22 0 3 -5 -.87 0 .65 Балтимор 195 216 224 14 -13 0 2 -.55 0 .42 .21 .12 .18 Вашингтон 194 212 215 7 -7 3 0 -.28 0 Кливленд 190 206 214 4 -8 - 0 2 -.16 0 Даллас 200 217 208 6 0 9 -6 -.24 0 Нов. Орлеан 172 191 205 -11 -11 0 8 .44 0 -.33 -.15 Сент-Луис 189 208 203 -5 0 11 0 .20 0 -2.52 Акрон 120 108 123 -85 11 -9 0 3.37 -.95 Бостон 142 172 176 -32 -20 2 0 1.27 -2.08 Буффало 128 132 138 -70 4 0 0 2.77 0 Денвер 151 152 159 -49 6 -1 0 1.94 0 -1.46 -2.61 Джерси-Сити 104 123 120 -88 -2 9 0 3.48 -.92 Канзас-Сити Лонг-Бич 169 100 168 123 177 130 -31 -79 6 -15 -3 0 0 1 1.23 3.13 0 -2-35 эфф 202 -8 0 6 11 Единица = 0,01
Необязательные равделы глав 10 и 11 415 Иллюстрация 36 главы 11*: убийства в городах ЗПРР срединная трасса для диагностической диаграммы илл. 35 Иллюстрация 37 главы 11*: убийства в городах Антилогарифмы аппроксимации из илл. 35 (которые являются аппроксимацией «строка-НА-столбец» исходных данных) и соответствующие остатки А) АППРОКСИМАЦИЯ И ОСТАТКИ Аппр. (подсчетов) | 1 Остатки I | г ород | |1961| |19641 j1966 | |l96l| |1964| |1966| Нью-Йорк 479 575 661 3 61 -8 Чикаго 363 436 501 2 -38 9 Лос-Анджелес 158 191 219 1 -14 7 Детройт 135 162 186 1 -37 28 Филадельфия 145 174 200 -1 14 -22 Балтимор Вашингтон Кливленд Даплво 120 102 96 145 123 115 166 141 132 -31 -14 -16 -1 9 1 9 0 7 100 120 138 -1 29 -18 Ноа. Орлеан Сент-Луис 68 81 93 -1 27 -1 Акрон 78 93 107 -1 27 -1 Бостон 12 15 17 4 -3 0 БУФфвло 42 50 58 -16 2 0 Денвер 19 21 24 1 0 0 ДжерОбСити 32 32 39 0 1 0 ^е-Сити ДйНГ-БцЧ 11 14 16 0 3 0 43 51 59 6 -3 0 15 17 20 -5 0 0
416 Глава 11 + точки зрения наших обычных рассуждений, нам следовало бы пепе“ или к аппроксимации «строка-НА-столбец» числа убийств или «стп ЙТй ПЛЮС-столбец» их логарифмов. Мы оставляем аппроксимацию «стгю Э' НА-столбец», основанную на аппроксимации «строка-ПЛЮС-столб*3' числа убийств, читателю (см. упр. 32 в1, в2, вЗ) и переходим к логапи!? мам. На илл. 35 представлены логарифмы данных, анализ «строк1' ПЛЮС-столбец» и их сравнительные значения. На илл. 36 показа Э" срединная трасса (ЗПРР) для диагностической диаграммы. Она жется вполне спокойной и неинтересной, и мы можем полагать чт' у нас получился удовлетворительный анализ. ’ 0 Далее мы хотим вернуться от логарифмов к исходным числам чтобы сделать полное сравнение остатков. На илл. 37 представлены Иллюстрация 38 главы 77+/ убийства в городах Три множества остатков для трех анализов числа преднамеренных и непреднамеренных убийств А) СТЕБЛИ С ЛИСТЬЯМИ "ПЛЮС-анализа" | подсчетов | "НА-анализа” | подсчетов [ '"НА-анализа’1 | исходя из, log | Н 106, 55,90 61 .4* 8 5 3* 7 3 2* 0235568 366 0789 1* 1667789 026779 4 а < 678 6799 0* 3 222333344 1111122334 Z ЙИ И-- И” -0* 112334 122234 1111331 • 566799 56 , 58 -1* 2 0023458 446668 -2* 0 3 2 -3* 15 5 178 —4* М -130 Замечание. На правой схеме ±1, а также большинство ±2 и 3 могли бы °к blliejj нулями, если бы анализ логарифмов проводился с точностью, на порядок (что, наверное, не стоило бы связанных с этим трудностей). Б) БУКВЕННЫЕ ЗНАЧЕНИЯ #54"Г 1ЛЮС-анализа" подсчетов ’’НА-анапиза’1 ИСХОДЯ ИЗ V- "НА-анализа” --ж .14 lofl * иСХОДп М27п 0 0 0 —3 7 С14 17 -3 20 8 -2 10 4 25 В 7п 24 -8 32 21 -11 32 9 —22 49 Б 4 28 -20 48 33 -15 48 27 —31 59 3 37 -31 68 45 -18 63 28 -37 6« 2 48 -35 83 55 -23 78 29 -38 99 1 106 -130 236 90 -35 125 61
Необязательные разделы глав 10 и 11 417 В) Иллюстрация 38 (продолжение) Несколько видов ШИРИНЫ, ПОМЕЩЕННЫХ РЯДОМ: "ПЛЮС- 1 анализа" (исходных | данных "НА- ШИ апиза" I исходя из "НА- । -анализа" I исходя 1 из, log С-Ширина 20 * 10 ♦ 7 В-Ширингр 32 32 * 25 Б-ширина 48 48 49 3-ширина 68 * 63 * 59 '2-Ширина 83 * 78 * 66 размах 236 * 125 * 99 д^ечание. Звездочкой отмечено уменьшение значения в правой колонке по сравне- нию с левой. Г) УПРАЖНЕНИЯ 38а) Соберите аналогичные данные за другие годы (желательно как за более ранние, так и за более поздние) и в аналогичном множестве городов; проделайте анализ, как на илл. 32. 38а2 —38а7) Продолжите параллель с илл. 33—38. результаты потенцирования «ПЛЮС-аппроксимации» логарифмов и соответствующие остатки. (Это, конечно, дает «НА-аппроксимацию» исходных чисел.) На илл. 38 показаны схемы типа стебля с листьями и буквенные значения для трех множеств остатков: О «строка-ПЛЮС-столбец»-аппроксимации подсчетов; О «строка-НА-столбец»-аппроксимации, основанной на тех же данные; О «строка-НА-столбец»-аппроксимации, полученной из «ПЛЮС- аппроксимации» логарифмов. вод ВВлим постоянное уменьшение размеров остатков и делаем вы- проксимаеЛ° СМЫСЛ пеРеяти от «ПЛЮС-аппроксимации» к «НА-ап- Дан^НА-аппР^сиМация» через логарифмы даже ближе к исходным Последнее утверждение наводит на мысль о том, что (здесь ^авдопоДобно, что «НА-аппроксимация» исходных данных Цйи» исхоПп°и^еТОв)’ кот°Рая основывается на «ПЛЮС-аппроксима- 0 «Нд.'1Ь1Х данных» хороша для начала; Граченных'у™Р°Ясимац-ия>> через логарифмы, возможно, стоит за- 14 °Л°ЖеНИя час™чно отражены в разд. ЮЖ- . '$17
418 Глава П+ ОБЗОРНЫЕ ВОПРОСЫ Какой пример мы рассматривали? Как выглядит диагностиче диаграмма? Что мы еще с ней сделали? Куда дальше она застав^4 нас идти? Что из этого вышло? Могли бы мы вернуться обратно? 1<ИЛа кого вида аппроксимации? Сколько аппроксимаций мы сравнивя Каков был результат сравнения? К каким предварительным вывод*1 это нас привело? дам ПН. НЕОБЫЧНАЯ АППРОКСИМАЦИЯ Прежде чем закончить эту главу, мы должны показать, что аппвок симации «строка-ПЛЮС-столбец» и «строка-НА-столбец» — ни в чи- стом виде, ни с «ПЛЮС-один»-аппрокснмацией — не исчерпывают все многообразие возможных аппроксимаций двухфакторных таблиц Мы можем начать анализ совершенно иначе — или же начать одним из описанных способов и двигаться дальше (один пример приводится здесь, другие появятся в гл. 12). КАБОТАЖНЫЕ РАССТОЯНИЯ Один из видов двухфакторных таблиц — это таблицы расстояний по морю между парами портов из некоторого их перечня. На илл. 39 в общих чертах изображена простейшая ситуация такого рода. Про- писные буквы А, В, С, . . ., F — порты, а строчные — точки на основ- ном пути каботажного плавания, от которых суда поворачивают к порту. (На практике картина редко бывает столь простой.) Расстояние по морю между соседними портами в основном склады- вается из трех частей следующим образом: От А до В От В до G От С до D От D до Е От Е до F <от А до а> + <от <от В до &>+<от <от С до с>+<от (см. <от Е до е> + <от а до 6>+<от Ъ до В> Ь до с>+<от с до С> с до 4>-|-<от d до В> ниже) е до />+<от f до Г>; где символ ( ) только в этом примере обозначает расстояние. Если мы собираемся аппроксимировать расстояния не только между сосед Иллюстрация 39 главы 11+: поясняющая Простейшая схема расстояний при каботажном плавании
Необязательные разделы глав 10 и 11 419 но и между другими парами, нам необходимо делать в виде (скажем, для А и D) всп. А + путь от а до d + всп. D, пример, всп. А (вспомогательный путь вблизи Д) более или ме- гДе> 15Ответствует расстоянию аА. Если нам удастся каким-нибудь об- нее с0 наити разумные значения для слагаемых «вспомогательный путь Ра30М поста», то мы должны суметь сделать аппроксимацию величины вбЛИЗИ чир Иллюстрация 40 главы 11+: расстояния между портами Расстояния вдоль маршрутов судов между портами Южной Америки (необычная аппроксимация) А) ДАННЫЕ — расстояния в морских милях Лота П.А. Ban. Ант. Арр. Кап. Кок. Ик. Антофагаста X 325 215 396 224 828 1996 576 Арреа 325 X 522 702 110 1134 2301 8828 Кальдера 216 522 X 196 420 628 1795 396 Кокимбо 396 702 196 X 602 455 1623 203 И кике 224 110 420 602 X 1033 2201 782 Лота 828 1134 628 455 1033 X 1191 268 Пунта-Аренао 1996 2301 1795 1623 2201 1191 X 1432 Вальпараисо 576 682 376 203 782 268 1432 X Б) Данные, скорректированные ВСПОМОГАТЕЛЬНЫМИ РАССТОЯНИЯМИ,— строки и столбцы (вспом. расстояния) (9) (12) (8) 14) (9) (16) (0) (6) Антофагаста X 304 198 373 206 803 1987 561 Арреа 304 X 502 676 89 1106 2289 864 Кальдера 198 6о2 X 174 403 604 1787 362 Кокимбо 373 676 174 X 579 425 1609 183 Икике 206 89 403 579 X 1008 2192 767 Лота 803 1106 604 425 1008 X 1175 246 Пунта-Аренас 1987 2289 1787 1609 2192 1175 X 1426 Вальпараисо 561 864 362 183 767 246 1426 X Примеры: 304 = 325 — 9-12; 198 = 215-9 -8: 502 = 522-12 -8 В) АППРОКСИМАЦИЯ И РАСПОЛОЖЕНИЕ ПУТЕЙ ^оФагаота х з0з 200 373 205 803 1987 562 Кальпол 303 * 503 676 98 1106 2290 865 Коки мл л’ 200 503 * 173 405 603 1787 362 Икике 373 676 173 х 578 430 1614 189 Лота 209 88 405 578 * 1008 2192 787 ’’Унта.Аьен^ 303 1106 603 430 1008 х 1184 241 Вальпапаи 1987 2290 1787 1614 2192 1184 х 1425 562 865 362 189 767 241 1425 х 1994 2297 1794 1621 2199 1191 7 1432 ^Ютн РЬ1’р1 1994—2297 | ; 200= I 1994—1794 | (здесь « | | » указывают 14* величину числа» = «размер числа»).
420 Глава 11+ Иллюстрация 40 (продолжение) Г) ОСТАТКИ Антофагаста X 1 —2 0 1 0 -1 -1 Арреа 1 X -1 о -9 О -1 Кальдера —2 -1 X 1 -2 1 0 I > Кокимбо О о 1 X 1 -5 -5 -6 И кике 1 —9 -2 1 0 0 О Лота 0 О 1 -5 0 X -9 5 Лунта-Аренас О -1 0 -5 О -9 X 1 Вальпараисо -1 -1 0 -6 0 5 1 X Замечание. Из 28 остатков 20 равны 4-1, 0 или —1, по два равны—2, 5, _g одному равны 5 и —6. ’ и По Д) ИСТОЧНИК: World Almanac and Book of Facts, 1963, c. 684. E) УПРАЖНЕНИЯ 40a) Укажите несколько специфических чисел, которые показывают, что аппрокси мация «строка-ПЛЮС-столбец» для этих данных не может дать хорошей аппрок- симации. р 406) Проделайте то же самое для аппроксимации «строка-НА-столбец». Ж) ТРУДНЫЕ УПРАЖНЕНИЯ Замечание. Трудность этих упражнений состоит в том, что методы их решения не изу- чаются в этой книге. 40в) Придумайте способ, которым можно аппроксимировать вспомогательные рас- стояния и расположения путей. 40г) Следует ли ожидать разумной аппроксимации такого вида для расстояний между портами Вест-Индии, Карибского моря и Мексиканского залива? (Данные также имеются в Мировом альманахе.) расстояние МИНУС всп. путь для порта из строки МИНУС всп. путь для порта из столбца с помощью величины I путь до порта в строке МИНУС путь до порта в столбце I, где вертикальные черточки означают: «взять абсолютную величину», т. е. «взять указанную разность со знаком «+» вне зависимости от того, какой знак она имеет». Неизбежно появятся остатки. Одни могут иметь простую инзер претацию, другие нет. Для схемы на илл. 39 расстояние между Е> и > полученное в результате аппроксимации, будет иметь вид (от D до </)4-(от d до е)4~(от е до £), “ , от но на рисунке показан гораздо более короткий прямой путь к Е. Это несомненно должно сделать остаток для пары D Е о Р 1И тельным. На илл. 40 даны результаты такого процесса зппроксь оВ (правда, сама аппроксимация проводилась иначе) для восьми у на западном побережье Южной Америки. Из всех 28 пар пг1оВОрят 20 остатки не превышают 1 милю. Из остальных восьми тД^нта-Аре' о наличии кратчайших путей от Кокимбо до портов вблизи 1 У еШе нас, еще две — о кратчайших путях между соседними пор
Необязательные разделы глав 10 и 11 421 ятка равны —2 и последний (+5) для портов Лота — Пунта- два Совершенно необъясним. АРеа этого примера можно сделать следующие важнейшие выводы: ч хотя почти всегда стоит начинать с попытки применить анализ v пЛЮС-столбец», существуют двухфакторные таблицы, ко- Лпые можно хорошо аппроксимировать только с помощью другого Т°РЬода — не может существовать панацеи для обработки всех двух- лайорных таблиц; <Pdl\ есди мы хотя бы приблизительно понимаем, что на самом деле исходит в двухфакторной таблице — или в какой-то другой струк- Пр е необходимо на этой основе выбрать подход к ее исследованию. бы неправильно на каждой новой совокупности данных снова читься тому, чему мы уже научились. Мы должны использовать все, что мы уже знаем, для выбора направления и методов нашего анализа. /Было бы неправильно — не абсолютно неправильно, но достаточно неправильно — доверять своему пониманию до такой степени, чтобы никогда не пытаться применить подходы, которые, как нам кажется, не приведут к успеху. Некоторые наши соображения ошибочны, но мы никогда не обнаружим их несправедливость, если не будем, по крайней мере иногда, исследовать данные способами, которые для этих данных кажутся бесполезными.) ОБЗОРНЫЕ ВОПРОСЫ С какого примера мы начали? Какой путь кажется естественным для начала анализа? Какую картину мы себе представили? Как мы решили разложить каботажные пути? Что произошло, когда мы попытались это сделать? Какие выводы можно сделать из этого примера? ПП. МНОГОЕ ЛИ МЫ СУМЕЛИ УЗНАТЬ? В этой главе мы рассмотрели четыре совершенно различных во- проса, каждым из которых можно было заниматься отдельно: п<> исследование применения второй аппроксимации «строка- n,u ’“'Столбец», после того как уже проделана и удалена «ПЛЮС- °Дин>>-аппроксимация; км»Использование любых сводок, а не только медиан, для «шлифов- cn₽-Itl„ аппРоксимации типа «строка-ПЛЮС-столбец», включая как О о ТЭК И Центр: исслрп2?Ин пРимер, где преобразование позволяет более эффективно О одЭТЬ данные ° числе убийств; Ниях, где” пРИмеР> встречающийся в задаче о каботажных расстоя- п°лнёние ,келательным и эффективным оказалось совсем другое до- аппрокснЛ аппРоксимации «строка-ПЛЮС-столбец» (можно сказать — ‘ ачия «строка-МИНУС-столбец»), и' и 11 Ид Рассм°трения этих вопросов прост: то, что мы узнали в ** Л1°б0Му’иТ0 лишь корень, из которого может вырасти много ветвей, нас может понадобиться придумать еще одну ветвь.
Глава 12 УСОВЕРШЕНСТВОВАННЫЕ АППРОКСИМАЦИИ УКАЗАТЕЛЬ К ГЛ. 12 Обзорные вопросы 423 12А. «ПЛЮС-один» -аппроксимации 423 аппроксимация чстрока-НА -столбец-ПЛЮС~ один» 423 чПЛЮС-одит-аппроксимация 424 Особый отклик 424 Обзорные вопросы 426 12Б. Рисунки для «ПЛЮС-одии» -аппроксимаций 426 Другой пример 427 чПЛЮС-одини-диаграмма 427 «ПЛЮС-одинх-диаграмма остатков 429 Обзорные вопросы 430 12В. Построение рисунков 430 Обзорные вопросы 431 12Г. Иногда можно по-прежнему построить прямо- угольную диаграмму 433 Но не всегда 434 Обзорные вопросы 434 12Д. Расширенные аппроксимации 435 Телефоны в странах света 435 Расширенные аппроксимации «строка-ПЛЮС- столбец» 437 Интерпретация нашего примера 439 Одна из возможных интерпретаций 440 Обзорные вопросы 440 12Е. Иногда возможны упрощения 440 Другие возможности 442 Резюме 442 Обзорные вопросы 443 12Ж. Чего мы достигли? 443 В этой главе вопросы двухфакторной аппроксимации п0^р^сиМа' ибольшее развитие. В гл. 10 мы узнали о «ПЛЮС-один»-ап Р^ тоГо, циях, но за пределами нашего рассмотрения осталось мног& вак>тсЯ что может помочь понять их и истолковать. Здесь рассм Р
Усовершенствованные аппроксимации 423 пода вопросы, а также вопросы о том, как выглядят двухфак- таког° Р граммы для таких аппроксимаций и как такие диаграммы т°Р^но построить. м° R конце гл. 11 мы рассмотрели одну дополнительную двухфактор- ° ппроксимацию. В этой главе мы узнаем еще о некоторых есте- нУ10 tux- обобщениях аппроксимаций «строка-ПЛЮС-столбец». ОБЗОРНЫЕ ВОПРОСЫ г е мЫ узнали о «ПЛЮС-один»-аппроксимации? Много ли мы узна- ? Где мы узнаем об этом что-то еще? Существуют ли естественные Общения аппроксимации «строка-ПЛЮС-столбец»? Где они будут рассмотрены? 12А. «ПЛЮС-ОДИН»-АППРОКСИМАЦИИ Когда мы ввели аппроксимацию в виде «строка-ПЛЮС-столбец- ПЛЮС-один» . I I (стр) (стл) (*) все + стр 4-стл + *-^st , мы заметили, что если const — всё, то эта аппроксимация превращается в аппроксимацию «строка-НА- столбец». Что происходит в общем случае? Внимательное рассмотрение и немного алгебры позволяют записать выражение (*) следующим образом: (всё — const) + const (1 + ^) (14-^г) , что после перестановки слагаемых const Г1 + _£!£_ W1 + ст--^ -j- (всё — const), \ 1 const ) 1 const J 1 1 ” Как легко видеть, есть просто аппроксимация «строка-НА-столбец-ПЛЮС-один». Так м образом, мы видим, что аппроксимации и «строка- ПЛЮС-столбец-ПЛЮС-один» Кот «строка-НА-столбец-ПЛЮС-один», точнее можно записать соответственно как и Рока-ПЛЮС-столбец-ПЛЮС-const X сравнительное значение» «строка-НА-столбец-ПЛЮС-другая const» ,
424 Глава 12 открывают перед нами одни и те же возможности. Поскольку Эти класса дают одинаковые результаты, то естественно говорить ^Ва писать — просто о « ПЛЮС-один »-ап проксимации. Часто оказывается (и мы вскоре это проиллюстрируем), что запис «строка-НА-столбец-ПЛЮС-const» проще для понимания. ОСОБЫЙ ОТКЛИК В случае когда рассматривается аппроксимация «строка-НА-столбец» без добавления постоянной, отклик, равный «нулю», является особым Если ЛЮБОЙ из двух сомножителей равен нулю, то нулю равно и их произведение. Далее, если имеется возможность продолжать строки достаточно далеко, то найдется строка, вес аппроксимации откликов которой равны нулю. Если же столбцы продолжать достаточно далеко, то найдется столбец, все аппроксимации откликов которого равны нулю. При аппроксимации «строка-НА-столбец» этим значением О должен быть нуль; О не может быть никакое другое значение. В общем случае, если к аппроксимации добавляется постоянная, имеющая в выражении (**) вид всё МИНУС знаменатель дроби в (*), то эта постоянная и есть особое значение точно в том же смысле: если строки продолжать достаточно далеко, то найдется строка, все аппрок- симации значений которой одинаковы и равны особому значению (и то же самое для столбцов). И снова этим значением О должно быть особое значение; ф не может быть никакое другое значение. Вернемся теперь к примеру о «потеплении» на восточном побере?кье’ Там мы получили аппроксимацию 54,4°F 4- стр + стл - 1,0 , или, что то же самое, 54,4°F 4- стр 4- стл 4- • Таким образом, особый отклик равен 54,4°F—(—54,4°F)=109°F.
Усовершенствованные аппроксимации 425 Иллюстрация 1 главы 12: восточное побережье «НА-аппроксимация» данных илл. 11 гл. 10 Л1 аппроксимация \ксимадия= 109°F— АП(фактор месяца)(фактор места) Б) ФАКТОРЫ — один вариант Янв. 72,7°F Ларедо 0,60 Февр. 71,5 Вашингтон 1,00 Март 63,5 Карибу 1,35 Апр. 54,4 Май 44,1 Июнь 35,4 Июль 31,5 В) УПРАЖНЕНИЯ 1а) Найдите эквивалентное множество факторов, для которого факгор Ларедо будет 16) Т^же самое, но фактор Карибу = 1,00. 1в) Найдите эквивалентное множество факторов, для которого фактор апреля= 1,00, 1г) То же самое, но фактор января = 1,00. 1д) То же самое, но фактор июля = 1,00. 1е) (трудное) Можете ли вы записать общую формулу для двух множеств факторов, описывающих заданную аппроксимацию? Если бы мы продолжали применять эту же формулу аппроксимации к самым крайним случаям, то должно было бы произойти следующее: ф если нашелся бы такой жаркий месяц, когда средняя темпера- тура в одном из мест равнялась 109°F, то и в остальных местах тем- пература в этом месяце (с точностью до малых остатков) была бы равна 109cF; 0 если нашлось бы такое жаркое место, где в каком-то одном (обычном) месяце средняя температура равнялась 109°F, то и для всех месяцев средняя температура в этом месте (с точностью до малых ос- татков) была бы равна 109°F. пСД°’ ЧТ° не сУЩествУет такого особого месяца (и мы на восточном ооережье США так рады этому!). Скорее могло бы существовать такое пов °е место: если двигаться все дальше на юг, то можно ожидать /р.^1Шения температуры и уменьшения разницы между зимой и летом. - около экватора все должно перепутаться, так что лето южного Рот") 3РПЯ будет соответствовать зиме северного полушария и наобо- проксТ™’ самь!я простой способ истолковать «ПЛЮС-один»-ап- вцТь Ч^ЦИЮ п°холодания на восточном побережье — это предста- 0 ул№6аЛЬНаЯ Экват°риальная» температура равна 109°F; °пРеделяетЬЦ1еНИе сРеднемесячной температуры ниже этой величины СЯ произведением фактора месяца на фактор места. ^’пРажнениJ пРеДставлен один набор этих факторов и соответствующие > связанные с еще несколькими наборами.
426 Глава 12 ОБЗОРНЫЕ ВОПРОСЫ Можно ли представить в другом виде анализ «строка-Пдтп столбец-ПЛЮС-один» при k, отличном от +1? Почему (или поч нет)? Что такое анализ «строка-НА-столбец-ПЛЮС-один»? Как^ связан с анализом «строка-ПЛЮС-столбец-ПЛЮС-один»? Почему Оь* захотели назвать что-то именно «ПЛЮС-один»-аппроксимацией?У q’b! такое особый отклик? Что такое особый отклик для анализа «ctdoJ0 НА-столбец»? Для «ПЛЮС-один»-анализа? В каком примере мы пои' менили эти идеи? Какое получилось особое значение? Как можно ег* интерпретировать? Сколькими способами? Какой смысл ему придали} В каком виде мы представили элементы аппроксимации? Существуют ли другие простые представления? 12Б. РИСУНКИ ДЛЯ «ПЛЮС-ОДИН»-АППРОКСИМАЦИЙ На наше счастье, для «ПЛЮС-один»-аппроксимации почти так же просто получить рисунок, как и для «строка-ПЛЮС-столбец». Вместо двух наборов параллельных прямых мы будем иметь: 0 один набор параллельных прямых, 0 один набор прямых, пересекающихся в одной точке. Нам необходимо нечто подобное, чтобы следить за особым значе- нием. На илл. 2 показана такая схема, чисто иллюстративная. (Данные для нее будут приведены на илл. 10.) Прямая L (из семейства парал- лельных прямых, здесь случайно оказавшихся вертикальными) и прямая С (из семейства пересекающихся прямых) соответствуют осо- бому значению, которое здесь оказалось равным 100. Независимо от того, выберете ли вы А, В, С, D или Е или другУю прямую этого семейства, пересечение с L произойдет на том же уровне 100, потому что пересечение происходит в их общей точке. Вне зависимости от того, выберете ли вы К, или L, или Л1> илИ лЮ бую другую прямую этого семейства — они пересекутся с С на одно и том же уровне 100, так как С — горизонтальная прямая. Этот пример необычен по двум причинам: 0 параллельные прямые вертикальны; 0 особое значение расположено на рисунке. Обычно параллельные прямые бывают наклонены. Часто, возм0*^ даже как правило, точка пересечения находится вне рисунка нЯй, потому, что особое значение далеко от реально найденных зн либо рассмотренные строки далеки от особой строки, либо с далеки от особого столбца.
Усовершенствованные аппроксимации 427 Иллюстрация 2 главы 12: поясняющая «П«ЛК)С-один» -аппроксимация с отчетливо видным особым значением ДРУГОЙ ПРИМЕР Теперь давайте снова посмотрим на таблицу температур восточного побережья. В действительности ни один месяц не похож на гипотети- ческий особый месяц, для которого среднемесячная температура (108,8°FI) оказалась бы одинаковой для всех мест сразу. Так же и ни одно место не похоже на гипотетическое особое место (вероятнее всего, вблизи экватора), где среднемесячная температура была бы одинако- вой для всех месяцев (снова 108,8’F). Поэтому точка пересечения будет находиться вне рисунка. На илл. 3 изображена «ПЛЮС-один»-диаграмма аппроксимации, приведенной на илл. 13 гл. 10 и имевшей вид 544 стр + стл — (СТР) fc™) , что в точности то же самое, что и 1088—^-7 (544 — стр) (544 — стл); 044 Аолях'г Точка пересечения расположена на уровне 1088 (в десятых В Чарад^са Фаренгейта, т. е. на уровне 108,8°F). и*°льско?Ности> можно видеть, что, согласно аппроксимации, значение редо> а яп темпеРатУРы в Карибу почти совпадает с февральской в Ла- в ^аШииг|)^.ЛЬСКая температура в Карибу почти совпадает с январской е. (Первая около 65°F, вторая 35°F.) 3 мы расположили города на пересекающихся прямых, па параллельных. Это вовсе не обязательно. Илл. 4 по- а илл. Месяцы Д
428 Глава 12 Иллюстрация 3 главы 12: восточное побережье «ПЛЮС-один» -диаграмма аппроксимации для илл. 13 гл. ю Иллюстрация 4 главы 12: восточное побережье «ПЛЮС-один»-диаграмма той же аппроксимации, но месяцы и города поменялись местами
Усовершенствованные аппроксимации 429 Иллюстрация 5 главы 12: восточное побережье Диаграмма закодированных остатков, лежащих в точках пересечений на илл. 4 строена противоположным образом. Если сравнить высоты соответ- ствующих точек на обоих рисунках, то можно обнаружить, что они в точности совпадают (с точностью до погрешностей построения рисун- ков). Эти схемы не выглядят совершенно одинаково — они подчерки- вают разную информацию, но содержат одну и ту же. Что касается подчеркивания, то на илл. 3 яснее показано, что раз- личие температур между Карибу и Ларедо в июле меньше, чем в ян- варе, тогда как на илл. 4 отчетливее выделено, что возрастание тем- пературы от января к июлю в Ларедо меньше, чем в Карибу. Оба фак- та, разумеется, можно извлечь из обоих рисунков, но сейчас мы гово- рим о том, что сильнее выделено на каждом из них, хотя и показано на Зовнх‘ ® Других примерах выбирать, какое множество линий исполь- как ТЬ Аля СТРОК. а какое—для столбцов, следует, основываясь на том, явление больше заслуживает выделения. «ПЛЮС-ОДИН» -ДИАГРАММА ОСТАТКОВ р ^РУктуГ1 хотим УДелить больше внимания остаткам, в особенности их Разд. 9д _ мы можем последовать по пути, предложенному в т°чках пр нанести на диаграмму закодированные значения остатков в РезУльтатШеТ“И И полностью удалить решетку. На илл. 5 показан Ф°Рмац11я ЭТ0Н пРОцеДУРЫ (на основе илл. 4). По существу, вся ин- РИсУнке Сох° несоответствии аппроксимации исходным данным на
430 Глава 12 ОБЗОРНЫЕ ВОПРОСЫ Что надо знать, чтобы изобразить «ПЛЮС-один»-аппроксимя в виде рисунка? Чем помогает нам в этом вопросе элементарная гео*110 трия? Каким образом? Из чего состоит «ПЛЮС-один»-диаграмма? какого примера мы построили такую диаграмму? Могли ли мы рать для нее различные формы? Почему (или почему нет)? Мож'6' ли мы строить соответствующие диаграммы кодированных остатков? Что получилось нового (если оно есть) на этом этапе? Каковы преим/ щества разных видов «ПЛЮС-один»-диаграмм? 12В. ПОСТРОЕНИЕ РИСУНКОВ Вернемся еще раз к «ПЛЮС-один»-аппроксимации из илл. 11 гл. Ю Аппроксимация имеет вид •• , . (стр) (стл) все+стр + стл — ; если переставить члены и расставить скобки, то получим (всё+стл) ПЛЮС (стр-W^) . На илл. 6 выписаны эти два члена. Сделаем здесь то же самое, что мы делали для диаграмм «строка- ПЛЮС-столбец»: О разложим аппроксимацию на две части; 0 возьмем эти части в качестве координат; () заметим, что аппроксимация = сумма координат и что равенство сумма координат=сопз1 выполняется вдоль прямых, проведенных под углом 45°; О повернем рисунок так, чтобы эти прямые, которые также явля ются линиями аппроксимация = const, стали горизонтальными. Если «(всё + стл)» — это одна координата, скажем горизО^ацТ0 ная, то каждому столбцу соответствует вертикальная прямая. ^0. можно сказать о другой координате? Для любой фиксированн ки выражение
Усовершенствованные аппроксимации 431 Иллюстрация 6 главы 12: восточное побережье Анализ илл. 11 гл. 10, представленный в виде двух членов А) АНАЛИЗ — конечно, несовершенный Ларедо Вашнн. Карибу Янв. -111 -183 -248 ' Фев. -103 -171 -232 Март —55 —91 —123 Дпр1 ООО Май 62 103 140 ИК>нь< 115 190 251 ^юль 138 229 310 , стр МИНУС (СТЛ)-(стр)/544 759 544 351} всё + СТЛ Б) УПРАЖНЕНИЯ fiat) Выпишите другой анализ в виде двух членов, используя выражения (всё + ьа ’ стр) и «всё, что осталось». 6а2) Постройте аналог илл, 7, основываясь на ответе к упр. 6а1. превращается в А +В (стл) при некоторых значениях А и В. Если построить график этого выра- жения в зависимости от «стл», то должна получиться прямая линия. Таким образом, на рисунке столбцы оказываются вертикальными прямыми, в то время как строки — наклонными. Если мы знаем по одной точке на каждой вертикальной прямой и по две точки на каждой наклонной, мы можем нарисовать всю диаграмму. На илл. 7 показан результат построения в прямоугольных координа- тах, задаваемых членами разложения из илл. 6, линий городов и ли- нии месяцев. Ясно, что нужно наносить на диаграмму только точки на Двух наиболее удаленных друг от друга линиях городов (неважно, сколько имеется городов), так как все точки для заданного месяца лежат на одной прямой. а Илл- 8 показана схема линий аппроксимации с несколькими Рямыми, заданными равенством сумма координат — const. прокрЛькУ сУмма координат в точности совпадает со значениями ап« вепи„ИМации> нам» чтобы получить илл. 4, следует всего-навсего по- еР«Уть илл. 8 на 45°. ОБЗОРНЫЕ ВОПРОСЫ п°льзовТ° ВИда два слагаемых «ПЛЮС-один»-анализа мы можем ис- КакНм 01ь’ чтобы облегчить построение «ПЛЮС-один»-диаграммы? Разом? Какой пример мы использовали?
432 Глава 12 Иллюстрация 7 главы 12: восточное побережье Изображение илл. 6 в прямоугольных координатах (начальный шаг построения двухфакторной «ПЛЮС-один» -диаграммы) Г X—точки, которые необходимо нанести; О — точки, которые можно найти по начерченным прямым. Иллюстрация 8 главы 12: восточное побережье Прямые илл. 7 и некоторые другие прямые, соответствующие выражению «ОДНА ЧАСТЬ плюс ДРУГАЯ ЧАСТЬ — const»
Усовершенствованные аппроксимации 433 12Г. ИНОГДА МОЖНО ПО-ПРЕЖНЕМУ ПОСТРОИТЬ ПРЯМОУГОЛЬНУЮ ДИАГРАММУ В рассматриваемом нами примере аппроксимацию можно записать в аиде 1088—данное = (544—строка) (544 — столбец). Прологарифмировав, получим log(1088 —данное) = — log 544 + log (544 —стр) -f- log (544 — стл), является представлением вида «стр-ПЛЮС-стл», и поэтому его 4L?kho изобразить диаграммой аппроксимации в форме двух множеств Мараллельных линий. Результат показан на илл. 9, где мы используем направление вверх для измерения log (1088 — данное). Как мы узнали выше, построение такого рисунка, особенно когда на нем требуется показать несколько остатков, не проще, чем построе- ние илл. 4. Более того, как отмечалось в предыдущем разделе, то, что подчеркивается на плл. 3 или 4, можно извлечь из илл. 9 только пу- тем тщательного рассмотрения характера вертикальной шкалы. Если бы мы не привыкли к температурной шкале с равномерным шагом, мы, возможно, предпочли бы рисунок типа илл. 9 и должны были бы уделить большее внимание его шкале, придавая особое зна- чение, например, тому, что разность между 40 и 20°F на этой шкале примерно равна разности между 85 и 80°F. (Такое предпочтение для этого примера кажется невероятным, но оно возможно во многих дру- Иллюстрацчя 9 главы 12: восточное побережье Двухфакторная диаграмма, где в качестве отклика используется log( 1088—температура) ааечание. На вертикальной шкале значение 108,8°F никогда не достигается. 35Т--------------------------------------
434 Глава 12 Иллюстрация 10 главы 12: произвольный пример Аппроксимация «строка-НА-столбец», для которой нельзя использовать логарифмы А) ДАННЫЕ А В С D Е К 109 106 100 85 58 L 100 100 100 100 ЮО М 79 86 100 135 198 Б) ЗАКОНЧЕННАЯ АППРОКСИМАЦИЯ для «ДАННОЕ-МИНУС-100» К L М -3 -2 0 5 14 I 100 В) ЗАМЕЧАНИЕ: (данное — 100) (эфф СТР) X (эфф СТЛ), но мы не можем использовать логарифмы, так как некоторые эффекты ОТРИЦАТЕЛЬНЫ. Г) УПРАЖНЕНИЕ 10а) Придумать аналогичный пример с большим объемом данных и провести его анализ. гих случаях.) Если, с другой стороны, мы связаны по каким-то доста- точно веским причинам с равномерной шкалой температуры в ₽F, мы, вероятно, предпочли бы диаграмму типа илл. 4 (или 3). НО НЕ ВСЕГДА Стоит ли переходить от аппроксимации «строка-НА-столбец» об- ратно к «строка-ПЛЮС-столбец», зависит от данных. Иногда у на этот выбор есть, но не всегда. ~ а На илл. 10 показан один простой искусственный пример. '-'А из самых простых «плюс-ОДИН»-диаграмм выглядит так же, как на более ранняя илл. 2, на которой все пять пересечений AL, BL, •> изображаются единственной точкой. Недурная перспектива ДлЯ ^11Т моугольной решетки! (Мы должны быть довольны тем, что нам под илл. 2.) ОБЗОРНЫЕ ВОПРОСЫ Можно ли «ПЛЮС-один»-аппроксимацию изобразить в в”^0^у сунка с двумя множествами параллельных линий? Почему 01Л‘ тогДа нет)? Когда логарифмирование добавляет неприятности? делать?
Усовершенствованные аппроксимации 435 12Д. РАСШИРЕННЫЕ АППРОКСИМАЦИИ ТЕЛЕФОНЫ В СТРАНАХ СВЕТА п имер совершенно другого рода представлен на илл. 11. Началь- * ‘Р ые __ число телефонов по сведениям, имевшимся на 1 января, йые да в каждой из семи частей света. (Замечание. Здесь в Океанию заСеГ'чены Австралия и Новая Зеландия.) Одного взгляда на перво- вК/П° ьные данные достаточно, чтобы заключить, что следует начать НЗЧа арифмов. В то время как первоначальные логарифмы изменяются С Л^256 до 1902, остатки располагаются в интервале только от —111 оТ 93 Мы объяснили 9/10 (некоторые сказали бы: 99/100) изменения Дефектами частей света и годов. Очевидно, что именно эти факторы иг- St наибольшую роль. Р Поскольку мы уже исключили эффекты, мы можем теперь совер- шенно отчетливо представить себе остатки. Они требуют, чтобы мы продвигались дальше. Посмотрим на строки, соответствующие, на- пример, Северной Америке и Азии. Они указывают на наличие вполне существенных и постоянных трендов во времени. Необходимо что-то сделать, чтобы учесть это. Но что? И в какой степени? На первый взгляд, устойчивые тренды остатков напоминают нам об устойчивом тренде эффектов столбцов. Чтобы четче это предста- вить, естественно изобразить эту зависимость графически (илл. 12). На этой иллюстрации видно, что остатки для Северной Америки, как и для Южной, довольно хорошо аппроксимируются прямой. Если мы посмотрим на остатки для Азии, то увидим, что они доста- точно хорошо ложатся на прямую линию для пяти лет с 1957 по 1961 г. и не очень хорошо — для 1951 и 1956 гг. Поведение остатков для Цент- ральной Америки в общем аналогично. Если на илл. 12 мы проведем на глаз аппроксимирующие прямые » найдем их наклоны, то получим множители для эффектов столбцов вз илл. 11, В. Эти множители и соответствующие произведения при- и|День1на илл- П» Г- Сравнение полученных значений с остатками ° показывает, что мы довольно сильно улучшаем анализ такой Сбавочной аппроксимацией. значе3 П“ЛЛ‘ *3* А приведены новые остатки, полученные вычитанием торыеНИН Д°полнительной аппроксимации, и указываются неко- ляетсяДаЛЬНе1°1Шие П0ПРавки к эффектам строк, что теперь представ- ТиРовк[?е дНЫМ‘ В п. Б показан анализ после этой дальнейшей коррек- • Аппроксимация теперь имеет вид всё + эфф стр + эфф стл + (доб стр) X (эфф стл), гДе Мы СтР°Кам) спольз°вали безопасное сокращение «доб стр» (добавление к Бв°Дим __для названия дополнительных постоянных, которые мы 6ск°Ре ’УвиСвоей для каждой строки. Такая аппроксимация, как мы дим, имеет довольно простую интерпретацию.
436 Глава 12 Иллюстрация 11 главы 12: телефоны всего мира Телефоны на земном шаре по странам света А) Исходные подсчеты — в тысячах 1951 1956 1957 1958 1959 1960 1961 Сев. Амер. 45 939 60 423 64 721 68 484 71 799 76 036 79831 Евр. 21 574 29 990 32 510 35 218 37 598 40 341 43173 Азия 2 876 4 708 5 230 6 062 6 856 8 220 9 053 Ю.Амер. 1 815 2 568 2 695 2 845 3 000 3145 3 338 Океания 1 646 2 366 2 526 2 691 2 868 3 054 3 224 Африка 895 1411 1 546 1 663 1769 1905 2 005 Центр. Амер. 555 733 773 836 911 1 008 1 076 Б) ЛОГАРИФМЫ подсчетов — в 0,001 от логарифмов подсчетов в миллионах Сев. Амер. 1662 1781 1811 1836 1856 1881 1902 Евр. 1334 1477 1512 1547 1575 1606 1635 Азия 459 673 718 783 836 915 957 Ю.Амер. 259 410 431 454 477 498 523 Океания 216 374 402 430 458 485 508 Африка -48 150 189 221 248 280 302 Центр. Амер. —256 -135 -112 78 -40 4 32 В) ОДИН «строка-ПЛЮС-столбец»-АНАЛИЗ ЛОГАРИФМОВ из п. Б 1,1 эфф аппр Сев. Амер. 39 12 7 0 -7 -14 -15 1382 1836 Евр. О -3 -3 О 1 0 7 1093 1547 Азия —111 -43 -33 0 26 67 93 329 783 Ю.Амер. 18 2 9 0 -4 -15 -12 0 454 Океания —1 11 4 0 1 -4 -3 -24 430 Африка —56 -4 О о -0 0 0 -233 221 Центр. Амер. 25 О -12 -10 1 13 19 • -522 -68 + эфф —213 -32 0 27 59 81 | 454 Г) ДОПОЛНИТЕЛЬНЫЕ АППРОКСИМАЦИИ в виде МНОЖИТЕЛЕЙ ЭФФЕКТОВ СТОЛБЦА — из ИЛЛ. 12 Множитель Сев. Амер. 43 13 6 0 -5 -12 -16 Азия -234 -74 -35 0 30 65 89 1.1 ' Ю.Амер. 21 7 3 0 -3 -6 -8 -.1 .41) Центр. —85 Амер. -27 -13 0 11 24 32 Аппроксимация хороша только для последних лет. Д) ИСТОЧНИК: The World’s Telephones. American Telephone and Tel^r Company, 1961, р. 2, 3.
Усовершенствованные аппроксимации 437 Иллюстрация 12 главы 12: телефоны на земном шаре Графики остатков по отношению к эффектам столбцов для четырех р частей света, демонстрирующие четыре различных наклона (по крайней мере для последних лет) Остаток Азия Сев. Америка Юж. Америка Центр. Америка Плохо подходят Ноклон=-0,1 1951 х Л () Наклон =-, Наклон=0,4 / Наклон =1,1 1950 19571958195919001901 Эдмрект столбцов РАСШИРЕННЫЕ АППРОКСИМАЦИИ «СТРОКА-ПЛЮС-СТОЛБЕЦ» Такого рода аппроксимацию, которую мы только что сделали» очевидно, можно производить после того, как уже сделана любая аппроксимация «строка-ПЛЮС-столбец» вида всё + эфф стр + эфф стл. час даже есть выбор, добавить ли нам (доб стр) НА (эфф стл), или или и (доб стл) НА (ЭФФ СТР>’ д то и другое. Добавляем Считать и «ПЛЮС-один»-аппроксимацию, при которой мы (стр) (стл)_ (эфф стр) (эфф стл) частНым ДОЛ " леЛИ1еЛЬ ’ •'10>ким слУчаем любой из этих аппроксимаций, так как если мы по- доб Стр = ^£[Р , ТО п делитель нее выражение примет вид (доб стр) (эфф стл),
438 Глава 12 Иллюстрация 13 главы 12: телефоны на земном шаре Продолжение нлл. 11 А) НОВЫЕ ОСТАТКИ —из илл. 11, В и Г 1951 1956 1957 1958 1959 1960 1961 Возможные Ч Сев. Амер. -4 -1 1 0 -2 -2 1 -1 Евр. 0 -3 -3 О 1 о 7 V Азия 123 31 2 0 -4 8 4 2 Ю.Амер. -3 16 6 О -1 -9 т4 -3 Океания -1 11 4 0 1 —4 -3 V Африка -56 -4 0 0 -0 0 О V Це.нтр.Амер. 110 27 1 -10 0 -11 -13 -10 u Возможные изменения эффектов строк, которые еще больше уменьшают остат- ки. Пример:—4=39—43,—1=12—13,0=0 (не измецился),—3=—3 (не изменился) Б) НОВЫЙ АНАЛИЗ — с исправленными эффектами строк эфф робавл. 11. Сев. Амер. : -3 0 2 1 -1 -1 3’ h1381 -.2 Евр. ' 0 -3 -3 0 1 0 7 1093 .0 Азия 121 29: 0 -2 -6 6 2 331 1.1 Ю.Амер. О 19 9: 3 2 -6 -1 2 -.1 Океания -1 И: 4 О 1 -4 -3 -24 .0 Африка —56! —4 0 0 0 0 0 -233 .0 Центр. Амер. + 120 37 11; 0 -1 -1 0 -532 .4 -213 -67 -32 0 27 59 81 454 Аппроксимация теперь имеет вид 454-|-эфф стр эфф стл + (доб стр)(эфф стл) В) БУКВЕННО-ЧИСЛОВЫЕ представления для ОСТАТКОВ из илл. П’Б {слева — расположенных до пунктира, справа — после пунктира). #11 остатков # 38 остатков М 6 С Зп В 2 11 32 — п 120 -1 32П М19П с 10 1-1 В 5п 2п-3 0 2 -,1 И " Расположенные после пунктирных отметок 38 остатков (со сгибами, PaBHb't'."lxOpoiiie® Н восьмыми —3 и 2п) достаточно малы, так что можно говорить об очен аппроксимации. Г) УПРАЖНЕНИЯ Океая,,и" 13а) Попробуйте положить «доб стр» равным —0,05 (вместо нуля) длд анаЛ** ’ —0,15 (вместо —0,1) для Южной Америки и закончите соответствую 136) Постройте схемы для остатков анализа (13а), как в п, В,
Усовершенствованные аппроксимации' 439 есЛи положить доб стл = эфф стл делитель т0 оно принимает вид (доб стл) (эфф стр). очные аппроксимации, которые мы сейчас рассматриваем, яв- Д° существенным обобщением прежних «ПЛЮС-один»-аппрокси- ляют теперЬ мы располагаем возможностью выбрать «доб стр» или ма^1гтЛ» а не ограничены выбором единственного множителя при <lS стр»’ или «Эфф стл». Взглянув на илл. 13,Б, мы видим, как мало похожа в нашем случае об стр» на множитель при «эфф стр». Эти обобщения не всегда по- лезны, но их можно пытаться применить к любым двухфакторным таб- лицам. Наиболее вероятно, что они полезны, когда 1) имеется несколько строк (или столбцов), существенно отличающихся от остальных, или 2) данные весьма просто устроены. (Наш пример относится ко второму случаю, так как мы получаем хорошую аппроксимацию для одной тысячной, умноженной на логарифмы данных, как показано на илл. 11. Б). ИНТЕРПРЕТАЦИЯ НАШЕГО ПРИМЕРА Как следует интерпретировать значения «доб стр» в нашем примере? Если бы их НЕ БЫЛО, мы могли бы сказать: «Логарифмы данных довольно хорошо согласуются с постоянным возрастанием год от года, одинаковым для всех частей света». С включением «доб стр» вид возрастания для каждой части света ос- тается тем же самым, но изменяется его величина. Если записать аппроксимацию как всё + эфф стр + (1 + доб стр) (эфф стл), Или. что эквивалентно, как аппр стр + (1 + доб стр) (эфф стл), чени/Гм ВИДеть’ что скорость возрастания аппроксимированных зна- я различных частей света пропорциональна величине ы 1 + доб стр ЧаСТНости 9 1 ^>>=4,1 н’п’о АЛЯ А-Зии> Для которой мы подобрали значение «доб '‘Доб стр»’^^ 2)ДЛя Северной Америки, для которой мы подобрали М°*но оп^ЛЬН°’ Т0, что мы получаем в результате аппроксимации, ть следующими словами;
•440 Глава 12 «За отмеченными исключениями, для различных частей све чения аппроксимации логарифмов исходных данных возрастают-9 Зна' ным образом, а относительные скорости возрастания приблизи равны 2,1 для Азии (после 1957 г.); 1,4 для Центральной Ам^110 (после 1958 г.); 1,0 для Европы, Океании (после 1957 г.) и А^Ики (после 1956 г.); 0,9 для Южной Америки (после 1958 г.)- Qg Ики Северной Америки». ’ ’ Таким образом, описанная дополнительная аппроксимация, мому, и понятна, и много нам говорит. по-види. ОДНА ИЗ ВОЗМОЖНЫХ ИНТЕРПРЕТАЦИЙ Одна из возможностей — это рассматривать такие аппроксимаци как смесь «ПЛЮС- и НА-аппроксимаций». Член «(1 + доб стгО у’ X (эффстл)», очевидно, представляет собой «НА-аппроксимацию». К не', му добавляется член «всё 4- эфф стр», что, естественно, является «ПЛЮС-аппроксимацией». Дальнейшее обдумывание и обобщения мы оставляем читателю. ОБЗОРНЫЕ ВОПРОСЫ Какой был рассмотрен пример? Какое мы применили преобразова- ние? Почему? Что мы получили в результате «ПЛЮС-анализа»? На что мы далее обратили внимание? Какую дополнительную аппрокси- мацию это нам подсказало? Насколько полезной она оказалась? Ка- кого вида аппроксимация теперь у нас имеется? Как в общем случае можно пытаться применять такую аппроксимацию? Сколько различных видов ее существует? Как она связана с «ПЛЮС-один»-аппроксимация- ми? Как мы переформулировали нашу аппроксимацию? Труднее или легче она стала для понимания? 12Е. ИНОГДА ВОЗМОЖНЫ УПРОЩЕНИЯ Тот же пример можно использовать, чтобы показать, как можно упростить аппроксимацию «строка-ПЛЮС-столбец» и ее о щения. Если мы расположим эффекты годов из илл. 13, Б про? м; мих годов, как указано ниже, то увидим отчетливый парал. Год 1951 1956 1957 1958 1959 1960 1961 Год—1958 —7 —2 — 1 0 1 2 3 Эффект —213 —67 -32 0 27 59 81 Эффект близок к выражению [30 X (год— 1958)L ц11[0, 33 Без особых потерь мы можем упростить нашу аппрокси меняя 454 4- эфф стр + эфф стл
Усовершенствованные аппроксимации 441 яа 454 4- эфф стр 4- 30 (год—1958) начиная с расширенной аппроксимации, мы можем заменить ”лИ’ 454 + эфф стр 4- (1 4- доб стр) (эфф стл) на 454 4- эфф стр 4- (1 4- доб стр) 30 (год — 1958), qT0 эквивалентно аппр стр 4- (наклон стр) х (год — 1958), где наклон стр = 30 (1 4- доб стр). На илл. 14, А показан анализ, к которому приводит последняя за- ена Хотя остатки получились не совсем такими, как на илл. 13,Б, но они вполне удовлетворительны для простой аппроксимации. Иллюстрация 14 главы 12: телефоны на земном шаре Несколько преобразованных аппроксимаций для данных о телефонах (данные из илл. 11) А) ПРЕОБРАЗОВАННАЯ ФОРМА РАСШИРЕННОЙ АППРОКСИМАЦИИ — на основе илл. 12, Б Остатки 1951 1956 1957 1958 1959 1960 1961 Аппр стр Наклон стр Сев. Амер. -5 -6 0 1 -3 2 5 1835 24 Евр. -з -10 -5 0 —2 -1 -2 1547 30 Азин 115 •14 -4 —2 -12 4 -17 785 63 Ю.Амер. —8 8 2 —2 -6 -12 -14 456 27 Океания -4 4 2 0 —2 -5 -12 430 30 Африка —59 -11 —2 0 -3 -1 -9 221 30 Центр.Амер.11б 27 8 0 -4 —2 -16 -78 42 (ГОЯ--1956) (-7) (-2) (-1) {0) (1) (2) (3) Аппроксимация : = (аппр стр) 4" (наклон стр) X (год — 1958). 14а/бЛ УПРА»НЕНИЯ логавиЛ> Найдите методами гл. 6 аппроксимирующую прямую зависимости Центпя} °В „числа телефонов для Северной Америки, Южной Америки . . . нужно 1ЬНОИ АмеР«ки соответственно от величины (год — 1958), опуская, если 1 Расппр’п начальные годы, где аппроксимация может быть плохой. (Полезно 4н) ОбъединиИТЬ сРеди обучающихся в одной группе.) Думаете *е РезУльтатЬ1 упр. 14а — 14ж в новый анализ вида п. А. Как вы Сравните намного ли это улучшит анализ? ц j лродвицул На;Пиз УПР- *4и с тем- что на илч. 13, Б. Как вы думаете, изменение в^лайте (анй.пПРТИ"У"0)„ аппроксимацию достаточно далеко? еУК)щей илл а.н1аЛр3 с помощью преобразованной аппроксимации, соответст- ЦЫ) ^люстраций? ’ °’ Каков он> на ваш взгляд, по сравнению о тем, что на этой Нн) БсеИ подробиЛения’ которые дают первую строку остатков в. п А. Объяс- те то же самое для другой строки но вашему выСору,
442 Глава 12 ДРУГИЕ ВОЗМОЖНОСТИ " Ясно, что при замене в этом примере эффектов столбцов мы не ограничены лишь выражением const • (год — 1958), а могли бы, например, попробовать выражение const -(год — 1958) + (другая const) ’(год — 1958)2 или const -(log года — log 1958), не говоря уже о многих других возможностях. Когда ярлыки стпо (или столбцов), по существу, являются числами (или внутренне сзд заны с рядом чисел, отличных от данных), мы всегда можем испробо- вать самые разнообразные упрощения — или при аппроксимации вида «строка-ПЛЮС-столбец», или в каком-то из ее обобщений. РЕЗЮМЕ В рассмотренных аппроксимациях мы использовали для данных каждой строки (или столбца) анализ того типа, который был описан в гл. 5 и 6. Они являются в этой книге наиболее очевидными примерами того, как один вид анализа подкрепляется другим. Необходимо четко осознать, что «наслоение» одного аналитического подхода на другой (другие) есть единственный известный нам способ проводить разум- ный анализ данных в тех случаях, когда они зависят более чем от одного фактора. Для нас основная новизна двухфакторных таблиц заключается в существовании по меньшей мере двух факторов — строк и столбцов. Многие совокупности данных зависят от трех, четырех, пяти факторов, другие — от десяти или даже ста. Научиться работать с данными, зависящими от двух факторов, существенная часть в обучении разведочному анализу наблюде Это откроет нам глаза на многое из того, что мы сможем еде. ’ когда факторов будет больше одного. Возможность упрощения как раз связана с присутствием числа факторов. В нашем примере с телефонами мы можем три фактора: О название части света; <> год; <> номер года или, если захотим, несколько факторов:
Усовершенствованные аппроксимации 443 название части света; год; номер года, т. Д- О О Л НОМер X номер года и его квадрат; X логарифм номера года и О т- д- упрощать аппроксимацию или нет, мы выбираем между одной Ре® другой группой из двух факторов. Необходимо выяснить, какие факторы связаны с задачей естествен- образом, и постараться узнать, какой фактор или группа факторов нЫМрывают поведение данных наиболее ясно. ОБЗОРНЫЕ ВОПРОСЫ Как мы упростили нашу аппроксимацию? Оказалась ли упрощен- ная аппроксимация достаточно удовлетворительной? С какими пре- дыдущими главами связан этот метод? Как его существование иллю- стрирует возможность исследования данных с двумя или более фак- торами? Какие факторы имелись в нашем примере? 12Ж. ЧЕГО МЫ ДОСТИГЛИ? В этой главе введены разнообразные обобщения «ПЛЮС»- и «НА»- аппроксимаций, в том числе более глубокое рассмотрение «ПЛЮС- один»-аппроксимации. Здесь дается более широкое представление о том, что мы можем сделать в случае необходимости. Когда мы произ- водим аппроксимацию «строка-ПЛЮС-столбец», все больше и больше обнажается суть неполных описаний, что, по всей вероятности, и оп- ределяет потребность дальнейшего продвижения. теперь мы умеем: О преобразовывать любую «ПЛЮС-один»-аппроксимацию вида всё + стр + стл + const (сравнительное значение) НазаД к виду (const') + (стр') X (стл') Наково ?2?а30м демонстрируя, что «ПЛЮС-один»-аппроксимация оди- МаЦиями») Н° связана с «НА-аппроксимациями» и с «ПЛЮС-аппрокси- к°е, 4Tq «Ходить значение особого отклика — особое значение, та- ^ации ТоИ °П0 встРечается в одной клетке таблицы значений аппрок- и> Котопг, 0110 встречается и в каждой клетке того столбца и той стро- РЫе содержат эту клетку;
444 Глава 12 С> строить рисунки, состоящие из одного множества паралле прямых и одного множества прямых с одной общей точкой и ЛЬ11Ь|* «ПЛЮС-один»-аппроксимации или для ее остатков, используя ЛИ начальные значения откликов, ПеРво. О и, логарифмируя разности между заданными откликами и бым откликом, строить для этой аппроксимации схему, состоящу °С°' двух семейств параллельных линий. из Мы также видели, что полезно пойти дальше «ПЛЮС-один»-аппп симаций, подбирая прямые для выражения зависимостей кажд ' вектора (всех строк или столбцов) остатков от соответствующий. Г]° фактов. Результат можно записывать в различной форме и представ лять себе, в частности, как сумму какого-то вида «ПЛЮС-аппрокси' мации» и общей «НА-аппроксимации», открывая, таким образом, пут' к дальнейшим обобщениям. Теперь мы яснее понимаем, что числовые ярлыки для наших строк позволяют (когда мы уже нашли или только эффекты строк, или эф- фекты строк и добавления к строкам) сделать еще одно очень полезное приближение эффектов строк (или добавлений к строкам) при помощи некоторой функции от числовых ярлыков строк. (Ясно, что в этой фразе слова «строки» можно заменить на «столбцы».) В своем восхождении на гору исследования данных мы достигли естественной террасы, где данные зависят от двух факторов. Она рас- положена достаточно высоко по склону горы, чтобы можно было огля- нуться назад и ясно увидеть проделанный путь. Но, кроме того, мы видим, что гора продолжает подниматься вверх.
Глава 13 ТРЕХФАКТОРНЫЕ аппроксимации УКАЗАТЕЛЬ К ГЛАВЕ 13 Обзорные вопросы 446 13А. Трех- и многофакторный анализ; упорядочение и введение обозначений 446 Психологический эксперимент 446 Пример обозначения 448 Обзорные вопросы 449 13Б. Анализ психологического эксперимента 449 Обзорные вопросы 453 13В. Проведение трехфакторного анализа 453 Обзорные вопросы 459 13Г. Преобразования в случае трех факторов 459 Обзорные вопросы 462 13Д. Еще об этом примере 464 Преобразованные отклики 465 логарифмы времена обнаружения 465 Обзорные вопросы 466 13Е. Чего мы достигли? 466 ч ме Ы Не напРаспо потратили в предыдущих главах много времени -четвс^а На двУхФакт°рные аппроксимации. Мы научились вполне удов- АанньРПЧЬН° Различными способами обрабатывать двухфакторные был0 п’ “ЫЧИСления не всегда были простыми, но их всегда можно ееРок сУществить вручную, особенно благодаря удобной технике про- 'Рамм’ой Т° Имел Доступ к вычислительной машине с уже готовой про- чтя бь/ РЛОглаи сДелать передышку, а те, кому нужно было получить ЛисткОм J/ bI^ ответ> пользуясь только ручкой или карандашом и В конце ЭГИ’ могли Уже этому научиться. ''°Д°нти к „ Гл’ мы узнали немного о том, как по-разному можно ТкРь1вают<Инь1м с более чем одним фактором и какие возможности я при их исследовании.
146 Глава 13 В этой короткой главе мы познакомимся с трех- и многофак таблицами. В простых случаях мы сможем произвести вья НЬ|М11 вручную, как в том примере, который будет приведен. Но мыСЛенИя менно должны быть более аккуратными и работать сосредото НепРе* чтобы о самого начала все получалось правильно, так как дела? Нее> верку и исправления уже не так просто. ь пРо- Когда мы имеем дело с таблицами данных, зависящих от т более факторов, потребность в компьютере возрастает (а вероят>еХ й того, что наш компьютер может выполнить то, что мы желаем Ность жается). Коротко говоря, мы здесь собираемся: ’ Пони- ф> показать, из каких частей состоит такой анализ; <) показать, что в самых простых случаях все можно продел вручную; Ть О порекомендовать читателю, который имеет или собирается имет дело с данными, зависящими от трех или более факторов, как их можно просто и эффективно проанализировать. ОБЗОРНЫЕ ВОПРОСЫ Что можно сказать о главах, посвященных двухфакторному ана- лизу и о вычислениях в них? Требовался ли там компьютер? В какой круг вопросов вводит нас эта глава? Что можно сказать о выполнимо- сти необходимых вычислений? Требуется ли здесь компьютер? Каковы цели этой главы? 13А. ТРЕХ- И МНОГОФАКТОРНЫЙ АНАЛИЗ: УПОРЯДОЧЕНИЕ И ВВЕДЕНИЕ ОБОЗНАЧЕНИЙ То же самое, что мы делали для двухфакторных таблиц, можно сде- лать для трех- и многофакторных таблиц. К счастью, нам не требуются трех- или четырехмерные листы бумаги. Мы можем все втиснуть в двумерные макеты, при условии что будем использовать больше блоков. ПСИХОЛОГИЧЕСКИЙ ЭКСПЕРИМЕНТ В 1944 г. Джонсон и Цзао опубликовали отчет об эксперименте по измерению чувствительности людей к изменению силы тяги, прило . ной к кольцу, надетому на палец руки. Измерения были пР0В^вае- при различных начальных постоянных значениях тяги (здесь на мой весом) и различных скоростях уже начатого процесса увел: силы. Среди испытуемых было четверо слепых и четверо 3РяЧИ^оМей- измерениях регистрировалось возрастание силы вплоть до того та, когда испытуемый сообщал, что почувствовал изменение. Мы рассмотрим только часть этого эксперимента: £ и ф> трех испытуемых (все слепые), называемых здесь [в обозначениях Джонсона 1В(2), ПВ(1) и ПВ(2)];
Трехфакторные аппроксимации 447 Иллюстрация 1 главы 13: порог чувствительности пальца 3X3X4=36 основных наблюдений А) ДАННЫЕ Начальная гкор°сть( L сипа тяги (вес) ] Г) РЕЗУЛЬТАТЫ АНАЛИЗА ПОСЛЕ ПЕРЕСТАНОВКИ К ПЕРВО- НАЧАЛЬНОМУ ВИДУ Еиспыту- 14 7 I емь,и I 1 1—дТ""39 31 26 Т 16 12 12 аК -32 aL 0 аМ 18 13 14 аМ 4 . iz 85 Б5 56 ЬК —2 ui 32 22 20 Ы. 0 ЬМ 31 26 26 ЬМ 1 СК 101 84 70 сК 2 cL 43 33 30 cL -1 сМ 42 38 40 сМ 0 dK 151 124 98- dK 33 dL 63 51 37 dL 0 dM 58 55 46 dM -3 Б) ОДНА ТРЕТЬ ДАННЫХ ПОСЛЕ а0 -22 ПЕРЕСТАНОВКИ — данные для тя- ги 1 | Скорость | bp —6 cP 6 dP 25 0К 55 0L 0 Испытуемый а Ь с d К 39 85 101 151 L 16 32 43 63 0М -2 м 18 31 42 Б8 0Р 38 ПЫЛЦЕ ЖЕ ДАННЫЕ, ПРОАНА- ЛИЗИРОВАННЫЕ К L М а b С d эфф -32 -2 2 33 55 0 0 -1 0 0 4 1 0 -3 -2 -22 -6 6 25 38 Д) УПРАЖНЕНИЯ 1а) Повторите п. Б, В и Г для второго столбца п. А. 16) Проделайте то же самое для тре- тьего столбца. Е) ИСТОЧНИК: Johnson Р. О. Statistical Methods in Research, 1949, табл. 87 на с. 290.
448 Глава 13 Трехфакторные аппроксимации 449 <> три начальных значения силы (веса), называемые зле 7 (как в работе Джонсона 1949 г.) и равные 100, 250 и 400 4 и О четыре скорости возрастания тяги, называемые здесь ’ (как в работе Джонсона 1949 г.) и равные 100, 200 300 и зол ’ с и d и г/мИн Эта малая часть данных Джонсона — Цзао позволяет на примере удобного объема, как методы двухфакторного °Казать можно распространить на случай данных с тремя факторами ^анализа приведены значения сумм по двум экспериментальным сериям ИЛЛ> 1 ваемым Джонсоном и Цзао «датами»; каждое слагаемое в сумме Назы' нее из пяти откликов в одной серии. (Заданные значения выраж Сре/1' граммах и для простоты округлены до целых чисел.) ены в Эта таблица, как и всякая таблица, помещенная на листе бум имеет строки и столбцы. Столбцы соответствуют одной перемен^1"’ (весу), в то время как строки — двум переменным (испытуемым и cko* рости). В любом случае, когда мы имеем дело со всеми комбинациями значений трех и более переменных, мы можем расположить числа ана- логичным образом, некоторые переменные объединяя в столбцы а ос- тальные в строки. Так, например, в таблице Джонсона из всех 448 чи- сел: О комбинации переменных: пол, зрение, дата и испытуемый — задают столбцы, которых будет 2x2x2x2=16; О комбинации веса и скорости задают строки, которых будет 7x4=28. Расположения данных в таком виде — единственный естественный способ записи этих чисел. Как мы увидим, они к тому же указывают направление, в котором удобно начать анализ. Когда мы имеем 3, 4, . . ., 10, . . . факторов, выбрать для них обо- значения может быть до некоторой степени затруднительно. Слова «строка» и «столбец» здесь становятся бесполезными. Естественны два выбора: О когда мы проводим анализ «в практических целях», вероятно, самыми лучшими будут обозначения, которые связаны с нашим кон кретным представлением о факторе,— такие, как «скор»" для скВР сти, «нач» для начальной силы, «исп» для человека, который явля испытуемым; н0 О когда мы проводим анализ в целях обучения, часто пол связывать обозначение фактора с обозначением его реализап >го например, KLM. обычно обозначает фактор, реализациями к г являются К, L и М. ПРИМЕР ОБОЗНАЧЕНИЯ р. Первый столбец из илл. 1, А переписан в п. Б в виде ной таблицы, для которой в п. В приведен, анализ <<ст₽°^ расПоЛ° столбец». Затем мы взяли данные анализа из таблицы п. Б Р вновь в виде одного столбца в п. Г. Если бы это были все дан- л<цли 11 едставление их в виде одного столбца было бы упражнением, цьЮ, ПР щим смысла. Однако данных имеется больше. Чтобы распо- пе ' все данные в виде таблицы из строк и столбцов, нам нужно лить три фактора на две группы — одну для строк, другую для разДвЛ Одна группа должна содержать по меньшей мере два фак- столбч оскольКу ПрОще ИМеть много строк, чем много столбцов, то ðРо относительно уверенно помещать два фактора в строки.) Это м°>кИает что для каждого столбца необходимо будет проделать ана- °зйаЧаКОго же рода, какой мы только что продемонстрировали. лИЗПоясним выбор линий на илл. 1, Г. Двухфакторные остатки указа- лепосредственно с помощью своих обозначений — скорости и ис- НЫтуемых. Эффекты испытуемых обозначены знаком в для скорости /'тобы выразить, что от скорости они больше не зависят) и символом Испытуемого. Аналогичным образом эффекты скоростей указаны сим- волом скорости и знаком 0 для испытуемого (чтобы выразить, что они больше не зависят от испытуемого). Наконец, общий член обозна- чен 00 (чтобы выразить, что • он больше не зависит ни от скорости, ни от испытуемого). Здесь «0» — гласный звук скандинавских языков, который употребляется современными математиками для обозначения пустого множества — множества, не содержащего ни одного элемента. Мы будем использовать этот же подход при выборе обозначений строк и столбцов в случае трех факторов. ОБЗОРНЫЕ ВОПРОСЫ Можно ли с трехфакторными таблицами делать то же самое, что мы делали с двухфакторными? С многофакторными таблицами? Какой был взят пример? Какие три фактора рассматривались? Какие были факторы в полном эксперименте? Какой пример мы использовали для иллюстрации выбора обозначений строк и столбцов? Как мы это про- делали? Для чего обычно служат обозначения 0, 0 и О? С какого пре- рывания мы начали основной анализ? 13Б- анализ психологического эксперимента говВЧуРЕНемся теперь к трехфакторному анализу наших 3x3x4 поро- ся до Ствительности- Ниже мы узнаем, что полезно проводить анализ ствии ваРиФМов изменений веса, а не для самих изменений. В соответ- Из илл Э|ТИд На илл- сначала (в п. А) представлены логарифмы чисел (3Десь 23 ’ АНализ» приведенный в п. Б, состоит из восьми блоков Не°бХоди’ а Не 22==4> как в случае двух факторов), и ВСЕ ВОСЕМЬ вий. (за 0 Исп°льзовать для получения (сложением) исходных значе- М°ГЛИ бы ГИМ’ что мы пользуемся анализом «только эффектов». Мы 6ел° бы ккл1°чить и значения аппроксимаций, но это, наверное, при- 15 * 'Ъ ПУТЭНИце-)
450 Глава 13 Иллюстрация 2 главы 13: порог чувствительности пальца Логарифмы различных порогов чувствительности и трехфакторный (данные в п. А — это —1004-100 (g от данных в п. А илл. цаНализ А) ДАННЫЕ (логарифмы) Б) Один ТРЕХфакторный АНАпы^ V означает 0 ™1ИЗ 1 4 7 1 4 7 0 59 49 42 зК 7 2 1 sL 20 8 8 aL 2 4 4 J аМ 26 11 15 аМ 6 -3 V 7 ЬК 93 74 75 ЬК V -5 г 4 LL 51 34 30 bL 1 7 -1 ЬМ 43 42 42 ЬМ V 1 7 7 сЛС 100 92 85 сК V 2 - -1 ~2 cL 63 52 48 cL 1 7 V 7 сМ 62 58 60 сМ V V 1 7 0К 118 109 99 dK V -1 2 7 dL 80 71 57 dL V 1 V 7 dM 76 74 66 dM 7 7 V -2 аР V V V -36 ьр 2 V V 9 cP -2 V V 8 dp V 4 -5 22 0К V V V 34 0L 2 V V -6 0М -6 V 5 7 0Р 12 V -4 50 Отметим, чтоб обозначениях мы старались следовать нашим источникам, используя0 для «ничто из abed", 0 для «никто из KLM» и 0 (нуль) для «ничто из 147». Не забы- вайте правильно читать «147» как «один — четыре — семь», а НЕ «сто сорок семь». В) Несколько ПРИМЕРОВ РАЗЛОЖЕНИЯ — с обозначениями строк 59 = 0 + (-1) + 0 + (-36) + 0 + 34 + 12 + 50 аК ар бК 00 49 = 2 + (-1) + 0 + (-36) + 0_+34 + 0_+Д0 аК ар 0К 00 20 = -2 + 0 + 0 + (-36) + 2 + (-6) + 12 + 50 aL ар 0L - 00 93 = 0 + 4 + 2 + (-9) + 0 + 34 + 12 + 50 ьк ьр 0к 00
Трехфакторные аппроксимации 451 Иллюстрация 2 (продолжение) г) УПРАЖНЕНИЯ ищите разложения для 8, 34 и 71. 2а) Еь’11”., ли разложения, содержащие —36 и 22 вместе? —6 и —6 вместе? —5 2б) ИмеЙ1НИ„ ЬК и —5 из линии <10? Объясните. и3 те семь входов, не использованных до сих пор в примерах и упражнениях, ®Ь10е.иш1 те для них разложения, обозначая, как в п. В. г ^пируйте разложение п. В и выпишите название каждой величины. К кого вида эффектами являются аОО и 0LO? 20 2г) 2д) Для 66, исходного значения элемента dM7, разложение состоит и3 восьми членов: О, остаток dM7 —2, эффект dMO —5, эффект d07 5, эффект вМ7 22, эффект d0O О, эффект вМО —4, эффект 007 50, общий член 000 Их сумма, как легко проверить, равна 66. Опишем теперь, что представляют собой члены нашего разложе- ния, рассматривая последовательно снизу вверх указанные выше во- семь членов разложения: О общий член 000, здесь 50; О эффект начальной тяги (1, 4 или 7; часто называется главным эффектом начальной тяги), в нашем случае —4 для 007; эффект испытуемого (К, L или /VI; часто называется главным ^Жктом испытуемого), в нашем случае 0 для 0МО. V эффект скорости (а, Ь, с или d; часто называется главным эф- АМ f ЯоР°сти)» в нашем случае 22 для d0O; или л/7. ект <<испытуемый — начальная тяга» (К1, /<4, . . . , Л44 тяга») ’ часто называется взаимодействием «испытуемый — начальная О^’эХь ЭШем случае 5 для ®М7; Часго на еКТ <<СКОРОСТЬ — начальная тяга» (al, a4, . . . , d4 или dl; И1ем „ ЗЬ1Вается взаимодействием «скорость — начальная тяга»), в на- 0 XT -5 для d07. Част° наз КТ <<СКоР°сть — испытуемый» (a/<, aL, . . . , dL или dM; 1116X1 слуи°1Вается взаи*модействием «скорость — испытуемый»), в на- rt(. о тЬеХ"2 для dM°; «М7. Факторный остаток (от а/<1 до dM7), в нашем случае 0 для >5»
452 Глава 13 В случае элемента dM7, разложение которого мы только смотрели, велики общий член и эффект скорости (50 и 22) ДаЧт° Рас* дуют два взаимодействия (—5 и 5). ’ Лее сде. Глядя на всю таблицу илл. 2, Б в целом, мы видим, что общ " и три главных эффекта велики, в то время как двухфакторные в*1 Член действия оказываются ненамного больше, чем трехфакторные 0(3ailJl0- Легко нарисовать детальные диаграммы для больших эсЬ<ьаТКИ’ вместе с диаграммами «ящик с усами» (или даже схематическими КТ°В граммами) для меньших эффектов, как это показано, напрцмейДИа' илл. 3. Ясно видны три основные особенности: На О эффект скорости (большая скорость больше меняет вес)- О различие между испытуемым К (реагирует медленнее) и’испы туемыми М и L; О эффект начальной тяги (реакция медленнее, если начальная тяга меньше). Далее идут свойства некоторых отдельных двухфакторных эффек- тов и остатков. (Среди этих последних, возможно, заслуживает упоми- нания уравновешенное расположение ЛИ с аМ1 и ЬК с bf^4. Можете ли вы это объяснить или что-то предположить по этому поводу?) Иллюстрация 3 главы 13: порог чувствительности пальца Сводка эффектов и остатков анализа из илл. 2 (Общее = 50, все данные в 0,01 1g изменения веса) Эффект илиастаток I 20 \- Начальная Мттус- Скорость Испытуемый Скорость икириыпи {рпяга) ныи х х X х начальная начальная испытуемый нахальней испытуемый А ((Крат
Трехфакторные аппроксимации 453 ОБЗОРНЫЕ ВОПРОСЫ кой мы взяли пример? В каком виде мы анализировали данные? ко блоков мы получили для полного трехфакторного анализа? ^^начальные величины выражаются через эффекты и остатки? Как КаК о кратко описать компоненты разложения? Сколько больших ММтектов У нас получилось окончательно? Что это за эффекты (опи- э‘^у> Каковы остальные свойства? Что в них казалось самым инте- ресным? 13В. ПРОВЕДЕНИЕ ТРЕХФАКТОРНОГО АНАЛИЗА Приступим непосредственно к систематическому анализу множества данных, зависящих от трех факторов. Многократные удаления — в частности, многократные удаления медиан — осуществляются просто и эффективно. На илл. 4 шаг за шагом прослеживаются детали анализа для примера из илл. 2. В п. А в отдельном блоке, расположенном много ниже основных данных, показаны abcd-медианы п. Этот блок разбит на четыре части, три из которых (на этом этапе) пусты. Значение 96, обозначенное К1, является медианой значений 59, 93, 100 и 118, которые обозначены как аК1, ЬК1, сК1 и dKl соответственно. В этом отдельном блоке незапол- ненное место, обозначенное 01, аналогичным образом представляет собой медиану незаполненных мест, обозначенных а01, Ь01, с01 и <101 соответственно, и т. д. В случае двух факторов мы могли бы написать 59 —37 93 —3 ЮО и могли бы 4 118 превратить это в 22 ~96 П16 /п полУчае ДВУХ факторов мы опускали значение 96 и возвращали его не (Же В аппР°ксимации. В случае трех и более факторов этого делать аРИ(Ьг°ПТ’ ПОЭТОМУ необходима большая аккуратность при выполнении эти^еТНЧеских Действий-) На илл. 4, Б видно, где именно записаны вУк>Ш1 Ь чисел- 1*й шаг состоит в удалении abed-медиан из соответст- МедИан Зна™й, по которым они были вычислены, и внесении этих В п r Соответствующие эффекты. приведи показано, кроме того, что получилось после 1-го шага, и МеДИаньйЫч 7’медиань1 (т- е- 1,4, 7-медианы, а не «сто сорок семы>- > Здесь значение —37 на линии аК является медианой чисел — Нрим^перев^й выбо₽ки ПРИ фиксированных значениях остальных факто-
454 Глава 13 Иллюстрация 4 главы 13: порог чувствительности пальца (п. А, Б и В) (отметим, что А) ДАННЫЕ Шлифовка медианами пустые места можно воспринимать как нули) Б) После 1-го ШАГА В) После 2-го ШАГА 14 7 О 14 7 О 147- медианы 4 7 аК aL аМ ЬК ы ьм сК cL сМ dK dL dM 59 49 42 20 8 8 26 11 15 93 74 75 51 34 30 49 42 42 100 92 85 63 52 48 62 58 60 118 109 99 80 71 57 76 74 66 -37 -35 -38 -37 -35 -31 -30 -39 -36 -3 -10 -5 -6 -9 -9 -7 -8 -9 4 8 5 6 9 9 6 8 9 22 25 19 23 28 18 20 24 15 -37 -35 -36 -5 -9 -8 5 9 8 •22 23 20 О —2 6 2 3 1 -1 -3 -2 О О о 2 О -3 -5 О О 3 О О 3 S 4 -1 4 О О О -1 О о 1 -3 -5 -5 О -37 -35 -36 -5 -9 -8 j 5 9 8 22 I 23 20 80 Ьр С0 dp 0К 0L 0М 00 80 39 51 12 14 84 43 50 О -4 О —4 -1 О 96 57 56 84 43 51 84 43 51 abed-медианы KLM -'медианы К м 96 84 80 57 43 39 56 50 51 а b с d О 2 -2 О о О о О О О 4 -5 -36 -8 8 22 0 0 12 0 -4 51
Трехфакторные аппроксимации 455 „с и ___38 (обозначенных соответственно аК1, аК4 и аК7). ^37- " дО этому 84, обозначенное яК, есть медиана для 96, 84 и 80 днал°гиЧх соответственно как яК1, яК4 и яК7). Медиана каких (Обозна должна стоять на незаполненном месте, расположенном трех Чо2 23, 20 в столбце 147-медиан? поС‘ " ву’хфакторной таблице мы имели бы В Д —37 —35 —38 I —37, -35 —37 заменили бы на 51 0 2—1 || —37. сь все делается точно так же и аналогичным образом для осталь- Р* ЗДчетырнадцати записанных 147-медиан (опять-таки «один — четы- НЫХ_ семь», а не «сто сорок семь»), что мы и делаем. Ре илл’ 4, В показано, что получается после 2-го шага удаления медиан. Значения в верхнем левом блоке (12 строк и 3 столбца) сжа- лись так, что ни одно из них не превышает по абсолютной величине 6. И снова ниже основной таблицы мы показываем медианы, которые бу- дут использованы на следующем шаге. На этот раз все четыре части блока заполнены. Число —5, обозначенное d7, есть медиана чисел —3, —5 и —5 (обозначенных dK7, dL7 и dM7 соответственно). Число —36, обозначенное аО, есть медиана чисел —37, —35 и —36 (обозначенных аКО, aLO и аМО соответственно). Число 12, обозначенное 01, есть ме- диана чисел 12, 14 и 5 (обозначенных яК1, яЬ1 и яМ1 соответственно). Число 51, обозначенное яО, есть медиана чисел 84, 43 и 51 (обозначен- ных яКО, яЬО и яМО соответственно). Теперь наша структура достигает полного разнообразия, так что в основной таблице в п. Г (находящейся уже на илл. 5) не имеется не- заполненных мест (хотя в ней содержится несколько нулей). Итак, мы закончили один цикл удаления медиан. Анализ получился достаточно Удовлетворительным. Поскольку не всегда так бывает и поскольку а этом примере мы учимся трехфакторному анализу, проделаем еще <№н цикл удаления медиан На э соответствии с этим в п. Г (илл. 5) вновь приведены ctcd-медианы. Что Раз пятнадцать из них нули и одна равна +1. Поэтому мало ПоказанеНЯ1еТСЯ’ когда мы Делаем 4-й шаг и переходим к п. Д. Здесь же т°лько и' 47'меДиань1 (один — четыре — семь, тоже во второй раз), Так И3 КотоРых отличны от нуля. Г1°казаны V/301210 сделать 5-й шаг и перейти к п. Е. В этой таблице левые. п„-медианы (и они во второй раз), из которых две нену- илл. 6\ Ростой 6-й шаг приводит нас к таблице п. Ж (показанной па в 7 « Но пРиведены не ТОЛЬКО 147-медианы — все 20 равны п\)Аалили0&С оедианы ~ все 16 Равны нулю. Поскольку мы только тоже 0ВСе 20 ^М-медиан, мы знаем, что все 20 /<ЛМ-медиан >е Как выч ВНЫ Н^’лю- Мы можем быть счастливы — по крайней ислители,— так как довели до конца процесс удаления
456 Глава 13 медиан. Если мы не собираемся изменять свой способ анализа его закончили. В частности, мы достигли результатов, подробно10 t',bJ ставленных на илл. 2, Б и изображенных на илл. 3. пРед- В данном случае два цикла удаления медиан исчерпали все воз ности этого метода. Вообще говоря, не обязательно так бывает думаем, что чаще всего двух циклов удаления медиан будет доста но — независимо от того, приходим ли мы к концу процесса или Т°Ч «Два цикла, вероятно, достаточно» — это хороший совет, но тот НбТ' Иллюстрация б главы 13: порог чувствительности пальца Продолжение шлифовки медианами (таблицы обозначаются буквами по алфавиту, начиная с илл. 4) Г) После 3-го ШАГА Д) После 4-го ШАГА Е) После 5-го ШАГ/ аК at аМ ЬК Ы. ЬМ сК cL сМ ЦК dL dM ар ьр cP dp ЦК 0М 0Р 14 7 0 14 7 С 147- медианы 14 7 0 0 2-1 -2 0 4 6-3 0 0-5 0 1 0 0 -1 0 -1 1 3 0 -10 0 0 0 1 0-1 2 0 1 0 ООО -1 1 0 3 -1 0 -3 1 0 0 1 -2 0 2-1 -2 0 4 6-3 0 0-5 0 1 0 0 -1 0 -1 1 3 0 -10 0 0 0 1 0-1 2 0 1 0 0 0 0 -1 0 0 3 -2 0 -3 0 0 0 0 -2 0 0 0 0 0 -1 1 0 0 0 0 0 0 2-1 -2 0 4 6 -3 0 0 -5 0 1 0 0 0 1 0 0 2-1 -10 0 0 0 1 0-1 2 0 1 0 0 0 0 -1 0 0 3 -2 -1 -2 0 0 0 0 -2 -36 -8 8 22 33 -7 -1 51 ООО 2 0 0 -2 0 0 0 4-5 -36 -8 8 22 0 0 0 2 0 0 -2 0 0 0 4-5 -36 -8 8 22 0 0 0 0 0 0 0 2 0 0 -2 0 0 0 4-5 ООО 2 0 0 -7 -1 4 33 -8 0 0 0 0 2 0 0 -7 -1 4 33 -7 0 0 0 -1 0 0 0 2 0 0 -6 0 5 12 0 —4 51 12 0 —4 51 0 12 0 abed-медианы KLM-медианы -1 0 0 ; _1 0 0 0 0 0 0 0 0 0 0 1 0 в b с d 0 о о 0 ° о 0 0 Л 0 ° - °J 0 0 0 0
Трехфакторные аппроксимации 457 Иллюстрация 6 главы 13: порог чувствительности пальца „ щлифоики медианами (обозначение Онончан с шць J) таблиц буквами продолжается И) ТО ЖЕ САМОЕ — нули опущены К) То же САМОЕ — опущены и ±1 После 6-го ШАГА 1 4 7 0 0 2 -1 г -1 al. аМ -2 6 0 -3 о 0 0 J>K 0 -5 0 4 ы 1 0 0 “1 ЬМ 0 1 0 0 сК 0 2 -1 -2 cL -1 0 0 0 сМ 0 0 1 0 dK 0 -1 2 0 dL 0 1 0 0 dM 0 0 0 -2 £0 0 0 0 -36 Ь0 2 0 0 -9 сО -2 0 0 8 dO 0 4 -5 22 «К 0 0 0 34 dl 2 0 0 -6 dM -6 0 5 0 dP 12 0 -4 50 147- медианы О О О О О О О О О О О О o' о о о o' о о 0~ 14 7 2 -1 -2 4 6 -3 -5 1 1 2 -1 -1 1 -1 2 1 1 4 7 2 -2 4 6 -3 5 2 2 -36 -9 8 22 34 -6 12 -4 50 50 abcd-медианы ООО 0 0,0 __ 0 0 р ООО ООО 0 данные илл. 1, А и проделайте шаги 1, 2 и 3. УПРАЖНЕНИЯ 6а2) &МИТе в качестве начальных 6аЗ) Чувсте1^ИГе И пР0Делайте шаги 4, 5 и 6. анал0Ги,еТе вы нс°бходимость продвинуться еще дальше? Постройте рисунок, 6б) СКазатьЧНЫН ИЛЛ‘ 3- Выразите в словах то, что она, по-видимому, хочет нам " ЬХТп.КЛ_К " выбР°сьте в нем также ±2. Какая из трех таблиц — новая, 6в) Ho,i? " — кажется вам наиболее ясной и наиболее информативной карти- СТЕУйЩих^О>кеге Ли вы сказать, удаляли ли мы на 2-м шаге медианы соответ- качений (четырех незаполненных блоков)?
458 Глава 13 Иллюстрация 7 главы 13: данные и упражнения Некоторые трехфакторные задачи А) возможности ОЧИСТКИ КОМБИНАЦИЯМИ МОЮЩИХ СРеДСщ А,В, а,в2 А,В3 АА А2В2 А2В3 А3В, А3В2 С, 106 197 •223 198 329 320 270 361 с2 149 255 294 243 364 410 315 390 Сз 182 259 297 232 389 416 340 406 АзВ3 321 415 387 Alt А.,, А3 — три концентрации моющего средства, Bj, В2, В3 — три концентпя соды. Ci, С2, С3 — три концентрации натрийкарбоксиметилцеллюлозы. ₽аВДв Большие числа соответствуют лучшей очистке. Б) ПОРИСТОСТЬ В ЗАПОЛНЕННЫХ ТРУБАХ CI СП Б1 БН П1 ПН Ст! Ст1| 0 473 440 490 457 478 450 479 424 3 366 342 378 331 392 291 390 298 9 373 366 402 373 406 375 385 349 С, Б, П, Ст — свинец, бронза, полистирол, стекло. I, II — два способа заполнения. О, 3, 9 — расстояние от стенок в десятых долях дюйма (в 3-дюймовой трубе). Данные — пористость в тысячных долях процента. В) ПРОЧНОСТЬ ЦЕМЕНТА Зп ЗП 7п 7П 8п 8П 9п 9П ф 15.959 16.151 16.443 16.636 16.780 16.859 17.086- 1/.309 Ф 16.028 16.221 16.451 16.607 16.788 16.948 17.090 17.318 3, 7, 8, 9 — выдерживание в течение 3, 7, 28 дней и 28 дней при особых условиях*, п, П — соответственно старый пресс, новый пресс; ф, Ф — соответственно старая форма, новая форма. г Данные — сумма шести логарифмов пределов прочности на сжатие в кгс/см . Г) УПРАЖНЕНИЯ (довольно длинные) уВ 7а) Расположите данные п. А удобным образом и удалите медианы по одному Р * каждом из трех возможных направлений. 7а2) Продолжите, проделав еще один цикл удаления. 7аЗ) Закончите анализ. 76) Проделайте то же само:, что в упр. 7а, для п. Б. 762) Продолжите, как в (7а2). 763) Закончите, как в (7аЗ). 7в) Проделайте то же самое, что в упр. 7з, для п. В, 7в2) Продолжите, как в (7а2), твЗ) Закончите, как в (7аЗ),
Трехфакторные аппроксимации Иллюстрация 7 (продолжение) ИСТОЧНИКИ: (для п. A) Feuell A- J., Wagg R. Е. Statistical Methods in Д’ ncv Investigations. Research, 2, 334, 1949 (приведено в кн.: Wine R. L. Sta- Scientists and Engineers, 1964, Prentice Hall, 1964, p. 492). ti^Ks п б) MacRae J. C., Gray W. A. Significance of the properties of materials th packing of real spherical particles. — British Journal of Applied Physics, 12, in ,72 1961 [из их табл. 6, приведенной в книге Вайна (см. предыдущую ссылку) 16^ 493]. й« С/пля п. В) Hold A. Statistical Theory with Engineering Applications, John Wiley, co n 481 [Имеется перевод: А. Хальд. Математическая статистика с техническими Приложениями,-М.: ИЛ, 1956, с. 410J поводит анализ, все же должен подумать о том, что могут дать один несколько дополнительных циклов. В двух остальных пунктах илл. 6 показано, что получается, если заносить в таблицу нули (п. И), нули и все ±1 (п. К), а в упражне- нии и ±2. Таким образом, мы получаем один простой способ попы- таться более наглядно показать, что происходит в такой довольно сложной ситуации,— исключаем из рассмотрения наименьшие вели- чины. На илл. 7 приводится несколько упражнений с другими набо- рами данных. ОБЗОРНЫЕ ВОПРОСЫ Как взяться за анализ трехфакторных таблиц? Как можно распо- ложить данные, зависящие от трех факторов? Сначала? После анализа? Какого рода многократные удаления мы пробовали применять? Какие изменения мы внесли в детали наших вычислений? На каком примере это было сделано? Через сколько циклов мы прошли? Почему мы там остановились? Могли ли мы остановиться в каком-нибудь другом ме- сте? Почему (или почему нет)? »ЗГ. ПРЕОБРАЗОВАНИЯ В СЛУЧАЕ ТРЕХ ФАКТОРОВ Хотя мы имеем дело с трехфакторным анализом, нам следует бро- сить хоть беглый взгляд на преобразования, в частности на то, как ° наРужить переход к анализу «стр-НА-стл-НА-слой», когДа мы уже проделали анализ «стр-ПЛЮС-стл-ПЛЮС-слой». что мы имеем аппроксимацию «всё + стр + стл + слой»; здесь « в йац1еуЛ0Й>> ~~ Уд°биое слово, которое используют, даже если, как И строк СлУчае, Мы не собираемся представлять наши числа как слой Ресечениых столбцами. (Даже если мы не намерены показы- Предположим,
460 Глава 13 сравнительные значения (данные ид, Б) Несколько групп СРдпо,, ТЕЛЬНЫХ значений" Иллюстрация 8 главы 13: порог чувствительности пальца Анализ данных Джонсона н Цзао вида «скорость-ПЛЮС-испытуемый ПЛЮС-начальная» и соответствующие z__ А) АНАЛИЗ 1 4 7 0 1 4 7 аК -7 0 2 -16 -6;4 0 1.3 -19.7 aL 0 0 0 3 .7 0 -.1 2.3 аМ 7 0 -3 0 0 0 0 0 ЬК 0 -9 1 4 =1.8 0 .4 -5.5 Ы. 0 0 0 0 .2 0 0 .6 ЬМ 1 0 -2 0 0 0 0 0 сК 0 4 0 -9 2.1 0 -.4 6.6 cL 0 0 0 0 —.2 0 .1 -.8 сМ 0 0 1 1 0 0 0 0 dK 4 0 -5 35 8.5 0 -1.7 26.3 dL 0 0 0 0 -1.0 0 .2 -з.< dM -3 0 1 0 0 0 0 0 а0 -6 0 2 -18 -5.8 0 1.2 Ь0 0 0 0 -5 -1.6 0 .3 С0 0 0 -1 6 1.9 0 -.4 d0 2 0 -12 24 7.7 0 -1.6 ttK 11 0 —7 34 11.0 0 -2.2 0L 0 0 0 —4 -1.3 0 .3 0М -6 0 4 0 0 0 0 00 10 0 -2 31 Примеры: -6.4= (-18)(34)(10)/(31): -6.8 = (—18)(10)/31 11.0 = (34)(10)/31 —19.7 = (—18)(34)/31 слой всё вать их в таком виде, удобно представлять их себе таким образом.) Выписанные слагаемые являются первыми членами выражения (BCe)f1+^W1+^ ' \ все j \ все остальными членами которого (после перемножения) будут , (стр) (стл) . (стр) (слой) । (стл)(слой) , (стр) (стл) (слой) всё всё ' всё ' (всё)2 Поэтому мы могли бы взять в качестве сравнительных значений- О для каждого двухфакторного взаимодействия величину, °^Ре, зованную из главных эффектов точно таким же образом, как ыь лали бы в двухфакторном анализе;
Трехфакторные аппроксимации 461 "" пя трехфакторных остатков величину, образованную перемно- 0 Д‘всех трех соответствующих главных эффектов с последующим ЖеН*’е,^м на квадрат общего члена. делением т ким образом, мы можем рассматривать отдельно каждую из че- *а частей или их все вместе. тЫРДх ИЛЛ. 8 приведен трехфакторный «ПЛЮС-анализ» первоначаль- аННых Джонсона и Цзао (из илл. 1) и четыре множества сравни- ных д значений. На илл. 9 показаны четыре диагностические диа- теЛЬмы Для каждой из них, если бы мы должны были выбирать между гРаМ0ном, равным нулю (остаток=0), и наклоном, равным единице Иллюстрация 9 главы 13: порог чувствительности пальца Диагностические диаграммы для сравнительных значений четырех типов из илл. 8 ВЗАИМОДЕЙСТВИЕ ,£КОРОСГЬ*ИСПЫТУ£МЫЙ“
462 Глава 13 (остаток == сравнительное значение), мы выбрали бы последнее ренность, с которой мы делаем такой выбор, бывает весьма разл‘ ^Ве- В данном простом случае все четыре голоса четко высказываю*4110^ переход к логарифмам.) ТСя за Может возникнуть необходимость рассмотреть менее ясные меры. В подобных обстоятельствах мы хотели бы, чтобы все ч П^И' голоса высказались вместе. На илл. 10 показан стебель с лист^'^6 объединяющий все четыре множества сравнительных значений и п Ми> чень тех из них (с соответствующими остатками), которые кажу^ ' достаточно большими и заслуживают, чтобы на них обратили внг Я ние. Те, кто выполнит упр. 10а, узнают, как решительно могут g3' сказаться четыре диагностические диаграммы, если их объедини На илл. 11 показан второй анализ тех же данных (полученный посЬ’ удаления средних) и рассматривается в виде упражнений его оценка6 ОБЗОРНЫЕ ВОПРОСЫ Каковз связь между «НА»- и «ПЛЮС»-анализами в случае трех фак- торов? (Можете ли вы предсказать, что получится в случае четырех факторов?) Сколько видов сравнительных значений существует при Иллюстрация 10 главы 13: порог чувствительности пальца Объединение и фокусировка четырех диагностических диаграмм А) СТЕБЕЛЬ С ЛИСТЬЯМИ для ВСЕХ СРАВНИТЕЛЬНЫХ ЗНАЧЕ- НИЙ ^1,5 и ОСТАТКИ Б) СРАВНИТЕЛЬНЫЕ ЗНАЧЕНИЯ С АБСОЛЮТНОЙ ВЕЛИЧИНОЙ СООТВЕТСТВУЮЩИЕ Сравнительные н 11.0,26.3 значения Остатки 8 5 26.3 35 7 7 11.0 11 6 6 8.5 4 5 7.7 2 А 6.6 9 3 2.1, 2.3 0,3 2 13 1.9 0 1 239 0 12233467 Z ККЕ; ; -0 12448 -1.6,-1.6,-1.7,-1.8 0,0,-5,-12 -1 036678 -2.2 -7 -2 2 -3.1 0 -3 1 -5.5 4 -5 58 -5.8 -6 -6 4 -6.4 —7 —19.7, -19.7 -16 В) УПРАЖНЕНИЕ Б) и сраБ[,1,Т 1(Х, Нанесите на график 17 пар (сравнительное значение, остаток из п. с прямыми «остаток = 0» и «остаток = сравнительное значение».
Трехфакторные аппроксимации 463 Иллюстрация 11 главы 13: порог чувствительное!! и пальца Другой анализ тех же данных д) Анализ 1 4 7 0 аК -.9 2.5 1.5 -1 1 aL -2.4 0 2.5 .4 аМ 3.4 2.4 -.9 .8 ЬК 1 1 -2.5 1.5 1.5 Ы. .9 .3 -1.2 -1.3 ЬМ -2.0 2.2 -.3 -.2 сК .0 .4 -1.3 - 1.0 cL .8 -.8 0 .2 сМ -.7 -.5 1.3 9 dK 0 -1.3 1.4 6 dL .8 .5 1.3 8 dM -.7 .8 .0 -1.5 а0 .4 -1.8 1.2 -29 8 Ь0 1.8 —2.4 .6 -1 8 Г0 -2 1 7 1 4 12 7 С0 1 3.4 -33 27 1 оК 1.4 .3 -17 24.7 aL 1 9 -.2 -1 7 -14.8 рМ -3.3 -.2 3.3 —9.8 00 8 1 -2.0 -6.0 56.2 Б) УПРАЖНЕНИЯ Найдите сравнительные значения, соответствуй п.ие анализу п. А, 1а2) Постройте четыре диагностические диаграммы, используя эти сравнительные 11 ч значения- На4) пбЪеДИ™Те сРавнительные значения, как на илл. 10. 116) ЦостР°йте объединенную и сфокусированную диагностическую диаграмму, 1162г пРоделайте упр. 11а для анализа из илл. 10. ''63Г г|Роделайте (На2) для этого случая. Пб4) пР0ДеЛайте (11аЗ) для этого случая. ^в/вг/вЗ/4^1 пТе для этого случая. я Проделайте, как указано в (Па—На4), для нескольких других анализов
454 Глава 13 трех факторах? Сколько диагностических диаграмм? Какой рас ривался пример? О чем свидетельствовали диагностические Диагра?',ат' Можно ли было объединять диагностические диаграммы? Как мы 1Ми? ли бы это сделать? (Уместно ли здесь ЗПРР-усреднение?) Мог' 13Д. ЕЩЕ ОБ ЭТОМ ПРИМЕРЕ Мы узнали, что пример Джонсона и Цзао достоин или «НА-анал изменений веса, или «ПЛЮС-анализа» логарифмов изменений. Мож**8 ли продвинуться дальше? Но На илл. 12 подробнее рассматриваются главные эффекты. В п. А исследуется эффект скорости изменения силы. Внимательно посмотрев на приведенные данные, мы видим, что значение аппроксимации ме- няется довольно сходно с логарифмом скорости, разность «аппрокси- Иллюстрация 12 главы 13: порог чувствительности пальца Уточненные главные эффекты (значения аппроксимации из илл. 6) А) ahcd-ФАКТОР, ИЛИ ФАКТОР «СКОРОСТИ» log I Скорость, [скоро- I | раэ. | Случай | | r/мин 1 |сти <> | | Аппр. | |цость| а 100 0.0 -36 -36 И 200 30.1 -9 -39 с 300 47.7 8 -40 d 4С0 60.2 22 -38 Числа в этом столбце равны —2004-100 1g числа в предыдущем Б) KLM-ФАКТОР, или ФАКТОР «НАБЛЮДАТЕЛЯ» [ Случай | | Поп | | Аппр. [ К Муж. 34 L Жен. —6 М Жен. 0 столбце, В) 147-ФАКТОР, или ФАКТОР «НАЧАЛЬНОЙ ТЯГИ» .Начальная | Случай | 1 тяга, г J | log | |. Аппр. | I 2* I 1 100 0.0 12 12 4 250 39.8 0 10 7 400 60.2 -4 V 2) Аппроксимация ПЛЮС (log начальной тяги). Г) УПРАЖНЕНИЯ 12а) Для модифицированного отклика, рассмотренного в тексте, соответствующим образом илл. 3. 12а2) Опишите словами, о чем говорит новый рисунок. модифици₽),й
Трехфакторные аппроксимации 465 минус логарифм» меняется только в диапазоне от —36 до —40. мап1,я этот результат и вернемся к нему через некоторое время. 3аПВМп Б' речь идет о трех испытуемых, присутствующих в нашем Б „ченном наборе данных. Здесь можно подумать, будто пол испы- огРаН играет роль, хотя трех случаев едва ли достаточно, чтобы туемо £ЫЛ0 СдеЛаТь вполне обоснованное предположение. м°*нп В рассматривается фактор начальной силы, который, как об- уживается, дает некоторый эффект, хотя и не очень большой. Эф- НаР здесь грубо оценивается как —1/i log начальной тяги, а разность Аппроксимация минус V4 логарифма» меняется лишь в пределах от 10 ДО 12. Далее рассмотрим (возможно, что будет интересно и полезно) каж- дый из трех главных эффектов. Д Чтобы понять значение первого из них, обратим внимание на то, что мы анализируем. В действительности: у = изменение силы, прежде чем оно обнаруживается, log у=—100+100 log (изменение в граммах). Поскольку последнее меняется, по-видимому, параллельно с log скорости = —200+100 log (число граммов в минуту), нам следует рассмотреть мало меняющуюся разность изменение в граммах \ г/мин 1 log//— log скорости = 100 + 100 log ( Теперь нам стало ясно, что изменение в граммах -------------------г/шш ------= задержка в минутах и что наше наблюдение можно теперь очень просто сформулировать 0 время, затрачиваемое на обнаружение начала изменения силы, гораздо менее изменчивая величина, чем приращение силы, необходи- 10е для обнаружения этого начала. ПРЕОБРАЗОВАННЫЕ ОТКЛИКИ этот d) мы ЭТ0 знаем> У нас> по-видимому, нет причин не принимать анализ КТ В Расчет с самого начала анализа. Поэтому лучше проводить логарифмов времени обнаружения, °сУЩествИЗ ИЗменения веса или логарифмов изменения веса. Чтобы С ПоМоц1Ь1ТЬ Такой переход, все исходные данные нужно изменить ^Начать пеРесчета, одинакового для всех случаев abed. Это может °‘м Измени0 На остатки он не повлияет, хотя соответствующим обра- т аппроксимацию.
466 Глава 13 Объединяя общий член и «член, соответствующий получаем: -коРостц^ Случай Старая аппроксимация *) Изменение Новая аппроксимаци а 14 0,0 14 ь 41 30,1 11 с 58 47,7 10 d 72 60,2 12 •) Илл. 6.Ж. что приводит к общему члену порядка 12 и много меньшим членам соответствующим скорости, значения которых равны 2, —1, —2 и о’ ОБЗОРНЫЕ ВОПРОСЫ Что мы увидели, когда внимательнее рассмотрели главные эффекты? Заставило ли это нас по-иному взглянуть на эксперимент и его данные? Почему (или почему нет)? Что мы узнали? 13Е. ЧЕГО МЫ ДОСТИГЛИ? Эта глава показала нам способ обобщения анализа двухфакторных таблиц на трехфакторные таблицы; желающие могут распространить его на многофакторные таблицы. И в этой главе также в основном гово- рилось о том, «как это делается». Теперь мы умеем: <> располагать на листе бумаги данные, зависящие от трех (или более) факторов, таким образом, чтобы их можно было успешно рас- сматривать и обрабатывать; в частности, мы должны: а) обдумать, к > используя различные обозначения (прописные и строчные буквы, и ры п т. д ), снабдить строки и столбцы полезными ярлыками в °; ра брать подходящий символ (в, 0 или нуль) для отсутствующего фа* (т. е. множества обстоятельств); Зцаче' О проводить шлифовку медианами таких таблиц удалением му ний из в ех блоков, чувствительных к вычислению медиан по Д^ дЛЯ множеству обстоятельств (фактору); мы должны проделать оД|]ц каждого фактора (множества обстоятельств) по меньшей мер раз, часто два, а иногда и больше; эф^е1<” О строить графическое изображение сводки всех видо тов — и всех остатков; в данном случае у нас нет всех тех ^р0В, свойств, которыми мы обычно располагали в случае двух Фа^о3моД<110’ мы може,м получить довольно общую картину (которая,
Трехфакторные аппроксимации 467 подскажет нам, какая двухфакторная диаграмма будет наиболее ^ппезной); 11 Л определять в случае трех факторов не один, как при наличии Y факторов, а четыре вида сравнительных значений и яВУл наносить на рисунок разные блоки анализа как отдельно для 1гаЖД°г0 так и для всех вместе. (Кроме того, мы имеем выбор меЖДУ «ПЛЮС-четыре»-анализом и одним из многих преобразовании.) Теперь мы понимаем, что необходимость упростить и истолковать блоки анализа, в частности однофакторные эффекты, если они имеются, сильнее в случае трех- и многофакторных таблиц, чем в случае двух- факторных. Теперь мы видим, что все, чему мы научились при работе с двух- факторными таблицами, можно развивать в новом направлении. Мы видим огромные возможности, но мы не в состоянии освободиться от выполнения всех вычислений вручную. Наша жажда и потребность в вычислительных программах для компьютеров огромна. Это практические вопросы, подчас имеющие решающее значение, но принципиальных вопросов они не затрагивают. Теперь можно по- верить, что когда данные зависят от трех или более факторов — и мы можем осмыслить сразу два из них, — то должен существовать путь осмыслить их все вместе — неважно, видим мы его сразу или нет.
Глава 14 РАССМОТРЕНИЕ ВЫБОРОК ТОЧЕК С РАЗНЫХ СТОРОН УКАЗАТЕЛЬ К ГЛАВЕ 14 Обзорные вопросы 469 14А. Координаты и трассы уровня 469 прямые уровня 470 линии уровня 470 трасса 470 трассы уровня 470 Обзорные вопросы 472 14 Б. Различные срединные трассы для одного и того же разбиения на слои Изменение трассовой координаты Обзорные вопросы 472 472 477 14В. Объяснение Искривленные трассы Обзорные вопросы 477 478 479 14Г Изменение координаты, но которой нарезаются слои Обзорные вопросы 479 481 14Д. Что важно? Некоторые выводы Обзорные вопросы 481 483 484 14 Е. Сопоставление н сила связи Коэффициенты зависимости коэффициент зависимости трасса зависимости Восстановленные трассы Комментарий истинная срединная трасса Обзорные вопросы 484 488 488 488 488 492 492 492 14Ж- Чего мы достигли? 493 1411 Вездесущие медианы (факультативно) Нечетное число точек Четное число точек Обзорные вопросы 494 494 495 495
Рассмотрение выборок точек с разных сторон 469» " g и 9 мы изучали выборки (х, #)-точек единственным и доволь- В гЛ' лИнейным способом: сначала делили на слои по х, а затем яо пРяМКрассы 1/-ов. Это давало нам весьма полезные представления; сТР°,|Л,цилИСЬ осмысливать такие выборки и извлекать из них удобные цЫ на^’ ы Теперь пришло время пойти дальше и задать такие естест- дцагРаМвоПрОСы, как: почему бы не поменять х и у местами? Что полу- веннь,ееслИ иСПОЛЬзОваТЬ х+у, или х—у, или что-нибудь еще? деление на слои по х кажется неизбежным, но отнюдь не Если, например, одна переменная — высота, а другая — зсегД ' трудно решить, какую из переменных «следует» взять первой,. веС’ «следует» использовать для разбиения. В настоящей главе ис- Т е еется, что изменится, если посмотреть на одну и ту же выборку С )-точек с двух или более сторон. ОБЗОРНЫЕ ВОПРОСЫ Что мы делали раньше? В каких главах? Что это нам давало? Что мы могли бы сделать теперь? Собираемся ли мы это делать? Обязатель- но ли использовать х для разбиения? (Приведите пример.) Что мы те- перь должны делать? 14А. КООРДИНАТЫ И ТРАССЫ УРОВНЯ Когда мы говорим о парах (х, у), мы имеем в виду объекты или си- туации, предполагающие наличие двух чисел. Скажем, х = высота, у = вес. ^тестввнно представлять их себе в обычных прямоугольных коорди- динЭХ э ° Как приставлять — или следует представлять — эти коор- Ся’1аты- ^ак только это будет ясно, нам будет гораздо легче разобрать- могутВсеБОЗМОЖНЬ1Х координатах (или их различных видах), которые Эк Пом°чь нам в данной ситуации. Разбеп омное использование карандаша и чернил избавит нас от не- и «Шкач»11 На Д1|агра?,1мах: их часто используют для нанесения «осей» и,1какой> ПРЯМОУГСЛЬНЬ1Х координат на окончательный чертеж. Однако ЧИнать егс>ИСУНСл Не должен начинаться с осей или шкал — лучше на- Намбудут стР°ить на миллиметровке. О значениях х-координат точек На ^ллИмС°0бщать все вертикальные прямые — и те, что уже имеются и те, которые можно провести между ними. Анало- ь*м Ч^м™ °б ^'кооРДинате мы будем узнавать по горизонталь- ^tonst.Kpa3Hbie пРямые’ определяющие значения х,— это прямые 1,3 одном Х постоянно« точки на любой вертикальной прямой ле- и том же уровне по отношению к х; поэтому и неудиви-
470 Г лава 14 тельно, что такие прямые называют прямыми уровня координаты х. Совокупность всех прямых уровня х дает всю мацию об х. На миллиметровке мы задаем достаточно плотное ство прямых уровня, с которым мы можем работать так, как ее110>ке- присутствовали все прямые уровня. Л11 бы Некоторые координаты постоянны на кривых линиях, а не на мых. Тогда мы будем говорить о пРя- линиях уровня, а не прямых уровня. Для математиков прямая — это частный случ » кривой, поэтому они используют более общее понятие «линии уровн Т Так могли бы поступать и мы, если бы занимались математикой J’ мы занимаемся не математикой. В общепринятом смысле прямая не имеет искривлений, а кривая искривлена и то и другое никогда не мо- гут существовать одновременно. Нам необходимо иметь слово, охватывающее понятие прямой, кри- вой, ломаной и т. д. Для этого мы будем использовать термин трасса. Таким образом, каждая координата имеет свои трассы уровня. Не все трассы уровня — прямые. Не все прямые уровня парал- лельны. Очень часто при съемках измеряют направления на интере- сующие нас точки от каждого из двух выбранных опорных пунктов. Трассы уровня для направлений из какой-то одной точки — это лучи, выходящие из этой точки. Во втором по горизонтали ряду рисунков на илл. 1 показано, как выглядят такие семейства прямых уровня по отдельности и вместе. т Вместо направлений мы могли бы рассматривать расстояния двух точек, что дало бы в качестве линий уровня семейства окружно стей. В третьем ряду илл. 1 они построены на карте США и задают р стояния от Нью-Йорка и Лос-Анджелеса. В этом случае воЗН1’ ть, небольшое затруднение, так как существуют пары точек, кооРд'ст0я- которых оказываются одинаковыми. Но если рассматривать Р qT0 яия от Сет-Иля (Квебек) и Ванкувера (Британская Колумби Д показано в нижнем ряду на илл. 1, то можно избежать этой тру пока мы не выходим за пределы США. оРД11йаТ-’ Это показывает, что у нас есть полная свобода в выборе ко J даже если мы имеем дело с точками на определенной фикс р трасс карте. Все, что следует сделать,— это выбрать два множе м0?кно уровня так, чтобы они вместе отвечали нашим потребностям, начинать работу. ь кажД01 Теперь мы должны выбрать, какое значение пРипП „едеЛя1°тС трассе уровня, но отличия между разными выборами о р
Рассмотрение выборок точек с разных сторон Иллюстрация / главы 14 Трассы уровня (различные примеры с одним и двумя множествами) УровнСПОС°бом пРе°бразования переменных. Каждое семейство трасс назват СаМ° П° соответствУет переменной, которую можно как-то Трасс П°Ка еще нельзя измерить и выразить численно. Семейство- где каждая трасса имеет свое значение, представляет который мы уже назвали, измерили и выразили чис- мы занимаемся общими банковскими вкладами в ка- Уровня само по себе “ая3вать, ко но CLCS Уровня, объект, Ленно. KOly-Tf^^’ ^-ЛИ -.--икщг.ти иап|Ш1Л.ппот.> М1М1ЗДЦПШ Уроки Щтате. как это было в гл. 8, одно и то же множество линий- “Ня обслуживает: О банковские вклады в долларах; ф адратные корни из банковских вкладов в долларах; Гарифмы банковских вкладов в долларах;
472 Глава 14 0 и, конечно же, банковские вклады в центах или долларов. в Ми^ионах Лишь численные значения на линиях уровня будут различны ОБЗОРНЫЕ ВОПРОСЫ Что говорит нам х-координата точки на миллиметровке? у.Ко ната? Что такое прямая уровня? Линия уровня? Трасса уровня? г?Ди' му мы выбрали термин «трасса»? Могут ли окружности быть трас °Че' уровня? Сколько семейств окружностей? Если дана фиксирован3*111 карта, насколько ограничен выбор координат? Много ли нам известНаЯ если мы знаем о семействе трасс уровня все, кроме значений на каж**0’ трассе уровня? Что добавляет знание этих значений? Как влияют пг?1* образования на семейство трасс уровня? ₽е' 14Б. РАЗЛИЧНЫЕ СРЕДИННЫЕ ТРАССЫ ДЛЯ ОДНОГО И ТОГО ЖЕ РАЗБИЕНИЯ НА СЛОИ Пришло время рассмотреть различные срединные трассы для одно- го и того же облака точек, задаваясь вопросом, какие из них очень похожи, а какие сильно различаются. ИЗМЕНЕНИЕ ТРАССОВОЙ КООРДИНАТЫ По переписи 1960 г. в США было зарегистрировано 88 населенных пунктов, не имеющих статуса городов, население которых превышало 25 000 человек. Мы будем рассматривать только две из 67 колонок информации, приведенной в 1962 г. в County and City Data Book. О процент занятых жилых единиц, в которых на одну комнат} приходится ^1,01 человека (колонка 255, которая ниже называется х или «% перенаселенности»); т 0 процент занятых жилых единиц, проживающие в которых им один или более автомобилей (колонка 267, которая ниже называв или «% оснащенности автомобилями»). На илл. 2 представлены данные, разделенные с помощью нирующего метода на слои по х, и даны соответствующие медиа •обработанные и сглаженные) для х, у, х+у и у—х- Далее пр |1ецг соответствующие значения для у, полученные из плавных к I/, х+у и у—х. Это позволяет сравнить срединные трассы у относительно х, х+у относительно х, у—х относительно х, <днН11Ь1'Х что сделано на илл. 3. Мы видим, что графики всех трех ср трасс похожи и что;
Рассмотрение выборок точек с разных сторон 473 Иллюстрация 2 главы 14: населенные пункты збитые на слои, и медианы х=% жилых единиц с более чем 1,01 человека ПаН,|Ь,е’ Ра «==% жилых единиц, оснащенных одним или более автомобилем, х-|\У комнату, л каждой из скобок содержатся х, у, х+.у, у—х в этом порядке) ” и У * ' А) ДАННЫЕ | Слой j Данные I | объем | размах | (#1. з) 13 и 14; (13,941,954,928) (13,893,906,880) (14,892,906,878) (#2, 5) 15 -19: (17,813,830,796) (19,930,949,911) (15,904,919,889) (18,915,933,897) (19,954,973,935) (#3,10) 20- 28: (20,948,968,928) (26,907,933,881) (26,985,1011,959) (20,938,958,918) (28,720,748,692) (24,892,916,868) (25,947,972,922) (27,927,954,900) (27,648,675, 621) (28,902,930,874) (#4,17) 29 - 45 (39,920,959,881) (33,908,941,875) (33,944,977,911) (32,933,965,901) (41,894,935,853) (31,947,978,916) (38,978,1016,940) (44,872,916,828) (34,931,965,897) (39,919,958,880) (39,886,925,847) (41,970,1011,929) (42,964,1006,922) (31,929,960,898) (42,966,1008,924) (29.971,1000,942) (45,916,961,871) (#5,19) 47 - 67: (65,942,1007,879) (52,884,936,832) (61,875,936,814) (62,848,910,786) (62,899,961,837) (61,912,973,851) (54,974,1028,920) (55,959,1011,904) (55,944,999,889) (47,914,961,867) (51,937,988,886) (65,931,996,866) (48,917,965,869) (61,856,917,795) (59,808,867,749) (65,754,819,689) (58,947,1005,889) (65,918,983,853) (67,977,1044,910) (#6,17) 68 - 99: (83,937,1020,854) (96,903,999,807) (68,950,1018,882) (72,932,1004,860) (71,977,1048,906) (85,924,1009,839) (71,956,1027,885) (70,933,1003,863) (78,933,1011,855) (99,895,994,796) (93,986,1079,893) (87,892,979,805) (73,954,1027,881) (82,935,1017, 853) (75,894,969,819) (74,940,1014, 866) (90,933,1023,843)
474 Глава 14 Иллюстрация 2 (продол?: ение) (#7, 9) 101 - 133: {#8, 5) 145-214: (#9, 3) 228 - 238: (107,867,974,760) (107,889, 996,782) (102,883,985,781) (120,812,932,692) (114,902,1016,788) (214,873,1087,659) (189,943,1132,754) (145, 956,1101,811) (231,995,1186,724) (238,713,951,475) (124,876,1000 752) (108,835,943, 727) (101,956,1057, 855) (133,977,1110,844) (179,876,1055,697) (182,859,10/ ,677) (228,746,974,518) Б) МЕДИАНЫ | Исходные медианы для | | ЗП'РРГЗ-сглаженные длн| 1 из сглажеь 1 У 1НЫХ I Слой | X У х + y V - х X V х + у у - X V У + х V - X #1 13 896 906 880 13 893 906 880 893 893 893 #2 18 915 933 897 19 910 928 888 910 909 907 #3 26 917 942 890 27 916 946 888 916 919 915 #4 39 931 965 898 42 917 962 884 917 920 926 Д5 61 917 973 866 60 917 976 869 917 916 929 #6 78 935 1014 855 81 908 980 840 908 909 921 #7 108 883 996 781 119 890 990 778 890 871 897 #8 182 876 1087 697 176 845 990 674 845 814 850 #9 231 746 974 518 321 746 974 518 746 743 749 Примерь 893 = 906 - 13, 893 = 880 + 13, 909 = 928 - 19, 909 = = 888 + 19 В) УПРАЖНЕНИЯ (довольно длинные) 2а) Разбейте данные на слои объемами 5, 9, 17,26, 17,9, 5 и вычислите аналог п. Б. 26) Проделайте то же самое для слоев 9, 9, 9, 9, 16, 9, 9, 9, 9. <0 90%-ная оснащенность автомобилями приходится на очень низкий % перенаселенности; 0/ 0 92—93 %-на я оснащенность автомобилями приходится на -о перенаселенности несколько ниже медианы; 0 падение % оснащенности автомобилями для высокого % *}еРе_ населенности [падение до 75% приходится на участок (слой) с наибол шим % перенаселенности — на 3 из 88 пунктов]. Нам необходимо задать два вопроса: «Почему эти трассы так похожи- и «Почему они вообще разные?». и в На илл. 4 приведены в увеличенном масштабе реальные то и четыре медианные прямые для слоя #8. Медианой по х для эТ1,х аНОй точек был Нью-Ганновер из шт. Нью-Джерси. По у и у—х ‘ еНС, был Браунсвилл, шт. Флорида, по у+х медианой был Белл-1 р шт. Калифорния. (Отметим, что Бристол, шт. Пенсильвания, дЛя луа-Ланикай, шт. Гавайи, не оказываются медианами имен уГВе этих выбранных координат. Однако было бы нетрудно наити
рассмот рение выборок точек с разных сторон 475 3 Иллюстрация 3 главы 14: населенные пункты Срединные трассы для у, у+х и у—х (все по отношению к х), Р построенные в координатах (х, У) (данные на илл. 2) очки с самым высоким процентом перенаселенности: (23,1%, 95,5%) (22,8%, 74,6%) (23,8%, 71,3%) перенаселенности: (6,1%, 87,5%) (6,1%, 85,6%) (5,9%, 80,8%) (6,1%, 91,2%) (5,8%, 94,7%) Б 3 Карсон, Калиф. <Ъп7’Лос'Анджелес> Калиф. оренс-Грехэм, Калиф. Точек ™ у, со «средним» процентом К0НН’ у, *ин» Масс. &аун> Масс. КэстмТ°Н’ Н-’Дж- Мидоу, н.-Й. тОЧкр ^элсд Самым низким процентом перенаселенности: моуэрИМеп^СС- п <1’3%, 94,1%) МаУнт-дХ - Пенс. (1,4%, 89,2%) 1е°анон, Пенс, (1,3%, 89,3%)
476 Глава 14 Иллюстрация 4 главы 14: населенные пункты Реальные точки и различные медианы для слоя # 8 (данные на илл 2) простые координаты, так чтобы любой из этих пунктов оказался ме- дианой.) Хотя нет причин, чтобы три медианные прямые встретились в не- которой точке, не следовало бы удивляться и если бы никакие три ме- дианные прямые не пересеклись. Поэтому точки, которые от этого слоя участвуют в процессе сглаживания, не одни и те же для медиан у, у-\~х и у—х, как это подчеркнуто на илл. 5. Разные точки, но не слишком различающиеся. Из четырех медиан- ных прямых никакие три не пересекаются, но все четыре проходят довольно близко друг от друга. (Действительно, внимательный вз™ на таблицу илл. 2, Б, показывает, что слой #8 был выбран пото b что в наибольшей степени проявляется невозможность пересеч в одной точке медианных прямых.) „а3. Таким образом, у нас нет оснований считать, что «некоторь дичия, но не очень большие, в срединных трассах», которые мь чт0 видели, есть что-то необычное. Это для нас удача, ибо это означ нам, вероятно, удастся ограничиться показом только О срединной трассы; некоторого начального разбиения. Если бы выбор трассовой координаты в зависимости от MbJ по которой нарезаются слои, был действительно сущест с’лйпЛ{0> должны были бы показать также, как его осуществлять, а э усложнило бы картину.
Рассмотрение выборок точек с разных сторон 477 Иллюстрация 5 главы 14: населенные пункты Центральная часть илл. 4 с тремя различными сводками (точки пересечения) ОБЗОРНЫЕ ВОПРОСЫ Может ли одно облако точек иметь несколько срединных трасс? Почему (или почему нет)? Какой пример мы выбрали для иллюстрации поведения различных срединных трасс? Какую переменную мы ис- пользовали для разбиения на слои? Каким образом мы произвели это разбиение? Сколько различных переменных мы испробовали в ка- честве трассовых? Как вели себя эти три трассы? Какие два важных вопроса мы затем поставили? Как мы попытались рассмотреть то, что происходило? Если нарисовать три или более медианных ПРЯМЫХ для некоторого облака точек, то будут ли они всегда (или не будут никогда) иметь общую точку? Почему (или почему нет)? Имеют ли они тенденцию к общей точке? Что могло бы их приблизить к этому? 14В. ОБЪЯСНЕНИЕ & Г1°чему это произошло? Если рассмотреть — или представить се- Ясн~ Участок с несколько большим числом точек, то ситуация станет Л Je- ₽ассмо?Рим слой #5 с 19 точками и следующими буквенно-чис- 1Ми Диаграммами: #19 X- значения MT0 61 С5я 63п 54п 11 >ВЗ 65 51 14 #19 у-значения М10 917 С5п 943 880 63 ВЗ 947 848 99
478 Г лава 14 С-ширина у в 5—7 раз больше, чем у х. Это почти убеждает няп что в том, медиана (у+х) и медиана (z/4-медиана х)—медиана t/4-медиана х будут достаточно близки друг другу по двум причинам: 1) n0D расположения значений у+х будет близок к порядку расположе^ значений 1/+медиана х, 2) значения у+х будут близки к значецННя ^/4-медиана х. ям Аналогичные доводы сохраняются для значений медиана (у—х) и медиана (у—медиана х)=медиана у—медиана х. Чем уже слои, тем меньшее значение имеет, будем ли мы брать У, уЛ-х или у—х относительно х. И чем больше выборка пар (х, у) тем меньшее значение имеет выбор. Некоторые, возможно, хотели бы получить такие выводы непо- средственно, глядя на рисунок. На илл. 6 показано, как сдви- гаются точки в слое, если перемещать их вдоль прямых у—х=сопм (левая полоска) или y+x=const (центральная и правая полоски). В правой полоске показано, как выглядит «значительное» перемещение всего «целиком», которое, однако, еще мало по сравнению с диапазоном значений у в слое. Эта иллюстрация помогает нам также запомнить, что такие сдвиги медиан (когда, например, мы изменяем трассовую координату) могут неравномерно изменяться при переходе от слоя к слою. Поэтому сглаживание будет в значительной мере уменьшать их влияние на окончательные срединные трассы. ИСКРИВЛЕННЫЕ ТРАССЫ Приведенное объяснение показывает, что хорошо бы ввести к динату, которую мы будем делить пополам и для которой трассы ня не являются прямыми линиями. Все, что нам нужно,— это наклоны линий уровня были всюду не очень большими. ^Рр0ВиЯ сами несколько схем, аналогичных илл. 6, используя ЛИНИИ У Р 3. для деления пополам и, кроме того, одно множество линии Д биения на слои и другое — для деления пополам.) аОвоД°в’ Разумеется, эти доводы, как и большинство неточных Д нащеМ могут быть полезны только в ограниченной области. Если быпоСкоДь" примере мы использовали величины р+25 х или у—25 х, т0’ щог-’11’ ку 25 х изменяется во много больших пределах, чем у, бы быть уверены в результатах.
Рассмотрение выборок точек с разных сторон 479 Иллюстрация 6 главы 14: чисто пояснительная Примеры скольжения точек слоя к медиане слоя ОБЗОРНЫЕ ВОПРОСЫ Т/ К Ка °е °®Ъяснение мы рассмотрели? Удовлетворило ли оно нас? ли мест^ РИСУНКУ мы обратились? Что он помог нам увидеть? Имеют Нием коо аналогнчные явления для трасс, которые получаются деле- РДинаты пополам и не являются прямыми? 14Г. ИЗМЕНЕНИЕ КООРДИНАТЫ, ПО КОТОРОЙ НАРЕЗАЮТСЯ СЛОИ ^еперь тР>аНатьХПОСМОТРим. что происходит при изменении «нарезаемой» ^°ВаНИвм»^аК сРавнить «центрирование» по отношению к х с «цен- * по отношению к у? Как сравнить оба этих центрирования
480 Глава 14 Иллюстрация 7 главы 14: населенные пункты Четыре различные срединные трассы по отношению к * v у—х (две «у-ов» и две «х-ов» ) ’ у и с такими возможностями, как центрирование по отношению к х+У и У—пример3 На илл. 7, на четырех отдельных графиках (для нашег° осТей У населенных пунктов), показаны срединные трассы завис! ютСя от у+х, у от х, х от у и х от у—х соответственно. Различия пр' неСеиЫ здесь более разительно, чем сходства. Все четыре графика четЫ- на илл. 8, где уже ясно видна тенденция к совпадению дл и рех срединных трасс около точки с 5—6% перенаселенн 93% оснащенности автомобилями. а мЫ п° Это совпадение, возможно, станет более понятным, к х л У’_ смотрим на илл. 9, на которой показаны медианы все четыре проходят близко от одной и той же точки. точец. & вольно точно совпадает с центром конкретного облак Рассмотрение выборок точек с разных сторон 481 Иллюстрация 8 главы 14: населенные пункты Четыре срединные трассы илл. 7 на одном графике % с автомобилями существует «почти-центр», то нет ничего удивительного в том, что все «срединные трассы» проходят где-то вблизи от него. На илл. 10 приводятся некоторые упражнения. ОБЗОРНЫЕ ВОПРОСЫ заем слот-3 )рСХодит> К0Гда мы заменяем координату, по которей наре- почему нет1-Гг?ЬН° Ли Это влияет на срединную трассу? Почему (или му (или поче КИДЭер ЛИ МЫ совпадения в какой-нибудь точке? Поче- 14Д. ЧТО ВАЖНО? а вида видеть, что для любой заданной точки существует коор- ЧаНек°торых cx-\-dy с и d, не равных одновременно нулю, или, если хотите, xcosO — sin 6
482 Глава 14 Иллюстрация 9 главы 14: населенные пункты Четыре медианы пересекаются почти в одной точке % с автомобилями 7„ перенаселенных ______।_____>- 20 90 80 Иллюстрация 10 главы 14: упражнения Несколько дальнейших упражнений на изменение координаты, по которой нарезаются слои Юа) Данные (Бан. вкл., Жал. губ.) из разд. 8Е нарежьте на слои по 1) Бан. вкл.+ Жал. губ., 2) Бан. вкл.— Жал. губ.; затем для каждого случая найдите сре- динные трассы, производя усреднение той из двух новых координат, по которой не производили нарезание. Постройте их. 10а2) Присоедините к рисунку результаты нарезания на слои Бан. вкл. (илл. 21 гл. 8) и Жал. губ. (данные см. на илл. 20 гл. 8). Насколько они близки? 106) Постройте результаты нарезания на слои данных для Туин-Риверс по Исп. м. и усреднения значений Исп. газ (илл. 9 гл. 8) и нарезания на слои по Исп. газ и усреднения по Исп. эл. Юв) Нарежьте на слои данные Туин-Риверс по каждой из переменных Исп. газ + Исп. эл. и Исп. газ — Исп. эл. и усредните по ней другую. , 1 Обв) Постройте все четыре усреднения на одном чертеже. Насколько они близки Юг) Найдите отдельно медианы Бан. вкл., Жал. губ., Бан. вкл.+Жал. губ-. По- вкл.— Жал. губ. для примера с жалованьем губернаторов (илл. 21 гл- )• стройте четыре прямые. Насколько они близки? е все 10г2) Сделайте то же самое и для значений Бан. вкл. Жал. губ. Построит шесть прямых. Насколько они близки? 5Д.( 10д) Проделайте то же самое для значений Исп. газ, Исп. эл., Исп. газ + Исп. газ — Исп. эл. в примере с Туин-Риверс (илл. 1 гл. 8).
Рассмотрение выборок точек с разных сторон 483 екоторого 0, такая, что соответствующая медиана проходит через дпЯ н„ую точку. (Тот, кто хочет рассмотреть «не совсем простое» до- задаПепьство, может обратиться к разд. 14И.) Не очевидно, что для ^разумно выбранной точки существует срединная трасса, кото- проходит в точности через эту точку; однако ясно, что найдется РаЯ са, которая пройдет вблизи нее. тРарслн мы будем использовать наши первоначальные разбиения на не для определения срединных трасс, а для аппроксимации пря- СЛ°1И то обнаружим тот же самый факт: для заданной точки найдется мЬ1?ое’ семейство первоначальных разрезов, что построенная по нему таКпОксимирующая прямая пройдет вблизи заданной точки. НЕКОТОРЫЕ ВЫВОДЫ Теперь мы узнали, что ф НЕ имеет большого значения, изменяем ли мы трассовую коор- динату — координату, срединную трассу которой мы рассматрива- ем, _ пока 1) сохраняем неизменным первоначальное множество раз- резов и 2) придерживаемся разумных комбинаций координаты, с ко- торой начали; ф действительно имеет ОЧЕНЬ БОЛЬШОЕ значение, какая ко- ордината выбирается в качестве трассовой и какая в качестве нарезае- мой; взяв правильные первоначальные разрезы, мы можем заставить срединную трассу пройти вблизи любой наперед выбранной точки; ф аналогичные результаты справедливы для аппроксимирующих прямых. Отсюда следуют выводы: ф о срединной трассе важно знать, какое семейство первоначаль- ных разрезов к ней приводит. Обычно несущественно, какая коорди- ната являлась трассовой по отношению к существенной нарезаемой координате; п Ф поэтому одновременно с каждой срединной трассой мы должны т.„ТР°ить Достаточное число первоначальных разрезов, чтобы понять, иткУДа она появляется; рующед° вероятности, то же самое верно для любой аппроксими- s'ice ц г,СТат5ая англинская поговорка: «It’s baloney, no matter how you т°Чек >>' ™ теперь мы узнали, что «от того, как вы нарежете облако су ~-’ил°ЖеТ целиком зависеть, какую вы получите срединную трас- • и аппроксимирующую прямую!» 1) 16+ Л,0СЛ-: «Чепуха! Не имеет значения, как именно вы ее нарежете»,
484 Глава 14 ОБЗОРНЫЕ ВОПРОСЫ Можете ли вы для заданного облака точек найти некотооую точку (где-либо на плоскости) — такую, чтобы ни одна медиа°Б^10 прямая не проходила через нее? Почему (или почему нет)? Что вяНная знать о медианной трассе — семейство разрезов на слои или семей^6 разрезов трассовой координаты? Почему? На какое семейство Т1)СТВо таким образом, больше всего опирается срединная трасса? ₽асе« 14Е. СОПОСТАВЛЕНИЕ И СИЛА СВЯЗИ Предположим, что в примере с Туин-Риверс (илл. 1—19 гл. 8) Нам были заданы не 152 пары чисел (Исп. эл., Исп. газ), а только стебли с листьями для каждой переменной. Тогда мы не знали бы об истинной связи между переменными, однако могли бы решить, какая могла су- ществовать наиболее сильная связь в одном из направлений, которая согласовалась бы с этими двумя схемами в виде стебля с листьями: для 152 значений, характеризующих потребление электроэнергии, и для 152 значений, характеризующих расход газа. Ясно, что самые сильные позитивные связи возникают тогда, когда наибольшее потребление электроэнергии совпадает с наибольшим расходом газа, несколько меньший уровень первого совпадает с не- сколько меньшим уровнем второго и т. д., а самый низкий уровень первого совпадает с самым низким уровнем второго. Наоборот, наи- более сильные негативные связи возникают, когда наибольшее потреб- ление электроэнергии совпадает с самым меньшим расходом газа, не- сколько меньший уровень первого совпадает с несколько большим уровнем второго и т. д. до самого низкого уровня первого, который совпадает с наивысшим уровнем второго. Концы соответствующих сре- динных трасс будут расположены настолько высоко и низко, насколь- ко возможно. Нейтральная связь имеется в случае, когда знание множества значений одной величины ничего не раскрывает о другой. 9н%С°°3Тц ветствует горизонтальной срединной трассе, расположенной вбли медианы величины, взятой в качестве отклика. „У Если мы интересуемся тем, сколько связей существует ме 0 двумя величинами, мы можем поставить один из двух совеР^тоя- разных вопросов (см. начало гл. 5 о понятиях «отклика» и «о тельства»): ? О как быстро меняется отклик при изменении обстоятельства^^ этот вопрос следует отвечать, исходя из наклона аппроксимиру^нта прямой, или из (вероятно, изменяющегося) углового коЭ^’\аЛьШе-) срединной трассы, или исходя из схем, которые появятся О сколько имеется возможных связей? (Этот вопрос уж трас* решен с помощью отношения истинной срединной трассы к
Рассмотрение выборок точек с разных сторон 485 торые могли бы возникнуть, если значения переменных задать сам- _____без объединения в пары. Схемы, из которых это видно отдель ПрИведены ниже.) На илЛ. 11 приведены детали расчета. На илл. 12 показана истин- оединная трасса Исп. газ (полученная ЗП-сглаживанием) на фоне наЯ-возможных срединных трасс — наиболее позитивной, нейтраль- ТР®ХН наиболее негативной. На илл. 13 показан такой же чертеж 110И истинной срединной трассы Исп. эл. Чтобы легче было сравнивать ДлЯ ве иллюстрации, мы сохранили на илл. 13 горизонтальное на- селение за Исп. эл., а вертикальное — за Исп. газ, — хотя каза- П^сь бы более естественным поменять их местами, так как теперь мы Иллюстрация 11 главы 14: потребление энергии Некоторые числа для Исп. эл. и Исп. газ, взятых отдельно (на основе илл. 1 гл. 8) А) МЕДИАНЫ СЕГМЕНТОВ, построенных по БУКВЕННЫМ разбиениям: Глубина 1 Обозначение | Исп. ЭЛ. 1 Точка Сегмент Точка Сегмент Значение Медиана I11) (1) 1 89 (424) 1 (2) 1 12 89 108 (388) 2 (3) 2 23 108 119 (778) 3 (5) 3 ЗА 119 134 (832) 5-5 (8) А аБ 134 152л (828) 10 (15) Б 6В 156 170 (766) 19п (29) В ВС 177 п 192 (958) 38 п (58) С СМ 207 235 (922) 76п (57 л) м МС 253 267 п (891) 38л (29) с Св 283п 292 (942)’ 19п в 301 п 10 (15) Б Вб 333 316 (924) (8) Ба 347 (946) 5п (4п) А АЗ 359п 369 (925) 3 (3) 3 32 422 422 (1222) 2 (2) 2 21 429 429 (1002) 1 (1) 1 1 435 435 (860)
486 Глава 14 Иллюстрация 11 (продолжение) I Глубина 1 Обозначение | | Исп. газ 1 Точка Сегмент Точка Сегмент Значение Медиана <’ > 1 (1) 1 1 388 388 (108) 2 (2) 2 12 424 424 (89) (3) 23 530 530 (175) 3 (4л) 3 ЗА 576 597 (198) 5п (8) А аБ 612 658 (211) 10 Б (15) 6В 726 684 (247) 19п (29) В ВС 762 (266) 38л С 789 (57п) сМ 839’ (255) 76п (57 л) м Мс 910 963 ,(263п) 38 п (29) с Св 1016 1@58 (252) 19п в Вб 1068 1096 (272) (15) 10 Б 1144 (8) Ба 1150 (231) 5п (4п) А АЗ 1171 1185 (202) 3 3 1214 (3) 32 1214 (299) 2 (2) 2 21 1222 1222 (422) 1 (1) 1 1 1298 1298 (196) в Значения в скобках — медианы — для другой использованной энергии, но для того же сегмента. Б) УПРАЖНЕНИЯ сгибов 11 а/б) Составьте таблицы типа п. А, но не для медиан, а для верхних/нижиих^ сгиб06 11а2/62) Постройте рисунок, аналогичный илл, 12, для трасс верхних/ни вместо трасс медиан. /нижии* НаЗ/бЗ) Постройте рисунок, аналогичный илл. 13, для трасс верхи сгибов вместо трасс медиан. взаимосбЯЗЬ 11а4/б4) Объясните внутреннюю взаимосвязь полученных результатов их с илл, 12 и 13,
Рассмотрение выборок точек с разных сторон 487 Иллюстрация 12 главы 14: потребление энергии Истинная н три возможные (потенциальные) срединные трассы зависимости Исп. газ от Исп. эл. (из илл. 11) Иллюстрация 13 главы 14: потребление энергии Истинная и три возможные срединные трассы Исп. эл. по отношению к Исп, гаа (осн координат те же, что на нлл. 12)
488 Глава 14 делаем разрезы по переменной Исп. газ, а деление попола переменной Исп. эл. По На обеих иллюстрациях мы видим, что истинная трасса б к наиболее позитивной на крайнем нижнем левом конце, а в оста ЛИЗКа местах она ближе к нейтральной. льных КОЭФФИЦИЕНТЫ ЗАВИСИМОСТИ Далее естественно рассмотреть отношение фактическое значение МИНУС медиана наибольшее полож. значение МИНУС медиана ’ в котором сравнивается фактическая величина с наибольшей возм-эд ной (или, если это отношение отрицательно, то рассматриваем отно" шение фактическое значение МИНУС медиана медиана МИНУС наибольшее отриц. значение’ где фактическая величина сравнивается теперь уже с наименьшей возможной). В точке, где это отношение близко к +1, истинная срединная трасса близка к наибольшей позитивной и поэтому связь строго по- зитивна. Когда отношение близко к —1, связь строго негативна. Если же оно близко к нулю, фактическая трасса близка к медиане и между переменными существует слабая зависимость. Поэтому естест- венно назвать каждое отдельное значение рассматриваемого отноше- ния коэффициентом зависимости, а трассу, отражающую различные значения этого отношения,— трассой зависимости. огт На илл. 14 эти коэффициенты найдены и сглажены с помощью гя • сглаживания. В п. Б даны медианы коэффициентов (были ИСКЛд.че^ез экстремальные значения первых двух строк обеих таблиц п. А) весов и с весами. Видно, что если использовать веса, то видимая оказывается весьма слабой (возможно, нулевой), за исключением • двух первых слоев. На илл. 15 и 16 построены окончательные трассы зависимости, которые помогают ответить на второй из поставленных выше вопр° ВОССТАНОВЛЕННЫЕ ТРАССЫ я В п. В (илл. 14) поясняется восстановление трасс путем У^^ости- сглаженных коэффициентов зависимости на возможные Р*3 Иногда это может быть полезно (см. упр. 14е).
Рассмотрение выборок точек е разных сторон 489 Иллюстрация 14 главы 14: потребление энергии Определение и сглаживание коэффициентов зависимости и восстановление трасс (из илл. 11) А) ВЫЧИСЛЕНИЕ И СГЛАЖИВАНИЕ КОЭФФИЦИЕНТОВ 1 Дпн ИСП. эл. по отношению к Исп, газ । | еначение - медиана | коэффиц. = И СТУ Пот. Слой Потенц. Истинная Исходное ап (веса) 1 -164 -145 .88 .88 (1) 42 -145 -164 1.13 .88 (1) S3 —134 -78 .58 .58 И) ЗА -119 -55 .46 .46 (2) АБ -101 -42 .42 .42 (5) БВ -83 -Б .07 .07 (9) ВС -61(39) 13 - .22(-.33) -.19(-.15) (19) СМ -18(13) 2 -19(-.15) - .19(—.15) (38) мс 13 10п .81 -.03 (38) св 39(-61) -1 - .28(-.О2) .30 (19) ВБ 63 19 .30 .23 (9) БА 94 -22 .23 .23 (5) АЗ 116(—119) -51 -44(-.43) .23 (2) 32 169 46 .27 .27 (1) .21 176 169 .96 .27 (1) 1 182(-164) -57 -31 (-.35) .27 (1) I Для Исп. газ по отношению к Исп. зп. 1 1 1 I I I . значение — медиана | | коэффиц. = И ст./Пот. Слой Потенц. Истинная Исходное ЗП (веса) 1 -522 -486 .93 .93 (1) 12 -486 -522 1.07 .93 (1) 23 -380 -132 .35 .35 (1) ЗА -334 -78 .23 .31 (3) БВ ВС -298 -82 .28 •31 (4) -226 -144 .64 .28 (10) -148(148) 48 —.32(—.32) ~.17(-.23) (19) см -71(53) 12 —,17(-.23) —,17(-.23) (38) 53(-153) -19 -Зб(-.Зб) —.17(-.23) (37) 148 32 .22 .08 (11) еа 186 14 .08 .08 (Ю) 240 36 .15 .15 (5) 32 275 15 .05 .15 (2) 21 304 312 1.03 .29 (1) 1 312 92 29 29 (1) 388(-522) -50 -13Ы0) 29 (1> примеры; -164 = : 89-253; -145 = -- 108 - 253; .88 = (-145)/( -164); ~ - 910-' -486 = 424 - 910: ; .93 = (-486)/(- -522); юв- 253; -164 = 89 - 253; качения в скобках получены 1.13 =(-164)/(—145). из противоположного слоя
490 Глава 14 Иллюстрация 14 (продолжение) Б) МЕДИАНЫ КОЭФФИЦИЕНТОВ — опущены первые две строки таблиц Коэффициент для Исп. эл. (сглаженный) Коэффиц0ент Для Исгр газ (сглаженнЬ1й) Исходный .23 Взвешенный —. 02 .22 Л7 В) ВОССТАНОВЛЕННЫЕ ТРАССЫ Исп. эл. по отнош. к Исп. газ I I Исп. газ. п° отнош. к Исп. эл. Слой сглаж. знач. медиана’ сглаж. знач. медиана Значение зосстан. Коэфф. Потенц, Восстан. 'Значение1 восстан. Коэфф. Потенц. Восстан. 1 .88 -164 -144 109 .93 -522 -485 425 12 .88 -145 -128 125 .93 -486 -452 458 23 .58 -134 -78 175 .35 -380 -133 777 . ЗА .46 -119 -55 198 .31 -334 -104 806 . АБ. .42 -101 -42 211 .31 -298 -92 818 ЕВ .07 -83 -6 247- .28 -226 -63 847 ВС -.15 (39) -6 247 -.17 -148 25 935 СМ -.15 (13) 0 253 -.17 -71 12 922 мс -.03 (13) 0 253 -.17 53 -9 901 св .23 39 9 262 .08 148 12 922 ВБ .23 63 14 267 .08 186 15 925 БА .23 94 22 275 .15 240 36 946 АЗ .23 116 27 280 .15 275 41 951 32 .27 169 46 299 .29 304 88 998 21. .27 176 48 301 .29 312 90 1000 1 .27 182 49 302 .29 388 113- 1023 Г) УПРАЖНЕНИЯ 14а7б/в/г) Проделайте вычисления, аналогичные п. А, Б. В, для данных упр, 21а/7 г соответственно гл. 8. 14а 2/б2/в2/г2) Постройте для этих данных график, каК на илл. 15. 14аЗ/бЗ/вЗ/гЗ) Постройте для этих данных график, яак на илл. 16. п03й. 14д) Постройте графики двух восстановленных в п. В трасс на фоне наио тивной и наиболее негативной трасс. пения коэф" 14е) Сгладьте восстановленные трассы и затем повторите процессы на р„ссмотрите фициентов и сглаживания. Сравните результаты с таблицей п. А. изменения.
Рассмотрение выборок точек с разных сторон 491 Иллюстрация 15 главы 14: потребление анергии Коэффициенты зависимости Исп. газ от Исп. эл. (из илл. 14, ЗП-сглаженные) Коэффициент зависимости'. л 1,00 0,75 0,50- 0,25- 0,00 - '0/5- Кеп.эл, i I_________i________i j. 100 200 300 400 Иллюстрация 16 главы 14: потребление энергии Коэффициенты зависимости Исп. эл. от Исп. газ (из илл. 14) Коэффициент зависимости м 1,00 - 0,75 - 0,50 - 0/5- 0,00 - -0/5 - Исп. эй. _!-------1--------1------->. 1QQ 200 300
492 Глава 14 КОММЕНТАРИЙ Если бы еще в разд. 14Г мы не поняли, как велико влияние bmr нарезаемой на слои координаты и на срединные трассы, и на аппло*^3 мирующие прямые, то должны были бы здесь обратить вниманиеСИ" разницу между усреднением у относительно х и усреднением х отно тельноу. Однако это утверждение так важно, что его все равно следу*1' подчеркнуть. у т В большинстве случаев мы ожидаем, что концы истинной срединной трассы окажутся «где-то между» — или между наибольшей позитивной трас- сой и горизонтальной медианой, ИЛИ между горизонтальной медианой и наибольшей негативной трассой. Аналогичным образом мы ожидаем что другая истинная срединная трасса, полученная с помощью перестановки переменных, также лежит «где- то между», но не ТАМ ЖЕ. Если мы сохраним оси, как на илл. 13, то можем ожидать, что она окажется или между наибольшей позитив- ной трассой и вертикальной медианой, или между вертикальной медианой и наибольшей негативной трассой. Таким образом, мы ожидаем, что две срединные трассы будут иметь разные наклоны, причем первая — меньший, чем наклон наибольшей возможной позитивной трассы, а вторая — больший, чем у наиболь- шей возможной негативной трассы. Находим ли мы аппроксимацию с помощью прямой или сглаживаем срединные трассы, мы всегда ждем, что получатся два различных наклона. Если мы имеем дело с парами (данные А, данные В), то надо ожидать ДВА наклона: О один для данных А по отношению к данным В; ф другой для данных В по отношению к данным А. ОБЗОРНЫЕ ВОПРОСЫ Что можно сделать со значениями переменных х и у, если мЫ знаем, какое значение х какому у соответствует? Что значит сопоС]1Ь[Х ление? Что мы должны знать? Что мы делаем? Сколько возмоЖ , срединных трасс мы находим? Каковы они? Можем ли мы их „И<^Ь1СЛ зовать как фон для сравнения? Почему (или почему нет)? Какой са может иметь вопрос: «Сколько существует связей»? Какие два ^hiim мы выделили? Чем они различаются? Имели ли мы уже дело с йВ. из вопросов? Почему (или почему нет)? Можем ли мы сравнить ^[ЛЙ ные связи в возможными графически или численно? Какое чис к£)Эф- числа) может быть частично заменителем этих связей? Что та п£)Чему фициент зависимости? Может ли он быть больше 1? Почему (иЛ
Рассмотрение выборок точек с разных сторон 493 .? деньте —1? Почему (или почему нет)? По отношению к какой 11 еменной обычно строятся коэффициенты зависимости? Как можно реР бы проинтерпретировать коэффициенты зависимости, равные +0,82, —0,05, +0,32? Как ведут себя коэффициенты зависи- " ’ и в нашем примере? Что такое восстановленная трасса? Ожидаем *10 мы, что результаты «центрирования у по отношению к х» и «центри- лИвания х по отношению к г/» окажутся похожими? Почему (или почему ет)? Могут ли эти две срединные трассы когда-либо пересечься? Поче- % /иЛИ почему нет)? Где, по нашему предположению, могут находить- ся концы срединных трасс? Что если вместо прямой, аппроксимирую- щей зависимость «у от х», мы возьмем прямую, аппроксимирующую зависимость «х от i/»? Будут ли они согласованы друг с другом? Почему (или почему нет)? Могут ли они быть параллельны? Почему (или по- чему нет)? Пересекаются ли они? Почему (или почему нет)? 14Ж. ЧЕГО МЫ ДОСТИГЛИ? В этой главе мы рассматривали произвольную выборку пар (х, у) о двух или более точек зрения — изменяя или нарезаемую координату, или трассовую координату, что приводило нас к срединной трассе, или меняя местами х и у в аппроксимации прямыми. Кроме того, мы сравнивали срединные трассы с тем, что можно было получить из ис- тинных значений к и у, взятых по отдельности. Теперь мы можем: О утверждать, что срединные трассы в достаточной степени зави- сят от того, какие разрезы были использованы для разбиения на слои; 0 связывать в пары значения х и у, находя наиболее позитивные и наиболее негативные связи, которые могли бы иметь место для задан- ных значений х и у; О оценивать величину реально имеющейся связи путем сравнения ее с этими экстремальными значениями графически или численно. Теперь мы яснее понимаем: 0 какой должна быть координата; V чего следует ожидать, когда сохраняется нарезаемая перемен- ая и меняется трассовая; у чего следует ожидать в другом случае; вис^ почемУ нарезаемая переменная является БОЛЕЕ важной неза- пРямь° °Т Т0Г0, нах°Дим ли мы срединные трассы или аппроксимируем у» Р что пРямые при «аппроксимации у по х» и «аппроксимации х по Должны пересекаться и часто будут совершенно различными; У По ЧТ° Т0 же GaMoe относится к трассам, получаемым «усреднением и «усреднением х по у».
494 Глава 14 14И. ВЕЗДЕСУЩИЕ МЕДИАНЫ (ФАКУЛЬТАТИВНО) Медианы ведут себя несколько по-разному для выборок, состоя! из нечетного и четного числа точек. Рассмотрим эти случаи по отде * ности. ь' НЕЧЕТНОЕ ЧИСЛО ТОЧЕК Предположим, что мы взяли некоторую произвольную точк (хпр, Упр) и выборку из п точек (хь ^), (х2, у2), .... (х„, уп), где нечетное число. Можно ли показать, что существует координата про стого вида z=cx+dy, где с и d не могут быть одновременно равны нулю и медиана проходит через точку (хпр, £/пр)? Отметим прежде всего, что задача зависит ТОЛЬКО от направ- лений из точки (хпр, упр) на точки (хг, yt). Ибо, будет ли z=cx„p+<tyn медианой нечетного числа точек или нет, зависит только от того, с ка- кой стороны от этой прямой, проходящей через точку (xnp, z/np), лежат различные точки. Поэтому мы можем начертить любую окружность с центром в точке (хпр, z/np) и спроектировать п точек на эту окруж- ность. Это приводит нас к простой на вид задаче. На окружности заданы п точек. Существует ли диаметр, делящий это множество точек пополам? С задачей легко справиться, если рассматривать направленные диа- метры, диаметры с .ориентацией (со стрелкой), т. е. с указанием левой и правой сторон. Как только мы зададим ориентацию, для каждого диаметра можно будет выписать функцию: /число точек) расхождение^ ( МИНУС \ слева / Легко видеть, что эта величина обладает рядом свойств, а именно. О если мы повернем такой диаметр на 180°, то новое расхождение будет равно старому с обратным знаком (мы поменяем местами левую и правую стороны!); <5 если мы будем непрерывно поворачивать диаметр, то расхож ние не изменится, пока хотя бы один конец диаметра не попадет одну из п точек; к0. расхождение постоянно не менее чем в п интервалах, кони горых являются точками «изменения расхождения» и совпадай» мй заданными точками или являются диаметрально противополо ф если расхождение меняет знак при переходе через н еНие направление — некоторую точку изменения, — то это наПРвацного и есть медиана [число точек (хг, yi) строго слева от ориентир число точек справа
Рассмотрение выборок точек с разных сторон 495 направлении диаметра меньше, чем для соседнего интервала и, в эТ° вательно, строго меньше, чем п/2; то же самое справедливо и для сЛеДой стороны, поэтому число точек «слева и на» диаметре должно пРаВ -^/2; то же самое справедливо и для «справа и на», и утвержде- ние доказано]; ни л сегмент, на котором расхождение постоянно, не может иметь евого расхождения. (Никакое направление на таком сегменте НЕ н^ЛхОдит ни через одну из п точек. Раз число точек нечетно, то и рас- хождение должно быть нечетным.) Этих фактов достаточно, чтобы разобраться в задаче. Имеются гменты, где расхождение постоянно. Ни на одном из них оно не явно нулю. Для каждого сегмента существует диаметрально противо- положный сегмент, и на них расхождения отличаются знаком. Где-то ПЛЮС-сегмент должен соприкоснуться с МИНУС-сегментом. Их об- щая точка и задает направление, которое будет медианой. ЧЕТНОЕ ЧИСЛО ТОЧЕК Случай четного числа точек несколько более труден и остается чи- тателю в качестве задачи. (Замечание. Не пытайтесь сдвигать точки на окружность. Определите для каждого направления, задаваемого диа- метром, (расстояние до диа-\ /расстояние до диа-\ метра от ближай- 1 МИНУС! метра от ближай- ]. шей точки слева / \шей точки справа/ На этом пути вы МОЖЕТЕ снова показать, что существует медиана, проходящая через произвольную точку.) ОБЗОРНЫЕ ВОПРОСЫ Какой вопрос нас интересовал? К чему мы смогли его свести? К какому виду? К рассмотрению какой величины мы далее обратились? Какими она обладала свойствами? Как они все вместе позволили ре- шить вопрос?
Глава 15 ДОЛИ ПОДСЧЕТОВ УКАЗАТЕЛЬ К ГЛАВЕ 15 Обзорные вопросы 497 15А. Сдвинутые подсчеты и доли подсчетов 498 расщепленные подсчеты 498 с.р.-подсчеты 498 с.р.-доли 498 Обзорные вопросы 600 15Б. Три шкалы для долей подсчетов 500 Обзорные вопросы 504 15В. Ускоренные вычисления 504 Обзорные вопросы 510 15Г. Примеры, где особенно важен выбор преобразо- вания 510 Таблица мнений 2x2 510 Двумерные таблицы подсчетов 512 Обзорные вопросы 514 15Д. Двойная свертка — случай таблицы 2Х.2 516 двойной св-логарифм 518 дсв-логарифм (дев-log) 518 Обзорные вопросы 520 15Е. Двойная свертка — таблицы большего разме- ра 520 Обзорные вопросы 523 15Ж- Вычисление св-корней и св-логарифмов с по- мощью логарифмической линейки (факультатив- но) 523 Обзорные вопросы 525 15И. Чего мы достигли? 525 доля 17 голубых обмзцовДмп1'г,1/пОДСЧеТОВ' Например, относительная ставляет 17/23, а 244 ам“пикя„ с^еди ^3 различных образцов со- ход которых (за 1958 г 1 пп нских налогоплательщика, годовой де ?о^/?^5132 от обХ ?ИсХТеТ М,,ЛЛИОН ^тавляют 59 085 182. Во втором ппим₽п« 1 ПЛатель^ИК0В в 1958 г • РавТ Р ре фигурирует пороговое значение (мы
Доли подсчетов 497 коротко называть его порогом), которое отделяет значения «ни- буде" наШем примере — до миллиона долларов) от «выше» (в нашем Же» 'J*___от миллиона и одного доллара и более). Доли подсчетов пРйМсТавляют интерес как сами по себе — в ряде случаев необходимо преДС знаЧения этих величин, сравнивать их или проводить какой-либо ,1МеТнализ, — так и в качестве средства для описания распределения иХ»3 совокупности данных, с которой они связаны. т01!по многих случаях естественным образом возникает последова- ьНость долей подсчетов, связанных с одной и той же совокупностью ТеЛнНых. Например, наряду с доходами, превышающими миллион ^лларов, мы можем рассматривать также относительные доли дохо- де- а) свыше двух миллионов, б) свыше полмиллиона, в) превышаю- щих пороги из любого сколь угодно длинного списка. Аналогичным путем можно поступить и в примере с образцами мрамора: можно выбрать последовательность порогов-признаков: голубоватые, голу- бые, ярко-голубые, «выше» которых попадает соответственно 20, 17 и 13 образцов мрамора. Вообще доли подсчетов удобно рассматривать как элементы неко- торой последовательности таких долей, определяемой последователь- ностью порогов. Например, если нам известны доли доходов за 1958 г., превышающих 24 разумно выбранных порога, то мы располагаем зна- чительной информацией о распределении доходов среди американских налогоплател ыциков. Независимо от того, рассматриваем ли мы доли подсчетов сами по себе или как элементы последовательностей таких долей, следует быть готовым к столкновению с двумя трудностями: 0 могут встретиться наблюдения, В ТОЧНОСТИ равные порого- вому значению; 0 если выше порога не наблюдается ничего, это может быть про- сто «игрой случая» (что и обнаружится при повторных наблюдениях), так что приписывать «нуль» соответствующей доле в такой ситуации — слишком грубое приближение. Наряду с этим слеДует отметить, что целесообразно обрабатывать «вн^аК0ВЬ1М of4)a3OM Доли подсчетов, соответствующие попаданию аорога)” И <<вне>> некоторого интервала (чаще всего «выше» и «ниже» н*се вказанное распространяется также на случай, когда наблюде- и пр'Офф.Вваются сРазУ по ДВУМ различным признакам, например пол ОБЗОРНЫЕ ВОПРОСЫ Что такИх такое доли подсчетов? Как возникают последовательности Бь1чИсле е^? С какими двумя трудностями мы сталкиваемся при их Г1°ДсчеТоНии'> Имеет ли смысл различным образом обрабатывать доли сРач /’ ПопадаюЩ,1х «внутрь» и «вне»? Как поступать при разбие- У по двум признакам?
498 Глава 15 15А. СДВИНУТЫЕ ПОДСЧЕТЫ И ДОЛИ ПОДСЧЕТОВ Пусть мы имеем 27 наблюдений. Какие доли подсчетов мы дОп приписать: >KbIbi 0 порогу, равному наблюдению, следующему по величине наименьшим? За <> пороговому значению, ниже которого два наблюдения и нет одного равного ему? О столь малому порогу, что НЕТ наблюдений ниже него? ни С подобными проблемами мы неизбежно будем сталкиваться. В статистике принято считать, что наблюдения, в точности равны порогу, расположены наполовину ниже, а наполовину выше его мь будем следовать этой традиции, т. е. будем считать, что «два наблюде- ния ниже и три равны» представляют собой 2-Р/г(3)=3,5 наблюдения «ниже порога». Такие дробные величины мы будем называть расщепленными подсчетами, употребляя это словосочетание как специальный термин. Тот факт, что ситуацию «ниже ничего нет» нецелесообразно трак- товать как подсчет, равный нулю, по-видимому, менее очевиден, но весьма важен. Поэтому в данном случае существуют различные реко- мендации, одни более, другие менее оправданные. Та, которую мы предлагаем, имеет свое обоснование, но, поскольку: а) его нельзя считать непосредственным, б) для его объяснения пришлось бы при- влечь более сложные понятия, мы не будем здесь его приводить. Наша рекомендация — прибавлять ко всем расщепленным отсчетам 1/в, тем самым как бы сдвигая их. Нуль же мы будем использовать только в том случае, когда порог столь низок, что НЕ МОЖЕТ быть наблюдений ниже его (или хотя бы одного, равного ему). Таким образом, сдвинуть расщепленный подсчет — это значит использовать величину (число наблюдений ниже порога) ПЛЮС (1/2 числа наблюдений, равных порогу) ПЛЮС 1/6 или (число наблюдений выше порога) ПЛЮС (1/2 числа наблюдений, равных порогу) ПЛЮС 1/6. Для этих величин будем применять сокращенные обозначени с.р.н-подсчет и с.р.в-подсчет (или с.р.-подсчет). С.Р.-ДОЛИ Заметим, что независимо от выбора порога с.р.н-подсчет ПЛЮС с.р.в-подсчет = общее число наблюдения ПЛЮС 1/3.
Доли подсчетов 499 Таким образом, если ввести определение с. р.н-доля ------------с- Р-н-подсчет__________ г с.р.н-подсчет ПЛЮС с.р.в-подсчет ’ получим с. р. н-доля = —---------с- Р- н-подсчет общее число наблюдений ПЛЮС 1/з’ или, если подставить сюда выражение для с.р.н-подсчета, С р. Н-ДОЛЯ == число наблюдений ниже порога общее число наблюдений ПЛЮС 1/з‘ ПЛЮС числа наблюдений, равных порогу, ПЛЮС 1/6 общее число наблюдений ПЛЮС 1/3 На илл. 1 приведен ряд примеров и упражнений, касающихся ис- пользования с.р.-долей. В дальнейшем, употребляя слово «доля», мы всегда будем иметь в виду с.р.-доли. (Конечно, если число наблю- дений выше или ниже порога достаточно велико, можно не прибегать к сдвигу подсчетов. Точно так же, если нет наблюдений, в точности равных порогу, нет необходимости расщеплять подсчеты.) Иллюстрация 1 главы 15: примеры и упражнения Использование с.р.-долей А) ПРИМЕРЫ | Наблюдения | 0,1,2,2,3,7 0,1,2,2,3,7 0,1,2,2,3,7 0,1,2,2,3,7 -123, .456, .654, .789 -123, .456, .654, .789 •123, .456, .654, .789 Б) УПРАЖНЕНИЯ I- # I ниже | Порог | I порога| V2 2 3 4 .2 .5 .654 2 2 4 5 1 2 2 Наблюдения , # I равно порогу 0 2 1 0 0 0 1 21 з1 51 11 21 21 Общее# б; 61 61 41 41 41 .342 .500 .737. .816 .269 .500 .615 1а) 16) 1в) Порог 29 9 34 5 204 с.р.-доли ? ? ? ? ? 13,27,29,35,47,53 7,9,9,9,11,15,25 13,27,29,35,47,53 1г) 7,9,9,9,11,15,25 1д) 13,27,29,35,47,53 набДИ 323 землетрясений 3 по силе выше данного порога. РрилоГ^ равной рдений «правее порога», если нет ни одного землетрясения с силон, равной !и) То ^е* что в 1е, но два наблюдения равны порогу. к) То что в 'е> но только одно выше порога. е> что в 1е, но одно выше порога и два равны пор у.
500 Глава 15 Доли подсчетов 501 ОБЗОРНЫЕ ВОПРОСЫ Каков простейший способ подсчета упорядоченных наблюдение Пустых промежутков между ними? Почем] этот способ нельзя счита достаточно хорошим? Какой другой способ можно предложить? Q кТь кими трудностями мы сталкиваемся в обоих случаях? Как их преоЛ* леть? Что такое е.р.-подсчет, е.р.-доля? до" 15Б. ТРИ ШКАЛЫ ДЛЯ ДОЛЕЙ ПОДСЧЕТОВ Вычислив е.р.-доли, желательно отобразить их на какой-нибудь шкале. При этом удобно (и важно), чтобы наблюдения, попадающие «внутрь» и «вне» интервала, изображались симметрично. Последнее, по существу, означает, что О выбранная шкала должна содержать значения от 0 до 50%; 0 данные должны располагаться на ней таким образом, чтобы зна- чениям f и 1—/ рассматриваемых долей соответствовали точки, одина- ковые по величине и противоположные по знаку. Отсюда вытекает, что значению /=1/2 должен соответствовать нуль нашей шкалы. Существует целый ряд шкал, которые не только сов- падают при f—\J2, но и очень мало отличаются друг от друга при зна- чениях f в окрестности 1/2. Выбор какой-либо конкретной шкалы есть только вопрос удобства. Еще раз подчеркнем, что различные отобра- жения (преобразования) долей, отвечающие перечисленным в™е тре- бованиям симметрии, очень близки «в середине». Поэтому выбор лю- бого из них не имеет никакого преимущества перед другими, если вс наблюдаемые доли сосредоточены в окрестности 1/2. (Если это а статочно ясно, обратитесь к илл. 2, где представлены три разл1 преобразования долей подсчетов. Из иллюстрации видно, ч1 три преобразования дают близкие значения в окрестности ияХ же время существенно различаются при больших и малых долей.) о -гя к уж важно. С другой стороны, такое совпадение шкал в центре не т у_данное Действительно, на практике все равно, что анализировать рада множество чисел или множество, каждое число которого ' таты больше, чем у данного. После того, как анализ выполнен, Правил0 в любом случае могут быть приведены к одному и тому же,' б зоВания самому понятному, масштабу. Такие элементарные пр ? поистине тривиальны и ничего нам не дают. в качеств Имея в виду сказанное выше, что можно предло чеТОв? ПР простейшего и эффективного преобразования долей е __ это в стейший способ преобразовать значение в ну числить «свертку» tf)-(i-Z), едставляющую собой разность, между долями «внутри» и «вне». ₽гли доли даны в процентах, мы получаем «ввернутые проценты», или .„.проценты». Другой естественный термин для этого выражения — дернутые доли» («св-доли»), <<С Ясно, что если «свернуть» любую функцию от долей путем вычнта- йЯ ее значения, соответствующего доли наблюдений, которые «вне», '3 значения, соответствующего доли наблюдений, попадающих «внутрь», то /=50% будет соответствовать нулю, а значениям /=63% ч f=37% — симметричные относительно нуля числа (независимо от того, какую мы взяли функцию). Вообще любое преобразование, обладающее симметрией^ относительно /=50%, можно представить о виде свертки некоторой функции от /. (Как эго доказать?) Обычно достаточно хорошие результаты дают свертки самых про- стых функций от долей, хотя применяются (и, наверное, впредь будут применяться) и более сложные преобразования. Предыдущий опыт поиска эффективных способов преобразования данных подсказывает нам, что естественно начать с квадратного корня и логарифма. Можно использовать квадратный корень или логарифм от величины, крат- ной /. При этом совпадение в окрестности /=50% получится, если сво- рачивать функции 1^2/ и 1й2 In /=1,15 1g / (здесь In означает натураль- ный, или неперов, логарифм — логарифм по основанию е=2,71828. . .). Степень совпадения преобразований видна из илл. 2. Необходимо иметь наименования для этих преобразований_________ формальные термины и сокращенные (рабочие) обозначения. Термины— свернутый корень и свернутый логарифм — формально выражают суть операций. Естественные сокращения для них — «св-корень» и «св-логарифм». Таким образом, вместо преобразования нли свертка=/—(1—/) “-процент = (% наблюдений внутри) — (% наблюдений вне) мы предлагаем в ряде случаев использовать св-корень = К2/—1/2(1 — /), св-логарифм = 1 In / —L In (1 -/) = In Kf-ln /Т=/ = = l,151g/- 1,15 lg(l _/) = ],151g(//(l-/)). ^*3 ЦДЛ о М°В, вы'чн пРедстаВлены значения св-долей, св-корней и св-логариф- °.5% Для п еННЫе G шагом 1% в интервале от 10 до 90% и с шагом ^ена таблиг°ЛеИ’ меньоших Ю и больших 90%. Дополнительно приве- п^том 0 1' ЗНДЧенИЙ св'логаРиФмов> больших 99% и меньших 1%, РеДставле’Ни° ^™етим’ Что ПРИ использованной в таблице точности 3?СТаточной1 Я Чисел ДВУМЯ Десятичными знаками (практически всегда П.Д°62% ,/„ЕСе ТРИ преобразования долей совпадают в интервале от пд тлича1°тся не более чем на 0,02 в интервале от 30 до 70%. я этого и были выбраны коэффициенты ]/2 при квадратном
502 Глава 15 Иллюстрация 2 главы 15: справочная таблица Свернутые доли, корни и логарифмы — альтернативные преобразования долей подсчетов (знак результата указан в начале столбца процентов) А) ОСНОВНАЯ ТАБЛИЦА Сверт- ев- кв-М Сверт- . Св- ., + 1 ка | корень] м + |_KaJ |корень| |ce-log| 50% .00 .00 .00 50% 85% .70 .76 .87 15% 51 .02 .02 .02 49 86 .72 .78 .91 14 52 .04 .04 .04 48 87 .74 .81 .95 13 53 .06 .06 .06 47 88 .76 .84 1.00 12 54 .08 .08 .08 46 89 .78 .87 1.05 11 55% .10 .10 .10 45% 90.0% .80 .89 1.10 100% 56 .12 .12 .12 44 90.5 .81 .91 1.13 9,5* 57 .14 .14 .14 43 91 .82 .92 1.16 9 58 .16 .16 .16 42 91.5 .83 .94 1.19 8.5 59 .18 .18 .18 41 92 .84 .96 1.22 8 60% .20 .20 .20 40% 92.5% .85 .97 1.26 7.5% 61 .22. .22 .22 39 93 .86 .99 1.29 7 * 62 .24 .24 .24 38 - 93.5 .87 1.01 1.33 6.5 63 .26 .26 .27 37 94 .88 1.02 1.37 6 64 .28 .28 .29 36 94.5 .89 1.04 1.42 5.5 65% .30 .30 .31 35% 95.0% .90 1.06 1.47 5.0% 66 .32 .32- .33 34 95.5 .91 1.08 1.53 4.5 67 .34 .35 .35 33 96 .92 1.10. 1.59 4 68 .36 .37 .38 32 96.5 .93 1.12 1.65 3.5 69 .38 .39 .40 31 97 .94 1.15 1.74 3 70% .40- .41 .42 30% 972% .94 1.16 1.77 28% 71 .42 .43 .45 29 97.4 .95 1.17 1.81 2.6 72 .44 .45 .47 28 97.6 .95 1.18 1.85 2.4 73 .46 .47 .50 27 97.8 .96 1.19 1.90 22 74 .48 .50 .52 28 98.0 .96 1.20 1.95 20 75% .50 .52 .55 25% 982% .96 1.21 2.00 18% 1.6 1.4 42 76 77 ’.52 .54 .54 .56 .58 .60 24 23 98.4 98.6 .97 .97 1.22 1.24 2.06 2.13 78 .56 .59 .63 22 98.8 .98 1.25 2.21 1.0 79 .58 .61 .66 21 99.0 .98 1.27 2.30 80% .60 .63 .69 20% 992% .99 1.28 2.41 2.55 2.76 3.11 08% 08 81 .62 .66 .72 19 99.4 .99 1.30 0-4 82 .64 .68 .76 18 99.6 .99 1.32 02 83 .66 .71 \79 17 99.8 1.00 1.35 .0.0 84 .68 .73 .83 •16 100.0% 1.00- 1.41
Доли подсчетов 503 Иллюстрация 2 (продолжение) ДОПОЛНИТЕЛЬНАЯ ТАБЛИЦА для св-логарифмов долей, меньших 1%. ,, больших 99/о + |cB-log| — |св4°6| — 99.0% 2.30 1.0% 99.80% 3.11 .20% .1 2.35 .9 .82 3.16 .18 .2 2.41 .8 .84 3.22 .16 .3 2.48 .7 .86 3.28 .14 .4 2.55 .6 .88 3.36 .12 99.50 2.65 .50 99.90 3.45 .10 .52 2.67 .48 .91 3.51 .09 .54 2.69 .46 .92 3.57 .08 .56 2.71 .44 .93 3.63 .07 .58 2.73 .42 .94 3.71 .06 99.60 2.76 .40 99.95 3.80 .05 .62 2.78 .38 .96 3.91 .04 .64 2.81 .36 .97 4.06 .03 .66 2.84 .34 .98 4.26 .02 .68 2.87 .32 .99 4.61 .01 99.70 .72 2.90 2.94 .30 .2S Примеры .74 .76 2.97 3.01 .26 .24 99.29% дают 2.47 .78 3.06 .22 0.37% Дают - 2.80 В) УПРАЖНЕНИЯ 2а) Чему равны св-корень и св-логарифм, соответствующие 87%? 26) Скольким процентам соответствует св-корень, равный 1,00? 2в) Чему равен св-корень, соответствующий св-логарифму, равному —2,48? Скольким.’ процентам соответствует то же значение св-логарифма? Скольким процентам соответствует св-логарифм, равный 4,00? Чему равен- 2 ч ^"К0Рень> соответствующий этому же значению св-логарифма? 2е) П МУ Равны св-корень и св-логарифм, соответствующие 99,975%? 1 Для какого (каких) значения (значений) процентов соответствующие св-корень и св-логарифм отличаются на 0,60? На 3,80? МЛН£ К ПРН логаРиФме в выражениях для св-корня и св-логариф- Указ ЭКИМ °бРазом> за исключением областей ниже 20 и выше 80%, все мереаННЫе пРе°бразования отличаются несущественно (по крайней в пределах указанной точности). нуТь кп°РНИ И св'логарифмы введены с единственной целью — растя- Даиных'ГЦЬ1 шкалы- Если же концы шкалы не используются (там нет (или сь То св"к°рни и св-логарифмы почти не отличаются от сверткл ^“'Процентов). Ль ВсегДа, наряду с таблицей полезно изобразить графически раз- °писанных способах преобразования долей (мы будем коротка
504 Глава 15 И ллюстрация 3 главы 15: графическое сравнение Сравнение шкал для сверток (св-процентов), св-..орней и св-логарифмов определять эти различия как степень «растяжения хвостов»). В данном случае это можно особенно наглядно продемонстрировать, если рас- положить шкалы для св-долей, св-корней и св-логарифмов одну под другой. Илл. 3 дает ясное представление, в какой степени растяги- ваются «хвосты» при переходе от шкалы св-долей к шкале св-корней и шкале св-логарифмов. ОБЗОРНЫЕ ВОПРОСЫ Как следует обрабатывать доли подсчетов, соответствующие по- паданию «внутрь» и «вне», при их преобразованиях? Как сделать это легче всего? Что такое тривиальное преобразование? Какое из преоб- разований представляется наиболее интересным? В чем проявляется соответствие различных преобразований друг другу? Что такое «сверт- ка»? Как рассматриваемые преобразования ведут себя в середине шка- лы (вблизи 50%), на концах шкалы (вблизи 0 и 100%)? Что такое «растяжение хвостов»? Можно ли его представить графически? Что эт напоминает? Преобразуем ли мы с.р.-доли? Как? Что такое св-кор и св-логарифмы? 15В. УСКОРЕННЫЕ ВЫЧИСЛЕНИЯ В большинстве случаев требуется вычислять св-кор ни и св ло рифмы от с.р.-долей, т. е. от выражений вида _______подсчет-}-1/6____ общее число наблюдений 4-1/3 ‘ Естественно, предварительно нужно сделать все возможные зования, чтобы максимально облегчить вычисления. ДлЯ
Доли подсчетов 505 MOB МЫ имеем . ( , подсчет+1/6 1 остаток +1/6 св-лога рифм=-g-ln общее число+1/3 2 П общее число+ 1 /3 = -У In (подсчет + 1/6) — -У In (остаток + 1/6) = = In У подсчет+ 1/6 — In У остаток + 1/6, остаток равен общему числу наблюдений минус подсчет, а второе Земство верно потому, что логарифм отношения равен разности ло- P^]OB и члены ±х/2 In (общее число наблюдений + 1/3) сокраща- Г3 ся На илл. 4 приведена таблица значений функции In Vподсчет+1/6 10 зНачеиий подсчетов в интервале от 0 до 199 с шагом 1 и в интер- вате от 200 до 3090 с шагом 10. (Более детальные таблицы обычно не нужны) Иллюстрации 4 главы 15: справочная таблица Значения выражения In У подсчет + 1/6 для а) целых значений подсчетов в пределах от 0 до 199; б) каждого десятого подсчета в пределах от 200 до 3090; в) подсчетов, больших 3090; г) «полуцелых» подсчетов: целое -(-1/2 < 20 А) ТАБЛИЦА для подсчетов от 0 до 199 (для «полуцелых» подсчетов, меньших 20, см. п.Г) LOJ LU | 2 | ш Ш L6J ш Ш L_sj 00 -.90 .08 .39 .58 .71 .82 .91 .98 1.05 т.п 10 1.16 1.21 1.25 1.29 1.33. 1.36 1.39 1.42 1.45 1.48 20 1.50 1.53 1.55 1.57 1.59 1.61 1.63 1.65 1.67 1.69 30 1.70 1.72 1.74 1.75 1.77 1.78 1.79 1.81 1.82 1.83 40 1.85 1.86 1.87 1.88 1.89 1.91 1.92 1.93 1.94 1.95 50 1.96 1.97 1.98 1.99 2.00 2.01 2.01 2.02 2.03 2.04 60 "*Т А 2.05 2.06 2.06 2.07 2.08 2.09 2.10 2.10 2.11 2.12 /0 Пл 2.13 2.13 2.14 2.15 2.15 2.16 2.17 2.17 2.18 2.19 оО 2.19 2.20 2.20 2.21 2.22 2.22 2.23 2.23 2.24 2.25 90 Юо 2.25 2.26 2.26 2.27 2.27 2.28 2.28 2.29 2.29 2.30 110 2.30 2.31 2.31 2.32 2.32 2.33 2.33 2.34 2.34 2.35 2.35 2.36 2.36 2.36 2.37 2.37 2.38 2.38 2.39 2.39 120 130 2.39 2.40 2.40 2.41 2.41 2.41 2.42 2.42 2.43 2.43 140 2.43 2.44 2.44 2.45 2.45 2.45 2.46 2.46 2.46 2.47 2.47 2.47 2.48 2.48 2.49 2.49 2.49 2.50 2.50 2.50 150 160 2.51 2.51 2.51 2.52 2.52 .2.52 2.53 2.53 2.53 2.53 170 2.54 2.54 2.54 2.55 2.55 2.55 2.56 2.56 2.56 2.57 2.57 2.57 2.57 2.58 2.58 2.58 2.59 2.59 2.59 2.59 18о 2.60 О с4 А 190 2.60 2.60 2.61 2.61 2.61 2.61 2.62 2.61 2.62 2.62 2.63 2.63 2.63 2.63 2.64 2.64 2.64 2.64 2.65
306 Глава 15 Иллюстрация 4 (продолжение) Б) ТАБЛИЦА для подсчетов от 200 до 3090 (брать ближайшее зиМ1,. интерполировать) ,ьиие- Не I 00 I 1 10 I I 20 | [ 30 | 1 40 ] ' 50 J I 60 I I 70 ] |80 | L?oj 200 2.65 "2.67 2.70 2.72 2.74 2.76 2.78 2.80 2.82 2.84 2.98 3.10 300 2.85., 2.87 2.88 2.90 2.91 2.93 2.94 2.96 2.97 400 3.00 3.01 3.02 3.03 3.04 3.05 3.07 3.08 3.09 500 3.11 3.12 3.13 3.14 3.15 3.16 3.16 3.17 3.18 3.19 3.27 3.34 600 3.20 3.21 3.21 3.22 3.23 3.24 3.25 3.25 3.26 700 3.28 3.28 3.29 3.30 3.30 3.31 3.32 3.32 3.33 800 3.34 3.35 3.35 3.36 3.37 3.37 3.38 3.38 3.39 3.40 345 900 3.40 3.41 3.41 3.42 3.42 3.43 3.43 3.44 3.44 1000 3.45 3.46 3.46 3.47 3.47 3.48 3.48 3.49 3.49 3.50 1100 3.50 3.51 3.51 3.52 3.52 3.52 3.53 3.53 3.54 3.54 1200 3.545 3.549 3.553 3.557 3.562 3.566 3.569 3.573 3.577 3.581 1300 3.585 3.589 3.593 3.597 3.600 3.604 3.608 3.611 3.615 3.619 1400 3.622 3.626 3.629 3.633 3.636 3.640 3.643 3.647 3.650 3.653 1500 3.657 3.660 3.663 3.667 3.670 3.673 3.676 3.679 3.683 3.686 1600 3.689 3.692 3.695 3.698 3.701 3.704 3.707 "3.710 3.713 3.716 1700 3.719 3.722 3.725 3.728 3.731 3.734 3.737 3.739 3.742 3.745 1800 3.748 3.751 3.7§3 3.756 3.759 3.762 3.764 3.767 3.770 3.772 1900 3.775 3.777 3.780 3.783 3.785 3.788 3.790 3.793 3.795 3.798 2000 3.800 3.803 3.805 3.808 •3.810 3.813 3.815 3.818 3.820 3.822 2100 3.825 3.827 3.830 3.832 3.834 3.837 3.839 3.841 3.844 3.846 2200 3.848 3.850 3.853 3.855 3.857 3.859 >.862 3.864 3.866 3.868 2300 3.870 3.873 3.875 3.877 3.879 3.8S1 3.883 3.885 3.887 3.890 2400 3.892 3.894 3.896 3.898 3.900 3.902 3.904 3.906 3.908 3.910 2500 3.912 3.914 3.916 3.918 3.920 3.922 3.924 3.926 3.928 3.930 2600 3.932 3.934 3.935 3.937 3.939 3.941 3.943 3.945 3.947 3.949 3.967 3.985 2700 3.9S1 3.952 3.954 3.956 3.958 3.960 3.962 3.963 3.965 2800 3.989 3.970 3.972 3.974 3.976 3.973 3.979 3.981 3.983 2900 3.986 3.988 3.990 3.991 3.993 3.995 3.997 2.998 4.000 ' 4.002 4.018 3000 4.003 4.005 4.007 4.008 .4.010 4.011 4.013 4.015 4.016 В) Для подсчетов свыше 3090 (или) /1 1^) Значение подсчета: Поделить на Посмотр ЭТЬ Прибавить 10 100 1000 Я а таблицу Б 1.151 2.303 3.454 (1.1°/ (2.30) (3-45) ем 1-15. Пример: дано 4567, округляем 457 до 460, находим для него 3,07, прибавлг что дает в результате 4,22. , .ПИТЬСЯ Если требуегся более высокая точность (что бывает очень редко), следует рИфмов, к более подробной таблице логарифмов. Если это таблица натурально таолин нужно вычислять х/2 1п (подсчет-!-1/6); если под руками имеется обычных логарифмов, вычисляйте 1,1513 1g (подсчет+1/6).
Доли подсчетов 507 Иллюстрация 4 (продолжение) ТАБЛИЦА для «полуцелых» подсчетов: целое + 1/2 < 20. (Для подсчетов- *'сдадует использовать интерполяцию таблицы п, А). 20 On In 2п Зп 4п 5п 6п 7п 8п 9п 00 —.20 .26 .49 .65 .77 .87 . 95 1.02 1.08 1.13 10 1.18 1.23 1.27 1.31 1.34 1.38 1.41 1.44 1.46 1.49 гл ПРИМЕРЫ — "остаток4 равен правому подсчету: евый подсчет — 43. остаток = 28; следовательно, CB-log=1.88—1,67=0,21;. левый подсчет = 504, остаток = 13; следовательно, св-log = 3,11—1,29=1,82;. левый подсчет = 1272, остаток = 3057; следовательно, св-log = 3,573—4,013= .=—0,440, левый подсчет = 27, остаток = 1304; следовательно, CB-log=l,65—3,585= =—1,94; левый подсчет = 18 п, остаток = 32п; следовательно, св-log = 1,46—1,74= = —0,28. Заметим, что при использовании таблицы число 504 округлялось до 500, число 1272— ло 1270, 3057— до 3060 и 1304— до 1300. Отметим далее, что в случаях, когда один результат имел три десятичных знака, а второй — два, в разности удерживались только два знака. И наконец, тот факт, что 1304 > 1300, использовался при округле- нии 3,585 в сторону больших значений (до 3,59, а не 3,58), Е) УПРАЖНЕНИЯ 4а) Чему равен In У подсчет +1/6, когда подсчет =7? =77? =7171 46) Чему равны св-логарифмы от е.р.-долей, соответствующих следующим парам подсчетов (ниже, выше): (2, 27); (20, 270); (200, 2700)? Объясните результаты. 4в, Чему равны св-логарифмы для следующих пар подсчетов: (17, 9п); (26п, 203п); (42п, 197п)? _____________ 4г) Какому значению подсчета соответствует величина In У(подсчет +1/6, ближай- шая к 2,68? К*3,566? ____________ 4д) Каким множителем отличаются величины In (подсчет +1/6) и In Уподсчет+1/6? В случае св-корней нет такой простой формулы, однако в большин- стве случаев вычисления можно упростить, используя таблицу вели- чин У расщепленный подсчет + 1/6, приведенную на илл. 5. Дейст- вительно, можно записать св'Корень = j/2f — J/2 (1 --/) = __ -.f 2 левый р-подсчет+1/6 -.f д правый р-подсчет+1/6 г общий подсчет+1/3 V общий подсчет+1/3 __ клевый р-подсчет+1/6—^правый р-подсчет+1/6 ^половина общего подсчета+ 1/6 блюл'П°^Счет 03начает расщепленный подсчет. Если общее число на- Исп<?пНИй (общий подсчет) не меняется, можно избежать деления и льзовать величины V левый р-подсчет+1/6— У правый р-подсчет+ 1/6,
.508 Глава 15 И ^люстрация 5 главы 15: справочная таблица Значения выражения у подсчет +1/6 для а) целых значений подсчетов в пределах от 0 до 199; б) каждого десятого подсчета в пределах от 200 до 3090; в) «полуцелых» подсчетов: целое +1/2 < 20 А) ТАБЛИЦА для ПОДСЧЕТОВ от 0 до 199 (для < 20 см. п. В) «полуцелых» подсчетов I о | I 1 I I 2 I 1 з | 1 4 | 1 5 | I 6 | 1 7 | 1'8 ] [ 9 j 00 .41 1.08 1.47 1.78 2.04 2.27 2.48 2.68 2.86 0' , 10 3.19 3.34 3.49 3.63 3.76 3.89 4.02 4.14 4.26 4.38 20 4.49 4.60 4.71. 4.81" 4.92 5.02 5.12 5.21 5.3Т 5.40 30 5.49 5.58 5.67 5.76 5.85 5.93 6.01 6.10 6.18 6.26 40 6.34 6.42 6.49. 6.57 6.65 6.72 6.79 6.87 6.94 7.01 50 7.08 7.15 7.22 7.29 7.36 7.43 7.49 7.56 7.63 7.69 60 7.76 7.82 7.88 7.95 8.01 8.07 8.13 8.20 8.26 8.32 70 8.38 8.44 8.50 8.55 8.61 8.67 8.73 8.78 8.84 8.90 80 8.95 .. 9;01 9.06 9.12 9.17 9.23 9.28 9.34 9.39 9.44 90 9.50 9.55 9.60 9.65 9.70 9.76 9.81 9.86 9.91 9.96 100 10.01 10.06 10.11 10.16 10.21 10.26 10.30 10.35 10.40 10.45 110 10.50 10.54 10.59 10.64 10.68 10.73- 10.78 10.82 10.87 10.92 120 10.96 11.01 11.05 11.10 11.14 11.19 11.23 11.28 11.32 11.37 130 11.41 11.45 11.50 11.54 11.58 11.63 11.67 11.71 11.75 11.80 140 11.84 11.88 11.92 11.97 12.01 12.05 12.09 12.13 12.17 12.21 150 12.25 12.29 12.34 12.38 12.42 12.46 12.50 12.54 12.58 12.62 160 12.66 12.70 12.73 12.77 12.81 12.85 12.89 12.93 12.97 13.01 170 13.04 13.08 13.12 13.16 13.20 13.24 13.27 13.31 13.35 13.39 180 13.42 13.46 13.50 13.53 13.57 13.61 13.64 13.68 13.72 13.75 190 13.79 13.83 13.86 13.90 13.93 13.97 14.01 14.04 14.08 14,11
Доли подсчетов 509 Иллюстрация 5 (продолжение) к) ТАБЛИЦА для ПОДСЧЕТОВ от 200 до 3090 (брать ближайшее значение, е интерполировать) [_оо] | ю I I 20 I [ 30 I I 40 I I 50 | | 60 [ | 70 | | 80 | [ 90 | 14.15 14.50 14.84 15.17 15.50 15.82 16.13 16.44 16.74 17.03 ‘„О 17.33 17.61 17.89 18.17 18.44 18.71 18.98 19.21 19.50 19.75 400 20.00 20.25 20.50 20.74 20.98 21.22 21.45 21.68 21.91 22.14 кОО 22.36 22.59 22.81 23.03 23.24 23.46 23.67 23.88 24.09 24.29 600 24.50 24.70 24.90 25.10 25.30 25.50 25.69 25.89 26.08 26.27 700 26.46 26.65 26.84 27.02 27.21 27.39 .27.57 27.75 27.93 28.11 800 28.29 28.46 28.64 28.81 28.99 29.16 29.33 29.50 29.67 29.84 900 30.00 30.17 30.33 30.50 30.66 30.82 30.99 31.15 31.31 31.47 1000 31.63 31.78 31.94 32.10 32.25 32.41 32.56 32.71 32.87 33.02 1100 33.17 33.32 33.47 33.62 33.77 33.91 34.06 34.21 34.35 34.50 1200 34.64 34.79 34.93 35.07 35.22 35.36 35.50 35.64 35.78 35.92 1300 36.06 36.20 36.33 36.47 36.61 36.74 36.88 37.02 37.15 37.28 1400 37.42 37.55 37.69 37.82 37.95 38.08 38.21 38.34 38.47 38 60 1500 38.73 38.86 38.99 39.12 39.24 39.37 39.50 39.63 39.75 39 88 1600 40.00 40.13 40.25 40.38 40.50 40.62 40.75 40.87 40.99 41.11 1700 41.23 41.35 41.47 41.60 41.72 41.83 41.95 42.07 42.19 42 31 1800 42.43 42.55 42.66 42.78 42.90 43.01 43.13 43.25 43.36 43.48 1900 43.59 43.71 43.82 43.93 44.05 44.16 44.27 44.39 44.50 44.61 2000 44.72 44.83 44.95 45.06 45.17 45.28 45.39 45.50 45.61 45.72 2100 45.83 45.94 46.05 46.15 46.26 46.37 46.48 - 46.59 46.69- 46.80 2200 46.91 47.01 47.12 . 47.22 47.33 47.44 47.54 47.65 47.75 47.86 47,96 48 06 48-17 48 27 48 38 ^в-48 48 58 48-ба 48*79 48.89 48‘" 49 09 49.20 49.30 49.40 49.50 49.60 49.70 49.80 49.90 4Ъ0° 50.00 50.10 50.20 50.30 50.40 50.50 50.60 50.70 50.80. 50.89 2600 50.99 51.09 51.19 51.29 51.38 51.48 51.58 51.67 51.77 51.87 51,96 62 06 52-16 52 25 52 35 Б2-44 62.54 52.63 52.73 52.82 ° 52.92 53.01 53.11 53.20 53.29 53.39 53.48 53.57 53.67 53.76 ЗОоп ел’85 6396 5404 Б4-13 Б4.22 54.32 54.41 54.50 54.59 54.68 54.77 54.86 54.96 55.05 55.14 55.23 55.32 55.41 55.50 55.59 Аля «полуцелых» - —- интерполяцию таблицы On 1 ц 2п Зп •82 1.29 1.63 1.91 подсчетов, меньших п. А) 4п 2.16 3.83 20 (для подсчетов > 20 5п 2.38 3.96 6п 2.58 4.08 7п 2.77 4.20 подсчету: 8п 2.94 4.32 9п 3.11 4.43 00 i Ю 3.27 3.42 3.56 3.70 ',евЬ1й — «остаток» равен правому ** CB'Kor>f5?eT остаток = 28; следовательно, половина общего подсчета =35 п (6,57—5,3)/5,97 = 0,21; Cfi Konou5T=5?4, остаток = 13; следовательно, половина общего подсчета =258 п рень= (22,36—3,63)716,13 = 1,16;
510 Глава 15 Иллюстрация 5 (продолжение) левый подсчет =18 п, остаток =32 п; следовательно, половина общего по = 25 пи св-корень = (4,32—5,72)/5,07=—0,28. “отчета Отметим, что при использовании таблицы п. Б числа 504 и 258 п округл 500 и 260, а 35 п, 32 п и 25 п интерполировались по таблице п. А. ЯЛ|,СЬ До Д) УПРАЖНЕНИЯ 5а) Чему равен ^подсчет + 1/6, когда подсчет =7? 77? 777? 56) Чему равны св-корни от с.р.-долей, соответствующие следующим парам поло (ниже, выше): (2, 27); (20, 270); (200, 2700)? Объясните результаты. Д Четов 5в) Чему равны св-корни для следующих пар подсчетов: (17 п, 9 п)- (26 п опо (42 п, 197 п)? п.Д)Зп); которые отличаются от соответствующих св-корней постоянным мн жителем. (Когда нет под руками таблицы из илл. 5, последнее вьгоа" жение позволяет легко и эффективно считать, пользуясь логарифмиче' ской линейкой, — см. разд. 15Ж-) ОБЗОРНЫЕ ВОПРОСЫ Можно ли упростить вычисления при преобразовании с.р.-под- счетов в св-корни и св-логарифмы? Нужно ли в ходе расчетов сохра- нять все значащие цифры с.р.-подсчетов или возможно округление? Почему (или почему нет)? 15Г. ПРИМЕРЫ, ГДЕ ОСОБЕННО ВАЖЕН ВЫБОР ПРЕОБРАЗОВАНИЯ ТАБЛИЦА МНЕНИЙ 2X2 К выбору преобразования подсчетов или долей подсчетов стоит отнестись с должным вниманием, так как от него часто зависит ка- чество анализа. В этом не всегда легко убедиться, иногда преиму- щество преобразования не очевидно. Если данные не состоят из двух частей, результаты анализа которых можно сравнить, довольно трудно проверить, что мы не зря затратили усилия на их предварительное преобразование. Даже когда одну часть данных можно сопоставить с другой, мы мало что узнаем дополнительно, если обе части одинаково информативны. В такой ситуации эффект от преобразования ДанН^ будет почти одинаков для обеих частей и результаты сравнения эт частей при любом из способов преобразования, вероятнее всего, буду одинаковыми. яние, Чтобы увидеть эффект, который дает надлежащее преобразов > когда производится сравнение в пределах одной совокупности д нужно иметь ситуацию, в которой: 0 интерес представляют различия, причем при удачном преобразования эти различия оказываются сходными; меЖДУ 0 найденные различия (почти одинаковые) суть разност малыми числами в одной части данных и большими в ДРУГ°* •
Доли подсчетов 5Ц Поостейший пример такого рода представляет двухфакторная таб- 1 в которой оба фактора обнаруживают существенное изменение. "^Начнем со случая таблицы размера 2x2. Под заголовком «Про- тантЫ склоняются к поддержке Кеннеди» газета «Вашингтон пост» теС2 февраля 1962 г. опубликовала результаты опросов избирателей, °Товеденных Институтом Гэллапа в ноябре 1960 г. и январе 1962 г.: Дата Протестанты Католики XI 60 I. 62 XI. 60 1. 62 Кеннеди 38% 59% 78% 89% Никсон 62% 41% 22% 11% Сточки зрения практической политики Дж. Гэллап был прав, заявив: «Одна из главных причин популярности президента заключается в том, что его успех в успокоении антикатолнческих настроений не привел к потере поддержки его со стороны собратьев-католиков». В то же время прибавка на 21% среди протестантов (четырех пятых населения) дает значительно больше голосов, чем прибавка на 11 % среди оставшейся одной пятой населения. Попытаемся понять (количественно), что в действительности про- изошло. Интуитивно мы чувствуем, что ситуация требует растяжения концов шкалы. (Действительно, проще сдвинуть 38% до 42, чем 89% до 93.) Поэтому перейдем к св-логарифмам и посмотрим, как будут выглядеть преобразованные данные (в этом случае f — доля подсчетов числа избирателей, поддерживающих Кеннеди), св-логарифмы равны: XI. 60 1.62 Протестанты Католики Разность —0,24 +0,18 +0,63 + 1.05 +0,87 +0,87 Изменение Прирост на 0,42 Прирост на 0,42 Кат3аЛ°СЬ’ что изменения этой характеристики для простентантов и ликов одинаковы и взаимно подтверждают друг друга. зреаким образом, анализ св-логарифмов позволил с научной точки в Пе 1я оценить, что произошло с популярностью Джона Ф. Кеннеди «Поцу10д с Ноября 1960 г. по январь 1962 г. Мы можем утверждать: пРиче ЯРН°СТЬ пРезпдента возросла на 0,42 по шкале св-логарифмов, Р6сй L’ ЭТОт Результат следует как из опроса католиков, так и из оп- « протестантов».
512 Глава 15 Доли подсчетов 513 Отмеченное одинаковое изменение имеет место только при исп0Ль. зовании св-логарифмов в отличие от процентов или св-процентов, Чт указывает на преимущество (в данном примере) выбора именно св- логарифмов. Конечно, отсюда нельзя делать вывод, что такая приятная картина будет иметь место всегда, стоит только перейти к св-логарифмам. Иногда действительно их использование буквально творит чудеса в дпугих случаях приводит к достаточно хорошим результатам, иногда же не дает улучшения или даже ухудшает анализ. Однако в целом как показывает практика, они достаточно часто приводят к успеху так что автор в первую очередь пробует применять именно их, а не’ проценты (или св-проценты); св-логарпфмы — это первая помощь в анализе подсчетов. ДВУЛ1ЕРНЫЕ ТАБЛИЦЫ ПОДСЧЕТОВ Часто приходится иметь дело с большими двумерными таблицами данных, в каждой клетке которых содержатся доли подсчетов. Такие таблицы возникают, например, в результате опросов общественного мнения, проводимых в разное время в разных районах страны. Несколько иначе возникают двумерные таблицы св-корней и св- логарифмов. Например, если измеряемую величину можно естественно разделить порогами на две или несколько частей, для каждой из них Иллюстрация 6 главы 15: поясняющая Ряд значений св-логарифмов для некоторого множества подсчетов (объем производства текстильных предприятий во Франции в 1906 г.) А) ВЫЧИСЛЕНИЯ | Объем 1 | Подсчет ] Общее число ниже Общее число выше 1 Илл. 4*> | СВ-log J | ниже | | выше ] 1 —1 к Очень ..большой 48 48 213 579 1.94 6.136 —4.20 Большой 766 814 212813 3.35 6.134 -2.28 Средний 1 676 2 490 211 137 3.910 6.130 -2.220 Малый 3 636 6.126 207.501 4.360 6.121 -1.761 Очень малый 207 501 Илл. 4 используется трижды, таблица логарифмов — пять раз. Б) УПРАЖНЕНИЯ 6а) Объясните, как возникло число 2490? 66) Объясните число 212 813, 6в) число 6,130. 6г) число 3,35, Иллюстрация 7 главы 15: текстильные предприятия Размеры текстильных предприятий во Франции и Германии в 1906—1907 гг. д) ДАННЫЕ (для Франции 1906 г. см. илл. 6) и ВЫЧИСЛЕНИЯ | Германия, 1907 | [Франция, 1906; св-log [ | Число работающих | # пред- | приятии) |CB-Iogj |cB-logO | |ности| >1001 71 1000.5 3.77 4.20 .43 201-1000 1 013 200.5 2.41 2.780 .37 51-200 2 748 медиана 50.5 1.757 2.220 .463 = .44 11-50 4984 * 10.5 1.321 1.761 .440 1-10 123 768 !) Заметим, что в данной иллюстрации мы вычисляли св-логарифмы «снизу вверх» а не «сверху вниз», что привело к изменению знака св-логарифмов для Франции по сравнению с илл. 6. Б) УПРАЖНЕНИЯ 7а) Какие преобразования размера предприятий обеспечивают простое поведение св-логарпфмов для каждой из стран и для обеих стран одновременно? 76) Начертите графики для двух множеств св-логарифмов в зависимости от преобра- зованных размеров предприятий. 7в) Найдите данные, которые позволили бы сравнить Францию и Германию за один и тот же год (см. текст и работу Ландеса). 7г) Выполните это сравнение. В) ИСТОЧНИК: Landes D. S. Some attitudes, entrepreneurship and economic development: A comment. Explorations in Entrepreneurial History, 6, 245—272, 1954 (табл. 2 приложения на с. 268—269). мы можем вычислить св-корни или св-логарифмы. Не вдаваясь пока в существо нашего следующего примера, рассмотрим множество под- счетов на илл. 6. Заданы пороги, разбивающие данные следующим Раз°м: очень большие — большие, большие — средние, средние — —4 20 И малые — очень малые. Им соответствуют св-логарифмы: °* 2,78; —2,22; —1,76. Если имеется другое аналогичное мно- таб™° данных (как в следующем примере), мы можем составить еСтьИцУ св-логарифмов размера 2x4 и далее анализировать ее. Если gTi^eJbe множество, возникает таблица 3x4 и т. д. °пУбл Г' (D Ходе ожесточенной дискуссии с Гершенкроном) Ландее к°МмепК°ВаЛ данные ° сопоставимых по размерам промышленных и Р1редПр ских предприятиях в Германии и Франции в 1906—1907 гг. больщц ЯТНя Делились по размерам (по числу работающих) на пять Рзз.мер гРУпп. Оставляя в стороне вопрос о численном выражении предприятий, назовем их очень мелкими, мелкими, сред- ’ РУпными и очень крупными и будем рассматривать четыре ** 1247
514 Глава 15 возникающих при этом делении порога. Данные по текст! предприятиям Франции в 1906 г., включая соответствующие срЛЬ11Ь1м рифмы, представлены на илл. 6. Аналогичные данные для Гео'Л°Га' 1907 г. даны на илл. 7. Разности между соответствующими ср^ании рифмами для Франции и Германии имеют постоянный знак и ппигГа' зительно одинаковы по величине (примерно равны 0,4). ТакоебЛИ' стоянство в св-логарифмах не только свидетельствует о том Пп' в 1907 г. в Германии текстильные предприятия были крупнее’ в 1906 г. во Франции, но и указывает на устойчивость этого раз, во всех группах предприятий. Более того, оно позволяет надеять?3 что при наличии еще одной переписи в любой из этих стран Я’ По- что чем размера О мы получим относительно устойчивые разности во времени- <5 соответствующие составляющие этих временных разностей можно будет использовать для сведения данных о Франции 1906 г к 1907 г. или данных о Германии 1907 г. к 1906 г., что повысит точное сравнения этих стран по размеру предприятий (при тех же исходных данных). Пессимист скажет: «Действительно, мы получили хорошие резуль- таты, обратившись к св-логарифмам, но что было бы, если бы мы оста- лись верны процентам?» Для наивысшего порога числа работающих (1000,5) проценты составляют 0,022 для Франции и 0,053 для Герма- нии, разность между ними равна 0,031%. Для наименьшего порога (10,5) проценты равны 2,9 для Франции и 6,6 для Германии, разность равна 3,7%. Одна разность составляет 1/30%, другая — почти 4%, т. е. мы не обнаруживаем хорошего согласия между величинами «Германия МИНУС Франция», выраженными в процентах (или св- процентах, или св-долях), хотя получаем прекрасное согласие при рассмотрении св-логарифмов. Ряд других примеров приведен на илл. 8. ОБЗОРНЫЕ ВОПРОСЫ Какой пример был первым в этом разделе? Как мы его анализи- ровали? Почему нам понравилось (не понравилось) преобразовани данных? Что дало бы использование св-корней по сравнению с: а) и ходными данными, б) другими видами преобразований? Можно аналогичным образом анализировать большие по объему со®' й ности данных? Приведите пример. Является ли си уация, разоор д в первом примере, единственной, где возникают таблицы св*к°Р раС- св-логарифмов? Почему (или почему нет)? Какой пример ь о^о. смотрен следующим? К какому виду совокупности данных ° зался сился? Как мы его анализировали? Насколько удачным рроГо анализ? Почему мы считаем его удачным? Как с учетом по^ь бо^ее результата использовать третью перепись, чтобы обеспеч точное сравнение данных?
Доли подсчетов 516 Иллюстрация 8 главы 15: упражнения Упражнения на применение двойных св-логарифмов . уцРА^НЕНИЯ Браунли приводит следующие значения подсчетов, характеризующие качество 8а) ^редукции в трех сменах в соответствии с 6 градациями его оценки («а») — «е»): Качество Качество Качество Качество Качество Качество «а» «б» «в» «г» «е» Смена А 11 23 8 5 18 18 Смена Б 17 29 10 17 7 15 Смена В 6 21 8 24 15 9 Проанализируйте данные аналогично тому, как это сделано на илл. 7. Объясните результаты. 86) Клаузен приводит следующие значения в процентах для числа солдат, уволенных из армии США в июле 1945 г. и в разной степени намеревающихся вернуться на старую работу (в зависимости от стажа работы): Стаж работы (в годах) Твердое намерение Почти уверены Может быть Не собира- ются Общее число, % <1 12 9 20 59 (100) 1-2 22 11 18 49 (100) 2-5 31 12 17 40 (100) >5 49 16 14 42 (121)?? Проанализируйте данные аналогично илл. 7. Объясните результаты. (Отметим, что здесь и ниже изменение вдоль строки соответствует изменению ситуации.) 8в) Гот же автор приводит следующие цифры для солдат, уволенных из армии в сентябре 1945 г.: С*аж работы годах) Твердое намерение Почти уверены Может быть Не собира- ются Общее число, % <1 18 12 17 43 (100) 1_~2 35 24 19 22 (100) 2"5 47 17 13 23 (100) >5 69 16 13 7 (100) g Нали3йРУйте данные аналогично илл. 7. Объясните результаты. Руйте'06 взвешиЕание) Объедините данные за июль и сентябрь и проанализи* их совместно тем же способом, 17*
516 Глава 15 Иллюстрация 8 (продолжение) 8б/в2) Сравните результаты упр. 86 и 8в. Соответствуют ли они тому, что вы ож (Обратите внимание на графу «Не собираются».) Можно ли объединить элН?али? от выбора пороговой точки в этих двух примерах? Как их можно был еКтЬ1 проанализировать? 10 бы 8б/в/г/д/е2) Сравните результаты анализа объединенного массива (упр. 8г) с к нацией результатов анализов для двух отдельных множеств (упр. 8б/в/г) цМби' их сходства и в чем различия? ‘ Чеч Б) ИСТОЧНИКИ: Brownlee К. A. Industrial Experimentation. 4th ed. Chern’ Rubber, 1949 (табл, на с. 46); Clausen J. A., Studies of postwar plans of soldip . a problem in prediction. Chap. 15, p. 568—708 of Measurement and Prediction vol^ of The American Soldier (ed. S. A. Stouffer), Princeton, 1950 (табл, на с. 629)’ ' 4 15Д. ДВОЙНАЯ СВЕРТКА - СЛУЧАЙ ТАБЛИЦЫ 2x2 В разд. 12Д и 12Е мы рассматривали двумерные таблицы подсче- тов, где каждый подсчет был, по существу, откликом в определенной ситуации, а по обоим направлениям описывались эти ситуации. В пре- дыдущем разделе мы имели дело с двумерными таблицами подсчетов в которых по одному направлению располагались уровни «разбиения» наблюдений, а по другому описывались ситуации. При работе с этими таблицами мы вводили пороги между близлежащими парами уровней и формировали таблицу св-корней или св-логарифмов, распределен- ных, с одной стороны, по ситуациям, а с другой,— по значениям по- рогов. Сейчас мы займемся двумерными таблицами данных, в которых по обоим направлениям изменяются значения уровней разбиения. Такие таблицы обычно называют «таблицами сопряженности призна- ков с упорядоченными направлениями». Прототип подобной таблицы возникает при разбиении общего числа на четыре подсчета, формирующие таблицу 2x2 по образцу а Ь с : d Эту таблицу можно анализировать порознь по каждому из ее направ- лений, т. е. использовать информацию, которая содержится в двУ видах объединенных подсчетов: для строк а+b выше и с+а ни порога и для столбцов а+с левее и b\-d правее порога, что мо схематически записать как a + c\b + d с 4- d ' j и что эквивалентно использованию двух частных («арга»"4"„1 долей по отношению к общему числу наблюдений. Если мь аТЬ выделить большую информацию, то самое лучшее — это исполь логарифмирование, а затем двойное «свертывание» — сначала |ЫХ)
Доли подсчетов 517 зонтали, а потом результат — по вертикали (или наоборот). В ре- зультате мы получим величину, пропорциональную log ^p>+c4-d'— ,Og а-Н+ c+d_log a+* + c4-d+ log a+b+c+d ’ qTo можно более компактно записать в виде loga — logb — logc + logd = log Идею этого преобразования данных легко понять, записав предыду- щее выражение в виде (,og да-log да) - (log да -log да) ’ или, что эквивалентно, в виде (log да-log да) ~ (log да-log да) • Поскольку на практике операция деления затруднительна, в качестве основной для наших вычислений лучше использовать следующую форму записи этого преобразования: log а—log b—log c+log d. Какова простейшая структура данных в таблице 2x2? Пусть мы имеем 100 «звезд» футбола и 100 старших больничных нянь, о которых известно, что 102 человека из их общего числа — мужчины и 98 — женщины. Если мы ничего не знаем о футболе и нянях (о специфике их работы) и должны отгадать, сколько в каждой группе женщин и сколько мужчин, мы можем сказать себе: «Разделим поровну: поло- вина мужчин — среди футболистов, половина — среди иянь, по- чему бы и нет? Иными словами, 51 мужчина среди футболистов и 51 — среди нянь (и 49 женщин — няни, а 49 — игроки в футбол)». Конечно, мы слишком много знаем о футболе и больнице, чтобы делать такое наивное предположение, однако, когда ничего не известно, оно заслуживает серьезного рассмотрения. Как ведет себя двойной св-логарифм в этом примере? В простейшей СИтУации, когда Футбольные игроки Мужчины 51 Женщины 49 больничные няни 51 49 МЬ1 имеем log а_log b- правильной версии log c+log d = 0. Футбольные игроки 100 0 больничные няни 2 98
618 Г лаеа 15 возникает затруднение с log 0. Перейдя к сдвинутым подсче получим ам» log (а + -§-) — ,0£ (6 + т) — ,og (c + 4) + ,og + = =2,00—(—0,78) - (0,34) 4-1,99 = 4,43. Таким образом, нулевое значение двойной свертки логарцфМОй соответствующее тривиальной таблице, показывает, что нет явно" связи между полом и профессией, в то время как большое значени* этой величины для правильной таблицы отражает очень сильную связь между ними. В общем случае нулевое значение двойной сверки естественно при- пять за индикатор «отсутствия явной связи». При анализе долей подсчетов мы использовали одновременно два подсчета («выше» и «ниже») и сдвигали их оба. Далее мы вводили мно- житель 1/2 перед логарифмами (по основанию е), т. е. вычисляли ло- гарифмы от квадратных корней этих подсчетов. В рассматриваемом случае естественно сдвинуть все четыре подсчета таблицы и ввести множитель 1/2, чтобы использовать квадратные корни. В результате мы приходим к выражению In ]/«4-|-In 64-4-ln /с4--~+!п (что не усложняет вычислений, поскольку мы можем найти значение каждого из четырех членов по таблице илл. 4; в последнем примере это выражение равно 5,10, что в 1,15 раза больше, чем 4,43). Введен- ное выше выражение будем называть двойным св-логарифмом и обозначать дев- лога рифм (дев-1 од). На илл. 9 приведены данные относительно умственного и физиче- ского развития школьников, записанные в различных формах. Они представляют собой некоторую модификацию статистического мате- риала, анализировавшегося Карлом Пирсоном. Какие бы способы обработки этих данных мы ни применяли (вычисление двойной Ра3' ности логарифмов с использованием илл. 4, разности св-логарифм° по каждому из двух направлений таблицы), все они дают одно и то ж значение дсв-логарифма, равное 0,27. Это число заставляет пред0 дожить, что интеллектуальное и физическое развитие имеют опр деленную связь, выходящую за пределы чисто случайного совпа ния. хц,е Насколько велика связь, выражаемая числом 0,27? Как воо расценивать величины дев-логарифмов? Простую шкалу для т оценки можно получить, взяв для сравнения данные, характери у^ щие сходство между родственниками — как по психологическим, и не физическим особенностям. Грубо справедливы следуюши
Иллюстрация 9 главы 15: школьники 519 Умственное и физическое развитие школьников А) ДАННЫЕ в форме подсчетов и их дев-логарифмы . _ Умственное развитие физическое разв"^ ' ' _ ___ Хорошее Плохое (Общее число) Хорошее 581 567 (1148) Плохое 209 351 (560) (Общее число) (790) (918) ((1708)) ^CB-log==3,18—3,17—2,67-|-2,93 = 0,27 (найден при помощи илл. 4). Б) ДАННЫЕ в форме процентов для ФИЗИЧЕСКИ ХОРОШО РАЗВИТЫХ школьников_________________________________________________ С хорошим умствен- ным развитием С плохим умствен- ным развитием Все вместе Проценты 73,5% 61,8% (67,2%) св-логарифмы 0,51 0,24 (0,36) Разность св-логарифмов = О,51— 0,24 = 0,27 В) ДАННЫЕ в форме процентов для школьников НЫМ РАЗВИТИЕМ с ХОРОШИМ УМСТВЕН- 1 % j св-логарифмы Хорошо физически развитые 50,6 Плохо физически развитые 37,3 (Все вместе) 46,3 Разность св-логарифмов=0,01 —(—0,26) = 0,27 0,01 -0,26 (—0,07) Г) ПРЕОБРАЗОВАННЫЕ ДАННЫЕ Общее число 1708 0 хорошим умственным развитием 46,3%, что °Рошо физически развитые 67,2%, что Асв-логарифм = 0,27 дает ce-log=—0,07 дает св-log = 0,36 9а/б/5г/пПРАЖНЕНИЯ ' ' Данные илл. 10 (см. ниже) в сжатой форме можно выразить (по частям) виде следующих таблиц: Для упр. 9а: Для упр. 9в: ^Ровед- 821 232 для упр. 96: 1018 36 231 1958 1744 445 1009 179 для упр. 9г: 2579 149 43 471 183 333 ниведИтр , Е) Диалогичный илл. 9, со всеми приведенными в ней деталями» » d, ana j "НИК: Pearson К- On the relationship of intelligence to size and shape of 4еРЖки u t0 °Я1ег physical and mental characters, Biometrika, 5, 105—146, 1906 (вы* из табл, XXXIII на с, 144),
$20 Глава 15 личные значения: прадед и правнук: дсв-1о§=0,15; двоюродные брат и сестра: дсв-1о§=0,15; дед и внук: дсв-1о§=0,31; дядя и племянник: дсв-1о§=0,31; отец и сын: дсв-1о§=0,67. Возможно, эта шкала поможет вам составить представление о том насколько значима величина дсв-логарифма, равная 0,27. ОБЗОРНЫЕ ВОПРОСЫ Сколько различных видов двумерных таблиц подсчетов мы уЖе встречали? Существуют ли другие? Почему (или почему нет)? С какой разновидностью таблиц мы имели дело в настоящем разделе? Как обычно называют эти таблицы? Какой они имеют вид в простейшем случае? Что такое «а», «Ь», «с», «d»? Какой прием позволяет извлечь информацию, содержащуюся в распределении подсчетов по таблице? Имеет ли смысл сдвигать подсчеты? Вводить множитель? Чему равен этот множитель? Что такое двойной св-логарифм, дсв-логарифм? Сложно ли вычислять дсв-логарифм от четырех подсчетов? Какой пример выбран в качестве иллюстрации? Что мы получили в резуль- тате его анализа? Что такое двойная свертка? Почему она так назы- вается? Существуют ли разные способы записи двойного св-лога- рифма? 15Е. ДВОЙНАЯ СВЕРТКА — ТАБЛИЦЫ БОЛЬШЕГО РАЗМЕРА Если хотя бы по одному направлению двумерной таблицы мы имеем более чем две градации, то следует рассмотреть всевозможнь таблицы подсчетов размера 2x2, образующиеся при использован» всевозможных пар порогов, взятых по различным направлен!! • Любой такой паре порогов будут соответствовать четыре подсчета следовательно, дсв-логарифм. Поскольку все такие пары °^Pa3LB. двумерную таблицу, мы получаем соответствующую таблицу логарифмов, которая описывает имеющиеся связи. осТц На илл. 10 этот метод применяется для анализа данных о 3°Р je- зрения одного глаза (левого или правого). Степень зоркости ^рц- ляется сравнением с тремя порогами. В п. А этой иллюстрац об- ведены исходные данные. В п. Б показано, как формируют лицы 2x2, соответствующие различным парам порогов.
Доли подсчетов 521 Иллюстрация 10 главы 15: острота зрения Вычисления двойных св-логарифмов для массива измерений остроты зрения 15 невооруженного глаза у 3242 мужчин в возрасте от 32 до 39 лет, пяботавших на Королевских артиллерийских заводах Великобритании р в 1943—1946 гг. А) ДАННЫЕ Острота зрения правого глаза Острота зрения левого глаза Высокая Второй степени Третьей степени Низкая Высокая 821 112 85 35 Второй степени 116 494 145 27 Третьей степени 72 151 583 87 Низкая 43 34 100 331 Б) Те же данные с УГЛОВЫМИ СУММАМИ | Высокая | Второй степени | | Третьей степени [ ( Низкая 3242 1052 2190 1843 1399 2762 480 3242 821 112 85 35 1053 821 .232 933 120 1018 35 1053 2189 231 1958' 910 1279 1744 445 2189 116 494 145 27 1835 937 898 1543 292 1773 62 1835 1407 115 1292 300 1107 989 418 1407 72 151 583 87 2728 1009 1719 1766 962 2579 149 2728 514 43 471 77 437 183 331 514 43 34 106 331 3242 1052 2190 1843 1399 2762 480 3242 В) ДСВ-ЛОГАРИФМЫ, умноженные на 100; СВ-ЛОГАРИФМЫ, умноженные на 100 (для граф со звездочкой), и ОБЩЕЕ ЧИСЛО ПОДСЧЕТОВ | Правый I 1 I гпаз hr “ Левыйтлаз > „ (Второй п (Третьей 1 степени). Y, (Низкая) - (Высокая) степени) а 170 120 100 -37 (Втор.степ.) ₽ 123 149 '125 14 .Прет, степ.) Y 93 117 •172 83 (Низкая) * -37 14 87 3242 Г) УПРАЖНЕНИЯ гл ЭВ\НИТе одинаРные св-логарифмы для строк (правый глаз) и столбцов (левый 10б) Q,a3 ' ^то м°жет означать их разность? 10в) ПнИшите (Устно), как выглядит таблица дев-логарифмов размера 3X3? мш П0М0[Ц11 каких величин, вычисляемых на основе двойных св-логарифмов, г-л»,*10 простейшим способом описать подобную ЗХ 3-таблицу? Найдите самый “РОСТой способ,
Глаеа 15 522 Иллюстрация 10 (продолжение) 10г1) Кендалл и Стыоарт (табл. 33.5 на с. 586 в т. 2) приводят также данные ветствующие остроте зрения 7427 женщин, работавших на Королевских апт01' лерийских заводах в 1943—1946 гг. В порядке уменьшения остроты зре Л' левого глаза данные таковы: правый глаз, высокая степень остроты зпрНИя (1520, 266, 124, 66, общее число 1926); правый глаз, острота 2-й степени (24? 1512, 432, 78, общее число 2256); правый глаз, острота 3-й степени (117 gj-l’ 1712, 205, общее число 2456); правый глаз, низкая степень зрения (36, 82’ 17о 492, общее число 789). Суммы по строкам (1907, 2220, 2507, 841). Построй? таблицу, аналогичную п. А. е 10г2) Повторите анализ пп. Б и В для этих данных. ЮгЗ) Сравните результаты анализа для мужчин и женщин в следующих отношениях- 1) по величинам в каждой графе, 2) по единичным св-логарифмам, 3) по двой- ным св-логарифмам. Объясните результаты. 10д) Вернитесь к упр. 86 и, используя «стаж работы» и «степень намерения» в каче- стве равноправных направлений таблицы, повторите анализ пп. Б и В. 10е) Сделайте то же самое для данных упр. 8в. 10ж) Сравните результаты упр. 10д и 10е. Что показывает сравнение? 10и) (двойное взвешивание) Сделайте то же самое для данных упр. 8г. например, следующая пара порогов а и 821 112 85 35 116 494 145 27 72 151 583 87 43 34 106 331 порождает «угловые суммы» ₽ 933 i 120 а -----------Л...... 910 i 1279 и как следствие — двойной св-логарифм, равный 1,20 (илл. ’ Распространяя описанный процесс суммирования за пр А таблицы, получаем вместо четверок пару чисел. Так, например, мирование в пределах углов
Доли подсчетов 523 0 821 112 85 35 116 494 145 27 72 151 583 87 43 34 | 106 331 дает 0 1843 : 1399 чему соответствует значение одинарного св-логарифма, равное 0,14. Таким образом, таблица двойных св-логарифмов оказывается окайм- ленной строкой и столбцом одинарных св-логарифмов. Если поместить на место пересечения этих добавочных столбца и строки число, равное общему числу наблюдений, получим окончательную таблицу, содер- жащую всю информацию об исходных данных, достаточную, в част- ности, для однозначного их воспроизведения. На илл. 10,В в таблице св-логарифмов, по существу, представлены результаты АНАЛИЗА исходных данных, в котором разделены све- дения об общем числе наблюдений, их распределении по отдельным направлениям и внутренних взаимосвязях. ОБЗОРНЫЕ ВОПРОСЫ Как следует действовать, если по одному или обоим направлениям Двумерной таблицы подсчетов имеется более одного порога? Что дает метод «суммирования по углам», если распространить его за пределы аблицы? Если собрать все результаты анализа, достаточно ли их для Установления исходных данных? ,5Ж ВЫЧИСЛЕНИЕ СВ-КОРНЕЙ И СВ-ЛОГАРИФМОВ С ПОМОЩЬЮ ЛОГАРИФМИЧЕСКОЙ ЛИНЕЙКИ (ФАКУЛЬТАТИВНО) кРоме^ЛИЦЫ св'к°Рней и св-логарифмов не всегда имеются под рукой; ТеДь11оТ°Г0’ чтобы их использовать, подсчеты необходимо предвари- НоСТи Г1еРевес™ в доли или проценты. Поэтому в ряде случаев, в част- Когда требуется вычислить совокупность св-корней и св-лога-
622 Глава 15 Иллюстрация 10 (продолжение) 10г1) Кендалл и Стьюарт (табл. 33.5 на с. 586 в т. 2) приводят также данные ветствующие остроте зрения 7427 женщин, работавших на Королевских ап00т' лерийских заводах в 1943—1946 гг. В порядке уменьшения остроты зр Ил' левого глаза данные таковы: правый глаз, высокая степень остроты зп Ия (1520, 266, 124, 66, общее число 1926); правый глаз, острота 2-й степени (2?4 1512, 432, 78, общее число 2256); правый глаз, острота 3-й степени (117 чрп* 1712, 205, общее число 2456); правый глаз, низкая степень зрения (36 82’ щп 492, общее число 789). Суммы по строкам (1907, 2220, 2507, 841). ПостпоГ таблицу, аналогичную п. А. Вте 10г2) Повторите анализ пп. Б и В для этих данных. ЮгЗ) Сравните результаты анализа для мужчин и женщин в следующих отношения 1) по величинам в каждой графе, 2) по единичным св-логарифмам, 3) по дво?: ным св-логарифмам. Объясните результаты. *’ 1 Од) Вернитесь к упр. 86 и, используя «стаж работы» и «степень намерения» в каче- стве равноправных направлений таблицы, повторите анализ пп. Б и В. 10е) Сделайте то же самое для данных упр. 8в. Юж) Сравните результаты упр. 10д и 10е. Что показывает сравнение? 10и) (двойное взвешивание) Сделайте то же самое для данных упр. 8г. Е) ИСТОЧНИК: Kendall М. G., Stuart A. The Advanced Theory of Statistics (3 volume ed.), 1961, vol. 2 (табл. 33.3 на с, 564). внутренний блок из четырех чисел образован «угловыми суммами» для той пары порогов, на пересечении которых он расположен. Так, например, следующая пара порогов аир: ₽ 821 112 j 85 35 116 494 j 145 27 72 151 5 583 87 43 34 i 106 331 порождает «угловые суммы» ₽ 933 j 120 а -----------Л------ 910 1279 и как следствие — двойной св-логарифм, равный 1,20 (илл. 10, Распространяя описанный процесс суммирования за пр А таблицы, получаем вместо четверок пару чисел. Так, например, мирование в пределах углов
Доли подсчетов 623 821 112 85 35 116 494 145 27 72 151 583 87 43 34 106 331 ₽ дает 1843 1399 чему соответствует значение одинарного св-логарифма, равное 0,14. Таким образом, таблица двойных св-логарифмов оказывается окайм- ленной строкой и столбцом одинарных св-логарифмов. Если поместить на место пересечения этих добавочных столбца и строки число, равное общему числу наблюдений, получим окончательную таблицу, содер- жащую всю информацию об исходных данных, достаточную, в част- ности, для однозначного их воспроизведения. На илл. 10,В в таблице св-логарифмов, по существу, представлены результаты АНАЛИЗА исходных данных, в котором разделены све- дения об общем числе наблюдений, их распределении по отдельным направлениям и внутренних взаимосвязях. ОБЗОРНЫЕ ВОПРОСЫ Как следует действовать, если по одному или обоим направлениям Двумерной таблицы подсчетов имеется более одного порога? Что дает метод «суммирования по углам», если распространить его за пределы таблицы? Если собрать все результаты анализа, достаточно ли их для Установления исходных данных? 15Ж. ВЫЧИСЛЕНИЕ СВ-КОРНЕЙ И СВ-ЛОГАРИФМОВ С ПОМОЩЬЮ ЛОГАРИФМИЧЕСКОЙ ЛИНЕЙКИ (ФАКУЛЬТАТИВНО) кРоме^ЛИЦЫ св"коРней и св-логарифмов не всегда имеются под рукой; телЬ11пТого’ чтобы их использовать, подсчеты необходимо предвари- Ростц пеРевести в доли или проценты. Поэтому в ряде случаев, в част- к°гда требуется вычислить совокупность св-корней и св-лога-
524 Глава 15 рифмов, соответствующих одному и тому же общему числу подсче и различным пороговым значениям, непосредственное вычисле *°В св-корней или св-логарифмов может оказаться проще (особенно е 1Ве воспользоваться логарифмической линейкой). Лн Пусть для некоторого порога мы имеем подсчеты а и Ь (сдвинуть на 1/6), так что 1е f = -a- = 1 a + b’ 1 a+b- При этом св-корень = J/2/—V 2(1—fj = ]/V = К2а/(а+Ь) - К2Ь/(а+Ь). Если а=43 s, £>=471 s, то a+d=514 ss, (<z+£)/2=257 s (где s обозна- чает сдвиг на 1/6) и соответствующий св-корень равен , /"43? -./'47LS V 257s V 257s ‘ Установив один раз движок логарифмической линейки и передвигая только ее бегунок, можно считать со шкал линейки все числа, необ- ходимые для вычисления св-корней, соответствующих разным поро- гам и одному общему числу наблюдений. (В некоторых случаях, правда, может потребоваться переброска движка на другой конец шкалы.) В нашем примере, установив число 257 s шкалы квадратов на движке против единицы основной шкалы на линейке, считываем на основной шкале против числа 43 s шкалы квадратов значение 0,409, а против числа 471 s — значение 1,353. (Если линейка не имеет шкалы квадратов, приходится дважды использовать основную шка- лу.) В результате получаем для св-корня значение 0,409—1,353=—0,944. Если нужно вычислить более трех св-корней е одинаковым общим числом подсчетов, описанный способ оказывается быстрее, чем ис- пользование таблицы для перевода процентов в св-корни с предвари- тельным вычислением процентов на логарифмической линейке. Для вычисления св-логарифмов с помощью логарифмической ли- нейки запишем CB-log = l,15(lg^—lg^)=l,15(lga-lgb). Вычисления производятся по последней строке. Для нашего пример2 имеем: 1g 43=1,634, 1g 471=2,673. ев-log = 1,15(1,634—2,673)=1,15(—1,039)=—1,196.
Доли подсчетов 525 т оЖение на 1,15 можно или отложить до конца вычислений, или на линейке имеются соответствующие шкалы) линейку все время ^жно держать «настроенной» для умножения на 1,15.) Эта процедура также представляется более удобной, чем использо- ние таблицы логарифмов; однако еще проще применять таблицу ва.логарифмов илл. 4 (если она есть под рукой). СБ" И конечно, самое удобное и быстрое — это карманный кальку- лятор. ОБЗОРНЫЕ ВОПРОСЫ В какой форме удобнее всего записывать выражение для св-корней при вычислениях на логарифмической линейке? Какие шкалы линейки при этом используются? Как устанавливается движок линейки? Как передвигается бегунок? Приходится ли использовать другую шкалу? Какую? Каким образом? Как вычисляются св-логарифмы? 15И. ЧЕГО МЫ ДОСТИГЛИ? Эта глава посвящена эффективным приемам преобразования долей подсчетов и распространению этих приемов на двумерные таблицы, соответствующие упорядоченным переменным. В результате мы научились: ф вычислять и использовать с. р. (сдвинутые расщепленные)- подсчеты и доли; ф применять любой из трех способов преобразования данных, совпадающих в окрестности 50%: свертки (св-проценты), св-корни и св-логарифмы; ф пользоваться таблицами и методами ускоренного вычисления (в том числе логарифмической линейкой) для нахождения этих ве- личин. Кроме того, мы умеем: ф" для данного множества подсчетов вычислять и анализировать рах^ен V)A св‘логаРиФмов (или значений другого аналогичного отоб- Ф использовать дев-логарифмы (двойные св-логарифмы) как меру П(5пРОпоРции в таблицах размера 2x2, образованных пересечением рог°в («парными» порогами); ^сь) Аелать это Для ОДНОЙ пары порогов, для нескольких пар («по- » пар) и, наконец, для двумерной решетки порогов. сКопьХоде изложения материала этой главы мы лучше поняли, на- зцачеКо ва>кно обращать внимание на постоянство разностей между вацИй1Иями преобразований (в контексте данной главы — преобразо- Долей подсчетов).
Глава 16 УЛУЧШЕНИЕ СГЛАЖИВАНИЯ УКАЗАТЕЛЬ К ГЛАВЕ 16 Обзорные вопросы 527 16А. Повторные неровности повторные неровности двойное сглаживание Обзорные вопросы 527 529 529 529 16Б. Примеры 529 Сравнение плавных компонент 533 Обзорные вопросы 534 16В. Если желательно иметь еще более гладкие кри- вые 534 Обзорные вопросы 537 16Г. Дальнейшие возможности 537 Новые приемы сглаживания 537 Более сильные алгоритмы сглаживания 537 Упражнения 538 Обзорные вопросы 544 16Д. Чего мы достигли? 544 В гл. 7 мы изучали способы построения плавных компонент, т. е- гладких кривых, проходящих вблизи наблюдаемых точек. При это* совсем не затрагивался вопрос, насколько велнки неровности, т. невязки, между получаемой гладкой кривой и наблюдениями. Мы интересовались этим, поскольку плавную компоненту рассматрив в основном с качественной точки зрения: возрастает она или У°ь1Бпь11 колеблется ли, относится к тому или иному типу и т. д. Мы не тались: 0 тщательно рассматривать неровности, сопровождающие }1 ную компоненту (хотя мы использовали их для оценки разор выделения выскочивших точек); коМ' 0 ставить вопрос, нельзя ли получить еще лучшие плави поненты простыми средствами.
Улучшение сглаживания 527 вНое, что нас заботило,— это отбросить детали, отвлекающие наш рла яД какими-либо нерегулярностями и «угловатостью», так чтобы смогли увидеть «картину в целом». в данной главе нашей задачей будет найти лучшие способы сгла- ивания, обеспечивающие более тесную подгонку кривой к наблюдае- м данным (что нам понадобится в следующей главе) без ухудше- ее гладкости. Мы отложили эту задачу до настоящей главы не н‘му, чт0 она казалась нам не такой уж важной, а в основном по- оМу что гл. 7 и так была достаточно перегружена деталями. Наобо- рот мы считаем, что вопросы, рассматриваемые в настоящей главе, РеЖ’ат в главном русле развиваемых в книге методов обработки дан- ных. Ясно, что, прежде чем браться за изучение данной главы, следует хорошо разобраться в содержании гл. 7. ОБЗОРНЫЕ ВОПРОСЫ Чему была посвящена гл. 7? Какие вопросы не нашли в ней отра- жения и были, на время отложены? Чем мы собираемся заниматься в этой главе? Лежат ли вопросы, связанные с методами наилучшего сглаживания, в главном русле нашего исследования? Что необходимо знать, прежде чем приниматься за изучение этой главы? 16А. ПОВТОРНЫЕ НЕРОВНОСТИ Мы уже готовы приняться за анализ неровностей, чтобы использо- вать их для улучшения плавных компонент. Начнем с простого иллю- стративного примера, который укажет нам направление дальнейшего продвижения. Хотя ганнирование — очень эффективная процедура сглаживания, она имеет свои недостатки. Рассмотрим последователь- ность • • 36, 51, 64, 75, 84, 91, 96, 99, 100, 99, 96, 91, 84, 75, 64, 51, 36, . . . (закон образования которой становится ясен, если вычесть каждый es член из 100). Проводя ганнирование, мы получим сначала последо- ательность скачущих средних, а затем окончательный результат: • • 63, 74, 83, 90, 95, 98, 99, 98, 95, 90, 83, 74, 63, . . . • • 63п, 74п, 83п, 90п, 95п, 98п, 95п, 90п, 83п, 74п, 63п .... Соответствующие неровности равны • . п, п, п, п, п, п, п, п, п, п, п, п, п, . . . . татоПоследовательность, рассматриваемая как массив чисел, недос- рич..1,0 хаотична- Можно сделать ее более хаотичной: более симмет- >кить°И относнтельно нуля. Достаточно сгладить неровности и сло- д°ватеП°ТеЛН^ Кривую С первой плавной компонентой. Эта после- >кена ЛЬНость действий показана на илл. 1, где она сначала изобра- в виде схемы, а затем — в виде «словесных формул».
528 Глава 16 Иллюстрация 1 гл. 16: схематическое изображение метода Схема и формулы для вычисления повторных неровностей Исходные данные После После первого сглаж. .-.окончат. сглаж. Первонач."X неровности \________________- Окончат, неровности Поскольку исходные данные вз (плавная компонента) ПЛЮС (неровности) и неровности е® (плавная компонента неровностей) ПЛЮС (неровности от неровностей), то после подстановки и изменения обозначений мы получаем: исходные данные = (плавна я компонента) ПЛЮС (плавная компонента неровностей) ПЛЮС (неровности от неровностей) или исходные данные = (окончательная плавная компонента) ПЛЮС (окончательные неровности), где окончательная плавная компонента sa (плавная компонента) ПЛЮС (плавная компонента неровностей) и окончательные неровности е= неровности от неровностей. УПРАЖНЕНИЕ 1а) 16) 1в) Начертите соответствующую схематическую диаграмму для повторного сглажи- вания в случае, когда после алгоритма сглаживания ЗП используется РРГЗ. Начертите соответствующую диаграмму для двукратного последовательного сглаживания в случае, когда после ЗП используются сглаживания РР, а затем Начертите соответствующую диаграмму для двойной процедуры вычислен повторных неровностей в случае, когда результат вычисления неровностей помощью первого и второго алгоритмов сглаживания рассматривается как осн для вычисления повторных неровностей с помощью третьего алгоритма,
Улучшение сглаживания 529 Таким образом, мы складываем л плавную компоненту исходных данных и 0 плавную компоненту от первых неровностей, результате чего получаем окончательную плавную компоненту, не- жности которой есть неровности неровностей исходных данных. Отсюда и термин — повторные неровности. Если алгоритмы сглаживания в обоих случаях одинаковы, мы, по существу, применяем одну и ту же процедуру дважды, т. е. осуществ- ляем двойное сглаживание. Двойное сглаживание, т. е. повторное использование некоторого алгоритма сглаживания (например, «ЗП, дважды»), есть частный слу- чай процедуры построения повторных неровностей. Запись «ЗП, дважды» означает то же самое, что и «ЗП, повторные неровности по ЗП». Символически мы будем изображать процедуру вычисления повторных неровностей с использованием запятой, перед которой стоит обозначение первого алгоритма сглаживания, а после которой — одно из двух: или слова «повторные неровности по» и далее обозначе- ние второго алгоритма сглаживания, или слово «дважды» (в зависи- мости от ситуации). Заметим, что запись обозначений двух алгорит- мов сглаживания в строчку друг за другом без запятой означает по- следовательное сглаживание в том смысле, что результат сглажива- ния первым алгоритмом сглаживается еще раз вторым алгоритмом. ОБЗОРНЫЕ ВОПРОСЫ Когда ганнирование нас достаточно устраивает? В чем это про- является? Что в этом случае делать? Что такое повторные неров- ности? Почему они так называются? Что такое двойное сглаживание? Откуда такой термин? Как обе процедуры изображаются символи- 16Б. ПРИМЕРЫ илл. 2 данные из примера, приведенного в гл. 7 (колебания производства битуминозного угля), сглаженные по алгоритму подвергаются дальнейшему сглаживанию. Результирующие На объема ЗПРр д »гг ’ cnuivH vi ла /писан иги. гсэуло! иррищис °Ритмы (суммарные алгоритмы сглаживания) представляют собой: дВаР алгоритм, символически обозначаемый формулой «ЗПРРГ, ДЫ» или «ЗПРРГ, повторные неровности по ЗПРРГ»; К 5) алгоритм, получаемый в результате применения «Г, дважды» Ривой, сглаженной по ЗПРР. Заметим, что комбинация послед-
Иллюстрация 2 главы 16: производство угля Некоторые примеры вычисления повторных неровностей на основе сглажив с помощью алгоритма ЗПРР данных об объеме производства битуминозного апИя (см. илл. 8 и 17 гл. 7) А) ВЫЧИСЛЕНИЕ «ЗПРРГ, дважды» Г анни- Танни- Сумма I плавн; | | комп, j Hex. данные 1 Их I |зпрр| [рование[ Первой. |неровт |ности[ I Их I |зпрр| |роваНие[ ы а Окончат. |неров-| |Ности| bill Б69 422 422 147 ? -6 -6 416 153 (416) (424) (445) (470) (498) (516) (520) (516) (50Я) 416 422 422 422 -6 -6 -6 -е -6 416 О 422 422 453 438 -16 -6 -6 -6 -6 432 -10 Б65 484 471 478 87 -6 -6 -3 -4 474 91 484 520 502 511 -27 0 0 -3 -2 609 “25 Б20 520 520 520 0 0 0 2 0 Б21 -1 Б73 620 519 520 53 3 3 3 1 Б22 51 Б18 518 512 515 3 3 3 3 3 Б18 0 Б01 505 510 508 -7 3 3 3 3 611 -10 Б05 601 486 494 11 11 3 3 3 497 8 (484) (442) (398) 468 468 442 455 13 11 3 -2 0 455 13 382 382 401 392 -10 -10 -6 -2 -4 383 -6 310 334 358 346 -36 -10 -6 -6 -6 340 -30 (362) 334 334 346 340 -6 -6 -6 -4 -5 335 -1 (347) 359 359 353 356 3 -2 -2 -2 -2 354 5 (356) 372 372 377 374 -2 3 3 0 2 376 —4 (374) 439 395 384 390 49 49 3 3 3 393 46 (388) 446 395 396 396 50 49 3 3 3 399 47 (398) 349 398 417 408 -59 —39 -7 -2 -4 404 -55 (416) 395 439 430 434 -39 -39 -7 -2 -4 430 -35 (433) 461 461 475 468 -7 -7 -7 -6 -6 462 -1 (472) 611 511 522 516 -5 -5 -5 0 -2 514 -3 (515) Б83 688 547 565 18 6 6 0 3 568 15 (552) Б90 683 586 584 8 6 6 6 6 590 0 (581) 620 590 586 588 32 6 6 6 6 F94 26 (593) Б78 590 690 590 -12 -12 6 6 6 5S3 -18 (592) Б34 590 584 587 -53 -12 6 3 А 591 —57 (582) 631 573 553 566 65 65’ 0 3 2 568 63 (562) 600 516 547 532 68 65 0 0 0 532 68 (542) 438 516 516 516 -78 0 0 0 0 516 -78 (524) Б16 616 516 516 0 0 0 0 0 516 0 (510) Б34 516 492 504 30 0 0 -2 -1 503 31 (495) 467 467 486 476 -9 -3 -3 -2 -2 474 -7 (480) 457 457 462 460 -3 -3 -3 -3 -3 457 0 (464) 392 457 457 457 -65 -3 -3 -3 -3 454 -62 (450) (438) (428) (417) (4121 461 457 434 446 21 21 -3 -2 -2 444 23 500 412 434 423 77 77 0 -2 -1 422 78 493 412 412 412 81 77 0 0 0 412 81 410 412 412 412 -2 0 0 0 0 412 —2 412 416 403 412 412 416 412 414 417 412 413 416 0 3 -13 0 0 -8 О 0 -8 0 -4 -4 0 .-2 -6 412 411 410 0 5 -7 (411) (416) (428) 422 422 438 430 -8 -8 -8 -8 -8 422 0 (449) (478) 459 459 444 452 7 -8 -8 -2 -5 447 12 467 467 486 476 -9 3 3 -2 0 476 -9 (506) 512 612 500 506 6 3 3 3 3 509 3 (527) Б34 534 528 531 3 3 3 3 3 534 0 (б41> Б52 645 545 545 540 542 545 10 0 3 ? 3 3 3 3 3 645 548 -3 (5481 Пример (1-я строка): 569 — дано; 422 — дано, 422=422; зультат вычислений по правилу концевых значений; — 147= 569-422; 6=—6; 416=(422Н — Ре' ("6): 16В- ieuo»' 153=569—416. разд Значения в скобках, помещенные в последнем столбце, рассматриваются Столбец, обозначенный «->-», является полусуммой двух предшествующ Иллюстрация 2 (продолжение) Б) ВЫЧИСЛЕНИЕ «ЗПРР (Г, дважды)» ЗПРР |Г аннирование| Локальные I неров- | ности |Ганнирование| > | > | | -> | j Сумма плави, комп. Окончат. I I неров- I 1 ности [ 422 422 0 0 422 147 . 422 422 422 0 -8 —4 418 —2 422 453 438 -16 3 -6 432 -10 484 471 478 6 -4 1 479 86 520 502 511 9 3 6 517 -33 520 520 520 0 4 2 522 -2 520 519 520 0 2 0 521 52 518 512 515 3 -2 1 515 3 505 510 508 -3 5 3 509 -8 501 486 494 7 5 6 500 5 468 442 455 -13 -2 5 461 7 •382 401 392 -10 0 -5 387 —5 334 358 346 -12 -8 -10 336 -26 334 346 340 -6 -4 -5 335 -1 359 353 356 3 -4 0 356 3 372 377 374 -2 4 1 375 -3 395 384 390 5 -2 2 39Z 47 395 396 396 -1 -2 —2 394 52 398 417 408 -10 2 -4 404 -55 439 430 434 5 —8 —2 432 -37 461 475 468 -7 0 -4 464 -3 511 522 516 —5’ 6 0 516 -5 583 547 565 18 3 8 573 10 583 586 584 -1 10 5 588 2 590 586 588 2 0 0 589 31 590 59Q 590 0 2 0 591 -13 590 584 587 3 .3 4 591 -57 578 553 566 12 -6 4 564 67 516 547 532 -16 6 —4 527 73 516 516 516 0 -8 —4 +12 -74 516 516 516 0 6 3 519 г-3 516 492 504 •12 -4- 4 508 26 467 486 476 -9 4 0 474 -7 457 462 460 -3 -4 0 456 1 457 457 457 0 4 4 459 -67 457 434 446 11 -6 4 448 19 412 434 423 -11 6 -2 419 79 412 412 412 0 -6 -2 409 84 412 412 412 0 0 0 412 -2 412 412 412 0 0 0 412 0 412 414 413 -1 0 0. 413 3 416 417 416 0 -4 —2 414 -11 422 438 430 -8 4 -3 424 .-2 459 444 452 7 -8 0 452 7 467 486 476 -9 6 2 474 -7 512 50U 506 6 -3 2 508 4 534 528 531 3 4 2 535 -Ь 545 540 542 3 2 2 544 8 п—._ 545 545 0 0 545 0 =499 Р.&я 2тРока): 422- - дано; 453= = Ч2 (422+484): 438= =Ч2 (422+453); —16== (где 499 « ’ /а берется из (0+6); —6=V2 (- 16+3); 432=(438)+ (-6); —10=422-432 исходных данных, п, А)
532 Глава 16 Иллюстрация 2 (продолжение) В) СХЕМАТИЧЕСКОЕ СРАВНЕНИЕ <♦) I ЗПРР | ) ЗПРРГ | ,|ЗПРР(Г,Дважды)] |зпРРГ,‘дважды | I (исх. | Данные) | 422 422 422 416 569 ♦ 422 422 418 416 416 422 438 432 432 422 484 478 479 472 565 520 511 517 509 484 520 520 522 521 520 ♦ 520 520 521 522 573 518 515 515 518 518 505 508 509 511- 501 501 494 500 497 505 468 455 460 455 468 382 392 387 388 382 334 346 336 340 310 334 340 335 335 334 359 356 356 354 359 372 374 375 376 372 395 390 392 393 •439 395 396 394 399 446 398 408 404 404 349 439 434 432 430 395 461 468 464 462 461 511 516 516 514 511 583 566 573 568 583 583 584 588 590 590 590 588 589 594 620 * 590 590 591 596 578 590 587 591 591 534 578 566 564 568 631 516 532 527 532 600 516 516 512 516 438 516 516 519 516 516 516 504 508 503 534 467 476 474 474 467 457 460 456 457 457 457 457 459 454 392 . 457 446 448 444 467 412 423 419 422 500 412 412 ‘409 412 493 • 412 412 412 412 410 412 412 412 412 412 412 413 413 411 416 416 416 414 410 403 422 430 424 •422 459 452 452 447 лА7 467 476 487 476 512 506 508 513 534 531 535 534 545 542 544 545 552 • . 545 545 545 548 54о
Улучшение сглаживания 533 Иллюстрация 2 (продолжение) Г) МАКСИМУМЫ и МИНИМУМЫ (на строках, отмеченных в п, В звездоч- ками) ЗПРРГ, |зпрр| | ЗПРРГ] дважды | 422 422 416 520 520 523 334 340 335 590 590 596 412 412 412 545 545 548 Д) УПРАЖНЕНИЯ 2а) Возьмите какую-нибудь последовательность длиной не менее 20 чисел, пред- ставляющую для вас интерес, и сгладьте ее алгоритмом «ЗПРРГ, дважды». 26) Сделайте то же самое с последовательностью длиной не менее 50 чисел. 2в) Сделайте то же самое с последовательностью, предложенной вашим руководителем. 2г) Начав со столбца «(>)» из таблицы п. А, найдите соответствующие неровности* сгладьте их алгоритмом ЗПРРГ, сложите со столбцом «(>)» и начертите график суммы. 2д) Посмотрите, что получится, если алгоритм «ЗПРР>, дважды» применить к ис- ходным данным упр 2г (опустив столбцы «->» и столбцы средних по строкам). Как вы находите результаты? Помогает или не помогает этот алгоритм избежать «уплощения» вершин? 2д2) Проведите сглаженную от руки кривую через точки, вычисленные в упр. 2д. Сравните с графиками илл. 4—6. Объясните разницу. 2е) Начав со столбца «Окончательные неровности» п. А, произведите еще раз сглажи- вание алгоритмом ЗПРРГ и прибавьте результат к столбцу «Сумма плавных компонент». Объясните полученный результат. 2е2) Сопоставьте результаты сглаживания, выполненного в упр. 2е, со значениями последнего Г-столбца в п. А. Объясните, что получилось. 2ж) Выполните повторное сглаживание алгоритмом ЗПРРГЗПРРГ исходных данных* уже сглаженных алгоритмом ЗПРРГ (4-й столбец слева в п. А). Объясните ре- зультаты. 2ж2) Возьмите результаты упр. 2ж и сгладьте их алгоритмом ЗПРРГ. Что получилось теперь? Их Двух алгоритмов есть последовательное сглаживание, а не полу- чение повторных неровностей (что осуществляется «внутри» алгоритма Дважды»). СРАВНЕНИЕ ПЛАВНЫХ КОМПОНЕНТ нецт?а ИЛЛ' 2’ В схематически изображены четыре плавные компр- тацИе“И ИСх°Д,1Ь1е данные. Способ их представления не является ими- Ввепх*1 гРаФика> а лишь выделяет участки, на которых график идет Р > вниз или остается постоянным, путем смещения соответствую*
534 Глава 16 щих чисел влево или вправо, т. е. применяется следующая ехема максимум вниз вниз минимум вверх вверх вверх константа константа вверх вверх максимум Как видно из илл. 2, В, исходные данные ведут себя очень нерегу- лярно. Заметная нерегулярность наблюдается и у кривой, сглажен- ной по ЗПРР(Г, дважды). Похоже, этот алгоритм не заслуживает внимания. Сравним между собой остальные три плавные компоненты. На илл. 2, Г приведены значения их максимумов и минимумов. Ана- лизируя их, видим, что О при переходе от ЗПРР к ЗПРРГ наблюдается тенденция к по- вышению минимумов и снижению максимумов; эта тенденция становится противоположной и проявляется еще более резко, если вместо ЗПРРГ взять «ЗПРРГ, дважды». Таким образом, ганнирование приводит к понижению максимумов и подъему минимумов, и двойное сглаживание как раз для того и необходимо, чтобы скомпенсировать этот эффект, проявляющийся в данном случае при последовательном использовании алгоритмов сглаживания ЗПРР и Г. Рассмотренный пример убеждает нас, что вычисление повторных неровностей (в частном случае — двойное сглаживание) является эффективным приемом получения хорошо сглаженных кривых. ОБЗОРНЫЕ ВОПРОСЫ Какой пример мы анализировали? Какие методы вычисления по- вторных неровностей использовали? Как мы сравнивали результат. К какому выводу пришли? 1SB. ЕСЛИ ЖЕЛАТЕЛЬНО ИМЕТЬ ЕЩЕ БОЛЕЕ ГЛАДКИЕ КРИВЫЕ Как поступить в случаях, когда алгоритм сглаживания «ЗПРР£’ дважды» не дает результатов, которые нас окончательно удовлет^^ рили бы? На илл, 3 приведен именно такой пример. Изображенная плавная компонента, полученная по «ЗПРРГ, дважды», вообще _ воря, достаточно хороша (вручную мы могли бы весьма незначит пыми изменениями превратить ее в совсем гладкую). Однако на
Улучшение сглаживания 535 Иллюстрация 3 главы 16: производство угля Плавная компонента для объемов производства битуминозного сглаженных алгоритмом «ЗПРРГ, пважпы» Миллионы тонн Иллюстрация 4 главы 16: производство угля Результат применения ганннровяния к плавной компоненте илл. 3 Миллионы тонн 600 1930 1940 . 1950 I960
536 Глава 16 Иллюстрация 5 главы 16: производство угля Результат применения алгоритма «скачущее среднее» к плавной компоненте илл. 3 Миллионы тонн 600| ___।________1________1________।_ 1930 1940 1950 1960 есть ряд неровностей. Один из возможных способов — снова приме- нить к ней ганнирование. На илл. 4 приведен результат — он уже лучше, но еще не совершенен. Поскольку ганнирование в данном случае не приводит к цели, можно попробовать применить к нашей исходной кривой (полученной по «ЗПРРГ, дважды») алгоритм «ска- чущее среднее». Как видно из илл. 5, это действительно помогает, по крайней мере в данном случае. Соответствующие числовые данные приведены в последнем столбце илл. 2, А (озаглавленном «(>)»)• Теперь, наконец, наша кривая удовлетворительна в смысле глад- кости и остается проверить, насколько она близка к исходным данным. Всегда, когда у нас возникает в этом сомнение, стоит прибегнуть к получению повторных неровностей. На илл. 6 показано, что полу; чается, если сгладить неровности илл. 5 с помощью процедуры ^НРР и прибавить результат к исходной плавной компоненте. В итоге м получаем прямо-таки «отполированную» плавную компоненту, ПР чем можем быть уверены, что она не слишком отклоняется от исхо ных данных. л0. Заметим, что плавная компонента на илл. 6 проведена не как маная, соединяющая точки исходных данных, а как абсолютно г кая кривая между этими точками. Вообще говоря, мы могли бы с • дить вручную и кривую илл. 5. При этом она выглядела бы стоЛ^рИ. (если не более) гладкой. Действительное различие между этими выми уже не в степени гладкости, а в том, что максимумы и мини у кривой на илл. 6 не смещены вверх или вниз.
Улучшение сглаживания 537 Иллюстрация 6 главы 16: производство угля результат вычисления повторных неровностей по ЗПРРГ для плавной компоненты илл. 5 (На точки) этот раз вместо ломаной изображена гладкая кривая, проходящая через Миллионы тонн __J________I________।_______I 1930 1940 1950 1960 ОБЗОРНЫЕ ВОПРОСЫ Как сделать нашу плавную кривую еще более гладкой? Нужно ли принимать меры, чтобы плавная компонента после сглаживания ос- тавалась достаточно близкой к исходным данным? Как этого достичь? 16Г. ДАЛЬНЕЙШИЕ ВОЗМОЖНОСТИ НОВЫЕ ПРИЕМЫ СГЛАЖИВАНИЯ Ясно, что длина интервала исходных данных, по которому вычис- ляется точка сглаженной кривой,— величина произвольная. Мы можем использовать скользящие медианы от 5, 7, 9 или любого дру- г°го множества чисел. Можно использовать двойной алгоритм скачу- щего среднего (два шага назад и два вперед) или, наконец, применить г° с последующим линейным усреднением и т. д. Мы нигде в книге е используем эти приемы, однако читателю они иногда могут ока- заться полезными. Отметим, что с увеличением длины интервала Раст>КИВаНИЯ нео®ходимость вычисления повторных неровностей воз- БОЛЕЕ СИЛЬНЫЕ АЛГОРИТМЫ СГЛАЖИВАНИЯ н Как Мы Убедились еще в гл. 7, степень гладкости плавной компо- Же»ТЫ Можно увеличить, сгладив ее вторично. Что нам мешает, ска- > начать с ЗПРРГЗПРРГЗ и, если хватит терпения, найти неров-
538 Глава 16 ности и сгладить их снова по ЗПРРГЗПРРГЗ? Если нас не rivrau. числения (например, в нашем распоряжении есть компьютер с Вы' набором программ), можно попытаться использовать апгг,ЛНЬ1м «ЗПРРГЗПРРГЗ, дважды» или даже «(ЗПРРГЗПРРГЗ, ЗПРРГЗПРРго? ЗПРРГЗПРРГЗ», который естественно обозначить «ЗПРРГЗПРррд УПРАЖНЕНИЯ Илл. 7 содержит ряд упражнений для самостоятельного решени Дополнительные упражнения приведены на илл. 8. я‘ Иллюстрация 7 главы 16: данные и упражнения Дополнительные данные и упражнения на вычисление повторных неровностей А) ДАННЫЕ до 1776 г. 1 1 1 Z123I IZ225I IZ254I '{Z350| |Z357[ |год I- | (К1Ь)| • |(К!Ь)| |(Н1Ь)| |(s/g)| 1 (♦) 1 177S 1122 834 80 — 166.0 4 747 1191 302 2.17 169.7 3 721 964 2063 2.20 165.8 2 747 684 1512 2.19 161.2 1 434 1136 2829 2.19 165.6 0 550 190 859 2.19 154.0 1769 403 203 860 2.16 158.3 8 498 88 2919 2.23 166.4 7 530 44 1524 2.08 166.2 6 492 114 1190 2.23 165.4 5 336 704 1754 2.04 171.6 4 529 765 1432 2.05 172.4 3 439 647 375 2.59 173.1 2 255 2226 516 2.79 175.8 1 384 796 70 3.04 174.1 О 508 989 3.54 160.3 1759 696 120 3.94 154.7 8 563 273 3.12 159.2 7 876 369 2.74 166.0 6 223 289 2.35 172.5 5 304 241 2.27 168.9 4 130 830 2.44 168.2 3 29 451 2.47 168.0 2 4 83 2.39 166.7 1 20 162 2.51 170.6 О 63 12 2.53 171.1 1749 138. 321 2.72 172.4 8 62 393 3.60 174.3 7 138 287 3.62 184.6 6 81 2.69 179.2 5 2.65 175.7 4 35 2.51 167.4 3 515 2.36 160.3 2 558 2.84 159.7 1 70 2.46. 145.2 „1740 49 1.81 160.1
Улучшение сглаживания 539 Иллюстрация 7 (продолжение) Б) ПЕРВАЯ ЧАСТЬ ДЕВЯТИ ПОСЛЕДОВАТЕЛЬНОСТЕЙ (до 1895 или до 1920 г.) 1 llJ16ll ГОД (Н#> WI259I (#) | |Р19б| им>1 |(М$)| 10 IX286I |(М$)| ID606 |($/у) M117I (М$) | IM251 I (Kt) 1X2741 i860 1 2 3 8.2 1884 5 6 7 —• 4.91 5.1 6.8 7.6 — 4 8.4 — — 147 •— 8 — 8.5 — 5 8.9 — — 614 —, 9 — 10.3 — —• 6 15.4 —- — 695 10.5 1890 560 11.5 — 7 17.0 —• — 685 18.7 1 554 10.4 — — 8 23.7 —. — 745 17.6 2 563 12.0 — 14 9 25.6 —• —. 716 30.0 3 563 9.5 — 14 1870 34.0 211 16 706 32.1 4 546 9.2 14 1 39.8 210 20 791 17.8 1895 546 13.3 —. ;3 2 38.7 223 24 805 26.4 6 544 11.8 1 15 3 31.6 263 28 836 34.3 7 543 13.3 1 16 4 29.1 260 35 828 18.0 8 542 16.0 1 53 5 20.7 260 59 897 17.5 9 543 19.7 2 76 6 25.1 254 113 812 24.2 1900 543 20.5 3 53 7 18.1 244 147 818 32.3 1 549 21.8 3 99 8 35.6 260 210 814 24.9 2 562 25.4 3 124 9 41.0 389 371 1090 15.3 3 593 25.3 3 147 1880 47.3 280 533 1085 8.0 4 600 23.7 4 110 1 37.0 410 595 1364 5.8 1905 589 32.2 5 75 2 45.3 502 599 1365 5.0 6 607 36.4 7 89 3 56.6 593 844 1337 59.8 7 661 40.8 8 180 4 55.0 762 920 1233 71.1 8 667 16.0 5 130 5 60.9 574 1080 1420 126.7 9 644 39.3 15 70 6 61.6 530 1607 1459 76.0 1910 677 41.7 18 54 7 52.0 535 1865 1650 91.2 1 705 35.6 19 43 8 46.2 728 2212 1716 121.1 2 721 44.0 21 58 9 42.2 668 2413 1920 117.1 3 760 46.3 24 4<? 1890 40.2 733 2505 1979 130.8 4 795 34.6 29 66 1 37.6 956 3137 1974 120.1 1915 815 41.6 45 43 2 55.1 991 3282 2327 141.1 6 817 54.5 58 140 3 48.4 958 3661 1939 92.6 7 989 55.6 65 1102 4 56.6 958 3621 2228 66.3 8 1424 56.5 62 1631 5 37.3 1142 4238 2279 48.4 9 1509 44.2 64 1016 6 4967 2141 42.2 1920 1817 51.3 69 329
540 Глава 16 Иллюстрация 7 (продолжение) В) ВТОРАЯ ЧАСТЬ с 1921 г.) тех же ДЕВЯТИ ПОСЛЕДОВАТЕЛЬНОСТЕЙ (начиная 1 Год 1 1 J16 I I (Н#)| IM259I I I I Р196 1 1 (М) | I Х56 I | (М$) | I X286I | <М$)| ID606I |($/у)| IM117I | (М$) | |М251| 1X2741 <Kt) (MSI 1921 43.8 1995 52,770 15142 200.6 1032 25.3 27 461 203 361 232 2 29.3 1984 56,413 16323 173.3 1591 37.1 37 3 18.9 2462 67,239 16899 386.5 1585 57.0 69 4 13.9 24С2 73,256 18349 801.4 1570 44.3 75 5 11.0 2234 82,712 19912 1004.8 1597 51.3 70 205 6 10.4 2518 92,523 20644 1057.4 1613 56.9 74 239 7 10.Б 2231 100,260 21778 1007.1 ——1 51.1 82 256 8 10.4 2176 109,131 22645 1019.1 — 52.8 105 295 9 11.6 2187 122,822 21586 935.0 .— 59.9 114 417 1930 12.7 2063 124,193 23235 995.0 — 48.0 .115 345 1 12.6 1463 117,402 22164 996.5 .— 33.5 89 486 2 10.6 1207 106,915 17428 715.7 — 21.8 52 422 3 7.53 1064 115,087 16742 265.5 — 27.6 43 887 4 7.51 1226 130,287 19896 . 149.7 — 31.8 37 1797 5 3.30 1242 190,147 22477 117.2 35.1 60 913 6 1.21 1342 159,076 26153 100.8 —- 46.3 112 1832 7 .56 1413 170,171 26716 88.1 — 52.4 146 759 8 .45 1105 171,842 26763 78.5 — 32.5 .143 1459 9 ?'.38 1078 180,828 29416 71.9 — 44.3 164 1736 1940 .35 1388 189,508 33014 66.8 — 57.0 206 1062 1 .40 1266 218,083 37273 62.9 65.2 309 1733 2 .28 1471 257,657 40533 59.4 — 70.6 521 2127 3 .21 1451 296,305 54590 56.9 — 71.7 920 8503 4 .16 1298 323,734 65585 54.0 — 74.0 776 20156 5 .18 1068 332,345 76534 .52.1 — 67.3 495 24980 6 .14 968 350,132 80212 50.2 — 58.5 410 14249 7 .47 1158 369,763 77146 47.8 — 73.4 572 2123 8 .64 999 386,916 78753 45.2 — 74.9 623 4108 9 .68 585 385,046 7849 42.7 — 63.6 603 2742 1950 .52 643 392,025 82430 40.8 — 72.7 719 4751 1 .36 785 418,872 86589 39.1 — 79.3 837 6649 2 .46 548 435,616 92719 32.9 68.3 937 6454 3 .48 461 423,129 94475 36.6 —- 78.8 1252 4074 4 .47 396 401,849 99358 35.5 — 59.7 1461 6770 5796 6059 4096 5 .48 420 412,309 98631 34.5 — 75.3 1566 6 •7 .45 .66 448 424,247 442,328 100820 100972 33.5 32.5 — 75.5 2679
У лучшение сглаживания 541 Иллюстрация 7 (продолжение) р) 12 ПОСЛЕДОВАТЕЛЬНОСТЕЙ за пятилетние ИНТЕРВАЛЫ 100 log (сумма за 5 лет) . (сумма за 5 лет) I | С97 II С99 11 С102 I |С123«1 |С124’>| |Е101| I Е109 I IE111I I U6 I I U9 I |U182l |W74 I Год |(Н1ОЯ)| |<Н »од>| |(Н1од)| |(Шод>| |(Н1од)| |<$/b)| |(R/Hp)| |t$/S>| | <М$) | | (М$) | | (MS) | | (#1 | 1775 — — — —• — — — — — — -16 — 1800 —• — — 1.82 10.7 2.50 —— — -3 — 5 — — — — 1.95 10.5 3.61 — — 19 — 10 — —. — — 1.80 9.5 3.94 —. — -10 — 5 — — — —- 1.56 12.5 4.48 — — 5 — 20 — —• (1.29) (1.31) .93 9.8 2.37 — — -108 — 5 1.61 2.40 — 3.74 3.35 .92 7.3 .40 — 12 6 — 30 1.53 2.20 — 3.94 3.89 1.07 5.5 .29 5 -17 -3 — 5 2.37 3.28 — 4.49 4.15 1.22 6.0 .55 11 -30 -103 — 40 1.71 2.55 — 9.76 4.59 1.06 5.5 .27 11 -13 -130 — 5 2.35 2.83 —. 4.80 4.77 1.04 4.8 .40 -9 0 7 44 1850 2.52 2.63 — 5.27 5.32 1.28 3.7 .33 -11 0 -14 297 5 1.32 3.50 — 5.47 5.59 2.44 4.1 .43 169 2 -213 709 60 2.64 3.54 5.07 5.19 1.50 3.1 .42 256 -10 -66 1321 5 2.80 3.54 — 4.83 5.25 2.16 7.1 1.52 205 4 -380 2194 70 ЗЙ7 3.46 — 5.18 5.54 1.37 4.4 .43 193 70 -590 2307 5 4.19 4.43 1.15 5.17 5.57 1.40 3.4 .35 205 111 -688 4335 80 4.38 4.46 1.72 5.04 5.02 1.06 3.7 .38 -61 47 656 3153 5 4.79 5.10 .70 5.36 5.83 .86 2.3 .35 -105 52 23 4359 90 5.18 5.30 3.35 5.14 5.81 .89 3.0 .41 17 66 -776 3983 5 5.39 5.46 4.12 5.20 5.76 .60 2.1 .29 230 100 -258 4585 1900 5.41 5.56 4.33 5.07 5.65 .70 2.6 .48 -118 134 1973 8757 5 5.82 5.98 4.48 5.64 6.09 1.01 1.9 .63 7 113 1613 3943 10 5.97 6.04 4.67 6.07 6.03 1.10 1.9 .68 -74 70 1091 3279 5 5.95 5.97 4.86 6.00 5.90 1.29 1.7 .46 -13 114 2709 7271 20 4.45 5.23 3.85 4.86 5.36 2.46 4.2 1.73 -535 426 17426 8458 5 4.88 5.57 4.27 5.05 5.64 1.67 2.8 1.01 -1323 49 6399 12290 30 4.15 4.92 2.58 4.99 5.27 .90 2.2 .47 -167 93 5456 13781 5 3.55 4.54 2.42 3.65 3.97 1.04 2,6 .50 -2399 -471 2010 15071 40 3.59 4.53 1.82 3.30 3.99 .87 2.6 .37 -12955 -600 4488 25455 5 3.11 2.97 2.05 2.91 3.58 1.66 2.8 .79 -416 91 38354 18880 1950 3.48 4 4.75 2.03 3.81 4.32 2.22 6.3 .53 -4171 -269 34813 18016 5 3.43 4.86 2.06 4.30 4.68 2.26 8.2 .64 -249 —332 24243 12643 * Значения за каждый пятый год.
542 Глава 16 Иллюстрация 7 (продолжение) Д) 12 ПОСЛЕДОВАТЕЛЬНОСТЕЙ за 1920—1957 г. |гоЛ| Н I С124 | 10471 1J194I (#) |(%)| 1 (in) I I L147 1 1 <М1Ь) 1 IL172 1 (М1Ы IHI U6 | (М$) | 1 U9 1 1 (М$) 1 1W77I 1X1991 IY268 [ Ш#1 [(%) <мй 1920 16257 83436 4.0 22.3 119 — 10з —95 26 103 9.9 104 1 32400 162859 11.9 27.5 59 —- -667 -12 116 6.5 154 2 10529 33797 7.6 37.7 93 —• —238 -8 129 7.4 139 3 25S05 86617 3.2 46.4 159 — 114 -294 -2 .148 67 •127 4 27492 112344 4.4 21.8 243 — » 269 —258 36 157 7.4 103 25 1G022 36610 4.0 31.2 315 —— 566 134 35 138 8.2 16Э 6 17390 45199 1.9 31.6 287 20 658 -98 23 150 8.0 119 7 23698 Б5969 4.1 20.6 342 30 554 -6 21 146 7.9 101 8 24161 37904 4.4 36.8 420 30 575 392 19 141 8.2 63 8 19849 21873 3.2 38.4 652 36 395 -175 19 145 7.8 62 1930 13736 18080 8.7 26.9 449 48 334 -280 11 132 4.0 65 1 3422 4806 15.9 37.8 300 29 668 -145 . —2. 114 -1.5 48 2 254 1157 23.8 42.7 312 29 168 446 -5 9G -5.0 47 3 * 134 887 24.9 29.7 610 35 426 173 -41 S1 -9.6 34 4 233 1154 21.7 321 1146 47 975 -1134 -86 114 -5.2 113 35 408 1355 20.1 33.2 1168 60 1140 -1739 -336 109 5.1 212 6 .324 1195 16.9 34.9 1503 64 1243 -1117 -171 107 10.0 379 7 378 1904 14.3 23.3 1140 76 1666 -1586 -80 112 7.1 306 8 609 2411 19.0 21.1 1110 66 1448 -1974 -223 102 6.1 417 9 415 2070 17.2 16.7 1241 87 2040 -3574 -71 105 7.4 361 1940 252 2120 14.К 33.0 S14 100 2531 -4744 -55 98 7.0 360 1 129 732 S.9 47.5 1328 62 3125 -982 -41 85 7.5 407 2 92 493 4.7 40.0 S75 62 4441 -316 -39 68 8.6 433. 3 164 631 1.9 33.6 397 66 5684 -69 3 56 9.1 447 1 201 1030 1.2 27.4 1147 60 4893 845 104 60 10.0 511 45 225 886 1.9 25.7 850 89 2633 106 64 75 11.0 643 6 189 1473 3.9 37.1 531 94 2471 -311 -21 81 10.1 677 7 442 381 3.6 19.3 272 117 1472 -1866 -37 90 8.6 779 8 946 4826 3.4 19.9 373 140 1919 -1680 -58 115 7.6 893 9 933 6192 6.5 35.5 634 141 1316 -686 -50 160 8.2 797 1950 3976 6693 6.0 13.9 715 176 2294 372 -103 168 8.7 706 1 4972 6481 30 25.5 329 159 2986 550 -94 174 7.8 730 2 6289 8969 2.7 32.2 14 180 3622 -684 -62 161 8.2 833 3 1538 5369 2.5 19.3 9 189 4564 -2 -86 166 7.9 891 4 1622 10061 5.0 15.4 137 207 6515 -16 -75 159 S.6 935 5 5486 17518 4.0 19.4 146 196 7810 -97 -65 182 8.1 6 9050 27807 3.8 19.3 70 233 7014 -106 -122 208 7.9 1171 57 4585 21826 4.3 40.1 ’—• — -104 -147 175 8.3 1378 ИДЕНТИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ п. в тысячах фунтов. 100 фунтам стерлингов. Е) Z123: экспорт индиго из Южной Каролины в тысячах фунтов. Z225: импорт табака в Англию из Северной и Южной Каролины Z254: импорт чая из Англии в ее американские колонии в сотнях фунт Z350: средняя цена, по которой продавался в Филадельфии ром из Ново шиллингах за галлон. Z357: средний курс пенсильванской валюты по отношению к Ж) ИДЕНТИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ пп. Б и В: J16: число новых земельных участков, осваиваемых поселенцами в США земли, отдаваемые индейцам), в сотнях участков. .пахтах США’ М259: число несчастных случаев со смертельным исходом на угольнь Р196: число сигарет, производимых в США, в миллионах штук. Х56: суммарный вклад в национальные банки, в миллионах до.I ’ларов, Х286; количество золотых сертификатов в обращении, в миллионах л
Улучшение сглаживания 543 Иллюстрация 7 (продолжение) nf06: среднегодовой заработок наемных рабочих на паровых железных дорогах,- D ’ в долларах. 7. производство кокса, в миллионах «коротких» тонн1’. М251: Первичное производство алюминия (из всех руд), в тысячах коротких тонн. ..у вклады правительства США во все банки, в миллионах долларов. И) ИДЕНТИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ п. Г: гп?. число иммигрантов из балтийских государств. гор' число иммигрантов из Италии. С102: число иммигрантов из Турции в Азию. С12з": число сельскохозяйственных рабочих низкой и средней квалификации среди иммигрантов (до 1899 г.— С129: «фермеры»). С124: число чернорабочих среди иммигрантов, исключая фермеров и шахтеров (до 1899 г.— С131: «чернорабочие»). Е101: оптовые цены на пшеницу, в долларах за бушель. Е109: оптовые цены на гвозди, в долларах за сто фунтов. Е111: оптовые цены на скипидар, в долларах за галлон. W74: число изданных технических патентов. К) ИДЕНТИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ п. Д: С123: число иммигрантов — сельскохозяйственных рабочих низкой и средней ква- лификации. С124: число иммигрантов-чернорабочих, исключая фермеров и шахтеров. D47: процент безработных по отношению ко всему трудоспособному гражданскому населению. J194: годовое выпадение осадков (в дюймах) на экспериментальной метеостанции Бивилл в шт. Техас. L147: прибрежный улов сардин в штатах, расположенных на побережье Тихого океа- на, в миллионах фунтов. L172: производство консервированного тунца (и рыб типа тунца), в миллионах фунтов (вес нетто). М215: выход концентрата вольфрама, в «коротких» тоннах. *J6: излишки экспорта (|-) или импорта (—) золота, в миллионах долларов. 119: излишки экспорта (-|-) или импорта (—) серебра, в миллионах долларов. W77: число зарегистрированных фабричных марок, в сотнях. Х199: чистая прибыль национальных банков, в процентах к общим капиталовложе- ниям. »268: налоги на имущество и состояние, в миллионах долларов. Л) УПРАЖНЕНИЯ Пр°анализируйте последовательности Z123/Z225/Z254/Z350/Z357 из п. А. ‘ ж'*1,к/лЫн/о/п) Проанализируйте последовательности J16/M259/P196/X56/X286Z 7 B606ZM117ZM251ZX274 из пп. Б и В. ' гЛ. Ф'х/н/ч/ш(щ/э/ю) Проанализируйте последовательности С97/С99/С102/С123/, 7aa/a6/24//E101/E10G/E,!l/lJ6/iJS/’J,82/W74 из п' Г' г'®®'аг/аД/ае/аж/аи/ак/ал/ам/ан) Проанализируйте последовательности C123Z, 7ао) П /t)47/J,194/L147/L!72/M215/(J6/(J9/W77/X199/Y268 из п. Д. 7ап) г-,Р°анализиРуйте разность последовательностей С97 и С99. С124 Р°анаЛизируйте отношение последовательности С123 к последовательности анали^а°Ые Указапных выше данных из этого же источника можно использовать для C-ч» И«-'??^гие последовательности, например ’• С107, ЕЮЗ, Е105, М225, М249, Р190, Q185, Q186, Х125, Х274. Короткая тонна =907,2 кг.— Прим, перев.
544 Глава 16 Из раннего издания (1945 г.) этого же источника (где нумерация иная! прочих можно рассмотреть последовательности Е114, F193, G102, Л 69 №i Р67, отношение Р66/Р67, Р111. ’ *’ 1(’6. М) ИСТОЧНИК: Historical Statistics of the United States: Colonial Times 1957. U. S. Dept, of Commerce, 1960. Иллюстрация 8 главы 16: данные и упражнения Дополнительные упражнения для особенно настойчивых (и располагающих вычислительными средствами) 8а/б/в/г/д/е/ж/и/к/л/м/н) Обратитесь к источнику, указанному на илл. 7, М, и проана лизируйте целиком следующие последовательности: С97/С99/С102/С123/С124/Е1Щ/ E109/E111/U6/U9/U182/W74. 8о/п/р/с/т) Обратитесь к источнику, указанному на илл. 7, М, и проанализируйте целиком следующие последовательности: J16/M259/P196/X56/X286. 8у) Найдите достаточно длинные последовательности из интересующей вас области и проанализируйте их. ОБЗОРНЫЕ ВОПРОСЫ Произвольна ли длина интервала исходных данных, которую мы обычно выбираем при вычислении точки сглаженной кривой? Каковы пути дальнейшего усиления сглаживания? Что нужно делать, чтобы плавная компонента не слишком удалялась от исходных данных? 16Д. ЧЕГО МЫ ДОСТИГЛИ? Основная идея более качественного сглаживания состоит в том, что необходимы дополнительные усилия для выделения из неров- ностей того, что можно было бы принять за плавную компоненту (после чего результат прибавляется к первоначальной плавной ком- поненте). Эта идея и процесс ее осуществления служат хорошим до- полнением к тому, что предлагалось ранее для улучшения плавной компоненты, а именно тщательно искать в плавной компоненте то, что могло бы оказаться неровностями (и затем удалять их из плавной компоненты). В результате мы научились О «вычищать» неровности, сглаживая их и прибавляя результат к исходной плавной компоненте (двойное сглаживание, получе повторных неровностей). Теперь мы яснее представляем себе, что ф всегда, когда особенно необходимо, чтобы плавная компонен^^ достаточно хорошо совпадала с исходными данными, следует сгл^>к11а соответствующие неровности, т. е. процедура сглаживания Д завершаться вычислением повторных неровностей; оЖйь'е 0 при необходимости можно использовать достаточно ел приемы сглаживания.
Глава 17 ГРУППИРОВАНИЕ ПОДСЧЕТОВ ПО ЯЧЕЙКАМ УКАЗАТЕЛЬ К ГЛАВЕ 17 Обзорные вопросы 546 17А. Плавные компоненты и неровности квадратных корней (ячейки одинаковых размеров) 546 Длина предплечья 548 Симметрия 549 Концентрация золота 551 Обзорные вопросы 551 17Б. Подсчеты базисных подсчетов 551 Зерновые точильщики на полевых злаках 553 Октавы для логарифмов 554 Размножающиеся пары птиц 555 Дополнительные упражнения 556 Обзорные вопросы 556 17В. Аппроксимация сглаженных корней 557 Как найти точку максимума? 558 Выбор преобразования 559 Нахождение аппроксимирующей зависимости 560 Обзорные вопросы 561 17Г. Зерновые точильщики, цены на пшеницу и мо- дельный эксперимент Стьюдента 563 Модельный эксперимент Стьюдента 565 Колебания цен на пшеницу 568 Обзорные вопросы 571 17Д. Ячейки неравных размеров 572 /-статистика Стьюдента 572 Аппроксимация плавной компоненты 572 Обзорные вопросы 577 17Е. Двойные корни 578 Таблица 578 Сцинтилляции от излучения полония 582 Обзорные вопросы 583 17Ж. Предостерегающие примеры 583 Снова длина предплечья 584 Уточнение положения максимума (дополни- тельный материал) 585 Снова сцинтилляции полония 587 Замечание 587 Обзорные вопросы 589 17И. Чего мы достигли? 589 * 1247
546 Глава 17 Раздел, к изучению которого мы приступаем, посвящен распп леииям величин. В этой главе рассматривается один из наиболее е" щих подходов, когда распределение величины исследуется на ос °^' подсчетов ее попадания в заданную систему «клеток», или «ЯЧр0Ве Последовательности таких подсчетов образует, например, число6**»’ мей с 0, 1, 2, 3 и т. д. детьми или число баскетболистов Националь Се- баскетбольной ассоциации, рост которых заключен в пределах Ка°и дого из последовательных дюймов. Мы начнем с обычного анализа исходных данных и при этом сраз же убедимся, что уже знакомые нам приемы (например, вычисление квадратных корней из подсчетов, усовершенствованная техника сгла живания, описанная в предыдущей главе, и т. д.) окажутся весьма полезными. Получив достаточно гладкую плавную компоненту и тщательно рассмотрев неровности, мы будем далее стараться аппроксимировать ее простой функциональной зависимостью. В данной главе, как и во всей книге, мы ограничиваемся (за несколькими исключениями) за- висимостями, графики которых симметричны относительно максиму- ма. В большинстве случаев этого оказывается вполне достаточно. ОБЗОРНЫЕ ВОПРОСЫ Какой новый раздел мы начинаем? В чем состоит общий подход к проблеме, рассматриваемый в настоящей главе? Что нужно сделать в первую очередь? Насколько полезны при этом предыдущие главы? Что мы будем делать затем? При каких ограничениях? 17А. ПЛАВНЫЕ КОМПОНЕНТЫ И НЕРОВНОСТИ КВАДРАТНЫХ КОРНЕЙ (ЯЧЕЙКИ ОДИНАКОВЫХ РАЗМЕРОВ) Теперь мы можем перейти к обработке последовательностей под- счетов. Как возникают такие последовательности? Обычно благодаря тому что возможные значения наблюдаемой величины (например, рост баскетболистов, число вспышек света в единицу времени, число книг в доме) естественным образом подразделяются на интервалы (часто называемые «клетками», или «ячейками») и регистрация сво- дится к записи числа событий, попавших в каждую из ячеек. (Мы дем использовать слово «ячейка», а не «клетка», поскольку У нег° меньше альтернативных значений.) Часто принимается, что все ячейки имеют одинаковые РазМ<?!^в Конечно, это именно так, например, при разбиении баскетболис по дюймам роста. Равновеликие ячейки — простейшая ситуация,с торой естественно начать, и с нею мы будем иметь дело в настоя разделе. J
Группирование подсчетов по ячейкам 547 Иллюстрация 1 главы 17: длина предплечья Сглаженные корни и их неровности для данных Пирсона и Ли относительно длин предплечья для 1050 мужчин А) Д и НЕРОЕ № .ячей-г # АННЫ! шости Длина, пред- плечья, дюймы КОРНИ, ПЛАВНЫЕ КОМПОНЕНТЫ Число I подсчетов I Первонач. Окончат. | в ячейке | |неров-| ! Сум-I | неров-j Первонач.Корень|ЗПРР| |ЗПРРГ| |мости | |ЗПРРГ) | ма” | |ности» | 0 0 0 0 0 б 0 . 0 0 .2 -.2 0 .2 -.2 1 15-15.5 1 1-0 1.1 -.1 -1 1,0 о 15.5-16 6.5 2.5 2.6 -.1 -.1 2.5 0 3 16-16.5 17 4.1 4.4 -.3 -Л 4.3 -.2 16.5-17 49 7.0 7.3 -.3 -Л 7.2 -.2 5 17-17.5 125.5 11.2 10.9 .3 .2 11.1 .1 17.5-18 200 14.1 14-1 13.4 .7 .5 13.9 .2 7 18-18.5 235.5 15.3 14.1 14.0 1.3 .6 14.6 . .7 18.5-19 183.5 13.5 13.1 .4 .4 13.5 0 9 19-19.5 125.5 11.3 11.0 .3 .3 11.3 0 19.5-20 57.5 7.6 8.0 -.4 .2 8.2 -.6 11 20-20.5 31.5 5.6 5.4 .2 0 5.4 .2 20.5-21 8 2.8 3.3 -.5 -.1 3.2 -.4 13 21-21.5 3.5 1.9 2.0 -.1 -.1 1.9 0 21.5-22 2 1.4 1.6 1.6 -.2 -.1 1.5 -.1 15 22-22.5 2.5 1.6 1.4 1.1 .5 0 1.1 .5 0 0 .4 -.4 0 .4 —.4 0 Э 0 0 0 0 0 (Общее число) (1050) «Сумма» есть окончательная плавная компонента, т. е. сумма обоих столбцов ЗПРРГ. «Окончательные неровности»=«корень» МИНУС «сумма». Замечание: «Половины подсчетов» возникают в результате деления пополам числа тех измерений, которые попадают на границы ячеек и распределяются поровну между этими соседними ячейками. Б) БУКВЕННЫЕ ЗНАЧЕНИЯ для НЕРОВНОСТЕЙ (с учетом нулевых строк в начале и в конце) #17 М8 С4п В2п ,5п --.6п одно XXX 1.0 0 • 1 -.2 .2 -.4 В) УПРАЖНЕНИЯ j *0 с нев?аВЬГе ДиагРаммУ типа «стебель с листьямл» для множества окончательных г, Ровностей и проверьте правильность приведенного в п. Б буквенно-числового 16) цРоДотавления. ЗПРРгИТе еще Раз пРоНеДУРУ вычисления неровностей, используя алгоритм 1б2> Состав’ Ул*~ись ли неровности? Почему (или почему нет)? уппТа|!рТе буквенно-числовое представление для неровностей, полученных в Р- 16 и сравните его с п. Б. Прокомментируйте результаты. 18*
548 Глава 17 Иллюстрация 1 (продолжение) 1в) Проверьте первый столбец ЗПРРГ в таблице п. А. 1г) Проверьте второй столбец ЗПРРГ в таблице п. А. 1д) Составьте модифицированную буквенно-числовую диаграмму (см. Прокомментируйте результаты. Разд. 7Е). Г) ИСТОЧНИК: Pearson К., Lie A. On the laws ol inheritance in 1. Inheritance of physical characters. BMTA 2, 357—462, 1903 (таблица в текст₽ ЭП’ с. 367). на Общий принцип остается прежним: имея дело с ПОДСЧЕТАМИ, мы всегда НАЧИНАЕМ с их преобразо- вания — по меньшей мере с вычисления их квадратных КОРНЕЙ. В нашем первом примере подсчеты основаны на измерениях. ДЛИНА ПРЕДПЛЕЧЬЯ На илл. 1 представлены результаты обработки данных Пирсона и Ли, полученных на основе измерений длины предплечья у 1050 муж- чин. Процедура сглаживания стандартная (см. гл. 7 и 16). Мы доба- вили по две строки нулей выше и ниже строк с ненулевым подсчетом, поскольку, конечно, могут существовать люди с предплечьями длин- нее или короче измеренных в данном эксперименте. Результаты графически изображены на илл. 2 (плавная компонен- та) и 3 (неровности). Обратите внимание на гладкость и симметричность кривой илл. 2, а также на способ, которым указаны на илл. 3 буквен- ные значения неровностей: барьеры, восьмые доли, сгибы и медиана. Иллюстрация 2 главы 17: длина предплечья Плавная компонента: результаты сглаживания корней от подсчетов в полудюймовых ячейках для данных Пирсона и Ли (на основе вычислений илл. 1) Длина предплечья, ДК>0мЫ
Группирование подсчетов по ячейкам 549 Иллюстрация 3 главы 17: длина предплечья Неровности (в стандартной форме изображения) для плавной компоненты илл. 2 (с учетом нулевых строк в начале и в конце) Ближайшие к неровностям горизонтальные метки соответствуют зна- чениям, приведенным на илл. 1, Б, а более удаленные — эталонным буквенным значениям, с которыми мы будем сравнивать буквенные значения каждого множества неровностей квадратных корней, а именно: М=0, С=±0,34, В=±0,58, б=±1,36. По опыту мы знаем, что точки неровностей должны быть сосредо- точены в пределах этих стандартных отклонений, однако слишком компактное расположение неровностей (их малый разброс) в данном примере заставляет подозревать, что пример специально подобран с целью иллюстрации полного соответствия с некоторой функциональ- ной зависимостью. СИММЕТРИЯ Ясно, что гораздо легче описать структуру подсчетов, когда она симметрична. Если симметрии можно добиться каким-либо простым I ^образованием данных, то несомненно имеет смысл его применить. ход1 °бРаботке результатов измерений в большинстве случаев при- предТСЯ использ°вать 'преобразования данных. Типичный пример пороТаВЛяют измеРения концентрации химических веществ в горных цецТпаХ’ В ВОде’ зеРне> КРОВИ или тканях животных (если эти кон- даннь и‘ИИ Не слишком велики или не слишком малы). При таких Рифм.1х исследователь должен, почти не задумываясь, брать лога-
550 Глава 17 Иллюстрация 4 главы 17: пробы золота Сглаженные корни и соответствующие им неровности для содержания золота в 1536 пробах из шахты Сити-Дип (в пеннивейтах) А) ДАННЫЕ, КОРНИ, ПЛАВНЫЕ КОМПОНЕНТЫ и НЕРОВНОСТИ ячей- | ни Число Корень Из под Первонач. Окончат 1 неров- .Сум- |неров4 j # | Интервал j проб счета |ЗПРРГ| ности |ЗПРРГ| | ма | ности (0—5) (910) 1 5 — 10 208 2 10—20 198 3 20— 40 124 4 40 — 80 52 5 80 — 160 34 6 160 — 320 8 7 320 — 6400 2 8 (Общее число) (1536) 14Г4 14.4 Q 0 14.4 0 14.1 13.4 .7 .2 13.6 .5 11.1 10.8 .3 .3 ид о 7.2 7.8 -.6 .2 8.0 а 5.8 5.4 .4 0 5.4 .4 2.8 3.2 -.4 0 3.2 1.4 1.4 0 0 1.4 о' 0 .4 -.4 0 .4 -4 0 0 0 0 0 0 Замечания 1. Мы не можем добавить ни одной строки нулей ниже наименьших значений кон- центрации (в то время как выше наибольших добавили две), поскольку неизвестно, сколько из 910 проб, попавших в интервал от 0 до 5, в действительности имело концентрацию от 2,5 до 5. (Исходные данные сгруппированы по интервалам кон- центрации длиной 5.) 2. Использование для анализа интервалов, обычно называемых октавами и соот- ветствующих удвоению значений измеряемой величины, часто удобно, когда за- даны сами измерения, а анализируются их логарифмы. Б) БУКВЕННЫЕ ЗНАЧЕНИЯ МНОЖЕСТВА ОКОНЧАТЕЛЬНЫХ НЕРОВ- НОСТЕЙ #8 М4п С2П Bin 0 .2 -4 .6 ,4п -.6 1.0П б 1.1 ххх -1.3 ххх В) УПРАЖНЕНИЯ 4а) В работе: Flacker S. В., Brischle И. A. Measuring the local distribution of Ribes- Ecology, 28, 288—303, 1944 (рис. 3 на с. 29) — приведены следующие данные, теризующие число участков площадью 2,5 акра в Национальном парке Клиру на которых встречается данное число экземпляров растения вида Ribes: Растения 0 1 2—3 4—7 8—15 16—31 32—63 64—127 128—255 свыше 256 Участки 43748 8 16 6 4 4 Проанализируйте данные по описанной выше методике. Г) ИСТОЧНИК: Koch G. S., Jr., Link R. F. Statistical Analysis of Geolog1 Data, John Wiley and Sons, New York, 1970 (табл, 6,5 на с, 216).
Группирование подсчетов по ячейкам 551 X КОНЦЕНТРАЦИЯ ЗОЛОТА На илл. 4 анализируются результаты измерений концентрации золота в 1536 образцах, отобранных в шахте Сити-Дип, Центральный Витватерсранд, ЮАР, по данным Коха и Линка. Концентрация выражена в пеннивейтах (1,552 г) на тонну. На илл. 5 и 6 показаны плавная компонента и неровности соот- ветственно. Мы мало что можем сказать о симметрии сглаженной кривой, поскольку она даже не достигает своего максимума. Что ка- сается неровностей, то 1) они выглядят достаточно нерегулярными и 2) их буквенные значения разнесены настолько, насколько можно было ожидать,— они несколько сжаты по сравнению со стандартными, однако далеко не в такой степени, как на илл. 3. В общем они выгля- дят более или менее естественно. ОБЗОРНЫЕ ВОПРОСЫ Как возникают последовательности подсчетов? Почему мы упот- ребляем термин «ячейка»? Каков общий принцип при обработке под- счетов? С какого примера мы начали? Как мы его анализировали? Что получили в результате? Каков наш стандартный способ оценки разброса неровностей сглаженных корней подсчетов? Как мы исполь- зуем эталонные значения для бВСМСВб? В чем польза симметрии плавной компоненты? Каковы наши рекомендации при обработке данных измерений химической концентрации? К чему относился наш следующий пример? Отличался ли чем-нибудь его анализ? Что мы получили в результате? 17Б. ПОДСЧЕТЫ БАЗИСНЫХ ПОДСЧЕТОВ Один из тественным, случаев, когда понятие ячейки является совершенно ес- ,— это случай наблюдений, которые сами по себе являются подсчетами: число книг в каждом из домов, число детей в каждой из емеи, число вспышек света в течение интервала, равного одной вось- он минуты, и т. д. В такой ситуации возникаю! два вида подсчетов, ° Заставляет нас соблюдать осторожность и применять к исходным п Л1°Дениям термин «базисные подсчеты», в то время как обработке Двергаются уже «подсчеты базисных подсчетов». зИс Ряде случаев наиболее прямой путь — это принять каждый ба- л11к,Ь1и подсчет за ячейку и рассматривать все ячейки как равнове- Инл&е’ “ °Дном из следующих разделов этой главы мы рассмотрим ОД ПОДХОД.
552 Глава 17 Иллюстрация б главы 17: пробы золота Плавная компонента (корней подсчетов) Иллюстрация 6 главы П: пробы золота Неровности (для плавной компоненты илл. 5)
Группирование подсчетов по ячейкам. 553 Иллюстрация 7 главы 17: полевые злаки Сглаженные корни и соответствующие им неровности для данных о числе вредителей (зерновых точильщиков) на полевых злаках по агализу 3205 растении (только куколки и личинки в 5-й стадии) д) ДАННЫЕ; КОРНИ, ПЛАВНЫЕ КОМПОНЕНТЫ И НЕРОВНОСТИ | Корни из подсчетов 1 Окончат, | неров-| (Подсчеты^ первонач. сглаженные сумма I ности | кбуквенные) 1 значения)! 588 807 24.2 28.4 24.2 26.4 25.5 27.7 -1.3 .7 741 27.2 25.9 27.0 .2 (-1.7л б) 479 21.9 22.3 22.9 -1.0 (-1.0 В) 328 18.1 17.6 17.6 .5 ( ~.4п С) 159 12.6 12.9 12.6 0 ( ,0л М) 67 8.2 8.4 8.1 .1 ( .4 ,с) 22 4.7 5.0 4.7 0 ( -7 в) 5 2.2 3.0 2.8 -.6 ( .7 б) 7 2.6 2.1 2.2 .4 (внешн.: ххх) 2 1.4 1.2 1.4 .0 0 0 .4 .4 -.4 (0) (3205) Б) УПРАЖНЕНИЯ 7а) Попробуйте сгладить окончательные неровности из п. А алгоритмом ЗПРРР и прибавить результат к «сумме». 7а2) Как выглядят теперь буквенные значения? Как сравнить их 1) с эталонными значениями, 2) с буквенными значениями п. А? 7аЗ) Начертите графики соответствующих неровностей. 76) В том же источнике (см. ниже) приведены результаты подсчета всех вредителей на каждом растении. Подсчеты в ячейках, начиная с нулевой, равны: 355, 600, 781, 567, 411, 2105, 135, 42, 17, 11, 11. Повторите анализ для этих данных, В) ИСТОЧНИК: McGuire J. U., Brindley Т. A., Bancroft Т. A. The distribution of European corn borre larvae Pyrausta nubilalis (Hbn.), in field corn. Biometrics, 13, 65—78, 1957 (распределение 2 на с. 75). ЗЕРНОВЫЕ ТОЧИЛЬЩИКИ НА ПОЛЕВЫХ ЗЛАКАХ На илл. 7 приведена обработка данных о заражении полей вреди- телем — зерновым точильщиком (куколки и личинки в 5-й стадии), полученных на основе анализа проб с 3205 растений по данным Мак- ‘ аира, Бриндли и Банкрофта. При сглаживании кривой распределе- ния следует соблюдать некоторую осторожность в области малых л'/Дчеиий- поскольку, конечно же, число точильщиков на поле НЕ МОЖЕТ быть МЕНЬШЕ нуля. В примере илл. 1 ситуация была иной. В принципе существуют Ужчины с длиной предплечья в пределах 14,5 и 15 дюйм, поэтому Могли (и должны были) добавить нули ниже первого подсчета, чанном же примере мы не можем приписать нуль значению —1. че остР°ение графика неровностей мы оставляем читателю в ка- стве упражнения. В данном случае неровности приблизительно
564 Глава 17 Иллюстрация 8 главы 17: полевые злаки Плавная компонента (по данным илл. 7) Корни из подсчетов ',Л"\ I ' V X \ 20 ~ \ \ ч \ \ \ \ \ \ Число зерновых '°-'-^.^точильш,инод на растении 5 10 такие, какими они должны быть (возможно, чуть больше). (Если объяснить большие отрицательные значения неровностей в ячейках О и 3 тем, что эти точки «выскочили», мы бы почувствовали тренд. Однако у нас нет оснований считать эти точки «выскочившими».) На илл. 8 изображена плавная компонента. В рассматриваемом примере мы потеряли почти половину симметричной кривой. В ряде случаев, когда мы имеем дело с «подсчетами базисных под- счетов», использовать ячейки одинаковых размеров оказывается неудобным. В частности, построенная на таких ячейках кривая рас- пределения может иметь длинный хвост, затрудняющий ее использо- вание. Чтобы избежать этого, часто целесообразно перейти к корням или логарифмам базисных подсчетов. Используя корни, мы, как правило, должны применять неравные ячейки (неравные на шкале корней). Соответствующий пример будет вскоре разобран. ОКТАВЫ ДЛЯ ЛОГАРИФМОВ Переходя к сдвинутым логарифмам базисных подсчетов, мы мо- жем получить равные ячейки, если используем октавы. Рассмотрим последовательность ячеек: (1), (от 2 до 3), (от 4 до 7), (от 8 ДР * £ (от 16 до 31) и т. д. Ей соответствуют пороги: 0,5; 1,5; 3,5; 7,5: 1&’ • 31,5 и т. д. Для величин «подсчет плюс 0,5» пороги будут равны 1> • 4, 8, 16, 32 и т. д., так что ячейки для величин «log (подсчет пл 0,5)» оказываются одинаковой длины. Описанная процедура уД° и часто приводит к хорошим результатам.
Группирование подсчетов по ячейкам 555 РАЗМНОЖАЮЩИЕСЯ ПАРЫ ПТИЦ Для данных, приведенных на илл. 9, базисным подсчетом является число размножающихся пар каждого из видов птиц, обитающих е Двакер-Ран-Валли, шт. Нью-Йорк (по данным Саундерса). В дан- ном случае мы не пытались прибавлять нули в начало и конец столбца распределения видов по ячейкам. и Небольшое число ячеек позволяет достаю шо наглядно изобразить графически (илл. 10) как плавную компоненту, так и соответствующие неровности. Снова мы получаем достаточно симметричную плавную компоненту при не очень большом разбросе неровностей. Рассмотрим внимательнее, что получилось бы, если бы мы на сгруппировали подсчеты. Согласно ил ч. 9, по одной размножающейся паре имеют 2 вида птиц, меньше восьми размножающихся пар имеют 16 видов, т. е. на базисный подсчет зд :ь приходится чуть больше двух видов. В то же время в промежуток от 512 до 1023 размножаю- щихся пар попадает всего 4 вида, а в промежуток от 1024 до 2047 — всего 3 Таким образом, невозможно найти такое разбиение шкалы Иллюстрация 9 главы 17: долинные птицы Сглаженные корня и соо|ве1ствующие им неровности для данных о числе пар размножающихся птиц различных видов в Квакер-Ран-Валли, шт. Нью-Йорк А) ДАННЫЕ, КОРНИ, ПЛАВНЫЕ КОМПОНЕНТЫ И НЕРОВНОСТИ № ячей- £ 1 Число . размножающихся Подсчеты | Корни из подсчетов | Окончат | неров- 1 1Буквенные[ пар видов первонач ЗПРРГ сумма ности значения 1 1 0.5 —1.5 2 1.4 . 1.4 1.4 0 2 1.5 —3.5 5 2.2 2.2 2.3 -.1 3 15 — 7.5 9 3.0 2.8 3.0 0 (внеш.: ххх) I 4 7.5—15.5 10 3.2 3.0 3.2 0 (-1.0 б) 5 15.5 — 31.5 8 2.8 3.0 3.2 -.4 (-.4 В) 6 31.5 — 63.5 13 3.6 3.0 3.1 .5 (-.3 С) 7 63.5—127.5 6 2.4 3.0 3.0 -.6 ' (0 М) 8 127.5 — 255.5 9 3.0 3.0 3.0 0 (.1п с) 9 255.5 — 511.5 11 3.3 2.9 2.8 .5 (5 В) 10 511.5 —1023.5 4 2.0 2.5 2.2 -.2 (.8п б) 11 1023.5 —2047.5 3 1.7 1.5 1.4 .3 ( внеш.: ххх) 12 2047.5 — 4095.5 0 0 .4 .4 -.4 (общее число) (80) 0 0 0 0 Б) УПРАЖНЕНИЯ ЧПРРГ. Что вы 9а) Попробуйте сгладить окончательные неровности алгори скажете о результате? 29 оЛ ИСТОЧНИКИ; Preston F. U7. The commonness, and rarity, of species. Ecology Run vTi ’ 1948 (табл. '-A Ha c- 258); Saunders A. A. Ecology of the birds of Quaker 16, i93g ey> А11е8ЬапУ State Park, New York, New York State Museum Handbook,
656 Глава 17 Иллюстрация 10 главы 17i долинные птицы Плавная компонента и неровности: корни из подсчетов видов птиц по числу размножающихся пар (по данным илл. 9) пар на ячейки фиксированной длины, которое нас всюду удовлетво- рило бы. Или ячейки будут слишком короткими, начиная с 512 пар, так что в них не попадет ни один вид, или слишком длинными в на- чальной области, так что будут вмещать практически все виды. Без группировки базисных подсчетов по октавам ситуация получится сложной. ДОПОЛНИТЕЛЬНЫЕ УПРАЖНЕНИЯ Илл. И содержит данные и пояснения для ряда дополнительных упражнений. ОБЗОРНЫЕ ВОПРОСЫ Всегда ли можно группировку подсчетов рассматривать как грУф пировку в пределах точности измерений (как это делалось в перв^ примере)? Какой пример был следующим? Что мы увидели, следовало далее?
Группирование подсчетов по ячейкам 557 Иллюстрация П главы 17: упражнения Данные и дополнительные упражнения на сглаженные корни и их неровности А) ПОДСЧЕТЫ ДРОЖЖЕВЫХ КЛЕТОК В ГЕМОЦИТОМЕТРЕ _ „иные подсчеты 0 1 2 3 4 5 6 7 S подсчетов ЮЗ 102 268 143 32 17 10 0 Б) ПОДСЧЕТЫ РАСТЕНИЙ Salicornia еигореа На площади 625 см2 На площади 2500 см2 0* 23334455556789 0* 3445555567889 1 1122344778 1 12334566789 2 002336888999 2 11122356 3 01146799 3 00355635 4» 00235789 4» 7 5 000011222345 5 8 6 011234578889 6 169 7 00334567889 7 8* 228 8* 0 8 116 9 10 04 1** 01,02,04,29,35,39 11 07 • 52,71,73 12* 7 2** 25,32,35 13 23 В) УПРАЖНЕНИЯ На) Можно ли использовать октавы при анализе данных п. А? Объясните ответ. Сделайте то, что вы считаете наилучшим. Нб/в) То же применительно к данным в левой и правой частях п. Б. Г) ИСТОЧНИКИ: для п. А — Student. On the error of Counting with a haemocy- tometer. Biometrika, 5, 531—360, 1907 (пример (2) на с. 356); для п. Б — Ashby Е. The quantitative analysis of vegetation. Annals of Botany, 47, 779—803, 1935 (табл. Ill на c. 190 и табл. IV). 17В. АППРОКСИМАЦИЯ СГЛАЖЕННЫХ КОРНЕЙ После того как в результате сглаживания наша плавная компо- нента приобрела достаточно хороший вид, следующим шагом яв- ляется попытка «подогнать» под нее какую-либо простую функцио- нальную зависимость (иногда это целесообразно делать после предва- рительного преобразования данных). Простейшая аппроксимация, которая дает гладкий симметричный максимум, например для данных Орсона и Ли (илл 1), есть прямолинейная зависимость (некоторой функции от корней из подсчетов) ОТ (Алины предплечья МИНУС абсцисса максимума его распределения) •
558 Глава 17 Иллюстрация 12 главы 17: длина предплечья Нахождение точки максимума с помощью центров сечений (отмечены знаком «Л») (Каждый знак Л означает кажущееся положение точки максимума) Сглаженные норна н (Как мы увидим далее, именно квадрат обеспечивает и симметрию подгоняемой зависимости и наличие максимума.) Мы будем называть словом «смещение» разность между текущей точкой В и точкой макси- мума (горизонтальной координатой максимума). При таком обозначе- нии имеем: В=точка максимума ПЛЮС смещение, смещение = В МИНУС точка максимума, аппроксимация = константа ПЛЮС (угловой коэффициент) X X (смещение)2. Таким образом, мы должны для любого множества данных о найти точку максимума, ф выбрать подходящее преобразование, 0 подогнать под преобразованные данные прямую. КАК НАЙТИ ТОЧКУ МАКСИМУМА? Найти точку максимума, используя значения кривой вблизи вер шины, обычно очень трудно. При этом даже незначительные неРгла3 лярности могут увести нас от истинной точки. Как мы судим на о положении максимума при условии, что плавная компонента в дит симметричной? В общих чертах алгоритм таков. Двигаясь в _ вершины, мы выбираем две точки на одинаковой высоте и деЛ11тоцеК, ность их абсцисс пополам. Для быстроты удобнее начинать с
Группирование подсчетов по ячейкам 559 сенных на график. На илл. 12 на примере данных о длине пред- наН5ья показано, как эту процедуру можно реализовать графически. Нл|лует отметить некоторую тенденцию точки максимума сдвигаться Сл аво с понижением уровня «засечек». На илл. 13 то же самое про- дано арифметически. д в левой части илл. 13, Б нанесены сглаженные значения квадрат- ых корней подсчетов в зависимости от квадрата смещения. Отметим, что мы использовали крестик для точек с одной стороны кривой и кружок для точек с другой ее стороны. Это позволяет судить о том, существует ли систематическое отличие в поведении одной половины кривой относительно другой ее половины (небольшая «систематика» в данном случае имеется) или расхождения нерегулярны. На этой иллюстрации мы видим, что «прорисовывается» достаточно четкая линия, которая, правда, далека от прямой. Следовательно, необходимо ввести какое-то преобразование плавной компоненты квадратных корней подсчетов. Иллюстрация 13 главы 17: длина предплечья Нахождение точки максимума для данных Пирсона и Ли из илл. 1 А) ПЛАВНАЯ КОМПОНЕНТА КОРНЕЙ, АБСЦИССЫ ПРОТИВОЛЕЖАЩИХ ТОЧЕК И КВАДРАТЫ РАЗНОСТЕЙ № ячеи- Противо- Абсцисса •Квадрат I log •ки| 1 Сглаженные 1 ) л сложные | Суммы минус ЭТОГО [оглаженных 1 корни 1 абсциссы абсцисс 8,25 значения | корней 1 .2 17.0 18.0 -7.25 52.6 -.70 1.0 16.2 18.2 -6.25 39.1 .00 3 2.5 13.5 16.5 -5.25 27.6 .40 4.3 12.5 16.5 -4.25 18.1 .63 Б 7.3 11.3 16.3 -3.25 10.6 .86 11.2 10.1 16.1 -2.25 5.1 1.05 7 13.8 -1.25 .1.6 1.14 14.4 —— -.25 .1 1.16 9 13.5 6.9 15.9 .75 .6 1.13 11.3 6.1 16.1 1.75 3.1 1.05 11 8.2 5.2 16.2 2.75 7.6 .91 5.4 4.4 16.4 3.75 14.1 .73 13 3.2 3.4 16.4 .4.75 22.6 .50 1.9 2.6 16.6 5.75 33.1 .28 15 1.5 2.4 17.4 6.75 45.6 .18 1.1 2.1 18.1 7.75 60.1 .04 17 .4 1.5 18.5 8.75 76.6 -.40 0 Медиана 16.5 Точка макс. 8.25 .УРОВНЮ 7,3 соответствует абсцисса 5, а на другой стороне кривой — точка &-J-11 ч—tc *2 (соответствующая интерполяция приводит к значению 11,3). Далее, столб! ~г '3 дано в столбце «Сумма абсцисс». Замечание. Увеличение значений в о тенд *^‘Умма абсцисс» при движении к «хвостам» распределения свидетельствует окии, еЕЦИИ к нарушению его симметрии относительно точки 8,25 — правый хвост «взывается длиннее левого.
5G3 Глава 17 Иллюстрация 13 (продолжение) Б) ГРАФИК ЗАВИСИМОСТИ ОТ КВАДРАТА СМЕЩЕНИЯ Сглаженные корни 4 log сглаженных корней ~0 квадрат снещ. ~50 * о Квадрат рывщ. О 50 * ВЫБОР ПРЕОБРАЗОВАНИЯ Мы уже знаем, как приступить к подбору преобразования, оттал- киваясь от нескольких выбранных точек кривой. Анализируя илл. 13, мы сначала останавливаемся на точках (0; 15), (10; 7,5), (20; 3,9). Тщательное рассмотрение этих трех точек заставляет выбрать лога- рифмическое преобразование сглаженных корней. Действительно, абсциссы этих точек (0; 10; 20) равноотстоят друг от друга, в то время как ординаты отличаются приблизительно постоянным множителем. Числовые значения логарифмов приведены в правой части илл. 13, А. Справа на илл. 13, Б изображены логарифмы сглаженных корней в зависимости от квадрата смещения. Точки явно ложатся на прямую. Это свидетельствует о том, что мы выбрали правильное преобразова- ние. Однако следует отметить, что в нижнем правом углу графика точки, нанесенные в виде кружков, лежат ниже крестиков. Это указывает на тенденцию й нарушению симметрии нижней части исходной кривой относительно выбранной точки максимума. НАХОЖДЕНИЕ АППРОКСИМИРУЮЩЕЙ ЗАВИСИМОСТИ На илл. 14 на том же самом графике проведена прямая. Поскольку в”д Проходит через точки (°: Ы7) и (50; —0,24), ее уравнение имеет log (сглаженные корни) = 1,17—0,0282 (квадрат разности).
Группирование подсчетов по ячейкам 561 Иллюстрация 14 главы 17: длина предплечья Окончательный график с аппроксимирующей прямой log сглаженных корней При х=0 «/=1,17, при х=50 у——0,24, Дх=50 соответствует Ьу=—1,41, Дх= 1 соответствует Д«/:=—0,0282; следовательно, «/=1,17—0,0282 (В —8,25)2. КВаарат разности ___। > во Результаты вычислений с использованием этой зависимости приве- дены на илл. 15. Остатки графически изображены в п. Б этой иллю- страции. График свидетельствует о довольно умеренной нерегуляр- ности остатков и наличии некоторого тренда. Кроме того, буквенные значения множества остатков больше, чем стандартные. Это вызы- вает сомнение: достаточно ли удачна наша подгонка? Чтобы ответить на этот вопрос, сгладим остатки — вычисления приведены на илл. 15, А, график сглаженных остатков — на илл. 15, В. Значения сгла- женных остатков достаточно велики — они достигают «сгибов» для несглаженных остатков, что убеждает нас в необходимости улучшить аппроксимацию. ОБЗОРНЫЕ ВОПРОСЫ Какова общая форма зависимости, которую мы собираемся ис- пользовать в качестве аппроксимирующей? Что мы называем смеще- нием? Какова простейшая из зависимостей от смещения, имеющих Желаемый вид? Какая функция зависит наиболее просто от величины (смещение)2? Как искать точку максимума? Годится ли этот способ н случае несимметричного распределения? С какого примера мы ‘цЧали? Каков был результат? Для чего мы выбирали три точки.
562 Глава 17 Иллюстрация 15 главы 17: длина Пре()пЛтья Вычисления при подгонке прямой линии для графика илл. 14 (первая подгонка) А) ВЫЧИСЛЕНИЯ—точка максимума=8,25, аппроксимирующая прямая= = 1,17—0,0282 (разность)2 № ячей- 1 Ки 1 Интервал # Значения аппр. корни наб- людений log корней К°РНИ 15-15.5 1 3 5 18-13.5 7 9 11 13 22-22.5 15 17 -.31 .5 0 .07 1.2 1.0 .39 2.5 2.5 ,66 4.6 4.1 .87 7.4 7.0 1.03 10.7 11.2 1.12П 13.3 14.1 1.17 14.8 15.3 1.15П 14.3 13.5 1.08П 12.2 11.3 ,95п 9.0 7.6 .77п 6.0 5.6 ,53п 3.4 2.8 .24 1.7 1.9 -.11 .8 1.4 -,52п. .3 1.6 —.99 .1 0 Неров- |£)ста-. н ости1’ 1ТКИ 1 I ЗПРРГ 0 .2 0 —.5' -.2 —.2 —.2 (буквен- 0 о -.2 1 ные зна-1 —.2 —.5 0 I чения2') | -.3 -.4 .4 (внеш.; нет) 0 .5 .5 (-1.5 б) .3 .8 .5 ( -.6 В) .9 .5 .2 (- з С) и -.в —.5 < в лг( 0 -.9 —.8 ( .5 С) -.6 -.7 -.8 ( .5 В) .2 —.4 -.6 ( 1-7 б) —.4 -.6 -.3 (внеш.: нет) 0 .2 .2 -.1 .6 .5 .5 1.3 .6 -.4 —.1 .6 Пример: 1,12 п= 1,17 — (0,0282) (1,25)? Ч Из илл. 1. в> Для несглаженных остатков. Б) ГРАФИК ОСТАТКОВ (в том виде, как они есть) № ячейки
Группирование подсчетов по ячейкам 563 Иллюстрация 15 (продолжение) В) ГРАФИК СГЛАЖЕННЫХ ОСТАТКОВ № ячейки -------> 17Г. ЗЕРНОВЫЕ ТОЧИЛЬЩИКИ, ЦЕНЫ НА ПШЕНИЦУ И МОДЕЛЬНЫЙ ЭКСПЕРИМЕНТ СТЫЮДЕНТА Вернемся к примеру (илл. 7) о распределении числа зерновые точильщиков на полях. График плавной компоненты корней дости- гает своего максимума и в одной нулевой точке опускается вниз. Нулю на оси абсцисс соответствует 24,2 подсчета. Симметричной относительно точки максимума число на оси абсцисс равно 2,7. Таким образом, в качестве первого приближения для точки максимума можнс) взять число 1,3. На илл. 16 приведены вычисления, связанные с на- хождением зависимости для данных илл. 7. В левой части илл. 16, Е> изображены значения логарифмов от сглаженных корней в зависи. мости от квадратов смещения. Из графика следует, что наилучшиц перзым приближением здесь будет прямая. Вернемся к илл. 16, А и вычислим остатки при подгонке прямой. График остатков изображен в правой части илл. 16, Б. Мы видим, чт() первые пять точек этого графика (обозначенные кружками) доста. точно хорошо ложатся на прямую. Имеет определенный смысл ис- пользовать эту прямую, не обращая внимания на остальные шеей, точек, обозначенные крестиками, поскольку первым пяти точкам соответствует большая часть подсчетов и значения логарифмов, наи- лУчшим образом ложащиеся на прямую. Мы получаем, таким образом, СлеДУющую модифицированную зависимость для логарифмов сглажен. Нь'х корней: 1,45—0,031 (В—1,3)2 ПЛЮС—0,005+0,002 (В—1,3)2, Чт° дает в результате 1,445—0,029 (В—1,3)2, где в u — число точильщиков на растении.
564 Глам 17 Иллюстрация 16 главы 17: полевые злаки Пробная аппроксимация данных о зерновых точильщиках (плавная компонента из илл. 7, точка максимума, равная 1,3,_из текста) А) АППРОКСИМАЦИИ И ОСТАТКИ Число точиль- щиков на рас- тении . Сглажен- ! ные I корни I log с гл аж. корней (Смеще- I ние>2 I 1,45 - - 0,031. (смеще-1 ние)2 | 0 25.5 1.41 1.7 1.40 27 7 1.44 ,1 1.44 2 27 0 1.43 .5 1.43 22.9 1.36 2.9 1.37 4 17.6 1.25 7.3 1.27 12.6 1.10 13.7 1.12 6 8.1 .91 22.1 .92 4.7 .67 32.5 .68 8 2.8 .45 44.9 .39 2.2 .34 59.3 .05 10 1.4 .15 75.7 -.33 .4 -.40 94.1 —.76 12 (0) (М) Остат-0.005 -Улучшение ки . - 0.002 | ПОДГОНКИ | I log I корней (смеще- ние)2 I log, Л 1(Буквен-» кор] . кор- ные зна! | ней] | ни | |Остатки| j ченияД .01 -.00 1.40 25.1 .9 .00 -.01 1.45 28.2 2 .00 -00 1.43 26.9 з (внеш.: одно) -.01 -.00 1.37 23.4 -1 5 (1.7 о) -.02 -.01 1.26 18.2 -.1 ( ,7 в) .02 -.02 1.Ю 12.6 0 ( 5пС) .01 -.04 .88 7.8 .6 ( 2 М) -.01 -.06 .62 4.2 .5 (-.2 С) .06 -.08 31 2.0 .2 (-9 В) .29 -.11 .06 .9 1.3 (1.30 6) .48 -.15 —.18 .7 .7 (внеш,.-ххх) .36 —.18 -.94 .1 ,3 Б) ГРАФИКИ <У wk 'О о о 7,0 - о с с о Л - о умещение? О 20 40 60 а Ост сток («у) 6 а— при к—0 у— 1,45, при х=40 «/=0,21, Лх=40 соответствует Д«/=—1,24, Дх=1 соответствует Д«/= — 0,031; следовательно, «/=1,45—0,031 (В — l,3)z, б — при х=0 //=0,005, при х=20 у=—0,035,_______________р Дх=20 соответствует 0021 Дх=1 соответствует Д« — следовательно, , ...„ у= 0,005-0,002 (В - М) •
Группирование подсчетов по ячейкам 565 Иллюстрация 16 (продолжение) 16а) 166) 16в) 16Р) В) УПРАЖНЕНИЯ Проведите вычисления п. А, начиная со столбца «log сглаженных корней», о гочиостью, большей на один десятичный знак. Стоит ли затраченных усилий увеличение точности данных? Попробуйте другие аппроксимации того же вида, вычисляя и вычерчивая ос- татки для каждой из них. Начертите график остатков в зависимости от В вместо (В — 1,3)2-, аппрокси- мируйте его прямой, прибавьте эту аппроксимацию остатков к полученной ранее аппроксимации данных. Объясните полученные результаты. Начертите график логарифмов несглаженных корней в зависимости от (В — __ 1,3)2. Выполните аппроксимацию. Объясните результаты. Как видно из илл. 17, после этой вторичной подгонки остатки тоже не слишком хороши. Заметны два обстоятельства: ф остатки для двух точек, ближайших к точке максимума, велики — одна из этих точек внешняя; ф остатки в основном положительны. Оба этих явления, очевидно, связаны с тем, что пик истинной кривой слишком узок для использованной техники сглаживания. В этом случае нахождение аппроксимации для логарифмов от исходных зна- чений корней могло бы дать лучшие результаты, чем мы получили для логарифмов сглаженных корней. При желании мы могли бы дополнительную аппроксимацию остат- ков произвести зависимостью, линейной по В, а не по (В—1,3)®, как это сделано выше. Добавление такой зависимости к первоначальной привело бы к смещению точки максимума аппроксимирующей кривой. МОДЕЛЬНЫЙ ЭКСПЕРИМЕНТ СТЫОДЕНТА В 1908 г. Стьюдент — химик, впоследствии работавший в пиво- варенной фирме «Гиннес», опубликовал две статьи, давшие очень много для становления современной статистики. Обе статьи посвя- Иллюстрация 17 главы 17: полесью злаки Остатки после проведения вторичной аппроксимации б
Б66 Глава 17 И ллюстрация 18 главы 17: моделирование Результаты двух модельных экспериментов Стьюдента А) ДАННЫЕ № . ячейч йи Значения коэффициента корреля ции Под- счеты для них 1 > (до -.98 2 -.97 .93 3 -.92 .88 4 -.87 .83 Б -.82—-.78 6 -.77 .73 7 -.72 .68 8 -.67—-.63 • 9 -.62 .58 10 -.57 .53 (1) 0 0 1 7 10 10 15 14 15 . Значения | t-статистики | Стьюдента | Подсчеты для t | 11 -.52 .48 18 12 -.47 .43 24 13 -.42 .38 18 14 -.37 .33 27 15 -.32 .28 36 16 -.27 .23 33 17 -.22 .18 43 18 -.17 .13 45 19 -.12 .08 26" 20 -.07 .03 26п 21 -.02 —+.02 34 22 +.03 —+.07 42п 23 +.08—+.12 27л 24 +.13 —+.17 34 25 +.18—+.22 23п 26 +.23 —+.27 Збп 27 +.28—+.32 33п 28 +.33—+.37 28п 29 +.38—+.42 19 30 +.43—+.47 24 31 +.48—+.52 22 32 +.53—+.57 1 5 33 +.58—+.62 13П 34 +.63—+.67 9 35 +.68—+.72 2п 36 +.73—+.77 7 37 +.78—+.82 5 38 +.83—+.87 3 39 +.88 —+.92 40 +.93—+.97 41 (.98 и выше) — значения! значения длины ' роста . пальца | до-3.05 9 4 -3.05 2.05 14л 15л -2.05 1.55 11 в 18 -1.55 1.05 33 ЗЗп -1.05 .75 43п 44 -.75 .45 70П 75 -.45 .15 119л 122 -.15—.15 151 п 138 .15 — 45 122 120п .45 — 75 67п 71 .75—1.05 49 46л 1.05—1.55 26п 36 1.55— 2.05 16 11 2.05—3.05 10 9 Более 3.05 6 6 Замечание. Для вычисления коэффициента корреляции использовалос из восьми измерений; для /-статистики Стьюдента — два множества 1 из четырех измерений. 750 выборок 750 выборок
Группирование подсчетов по ячейкам 567 Иллюстрация 1Ь (продолжение) £) ГРАФИК — для коэффициента корреляции ша>кенкые корни В) УПРАЖНЕНИЯ 18а) Найдите корни, сглаженные корни и их неровности для подсчетов коэффициента корреляции, исполь- зуя предложенные выше ячейки. Сравните результаты с илл. 24. 186) Сделайте то же самое для в два раза меньшего числа ячеек, каж- дая из которых вдвое большей ширины. Г) ИСТОЧНИКИ: подсчеты /-ста- тистики: Student. The probable error of a mean. Biometrika, 6, 1—25, 1908; подсчеты коэффициента корреляции: Student. Probable error of correlation coefficient. Biometrika, 6, 302—310, 1908. См. также с. 1—10 и 11—34 работы «Student’s Collected papers», ed. by E. S. Pearson and J. wishart, n. d. Biometrika Office, Cambridge University Press, щены моделированию законов распределения некоторых величин, являющихся статистическими характеристиками выборок чисел. Для этого он заготовил 750 выборок по четыре числа (или по восемь чисел) в каждой и вычислил интересующие его величины для каждой выборки. При заготовке выборок он использовал измерения роста и длины сред- него пальца левой руки у 3000 человек (уголовных преступников), записал эти данные на 3000 карточек, перемешал их и вытаскивал наугад. (При заготовке выборок из восьми измерений каждый чело- век фигурировал в двух выборках.) Некоторые из полученных при описанном моделировании резуль- татов представлены на илл. 18, А. Поскольку два из составленных Стью- Дентом множеств подсчетов соответствуют ячейкам неравной длины, Их анализ придется отложить до следующего раздела. Третье множе- ство можно обработать по тон же методике, что и в предыдущих при- зерах, ячейка за ячейкой. На илл. 18, Б показано, что получается, если в качестве точки мак- 11рМУ|'1а взять значение, равное нулю. Ясно, что в данном случае НЕТ °бходимости брать логарифмы. Мы имеем ячеек)2. 6,3—0,0158-(смещение в номерах ТЕОа^Ик остатков показан на илл. 19. Он выглядит вполне удовле- Рительно, остатки имеют нормальный разброс и расположены
568 Г лава V7 Иллюстрация 19 главы 17: моделирование Остатки: вверху — только они, внизу — с плавной компонентой (по результатам илл. 18) достаточно нерегулярно. (Плавная компонента остатков достаточно близка к нулю, слабо колеблется и не выявляет присутствия какого- либо тренда в структуре остатков.) КОЛЕБАНИЯ ЦЕН НА ПШЕНИЦУ В 1953 г. Морис Кендалл опубликовал результаты исследования колебаний цен, из которого мы возьмем подсчеты недельных колебании цен на пшеницу за период с 1883 по 1934 г. Вычисления, связанные с этими данными, приведены на илл. 20. Оказывается, что первы неровности для двух центральных ячеек аномально велики: они раБ 3,4 и 2,9. Иными словами, пик распределения слишком узок для _ алгоритма сглаживания. Это нетрудно поправить, «расщепляя» ную компоненту в окрестности этих точек. Помещая точку максим в нуль, мы видим, что логарифмы сглаженных значений корней подчиняются линейной зависимости от В2, где В—номер яЧчеНйй Однако такую зависимость можно получить для обратных зна к. сглаженных корней. Подгоняя прямую на глаз, получаем а £лне симацию распределения сглаженных корней, остатки которой удовлетворительны. На илл. 21 показаны как неровности Р
Группирование подсчетов по ячейкам 569 Иллюстрация 20 главы 17: колебания цен Недельные колебания цен на пшеницу за период 1883—1934 гг. Ширина ячеек=2 цента за бушель; номера ячеек нечетные и соответствуют ентрам интервала изменения цены (например, ячейка № —13 обозначает И интервал от —14 до —12). Алгоритм сглаживания —«ЗПРРГ, дважды». Точка максимума (горизонтальная координата) принята равной нулю. А) ВЫЧИСЛЕНИЯ № ячей- й Число подсче- тов в ячейках Корни из под- счетов Сглаж. корни । Неров- ности для них Расщепи. сглаж. корни Hepoe-i ности 1 для них) м (2) .0 .0 .0 .0 -17 п 0.7 .8 -.1 .8 -.1 -15 5 2.2 2.0 2 2.0 .2 -13 Зп 2.9 2.6 .3 2.6 .3 -11 7п 2.7 3.3 -.6 3.3 .6 -9 24 4.9 4.5 .4 4.5 .4 -7 47 п 6.9 6.9 .0 6.9 .0 -5 114п 10.7 10.7 .0 10.7 .0 -3 263 16.2 17.0 -.8 17.2 -1.0 -1 722 26.9 23.5 3.4 26.4 .5 1 708п 26.6 23.7 2.9 25.9 .7 3 284п 16.9 17.1 —.2 16.2 .7 5 100 10.0 10.5 -.5 9.3 .7 7 50 7.1 6.5 .6 6.5 .6 9 17 4.1 4.1 .0 4.1 .0 31 10 3.2 3.0 .2 3.0 .2 13 5 2.2 2.2 .0 2.2 .0 15 4п 2.1 2.1 .0 2.1 .0 17 4п 2.1 1.9 .2 1.9 .2 19 1п 1.2 1.5 -.3 1.5 .3 21 Зп 1.9 0.5 1.4 0.5 1.4 Н (2) .2 -.2 .2 .2 Ч Среднее значение изменения цены в центах за бушель (изменение в пределах одной ячейки) приписывается центру ячейки. Б) БУКВЕННЫЕ ЗНАЧЕНИЯ для неровностей (обычные и модифицированные) #22 Mllnf j С 6 .5 -.0 .5 в Зп .7 -,2п ,9п [ .7п [ б 1.2п -7п одно одно Б 2.0 -1.5 ххх ххх *#19 = 22,- (1/2)(6) *М10 .2 *С 5п .5п -т.п *В 3 .7 — 3 .6 1.0 |.9 _____ 1.4п -9п ххх одно -1.8п ХХХ оба внешних =-1,0, одно внешнее = 1,4
570 Глава 17 Иллюстрация 20 (продолжение) В) ПРОДОЛЖЕНИЕ ВЫЧИСЛЕНИЙ 37+2,256» | Квадрат | Jog сглаж. 1000/сглаж. квадрат | Аллр. I | смещения корней корни смещения I корни I I Кррнег 361 851.5 1.2 -1.2 289 -.10 1250 689.0 1.5 -.8 225 .30 500 544.6 1.8 .4 169 .41 385 418.3 2.4 .5 121 .51 303 310.0 3.2 -.5 81 .65 222 219.8 4.5 .4 49 .84 145 147.6 6.8 .1 25 1.03 93 93.4 10.7 .0 9 1.24 58 57.3 17.5 -1.3 1 1.42 38 39.3 25.5 1.4 1 1.41 39 39.3 25.5 1.1 9 1.21 62 57.3 17.5 .6 25 .97 108 93.4 10.7 -.7 49 .81 154 147.6 6.8 .3 81 .61 244 219.8 4.5 -.4 121 .48 333 310.0 3.2 .0 169 .34 455 418.3 2.4 -.2 225 .32 476 544.6 1.8 .3 289 .28 526 689.0 1.5 .6 361 .18 667 851.5 1.2 .0 441 -.30 2000 1032.0 1.0 .9 529 -.70 5000 1230.4 0.8 -.8 Г) БУКВЕННЫЕ ЗНАЧЕНИЯ ДЛЯ ОСТАТКОВ #22 МПл С 6 В зп .4 7п 0 -6п 8 1.0п 1.5л 16 19 ХХХ 21 ХХХ *#18п - 22 - (1/2)(3) *М 9п 0 *С 5 ,4п -,6п 1.2 *В 3 .9 -.8 1.7 6 2.1 -2.3 ХХХ ххх I Д) УПРАЖНЕНИЯ 20а) Кендалл приводит также следующие данные об изменении стоимости рованных акций: (21), 13, 15, 25, 46, 66, 81, 91, 44, 32, 14, 15, 8, (14). счеты относятся к интервалам ширины 2 с центрами в следующих то х (ниже); от —11,5 до —1,5; 0,5; от 2,5 до 10,5; (выше). Проведите анал данных так, как это сделано выше. • е Part I) Е) ИСТОЧНИК: Kendall М. G. The analysis of economic t’me'se',ie^QK4 196v> Prices. J. Roy. Stat. Soc. A116, 11—25, 1953 (reprinted in P, Cootner, ed. The Random Character of Stock Market Prices, MIT Press),
Группирование подсчетов по ячейкам 571 Иллюстрация 21 главы 17: колебания цен Неровности и остатки для корней по результатам илл. 20 так и остатки аппроксимирующей кривой. Для обоих графиков при- ведены простые и модифицированные буквенные значения — моди- фицированные ближе к графику, простые — между ними и стандарт- ными значениями. Как видно из графиков, полученная аппроксимация хоть и не может считаться блестящей, но не так уж и плоха. ОБЗОРНЫЕ ВОПРОСЫ Какой пример был рассмотрен первым? Как мы определяли по- ложение максимума? В чем заключается трудность его определения? ^то мы делали дальше? В чем состоял результат? К каким данным затем обратились? Как образованы подсчеты в этом примере? К какому результату мы пришли? Какой пример был следующим? Каков был результат? Как сравнивались неровности и остатки? Какой, ь,°жно сделать вывод из этого сравнения?
572 Глава 17 17Д. ЯЧЕЙКИ НЕРАВНЫХ РАЗМЕРОВ Если ячейки различаются по размерам, нужно’ вместо величин К подсчет рассмотреть величины /подсчет размер ячейки ’ Чтобы убедиться в этом, достаточно рассмотреть какой-нибудь примел с одинаковыми ячейками, в каждую из которых попадает примерно 90—110 подсчетов, и поэкспериментировать, объединяя две-три ма- ленькие ячейки в одну большую И сразу станет ясно, что деление числа подсчетов на размер ячейки — очень важная операция. Поскольку ячейки имеют различные размеры, их центры распре- делены на прямой неравномерно. Это вызывает трудности в исполь- зовании ганнирования. В такой ситуации возможны два подхода: О опустить ганнирование и использовать только «ЗПРР, дважды»; <$> применить ганнирование одновременно к последовательности центров ячеек и к последовательности частично сглаженных корней, а затем осуществить обратную интерполяцию. Первый способ мы почти всюду далее оставляем в качестве упраж- нения. /-СТАТИСТИКА СТЬЮДЕНТА Попытаемся проиллюстрировать второй подход на примере остав- шихся нерассмотренными результатов модельного эксперимента Стью- дента (приведенных на илл. 18). Вычисления приведены на илл. 22. Заметим, что поскольку мы сглаживаем величины ! Г подсчет V размер ячейки ’ то, желая получить неровности для корней из подсчетов, мы должны окончательные неровности умножить на квадратный корень из раз- мера ячейки. Эти неровности изображены на илл. 23. Они выглядят достаточно нерегулярными и имеют разброс, близкий к стандартному- АППРОКСИМАЦИЯ ПЛАВНОЙ КОМПОНЕНТЫ Аппроксимация производится с помощью обычной процедуры по иска максимума. Результаты вычислений содержит илл. 24. В ле® части п. Г этой иллюстрации изображены значения сглаженных ней подсчетов в зависимости от квадрата смещения. График 1 х явно криволинейный характер. Значения логарифмов сглаже в корней подсчетов в зависимости от квадрата смещения пРивеДвлЯет средней части п. Г. Они также не ложатся на прямую. Это заст
Группирование подсчетов по ячейкам 573 Иллюстрация 22 главы 17; моделирование Плавная компонента и неровности корней для данных Стьюдента (моделирование t-статистики на основе измерений роста) д) ВЫЧИСЛЕНИЯ по ячейкам № ячей ни # | Параметры ячеек I ЗПРРГ | | Возврат | [Начал о| |конец| |Размер| | Центр | 1 Менее -3.05 — . -3.05 -2.05 1.0 -2.55 -2.55 Без изменения 3 -2.05 -1.55 .5 -1.80 -1.86 Смещ. 6/54 в напр. #4 -1.55 -1.05 .5 -1.30 -1.32 Смет. 2/40 в напр. #5 5 -1.05 -.75 .3 -.90 -.92 Смещ. 2/32 в напр. #6 -.75 -.45 .3 -.60 -.60 Без изменения 7 -.45 -.15 .3 -.30 -.30 Без изменения -.15 .15 .3 .00 .00 Без изменения 9 .15 .45 .3 .30 .30 Без изменения .45 .75 .3 .60 .60 Без изменения 11 .75 1.05 .3 .90 .92 Смещ. 2/32 в напр. #10 1.05 1.55 .5 1.30 1.32 Смещ. 2/40 внапр. #11 13 1.55 2.05 .5 1.80 1.86 Смещ.6/54 внапр. #12 2.05 3.05 1.0 2.55 2.55 Без изменения 15 3.05 Выше — Замечания. 1. Ячейки только с одной границей (#1 и #15) не имеют естественного определения размера и центра. - 2. После ганнирования ячейка #3 сдвигается до —1,86, а ячейка #4 — до —1,32. Чтобы вернуть, например, ячейку #3 назад в исходную точку —1,80, нужен сдвиг на 0,06 В то же время, для того чтобы перевести ее в точку, соответствующую ячейке #4, требуется сдвинуть ее на 0,54. Полезный прием состоит в том, чтобы сделать сдвиг на 0,06/0,54=1/9 в направлении ячейки #4. Аналогичным образом следует поступать с другими ячейками. Б) ВТОРОЕ СГЛАЖИВАНИЕ (результаты первого сглаживания — на илл. 24,В) № Квадр. ячей “Первой. Окончат. корень ки неров- Сдвиг Окончат. 1 неров- из | Неровности # | ности | ЗПРРГ | назад1? сгпаж. | ности j размера [для корней2) 2 0 -.3 (-.3) 3.5 .3 1.00 .3 3 -.9 -.3 -.3 5.4 -.6 .71 -.4 4 -.3 -.3 -.3 8.1 0 .71 0 5 0 -.3 -.3 11.7 .3 .55 .2 6 -.3 0 (0) 15.6 -.5 .55 -.3 7 1.1 .8 (.8) 19.7 .3 .55 .2 8 2.3 1.2 (1.2) 21.4 1.1 .55 .6 9 1.3 1.1 (1.1) 20.0 .2 .55 .1 10 -.8 .6 (.6) 16.4 -1.4 .55 -.8 11 .5 .1 .1 12.4 .4 .55 .2 12 -1.2 0 0 8.5 1.2 .71 -.8 13 0 0 р 5.7 0 .71 0 14 0 0 0 3.2 0 1.00 0 2) ёе тРебуется сдвигов, больших ±0,05. а Неровности для корней=окончательные неровности, УМНОЖЕННЫЕ на “нь из размера ячейки,
674 Глава 17 Иллюстрация 22 (продолжение) Отметим, что окончательная плавная компонента и окончательные неровно даны выше для квадратных корней из отношения (подсчет/размер), а НЕ для KRC™ ратных корней из подсчетов. ад" В) БУКВЕННЫЕ ЗНАЧЕНИЯ для НЕРОВНОСТЕЙ КОРНЕЙ #13 1 М 7 С 4 .2 .1 —.2 .4 В 2п .2п ~.6п. .9п | .6 | б 0.9 п -10п ХХХ ххх Г) УПРАЖНЕНИЯ 22а) Повторите вычисления для данных эксперимента Стьюдента с измерениями длины пальца (правый столбец илл. 18). 226) В работе: Chavez И., М, Contreras G., Т. Р. Е. Hernandez D. On the coast of Ta- maulipas. International Turtle and Tortoise Society Journal, 2, no. 5, 16—19, 27—34, 1968, приводятся следующие подсчеты длительностей (в сутках) инку- бационного периода для 1664 яиц диких голубей: Сутки 50 51 52 53 54 55 56 57 58 59 60 61 64 65 Число яиц 77 122 10 321 725 180 162 21 14 6 9 14 1 1 Выполните подробный анализ, используя величины j/число суток. Прокоммен- тируйте результаты. 22в) Выполните подробный анализ, используя логарифмы. Прокомментируйте результаты. ___________________ 22г) Сделайте то же самое, используя величины У—49-фвремя (в сутках). Проком- ментируйте результаты. Иллюстрация 23 главы 17: моделирование Неровности для аппроксимации из илл. 22
Группирование подсчетов по ячейкам 575 Иллюстрация 24 главы 17: моделирование Аппроксимация плавной компоненты илл. 22 (в качестве точки максимума использовано число 8,00) д) ВЫЧИСЛЕНИЯ Аппр.= Корни из остат- Корни Оста- № ^че й- ОК0Н- I I чат- Симмет- |ричные] Полу- |сум| |Центр| |(Смещ)^ 1 ро/ сглаж. 4»е+ 4,32 х АППр. сглаж. , из . раз- меров' ТКИ (для кор- ки сглаж. |ячейки| I мы ] ячейки] корни (В-8)2 корней ков ячеек) ней) 3.5 13.8 7.9 -2.55 6.50 28,6 32.9 3.0 .8 1.0 .8 3 5.4 13.1 8.1 -1.8 3.24 18.5 18.8 5.3 -.5 .71 -.4 8.1 12.1 8.0 -1.3 1.69 12.3 12.1 8.3 -.2 .71 -.1 5 11.7 11.1 8.0 -.9 .81 8.6 8.3 12.0 0 .55 0 15.8 10.1 8.0 -.6 .36 6.3 6.4 15.6 -.3 .55 -.2 7 19.7 9.1 8.0 -.3 .09 6.1 6.2 19.2 .8 .55 .4 21.4 0 0 4.7 4.8 20.8 1.7 .65 .9 9 20.0 7.2 8.1 .3 .09 6.0 5.2 19.2 1.0 .55 .6 16.4 6.2 8.0 .6 .36 6.1 6.4 15.6 -.6 .55 .3 11 12.1 5.1 8.0 .9 .81 8.3 8.3 12.0 .8 •БУ .4 8.5 4.1 8.0 1.3 1.69 11.8 12.1 8.3 -1.0 .71 '3 13 5.7 3.1 8.0 1.8 3.24 17.5 18.8 6.3 А 71 3 3.2 2.55 6.50 31.2 32.9 3.0 .2, 1.оо .2 Б) БУКВЕННЫЕ ЗНАЧЕНИЯ для ОСТАТКОВ #13 М 7 .2 С 4 .4 2 .6 В 2п .7 —.Зп 1.0П рг] 6 1.3 -1.1 ХХХ ххх В) ВЫЧИСЛЕНИЕ КОРНЕЙ и ПЕРВОЕ СГЛАЖИВАНИЕ № Число |Нчейг Размерь! подсче-. тов в Огно- | Корни | Обратный .Перэон. । неров- | ячеек j |ячейках] | шения ЗПРРГ I I сдвиги1) 1 ности | 1.0 14п 14h 3.8 3.8 (3.8) 0 3 •5 11 п 23 4.8 5.4 5.7 -.9 .5 33 66 8.1 8.2 8.4 -.3 б .3 43 п 145 12.0 11.8 12.0 0 .3 70 л 235 15.3 15.6 (15.6) -.3 7 .3 119п 398 22.0 18.9 (18.9) 1.1 .3 151 п 505 22.5 20.2 (20.2) 2.3 9 .3 122 407 20.2 18.9 (18.9) 1.3 .3 67 п 225 15.8 15.8 (15.8) -.8 11 .3 49 163 12.8 12.0 12.3 .5 .5 26л 53 7.3 8.2 8.5 -1.2 13 .5 16 32 5.7 Б.4 5.7 0 1.0 10 10 3.2 3.2 (3.2) 0 5 к *!- Неизмененные значения ВЗЯТЫ в скобки. °>бт(1/9)(8,2—5,3); 8,4=8,2-Ц1/15] (11,8-8,2) и т. А.
576 Глава 17 Иллюстрация 24 (продолм ние) Г) ТРИ ГРАФИКА в—обратные величины (а — корни подсчетов, б — логарифмы корней для корней) подсчетов. 20 1,5 [смещение'^- ----1--->- 6 Д) УПРАЖНЕНИЯ 24а) Попробуйте значение 0,03 в ка. честве точки максимума и провс. дите все вычисления вплоть до графика остатков. Сравните с илл. 24. 246) Проделайте то же самое для зна- чения —0,03 в качестве точки максимума. 24в) Подберите прямую линию к графи- ку логарифмов сглаженных кор- ней и постройте график остатков. Прокомментируйте результаты. 24г) Проведите вычисления п. А для данных Стьюдента, относящихся к измерениям длины пальца (из илл. 18,А). (смещение^ S -►
Группиптиние подсчетов по ячейкам 577 Иллюстрация 25 главы 17: моделирование График остатков для корней в зависимости от номера ячейки (по данным из илл. 24) б нас перейти к обратным величинам от корней подсчетов, график ко- торых в зависимости от квадрата смещения показан в правой части п. Г. Наконец, мы получаем «линейную картину» и можем продолжить вычисления: сначала подобрать под обратные величины корней ли- нейную зависимость, а затем последовательно вычислить аппрокси- мирующую зависимость для самих корней, остатки для «корней на единицу размера ячейки» и, наконец, остатки для корней исходных подсчетов. Последние остатки изображены на илл. 25. Они выглядят достаточно нерегулярными и имеют разброс, близкий к стандартному (правда, в целом остатки слегка смещены в положительную сторону и имеют некоторую тенденцию к наклону — это позволяет надеяться, что, несколько изменив аппроксимацию, мы получим чуть лучшие результаты). Зависимость, которую мы в результате получили, имеет вид, отличный от того, что мы когда-либо имели раньше: —----- 1 = 4,8 + 4,32 (смещение)2. V подсчет/(размер ячейки) Однако она гораздо лучше аппроксимирует исходные данные, чем 76 зависимости, которые мы имели бы, осуществляя линейную под- гонку под графики корней из подсчетов или логарифмов корней. ОБЗОРНЫЕ ВОПРОСЫ с ^т° следует делать, если размеры ячеек различны? Почему? Как дУет виДоизменить процедуру сглаживания? Какие здесь имеются Дел aH.yb,-J Что можно делать в этом случае и что мы действительно йеобЛИ как°му примеру мы вновь обратились? Какие изменения зоВаХодимо сделать в процедуре вычислений? Можем ли мы исполь- сгЛа.ь неровности в том виде, в каком они получаются в результате кивания? Почему (или почему нет)? Как выглядели наши неров- 19 WH247
578 Глава 17 ности? Как осуществлять аппроксимацию? Можно ли использ остатки сразу после подгонки? Какую форму аппроксимирую^” зависимости мы получили? Встречалась ли она раньше? Щеи 17Е. ДВОЙНЫЕ КОРНИ Базисные подсчеты во многих случаях также целесообразно по образовывать с помощью квадратных корней. Поскольку важну ' роль играют размеры ячеек, нам нужно применять это преобразо* ванне не только к целым значениям подсчетов, которые мы наблюдаем" но и к полуцелым, соответствующим концам ячеек. Это следует из соображений удобства использования и простоты интерпретации которые особенно важны в отношении концов ячеек. Очень удачно, что чаще всего оказывается полезным преобразо- вание К2 + 4 (подсчет), называемое «двойным корнем». Для концов ячеек оно приводится к виду |/2 + 4 (целое число + 0,5) = = 1^4 + 4 (целое число) = = 2}/гцелое числоф-1. В результате мы, например, получаем, что ячейка, соответствующая базисному подсчету, равному нулю (для которой подсчет преобразо- вался бы в значение К2), преобразуется в интервал от 0 до 2. (За- метим, что если бы мы не сдвигали подкоренное выражение в двойном корне, то левый конец ячейки, соответствующей нулевому базисному отсчету, был бы равен квадратному корню из отрицательного числа.) ТАБЛИЦА На илл. 26 собраны наиболее полезные величины, необходим >< для практического использования двойных корней при значения.-, базисных подсчетов до 25. Для каждого базисного подсчета послед вательно приводятся: <$> значение двойного корня; это же значение после ганнирования; у О величина (доля) обратной интерполяции (обратного сдв 0 размер ячейки (одна конечная точка минус другая); 30. Q корень из размера ячейки (удобная величина при исп вании корней из подсчетов); <£> начало ячейки (ее конец есть начало следующей); <> центр ячейки,
Группирование подсчетов по ячейкам 579 Иллюстрация 26 главы 17: справочная таблица Значения двойных корней для базисных подсчетов от 0 до 25 д) ТАБЛИЦА Базис- ]ные под| |Двойные корни ]Обратные | Размеры j |НаЧала! I Центры I I счетЫ I исходи, после ганнир. сдвиги Исходи. корни |ячеек | I ячеек I 1— —1 0 1.41 1.41 Без измен. 2.000 1.414 0.00 1.00 1 2.45 2.37 вверх 1/9.4 .828 .910 2.00 2.41 2 3.16 3.13 вверх 1/17.8 .636 .798 2.83 3.15 3 3.74 3.72 вверх 1/26 .536 .732 3.46 3.73 4 4.24 4.23 вверх 1/34 .472 .687 4.00 4.24 5 4.69 4.68 вверх 1/42 .427 .653 4.47 4.69 6 5.10 5.09 вверх 1/50 .393' .627 4.90 5.10 7 5.48 5.47 вверх 1/58 .365 .604 5.29 5.47 8 5.83 5.83 вверх 1/66 .343 .586 5.66 5.83 9 6.16 6.16 вверх 1/74 .325 .570 6.00 6.16 10 6.48 6.48 вверх 1/82 .309 .556 6.32 6.48 11 6.78 6.78 вверх 1/90 .295 .543 6.СЗ 6.78 12 7.07 7.07 вверх 1/98 .283 .532 6.93 7.07 13 7.35 7.35 вверх 1/106 .272 .522 7.21 7.35 14 7.62 7.62 вверх 1/114 .263 .513 7.48 7.61 15 7.87 7.87 вверх 1/122 .254 .504 7.75 7.87 18 8.12 8.12 вверх 1/130 .246 .496 8.00 8.12 17 8.37 8.36 вверх 1/138 .239 .489 . 8.25 8.37 18 8.60 8.60 вверх 1/146 .233 .482 8.49 8.60 19 8.83 8.83 вверх 1/154 .226 .475 8.72 8.83 20 9.06 9.06 вверх 1/162 .221 .470 8.94 9.05 21 9.27 9.27 вверх 1/170 .216 .464 9.16 9.27 22 9.49 9.49 вверх 1/178 .211 .459 9.38 9.49 23 9.70 9.70 вверх 1/186 .206 .454 9.59 9.69 24 9.90 9.90 вверх 1/194 .202 .449 9.80 9.90 25 10.10 10.10 вверх 1/202 .198 .445 10.00 10.10 ^мечание. Для базисных подсчетов от 3 и выше «обратный сдвиг»= U+8 (базисный подсчет)]-1. 26а) 266) 2бв) Б> УПРАЖНЕНИЯ Проведите все вычисления для базисного подсчета, равного 1, удерживая столько десятичных знаков, сколько необходимо, чтобы получить приведенное в таблице значение. Сделайте то же самое для базисного подсчета, равного 4. Сделайте то же самое для базисного подсчета, равного 17» 19*
Иллюстрация 27 главы 17: сцинтилляции полония Данные Резерфорда и Гейгера о радиоактивном распаде полония (события — сцинтилляции, вызываемые а-частицами) А) ОТСЧЕТЫ, СГЛАЖИВАНИЯ КОРНИ, ОТНОШЕНИЯ КОРНЕЙ и РЕЗУЛЬТАТЫ ПЕРВОГО Число События за подсчетов в I Корни I под- I Отноше- I нип 1J Обратны© I 1 1 1 Первой, неров-1 1 /8 МИН ячейках I счетов корней ' IЗПРРГ | I сдвиги] | нооти 0 57 7.6 5.3 5.3 0 203 14.2 15.6 15.3 16.2 .6 2 383 19.6 24.6 24.0 24.3 .3 525 22.9 31.3 29.6 29.7 1.6 4 532 23.1 33.6 31.2 31.2 2.4 408 20.2 30.9 29.8 29.7 1.2 6 273 16.5 26.4 23.8 25.7 .7 139 11.8 19.5 19.2 19.1 .4 8 45 6.7 11.5 12.9 12.8 1.3 27 5.2 9.1 8.8 .3 10 10 3.2 5.7 6.0 -.3 4 2.0 3.7 3.8 - 1 12 0 0 0 2.4 2.4 1 1.0 1.9 1.9 0 14 1 1.0 2.0 1.4 .6 0 0 0 .5 .5 16 0 0 0 0 (Общее число) (2607) / подсчет корень из подсчета 1уг - I/ размер V размер V размер бе- рется из ИЛЛ. Б) ВТОРИЧНОЕ СГЛАЖИВАНИЕ (начиная со столбца ЗПРРГ для первых . Испр. . плавя. | комп Л) неровностей) № г ячей-i ш |ЗПРРГ| [Обратные 1 сдвиги | Сумма Перов- | | ности .Неровности для | | корней 0 0 5.3 0 0 5.3 1 .1 16.3 -.7 -.7 16.3 2 .4 О) 24.7 -.1 -.1 24.7 3 .8 § • 30.5 .8 .6 31.1 4 1.1 б 32.3 1.3 .9 33.5 5 1.1 О) X 30.8 .1 .1 31А 6 .6 о 26.5 -.1 -.1 26.5 7 .4 19.5 0 0 19.5 8 .2 13.0 -1.5 -.9 30 9 0 8.8 .3 .2 8.8 10 -.1 5.9 -.2 -.1 5.9 11 -.1 3.7 0 0 3.7 12 0 2.4 -2.4 1.3 2.4 13 0 1.9 0 0 1.9 14 0 1.4 .6 .3 1.4 15 0 0.5 -.5 -.3 .□ 16 0 0 0 0 и.и И Исправление сделано на основе суждений: а) о форме максимума, б) о длин правого хвоста, В принципе этот столбец есть основа для аппроксимации.
Группирование подсчетов по ячейкам 581 Иллюстрация 27 (продолжение) В) корень АППРОКСИМАЦИЯ вида log (отношение после ганнирования — 4,0)2 корней) = 1,52—0,12 (двойной № Двойные йг । корни 1 после j J ганнир. | (смеще- | ние)2 | 1 нппр. Остатки | Смеще- | ние j п? | loge| 4 1|од 1 .отно- | тения 1 ₽a| | корни| 0 1.41- -2.59 67 .72 .72 5.2 л .1 1 2.37 -1.63 2.7 1.21 1.20 15.0 —.2 -.2 2 3.13 -.87 .8 1.39 X 1.42 26.3 -1.7 -1.4 3 3.72 -.28 .1 1.49 •S* « 1.51 32.4 •»1.1 -.8 4 4.23 .23 Л 1.53 U 1.51 32.4 1.2 .8 Б 4.68 .68 .5 1.50 к U 1.46 28.8 2.1 1.4 6 5.09 1.09 1.2 1.42 <и 1.38 24.0 2.4 1.5 7 5.47 1.47 2.2 1.29 <0 л 1.26 18.2 1.3 .8 8 5.83 1.83 3.3 1.11 о 1.12 13.2 -1.7 -1.0 9 6.16 2.16 4.7 .94 U X .96 9.1 0 0 10 6.48 2.48 6.2 .77 л о .78 6.0 -.3 —.2 11 6.7С 2.78 7.7 .51 ш IX .60 4.0 -.3 —.2 12 7.07 3.07 9.4 .38 <•> .39 2.4 -2.4 -1.3 13 7.35 3.35 11.2 .28 .18 1.5 .4 —.2 14 7.62 3.62 13.1 .15 -.05 .9 1.1 .8 15 7.87 3.87 15.0 .30 -.28 .5 -.5 -.2 16 8.12 4.12 17.0 М -.52 .3 -.3 -.1 О log от исправленных результатов подгонки из п. Б. Г) УПРАЖНЕНИЯ 27а) Начертите графики используя вычисления п. В, проверьте и, если возможно, улучшите качество аппроксимации. 276) Подберите аналогичное множество данных и повторите все вычисления. 27в) Вычертите графики илл. 28 в зависимости от значений двойных корней после ганнироьания вместо зависимости от номеров ячеек. Д) ИСТОЧНИКИ: Rutherford Е., Geiger И. The probability variations in the di- stribution of a particles. The London, Edinburg and Dublin Philosophical Magazine and Journal ol Science, 20, 698—704, 1910 (таблица на с. 701). Третья из перечисленных величин особенно полезна. Использо- вание двойных корней приводит к ячейкам с неравными размерами и, следовательно, к необходимости обратной интерполяции. Имея под Рукой заранее вычисленные доли обратной интерполяции, мы существенно экономим в вычислениях при обработке. При поиске точки максимума и подгонке распределения в случаях, сгда в качестве аргумента используются двойные корни, обычно ЗДательно применять еще один прием: считать, что центры ячеек асположены в точках, куда попадают значения двойных корней СЛе ганн,1рования. Это смещает «нулевую» ячейку на 0,41, «единич- но?» ~~ На следующую — на 0,02, дальнейшие четыре — на м’ и остальные — на 0,00. За исключением «нулевой» ячейки, из- п ения или сравнительно малы, или очень малы, но даже изменение °жения одной «нулевой» ячейки обычно очень полезно.
582 Г лава 17 Иллюстрация 28 главы 17: сцинтилляции полония Неровности — остатки (по данным илл. 27) сцинтилляции ОТ ИЗЛУЧЕНИЯ полония На илл. 27 приведены вычисления, связанные с обработкой дан- ных Резерфорда и Гейгера, касающихся числа сцинтилляций (вспышек света) в интервалах фиксированной длительности (1/8 минуты). В этих данных каждая сцинтилляция свидетельствует о приходе одной а- частицы в результате радиоактивного распада одного атома полония. Сам эксперимент и его интерпретация, данная Резерфордом, Гейгером и Бейтменом, являются классическими в теории радиоактивного распада и установления его случайного характера. На верхи графике илл. 28 показаны неровности, которые: а) выглядят умеренно нерегулярными; б) имеют не слишком большой разброс; „ть1 в) свидетельствуют о неспособности нашей плавной компоне адекватно описать достаточно узкий пик, образуемый данными (. нями из отношений).
Группирование подсчетов по ячейкам 583 Прежде чем перейти к аппроксимации (см. илл. 27, В), мы подпра- м в двух местах плавную компоненту, как указано в примечании к Б. На нижнем графике илл. 28 показаны остатки, которые нельзя считать ни хорошими, ни слишком плохими. Чтобы получить более или менее приемлемую аппроксимацию данных (сглаженных и под- правленных корней из отношений) в областях, далеких от пика, мы были вынуждены сдвинуть точку максимума аппроксимирующей зависимости на одну ячейку влево относительно пика. Это вызвало большой «всплеск» в графике остатков. Ясно, что остатки имеют боль- ший разброс, чем нам хотелось бы, причем две точки являются внеш- ними по отношению к эталонным барьерам (хотя лежат внутри барье- ров, соответствующих данным). Использование двойных корней: положение= К2+4 •подсчет, размер=К 4+4 -подсчет—К 4 -подсчет обеспечило: а) достаточно хорошее качество сглаживания данных Резерфорда и Гейгера; б) удовлетворительную аппроксимацию сглаженных данных. (Кажется, что в остатках есть некоторая закономерность, но что- либо конкретное об этом сказать трудно.) ОБЗОРНЫЕ ВОПРОСЫ Что такое двойные корни? Почему возникает в них необходимость? Каковы границы ячеек для базисных подсчетов, равных 1, 2 и 3? Какие величины приведены в таблице? Как их использовать? Как мы размещаем ячейки, соответствующие двойным корням? Есть ли в этом что-нибудь необычное? Какой пример мы рассмотрели? Ка- ковы были результаты? Что мы сделали перед подгонкой? Насколько хорошей получилась аппроксимация? Насколько полезными вам кажутся двойные корни? 17Ж. ПРЕДОСТЕРЕГАЮЩИЕ ПРИМЕРЫ Для человека очень естественно от утверждения: «То-то и то-то есть удовлетворительная аппроксимация» — незаметно перейти к Утверждению: «То-то и то-то есть единственно возможная аппрок- симация». Лучший способ предостеречь от этого естественного, но опасного заключения — рассмотреть ряд примеров, в которых оно ггпгРНо’ Простейшими можно считать такие примеры, в которых ДВЕ РАЗЛИЧНЫЕ АППРОКСИМАЦИИ являются одновременно Достаточно УДОВЛЕТВОРИТЕЛЬНЫМИ. (Конечно, неверно будет Утверждать: ОБЕ они — ЕДИНСТВЕННО правильные аппрокси- ации.) Рассмотрим пару примеров, выбрав случаи, когда мы были
684 Глава 17 вполне удовлетворены полученной аппроксимацией. В то же время на этих примерах мы сможем показать, как усовершенствовать аппроксимацию, найдя «желательное» положение максимума. СНОВА ДЛИНА ПРЕДПЛЕЧЬЯ Для распределения длины предплечья мы получили удовлетвори- тельную аппроксимацию, использовав зависимость log Vподсчет =1,17 — 0,0282 (В — 8,25)2. Попробуем несколько изменить характер этой зависимости, заменив логарифм на величину «1/корень». На илл. 29 приведены соответст- вующие вычисления. В качестве первого приближения для точки максимума на глаз выбрано значение, равное 7. Вычерчивание графика аппроксимирующей зависимости мы оставляем читателю в качестве упражнения. Остатки после вычитания из сглаженных данных зависимости 1 //подсчет = 0,255 + 0,0127 (В — 7)2 приведены в последнем столбце илл. 29, А и кажутся весьма удовле- Иллюстрация 29 главы 17: длина предплечья Вычисления для величин, обратных корням подсчетов А) УПРОЩЕННАЯ АППРОКСИМАЦИЯ — точка максимума взята равной 7, т, е, (смещение)2= (В—7)2 В=№ ячей- ки Обратные значения корней подсчетов 1 ^(смещ)2! 1 0,255 + 0,0127х (смещ.)2 Аппр. корней под- счетов Остат- ки для корней 1 1.000 36 .712 2.0 -1.0 .632 25 .572 3.1 -.6 3 .494 16 .458- - 4.8 -.7 .378 9 § .369 7.3 -.3 5 .299 4 п. .306 10.7 .5 .266 1 U .268 13.9 .2 7 .256 0 S .255 15.4 -.1 .272 1 .268 13.9 -.4 3 .297 4 U .306 10.7 .6 .363 9 .369 7.3 •3 11 .423 16 х .458 4.8 .8 .598 25 .572 3.1 -3 13 .725 36 .712 2.0 -.1 .845 49 .877 1.3 +.1 15 .791 64 1.068 0.9 + .7 •> Обратные корни брались равными 1/ р4корень из подсчета. Отметим, что з чения 0,255+0,0127 (смещение)2 берутся из графика, который должен быть постр йосле вычисления столбца «(смещение)2».
Группирование подсчетов по ячейкам 585 Иллюстрация 29 (продолжение) m ЖЕЛАТЕЛЬНОЕ СМЕЩЕНИЕ и ЖЕЛАТЕЛЬНАЯ ТОЧКА МАКСИМУМА, УТОЧНЕНИЕ АППРОКСИМАЦИИ С ТОЧКОЙ (смещение)2= (В 7,15)2 МАКСИМУМА, равной 7,15; I Желательные 1 1 1 0,255+ АППр. корней Остатки • смеще-t I НИЯ Я I точки . | макс. I 1 Новое I |(смещ.)2| 0,0127» (Смещ)2 под- счетов ДЛЯ | корней! 7.66 8.66 37.8 .735 1.8 -.8 5.45 7.45 е- 26.5 .592 2.9 -.4 4.34 7.34 О. 17.2 .473 4.5 -.4 3.11 7.11 1— 9.9 .381 6.9 .1 1.86 6.86 4.6 .313 10.2 1.0 .93 6.93 X 1.3 .272 13.5 е .28 (6.72) 0. .0 .255 15.4 -л 1.16 6.84 .7 .264 14.3 -1.8 1.82 7.18 5 3.4 .298 11.3 0 2.92 7.08 8.1 .358 7.8 -.2 3.64 7.36 14.8 .443 5.1 .5 5.20 6.80 23.5 .554 3.3 -.5 6.08 6.92 34.2 .689 2.1 -2 6.82 7.18 46.9 .851 1.4 0 6.50 8.50 61.6 1.037 .9 .7 Х) Обратный корень=0,255+0,0127 (желательное смещение)2, откуда «жела- тельное смещение»= ^обратный корень—0,255/0,0127. Заметим, что 7,15 получается из графика, который строится после вычисления столбца «Желательные точки мак- симума». В) УПРАЖНЕНИЯ 29а) Вычислите и постройте график значений желательных точек максимума для аппроксимации из илл. 24, используя приведенные в ней данные. 29а2) Что вы предложите сделать дальше? Попытайтесь осуществить свое предложе- ние. творительными. Они сравнимы по разбросу с остатками, полученными на илл. 15, где мы подгоняли под сглаженные данные логарифмиче- скую зависимость. Однако аппроксимацию можно еще улучшить! УТОЧНЕНИЕ ПОЛОЖЕНИЯ МАКСИМУМА (ДОПОЛНИТЕЛЬНЫЙ МАТЕРИАЛ) Если мы хотим еще больше усовершенствовать аппроксимацию, можно испробовать следующий метод уточнения положения макси- мума. Для каждой ячейки ищется такое значение точки максимума, ПРИ котором величина 0,255+0,0127 (В — точка максимума)2 Дает наблюдаемый подсчет. Как показывает соотношение, приведенное нижней части илл. 29, Б, сравнительно легко вычислить «жела- Дьное смещение» и соответствующее ему значение «желательной
Б86 Г лава 17 Иллюстрация 30 главы 17: длина предплечья и сцинтилляции полония Остатки для двух различных аппроксимаций (по данным илл. 29 и 31) точки максимума». Эти вычисления приведены на илл. 29, Б (вычер- чивание графика результатов предоставляется читателю в качестве упражнения). Если начертить график (или внимательно посмотреть на числа во втором столбце), можно увидеть, что все точки, за исклю- чением первой и последней, хорошо согласуются друг с другом. Ме- диана этих двенадцати достаточно тесно сгруппированных чисел («же- лательных точек максимума») равна 7,15. В остальных столбцах илл. 29, Б приведены результаты подгонки для вновь найденной точки максимума (равной 7,15), которые несколько отличаются от анало- гичных результатов для точки максимума, равной 7. Истинным достоинстьом проведенного анализа (с целью уточнения положения максимума) является не то, что мы сместили максиму с 7,00 до 7,15, а тот факт, что его положение теперь можно считат постоянным, т. е. оно «устойчиво» по отношению к попыткам сдвинуть. На верхнем графике илл. 30 показаны окончательные остатки, которые нас вполне удовлетворяют, исключая одну нижнюю точ у-
Группирование подсчетов по ячейкам 587 Этот график полезно сравнить с графиком илл. 15, Б, который остав- ял У нас сомнение в качестве полученной аппроксимации. Возможно, сейчас мы имеем лучшую. СНОВА сцинтилляции полония Применим метод желательных точек максимума к примеру со сцинтилляциями от излучения полония. В этом примере мы ранее нашли (см. илл. 27), что зависимость log размер — 1»52 — 0,12 (L — точка ма ксимума)? удовлетворительно согласуется с данными. Сейчас мы увидим, что более тщательный анализ может значительно улучшить результаты аппроксимации. Отталкиваясь от исходных логарифмов для отношений корней и используя найденные выше константы аппроксимации, мы можем найти значения желательных точек максимума, которые при- ведены в левой части илл. 31. На илл. 32 эти величины показаны в виде графика и аппроксимированы с помощью ломаной. В правой части илл. 31 представлены вычисления, в результате которых эта вторичная аппроксимация доводится до значений остатков для корней от исходных подсчетов. График последних приведен в нижней части илл. 30. Вторичная подгонка двумя прямыми, предполагающая ис- пользование одной аппроксимации для малых значений аргумента и другой — для больших, дает весьма хорошие результаты. Доста- точно сравнить нижний график остатков на илл. 28, который мы определили как «ни хороший, ни слишком плохой», с нижним графиком илл. 30, чтобы убедиться, насколько мы улучшили аппроксимацию данных. ЗАМЕЧАНИЕ Вычисление желательных точек максимума дает нам полезный метод более тщательного анализа полученной аппроксимирующей зависимости. Иногда он указывает на необходимость лишь небольшого изменения исходной простой зависимости, а иногда — на необходимость несколько усложнить ее. Приятно иметь в своем распоряжении столь эффективный инструмент, однако основной результат настоящего раздела шире, чем изложение некоторых специальных приемов. Мы использовали метод желательных точек максимума, чтобы про- иллюстрировать тот факт, что наличие какой-то одной приемлемой аппроксимации данных не означает невозможности построения дру- гой, еще лучшей. Изменения характера аппроксимирующей зависи- мости,^ которые мы рассматривали, весьма значительны: логарифмы орней из подсчетов заменялись на обратные величины корней из одсчетов, одна зависимость для логарифмов отношений корней за- еняласп на две, в которые входили разные константы. Вывод из Тог° следующий:
588 Г лава 17 Иллюстрация 31 главы 17: сцинтилляции полония Вычисление желательной точки максимума для другого примера [Используется выражение: 1,52—0,125 (двойной корень после ганнирования — 4,0)*| 1 Подогнанная точка макс. 1,52- Остатки ячей- |ПОЛО|- жение отно- шения I Желательные! 1 3,77 4,63 0,125х (L- annpj2 мпнр. отно- МЛН отно- Остатки кор- ней шения корней шения корней 1 для 1 1 корней] ни # |ячей|- | ™ | |смещ.| .ТОЧКИ 1 |макс.| СМ со 0,11b D,092Z. 0 1.41 .727 2.52 3.93 сГ" г; 3.92 .732 5.4 -.1 -.1 2.45 1 195 1.61 4.06 X 4.04 1.204 16.0 -.4 -.4 3.16 1.390 1.02 4.18 4.12 1.405 25.4 -.8 -.6 3.74 1.496 .44 4.18 о 4.18 1.496 31.3 0 0 4 4.24 1.526 Мним. 4.24 ш 4.24 4.24 1.520 33.1 .5 .3 4.69 1.490 .49 4.20 X 4.29 4.20 1.490 30.9 0 0 6 5.10 1.421 .69 4.21 4.16 1.410 25.7 -.7 —.4 5.48 1.290 1.36 4.12 ID 4.13- 1.292 19.6 -.1 -.1 8 5.83 1.059 1.92 3.91 О 4.09 1.142 13.9 -2.4 -1.4 6.16 .960 2.12 4.04 4.06 .969 9.3 -.2 -.1 10 6.48 .755 2.47 4.01 4.03 .770 5.9 -.2 -.1 6.78 .566 2.76 4.02 4.01 .561 3.6 .1 .1 12 7.07 — 3.98 .326 2.1 -2.1 -1.1 7.35 3.95 .075 1.2 .7 .4 14 7.62 — 3.93 -.182 .7 1.3 -.7 Иллюстрация 32 главы 17: сцинтилляции полония Анализ желательных точек максимума по данным илл. 31 и график получающихся остатков Желательные точки максимума 4,2 - 4,0- № ячейки
Группирование подсчетов по ячейкам 589 Если даже столь серьезные изменения не могли существенно ис- Ть форму аппроксимации, то и меньшие изменения не исказят ка сколь-нибудь заметным образом. Даже если мы имеем очень хо- "ошую аппроксимацию — нечто такое, что в итоге оказывается весьма Р лезным результатом анализа исходных данных,— мы не можем "педполагать, что эта аппроксимация есть истинная зависимость, ° е что найдена естественная закономерность. ОБЗОРНЫЕ ВОПРОСЫ Каким двум целям отвечает этот раздел? Как мы пытались их достичь? С какого примера мы начали? Какую зависимость мы под- гоняли? Насколько удачно? По сравнению с чем? Что такое «жела- тельное смещение» и «желательная точка максимума»? Можно ли их использовать, чтобы улучшить аппроксимацию? Как это делалось в примере? К чему мы перешли затем? Что делали? Что получилось? Можно ли использовать лишь одну из двух аппроксимирующих за- висимостей? Почему (или почему нет)? Насколько хорош результат — сам по себе и в сравнении с полученной ранее аппроксимацией? В чем состоит основной вывод из результатов данного раздела? 17И. ЧЕГО МЫ ДОСТИГЛИ? Эта глава посвящена анализу последовательностей подсчетов, соответствующих подходящим образом выбранным ячейкам, а также методам нахождения аппроксимаций для последовательностей, имею- щих максимум. Используемые методы аппроксимации предполагают, во-первых, что симметричная относительно максимума кривая спадает с удале- нием от точки максимума как некоторая функция КВАДРАТА сме- щения ячеек от этой точки; во-вторых, что существует некоторое преобразование ординат кривой, после применения которого зависи- мость от квадрата смещения становится линейной. Как показывают многочисленные примеры, эти методы дают, на Удивление, хорошие результаты, что особенно наглядно проявляется, если использовать приемы графического изображения остатков, раз- работанные выше для анализа неровностей, возникающих при сглаживании. Теперь мы умеем- О брать квадратные корни из подсчетов, соответствующих °следовательностям ячеек, и сглаживать их тщательным образом; сп- ВЫчеРчивать график неровностей для сглаженных корней и Равнивать их буквенные значения бВСМСВб с некоторыми стандарт- ами значениями; Ра - находить положение точки максимума путем деления пополам 'стояния между точками, расположенными на одинаковой высоте;
590 Глава 17 Q вычерчивать графики различных преобразований плавной ком поненты в зависимости от квадрата смещения (квадрата текущей" значения абсциссы МИНУС точка максимума) и (если повезет) нахо° дить для нее преобразование, подходящей аппроксимацией которог' является прямая; 0 использовать ячейки неравных размеров, заменяя ^подсчет на Кподсчет/размер (как в том случае, когда неравномерность ячеек связана со структурой данных, так и в. том, когда мы сами выбираем ячейки неравными); 0 применять преобразование базисных подсчетов вида ^‘24-4- (базисный подсчет); 0 усовершенствовать первоначальную подгонку, анализируя «желательные точки максимума». Теперь мы яснее представляем себе, что 0 границы ячеек могут определяться количествами, отклонениями или базисными подсчетами; 0 размеры ячеек иногда фиксированы априори (например, число детей в семье), а иногда могут назначаться по нашему желанию (на- пример, октавы для логарифмов от базисных подсчетов, достигающих большой величины); 0 тот факт, что «то-то и то-то есть удовлетворительная аппрокси- мация», не означает, что именно она есть «правильная аппроксима- ция», «лучшая аппроксимация» и выражает существующую в природе закономерность.
Глава 18 ГРАФИКИ ПРОИЗВЕДЕНИЙ-ОТНОШЕНИЙ — ОБРАБОТКА БЕЗ ИСПОЛЬЗОВАНИЯ ЯЧЕЕК УКАЗАТЕЛЬ К ГЛАВЕ 18 Обзорные вопросы 18А. Размеры и подсчеты 592 «закон Зт-фа» 593 п-ранг 593 Возможный подход 597 Обзорные вопросы 598 18Б. Анализ прсизведеиий-отиошений 598 Вычисления на полуоктавах 600 Графическое изображение 601 Обзорные вопросы 601 18В. Выделение необычного, требующего внимания 601 Обзорные вопросы 605 18Г. Сравнение различных совокупностей данных 605 Обзорные вопросы 607 18Д. Особенности наименьшего базисного подсчета 607 Обзорные вопросы 608 18Е. Нулевые базисные подсчеты 608 Обзорные вопросы 611 18Ж. «Под микроскопом» (анализ остатков) 613 Обзорные вопросы 616 18И. Чего мы достигли? 616 Комментарий Ы6 Анализ множеств базисных подсчетов (или количеств), распре- ДЗДения которых имеют длинные хвосты,— проблема, с которой при- водится сталкиваться в самых различных областях. Размеры городов в поселков в данном районе, частота появления различных слов пьесе, повести или специальном тексте, число видов в каждом из I одов некоторого класса растений или животных — вот примеры, Оторые можно было бы продолжить. 8 связи с подобными распределениями возникают две задачи: О мы хотели бы иметь способ графического изображения этих
.192 Глава 18 распределений, который позволил бы нам судить об их форме и civ нивать между собой; ^ав" 0 было бы полезно найти некоторый простой способ описан главных особенностей кривой распределения. я (Конечно, найдя такой способ, мы станем интересоваться и оста шимися вне описания деталями.) Такого рода задачи нам хорошо знакомы, однако методы, кото рыми мы уже владеем, лишь в малой степени подходят для графиче" ского изображения подобных распределений. Ячейки в виде октав на шкале базисных подсчетов помогают «справиться» с многими рас- пределениями, имеющими длинные хвосты. Но при этом теряются многие детали, часто имеющие большое значение. Это не удивительно- факт, что «величина, равная 1647, встречается столько-то раз», со- держит гораздо больше информации, чем сообщение, что «столько-то раз встречается величина, заключенная между 1024 и 2047». Поэтому в данной главе мы рассмотрим методы, основанные не на ячейках, а непосредственно на отдельных подсчетах (по крайней мере для самых больших подсчетов) и ориентированные, во-первых на построение графиков распределений, которые можно легко срав- нивать между собой, и, во-вторых, на получение простых описаний и соответствующих им остатков. Эти методы могут быть полезны и для других распределений с длинными хвостами, не основанных на подсчетах, например для рас- пределения площадей озер и прудов (в стране или на континенте). Примеры подобных распределений мы оставляем читателю. ОБЗОРНЫЕ ВОПРОСЫ Какая проблема возникает в связи с анализом распределений? Какие задачи естественно здесь ставить? Знакомы ли они нам? На- сколько полезны уже известные нам методы? Будем ли мы в этой главе использовать ячейки? 18А. РАЗМЕРЫ И ПОДСЧЕТЫ Мы уже упоминали о распределении размеров озер и прудов в качестве примера распределения, основанного не на базисных под- счетах. Хотя такие величины, как размеры, на первый взгляд не похожи на подсчеты, у них есть много общего: размеры задаются с ограниченной точностью и при их анализе возникают те же сложно- сти, что и с базисными подсчетами: «слипание» ряда измерений в одну и ту же величину. Классический подход к такого рода данным связан с именем Георга Кингслея Зипфа и использует понятия «ранга» «размера», произведение которых, согласно
Графики произведений-отношений 593 «закону Зипфа», олжно быть постоянной величиной. Д На вопрос, чему равен ранг, как правило трудно дать ответ — озможно потому, что часто внимание сосредоточено на больших начениях подсчетов базисных подсчетов. Если в наблюдениях имеется много базисных подсчетов, равных, например, 1 (что часто имеет место), их «ранг» требует аккуратного определения. В примере с повестью Пушкина, который мы кратко рассмотрим, слова, связанные с базисным подсчетом, равным 1, занимают ранги от 2400 до 4783. Какой ранг в этом случае следует приписать «размеру 1»? Мы будем использовать так называемый «полный ранг» с кратким обозначением п-ранг, равный наибольшему рангу, который можно приписать данному базисному подсчету (или размеру), т. е. равный числу элементов выборки, не меньших этого базисного подсчета (или размера). На приводимой ниже иллюстрации рассматриваются три примера, базисными подсчетами которых являются: ф> число статей, опубликованных в данном журнале, рефераты которых появились в 1961 г. в Science Abstracts (А) в разделе «Элект- рические свойства твердых тел»; ф> число статей, опубликованных в данном журнале, рефераты которых появились в 1961 г. в Science Abstracts (А) в разделе «Атом- ная и молекулярная физика»; О частота появления данного русского слова (в определенной грамматической форме) в повести Пушкина «Капитанская дочка». Все три распределения имеют длинные хвосты, что ясно из сле- дующей таблицы, в которой приведены экстремальные значения для этих распределений: 1 2 3 4 Электр, св-ва тв. сел. 255 46 1342 118 Атомн. и молек. физ. 372 39 1 339 107 «Капитанская дочка» 1160 2384 29 345 4783 В столбцах 1—4 помещены следующие величины: 1 — наибольшее значение базисного подсчета; 2 — число подсчетов базисного подсчета, равного 1; 3 — общее число наблюдений; 4 — сумма подсчетов.
594 Глава 18 Например, в «Капитанской дочке» одно слово появляется 1160 раз, в то время как 2384 слова появляются только по одному разу. Общее число различных слов 4783, и появляются они всего 29 345 раз. На илл. 1 приведены сами данные, а на илл. 2 — три графика остатков, полученных в результате вычитания из корней подсчетов значений аппроксимирующих зависимостей, приведенных на илл. 1, Б. Эти зависимости представляют собой линейные функции, связывающие значения корней из числа подсчетов, приходящихся на октаву (или логарифмов корней), с номерами ячеек. В иллюстрациях мы не за- мечаем ничего характерного, что привлекло бы наше внимание. Тем не менее по крайней мере один из примеров имеет особенность, вполне заслуживающую рассмотрения. Пять наибольших значений базисных подсчетов в этих примерах равны: Электр, св-ва тв. тел 255 130 128 75 69 Атомн. и молек. физика 372 79 61 53 50 «Капитанская дочка» 1160 777 724 582 479 Как видно, в примере с «Атомной и молекулярной физикой» наиболь- ший базисный подсчет значительно дальше отстоит от следующего по величине, чем в других примерах. Желательно было бы найти какой-нибудь способ улавливать подобные особенности. Но какой? Хорошую идею в этом отношении можно почерпнуть из анализа корней от пяти наивысших базисных подсчетов и их разностей. Для корней из подсчетов имеем: Электр, св-ва тв. тел 16,0 11,4 11,3 8,7 8,3 Атони, и молек. физика 19,3 8,9 7,8 7,3 7,1 «Капитанская дочка» 34,1 27,9 26,9 24,1 21,9 Разности корней равны: Электр, св-ва тв. тел 4,6 0,1 2,6 0,4 Атомн. и молек. физика 10,4 1,1 0,5 0,2 «Капитанская дочка» 6,2 1,0 2,8 2,2 Во всех случаях наивысшее значение весьма заметно отделено от следующего по величине. «Оторванность» наибольшего базисного подсчета настолько велика, что этот подсчет, по-видимому, связан с каким-то характерным объектом. Наоборот, если бы мы интересе-
Графики произведений-отношений 595 Иллюстрация 1 главы 18: три множества событий Подсчеты в октавных ячейках для распределений с длинными хвостами А) ДАННЫЕ по ОКТАВАМ № йчей-1 ни # Базисные Под- в подсчеты | счеты | 1 1 2 — 3 46 23 3 4 — 7 8—15 15 16 5 16 — 31 32—63 11 2 7 64 — 127 128 — 255 2 3 9 1 № ячейт ки # 256 — 511 512 — 1023 024 — 2047 Базисные 0 Под- В подсчеты | счеты [ 1 1 2 — 3 39 20 3 4—7 8—15 13 13 5 16—31 32 — 63 13 7 7 64—127 128 — 255 1 0 9 №.. ячеи- ки # 256—511 512—1023 1024 — 2047 Базисные 1 1 Под-. В подсчеты счеты 1 1 2—: 2384 1280 3 4 — 7 580 8 — 15' 280 "5 16—31 133 32— 63 70 7 64 — 127 31 128—255 11 8 256— 511 10 Б12—1023 3 1024 — 2047 1 (0) Плави. Остатки КОМП. Аппр. Для I корней корней корней 6.8 5.6 1.2 4.8 4.9 -.1 З.Э 4.3 -.4 3.6 3.6 .4 3.0 3.0 .3 1.9 2.3 -.9 1.4 1.7 -.3 1.0 1.0 .7 .4 .4 -.4 Ппавн. Остатки КОМП. Аппр. Для корней корней корней! 6.2 5.6 .6 4.5 4.9 —.4 3.6 4.2 -.6 3.6 3.5 .1 3.4 2.8 .8 2.4 2.1 .5 1.4 1.4 -.4 .5 .7 -.7 0 0 1.0 Ппавн. Остатки комп. Аппр. для J корней корнер корней! 48.8 50.1 -1.3 35.8 34.7 1.1 24.1 24.0 Л 16.7 16.6 .1 11.5 11.5 0 8.4 7.9 .5 5.6 5.5 .1 1 3.3 3.8 -.5 3.2 2.6 .6 1.7 1.8 -.1 1.3 1.3 -.3 (0) .9 (-.9|
596 Глава 18 Иллюстрация 1 (продолжение) Б) АППРОКСИМАЦИИ Ячейки представляют собой октавы: ячейка #0 содержит базисные подсчеты равные 1; ячейка #1 — базисные подсчеты, равные 2 и 3, и т. д, Электр, св-ва тв. тел: 1^ подсчет/ячейка = 5,6—0,65В. Агомн. и молек. физика: подсчет/ячейка = 5,6—0,7В, «Капитанская дочка»: If К подсчет/ячейка = 1,70—0,16В, В) БУКВЕННЫЕ ЗНАЧЕНИЯ (Электрические свойства твердых тел) ‘ # (один нуль) — М5 СЗ В2 1.2 .4 7 -.1 -.4 .8 -.4 1.1 1.6 ххх -1.6 ххх #9 МБ СЗ В2 (Атомная и молекулярная физика) один нуль) 1.5 .6 .8 .1 .4 —.4 -.6 1.0 1.4 2.1 ххх -1.9 ххх #11 ( Мб СЗп В2 ("Капитанская дочка" один нуль) 1.0п .3 .6 .1 -.4 .7 1.5 б 1.3П одно —1.4п ХХХ б б Г) УПРАЖНЕНИЯ 1а) Ввиду довольно устойчивой (хотя и слабой) тенденции смещения остатков для данных по «Капитанской дочке» в положительную сторону (откуда это видно?) попытайтесь использовать аппроксимацию 1g подсчет/ячейка = 0,01+1,70— —0,16В и найти для нее остатки и их буквенные значения. Приводит ли это к улучшению результатов? Д) ИСТОЧНИКИ: Для разделов «Электрические свойства твердых тел» и «Атомная и молекулярная физика» — соответственно табл. 20 и 22 из работы: Keenan S., Atherton Р. The Journal Literature ot Phisics (AIP/DRP PAI (1964)). Ame- rican Institute of Physics, New York, 1964; для «Капитанской дочки» — табл. 32 на с. 97 из работы: Herdan G. The Advanced Theory of Language as Choice and Chance (Kommunikation und Kybernetik in Einzeldarstellungen, Band 4), Springer, New York, 1966. (Источники для последней работы: Josselson Н. Н. The Russian Word Count (Frequency Analysis of Grammatical Categories of Standard Literary Russian). Wayne University Press, Detroit, 1У53.)
Графики произведений-отношений пись некоторым названием, естественно было бы начать с извле- ®анИЯ квадратного корня из соответствующего ему подсчета. че Другой важной для нашег0 слУчая величиной является общее исло объектов: наименований журналов или русских слов, причем опять-таки естественно брать не само число, а квадраты"» корень из него. возможный подход Имеются две крайние ситуации. С одной стороны, много объектов наблюдения (много журналов, много слов) появляется только один раз. С другой стороны, какой-нибудь один объект (один из журналов, одно из слов) появляется много раз. Здесь ощущается некоторая симметрия между двумя типами подсчетов: ф числом появлений, т. е. величиной базисного подсчета, и (у числом объектов, появляющихся не менее заданного числа раз, т. е. полным рангом (отсчитываемым сверху). Иллюстрация 2 главы 18: три множества событий Остатки после аппроксимации данных, сгруппированных по ячейкам в виде октав, для трех примеров илл. 1
598 Глава 18 По-видимому, мы должны искать такой алгоритм анализа, котооы“ 0 оперирует с комбинациями таких пар; ’ и обеспечивает симметричную их обработку; ф использует квадратный корень из наибольшего числа появ лений (корень из наибольшего базисного подсчета) как одно крайнее значение и квадратный корень из общего числа наблюдаемых объектов (корень из наибольшего ранга) как другое крайнее значение. ОБЗОРНЫЕ ВОПРОСЫ Почему необходим особый способ графического изображения и анализа распределений с длинными хвостами? С какого примера мы начали? Что показали остатки? Что показали наибольшие значения базисных подсчетов? Как наиболее эффективно представить инфор- мацию, содержащуюся в этих наибольших значениях? Какие две величины, в некотором отношении симметричные друг другу, соот- ветствуют каждому базисному подсчету? Что такое п-ранг? 18Б. АНАЛИЗ ПРОИЗВЕДЕНИЙ-ОТНОШЕНИЙ Как можно объединять х и у с целью их симметричной обработки? Один из простейших способов — образовать величины х+у и х—у, однако в данном случае он не кажется многообещающим. Другой спо- соб, применимый, когда и х и у отличны от нуля,— это образовать величины ху и х!у. Если х и у всегда положительны (как в нашей задаче), лучше вместо х/у использовать log(x/y). Это уже более обе- щающее начало. Наконец, при х— 1, как уже говорилось, целесооб- разно использовать Ку, а при у=1 —величину х. Поэтому вместо ху нам более подходит ху. Таким образом, в окончательной форме наш анализ заключается в исследовании поведения величины К (базисный подсчет) • (полный ранг сверху) как функции от log (базисный подсчет/полный ранг), т. е. корня от ПРОИЗВЕДЕНИЯ как функции от логарифма ОТНО- ШЕНИЯ. По-видимому, эта зависимость — как раз то, что нам нужно, особенно если вспомнить, какое значение Зипф придавал ПРОИЗВЕ- ДЕНИЮ. (Конечно, мы далеко не так оптимистичны, как он. Мы надеемся, что зависимость произведения от отношения будет доста- точно простой, но вряд ли произведение окажется константой.) На илл. 3 демонстрируются все этапы анализа произведений- отношений на примере с не очень большим количеством данных- Иллюстрация содержит и детальные вычисления, помещенные в первых четырех столбцах, и расчеты, основанные на двух полуоктавныХ
Графики произведений-отношений 599 Иллюстрация 3 главы 18: научная активность в эконометрике Число авторов, имеющих различное число публикаций за период с 1933 по 1952 г. /Публикацией считается выступление на заседании Общества эконометрики или татья на страницах журнала «Эконометрика») А) ВЫЧИСЛЕНИЯ (детальные и по полуоктавам) Детальные вычисления статей -базис ные по; счеты Число авторов Инди- вид.' п-ранг Корень из произ- веди (од отноше ния3} Дб (1) 1 6.8 1.66 37 (1) 2 8.6 1.27 30 (D 3 9.5 1.00 28 (2) 5. 11.8 .75 24 (1) 6 12.0 .60 23 (1> 7 12.7 .52 18 >(1) 8 12.0 .35 17 (2) 10 13.0 .23 16 (1) 11 13.3 -.16 14 (2) 13 13.5 .03 13 (3) 16 14.4 -.09 12 (2) 18 14.7 -.18 11 (4) 22 15.6 -.30 9 (1) 23 14.4 -.41 8 (11) 34 16.5 -.63 7 (6) 40 16.7 -.76 6 (23) 63 19.4 -1.02 Б (14) 77 19.6 .-1.19 4 (40) 117 21.6 -1.47 '3 (61) 178 23.1 -1.77 2 (107) 285 23.9 -2.15 1 (436) 721 26.9 -2.86 Значения только для полуоктавП у'произвед. | log отношения I базисн. |п-ранг| базисн | |п-ранг( подсчет . о пог.оыет! i6g 8.6 1.27 1.00 12.0 .60 12.0 .35 13.3 .16 14.4 -.09 15.6 -.30 16.5 -.63 19.4 -1.02 21.6 -1.47 23.1 -1.77 23.9 -2.15 26.9 -2.86 11 Полуоктавные последовательности ПРОИЗВЕДЕНИЙ и ОТНОШЕНИЙ объединяются друг с другом. 2> Примеры: 6,8= 1^46^1; 8,6= /37^2 и т. д. до 26,9= /'b72L ’ Примеры: 1,66=lg46/l; 1,27=lg37/2 и т. д. до — 2,86=lgl/721. Б) УПРАЖНЕНИЯ а) Проведите прямую линию через точки (1,66; 6,8) и (—2,86; 26,9) и, используя ее, найдите аппроксимацию для корней. Вычислите остатки и начертите их 3б1 р?аФик- Прокомментируйте результаты. > Интерполируйте значения для базисного подсчета, равного 1п, и п-ранга, рав- ного 1п, и сгладьте полученные последовательности базисных подсчетов и “'Рангов. Сравните их с исходными и прокомментируйте результаты. 1953^) ИСТОЧНИК: Leavens D, И, (Communication). Econometrica, 21, 630—632,
600 Глава 18 подмножествах данных (согласно методу, описанному ниже). От тим, что в столбце с названием «Корень из произведения» помете е' квадратные корни произведений данного базисного подсчета на ЧИсНЬ1 наблюдаемых объектов (здесь — авторов), имеющих базисные по ° счеты, большие или равные данного (п-ранг). Этот столбец начинается с К46, где 46 — наибольший базисный подсчет, и кончается J/72T где 721 — общее число авторов (в соответствии с описанным выщё алгоритмом). ВЫЧИСЛЕНИЯ НА ПОЛУОКТАВАХ Зачастую достаточно брать только те пары (базисный подсчет п-ранг), для которых базисный подсчет или п-ранг равен (или близок) полуоктавным значениям (т. е. 1, 1п, 2, 3, 4, 6, 8, 11, 16, 22, ...), на. чиная выбор одновременно с двух сторон: о минимальных значений базисных подсчетов и минимальных п-рангов — и останавливаясь на месте их пересечения, в котором базисный подсчет приблизительно равен п-рангу. Практически это означает, что можно делать вычисле- ния только в тех строках илл 3, которые соответствуют двум множе- ствам полуоктавных значений, экономя на вычислениях в семи стро- ках илл. 3 (и в значительно большем числе строк в случае примера о большим объемом данных). ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ На илл. 4 приведен график зависимости корней из ПРОИЗВЕДЕ- НИЙ от логарифмов ОТНОШЕНИЙ. Совершенно очевиден прямоли- нейный характер этой зависимости. Положение двух крайних точек, соответствующих общему числу авторов 721 и максимальному «вкла- ду» одного автора, равному 46, по существу, полностью определяет всю зависимость. (Видно, что в данном случае зависимость весьма проста, но далеко не постоянна.) Несколько упражнений помещено на илл. 5. ОБЗОРНЫЕ ВОПРОСЫ Как мы комбинируем базисные подсчеты и п-ранги? Почему мы выбрали именно такой способ их объединения? Что такое авали произведений-отношений? Должны ли мы принимать во внимани каждый из базисных подсчетов? Как можно использовать полуокта ные «ступени»? Насколько строго они должны соблюдаться? Как пример мы рассматривали? Как выглядел график произведен! отношения?
Графики произведений-отношений 601 Иллюстрация 4 главы 18: научная активность в эконометрике ГпаФик корней из ПРОИЗВЕДЕНИЯ в зависимости от логарифма ОТНОШЕНИЯ (по данным илл. 3) Корень из ПРОИЗВЕДЕНИЯ Общее число 20 10 О Наибольший / базисный подсчет-40 log отношений ^2 0 +2 18В. ВЫДЕЛЕНИЕ НЕОБЫЧНОГО, ТРЕБУЮЩЕГО ВНИМАНИЯ На илл. 6 приведены данные (в полуоктавной форме), относящиеся к девяти различным разделам физики, включая те два, которые раз- бирались на илл. 1. На илл. 7 изображен график зависимости «корней из ПРОИЗВЕДЕНИЯ» от «логарифмов ОТНОШЕНИЯ» для примера с «Атомной и молекулярной физикой», который выше привлек наше внимание. Мы видим достаточно правильную одногорбую кривую, однако одна точка (соответствующая наиболее популярному журналу) находится далеко за пределами этой кривой. Налицо явная «ненор- мальность», которую не нужно специально искать — она сама бросает- ся в глаза. Таким образом, мы получили то отображение данных, к которому стремились. Естественный вывод из проведенного анализа состоит в том, что «Журнал химической физики» (Journal of Chemical Physics) играет в своей области особую роль. Можно изъять из исходных данных иТот журнал с его 372 статьями по атомной и молекулярной физике |1„1,1ОВТОРИТЬ анализ для оставшихся данных. Это приведет к умень- на единицу, что изменит и «корень из произве- отношения» для каждого порога. (Кроме того, значений базисных подсчетов сдвинется от полу- , ----, __ мы согласились относиться к этому нестрого.) (1 К.и“х°бразом, множество пар для малых базисных подсчетов равно (41 kF ’ ^)> •••’ (22, 14), а для больших — (79, 1), (61, 2), (53, 3), > 6), (38, 7), (27, 10), (22, 14) и (16, 21). На илл. 8 представлен со- всех рангов ения» и «логарифм Ножество больших ктавных точек, ио
602 Глава 18 Иллюстрация 5 главы 18: научные работы в трех отраслях Полуоктавные сводки для грех других множеств данных А) ОБЛАСТЬ ВЫСОКИХ БАЗИСНЫХ ПОДСЧЕТОВ Число публикаций каждого из авторов - базисн. подсч. |п-ранг| Математика | физика | Химия 1 70 — 346 2 42 48 114 3 39 37 109 4 35 34 107 6 27 27 84 8 21 25 78 11 20(10) 24 68 16 13(15) 18 57 22 16 54(21) 32 47 44 41 Значения в скобках (правее столбцов) — действительно используемый п-рацр (см. замечание 1). Б) ОБЛАСТЬ МАЛЫХ БАЗИСНЫХ ПОДСЧЕТОВ Число авторов с данным или ные под - большим числом статей - п-ранг | счеты Матем j Физика | | Химия 1 278 1325 6891 2 145 541 2900 3 102 337 1841 4 78 210 1348 6 55 127 877 8 36 80 633 11 23 48 419 16 12 22 250 22 14 149 32 68 44 41 Американского математиче- Для «Математики»: члены Чикагского отделения ского общества. Для «Физики»: авторы статей в журнале Geschichtstafeln der Physik, опубли- кованных до 1900 г. Для «Химии»: авторы статей в журнале Chemical Abstracts, имена которых начинаются с А или В (по публикациям в период с 1907 по 1916 г.) Замечания. 1. Поскольку наши определения сформулированы через базисные подсчеты, полу октавные значения рангов могут попасть в середину между базисными подсчетам > и их невозможно будет использовать. В таких случаях нужно брать ближаиш приемлемое значение, МЕНЬШЕЕ, чем полуоктавное. н0 2. Обратите внимание на то, что столбцы в п. Б НЕ соошетствуют непосредстве столбцам п. Л. В) УПРАЖНЕНИЯ н0- 5а/б/в) Начертите графики значений корней из произведений от логарифмов шений для «Математики», «Физики» и «Химии». я от Бг/д/е) (на основе 5а/б/в) Начертите сглаженные графики корней из произведен логарифмов отношений для «Математики», «Физики» и «Химии»»
Г рафики произведений-отношений 603 Иллюстрация 6 главы 18: статьи по физике Полуоктавные сводки для девяти областей физики — статьи, реферированные в Science Abstracts (А) за 1961 г. д) ОБЛАСТЬ БОЛЬШИХ БАЗИСНЫХ ПОДСЧЕТОВ — п-ранги и соответ- уюшие базисные подсчеты (данные для рангов 5, 7, 9 и 10 включены как вспо- С нательный материал; относительно чисел в скобках см. предыдущую иллюстрацию) ^анг] lAcrpoi- 1 физ-1 Жидк. I и газы Эл. и магне- тизм Ядер- ная 1 физика Элем. часЧ |-П1ЦЫ| Ат. и мол. физика Физи- ка ТВ . тела Элек- |Трич.. . св-ва |тв.тел| Магн. св-ва тв. тел 99 116 152 391 174 372 219 255 168 2 77 83 135 368 160 79 208 130 165 3 71 60 132 231 157 61 196 128 122 4 55 57 119 184 123 53 160 95 57 6 АЗ 36 2 127 73 41 152 30 53 8 34 31(7) 75 89 29 •38 110 27 45 11 ‘24 25 64(9) 54 18 27 84 24 33 16 16 17(15) 43(14) 40(15 ) 12 22(15) 49 19(15) 18 22 32 8(21) 15(21) 31(21) 30(21) 22 17 16 38 20(31) 14(20) 12 Общее (906) (1206) (2342) (2902) (1238) (1339) (3359) (1342) (1245) 5 49 52 83 155 ' 110 50 155 69 53 7 40 31 81 102 31 43 117 33 45 9 31 30 74 75 27 35 103 26 40 10 27 29 64 59 21 31 94 24 35 Б) ОБЛАСТЬ БОЛЬШИХ п-ранги П-РАНГОВ — базисные подсчеты и соответствующие 1 115 154 182 141 97 107 134 118 87 2 73 104 124 81 60 68 125 72 62 3 51 80 102 78 48 57 102 58 49 4 39 68 81 67 42 46 84 49 38 6 27 50 69 66 31 36 68 40 31 8 21 41 58 52 24 33 55 34 28 11 17 31 48 45 17 27 42 29 21 16 16 17 35 34 12 22 . 37 18 16 22 О*» 13 11 32 30 15 30 12 15 20 20 26- В) ИСТОЧНИК: Keenan S., Atherton Р. The Journal Literature of Physics (A IP/ L)RP PA] (1964)), American Institute of Physics, New York, 1964 (данные по астрофи- вике: табл. 8 на с. 12—13; по физике жидкостей и газов: табл. 12 на стр. 18—20; по электричеству и магнетизму (также плазме): табл. 16 на с. 24—26; по ядер ной Физике: табл. 7 на с. 27—28; по физике элементарных частиц: табл. 18 на с. 29—30; по атомной и молекулярной физике; табл. 20 на с. 32—33; по физике твердого тела: иол 21 на с. 34—36; по электрическим свойствам твердых тел: табл. 22 на с. 37— > по магнитным свойствам твердых тел: табл, 24 на с. 40—41.)
604 Глава 18 Иллюстрация 7 главы 18: статьи по физике (рафик произведений-отношений для статей по атомной и молекулярной физике (Числа 100 и 200 показывают, где располагались бы точки для наиболее популярного журнала, если бы в нем было столько статей) Иллюстрация 8 главы 1в: статьи по физике График для статей по атомной и молекулярной физике после исключения работ, опубликованных в «Журнале химической физики*- Корень из ПРОИЗВЕДЕНИЯ Корень из ПРОИЗВЕДЕНИЯ Л го - 372 статьи Внаиомее популярном журнале 200 X о X 100 Всего 107журналов ^ОТНОШЕНИЯ ^2 0 2 *" ответствующий график, который теперь совершенно симметричен, и максимум его близок к точке, где логарифм отношения равен 0, 0. Иными словами, после удаления «Журнала химической физики» данные, соответствующие остальным журналам, обнаруживают оп- ределенную согласованность (хотя и описываются двумя прямыми). Таким образом, наилучшее описание, которое можно дать для распре- деления журналов по числу статей, посвященных атомной и молеку- лярной физике и реферированных в 1961 г., состоит из двух частей: 0 имеется один специализированный «Журнал химической фи- зики», содержащий 372 статьи; <> в совокупности из 106 других журналов каждый содержит по меньшей мере одну статью из 967 оставшихся. Для этой совокупности график зависимости «Кпроизведения от log отношения» хорошо опи- сывается двумя отрезками прямых, соединяющими точки (—loglOb, KW6), (0, /335) и (log 79, /79). Интересно отметить, что, проведя аналогичный анализ структуры данных для раздела «Электрические свойства твердых тел», которые мы ранее приняли за некий эталон «нормального поведения», мы о наружим, что какого-то одного специализированного журнала нет, однако имеется пять журналов, в большей степени, чем другие, специа лизированных по этой тематике (.илл. 9).
Графики произведений-отношений 605 Иллюстрация 9 главы 18: упражнения Несколько упражнений на использование графиков произведений-отношений _ _г) Начертите графики, аналогичные илл. 7, для случаев «Астрофизики», ' & «Жидкостей и газов», «Электричества и магнетизма», «Ядерной физики», и укажите нетипичные значения. ___г2) Исключите «нетипичные журналы», если они проявятся в графиках (9а—г), и начертите графики для оставшихся журналов. Прокомментируйте результаты. о _к) Сделайте то же, что и в (9а—г), для разделов: «Элементарные частицы», «Твердые тела», «Электрические свойства твердых тел», «Магнитные свой- ства твердых тел». g 2__к2) Сделайте то же самое, что и в (9а2—г2), для соответствующих разделов физики. ОБЗОРНЫЕ ВОПРОСЫ Какой пример привлек наше внимание? Как ведет себя его график произведений-отношений? Каков был наш «диагноз»? Что мы делали затем? С каким результатом? Какого вы мнения о достигнутых резуль- татах? 18Г. СРАВНЕНИЕ РАЗЛИЧНЫХ СОВОКУПНОСТЕЙ ДАННЫХ Обращаясь вновь к илл. 5, сравним приведенные в ней распреде- ления: посмотрим, в какой степени они ведут себя аналогично, а в чем различаются. Непосредственное сравнение тех графиков, которые мы до сих пор строили, почти ничего нам не даст. При общем объеме данных по химии, равном 6891, а по математике 278, конечно, нельзя ожидать, что или наибольший базисный подсчет, или число объек- тов, соответствующих базисному подсчету, равному единице, будут для них сколь-нибудь близки. Ясно, что необходимо делать поправку на объем совокупности данных, которые мы анализируем. Это можно делать различными способами. Все они должны обладать тем свойством, что, например, удвоение числа наблюдений для каж- дого базисного подсчета (и, следовательно, удвоение каждого п-ранга) не влияет на вид графика. Это свойство необходимо, поскольку оно означает, что, получив вдвое больше аналогичных данных, мы не внесем серьезных изменений в построенный график. Простой способ обеспечить такую поправку для анализируемого множества данных состоит в том, чтобы выбрать число а и базисный подсчет b и поделить каждый п-ранг на ась, где ась — п-ранг для Ь. Заменив п-ранг на п-ранг/йсь, мы заменяем ПРОИЗВЕДЕНИЕ (ко- рень из произведения базисного подсчета на п-ранг) на величину ПРОИЗВЕДЕНИЕ/ (/^), а ОТНОШЕНИЕ (логарифм отношения базисного подсчета к п-ран- ГУ) — на ОТНОШЕНИЕ+log (ась).
60S Глава 18 Иллюстрация 10 главы 18: научные работы в трех областях знаний Три множества данных, согласованные в точке базисного подсчета равного 6 (а=Ь=6) Корень из ПРОИЗВЕДЕНИЯ х 1.0' х ° Ъ Физика Матем. пс Химия 0,5 ~ X о А X * <АА ?.о X Ло х д log ОТНОШЕНИЯ i_____________I _ 3 5 Таким образом, мы сжимаем вертикальные координаты, умножая их на постоянный коэффициент, и сдвигаем горизонтальные коорди- наты на аддитивную постоянную. Форма графика при этом остается неизменной. Если положить а=Ь, то график, соответствующий любому мно- жеству данных, будет содержать точку (logo2; 1,000), т. е. графики для различных множеств, построенные при а=Ь, будут пересекаться (или соприкасаться) в этой точке. При а—Ь=1 описанная процедура эквивалентна делению всех п-рангов на п-ранг, соответствующий единичному базисному подсчету и равный общему числу событий- Таким образом, вместо п-рангов используются величины полная доля полный ранг общее число событий" Иногда это достаточно удобно, однако, как мы увидим вскоре, не всегда то, что нам нужно. На илл. 10 показаны результаты вычислений для трех множеств данных из илл. 5. Использован описанный выше метод при а=Ь— • Ясно, что эти графики очень удобны для сравнения. Для базиснЫ
Графики произведений-отношений 607 Иллюстрация 11 главы 18: упражнения Несколько упражнений на согласованные графики, удобных для групповой работы 11а) (упражнение можно разделить на 4 части: первые три — вычисления, четвер- тая— построение графиков) Возьмите а=й=10 и начертите три графика, аналогичные илл. 10. Объясните результаты. 116) (упражнение можно разделить на 4 части: первые три — вычисления, четвер- тая— построение графиков) Сделайте то же самое, что в (На), для а=Ь—3. подсчетов, больших 6, все три графика ведут себя аналогичным об- разом, хотя в случае физики график спадает быстрее остальных, а график для химии обнаруживает заметную кривизну. Для базисных подсчетов, меньших 6, все три графика в достаточной степени прямо- линейны, однако наклон этих прямых а) совершенно различен, б) в разной степени отличается от наклона соответствующих гра- фиков при базисных подсчетах, больших 6 (от едва заметной до очень большой). На илл. 11 помещены упражнения для самостоятельного решения. ОБЗОРНЫЕ ВОПРОСЫ Есть ли необходимость в сравнении совокупностей данных раз- личных объемов? Что такое а и ft? Как они используются? Что полу- чается при a=b? Какой пример мы рассмотрели? Что он показал? 18Д. ОСОБЕННОСТИ НАИМЕНЬШЕГО БАЗИСНОГО ПОДСЧЕТА Внимательно рассматривая приведенные выше графики произ- ведений-отношений, можно заметить, что точка, соответствующая наименьшему базисному подсчету (до сих пор равному единице), не всегда ложится на одну прямую с соседними точками. В этом легко Убедиться экспериментальным путем, изменяя общее число наблю- дений (равное п-рангу для наименьшего базисного подсчета) и про- веряя, куда попадет эта точка. Это равносильно отбрасыванию (или добавлению) некоторых экземпляров с наименьшим базисным под- счетом. На илл. 12 изображены начальные участки графиков для данных илл. 10, построенные при различном числе наблюдений. Для химии, например, мы находим, что при общем числе наблюдений 6251 (это соответствует 6251—2900=3351 автору, имеющему по одной статье) первая точка графика лучше ложится на прямую, чем при истинном числе наблюдений, равном 6891 (что соответствует 6891—2900=3991 автору с одной статьей). Поскольку ]/г3351=58 и 3991=63, разность Зтих последних чисел, очевидно, заслуживает внимания (для реальных
608 Глава 18 Иллюстрация 12 главы 18: научные работы в трех областях знаний Начальная часть графиков илл. 10 — точки, соответствующие альтернативным п-рангам для единичного базисного подсчета данных 5 — это значительная разность между двумя квадратными корнями из подсчетов). В то же время для математики использование общего числа наблюдений 270 (что дает 125 авторов) вместо 278 (что дает 133) приводит к значениям корней К270=16,4 вместо 278=16,7, разность которых не заслуживает внимания. ОБЗОРНЫЕ ВОПРОСЫ Какой вопрос мы затронули в данном разделе? Насколько легко его разрешить? Насколько эффективно решение? 18Е. НУЛЕВЫЕ БАЗИСНЫЕ ПОДСЧЕТЫ Существует еще одна ситуация, в которой анализ произведений- отношений оказывается полезным, по крайней мере для целей срав- нения. Это случай, когда среди ячеек для подсчетов есть ячейка, соответствующая нулевому базисному подсчету, и хвосты распреде- лений достаточно протяженные. Примеры совокупностей данных с такими особенностями приведены на илл. 13. Сюда относятся: 0 число блох на каждой из 209 живых крыс; 0 число изопод, найденных под каждой из 122 досок; 0 число бактериальных скоплений в молоке, видимых в пол зрения микроскопа, для каждого из 400 наблюдений; u g 0 число вшей на голове каждого из 1083 заключенных индийск мужской тюрьмы.
Графики произведений-отношений 609 Иллюстрация 13 главы 18: экологические подсчеты Некоторые данные, в которых сдвиг подсчетов позволяет улучшить графики произведеиий-отношеиий: Крысы Доски Поля микроскопа с Заключе -ные с числом олох^ с числом изоподf числом скоплений, с числом вшей. ванным данному равным данному равным данному равным данному ‘базисные-1 ГТ_ Григ Базисные . > Базисные । Базисные . подсчеты || 11 ран I | подсчеты | |п 1 подсчеты I п-ранг | подсчеты I п-ранг 0 209 0 122 0 400 0 1083 1 146 1 94 1 344 1 481 2 114 2 66 2 240 2 355 3 84 3 52 3 160 3 305 5 58 5 33 5 56 5 243 7 39 7 20 7 20 7 209 10 26 10 11 8 11 10 168 15 14 11 8 9 6 15 130 20 8 13 6 10 3 21 98 26 6 14 5 14 46 4 15 3 40 44 48 3 17 2 47 33 61 2 10 7 58 2Й 83 1 74 10 11 11 129 8 149 8 239 4 170 3 303 2 385 1 209 живых крысах, обитавших ИСТОЧНИКИ Относительно распределения блох, обнаруженных на 209 живых крысах, обитавших в Мобиле, шт. ллабама,— табл. VI на с. 338 работы: Cole L. G. A theory for analyzing contagiously distributed populations. Ecology, 27, 329—341, 1946. Относительно распределения изопод (Trachelipus Rathke 1), найденных под 122 до- сками,— табл. V на с. 337 той же работы. Относительно бактериальных скоплений в молоке, видимых в поле микроскопа (400 наблюдений) — Morgan М. Е., MacLeod P.t Anderson Е. О., Bliss С. 1. A sequential procedure for grading milk by microscopic counts. Storrs Agricultural Experiment Station Bulletin 276, 1951. Эти данные исполь- ованы также в работе Bliss С. I. Fitting the negative binomial distribution to biolo- gical data. Biometrics, 9, 176—196, 1956 (табл. 2 на с. 186). относительно вшей (на всех стадиях развития), обнаруженных на головах 1083 за- ключенных мужской тюрьмы в г. Каннамори, Индия, в 1937—1939 гг.,— табл. 7 с’ *®4 той же работы. Первоисточник для этой работы: Anscombe F. J. Sampling д ОГУ negative binomial and logarithmic series of distributions, 1950 (полные Вих/Ые *Да c‘ приведенного ниже источника для илл. 19). (Оригинальный источник: 0/1 Л. Studies on populations of headlice. Ill, Material from South India Parasi- tology, 32i 296> 1940 ) 20 J'6' 4247
610 Глава 18 Иллюстрация 14 главы 18: экологические подсчеты Распределение блох на крысах при пяти различных значениях констант сдвига, добавляемых к базисным подсчетам (графики согласованы при а=Ь=3) Корень из ПРОИЗВЕДЕНИЯ к 1,5 - Величина сдвига i_ 6 1 3 4 5 Символ о А □ X 1,0- o,s log ОТНОШЕНИЯ J При анализе этих примеров мы можем сдвинуть наши базисные подсчеты, что позволит избежать затруднений при вычислении лога- рифма отношения. Этот прием оказывается особенно полезным, когда в исходных данных нулевая ячейка содержит больше подсчетов, чем любая другая. (В этом отношении пример с бактериями в молоке является «граничным».) На илл. 15 показаны обычные (несглаженные) графики произ- ведений-отношений для всех четырех примеров. Видно, что поведение первых трех сходно, в то время как четвертый заметно отличается от остальных. Для сдвига базисных подсчетов мы можем использовать любо число, которое окажется полезным: 1/6, 1/4, 1/2, 1, 2, 3, 4, 5 и т. Д- На илл. 14 на примере данных илл. 13 о крысах показано, к чему приводит использование пяти таких констант. (Для удобства Дала нейшего использования принято а=й=3.) Все пять графиков илл. 14 поддаются достаточно простому описанию, но сдвиг на 4, п видимому, приводит к наиболее простой кривой.
Графики произведений-отношений 611 Иллюстрация 15 главы 18: экологические подсчеты На илл. 15 вычерчены графики произведений-отношений для че- тырех множеств данных из илл. 13, построенные при сдвиге на 4 и а=Ь=3. Мы видим, что: О на довольно большом протяжении эти кривые приблизительно прямолинейны; ф точки для базисного подсчета, равного нулю, не очень хорошо ложатся на прямые; ф наклон прямой для четвертого примера илл. 13 заметно меньше, чем для трех других. Как видно из илл. 14, существенный сдвиг базисных подсчетов эффективно спрямляет график произведения-отношения. Это внушает надежду, что графики предыдущих разделов, при построении которых сдвиг не применялся из-за отсутствия нулевых подсчетов, также мож- но спрямить этим методом. Исследование этого вопроса мы оставляем читателю в качестве упражнения. ОБЗОРНЫЕ ВОПРОСЫ _ Что такое сдвиг базисных подсчетов? Почему в нем возникла не- ходи ость? В каких примерах он использовался? С каким резуль- том? Где еще можно попытаться его применить? 20*
р!2 Глава 18 Иллюстрация 16 главы 18: экологические подсчеты Остатки для корней из произведений (при сдвиге на 4 и согласовании при а=Ь=3) после вычитания общей аппроксимирующей прямой (формулу см. в тексте) Иллюстрация 17 главы 18: экологические подсчеты Упражнения на «использование микроскопа» (сдвинутые подсчеты) 17а/б/в) Найдите, какие значения п-рангов (и, следовательно, сколько событий для базисного подсчета, равного нулю) необходимы для того, чтобы вернуть точки, соответствующие нулевому базисному подсчету, на аппроксимирую- щую прямую илл. 16 (сделайте это для каждого из множеств данных, фигу- рирующих на илл. 16). В каждом из этих случаев обратите внимание на раз- ность У необходимое число нулей — ^данное число нулей. Прокоммен- тируйте результаты. 17г) Подгоните прямую под график произведений-отношений для случая «голов» и начертите график остатков (аналогичный илл, 16),
Графики произведений-отношений 613 Иллюстрация 18 главы 18: экологические подсчеты График для числа вшей на головах (сдвинутый на 4 и согласованный при 3) с двумя возможными прямыми и несколькими п-рангами для базисного подсчета, равного единице Корень из ПРОИЗВЕДЕНИЯ =у При х=1 «/=1,210, при х=6 у=0,480, Дх=5 соответствует Лр=—0,730, Дх= I соответствует Л«/= 0,146, при х=0 у= 1,356; следовательно, «/=1,356—0,146 (log ОТ- НОШЕНИЯ). При х=1 «/=1,150, при х=6 «/=0,510, Дх=5 соответствует Л«/= 0,640, Дх=1 соот- ветствует Д«/=—0,128; следовательно, «/=1,278—0,128 (log ОТНОШЕНИЯ), 18Ж. «ПОД МИКРОСКОПОМ» (АНАЛИЗ ОСТАТКОВ) Три графика илл. 16 спадают аналогичным образом. Подбор гру* бой аппроксимации для них дает ПРОИЗВ = 1,000—0,36 (ОТНОШ—1,69) = 1,608-0,36L, где ПРОИЗВ означает корень из произведения, а ОТНОШ — логарифм отношения, вычисленные с константой сдвига, равной 4, и а=Ь=3. Для нас стало почти обязательным после аппроксимации вычислять остатки. Графики остатков приведены на илл. 16. Теперь мы можем сделать вывод, что поведение этих трех множеств данных все же до- статочно резко различается. Наименьший базисный подсчет (в данном случае нуль) по-прежнему играет особую роль. В связи с этим на илл. 17 помещен ряд упражне- Хотя численная подгонка прямой под четвертый график илл. 15 (см. упр. 17) МОгла бы прояснить картину, однако и на глаз видно, насколько далеко выскочила за эту,линию точка нулевого базисного
614 Глава 18 подсчета. Как следует из илл. 18, для того чтобы «вернуть» эту точку на прямую, нужно уменьшить подсчет нулевого базисного подсчета на 300—400, что соответствует разностям квадратных корней /622—/322=7,0 или /622-/222=10,0. Эти значения, конечно, достаточно велики. Естественный вывод, который в результате можно сделать, состоит в том, что обследованные преступники делятся на две группы: одна составляющая около трети от общего числа, относительно свободна от вшей, в то время как другая имеет такое распределение заражен- ности вшами, при котором наш график произведения-отношения ведет себя достаточно просто. На илл. 19 приведен ряд аналогичных примеров. Иллюстрация 19 главы 18: данные и упражнения Некоторые данные о числе видов для различных биологических родов (собранные Вильямсом) А) НАСЕКОМЫЕ 1 J—J 1 2 ] I з | 1 1 I I 5 J J 6 I | п-ранг| . базисн. | [подсч] |п-ранг| базисн» . |подсч.| |п-ранг| базисн* 1 подсч.| |л-ранг| базисн* 1подсч.| |п-ранг| базисн. I подсч.| |п-ранг базисн. | [noflcqj 1 200 1 .155 1 40 1 43 1 56 1 . 41 2 • 70 2 77 2 26 2 18 2 26 2 33 3 60 3 64 3 23 4 17 3 18 4 21 .4 31 4 53 4 18 6 13 4 15 5 20 8 30 6’ 40 6 15 7 ,11 6 12 7 15 12 27 9 37 7 13 10 10 7 11 8 13. 16 21 11 33 10 11 15 8 11 8 11 9 20 17 16 25 16 8 22 6 15 6 13 8 43 11 22 21 27 -.6 42 4 17 4 25 8 Б9 8 . 35 .16 52 4 67 3 19 3 25 4 70 6 70 1.1 77 3 118 2 28 2 $0 3 107 4 96 8 117 2 357 1 47 1 40 2 .129 3 134. 6 249 1 71 1 171 2 211 4- 352 1 286 3. 412 2 803 1 1. Coccidae (чешуйчатые насекомые) по всему миру (с. 22 источника). 2. Coleoptera на территории Великобритании, 1904 г. (с. 24 источника). g4 3. Macrolepidoptera (исключая бабочек) на территории Великобритании, 1857 г. (с< источника). 4. То же для 1939 г. (с. 24 источника). 5. Cicadina в Великобритании, 1894 г. (с, 28 источника), 6. То же для 1942 г, (с, 28 источника).
Иллюстрация 19 (продолжение) Б) ПТИЦЫ и РАСТЕНИЯ J 1 I 2 | 3 I | £ | базисн. базисн. базисн. базисн. |п-ранг | |подсч.| | п-ранг| [ лодсч] [п-ранг ] I подсч-1 |п-ранг |подсм( 1 15 1 47 1 97 1 525 5 13 2 21 2 74 2 500 6 12 3 17 3 48 3 325 11 11 4 16 5 31 4 320 17 8 7 15 6 29 6 250 22 6 8 14 8 21 8 190 43 4 12 12 10 15 12 180 60 3 16 11 16 13 16 150 92 2 22 10 26 11 21 125 199 1 32 8 38 8 31 105 45 6 60 6 42 65 88 4 117 4 63 60 139 3 162 3 88 45 223 2 255 2 123 30 479 1 510 1 151 22 195 16 264 11 350 8 400 6 488 4 565 3 691 2 1000 1 1. Птицы, включая подвиды, в Великобритании в 1941 г. (с. 29 источника). 2. Цветковые растения в Великобритании в 1906 г. (с. 30 источника). 3. То же для 1922 г. (с. 30 источника). 4. Растения и папоротники во всем мире (1000 родив, с. 30 источника) В) УПРАЖНЕНИЯ 19а—е) 19ж—л) 19а2—е2) }9ж2—л2) 19аЗ—еЗ) ।о и проанализируйте, насколько он прямолинеен. 19вг4)~Л^ 5?делайте то же самое для результатов упр. 19ж2—л2. !9де4) 19жи4) 19к) ’ Начертите график произведения-отношения без сдвига при а=6=1 для данных, приведенных в графах 1—6 таблицы п. А. Сделайте то же самое для данных, приведенных в графах 1—4 таблицы п.Б. Выберите сдвиг в интервале между 2 и 6 и наложите соответствующий график на тот, который получился в упр. 19а—е. Сравните графики. По- пробуйте угадать величину сдвига, которая могла бы дать линию, близкую к прямой. Проделайте то же самое с результатами упр. 19ж—л. Используя сдвиг, определенный в упр. 19а2—е2, постройте график и проанализируйте, насколько он прямолинеен. Сравните результаты, полученные в упр. 19вЗ и 19гЗ. Проанализируйте их. Постройте все необходимые дополнительные графики. Сделайте то же самое для (19дЗ) и (19е4). Сделайте то же самое для (19ж) и (19и). (для настойчивых) Найдите в указанном ниже источнике данные о числе поколений в семьях и обработайте их аналогично предыдущему. the ИСТ°ЧНИК: Williams С. В. Some applications of the logarithmic series and статье * °’ diversity to ecological problems, J. Ecology, 32, 1—44, 1944 (см, в этой ссылки на оригинальные работы).
616 Глава 18 ОБЗОРНЫЕ ВОПРОСЫ Какая стандартная процедура позволяет нам «использовать ми роскоп»? Чего мы старались достичь этим способом? С каким резуль" татом? у 18И. ЧЕГО МЫ ДОСТИГЛИ? Эта глава посвящена распределениям (главным образом подсче- тов), обладающим длинными хвостами, причем основное внимание уделялось индивидуальным наибольшим значениям. В центре вни- мания была связь между значениями корня из ПРОИЗВЕДЕНИЯ и логарифма ОТНОШЕНИЯ, т. е. зависимость У (базисный подсчет или размер) • (полный ранг) от log (базисный подсчет или размер)/(полный ранг), которую часто легко описать и почти всегда полезно изображать графически. Теперь мы умеем: О составлять графики произведений-отношений, используя или все пары величин (базисный подсчет, п-ранг), или только те, которые соответствуют (хотя бы приблизительно) полуоктавным последова- тельностям значений базисных подсчетов и п-рангов; О используя для а=Ь удобное целое число, приводить несколько таких графиков к одной общей точке (сжимая или увеличивая верти- кальный масштаб и сдвигая горизонтальный); О сдвигать наши базисные подсчеты в случае, если это необхо- димо (есть нулевые базисные подсчеты) или удобно (упрощает форму графика); 0 вычислять простые остатки и с их помощью исследовать форму распределений с длинными хвостами как бы «под микроскопом» (в увеличенном масштабе). КОММЕНТАРИЙ Найдутся читатели, которые отрицательно отнесутся к графикам, рекомендуемым в настоящей главе, мотивируя это тем, что, дескать, «неизвестно, что откладывается по осям». В некоторой степени (прав- да, очень малой) этот аргумент не лишен убедительности. Однако автор уверен (и для этого у него есть все основания), что в данной главе разработан очень полезный метод анализа — полезный прежде всего в том отношении, что О позволяет несколькими числами выразить основную тенденцию поведения распределений с длинными хвостами; <5 тонкости поведения могут быть отображены в форме просты остатков.
Графики произведений-отношений 617 Например, при анализе распределения числа блох на крысах результаты сводились к следующим числам: 0 константа сдвига равна 4, Q наибольший базисный подсчет из подсчетов, полученных на 209 крысах, равен 83, а особенности характера распределения выра- жались с помощью остатков (см. илл. 16) относительно прямой, про- ходящей через точки, которые соответствуют парам (базисный подсчет, ранг), равным (209, 1) и (1, 84). Этот способ оказался достаточно результативным. Он позволяет успешно сравнивать два распределения с длинными хвостами и обна- руживать присущие им характерные особенности. И мы можем ис- пользовать его, и не имея «интуитивного представления» о том, что означают координаты графика.
Глава 19 ФОРМЫ РАСПРЕДЕЛЕНИЯ УКАЗАТЕЛЬ К ГЛАВЕ 19 Обзорные вопросы 619 19А. Рассмотрение форм распределения 619 Цены на «Шевроле» 621 Формы распределения 623 Данные, сгруппированные по ячейкам 625 Обзорные вопросы 626 19Б. Гауссовское стандартное распределение 627 Обзорные вопросы 631 19В. Использование буквенных значений для анали- за форм распределения 631 псевдоширина 633 Обзорные вопросы 641 19Г. Метод «обратного нажима» (факультативно) 642 Вариант с использованием полуоктав 644 Обзорные вопросы 648 19Д, Чего мы достигли? 649 Пусть нам дана выборка данных и мы хотим узнать, как эти дан- ные «распределены». В гл. 17 рассматривался довольно общий и гибкий подход, включающий целый ряд понятий и методов: ячейки; подсчеты в ячейках; плотность ячеек, равную числу наблюдений в ячейке, деленному на ее размер; квадратные корни из плотности ячеек; сгла- живание и, наконец, в частном случае распределений, близких к симметричным, аппроксимацию прямой результатов некоторого пре- образования данных, которое мы нашли целесообразным. В гл. 18 был описан другой подход, ориентированный на частный случай, когда имеется много наблюдений, имеющих малые значения, и в т0 же время существует ряд наблюдений с очень большими значениями. В настоящей главе мы рассмотрим третий подход, основанный на сравнении наблюдаемого распределения с некоторым стандартным, при этом остатки смогут показать нам, насколько и в чем оно отли- чается от стандартного. Снова мы будем иметь дело лишь с частным
Рассмотрение форм распределения 619 пучаем (правда, на этот раз значительно более широким), когда распределение данных (возможно, после некоторых преобразований) не слишком отличается от выбранного стандартного. Изучать распределение — это значит исследовать, где располага- ются наблюдаемые значения. Мы уже знакомы (см. гл. 15) с ф преобразованием долей, О методом нескольких порогов. Если нам известны доли (от общего числа) тех величин, которые находятся «слева» (или «справа») от каждого из возможных порогов, значит, мы знаем, где расположены все величины. Поэтому проблему распределения можно решить, обрабатывая совместно доли «выше» (или «ниже») для некоторого множества порогов. Обработка такой совокупности долей позволяет описать форму распределения и изоб- разить это распределение (его действительное поведение) путем срав- нения наблюдаемых долей подсчетов со значениями, соответствую- щими выбранной стандартной форме, т. е. при помощи картины от- клонений действительной формы от стандартной. Как и следовало ожидать, точного соответствия действительной и стандартной формы почти никогда не бывает. В данной главе мы вновь обратимся к результатам гл. 2, одним из наших первых результатов, и будем использовать буквенные зна- чения как один из наиболее удобных способов, с помощью которого можно оценить разброс значений наблюдаемой совокупности. Наряду с характеристикой внешних интервалов разброса с помощью деления их пополам буквенными значениями мы будем также использовать для внутренних интервалов полуоктавы. ОБЗОРНЫЕ ВОПРОСЫ Какие методы применялись в предыдущих главах для анализа формы распределения? Какой подход мы будем использовать в на- стоящей главе? Как то, что мы собираемся делать, связано с долями подсчетов гл. 15? Что нам необходимо в качестве основы для срав- нения? Что мы будем сравнивать со стандартом? Как часто можно ожидать тесного согласия? Какой метод мы возьмем из наших первых глав? С каким подходом он будет сочетаться? 19А. РАССМОТРЕНИЕ ФОРМ РАСПРЕДЕЛЕНИЯ Для анализа распределения нам нужны простые преобразования — такие, чтобы остатки, полученные после аппроксимации, можно было гРУбо описать. Действительно, требовать, чтобы зависимость исход- ных долей или е.р.-долей от положения порогов была достаточно простой, значит требовать слишком многого. Обычно бывает полезно
620 Глава 19 Иллюстрация 1 главы 19: цены на «Шевроле» Вычисления с целью построения графика преобразованных долей как функции порогового значения; определение первоначальных остатков А) ПЕРВОНАЧАЛЬНЫЕ ВЫЧИСЛЕНИЯ < порога .То же. ПЛЮС 1/2 I Первой. I | остатки| равных | самое I jСр-доли | .св-лога-. I рифмы ] -2.32 h-я 1, j Пороги ] 149 порогу 0 [-1- ш .0096 |anrip.y 150 п пш .038 -1.61 -1.48 -.13- 151 1 1ш .067 -131 „ 249 1 1Ш .067 -1.31 к 7* 250 1п 1пш .096 -1.12 « -1.32 +.20 е 251-687 2 2ш .125 -.97 g е 688 2п 2пш .154 -.85 х -.60 -.25 689-694 3 Зш .183 -.75 * 8 ш 695 Зп Зпш .211 -.66 з -.58 -.08 696-794 4 4ш .240 -.58 ш X 795 5 5ш .298 -.43 S -.42 -.01 796-894 6 бы .356 -.30 а 895 7п 7пш .442 -.12 & -.25 +.13 8 896-1098 9 9ш .529 .06 О 1099 9п 9пш .558 .12 .08 +.04 1100-1165 10 10ш .587 .17 1166 10П Юпш .615 .23 .19 +.04 1167-1332 11 11ш .644 .30 1333 11 п 11ПШ .673 .36 .47 -.11 1334-1498 12 12ш .702 .43 1499 12п 12пш .731 .50 ,74 -.24 1500-1692 13 13ш .760 .58 1G93 13П 13пш .789 .66 1.06 -.40 1694-1698 14 14ш .817 .75 1699 14п 14пш .846 .85 1.07 -.22 1700-1774 15 15ш .875 .98 1775 15л 15пш .904 1.13 1.20 -.08 1.76-1894 16 16ш .933 1.31 1895 16п 16пш .982 1 61 1.40 +.21 1896- 17 17ш .9904 2.32 11 Здесь «ш» означает добавление 1/6, и, следовательно, делитель равен 17 шш=17 »/3. 21 См. илл 3. Б) УПРАЖНЕНИЯ 1а) Используйте дополнительную аппроксимацию, найденную на илл. 4, чтобы получить повторные остатки. Постройте график и прокомментируйте результаты. 16) Повторите вычисления, используя св-корни вместо св-логарифмов. Построите график, сравните его с предыдущим и прокомментируйте результаты. 1в) Возьмите какую-нибудь интересную для вас выборку из 15—25 и проведите для нее аналогичный анализ,
Рассмотрение форм распределения 621 Иллюстрация 2 главы 19: цены на «Шевроле» Подробный график св-логарифмов для всевозможных значений порогов (по данным илл. 1) св-log * подсчетов 2 - растянуть шкалу долей на краях, поскольку доли там изменяются гораздо медленнее, чем в середине. Иными словами, необходимы пре- образования долей, растягивающие хвосты. Есть надежда, что те преобразования долей, которые мы исполь- зовали ранее, окажутся полезными для этой цели. Иными словами, зависимость св-корней или св-логарифмов (как правило, основанных на с. р.-долях) от положения порогов, возможно, будет настолько простой, что: О некоторую простую аппроксимацию зависимости св-корней или св-логарифмов от положения порога и 0 некоторое описание остатков достаточно часто можно будет использовать в качестве адекватного описания распределения наблюдаемых величин. ЦЕНЫ НА «ШЕВРОЛЕ» Илл. 1 посвящена проверке указанного предположения на примере выборки из 17 цен на автомобили «Шевроле» (см. илл. 3 гл. 1). Первые Результаты изображены на графике илл. 2. Кривая обнаруживает Довольно устойчивую скорость роста. Вычерчивая график для все- возможных значений порогов, мы ставим изолированные точки против тех их значений, на которые падает хотя бы одно наблюдение, а на остальном протяжении проводим горизонтальные отрезки. На первых ворах изображение и точек, и отрезков кажется целесообразным. Однако, получив общее представление о распределении и переходя к Дальнейшему анализу, мы ограничимся (для большей наглядности и простоты изображения) одними точками — либо изолированными, либо, как на илл. 3t соединенными пунктиром.
622 Глава 19 Иллюстрация 3 главы 19: цены на «Шевроле» Рабочий график — только точки, соединенные пунктиром, и проведенная на глаз прямолинейная аппроксимация зависимости св-логарифмов от положения порога для 17 значений цен на «Шевроле», взятых с илл. 1 2 При *=200 у=—1,40, при *=1200 «/=0,25, Дх= 1000 соответствует Д«/= 1,65, Дх= =200соответствует Ду =0,33, Дх=1 соответствует Ду=0,00165, при х=0 у=—1,731 следовательно, «/=—1,734-0,00165 (цена) или «/=0,00165 (цена —1049). Иллюстрация 4 главы 19: цены на «Шевроле» Остатки после вычитания из илл. 3 проведенной на глаз аппроксимации и дополнительная аппроксимирующая прямая Остатки 2 - 7 - О - '7 - •2 ~ ~3 - -4 - Цены на „Шевроле" —I________________I_______________I э- 200 1000 1800 При х=400 «/=0,21, при х=1400 у=—0,18, Дх=1000 соответствует Ду— Дх=462 соответствует &у=—0,18, у=0 при х=938; следовательно, у=— (цена —938).
Рассмотрение форм распределения 623 Перенося проведенную на глаз прямую линию с графика илл. 3 братно в таблицу илл. 1, мы находим первоначальные остатки, по- дданные на илл. 4. Выполнение дополнительной аппроксимации, необходимость в которой явственно видна, предоставляется читателю качестве упражнения, как и повторение всего анализа распреде- ления с использованием св-корней вместо св-логарифмов. Тот, кто выполнит эти упражнения, найдет, что с помощью св-корней можно получить более близкую аппроксимацию прямой линией. Как это можно объяснить? ФОРМЫ РАСПРЕДЕЛЕНИЯ У нас есть интуитивные представления о том, что такое форма распределения наблюдений (если быть более точным, то это скорее интуитивная идея относительно того, что не должно изменять форму распределения). В качестве примера возьмем три множества, состоящие только из пяти чисел: (1, 4, 9, 16, 25), (10, 40, 90, 160, 250) и (101, 104, 109, 116, 125). Распределения, соответствующие этим множествам, имеют одну и ту же форму: все они в левой части более компактны, чем в правой. Мы требуем, чтобы преобразования, которые мы только что продемонстрировали: умножение каждого значения на одну и ту же константу (в нашем примере на 10) и ф прибавление к каждому значению одного и того же числа (в нашем примере 100) — не изменяли форму распределения. Следовательно, любая комби- нация таких преобразований также не изменит форму. (Почему?) Строго говоря, форма — это именно то, что не изменяется при триви- альных преобразованиях. Если в результате некоторого преобразования долей «выше порога» мы получаем линейную функцию от положения порога, т. е. константа ПЛЮС другая константа, УМНОЖЕННАЯ НА положение порога, то форма нашего распределения будет одной и той же независимо от того, чему равны константы. В частности, если они равны нулю и единице, мы имеем значения данного преобразования долей «выше порога»=положение порога. Последнюю зависимость мы можем взять в качестве определения стан- дартного распределения, соответствующего данному преобразованию. Обратимся вновь к результатам упражнения 16. Теперь мы можем сказать; форма распределения 17 цен на «Шевроле» ближе к стан-
Глава 19 £24 Иллюстрация б главы 19: скорректированные валовые доходы Анализ подоходных налогов (граждан США в 1958 г.), сгруппированных по ячейкам в соответствии со скорректированными валовыми доходами А) ДАННЫЕ И ВЫЧИСЛЕНИЯ I Верхние 1 Сведения о порогах !границы 1 ячеек Под— Сумми-л) Сумми-i) Сумми-.. сумми-...nora-.. - ,ппрД | счеты j | рование|| |роеаниеТ| |рованиеФ| |рованиеТ| |рифмы| |>/порог| говТ sfooo 3 060247 3 950030 6 73% ~1-32 -78 «1600 4120 276 7010277 11-9% -1.-00 1-00 ?2 000 3 570 536 11 130563 19-°% ~‘72 122 S2 500 3 689 218 14701 089 25'0% ~-И 1-41 S3 000 3 723 909 18 390 307 31 3% --39 158 S3 500 3 742 848 22114216 37'7% -'23 173 2?“° 9 72Я™ 25 857 064 44.0% -.12 1.87 9 745 242 29586642 29114282 50-4% 49'6% +.01 2 00 3.60 S5 000 3 639 977 25 369 040 . 43.2% .14 2.12 3.65 S6 000 6 375 555 21729 063 37.0% .27 2.24 3.70 S7 000 4 676 947 15353508 26.2% .82 2.45 3.78 S8 000 3 226 844 10 676 561 18.2% .75 2.65 3.84 S9 000 2 171 7М 7449717 12,7% '96 283 S-90 Липло 74R2RO4 Б 278 016 8.99% 1.16 3.00 3.95 $ 5 000 2 488 095 3 825 422 6.52% 1.33 3.16 4.00 «20М0 2 едя 262 1 337 327 2.28% 1.88 3.87 4.Ш S25 000 264 732 749 065 128% X’17 4,30 $25 000 264 732 484 333 ,825% $.39 4.40 Ллпппл 114 394 .195% 3.12 4.70 $100000 91 715 22 >79 .0386% 3-93 5.00 $200 000 3863 8 599 Л146% 4’422’ *200000 ’ 3“3 4 736 .0081% 4.72 $500 000 4 3 956 780 .00133% 5.62 $1000 000 636 244 .00042% 6.20 244 (Общее число подсчетов равно 59 085 182, включая 384 258 подсчетов с нулевым валовым доходом. Последняя величина должна быть исключена, так что исполь- зуемое общее число равно 58 700 924.) О Беспокоиться относительно добавления 1/6 при столь больших значениях подсчетов, очевидно, излишне. 2> Это значение и последующие три следует находить непосредственно по формуле CB-log= 1,1513 lg Б) УПРАЖНЕНИЯ 5а) Подберите из интересующей вас области данные, сгруппированные в 8—12 яче- ек, и проанализируйте их так же, как в п. А. 56) Проделайте то же самое для данных, сгруппированных в 13—17 ячеек. 5в) Сделайте то же самое для данных, сгруппированных в 18 и более ячеек. В) ИСТОЧНИК: U, S. Internal Revenue Service, 1958.
Рассмотрение форм распределения 62$ Иллюстрация 6 главы 19: скорректированные валовые доходы Графики хвостов распределения и проведенные на глаз прямолинейные аппроксимации (по данным илл. 5 о распределении 59 085 182 подоходных налогов граждан США в 1958 г.) а — при х=1 у——0,94, при х=3 «/=1,18, Дх=2 соответствует Д«/=2,12, Дх=1 соответствует Д«/= 1,06, при х=0 —2,00; следовательно, у——2,00+1,06 р^порог, или «/=1,06 (КЪорог— 0,885). б — при х=4 {/=1,51, при х—6 «/=6,40, Дх=2 соответствует Д«/=4,89, Дх=1 соот» ветствует Д«/=2,445, Дх=0,62 соответствует Д«/=1,51, у=0 при х=3,38; следова- тельно, «/=2,445 [log (порог)—3,38] или у=—8,37+2,445 log (порог). дартному распределению св-корней, чем св-логарифмов. В общем случае мы можем сравнивать форму распределения любой выборки с обеими этими стандартными формами. ДАННЫЕ, СГРУППИРОВАННЫЕ ПО ЯЧЕЙКАМ Мы провели анализ распределения 17 цен на «Шевроле» со всей возможной детальностью. Выше уже отмечалось, что только обработка всех действительно наблюдаемых значений позволяет получить мак- симум результатов. Однако в большинстве случаев мы не хотим вхо- дить в такие «подробности», а часто и не можем, так как многие виды Данных попадают к нам в руки уже сгруппированными по ячейкам. Один из примеров, когда не имеется данных, не сгруппированных по ячейкам (а если бы и имелись, то их невозможно было бы обраба- тывать), связан с подоходными Налогами. На илл. 5 разбираются данные о 59 085 182 поступлениях от част- ных лиц по подоходному налогу за 1958 г., сгруппированные по °пределенной совокупности ячеек, охватывающей весь диапазон ^корректированных валовых доходов (согласно сообщениям Нацио- нального налогового управления США). Как видно из илл. 6;
626 Глава 19 о для доходов, меныпих 10 000 долл., приближенно линейно” является зависимость св-логарифмов от квадратных корней пороге О для доходов свыше 15 000 долл, приближенно линейна зави’ симость св-логарифмов от логарифмов порогов; 0 в обоих случаях на фоне «приближенно линейного поведения) обнаруживается некоторая кривизна (особенно явственно видимая* если найти остатки и построить их график). ’ Сказанное представляет собой качественное описание распреде- ления скорректированного валового дохода (по данным регистрации подоходных налогов). Это описание можно превратить в количест- венное, если найти выражения для аппроксимирующих прямых Его можно сделать более точным, подгоняя на тех же интервалах вместо линейных квадратичные зависимости. Однако цель рассмотренного примера — отнюдь НЕ продемон- стрировать новое и эффективное представление для распределения скорректированного валового дохода; мы решительно это отрицаем. (Точно так же мы вовсе не ожидаем, что это частное представление будет достаточно хорошим для других данных.) Мы хотели показать, 0 что сгруппированные в ячейки данные можно анализировать теми же методами, что и «индивидуальные» данные; 0 что, используя простейшие методы, можно получить надлежа- щую аппроксимацию даже для очень сложной формы распределения. Это были истинные цели. ОБЗОРНЫЕ ВОПРОСЫ Что означает вопрос: «Каково распределение»? Был ли у нас раньше ответ на этот вопрос? Где? Какой? Можно ли получить полезное описание характера распределения, используя доли подсчетов? Если можно, возникает ли необходимость в преобразовании долей? Если нельзя, что можно предложить взамен? Что мы взяли в качестве при- мера? Оказалось ли нужным какое-нибудь преобразование? Как мы изобразили результаты? Какие способы графического изображения мы использовали? Насколько хорошей оказалась наша аппроксимация? Что мы делали затем? Каким был наш конечный результат? Какой смысл мы хотим вложить в термин «форма распределения»? Какие преобразования не изменяют форму распределения? Что такое стан- дартное распределение, соответствующее некоторому преобразованию данных? Как сравнивать форму распределения некоторой совокуп- ности со стандартом? Что мы поняли на примере предыдущих данных. Всегда ли нам нужны индивидуальные значения наблюдений или мы можем сгруппировать их по ячейкам? Какой следующий пример мЫ анализировали? Смогли мы получить хорошую аппроксимацию ле- вого «хвоста» распределения? Каким образом? Получили ли мы хо- рошую аппроксимацию правого «хвоста»? Нужно ли искать тако
Рассмотрение форм распределения 627 -- еобразование данных, которое было бы одинаково хорошим для боих хвостов? Считаем ли мы, что найденное представление можно использовать и для других аналогичных данных? Почему (или почему нет)? 19Б. ГАУССОВСКОЕ СТАНДАРТНОЕ РАСПРЕДЕЛЕНИЕ Хотя форма распределения, связанная с преобразованием долей подсчетов при помощи св-корней, достаточно хорошо согласуется с распределением 17 цен на «Шевроле», это нельзя считать общим явлением. Было бы неправильным выбрать эту форму в качестве единого (универсального) стандарта. Стандартная форма распределения, связанная с преобразованием долей при помощи св-логарифмов, значительно чаще обеспечивает близкую аппроксимацию распределения данных. На основе анализа большого числа различных данных можно утверждать, что именно эта форма распределения наиболее подходит в качестве единого стандарта. И до сих пор она не используется достаточно широко для этой цели, по-видимому, по двум причинам. Первая из них связана в гораздо большей степени с математическим описанием, чем с анализом данных, а вторая, возможно, чистая случайность. Универсальным стандартом для формы распределения в течение долгого времени была форма, связанная с именем Гаусса — человека, сочетавшего в себе математический гений с огромным практическим опытом обработки наиболее точных из имевшихся в его время данных— данных геодезии и астрономии. Последующие исследователи совер- шали ошибку, считая гауссовское распределение (иногда вследствие того же заблуждения называемое «нормальным») физическим зако- ном, которому данные обязаны соответствовать, т. е. чем-то даже большим, нежели стандартное распределение, относительно которого нужно выявить расхождение. Потребовалось много времени, чтобы отказаться от этого ничем не обоснованного упрощения, но в конце концов в этом отношении был достигнут заметный прогресс. В настоящее время мы используем гауссовское распределение в самых разнообразных практических ситуациях, где это оказывается выгодным, и прежде всего для следующих целей: О как стандарт для сравнения — стандарт, относительно кото- рого оценивается истинное поведение реальных данных с целью вы- явления и анализа отклонений; О часто (но с осторожностью) как грубую аппроксимацию дей- ствительного распределения самих данных и величин, вычисляемых Вя их основе. Используя гауссовскую форму распределения в качестве аппрок- симации, мы постоянно должны иметь в виду, что распределение Реальных данных, как правило, во многих отношениях от нее тличается, и поэтому анализ гауссовского приближения — это °лько начало анализа.
Иллюстрация 7 главы 19: справочная таблица •о КЗ Гауссовская форма распределения в виде преобразования долей 00 (25 и 75% преобразуются в ±1; знаки указаны в начале столбцов со значениями %) + .0% .2% .4% .6% .8% 1.0% - j- .0% .1% 2% .3% .4% .5% "Г .5% .6% .7% .8% .9% 1.0% 50% .000 .007 .015 .022 .030 .037 49% 51 .037 .045 .052 .059 .067 .074 48 52 .074 .082 .089 .097 .104 .112 47 94 2.305 2.318 2.330 2.343 2.356 2.369 5.5 53 .112 .119 .126 .134 .141 .149 46 94.5 2.311 2.382 2.396 2.410 2.424 2.438 5 54 .149 .156 .164 .171 .179 .186 45 95% 2.438 2.493 2.468 2.483 2.498 2.514 45% 55% .186 .203 .201 .209 .216 .224 44% 955 2.514 2.529 2.545 2.562 2.579 2.596 4 56 .224 .231 .239 .246 .254 .262 43 96 2.595 2.613 2.630 2.649 2.667 2.686 3.5 57 .262 .269 .277 .284 .292 .299 42 96.5 2.Ь86 2.705 2.726 2.746 2.767 2.782 3 58 .299 .307 .314 .322 .330 .337 41 97 2.782 2.766 2.833 2.857 2.881 2.906 25 59 .337 .345 .351 .360 .368 .376 40 97.5% 2.906 2.932 2.958 2.986 3.015 3.045 2 60% .376 .383 .391 .397 .406 .414 39% ЭЕ 3.045 3.076 3.109 3.143 3.179 3.217 15 1 61 .414 .422 .430 .437 .445 .453 38 98.5 3.217 3.258 3.301 3.346 3.396 3.449 1 62 .453 .461 .469 .476 .484 .492 37 99 3.449 3.507 3.571 3.643 3.724 3.819 5 За 63 .492 .500 .508 .514 .523 .532 36 99.5 3.819 3.932 4.074 4.276 4.582 X 0 64 .532 .539 .547 .555 .563 .571 35 1.0% .9% .8% .7% .6% .5% 65% .571 .579 .587 .595 .603 .612 34% .5% .4% .3% .2% .1% .0% 66 .612 .620 .628 .636 .644 .652 33 67 .652 .660 .669 .677 .685 .693 32 + .00% .02% .04% .06% .08% .10% — 68 .693 .702 .710 .718 .727 .735 31 98.0% 3.045 3.051 3.057 3.063 3.070 3.076 1.9% 69 .735 .744 .752 .760 .769 .777 30 98.1 3.076 3.082 3.089 3.096 3.102 3.109 .8 70% .777 .786 .795 .803 .812 .820 29% 982 3.109 3.116 3.123 3.129 3.136 3.143 .7 71 .820 .829 .838 .846 .855 .864 28 98.3 3.143 3.150 3.157 3.165 3.172 3.179 £ 72 .864 .872 .882 .890 .900 .909 27 98.4 3.179 3.187 3.194 3.202 3.210 3.217 5 73 .909 .918 .927 .936 .945 .954 26 99.5% 3.217 3.225 3.233 3.241 3.249 3.258 1.4% 74 .954 .962 .972 .981 .991 1.000 25 S8.6 3.258 3.266 3.274 3.283 3.292 3.301 3 98.7 3.301 3.309 3.318 3.328 3.337 3.346 2 / 75% 1.000 1.009 1.019 1.028 1.036 1.047 244 76 1.047 1.056 1.066 1.076 1.085 1.095 23 77 t 78 79 1.095 1.105 1.115 1.125 1.135 1.145 22 1.145 1.195 1.154 1.209 1.165 1.175 1.185 1.237 1.195 1.248 21 20 1.216 1.226 80% 1.248 1.258 1.269 1.279 1.291 1.302 19% 81 1.302 1.313 1.324 1.335 1.346 1.351 18 82 1.357 1.368 1.380 1.391 1.402 1.414 17 83 1.414 1.426 1.438 1.450 1.462 1.474 16 84 1.474 1.487 1.499 1.511 1.524 1.537 15 85% 1.537 1.549 1.562 1.575 1.588 1.602 14% 86 1.602 1.615 1.629 1.642 1.656 1.670 13 87 1.670 1.684 1.698 1.713 1.727 1.742 12 88 1.742 1.757 1.772 1.787 1.804 1.818 11 89 1.818 1.834 1.850 1.867 1.883 1.900 10 90% 1.900 1.917 1.934 1.951 1.970 1.988 9% 91 1.988 2.006 2.025 2.044 2.063 2.083 8 92 2.083 2.103 2.124 2.144 2.166 2.184 7 93 2.188 2.210 2.233 2.257 2.280 2.305 6 94 2.305 2.330 2.356 2.382 2.410 2.438 5 1.0% .8% .6% .4% .2% .0% .0% .1% .2% .3% .4% .5% + .5% .6% .7% .8% 9% 1.0% 90% 1.000 1.909 1.917 1.926 1.943 1.943 9.5% 90.5 1.943 1.951 1.960 1.970 1.978 1.988 9 91 1.988 1.997 2.006 2.016 2.025 2.034 8.5 91.5 2.034 2.044 2.054 2.063 2.073 2.083 8 92 2.083 2.093 2.103 2.113 2.124 2.134 7.5 92.5% 2.134 2.144 2.155 2.166 2.171 2.188 7% 93 2.188 2.199 2.210 2.222 2.233 2.244 6.5 93.5 2.244 2.257 2.269 2.280 2.293 2.305 6 1.0% .9% .8% .7% .6% .5% .5% .4% .3% .2% .1% .0% 9ВВ 98.9 ' 999% 99.1 992 99.3 99.4 99.5% 995 99.7 992 992 3.346 3.356 3.366 3.376 3.386 33S. Л 3.396 3.406 3.417 3.427'3.438,3.449 16 3.449 3.460 3.472 3.483 3.495 3.507 * 9% 3.507 3.520 3.532 3.545 3.558 3.571 2 3.571 3.585 3.599 3.613 3.628 3.643 .7 3 643 3.659 3.674 3.690 3.707 3.724 ,6 3.724 3.742 3.760 3.779 3.799 3.819 5 3.819 3.840 3.861 3.884 3.908 3.932 .4% 3.932 3.958 3.S84 4.013 4.042 4.074 3 4.074 4.107 4.143 4.181 4.222 4.276 2 4 276 4.316 4.370 4.431 4.501 4.582 .1 4.582 4.679 4.802 4.971 5.249 X 0.0% .10% .08% .06% .04% .02% .00% .000% .001% .002% .003% .004% .005% .005% .006% .007% .008% .009% .010% “В о 99.50% 3.819 3.829 3.840 3.851'3.861 3.872 .45% 99.55 3.872 3.884 3.895 3.908 3.919 3.932 А 99.60 3.932 3.945 3.958 3.971 3.984 3.998 .35 9925 3.998 4.013 4.027 4.042 4.058. 4.074 3 99.70 . 4.074 4.090 4.107 4.125 4.143 4.162 25 99.75 4.162 ,4.181 4.201 4.222 4.244 4.267 2% 9920 4.276 4.291 4.316 4.341 4.370 4.400 .15 9925 4.400 4.431 4.465 4.501 4.539 4.582 .1 99*90 4.582 4.628 4.629 4.736 4.802 4.878 .05 9925 4.878 4.971 5.065 5.249 5.513 X 0.0% .010% .009% .008% .007% .006% .005% .005% .004% .003% .002% .001% .000% •е. в 2Q
630 Глава 19 Иллюстрация 8 главы 19: данные и упражнения Несколько упражнений на использование гауссовского преобразования и гауссовского стандартного распределения (с которым часто сравниваете6" форма реальных распределений) я А) ВОЗРАСТ ЖЕНЩИН при ВСТУПЛЕНИИ в БРАК (общее число 235 252) данных (Возраст? НОЙ им-| | тервал( ЧИСЛО подсче-{ тов В ИН’г тервапе) 15-19 17546 20 24 118542 25-29 70411 30-34 20241 35-39 5873 40-44 1706 45-49 636 50-54 171 55-59 64 60-64 28 65-69 23 70 и бопев 11 Б) УПРАЖНЕНИЯ 8а I) Переведите подсчеты в накопленные доли и преобразуйте эти доли согласно гауссовской шкале. 8а2) Начертите различные графики для этих преобразованных долей с целью: 1) обеспечить хорошую аппроксимацию, 2) наглядно выявить характеристики остатков. В) ИСТОЧНИК: Isserlis L. On the representation of statistical data. Biometrika, 11, 418—425, 1917 (табл. VI на с. 423). С точки зрения математики исходная для анализа ситуация была бы намного «чище», если бы: 0 мы ТОЧНО знали распределение наблюдаемых величин; О это точное распределение можно было бы ПРОСТО выразить аналитически. Ь реальном мире ни одно из этих требований не удовлетворяется. И мы считаем большой удачей, если мы ПРИБЛИЖЕННО знаем распределение величин (знаем его аппроксимацию); <> эту аппроксимацию можно описать ДОСТАТОЧНО просто. Глубоко понять эти положения нелегко, здесь требуются время и опыт. Однако это жизненно необходимо. На илл. 7 гауссовская форма распределения приведена в виде преобразования долей. С целью «привязки» к какому-то удобному масштабу это преобразование выбрано таким, что переводит значения 25 и 75% соответственно в —1 и +1. На илл. 8 приведены некоторые
Рассмотрение форм распределения 631 ажнения на использование этого преобразования. (Ниже, в гл. 20, ^^ссовская форма используется в связи с обоснованием методов Аппроксимации, изложенных в гл. 14). ОБЗОРНЫЕ ВОПРОСЫ Что такое гауссовское распределение? Где оно может быть по- езным? Какая опасность связана с его использованием? Существуют и в отношении него какие-нибудь предрассудки? Какова математи- чески «чистая» ситуация? Имеется ли она в реальной жизни? Какие проблемы возникают в связи с этим? Какие возможны области при- менения гауссовского распределения? 19В. ИСПОЛЬЗОВАНИЕ БУКВЕННЫХ ЗНАЧЕНИЙ ДЛЯ АНАЛИЗА ФОРМ РАСПРЕДЕЛЕНИЯ Мы уже привыкли характеризовать структуру наблюдаемой со- вокупности данных с помощью буквенных значений: медиан, двух сгибов, двух значений восьмых долей и т. д. В большинстве случаев тот первоначальный смысл, который мы вкладывали в понятия «сги- бы», «восьмые доли» и т. д., вполне достаточен. Однако для целей настоящего раздела оказывается полезным взглянуть на них не- сколько глубже. На илл. 9 представлены е.р.-доли, соответствующие медиане (М), сгибам (С), восьмым долям (В) и т. д. (Б, А, Я, . . .) и вычислен- ные для выборок данных из 7, 8, 9, 10, 11 и 12 наблюдений. Для М е.р.-доля всегда равна 0,500 — медиана всегда в центре. С.р.-доли, со- ответствующие сгибам (для которых можно было бы ожидать значения 0,250), образуют следующий ряд: 0,295; 0,260; 0,286; 0,258; 0,279; 0,257. Такой же ряд для восьмых долей (которые мы хотели бы видеть рав- ными 0,125) будет следующим: 0,159; 0,140; 0,161; 0,147; 0,135. Структура этих последовательностей ясна. По мере возрастания объ- ема выборки с.р.-доли уменьшаются, приближаясь к своему номи- нальному значению, а затем снова скачками удаляются от него (через Каждые 2 подсчета для С, через 4 для В, через 8 для Бит. д.). Однако в челом они постепенно становятся все ближе к своему номинальному значению. Если мы хотим быть максимально осторожны (что иногда может оказаться излишним), то можем выбрать один из двух путей: О использовать буквенные значения С, В, . . ., как они есть, при- имая во внимание те с.р.-доли, которые им соответствуют;
632 Глава 19 Иллюстрация 9 главы 19: пример с. р.-доли, соответствующие буквенным значениям М, С, В, ... и т. д., для выборок размерами от 7 до 12 (используемые обозначения: п=1/2, ш=1/6, так что шш=1/3) А) ВЫБОРКИ из 7 и 8 чисел #7 , М 4 Зпш .500 С 2п 2ш .295 (не .250) в 1п 1ш .159 (не .125) Б 1 пш .091 (не .062) (7шш) 1 ’Глу_1 | бина J kp.4iofr| Iсчеты | 1 ср,-доли j •# 8 М 4п 4ш .500 С 2п 2ш .260 (не. .250) В 1п 1ш .140 (не .125) Б 1 ПШ .080 (не: .062) (8шш) Б) ВЫБОРКИ из 9 и 10 ЧИСЕЛ ‘ Гпу- С.р?ПОД-| ; I бина | jсчеты | # 9 М 5 4пш С 3 2пш Б 2 1пш Е 1 гг 1ш /, 1 пш (9шш) ср-доли .500 .286 (не .250; .179 (не .125) .125 (не .062) .072 (не .031) I Глу"( | бина [ с.р.-под счеты од-допи # 10 М 5п 5ш .500 С 3 2пш .258 (не .250) в 2 1пш .161 (не .125) Б 1п 1 ш .133 (не ,062) А 1 пш .065 (не,031) (Юшш) В) ВЫБОРКИ из 11 и 12 ЧИСЕЛ I Глу~1 J бина I |с.р.-под-| I счеты I [ср^доли | I ГлуТ бина |сф>под4 счеты I | ср-доли| # 11 # 12 М 6 5пш .500 М бп бы .500 С Зп Зш .279 (не .250) С Зп Зш .257 (не .250) В 2 1пш .147 (не .125) В 2 1пш .135 (не .125) Б 1п 1ш .103 (не .062) Б 1 п 1ш .095 (не .062) А 1 пш .059 (не .031) А 1 пш .054 (не .031) (11шш) (12шш) Г) УПРАЖНЕНИЯ 9а) Выполните те же расчеты для выборок из 13 и 14 чисел. 96) То же для выборок из 15 и 16 чисел. 9в) То же для выборок из 17 и 18 чисел. 9г) То же для выборок из 19 и 20 чисел. 9абвг2) Сравните результаты для выборок, содержащих от 13 до 20 чисел, с тем, вы ожидали увидеть для выборок, содержащих от 7 до 12 чисел, Объясни результаты.
Рассмотрение форм распределения 633 /> вернуться назад и заменить С, В и т. д. значениями, соответ- «ющими другой глубине. Например, если мы хотим, чтобы при змере совокупности 7 с.р.-подсчет для В был равен 0,125-7,33 = Pfggi, то мы должны использовать значения, соответствующие глу- Гтне 1.24, которая ближе к верхнему пределу, чем обычно применя- емая (равная 1п=1,50). Выбирая второй способ, мы создаем себе много добавочной работы, поскольку, каждый раз имея дело, например, с совокупностью размера 7 мы должны выполнять 24% вычислений на пути от глубины 1 до глубины 2. Первый способ также предполагает определенный объем работы, которую, однако, можно проделать лишь один раз. Дей- ствительно, для каждого объема выборки мы можем сначала найти с,р.-доли, соответствующие буквенным значениям С, В, Б и т. д., а затем раз и навсегда преобразовать их в нужные нам величины. На илл. 12 приведены результаты этих расчетов для выборок объ- ема от 1 до 100, а на илл. 13 даны аппроксимирующие формулы, ко- торые можно использовать при объемах выборок более 100. Однако, прежде чем обратиться к этим иллюстрациям, посмотрим, в чем кон- кретно заключается выбранная методика. Для этого воспользуемся данными илл. 11 гл. 3 (выраженными в виде стебля с листьями), которые представляют собой значения ^/высота, соответствующие 219 вулканам. На илл. 10 представлены вычисления сначала для буквенных значений С, В, Б и А в отдельности (п. А—Г), затем эти буквенные значения сведены в одну буквенно-числовую таблицу (п. Д), к которой в п. Е добавлен столбец средних, соответствующих каждой паре бук- венных значений. Последний шаг вычислений показан в п. Ж илл. 10, где представлены средние буквенных значений после сглаживания и величины «25%-псевдоширины». В случае распределения, имеющего в точности гауссовскую форму с 25%-ными точками, равными ±1, и при наличии неограниченного числа наблюдений каждая такая 25%- псевдоширина была бы равна 2. Иными словами, если исходная вы- борка в точности описывается распределением гауссовской формы (что возможно, если она имеет неограниченный объем), каждое из значений 25%-псевдоширины должно быть равно значению 25%- ширины этого гауссовского распределения. Конечно, мы знаем, что Реальные данные почти никогда не следуют точно гауссовскому рас- пределению, к тому же невозможно иметь выборки неограниченных Размеров. Поэтому мы и называем значения указанных величин псевдошириной, чтобы напомнить, что они свидетельствуют о частном значении ши- рины (в данном случае 25 %-ной), когда в нашем распоряжении до- статочно мало событий. Это понятие полезно для нас, поскольку по ИЗМЕНЕНИЮ псевдоширины можно судить о форме распределения Б сравнении с гауссовской формой.
634 Глава 19 Иллюстрация 10 главы 19: высоты вулканов Использование буквенных значений М, С, В, ... для анализа распределения величин у высота для 219 вулканов А) СГИБЫ (на глубине 55п) Сгибы: 61 и 98. С-ширина: 37. Отношение: 0,995 (должно быть=1,00). Псевдоширина: 37,2. Б) ВОСЬМЫЕ ДОЛИ (на глубине 28) Восьмые доли: 49 и ПО. В-ширина: 61. Отношение: 1,705 (должно быть=1,71). Псевдоширина: 35,8. В) Б-значения (на глубине 14п) Б-значения: 40 и 118 В-ширина между ними: 78 Отношение: 2,254 (должно быть «2,27) Псевдоширина: 34,6 Г) A-значения (на глубине 7п) А-значения: 30 и 132 А-ширина: 102 Отношение: 2,738 (возможно, должно быть==2,7б) Псевдоширина: 37,3 Д) РАСШИРЕННОЕ БУКВЕННО-ЧИСЛОВОЕ ПРЕДСТАВЛЕНИЕ # 219 М 110 Ширина (0.995) I Псевдог I ширина 80 61 98 37 С 55п 37.2 в 28 49 110 61 (1.705) 35.8 Б 14П 40 118 78 (2.254) 34.7 А 7п 30 132 102 (2.738) 37.4 Я 4 25 140 115 (3.165) 36.3 Ю- 2п 23 п 140 116п (3.482) 33.4 Z 1п 18 140 122 (3.806) 32.1 Y 1 14 140. 126 (3.95) 31.9
Рассмотрение форм распределения 635 Иллюстрация 10 (продолжение) Е) То же самое со столбцом СРЕДНИХ ^219 Средние Ширина 25%- псевдо- ширина М 110 80 С 55п 61 (79п) 98 37 ( .995) 37.2 В 28 49 (79) 110 61 (1.705) 35.8 Б 14п 40' (79) 118 78 (2.244) 37.6 А 7п 30 (81) 132 102 (2.738) 37.3 Я 4 25 (82 п) 140 115 (3.165) 36.3 Ю 2п 23п (82) 140 116п (3.482) 33.4 2 1п 18 (79) 140 122 (3.806) 32.1 Y 1 14 (77) 140 126 (3.95) 31.9 Ж) ЗНАЧЕНИЯ СРЕДНЕГО и 25%-ПСЕВДОШИРИНЫ после СГЛАЖИВА- НИЯ (с помощью алгоритма ЗПРР) I Букв. | знач. | [Средние] 125% | (отно- [шение)2| м 79 п (35.8) 0 с '79 п 35.8 .99 в 79п 35.8 2.91 Б 79п 35.8 5.08 А 81 35.8 7.5 Я 82 35.8 10.0 Ю 82 33.4 12.1 Z 79 32.1 14.5 Y 77 31.9 15.6 И) УПРАЖНЕНИЯ ____ 10а) Сделайте то же самое для значений высоты (а не ^высота) 219 вулканов. Про- анализируйте результаты. _____ Юб) Сделайте то же самое для значений 1g (высота) (а не Vвысота) 219 вулканов. Проанализируйте результаты. 10в) Сделайте то же самое для значений площади 82 округов шт. Миссисипи (см. илл. 4 гл. 1). Проанализируйте результаты. Юг) Подберите выборку размером от 80 до 150 значений из интересующей вас об- ласти и повторите проведенные выше процедуры. Юд) Подберите выборку размером от 150 до 300 значении из интересующей вас об- ласти и повторите проведенные выше процедуры. К) ИСТОЧНИК: илл. И гл, 3,
Глава 19 Иллюстрация 11 главы 19: высоты вулканов Графики значений 25%-псевдоширины и средних значений в зависимости от квадратов (гауссовских) отношений для распределения ^высота 219 вулканов (по результатам илл. 10) 36 *-х— х х х ,/ По сравнению ^х ° гауссовским 32 ZS7,=псевдоширина (отношение)1 1Q | Значения | наклонов О 5 На илл. 11 приводятся графики сглаженных значений среднего и псевдоширины. В качестве горизонтальной координаты использо- ваны квадраты отношений для буквенных значений. Мы видим, что график средних колеблется сначала в одну сторону, затем в другую, и поэтому не можем сделать сколько-нибудь определенного вывода о том, в какую сторону скошено распределение. График 25%-псев- доширины начинается со значения 37 и падает до значений менее 32. Это является некоторым свидетельством того, что хвосты наблюдаемого распределения слегка сжаты по сравнению с гауссовским. Илл. 12, как уже упоминалось выше, содержит отношения для выборок объемом от 1 до 100, а на илл. 13 приведены аппроксими- рующие формулы, которые можно использовать для выборок, объем которых превышает 100. На илл. 14 рассматривается небольшой пример. При этом исполь- зуется таблица илл. 12 (а не формулы илл. 13). Вычисленные значения средних и 25%-псевдоширины изображены в виде графиков на илл- Оба графика обнаруживают тренд. Для средних он указывает на «с*0'
Рассмотрение форм распределения 6^7 Иллюстрация 12 главы 19: справочная таблица Коэффициенты для вычисления 25%-псевдоширины по расстояниям между буквенными значениями С, В, Б, ... (для объемов выборок <100) ОбьеМ выборки с 3 .57 6 .94 7 .80 8 -95 9 .84 10 -96 11 -87 12 ;97 13 -89 14 -97 15 -90 18 .98 17 .91 18 .98 19 .92 20 .98 21 .93 22 .98 23 .93 24 .99 25 .94 26 .99 27 .94 28 .99 29 .95 30 .99 31 .95 32 .99 33 .95 34 .99 35 .96 36 .99 37 .96 38 .99 39 .96 40 .99 41 .96 42 .99 43 .95 44 .99 Объем В Б А Я Ю выборки С 1.25 X X X X 45 .97 1.51 X X X X 46 .99 1.15 1.70 X X X 47 .97 1.33 1.86 X X X 43 .99 1.48 1.98 X X X 49 .97 1.60 2.08 X X X 50 .99 1.36 1.70 2.17 X X 51 .97 1.47 1.79 2.25 X X 52 .99 1.55 1.87 2.32 X X 53 .97 1.63 1.95 2.38 X X 54 .99 1.46 2.01 2.44 X X 55 .97 1.53 2.07 2.49 X X 56 .99 1.59 2.12 2.54 X X 57 .97 1.65 2.17 2.58 X X 58 .99 1.51 1.93 2.22 2.62 X 59 .97 1.56 1.98 2.26 2.66 X 60 .99 1.61 2.02 2.30 2.69 X 61 .97 1.66 2.06 2.34 2.73 X 62 .99 1.55 2.10 2.37 2.76 X 63 .98 1.59 2.14 2.41 2.79 X 64 .99 1,63 2.17 2.44 2.82 X 65 .98 1.67 2.20 2.47 2.85^ X 66 .99 1.57 2.03 2.50 2.87 X 67 .98 1.61 2.06 2.52 2.90 X 68 .99 1.64 2.09 2.55 2.92 X 69 .98 1.67 2.12 2.57 2.94 X 70 .99 1.59 2.15 2.60 2.96 X 71 .98 1.62 2.17 2.62 2.99 X 72 .99 1.65 2.20 2.64 3.01 X 73 .98 1.68 2.22 2.66 3.02 X 74 .99 1.60 2.08 2.44 2.68 3.04 75 .98 1.63 2.11 2.46 2.79 3.05 76 .99 1.65 2.13 2.48 2.72 3.08 77 .98 1.68 2.15 2.50 2.74 3.10 78 1.00 1.61 2.17 2.52 2.75 3.11 79 .98 1.64 2.19 2.54 2.78 3.13 80 1.00 1.66 2.21 2.55 2.79 3.14 81 .96 1.68 2.23 2.57 2.81 3.16 82 1.00 1.62 2.12 2.59 2.83 3.17 83 .98 1.64 2.14 £.61 2.84 3.17 84 1.00 1.66 2.15 2.62 2.56 3.20 35 .98 1.68 2.17 2.64 2.87 3.21 8S 1.00 В Б А Я Ю 1.63 2.19 2.65 2.89 3.23 1.65 2.21 2.67 2.90 3.24 1.67 2.22 2.68 2.91 3.25 1.69 2.24 2.69 2.93 3.26 1.63 2.14 2.53 2.94 3.28 1.65 2.16 2.54 2.95 3.29 1.67 2.17 2.56 2.96 3.30 1.69 2.19 2.51 2.98 3.31 1.64 2.20 2.58 2.99 3.32 1.66 2.21 2.60 3.00 3.33 1.67 2.23 2.61 3.01 3.34 1.69 2.29 2.62 3.02 3.35 1.64 2.16 2.63 3.03 3.36 1.66 2.17 2.67 3.04 3.32 1.67 2.18 2.60 3.05 3.38 1.69 2.20 2.67 3.06 3.39 1.65 2.21 2.68 3.07 3.40 1.66 2.22 2.69 3.06 3.41 1.68 2.23 2.70 3.09 3.42 1.69 2.25 2.71 3.10 3.43 1.65 2.17 2.58 2.89 3.11 1.66 2.19 2.59 2.90 3.12 1.68 2.20 2=60 2.91 3.13 1.69 2.21 2.61 2.92 3.14 1.65 2.22 2.62 2.93 3.15 1.67 2.23 2.63 2.94 3.16 1.68 2.24 2.64 2.95 3.16 1.69 2.25 2.65 2.96 3.18 1.66 2.19 2.66 2.97 3.18 1.67 2.19 2.67 2.97 3.19 1.68 2.20 2.65 2.98 3.20 1.69 2.21 2.69 2.99 3.21 1.66 2.22 2.70 3.00 3.21 1.67 2.23 2.70 3.01 3.22 1.68 2.24 2.71 3.01 3.23 1.69 2.25 2.72 3.02 3.24 1.66 2.19 2.61 3.03 3.24 1.67 2.20 2.62 3.04 3.25 1.68 2.21 2.63 3.05 3.26 1.69 2.22 2.64 3.06 3.27 1.66 2.23 2.65 3.06 3.27 1.67 2.24 2.65 3.07 3.28 г х х X X X X X X X X X X X X 3.44 3.45 3.45 3.46 3.47 3.48 3.48 3.49 3.50 3.51 3.52 3.53 3.53 3.54 3.54 3.55 3.56 3.56 3.57 3.58 3.59 3.60
Q38 Глава 19 Иллюстрация 12 (продолжение) Объем выборки С 87 .98 88 1.00 89 .98 80 1.00 91 .98 92 1.00 Объем В Б А Я Ю Z выборки 1.68 2.25 2.66 3.07 3.28 3.60 93 1.69 2.25 2.67 3.08 3.29 3.60 94 1.66 2.20 2.67 3.09 3.30 3.61 95 1.67 2.21 2.68 3.09 3.30 3.61 96 1.68 2.22 2.69 3.10 3.31 3.62 97 1.89 2.22 2.70 3.11 3.32 3.63 98 99 100 С В Б А Я ю .98 1.67 2.23 2.71 3.11 3.32 3(й 1.00 1.68 2.24 2.71 3.12 3.33 З ии .98 1.69 2.25 2.72 3.13 3.33 з'б4 1.00 1.70 2.25 2.73 3.13 3 34 3 (Ж .98 1.67 2.21 2.64 2.98 3.35 звй 1.00 1.68 2.21 2.64 2.98 3.35 з‘6б .98 1.69 2.72 2.65 2.99-3.36 3 67 1.00 1.70 2.23 2.66 3.00 3.37 3^67 Иллюстрация 13 главы 19: справочная таблица Коэффициенты для вычисления 25%-псевдоширииы по расстояниям между буквенными значениями С, В, Б, ... (для объемов выборок ^100) А) АППРОКСИМАЦИЯ КОЭФФИЦИЕНТОВ — наблюдаемую ширину следует делить на эту величину, чтобы получить псевдо-С-ширину 2 ( /п \\ ДЛЯ С-ширины: 1.00 - - И - 8б(- Mod ill 3 f In \\ ДЛЯ В-ширины; 1.71 — -И - ,80(- Modi II ДЛЯ Б-ширины: 2.27 — M“”jj Mod,)) 15/ In \\ для А-ширины: 2.76 — для Я- ширины; 3.19 — -(l-.76(- Modi)) для Ю-ширины: 3.58 - 30/ In \\ — 1-T5 — Modi | n \ \64 )} 55/ / n \\ для Z- ширины: 3.94 — — 1 - .75 — Modi I n \ \128 /J 110 / / n \\ для У-ширины: 4.28- 1--75 — Modi n \ \256 )l для X- ширины: 4.59 - 200/ / n \\ 1 “-75 — Modi n \ \512 JI 380 / / n V для W- ширины; 4.89 - 11 --75 — Modi) n \ \1024 h
Рассмотрение форм распределения 639 Иллюстрация 13 (продолжение) 5) ПРИМЕР использования —для «=137 Деление | пополам | Дробные [ допив | 1 — (константа) к | (дробная доля) Получаемый | | коэффициент О п/2 = 68.5 .5 (1 - ) = .57 2 1.00-—(.57) » 0.99 в п/4 = 34.25 .25 (1 - ) = .80 1.71-^(801 = 1.69 Б п/8 = 17.125 .125 (1 - ) = .90 2.27-^(.90) = 2.24 А л/16 = 8.5625 .56 (1 - ) = 57 10 2.76 - — (.57) = 2.72 Я п/32 = 4.28125 .28 (1 - 1 = .79 15 3.19- — (.79) *= 3.10 Ю п/64 = 2.1406 .14 (1 - ) = .90 30 3.58 - — (.90) = 3.38 Z «/128 = 1.0703 .07 (1 - ) = .95 3.94-^(.95) = 3.56 Y «/256 = .5352 .54 (1- ) = .60 110 4.28 -—(.60) =* 3.80 Ч Эти значения получены в результате применения формулы «(«/делитель) по Modi», где («/делитель) берется из первого столбца. В) ВАЖНОЕ ЗАМЕЧАНИЕ Выражение «Modi» ОЗНАЧАЕТ: «х МИНУС ближайшее ЦЕЛОЕ, меньшее x»t например: Явная форма 4,001 Modi = 0,001 4,000 Modi = 1,000 3,999 Modi = 0,999 и т. д. Дробная часть 0,001 1,000 0,999 Г) УПРОЩЕНИЕ ВЫЧИСЛЕНИЙ (как облегчить последовательное деление) ‘137 =68-2 + 1 219 =109-2 + 1 = 34-4 + 1 = 54-4 + 3 = 17-'8 + 1 = 27-8 + 3 8-16 + 9 = 13-16 +11 = 4-32 + 9 = 6-32 + 27 = 2 <64 + 9 = 3-64- + 27 = 1-128 + 9 = 1-128 + 91 «= 0-128 + 137 = 0-256 + 219
640 Глава 19 Иллюстрация 13 (продолжение) Примеры вычислений в уме: 27 • 8 = 26-8 + 1-8 = 13-16 + 8 3 + 8 = 11 13-16 = 12-16 + 1-16 = 6-32 + 16 16 + 11=27 Д) УПРАЖНЕНИЯ 13а) Найдите коэффициенты для буквенных значений С, В, Б, А, Я и Ю при п=137 (проведите подробно все вычисления). 136) Сделайте то же самое для п=257. 13в) То же для п=173. 13г) То же для п=1079. Иллюстрация 14 главы 19: площади округов Значения среднего и 25%-псевдоширины для логарифмов площадей 83 округов шт. Мичиган. А) ПОЛНОЕ БУКВЕННО-ЧИСЛОВОЕ ПРЕДСТАВЛЕНИЕ ' 25 %- псевдо- (отно- 1 Средние Ширина ширина |шение)| . М42 1.76 0.0 if) С21п 1.73л (1.81п) 1.89л .16 ( .98) .16 1.0 V» ВЦ 1.69 (1.83п) 1.98 .29 (1.68) .17 2.8 е: с Б6 1.66 (1.86п> 2.07 .41 (2.21) .19 4.9 X АЗП 1.59 (1.84) 2.10 .51 (2.63) .19 6.9 2 о Я2 1.54 (1.87) 2.20 .66 (3.05) .22 9.3 Ю1П 1.52п (1.88) 2.23 .70 П (3.26) .22 10.6 Z1 1.51 (1.88л) 2.26 .75 (3.57) .21 12.7 Б) УПРАЖНЕНИЯ 14а) 14а2) 146) 1462) 14абЗ) 14в) 14в2) 14г) 14г2) Повторите вычисления п. А для значений площади (а не логарифмов площадей) 83 округов шт. Мичиган. Постройте графики по результатам (14а). Проделайте то же самое для значений корня из площадей. Постройте графики по результатам (146). .. Сравните результаты всех трех вычислений для выборки из 83 значении, вычислений п. А и упр. 14а2 и 1462. Рассмотрите результаты. Какое из пре- образований приводит к наиболее симметричному распределению? „ Подберите выборку, содержащую от 80 до 125 значений, из интересуют вас области и повторите вычисления п. А. Начертите графики результатов (14в). юшей Подберите выборку, содержащую от 150 до 250 значений, из интересуют, вас области и повторите вычисления п. А. Постройте графики результатов (14г). В) ИСТОЧНИК км. 5 гл. 3.
Рассмотрение форм распределения 641 Иллюстрация 15: округа штата Мичиган Графики значений среднего и 25%-псевдоширины для логарифмов площади 83 округов штата Мичиган (по данным илл. 14) Средние х о,го 0,1 s (отношение}2=х ___i________।_________ 5 10 ооо о • ° б 25% - псеВдошОрино а—при х=0 г/=1,81п, при х=1() {/=1,87п, Дх=10 соответствует Лг/=0,06, Дх=1 соответствует 5у= 0,006; следовательно, у— 1,81 п-(-0,006 (отношение)2. б—при х=0 г/=0,16, при х=10 «/=0,21п, Дх=10 соответствует Д«/=0,05п, Дх=1 соответствует Д«/=0,005п; следовательно, у— 0,16-(-0,005п (отношение)2. шенность» (отсутствие симметрии) распределения, хвост которого, соответствующий большим значениям, длиннее, чем хвост, соответ- ствующий малым значениям. Заметим, что дальше всего от аппрокси- мирующей прямой отстоит точка медианы. Тренд графика 25%-псев- Доширины показывает, что хвосты распределения длиннее гауссов- ских. Подогнать прямую под этот график довольно легко (хотя возможна и другая форма аппроксимирующей кривой). Таким образом, с умеренной точностью форма, ширина и положение распределения 83 точек анализируемой выборки описываются соот- ношениями среднее ==1,81п+0,006 • (отношение)2, 25%-псевдоширина=:0,16+0,005п • (отношение)2. ОБЗОРНЫЕ ВОПРОСЫ Можно ли буквенным значениям поставить в соответствие с.р.- Доли? Что получается, если попытаться это сделать? Какие есть спо- с°бы действовать с «максимальной осторожностью»? Какой из них выбрали и почему? Трудно ли выразить результаты в сжатой форме? *-*а каком примере мы опробовали предлагаемую методику? Какие * **1247
642 Глава 19 получили результаты? Что такое среднее и псевдоширина? В симости от какого аргумента вычерчиваются графики этих величий Как эти графики ведут себя в наших примерах? Какие величины Н' затабулировали с целью вычисления 25%-псевдоширины? Как п""' ступать в случае выборок больших объемов? Какой пример был сл° дующим? Что он показал? Какими зависимостями мы аппроксими ровали полученные графики? 19Г. МЕТОД «ОБРАТНОГО НАЖИМА» (ФАКУЛЬТАТИВНО) Теперь, когда мы убедились, как можно исследовать форму рас пределения с помощью средних (которые находятся непосредственно, без использования стандарта) и значений 25%-псевдоширины (вы- Иллюстрация 16 главы 19: округа штата Мичиган Анализ методом «обратного нажима» логарифмов площадей 83 округов штата Мичиган (Q=0,10) (варианте буквенными значениями) А) ВЫЧИСЛЕНИЯ [Глубина | Букв |знач.| Набл. | знач.| Отно- |шения| отно- |шения| Раз-. |ности 1>| ЗП Н р I 1 I |Аппр.| Ос- татки | 1 Z 1.61 -3.57 -.36 1.87 1.86 1.503 +.007 1п ю 1.52п -3.26 -.33 1.85п 1.85п 1.534 -.009 2 я 1.54 -3.05 -.31 1.85 1.85 1.85 с; 1.555 -.015 Зп А 1.59 -2.63 -.26 1.85 1.85 J 1.86 1.85п X 1.597 -.007 6 в 1.66 -2.21 -.22 1.88 1.86 1.85 1.85П л 1.639 + .021 11 В 1.69 -1.68 -.17 1.86 1.86 1.86 1.85 о 1.692 -.002 21 п С 1.73п -.98 -.10 1.83л 1.83П (1.762) (-.027) 42 м 1.76 .00 .00 1.76 1.79П 1.79П < (1.741) (+.019) 21п с 1.89п 1 .98: .10 1.79л 1.79п . 1.79П CL 1.886 +.009 11 в 1.98 : 1.68 ; .17 1.81 1.81 О 1.990 -.010 6 6 2.07 ; 2.21 ! .22 1.85 1.84 2.068 +.002 Зп А 2.10 : 2,бз: .26 1.84 1.85 2.130 -.030 2 Я 2.20 :3 05; .31 1.89 1.89 2.192 +.008 1п ю 2.23 : з.2б: .33 1.90 1.90 2.223 +.007 1 Z 2.26 • 3.57 ; .36 1.90 1.90 2.269 -.009 Замечания 1. «Отношения» представляют собой значения коэффициентов из илл. 12 с учетом знаков. 2. Область, заключенную в пунктирный прямоугольник, можно опустить, а ° ветствующую часть следующего столбца заполнить исходя из симметрии (это уд для построения графика). 11 Разность= наблюдаемое значение МИНУС QX отношение. Б) УПРАЖНЕНИЯ 16а) Выполните аналогичные вычисления и постройте график для корней из зна чений высоты вулканов по данным илл. 10. Сколько прямых оказывается обходимо? Проанализируйте результаты и объясните их, В) ИСТОЧНИК: илл. 14,
Рассмотрение форм распределения 643 Иллюстрация 17 главы 19: округа штата Мичиган График скорректированных буквенных значений в зависимости от (гауссовских) отношений (анализ по методу «обратного нажима» данных илл. 16) Значение минус , п отношение/10 п / 7 7 + 1,90 - 7 X / 7 / —мхч-х-к-х / 7/5- /х 'х х / / /х 1,80 - х ' . х 7 Отношение _!______J______I_____I______I___е*. -4-2/7 2 4 Аппроксимация левой части: у— 1,860. Аппроксимация правой части: при х=1 у= 1,789, при х=3 у—1,888, Дх= 2 соответствует Д{/=0,097, Дх=1 соот- ветствует Д{/=0,048, прих=0 {/=1,741; следовательно, {/=1,741+0,048 (отношение). числяемых с использованием гауссовского стандартного распределе- ния), хорошо бы иметь возможно более эффективный способ рассмот- рения отдельных элементов выборки наблюдений (или отдельных буквенных значений). Разные виды метода «обратного нажима» по- зволяют провести подробный анализ, по ходу которого мы одновре- менно будем делать и другие полезные вещи. Начнем с буквенных значений и значений 25%-псевдоширины, найденных по ним с помощью гауссовского стандартного распреде- ления. Обозначим через Q половину медианы множества значений 25%-псевдоширины. В примере, рассмотренном на илл. 14 (о распределении логарифмов площадей 83 округов шт. Мичиган), медиана равна 0,19, так что Q=0,10. Теперь умножим Q на отношения для буквенных значений (взятые из табл. илл. 12 для выборки объема 83) и вычтем произве- дения из соответствующих наблюдаемых буквенных значений (илл. 16). На илл. 17 показан график сглаженных разностей в зависимости от Упомянутых отношений. Две ветви этого графика хорошо аппрокси- мируются отрезками прямых. Если прибавить обратно значения величины Q • (отношение)=0,1- (отношение), 21*
644 Глава 19 которые мы вычли перед тем, как построить график, то аппроксими рующие прямые запишутся в виде для отношений, меньших (—1,5): 1,86+0,1 • (отношение), для отношений, больших (4 1,0): 1,741 +0,048- (отношение) (среднюю часть графика на илл. 17 также можно было бы аппрод. симировать прямой, хотя и более грубо). Теперь, если мы хотим описать распределение логарифмов пло- щадей 83 округов шт. Мичиган, мы можем, ПОМИМО ПРОЧЕГО сказать: О каждый из хвостов распределения достаточно близок по форме к гауссовскому; <0 правый хвост длиннее, чем левый. Таким образом, имея дело с обоими хвостами порознь, мы в состоя- нии в данном примере дать более простые, характеристики, чем в пре- дыдущем разделе, где мы принимали во внимание только положение и ширину распределения (анализируя средние и значения 25%-псев- доширины). В других примерах может быть (и бывает) наоборот — описание с помощью положения и ширины оказывается более про- стым. Поэтому нам нужны оба подхода. ВАРИАНТ С ИСПОЛЬЗОВАНИЕМ ПОЛУОКТАВ Использование буквенных значений предоставляет нам доста- точно простой и эффективный способ описания общей формы распре- деления выборки. Однако, если мы хотим сконцентрировать внимание на отдельных элементах выборки, можно поступить проще. На илл. 16 мы имели дело с буквенными значениями, соответст- вующими глубинам 1, 1п, 2, Зп, 6, 11.....Ясно, что 1, 2, би 11 дают отдельные наблюдаемые значения, в то время как 1п сообщает уже излишнюю информацию о смеси значений с глубин 1 и 2. Ана- логичную, может быть, даже вводящую в заблуждение информацию о смеси значений с глубин 3 и 4 мы получаем, используя глубину Зп. Вместо этого при том же объеме вычислений мы могли бы взять глу- бины 1, 2, 3, 4, 6, 11, ... и получить результаты, основанные лишь на отдельных наблюдаемых значениях. Если нас интересуют отдель ные значения, то последний способ целесообразнее. На илл. 18 представлены значения отношений для такого <<n0JIJ октавного» набора глубин при объемах выборки, не превышают. 100. На илл. 19 этот метод применен к анализу распределения л° рифмов площадей округов шт. Мичиган. Илл. 20 содержит граф результатов.
Рассмотрение форм распределения 645 И ллюстрация 18 главы 19: справочная таблица Значения стандартных отношений для точек полуоктавной глубины (стандарт соответствует гауссовской форме) ш ТАБЛИЦА ЗНАЧЕНИИ ДЛЯ ОБЪЕМОВ ВЫБОРКИ <100 А) Чис по подсчетов Отношения для точек на глубине в выборке 1 2 3 4 6 8 11 16 22 1 .00 X X X X X X X X 2 .84 X X X X X X X X 3 1.25 .00 X X X X X X X 4 1.51 .44 X. X X X X X X 5 1.71 .72 .00 X X X X X X 6 1.86 .94 .30 X X X X X X 7 1.98 1.11 .52 .00 X X X X X 8 2.08 1.25 .69 .22 X X X X X • 9 2.17 1.37 .84 .40 X X X X X 10 2.25 1.47 .96 .55 'X X X X X 11 2.32 1.56 1.07 .68 .00 X X X X 12 2.38 1.63 1.16 .79 .15 X X X X '13 2.44 1.71 1.25 .89 .28 X X X X 14 2.49 1.77 1.33 .98 .39 X X X X 15 2.54 1.83 1.39 1.05 .49 .00 X X X 16 2.58 1.88 1.45 1.12 .58 .11 X X X 17 2.62 1.93 1.51 1.19 .66 .22 X X X 18 2.66 1.98 1.57 1.25 .73 .31 X X X 19 2.70 2.02 1.62 1.30 .81 .39 X X X 20 2.73 2.06 1.66 1.36 .87 .46, X X X 21 2.76 2.10 1.71 1.40 .93 .53 .00 X X 22 2.79 2.19 1.75 1.45 .98 .60 .08 X X 23 2.82 2.17 1.79 1.49 1.03 .66 .16 X X 24 2.85 2.20 1.82 1.53 1.08 .71 .23 X X 25 2.87 2.24 1.86 1.57 1.13 .77 .30 X X 26 2.90 2.27 1.89 1.61 1.17 .82 .36 X X 27 2.92 2.29 1.92 1.64 1.21 .86 .41 X X 28 2.94 2.32 1.95 1.67 1.25 .91 .47 X X 29 2.97 2.35 1.98 1.71 1.28 .94 .52 X X 30 2.99 2.37 2.01 1.74 1.32 .99 .56 X X 31 3.01 2.39 2.03 1.76 1.35 1.02 .61 .00 X 32 3.03 2.42 2.06 1.79 1.38 1.06 .65 .06 X 33 3.05 2.44 2.08 1.82 1.41 1.10 .69 .11 X 34 3.06 2.46 2.11 1.84 1.44 1.13 .73 .16 X 35 3.08 2.48 2.13 1.87 1.47 1.16 .77 .21 X 36 3.10 2.50 2.15 1.89 1.50 1.19 .80 .26 X 37 3.11 2.52 2.17 1.92 1.53 1.22 .84 .30 X 38 3.13 2.54 2.19 1.94 1.55 1.25 .87 .34 X 39 3.15 2.56 2.21 1.96 1.57 1.27 .90 .39 X 40 3.16 2.51 2.23 1.98 1.60 1.30 .93 .42 X 41 3.17 2.58 2.25 2.00 1.62 1.33 .96 .46 X 42 3.19 2.61 2.27 2.02 1.64 1.35 .99 .49 X 11 * М 1247
646 Глава 19 Иллюстрация 18 (продолжение) Число подсчетов в Отношения для точек на глубине выборке 1 2 3 4 6 8 11 16 22 32 44 43 3.20 2.62 2.29 2.04 1.66 1.37 1.02 .53 .00 44 3.22 2.64 2.30 2.06 1.69 1.40 1.04 .56 .04 45 3.23 2.65 2.32 2.07 1.71 1.42 1.07 .59 .08 46 3.24 2.67 2.34 2.09 1.73 1.49 1.09 .62 .12 47 3.25 2.68 2.35 2.11 1.74 1.46 1.12 .65 .16 48 3.27 2.70 2.37 2.13 1.76 1.48 1.14 .68 .19 49 3.28 2.71 2.38 2.14 1.78 1.40 1.16 .70 .23 50 3.29 2.72 2.40 2.16 1.79 1.52 1.19 .73 .26 51 3.30 2.74 2.41 2.17 1.82 1.54 1.21 .73 .29 X X 52 3.31 2.75 2.43 2.19 1.83 1.56 1.23 .76 .32 X X 53 3.32 2.76 2.44 2.20 1.85 1.58 1.25 .80 .35 X X 54 3.33 2.77 2.45 2.22 1.86 1.59 1.27 .83 .38 X X 55 3.34 2.79 2.47 2.23 1.88 1.61 1.29 .85 .41 X X 56 3.35 2.80 2.48 2.24 1.90 1.63 1.31 .87 .43 X X 57 3.36 2.81 2.49 2.26 1.91 1.84 1.32 .89 .46 X X 58 3.37 2.82 2.50 2.27 1.92 1.66 1.34 .91 .49 X X 59 3.38 2.83 2.51 2.28 1.94 1.68 1.36 .94 .51 X X 60 3.39 2.84 2.53 2.30 1.95 1.69 1.38 .96 .53 X X 61 3.40 2.85 2.54 2.31 1.97 1.71 1.39 .97 .56 X X 62 3.41 2.86 2.55 2.32 1.98 1.72 1.41 .99 .58 X X 63 3.42 2.87 2.56 2.33 1.99 1.73 1.42 1.01 .60 .00 X 64 3.43 2.88 2.57 2.34 2.01 1.75 1.44 1.03 .62 .03 X 65 3.44 2.89 2.58 2.35 2.02 1.76 1.45 1.05 .65 .06 X 66 3.45 2.90 2.59 2.37 2.03 1.78 1.47 1.07 .67 .08 X 67 3.45 2.91 2.60 2.38 2.04 1.79 1.48 1.08 .69 .11 X 68 3.46 2.92 2.61 2.39 2.05 1.80 1.50 1.10 Л .14 X 69 3.47 2.93 2.62 2.40 2.07 1.81 1.51 1.12 .72 .16 X 70 3.48 2.94 2.63 2.41 2.08 1.83 1.53 1.13 .74 .19 X 71 3.49 2.95 2.64 2.42 2.09 1.84 1.54 1.15 .76 .21 X 72 3.49 2.96 2.65 2.43 2.10 1.85 1.55 1.16 .78 .23 X 73 3.50 2.97 2.66 2.44 2.11 1.86 1.57 1.18 .80 .25 X 74 3.51 2.97 2.67 2.45 2.12 1.87 1.58 1.19 .91 .28 X 75 3.52 2.98 2.68 2.46 2.13 1.89 1.59 1.21 .83 .30 X 76 3.52 2.99 2.69 2.47 2.14 1.90 1.60 1.22 .85 .32 X 77 3.53 3.00 2.70 2.48 2.15 1.91 1.62 1.23 .86 .34 X 78 3.54 3.01 2.71 2.49 2.16 1.92 1.63 1.25 .88 .36 X 79 3.54 3.01 2.71 2.50 2.17 1.93 1.64 1.26 .89 .38 X 80 3.55 3.02 2.72 2.50 2.18 1.94 1.65 1.27 .91 .40 X 81 3.56 3.03 2.73 2.51 2.19 1.95 1.66 1.29 .92 .42 X 82 3.57 3.04 2.74 2.52 2.20 1.96 1.67 1.30 .94 .43 X 83 3.57 3.05 2.75. 2.53 2.21 1.97 1.68 1.31 .95 .45 X
Рассмотрение форм распределения 647 Иллюстрация 18 (продолжение) Отношения для точек на глубине Число подсчетов в выборке 1 2 3 4 6 8 11 16 22 32 44 84 3.58 3.05 2.75 2 54 2.22 1.98 1.69 1.32 .97 .47 X 85 3.58 3.06 2.76 2.55 2.23 1.99 1.71 1.34 .98 .49 X 86 3.59 3.07 2.77 2.55 2.24 2.00 1.72 1.35 1.00 .50 X 87 3.60 3.07 2.78 2.56 2.25 2.01 1.73 1.36 1.01 .52 .00 88 3.60 3.08 2.78 2:57 2.25 2.02 1.74 1.37 1.02 .54 .02 89 3.61 3.09 2.79 2.58 2.26 2.03 1.74 1.38 1.04 .55 .04 90 3.62 3.09 2.80 2.59 2.27 2.04 1.76 1.39 1.05 .57 .06 91 3.62 3.10 2.81 2.59 2.28 2.04 1.77 1.41 1.06 .58 .08 92 3.63 3.11 2.81 2.60 2.29 2.05 1.78 1.42 1.07 .60 .10 93 3.63 3.11 2.82 2.61 2.30 2.06 1.79 1.43 1.08 .61 .12 94 3.64 3.12 2.83 2.62 2.30 2.07 1.79 1.44 1.10 63 .14 95 3.64 3.13 2.83 2.62 2.31 2.08 1.80 1.45 1.11 .64 .16 96 3.65 3.13 2.84 2.63 2.32 2.09 1.81 1.46 1.12 .66 .17 97 3.65 3.14 2.85 2.64 2.33 2.10 1.82 1.47 1.13 .67 .19 98 3.66 3.15 2.85 2.64 2.34 2.10 1 83 1.48 1.14 .68 .21 99 3.67 3.15 2.86 2.65 2.34 2.11 1.84 1.49 1.15 .70 .23 100 3.67 3.16 2.87 2.66 2.35 2.12 1.85 1.50 1.16 .71 .24 Б) Для ВЫБОРОК объемом > 100 и ГЛУБИНЫ=1____________________ следует брать «стандартное отношение»=2,97 У—0,45+lg (объем выборки). В) Для ВЫБОРОК БОЛЕЕ 100 И ГЛУБИН >1 следует использовать стандартные отношения из п. А или Б (в зависимости от того, что больше подходит), соответствующие глубине 1 и следующим измененным объемам выборки: Для глубины 2 3 4 6 8 11 16 22 Объем выборки, используемый в п. Б х/6 (2(объем выборки) — 1) V4 (объем выборки — 1) */11 (2(объем выборки) — 3) V17 (2(объем выборки) — 5) х/гя (2(объем выборки) — 7) 1/1е (объем выборки — 5) */4- (2(объем выборки) — 15) */в5 (2(объем выборки) — 21) Пример и проверка. При объеме выборки, равном 100, формула из п. Б для глубины 1 дает 3,70 (используя непосредственно таблицу п. А, получаем 3,67). Для глубины 2 мы должны использовать объем выборки 1/б(199)=39,8, при этом п. Б Дает 3,16 (используя непосредственно п. А, получаем 3,16). Для глубины 3 следует использовать объем=1/4(99)=24,75; следовательно, из п. Б имеем 2,87 (непосредст- венное использование п. А также дает 2,87). Для глубины 4 следует использовать объем=1/11 (197)= 17,91, что приводит к 2,66 (используя п. А непосредственно, имеем 2,66). Для глубины 6 следует использовать величину Vi, (195)= 11,47, для которой из п. Б получаем 2,35 (непосредственное использование п. А дает 2,35). Для глубины 8 нужно взять l/2S(193)=8,39, следовательно, из п. Б получаем 2,12 (непосредственно из п. А получаем 2,12). Для глубины 11 имеем x/le (95)=5,938, что дает 1,85 (непо- средственно 1,85). Для глубины 16 имеем 1/47(185)=3,94, что дает 1,49 (непосред- ственно 1,50). Для глубины 22 имеем 1/65 (179)=2,75, что дает 1,15 (непосредственно *.16). 21*
648 Г лава 19 Иллюстрация 19 главы 19: площади округов Анализ по методу «обратного нажима» логарифмов площадей округов штата Мичиган (Q= 10) (анализ по полуоктавам) А) ВЫЧИСЛЕНИЯ | Гпу-| | бина 1 Набл. | знач. । Отно- |шения|. Qx t IОТНОи |шения] I Раз-I IНОСТИI 1 Аппр. 1 Вто- . ричные . . 1 остатки 11 ЗП | Нерое- | HOCTHJ 1 1.51 -3.57 -.36 1.87 1.85 +.02 2 1.54 -3.05 -.30 1.84 1.85 -.01 3 1.57 -2.75 -.28 1.85 1.85 ..00 4 1.61 -2.53 -.25 1.86 1.86 .00 6 1.66 -2.21 -.22 1.88 1.881 1.88 .00 8 1.68 -1.97 -.19 1.88 1.88J 1.88 .00 11 1.69 -1.68 . —.17 1.86 . 1.86 .00 С 1.73п -.98 -.10 1.83п 1.84 .00 М 1.76 0 0 1.76 .00 1.76 1.76 .00 С. 1.89п .98 .10 1.79П .04 1.75П 1.75П. .00 11 1.98 1.68 .17 1.81 .07 1.74" 1,74 .00 8 2.01 1.97 .19 1.81 .08 1.73 1.74 -.02 6 2.07 2.21 .22 1.85 .09 1.76 1.73 .03 4 2.08 2.53 .25 1.83 .10 1.73 1.73 .00 3 2.12 2.75 .28 1.83 .11 1.72 1.73 -.01 2 2.20 3.05 .30 1.90 .12 1.78 1.76 -.02 1 2.26 3.57 .36 1.90 .14 1.76 1.76 .00 Замечание. Столбец «Разности» содержит несглаженные значения, вычисленные по методу «обратного нажима», график которых изображен на илл. 20. Б) УПРАЖНЕНИЯ 19а) Повторите вычисления для множества исходных значений площадей. 19а2) Начертите график для результатов вычислений. 196) Повторите вычисления для множества значений корней из площадей. 1962) Начертите график результатов' вычислений. В) ИСТОЧНИК: илл. 5 гл. 3. ОБЗОРНЫЕ ВОПРОСЫ Какую цель мы преследовали в этом разделе? С чего мы начали? Что вычисляли? Что делали затем? Как найденное в данном разделе описание распределения согласуется с полученным ранее? Всегда ли оно лучше? Как поступать в случае, когда мы хотим сконцентрировать внимание на отдельных значениях выборки? Потребует ли это от нас намного больше усилий? Какие величины мы табулировали с целью облегчить вычисления? Что мы делали затем? А1ожно ли применить метод «обратного нажима» ко всем индивидуальным значениям вы- борки? Имеет ли это смысл?
Рассмотрение форм распределения 649 Иллюстрация 20 главы 19: площади округов График значений, вычисленных методом «обратного нажима» (данные из столбца «Разности» илл. 19) Разности 190 / ! I 180 / Отношение ___________I__*. О 4 19Д. ЧЕГО МЫ ДОСТИГЛИ? Эта глава посвящена сравнению долей подсчетов с распределением стандартной формы. Сравнение проводилось на основе анализа раз- личных величин: О всех наблюдаемых значений; <5 наблюдений, сгруппированных в ячейки; О буквенных значений выборки; О значений выборки, соответствующих полуоктавным глубинам. В качестве стандарта для сравнения, относительно которого пред- лагалось измерять отклонения реальных распределений, было введено гауссовское распределение. При этом неоднократно подчеркивалось, что реальные данные нельзя считать в каком-либо смысле «точно га- уссовскими». Теперь мы умеем: О анализировать форму распределения в два этапа: сначала вы- числять св-логарифмы (или св-корни) для каждого из порогов, при- надлежащих некоторому множеству, а затем строить описание рас- пределения путем комбинации аппроксимирующего выражения для зависимости св-логарифмов от положения порога и остатков; О использовать для такого анализа два или более аппроксими- рующих выражения для различных участков распределения. Кроме того, мы умеем использовать буквенные значения (или зна- чения наблюдений, соответствующие полуоктавной последователь- ности глубин) для описания формы распределения другими способами: О путем преобразования буквенных значений в средние и зна- чения 25%-псевдоширины и анализа аппроксимаций графиков этих
650 Глава 19 величин в зависимости от квадрата отношений (которые используютс для нахождения соответствующей псевдоширины); О при помощи простой процедуры «обратного нажима», приме- ненной к каждому из буквенных значений (или наблюдаемых значений выборки, соответствующих полуоктавной последовательности глубин) Мы постепенно привыкаем использовать гауссовское распреде- ление (иногда называемое «нормальным», что может вводить в за. блуждение) только там, где это уместно и в соответствии с тем смыслом который можно в него вкладывать, а именно: 0 мы можем использовать его как стандарт для сравнения (а не как выражение того, что имеет место в действительности), т. е. как математическую идеализацию, с которой сравнивается действитель- ное поведение реальных данных. Результатом такого сравнения могут быть остатки (включая значения, полученные методом «обратного нажима») или поведение средних и значений 25%-псевдоширины; 0 мы часто можем и даже должны использовать его как началь- ную аппроксимацию при описании поведения реальных данных. Имея дело с распределениями в реальной жизни, мы должны быть вполне удовлетворены, если 0 ПРИБЛИЗИТЕЛЬНО знаем, как распределены наблюдаемые значения и если 0 наша аппроксимация не СЛИШКОМ сложна.
Глава 20 МАТЕМАТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ УКАЗАТЕЛЬ К ГЛАВЕ 20 Обзорные вопросы 652 20А. Группирование по ячейкам и распределения 652 Непрерывность и дискретность 652 Доли, плотности, функции распределения 653 (математическая) плотность 653 Обзорные вопросы 656 20Б. Плотности распределений и плотности сгруппи- рованных наблюдений 656 Учет кривизны 657 средняя плотность 657 (математическая) плотность 657 Обзорные вопросы 659 20В Таблицы и графики для сравнения различных ви- дов распределений 661 Принятые названия 666 Некоторые комментарии 666 Обзорные вопросы 666 Предположим, что данные разбиты на ячейки, в каждую из кото- рых попадает очень много событий,— например, разбиение по ячей- кам доходов американских налогоплательщиков (см. илл. 5 гл. 19). Возникает мысль о возможности дальнейшего разбиения наших ячеек на все более мелкие части. Так, доходы, попадающие в ячейку, соот- ветствующую тысяче долларов, можно разместить в ячейках по сто долларов. Возможно и дальнейшее разбиение, особенно если в исход- ной ячейке было много элементов. С точки зрения математика естественно, отталкиваясь от идеи сужения ячеек при увеличении числа элементов, продолжать этот процесс до тех пор, пока ячейки не станут бесконечно малыми, а число элементов — бесконечно большим. В результате мы приходим к ма- тематическому распределению — концепции, которая О имеет множество применений в теоретической статистике и теории обработки данных;
652 Глава 20 О удобна как основа для понимания практической процедуры группирования данных в ячейки. Распределения, которые мы рассматриваем, всегда целесообразно пытаться выразить некоторыми простыми формулами. Однако мы должны помнить, что это только идеал и что на самом деле разумнее стремиться лишь к более или менее точной аппроксимации реального распределения простыми формулами (даже это часто бывает под боль- шим вопросом). В настоящей главе идея математического распределения исполь- зуется для того, чтобы связать воедино все, что мы делали в предыду- щих двух главах. В частности, исследуются вопросы, какие пред- положения о соответствующем математическом распределении лежат в основе процедуры группирования по ячейкам и как сравнивать между собой различные математические распределения, соответст- вующие примерам, разбиравшимся в последних двух главах. ОБЗОРНЫЕ ВОПРОСЫ Сколь малые ячейки можно в принципе использовать? А на прак- тике? Что такое математическое распределение? В результате какого математического процесса оно получается? Для каких целей удобно математическое распределение? Можно ли ожидать, что реальные распределения будут задаваться простыми формулами? Точно или приближенно? Какова цель этой главы? Какие две важные части она содержит? 20А. ГРУППИРОВАНИЕ ПО ЯЧЕЙКАМ И РАСПРЕДЕЛЕНИЯ НЕПРЕРЫВНОСТЬ И ДИСКРЕТНОСТЬ Допуская, что ячейки могут быть сколь угодно малыми, мы должны сделать определенное предположение о наблюдаемых значениях, а именно, что каждое из них задается бесконечно большим числом десятичных знаков. Предположение о малости ячеек помогает при обработке реальных данных, если мы можем получить столько данных, сколько потребуется, и если все цифры, составляющие число, явля- ются действительно значащими. Например, такие числа, как 1063,2130000 .... 2039,1170000 ..., и 1557,6420000 . . ., позволяют использовать ячейки шириной 0,001, но переход к ячейкам с шириной 0,0001 уже не даст ничего нового. Большинство математических рас- пределений строится в предположении, что каждое наблюдение за- дается в виде сколь угодно длинной последовательности десятичных разрядов, причем каким бы ни было число, задаваемое такой после- довательностью, рано или поздно появится наблюдение, ему равное. Исследователю, занимающемуся практической обработкой данных, такие нереальные предположения вряд ли покажутся полезными,
Математические распределения 653 пнако для теоретика во многих случаях они оборачиваются значи- епьными упрощениями. Поскольку самое большее, на что можно Та"деяться при обработке данных,— это на некоторую аппроксимацию поскольку использование нескольких десятичных разрядов при аППроксимации, как правило, оказывается вполне достаточным, обработчик данных вскоре осознает, что нереальность указанных предположений в данном случае не является поводом для беспокой- ства. (Однако теоретические следствия, которые в некоторых случаях из них выводятся, могут ему показаться весьма сомнительными.) Математические распределения других видов строятся в предпо- ложении, что наблюдения могут принимать лишь изолированные значения. Для удобства практического использования обычно пред- полагается, что эти значения есть целые числа (возможно, правда, после некоторого преобразования). ДОЛИ, ПЛОТНОСТИ, ФУНКЦИИ РАСПРЕДЕЛЕНИЯ Имея дело со все большим и большим — и в конце концов с очень большим — числом наблюдений, мы вскоре убеждаемся, что работать с подсчетами неудобно. Вместо них естественно использовать доли в следующей форме: подсчет -=------------------ = доля. общее число наблюдении (прибавлять 1/6 здесь не требуется, так как все подсчеты неограни- ченно возрастают.) Поскольку наши ячейки становятся все уже, необходимо перейти к частному от деления долей на размер ячейки: доля ----------— = (средняя) плотность, размер ячейки ' г ' что вполне аналогично процедуре, применявшейся ранее при исполь- зовании ячеек неравной длины. Одним из обычных способов описания математического распреде- ления является задание зависимости (математической) плотности ОТ величины, для которой она определяется. Обычно считается, что эта плотность соответствует «бесконечно узким» ячейкам, таким, даль- нейшее уменьшение которых уже не изменяет плотности (в пределах точности, которая нас интересует). На самом деле в приведенном оп- ределении математической плотности «спрятаны» некоторые глубокие предположения о гладкости распределения, которых мы здесь не будем Касаться и которые можем вместе с другими идеализациями считать частью соответствующей аппроксимации поведения распределения. На илл. 1, А приведен ряд значений математической плотности для Некоторого частного распределения.
654 Глава 20 Другой способ описания математического распределения________эт задание соотношения 0 (число всех \ /половина числах наблюдений I ПЛЮС I наблюдений, 1 <порога J Кравных порогу / пшии.гапми диля =-----—7 -----------—------------у общее число наблюдении ’ определенного для любого способа разбиения наблюдений на «ни», ние» (левее порога) и «верхние» (правее порога), иными словами, дЛя любого значения порога. Мы можем задать это соотношение формулой или (что пригодно почти во всех практических ситуациях) с помощью таблицы чисел. В обоих случаях, задавая значение порога, мы можем найти соответствующую величину накопленной доли. На илл. 1 Б приведен ряд строк такой таблицы, определяющей накопленные доли для того же распределения, которое на илл. 1, А описано плотностью. В п. В этой иллюстрации даны достаточно длинные ряды значений образующих подобную таблицу для той же функции распределения' Отличие заключается в том, что здесь по заданной величине накоплен- ной доли мы находим соответствующее значение порога, что представляет собой эквивалентный способ задания распределения (аналогичным образом может использоваться и обратная формула). Заметим, что если в таблице п. Б значению порога —1 соответ- ствует накопленная доля 0,25, таблица п. В приводит от накопленной доли 0,25 обратно к порогу —1. (Аналогично этому в п. В величине 0,75 соответствует порог 4-1, в то время как в п. Б порогу +1 соот- ветствует 0,75.) Формулы, о которых говорилось выше (если они существуют), обычно называют функциями распределения, когда они выражают значения накопленных долей в зависимости от величины порога. Когда они выражают значение порога в зависимости от величины накопленной доли, их называют «функциями представления» или «функ- циями процентных точек». (Достаточно подробную таблицу значений, конечно, можно использовать в обоих направлениях в зависимости от того, какую из величин мы хотим выразить через другую, т. е. такая таблица задает одновременно и функцию распределения, и функцию процентных точек — в пределах своей точности.) Мы уже познако- мились с таблицами функций процентных точек для ряда распреде- лений, только мы их называли «преобразованиями долей» в случае св-корней и св-логарифмов и «отношениями» в случае гауссовского распределения. Несколько типов математических распределений имеют простые формулы для всех трех функций; плотности, функции распределения и функции процентных точек. Таких распределений два, три или полдюжины — в зависимости от того, что считать «простой формулой»- Гораздо больше распределений имеют простые формулы только для одной или двух функций из трех. А некоторые (и среди них есть очень важные) вообще не выражаются простыми формулами. Более того.
Математические распределения 655 Иллюстрация 1 главы 20: описание выборки Ряд значений математической плотности, функции распределения и функции процентных точек для стандартного распределения, использованного в гл. 19 (сгибы — на уровнях ±1) дт ЗНАЧЕНИЯ МАТЕМАТИЧЕСКОЙ ’ плотности Б) ЗНАЧЕНИЯ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ Плот- Доли ниже Пороги1' | кость2' | Пороги11 порогов3) -5 .0009 -5 .0004 —4 .0071 —4 .0035 -3 .035 -3 .0215 -2 .108 -2 .0887 -1 .214 -1 .2500 0 .269 0 .5000 1 .214 1 .7500 2 .108 2 .9113 3 .035 3 .9785 4 .0071 4 .9965 5 .0009 5 .9996 11 Значения величины, которая распределена. ?> Математическая плотность. Функция распределения. В) Избранные ЗНАЧЕНИЯ ФУНКЦИИ ПРОЦЕНТНЫХ ТОЧЕК (ФУНК- ЦИИ ПРЕДСТАВЛЕНИЯ) Доли ниже — накопленные доли Накопленные I доли в процентах Пороги .001 (0.1%) -4.58 .01 (1%) -3.45 .05 (5%) -2.44 .10 (10%) -1.90 .15 (15%) -1.54 .20 (20%) -1.25 .25 (25%) -1.00 .30 (30%) -.78 .40 (40%) -.38 .50 (50%) .00 .60 (60%) .38 .70 (70%) .78 .75 (75%) 1.00 .80 (80%) 1.25 .85 (85%) 1.54 .90 (90%) 1.90 .95 (95%) 2.44 .99 (99%) 3.45 .999 (99.9%) 4.58 Г) УПРАЖНЕНИЯ •а/б/в/г) Ниже какого порога лежат приблизительно 9, 45, 98, 99,9% значений изучаемой величины? 1д/е/ж/и/к) Каким значениям соответствуют плотности, равные 0,1/0,2/0,01(0,03/0,001? 1л) В каком соотношении между собой находятся пи, А и В?
656 Глава 20 их формулы могут быть весьма сложны (или все три, или одна-две и этой триады). Однако последнее не должно нас особенно беспокоить3 поскольку всегда (по крайней мере при анализе данных) мы можем- О ограничиться некоторой простой аппроксимирующей формулой- О использовать таблицу, благодаря которой у нас отпадает не- обходимость в любых формулах. ОБЗОРНЫЕ ВОПРОСЫ Описывается ли большинство реальных распределений простыми формулами? Могут ли быть полезными сколь угодно узкие ячейки? В каких случаях? В теории? На практике? Реалистична ли теория «непрерывности»? Имеет ли в данном случае «нереалистичность» какое-либо значение для практики? Что такое (математическая) плотность? Как она связана с действительной выборкой наблюдений? С математическим распределением? Что такое накопленная доля? Как задавать накопленные доли для произвольных порогов? Что такое функция распределения? Функция процентных точек? Как связаны между собой две последние функции? Какие существуют три способа описания математического распределения? Многие ли из математических распределений имеют простые формулы для каждого из этих способов? Примерно сколько? Можно ли ожидать, что по крайней мере одно из трех описаний математического распределения будет выражаться простой формулой? 20Б. ПЛОТНОСТИ РАСПРЕДЕЛЕНИЙ И ПЛОТНОСТИ СГРУППИРОВАННЫХ НАБЛЮДЕНИЙ В гл. 17 мы изучали методы аппроксимации распределений, сгруп- пированных по ячейкам. Как правило, мы подгоняли к выражениям типа некоторое простое преобразование от 1/ ——сч—— V размер ячейки простую функцию от положения ячейки. Обычно эта функция имела вид: константа плюс другая константа, умноженная на (положение ячейки — положение точки максимума) 2. В случае одинаковых ячеек мы без ограничения общности принимали их размеры равнымй 1,0 и анализировали уже преобразования от К подсчет. Первое, что сейчас необходимо,— это заменить «подсчеты» на «доли», сделав таким образом объектом анализа выражение некоторое простое преобразование от 1/ -дол£— г размер ячейки равное выражению некоторое простое преобразование от ^плотность.
Математические распределения 657 УЧЕТ КРИВИЗНЫ Далее нужно исследовать разность между средней плотностью, вычисленной для не слишком узких ячеек (т. е. функцией, которую практически можно вычислить для реальных данных), и (математической) плотностью __ функцией, возникающей при теоретическом описании распределе- ния. К счастью, во всех ситуациях, которые встречаются на практике, достаточно применить простую процедуру приближенной коррекции, которую мы сейчас рассмотрим. На илл. 2 приведены простейшие математические распределения. Это — постоянная плотность, линейная и квадратичная. Пунктирные прямоугольники на втором и третьем графиках показывают, какую Иллюстрация 2 главы 20; различные виды распределений Плотности для некоторых простых математических распределений А) Прямоугольное — постоянная Б) Треугольное — линейная плотность плотность Плотность Плотность О 1 В) Квадратичная плотность (увеличенный масштаб)
658 Г лава 20 Иллюстрация 3 главы 20: квадратичная плотность Несколько значений средней и математической плотностей для частного примера среднюю плотность мы можем получить, используя ячейки, лежащие в основании этих прямоугольников. Видно, что для линейной матема- тической плотности средняя плотность в точности равна ее значению в центре ячейки. Таким образом, когда математическая плотность ли- нейна, нет необходимости в ее коррекции. Можно считать это прибли- женно справедливым и тогда, когда линейна средняя плотность. Для квадратичной плотности в случае, когда ячейка имеет доста- точную ширину и расположена в средней части распределения, средняя плотность оказывается существенно меньше математической, соответ- ствующей центру ячейки. Здесь необходима коррекция. На илл. 3 этот случай изображен подробнее с использованием более удобного масштаба по вертикали. Для трех смежных ячеек, имеющих одинако- вые размеры, средние плотности равны 0,7292; 0,9792; 0,7292. Если бы эти значения ложились на прямую (совершенно очевидно, что это не так!), то скачущее среднее, в котором используются два крайних из приведенных трех значений, было бы равно центральному. Здесь скачущее среднее равно 0,7292, в то время как в центре средняя
Математические распределения 659 плОтность составляет 0,9792. Таким образом, разность (средняя плотность) МИНУС (“Т скачущего среднего\ ' 1 ' \для средней плотности /, равная в нашем случае 0,9792—0,7292=0,25, может служить естественной мерой кривизны плотности. Величина необходимой поправки составляет 1,0000—0,9792 =0,0208, что в точности равно 1/12 от 0,25. В качестве правдоподобной поправки можно использовать величину (средняя плотность) МИНУС (скачущее среднее для средней плотности) _________________ • Иными словами, в качестве «исправленной» средней плотности следует использовать величину (средняя плотность МИНУС скачущее среднее средняя плотность ПЛЮС-----------для средней^плотности)_____. Заметим, что такое исправление средней плотности — опять-таки лишь аппроксимация. Если К исправленный подсчет отличается от ^подсчет более чем на несколько единиц, к такой аппроксимации следует относиться с осторожностью, несмотря на то что исправленная кривая плотности обычно выглядит гораздо лучше, чем исходная. (По-настоящему хорошая аппроксимация требует значительно больше усилий, чем этому уделяется в данной книге.) На илл. 4 описанный выше метод применяется к данным о продол- жительности жизни людей, страдающих сердечно-сосудистыми забо- леваниями. Характерной особенностью этой иллюстрации является малость поправок для величин ]/подсчет, из которых лишь две пре- восходят ±1,1. (Поправку —2,6 для средней плотности в интервале 95—99 лет не следует учитывать, поскольку, по мнению экспертов, точность регистрации данных здесь весьма сомнительна.) Отметим, что поправки малы потому, что в таблице используется в общей сложности около полумиллиона случаев, зарегистрированных с высокой точностью. ОБЗОРНЫЕ ВОПРОСЫ Какова цель этого раздела? С чего мы начали? Что такое средняя плотность? Математическая плотность? Что представляют собой про- стейшие математические распределения? Какому из простейших ма- тематических распределений мы уделили больше всего внимания? Какая формула была предложена? Насколько мы уверены в универ-
660 Глава 20 Иллюстрация 4 главы 20: смертность от сердечно-сосудистых заболеваний Сгруппированные и скорректированные данные о возрасте 406 499 больных умерших от атеросклероза в США в 1965 г. А) ДАННЫЕ и ВЫЧИСЛЕНИЯ Ячей- | киО | . Под- . I >Й I Раз- | ность | Раз- ность , I . | Скор- [ректир. |подсчет| Скор- I РектиР- рлодсчет Величины коррек- . НИИ ДЛЯ I ] |\/подсчет | счеты | |7подсчет| o-4 32 (5.7) Б 27 2.2 34 5.8 (+.2) 5-9 10 (3.2) 22 -12 -1.0 9 3.0 (-•2) 10-14 12 (3.5) 27п -15П -1.3 11 3,3 (-2) 15-19 45 (6.7) 68 -23 -1.9 43 6.6 (-1) 20-24 124 (11.1) 193П -69 П -5.8 118 10.9 (-.2) 25-29 342 (18.5) 637 -295 -24.6 317 17.8 (-.7) 30-34 1150 (33.9) 1940 -790 -65.8 1084 32.9 (-1.0) 35-39 3538 (59.5) 4900 -1362 -113.5 3424 58.5 (-1.0) 40,-44 8650 (93.0) 9666 -1016 -84.7 8565 92.5 (-.5) 45-49 15794 (125.7) 17414 -1620 -135.0 15659 125.1 (-.6) 50-54 26178 (161.8) 26252п —75 п -6.2 26172 161.8 (0) 55-59 36711 (191.6) 36955 -244 -20.3 36691 191.5 (-1) 60-64’ 47732 (218.5) 47441 291 24.2 47756 218.5 (0) 65-69 58171 (241.2) 56200 1971 164.2 58335 241.5 (+.3) 70-74 64668 (254.3) 59577 5091 424.2 65092 255.1 (+.8) 75-79 60983 (246.9) 55021 5962 496.8 61480 248.0 (+1.1) 80-84 45374 (213.0) 43137п 2236л 186.4 45560 213.4 (+.4) 85-89 25292 (159.0) 27336 л -2044П -170.4 25122 158.5 (-.5) 90-94 9299 (96.4) 13654 л -4355л -363.0 8936 94.5 (—.9) 95-99 2017 (44.9) 4787п —2770л -230.9 1786 42.3 (-2.6) 100-3) 276 (16.6) 1008п -732п -61.0 215 14.7 (-1.9) Ч Возраст в годах. 2) Скачущие средние для подсчетов (а не для У подсчет). 3) Все случаи для возрастов от 100 до 104 лет. Б) УПРАЖНЕНИЯ 4а) Объедините подсчеты в ячейки размером 15 лет (0—14, 15—29 и т. д.) и выполните аналогичные вычисления. Увеличились ли необходимые значения поправки? 4а2) Поделите скорректированные корни из подсчетов для предыдущей задачи на У~3 и сравните с результатами, полученными для 5-летних интервалов, соответствующих центрам каждой из 15-летних ячеек. Что показывает это сравнение? 46/462) Выполните те же вычисления для 15-летних ячеек: 5—19, 20—34 и т. д- 4в/4в2) Выполните те же вычисления для 15-летних ячеек: 10—24, 25—39 и т. Д- 4г) Почему в упр. 4а2 мы выбрали делитель, равный У~3? В) ИСТОЧНИК: Vital Statistics of the United States, 1965. Volume 11 —Mor- tality, Part A. U. S. Dept. Health, Education and Welfare, 1967, p. 1—132, 1—133.
Математические распределения 661 сальности полученного ответа? Какой пример мы рассмотрели? На- сколько велики были поправки? Что изменилось бы, если бы мы ис- пользовали более широкие ячейки? 20В. ТАБЛИЦЫ И ГРАФИКИ ДЛЯ СРАВНЕНИЯ РАЗЛИЧНЫХ ВИДОВ РАСПРЕДЕЛЕНИЙ В гл. 17 рассматривались семь различных преобразований величин вида Уподсчет/размер ячейки, результаты которых представляли собой простые (как правило, линейные) функции величин (В — точка максимума)2 или (L — точка максимума)2. После того, что мы рассмот- рели в настоящей главе, естественно задать вопрос: как выглядят те семь распределений, для которых величины У (математическая) плот- ность после соответствующих преобразований, рассмотренных в гл. 17, будут линейными функциями от (х — точка максимума)2? В гл. 19 мы ввели три различных распределения — два из них порождаются удобными преобразованиями долей, а третье — гауссов- ское — введено как стандарт для сравнения распределений. Интересно сопоставить эти распределения как между собой, так и с теми семью, о которых говорилось выше. Уместно отметить, что гауссовское распределение — это именно то распределение, для которого logj/^плотность есть линейная функция от (х — точка максимума)2, т. е. стандартное распределение гл. 19 совпадает с одним из распределений гл. 17, и семь плюс три дают на самом деле не десять, а девять различных распределений. На илл. 5, А сравниваются преобразования долей (приводящие к линейной зависимости) для всех девяти распределений. Для удобства сравнения каждое из них приведено к одной и той же ширине, так что сгибы у всех равны ±1. Мы уже знаем, что эту таблицу можно исполь- зовать как таблицу функции процентных точек. Поскольку все рас- пределения нормированы так, чтобы 75% соответствовали 1,000, нет ничего удивительного в том, что для 70% все преобразования дают близкие значения (за исключением одного, которому соответствует 0,726, все остальные лежат в пределах от 0,789 до 0,764). Аналогичная ситуация имеется при 80% (между 1,221 и 1,279 — кроме 1,376) и 60% (между 0,388 и 0,362 — кроме 0,325). Даже при 90% нет большого расхождения (между 1,727 и 2,141 — кроме 3,077). Однако уже при 99% преобразования сильно отличаются друг от друга (шесть значений лежат в пределах 2,45 и 5,94, а седьмое равно 31,82), и чем дальше к хвостам распределений, тем больше это различие. На илл. 6 представлены соответствующие таблицы функций рас- пределения, также приведенных к одинаковым значениям сгибов, равным ±1. Вновь видно, что эти функции в интервале от —1,5 до 1,5 ведут себя приблизительно одинаково.
662 Глава 20 Иллюстрация 3 главы 20: сравнение таблиц распределений Девять различных преобразований долей (нормированы так, чтобы сгибы для них были равны ±1) А) ТАБЛИЦА L±_J I корни" | Нормированные величины I ГА I 1 г« 1 I Г1° 1 | "Гаусс” I |"cs-log"| I I I *» I I t2 г I * 1 Б0% .000 .000 .000 .000 .000 .000 .000 .000 50% 60% .388 .386 .382 .380 .376 .369 .370 .362 .325 40% 70% .789 .787 .783 .781 .777 .771 .772 .764 .726 30% 80% 1.221 1.226 1.234 1.235 1.248 1.261 1.260 1.279 1.376 20% 90% 1.727 1.752 1.802 1.842 1.90 2.000 1.990 2.141 3.077 10% 92% 1.85 1.88 1.998 2.00 2.38 2.22 2.21 2.43 3.89 8% 95% 2.05 2.10 2.21 2.30 2.44 2.68 2.68 3.08 6.31 5% 98% 2.32 2.40 2.605 2.77 3.04 3.54 3.54 4.55 15.89 2% 99% 2.45 2.54 2.81 3.05 3.45 4.18 4.22 5.94 31.82 1% 99.2% 2.48 2.58 2.86 3.12 3.67 4.39 4.44 6.45 39.7 .8% 99.5% 2.53 2.64 2.97 3.28 3.82 4.82 4.92 7.64 63.7 .5% 99.8% 2.61 2.73 3.13 3.52 4.27 5.65 5.92 10.59 159.1 2% 99.9% 2.64 2.77 3.22 3.68 4.58 6.29 6.73 13.35 318.3 .1% 99.92% 2.65 2.78 3.24 3.72 4.68 6.49 7.00 14.4 398. .08% 99.95% 2.68 2.80 3.29 3.81 4.88 6.92 7.60 16.9 636. .05% 99.98% 2.69 2.83 3.36 3.96 5.25 7.75 8.85 23.0 1591. .02% 99.99% 2.70 2.85 8.40 4.05 5.51 8.38 9.95 29.0 3180. .01% (100%) (2.73) (2.88) (3.56) (4.34) Замечания «св-корни» — обозначение формы распределения, связанного с св-корнями; Г4 — распределение, для которого (Уплотность)2 линейно зависит от (х — точка максимума)2; гЙ — распределение, для которого Vплотность линейно зависит от (х — точка мак- симума)2; Цо — распределение, для которого (Уплотность)1/’ линейно зависит от (х — точка максимума)2; «Гаусс» — обозначение формы распределения, для которой логарифм плотности линейно зависит от (х — точка максимума)2; «св-log» — обозначение формы распределения, связанного с св-логарифмами; t7 — распределение, для которого 1/ ( У плотность)1/’ линейно зависит от (х — точка максимума)2; — распределение, для которого 1/^плотность линейно зависит от (х — точка максимума)2; <1—распределение, для которого 1/(^плотность)2 линейно зависит от (х — точка максимума)2. Б) УПРАЖНЕНИЯ 5а) Начертите все восемь функций процентных точек на одном и том же графике в зависимости от значений, соответствующих св-логарифмам. Проанализируйте результаты. 5б/в/г/д) Используйте процентные точки из столбцов 1/2/3/4 для определения средних и значений 25%-псевдоширины (по гауссовскому стандарту) аналогично тоМУ> как в разд. 19в использовались буквенные значения. Начертите графики в за висимости от переменной (гауссовская функция процентных точек)2. 5 е/ж/и/к) Сделайте то же самое для столбцов 6/7/8/Э.
Математические распределения 663 Иллюстрация 6 главы 20: сравнение таблиц распределений Девять функций распределения, для обеспечения сравнения нормированных так, чтобы их сгибы были равны ±1 (обозначения столбцов аналогичны илл. 5) А) В ПРЕДЕЛАХ ЗНАЧЕНИЙ ПОРОГОВ, РАВНЫХ ±5 Функция распределения для нормир.величин [Порог и] |”св-корни”| LlJ I Гб I Lid |"Гаусс" | |''CB-log”[ ш I ь I LU -5 X X X X .0004 .0041 .0046 .0157 .0526 -4.5 X X X X .0012 .0071 .0075 .0206 .0696 -4 X X X .0001 .0035 .0122 .0124 .0274 .0780 -3.5 X X .0000 .0022 .0091 .0209 .0208 .0378 .0886 '—3 X X .0043 .0113 .0215 .0357 .0352 .0528 .1024 -2.5 .0033 .0124 .0259 .0349 .0459 .0663 .0593 .0759 .1711 -2 .0571 .0678 .0734 .0803 .0887 .1000 .0990 .1118 .1476 -1.5 .1422 .1446 .1490 .1620 .1558 .1614 .1608 .1672 .1872 -1 .2500 .2500 .2500 .2500 .2500 .2500 .2500 .2500 .2500 -.5 .3716 .3711 .3700 .3691 .3680 .3660 .3663 .3638 .3524 0 .5000 .5000 .5000 .5000 .5000 .5000 .5000 .5000 .5000 1 .7500 .7500 .7500 .7500 .7500 .7500 .7500 .7500 .7500 2 .9429 .9372 .9266 .9197 .9113 .9000 .9010 .8882 .8524 3 X X .9957 .9887 .9785 .9643 .9648 .9472 .8976 4 X X X .9999 .9965 .9878 .9876 .9725 .9304 Ъ X X X X .9995 .9959 .9954 .9843 .9474 Б) ДЛЯ БОЛЕЕ ШИРОКОГО ДИАПАЗОНА ЗНАЧЕНИЙ ПОРОГОВ функция распределения для нормир. величин | Пороги | | "Гаусс’’| |"CB-log"| Lid Lid Lid -1000 .0005 00032 -300 0007 00106 -100 0011 .00317 -30 .00000 .00000 .0016 .0106 -10 .00002 .00010 .00232 0317 -10 .00002 00010 .00232 0303 -9 .00005 .00018 00314 03522 -8 .00015 00037 00439 03968 -7 00000 .00046 00080 00637 04517 -6 .00003 .00137 00186 00972 05287 -5 .00037 .00410 .00464 .01574 06283 В) УПРАЖНЕНИЯ 6а) Для какого значения порога большинство функций распределения близки к 37%? К 63%? 66) Оцените (в уме и на глаз), чему равны значения девяти функций распределения, соответствующие порогу —1,8. 6в) Сделайте то же самое (по возможности точнее) для значения порога —2,8, 6г) Сделайте го же самое для порога —3,8,
664 Глава 20 Иллюстрация 7 главы 20: сравнение таблиц распределений Девять функций математической плотности (для облегчения сравнения нормированы так, чтобы сгибы были равны ±1) А) ТАБЛИЦА 1 Функция матем. плотности для нормир; величин I |порогиГ!св-корни7 ш I r« I I 1-10 1 | Таусс" | |"свЧо6"| ш I ‘’J 0 ,2588 .2605 .2636 .2651 .2689 .2747 .2737 .2811 .3183 ±.5 .2523 .2526 .2532 .2537 .2540 .2549 .2549 .2556 .2546 ±1. .2320 .2291 .2235 .2196 .2142 .2050 .2071 .1969 .1591 ±1.5 .1962 .1898 .1782 .1706 .1613 .1487 .1499 .1358 .0979 ±2. .1404 .1346 .1233 .1163 .1084 .0989 .0992 .0887 .0836 ±2.5 .0398 .0641 .0675 .0669 .0650 .0622 .0617 .0571 .0439 ±3. X X .0220 .0300 .0348 .0378 .0369 .0370 .0318 ±3.5 .0003 .0089 .0166 .0225 .0217 .0245 .0340 sfc4. X .0011 .0071 .0132 .0127 .0166 .0187 ±4.5 .0027 .0077 .0074 .0115 .0150 ±5. ,0009 .0045 .0044 .0081 .0122 ±5.5 .0003 .0028 .0027 .0059 .0102 ±6. .00010 .0015 .0016 .0044 .0086 ±6.5 .0000 .0009 .0010 .0033 .0074 ±7.- .0000 .0005 .0006 ±8. .0002 .0003 .0016 .0049 ±9 .0001 .0001 .0010 .0039 ±10 .0000 .0001 .0007 .0032 ±11 .0000 .0005 .0026 ±12 .0003 .0022 Б) УПРАЖНЕНИЯ 7а) Чему равна математическая плотность для распределения ts в точках —2,5; —4,5; +4,5? 76) Ответьте на тот же вопрос для распределения г4 при тех же значениях порогов. 7в—е) Придумайте ряд упражнений и выполните их.
Математические распределения 665 Иллюстрация 8 главы 20: математические распределения Поведение буквенных значений для девяти форм распределения (гауссовскому распределению соответствует сплошная линия; формам распределения, связанным с св-корнями и св-логарифмами, — жирный пунктир, формам t и г — тонкий пункт: ip) На илл. 7 сравниваются плотности соответствующих распределе- ний. Таблица дает наглядное представление о том, как возрастает про- тяженность хвостов распределений по мере движения вправо (или, что то же самое, насколько «сжимаются» хвосты по мере движения влево). (Распределения различаются между собой, но различие про- является постепенно.) На илл. 8 графически изображено расположение буквенных значений. Из этого графика также видно, что хвосты рас- пределений все более удлиняются при переходе от распределения г4 (наиболее «сжатого») к г6, г10) гауссовскому, t3 и, наконец, к 4 (чрезвычайно «растянутому»). Кроме того, из сравнительного анализа буквенных значений можно вывести, что: < 0> распределение, соответствующее св-корням, близко по форме к распределению г4, но несколько более сжато; < 0> распределение, соответствующее св-логарифмам, близко к рас- пределению /7, только хвосты его менее протяженные; < ф> распределение имеет намного более длинные хвосты, чем дру- гие распределения. Таким образом, использование св-логарифмов или св-корней яв- ляется некоторой альтернативой гауссовскому распределению в от- ношении растяжения или сжатия хвостов [так же, как использование распределений /, или г4, для которых (1/Кплотность)’/» и (Кплотность)2 являются линейными функциями величины (сдвиг)2!. 22 № 1247
666 Глава 20 ПРИНЯТЫЕ НАЗВАНИЯ Среди читателей нашей книги, дочитавших ее до этого последнего по существу, раздела, несомненно найдутся те, кто ранее уже знако- мился с классической статистикой. Им могут быть известны такие термины, как /-распределение Стьюдента, /--распределение Пирсона распределение выборочного коэффициента корреляции. Этот раздел адресован именно таким читателям. Остальные могут его пропустить. Все семь распределений гл. 17, для которых простые преобразова- ния квадратного корня от плотности линейно зависят от квадрата сдвига относительно точки максимума, превращаются в известные математические распределения, если среднюю плотность (используе- мую в гл. 17) заменить математической. Иначе говоря, имеется сле- дующее соответствие между использовавшимися в гл. 17 преобразова- ниями и классическими распределениями статистики: ( Vплотность)^ у плотность ( плотность)1^8 log К плотность (1/ V плотность)1^2 1/ Yплотность (1/ плотность)2 распределение выборочного коэффициента корреляции г с 4 степенями свободы, распределение г с 6 степенями свободы, распределение г с 10 степенями свободы, гауссовское распределение, распределение Стьюдента (/-распределение с 7 степенями свободы), распределение Стьюдента с 3 степенями свободы, распределение Стьюдента с 1 степенью свободы (распреде- ление Коши). НЕКОТОРЫЕ КОММЕНТАРИИ Термины «распределение г» и «распределение /» обычно относятся к распределениям коэффициента корреляции и /-статистики Стьюдента в случае, когда наблюдаемые значения (по которым вычисляются г и /) имеют В ТОЧНОСТИ гауссовское распределение и корреляция между наблюдениями ТОЖДЕСТВЕННО равна нулю. Если (как это обычно бывает) распределение наблюдений негауссовское, то результирующее нулевое (т. е. соответствующее нулевым значениям корреляций между наблюдениями) распределение статистик г и / отличается от описанных выше. Обычно это отличие не катастрофическое, но все же отчетливое, в особенности для г. ОБЗОРНЫЕ ВОПРОСЫ Какие из распределений, введенных в гл. 17, представляют для нас интерес? Какое распределение выделено в гл. 17 в связи с его «хорошим поведением»? Какая модификация предложена в настоящей главе? Какие распределения были введены в гл. 19? Они рассматрива- лись как распределения наблюдений или как математические? Сколько распределений рассматривалось в гл. 17? В гл. 19? Сколько их ока- залось всего? Объясните свой ответ! Какие таблицы были даны в последнем разделе?
Глава 21 ЗАКЛЮЧЕНИЕ УКАЗАТЕЛЬ К ГЛАВЕ 21 21А. Как мы относимся к ЭВМ? 667 21Б Чего мы не затронули? 669 21В. Какими могли быть первые главы? 670 21Г. С чем мы познакомились? 671 Что можно сказать в заключение тем, кто одолел все двадцать глав этой книги, посвященных изложению самых разнообразных методов? Насколько опытнее они стали в вопросах обработки данных? Как можно трактовать содержание первых глав в свете сказанного в пос- ледних? Какие методы обработки не были затронуты и почему? Тем, кто проработал изложенный материал и добрался до этого места, наверное, хотелось бы получить краткие ответы на эти вопросы. 21А. КАК МЫ ОТНОСИМСЯ К ЭВМ? Мир сегодняшнего дня насыщается компьютерами. Этот процесс стремителен с точки зрения технических достижений, но является гораздо более медленным в направлении совершенствования отноше- ний человека с вычислительной машиной. В то время когда автор учился методам статистической обработки данных, ему приходилось пользоваться механическим арифмометром; при этом электропривод для него рассматривался как крупное достижение. (В настоящее время технические приспособления значительно совершеннее тех, которые стоили тогда почти половину стоимости нового автомобиля, можно приобрести за 20 долл, как некий предмет домашнего обихода.) Десять лет спустя автор принимал некоторое участие в разработке проекта Дж. фон Неймана по созданию компьютера — того первого устройст- ва, которое положило начало эпохе современных вычислительных 72*
668 Г лава 21 систем — больших, средних и малых. К концу второго десятилетия стали появляться первые большие пакеты статистических программ общего пользования (например, пакет программ Диксона BIOMED позднее BMD). В течение последующих двух десятилетий мы были свидетелями возникновения огромного числа разнообразных подходов, методов и программ статистической обработки данных. То, что былс в этой области новым десять лет назад, сейчас уже устарело, и невоз- можно предвидеть, что понадобится через десять лет. Однако в этой книге рассматривается только то, что можно сделать с помощью бумаги и карандаша,— это может быть миллиметровка или калька (если она есть под рукой), просто оборот конверта и набор цветных фломастеров или обычные авторучка и карандаш. Те, кто сочтет, что это шаг назад, будут неправы по следующей простой при- чине: многое из того, что мы в состоянии сделать с данными, можно сделать (с помощью карманного калькулятора или без него) ЗАДОЛГО ДО ТОГО, как мы найдем подходящую ЭВМ (не говоря уже о труд- ностях с вводом данных). И пройдет еще много времени, пока положе- ние изменится. Даже тогда, когда каждый сможет иметь доступ к ЭВМ из своего кабинета, вряд ли всё, с чем ему нужно будет работать в данный момент (необходимые программы и оборудование), окажется немедленно в его распоряжении. И сейчас, и в ближайшем обозримом будущем останется место для ручных вычислений. Сказанное, конечно, не ставит под сомнение полезность хорошего вычислительного устройства. Как только требуется обработать чуть больше данных, чем мы можем или хотим обработать вручную, оно становится необходимым. Но это не значит, что при этом оно становится очень удобным. Многие вещи, которым мы научились в этой книге, сравнительно новые. И пройдет еще немало времени, пока большинство вычислительных систем смогут обрабатывать данные методами, кото- рые мы хотели бы использовать. Внедрение нового всегда будет не- тривиальной задачей, и всегда будут необходимы определенные уси- лия, чтобы реализовать имеющиеся возможности. Однако в этом отношении имеются определенные перспективы. П. Веллеман при поддержке Национального научного фонда США со- бирает воедино различные алгоритмы и программы, соответствующие описанным в книге методам разведочного анализа данных; в ряде мест используются различные модификации пакета программ SNAP-IEDA (начало развития которого положено усилиями М Годфрея), и, нако- нец, ряд программ был создан с целью облегчить изучение настоящей книги (после появления ее предварительного издания). По всей види- мости, появятся и другие возможности пополнения пакетов программ, «вооружающих» вычислительные системы методами, изложенными в этой книге. Следует отметить, что характер данной книги, а также многие используемые в ней методы в значительной степени связаны с совре- менной вычислительной техникой. Чтобы сегодня понять, насколько хорош тот или иной элементарный метод обработки, обычно мало
Заключение 669 одного математического анализа, необходимы эксперименты на ЭВМ. ,Мы не упоминали о компьютере до этой главы, однако «духом» его пронизаны многие из страниц книги, 21 Б. ЧЕГО МЫ НЕ ЗАТРОНУЛИ? Если спросить различных исследователей (обладающих достаточ- ным опытом в обработке данных), какими статистическими методами они чаще всего пользуются, можно получить самые разные ответы. Большинство наверняка упомянут методы регрессии и дисперсионного анализа, но в специальных областях приложений вместо этих слов мы услышим другие: анализ таблиц сопряженности признаков, таблиц «гибели и размножения», таблиц биологических испытаний и даже факторный анализ. Чем же объяснить, что в данной книге даны лишь азы всех этих методов? Л1ы занимались подбором аппроксимаций, однако при этом почти каждый, кто знаком с математической статистикой, должен был ощу- щать, что «настоящая регрессия» — это множественная регрессия. Мы осуществляли анализ двумерных таблиц («строка-ПЛЮС-столбец») и даже распространили этот метод на более сложные модели, включаю- щие анализ трех факторов; однако большинство согласится с тем, что «настоящий дисперсионный анализ» начинается с того момента, когда нужно делать выбор между членами, определяющими ошибки, а именно этого мы не касались. Почему же мы даже не пытались углубиться в эти главные направления современного анализа данных? Этому есть несколько объяснений — все они выглядят достаточно убедительными, а некоторые, по-видимому, действительно правильны: <ф> наиболее «сильные» статистические методы традиционно рас- сматриваются как средство подтверждения уже сформулированных утверждений, а не как инструмент для разведочного анализа (хотя на- иболее важные области их применения лежат как раз в этой сфере); <ф> применение этих методов приводит к такому объему вычисле- ний, который мы обычно не согласны выполнить вручную; О часто довольно трудно понять, что в ряде этих методов является действительно перспективным и важным, а что нет; начало должно быть началом. Любые один-два из этих доводов могут служить достаточно веской причиной к тому, чтобы вообще не рассматривать здесь указанные методы. В то время когда работа, завершившаяся этой книгой, только начи- налась (в процессе подготовки к чтению курса лекций в 1968 г.), существовали лишь некоторые из тех приемов обработки, которые мы описывали на протяжении всей книги. Остальные были вызваны к жизни работой над курсом, а позднее над книгой. В ходе этой работы мы получили также много новых результатов и в отношении тради
670 Глава 21 ционных методов математической статистики, так что, наверное, ухе пора приняться за изложение наших взглядов и на эти методы — ца их применение как для разведочного анализа, так и для подтвержде- ния уже «нащупанных» закономерностей. Четверть века назад У. Кочрен сказал: «Регрессионный анализ -_ это тот раздел статистики, которому обучают хуже всего». Это утверж- дение до сих пор справедливо, но, несмотря на это, множественный регрессионный анализ применяется, может быть, чаще других ста- тистических методов. На его счету много замечательных достижений» но в то же время его использование привело к многим заблуждениям. Он продолжает оставаться одним из основных методов статистики» методом, который совершенно необходимо знать, занимаясь обработкой данных,— редко кто обходится без него. В то же время не стоит пола- гать, что очень легко овладеть этим методом настолько, чтобы свободно пользоваться им на практике, принимая все необходимые меры пре- досторожности для избежания ошибок. Это еще одна причина, по которой мы не касались многих деталей регрессионного анализа в дан- ной книге. (По этому вопросу см. Mosteller F., Tukey J. W. Data Ana- lysis and regression: A second course in statistics. Addison-Wesley, Rea- ding, Mass., 1977.) 21 В. КАКИМИ МОГЛИ БЫТЬ ПЕРВЫЕ ГЛАВЫ? Любой учебник, как и курс лекций, имеет начало, середину и ко- нец. Он может содержать также перекрестные связи, т. е. ссылки, адресованные к пройденному или будущему материалу, однако часто это бывает в ущерб ясности изложения. Мы начали с изучения элементарных приемов, включая способы графического изображения рассеяния точек, и вплоть до гл. 7 и 8 даже не затрагивали вопросы, связанные со сглаживанием и усредне- нием. Если бы мы писали вторую часть курса разведочного анализа данных, то мы (подобно тому как это делается в курсах французского языка для высшей школы) прошли бы те же основы на более глубоком уровне, а именно, изучая диаграммы рассеяния, мы привлекли бы материал гл. 7 и 8. Действительно, владея приемами усреднения и сглаживания и даже построения силуэтов (см. гл. 9), вполне естест- венно (и полезно) для каждой диаграммы рассеяния вычертить один или несколько графиков средних значений (вычисление которых —- всегда стандартная процедура) или плавных компонент (вычисление которых обычно основано на ряде дополнительных суждений). Наш первый вывод состоял в том, что уже простое нанесение точек на график приносит достаточно ценные плоды. Однако уже следующий вывод (возможно, не столь акцентированный) говорил о том, что мы часто не можем достаточно хорошо разобраться в данных, пока не проведем усреднение или сглаживание. Простого графического изоб- ражения точек здесь уже оказывалось недостаточно.
Заключение 671 И диаграммы рассеяния, и их плавная компонента или кривая средних полезны при анализе данных. Диаграмма рассеяния по- прежнему остается лучшим способом для обнаружения совершенно непредсказуемого, в то время как плавная компонента или кривая средних — лучший способ узнать более или менее ожидаемую ситуа- цию. (И наконец, анализ неровностей может оказаться эффективным способом распознавания в том случае, когда ни диаграмма рассеяния, ни плавная компонента не дают необходимой ясности.) Просматривая еще раз все предложенные в книге методы, мы можем, выработать более ясное и сбалансированное представление об их совокупности и открыть для себя новые области их применения. В частности, методы аппроксимации, изложенные в гл. 10 и 11, можно использовать для того, чтобы формализовать и упростить изображе- ние силуэта диаграмм рассеяния. Результаты при этом получаются те же самые, но вычисления становятся проще и яснее, а при наличии программы для компьютера ее можно использовать для обеих целей — как для аппроксимации, так и построения силуэтов. Это, конечно, не единственные примеры. Любой вдумчивый чи- татель найдет еще много других, если будет самостоятельно двигаться дальше по пути полного освоения и окончательного овладения комп- лексом тех методов, которые мы изучали в некотором отрыве друг от друга. 21 Г. С ЧЕМ МЫ ПОЗНАКОМИЛИСЬ? Если попытаться установить структуру изложения материала в этой книге, то обнаружатся перекрестные связи, которые указаны в пред- лагаемом ниже перечне (где в скобках приведены номера глав): Выборки данных (1, 2, 3, 4, 15) Аппроксимирующие прямые и тренды (5, 6, 7, 8) Плавные компоненты и неровности (7, 8, 9, 16, 17) Диаграммы рассеяния (8, 9, 17) Двухфакторный анализ (10, 11, 12, 13) Данные в виде подсчетов (встречаются повсеместно, особенно в гл. 17, 18, 19) Этот перечень поможет читателям составить по крайней мере самое общее представление о том, что было сказано в целом по каждому из этих крупных разделов. Некоторые, кроме того, сочтут полезным проанализировать далее, где эти разделы перекрываются и как они «вязаны друг с другом.
ТЕРМИНЫ И ОБОЗНАЧЕНИЯ (обозначения, начинающиеся со знаков препинания, цифр и значков *, #, см. в конце) Анализ выровненных графиков {untilted analysis)-, при сглаживании, построении схематических диаграмм или силуэтов — анализ пар зна- чений (х, у — Ьх) для подходящего Ь, результаты которого затем восстанавливают к виду (х, у). Анализ произведений-отношений {product-ratio analysis)-, вычисле- ние и использование графиков произведения-отношения; исследование зависимости квадратного корня из ПРОИЗВЕДЕНИЯ от логарифма ОТНОШЕНИЯ. Аппроксимация (fit): неполное описание данных, обычно получаемое путем выбора из класса возможных описаний, иногда в результате определенной процедуры. Аппроксимация «строка-НА-столбец» (row-TIMES-column fit): «НА-аппроксимация», аппроксимация вида «(стр.*) X (стл*)» (обоб- щения см. в разд. 12А и 13Г). Аппроксимация «строка-ПЛЮС-столбец» (row-PLUS-column fit): «ПЛЮС-аппроксимация», аппроксимация вида «всё ПЛЮС стр ПЛЮС стл» (обобщения см. в разд. 12А и 13Г). Б (D): буквенное значение на глубине х/8 (1+tf), где е — целая часть от глубины В (восьмой); грубо говоря, шестнадцатая. Базисный подсчет {basic count): число, характеризующее изучае- мый объект,— в отличие от числа ячеек (случаев, отдельных элементов, видов), для которых наблюдалось определенное число появлений. Барьер {fence): внутренние барьеры находятся на один шаг снару- жи сгибов, наружные — на два шага. Барьерно-буквенное представление {fenced letter display): довольно полное буквенное представление сводки данных, где имеются значе- ния барьеров и нанесены названия внешних точек. Блуждающая схематическая диаграмма {wandering schematic plot): представление выборки пар (х, у), содержащее трассы из сгибов и ме- дианную трассу и примыкающий многоугольник (точки, лежащие вне этого многоугольника, просто наносятся и идентифицируются).
Заключение 673 Б-трасса (D-trace): гладкая кривая, характеризующая поведение Б-значений слоев; обычно проходит через точки, полученные в ре- зультате сглаживания разностей Вн — Бн или Бв — Вв и вычитания или прибавления результата сглаживания к соответствующей В-трассе. Буквенная трасса (letter trace)', трасса, которая разделяет точки примерно как буквенное значение, делая это не только в целом, но и в какой-то степени локально. Буквенное значение (letter value): одно из значений, обозначаемых А, Б, В, С, М, С, В, Б, А, Я,. . ., где глубина каждой буквы на- ходится почти на середине расстояния от глубины соседнего в направ- лении к медиане буквенного значения до глубины 1 (соответствующей крайнему значению) (крайние значения и т. п. иногда тоже сюда вклю- чаются). Буквенное представление (letter display) см. Буквенно-числовое представление. Буквенно-числовое представление (letter-value display): до некото- рой степени формализованная диаграмма из буквенных значений (она может включать: положение барьеров, число внешних точек, средние значения, названия отдельных точек, значения ширины и псевдоши- рины). Буквенный разрез (порог) (letter cut): вертикальный разрез, опре- деленный незначительно сдвинутым к медиане буквенным значением. Б-ширина (D-spread): верхнее Б-значение МИНУС нижнее Б-зна- чение. В (Е): буквенное значение на глубине х/2 (1+й), где h — целая часть от глубины сгиба; грубо говоря, восьмая. В-значение (E-value) см. В. В-коробка (Е-box): фигура, образованная В-трассами и В-разре- зами (см. Буквенная трасса, Буквенный разрез). Внешнее значение (outside value): значение, расположенное за пределами внутренних барьеров (а если мы вводим и «отскакиваю- щие» точки, то между внутренними и наружными барьерами). Внешняя точка (outside point): точка, лежащая вне многоугольника внутренних барьеров. Всё (all): сокращение для значения общего члена, т. е. величины, которая входит (в виде слагаемого) во все значения аппроксимации. В-трасса (E-trace): гладкая кривая, указывающая поведение В-значений в слоях; обычно проходит через точки, получаемые сгла- живанием разностей С„ — Вн или Вв — Св и вычитанием или прибав- лением результата к подходящей трассе из сгибов.
674 Глава 21 В-ширина (E-spread): верхнее В-значение МИНУС нижнее В-значе- ние. Выборка (batch): совокупность чисел, имеющих одинаковый смысл независимо от того, как они были получены (совершенно необязатель- но в статистическом смысле «выборки»). Выровненный (график) (untilted): такой, что вычитание какого угодно Ьх из у не делает график (х, у) сколько-нибудь более горизон- тальным. Г (Н): при сглаживании — обозначение ганнирования (см. Ганни- рование). Ганнирование (hanning): процесс сглаживания, который можно описать по-разному: как результат 1) двух повторений процедуры скользящего среднего из двух значений; 2) вычисления среднего арифметического из каждого данного значения и его скачущего сред- него; 3) применения скользящего среднего с весами 1/4, 1/2, 1/4. Гауссовская форма распределения (Gaussian shape): все распреде- ления, получаемые из выражения (\IVr2n)e~x,/2dx с помощью линейного изменения масштаба и положения. Гауссовское стандартное распределение (Gaussian reference): гаус- совская форма распределения, рассматриваемая как объект, относи- тельно которого мы оцениваем отклонения (почти всегда ненулевые) встречающихся в действительности распределений. Глубина (depth): меньший из двух рангов (при ранжировании вверх и вниз). График произведения-отношения (product-ratio plot): график зави- симости величины (базисный подсчет) (полный ранг сверху) от 1о§Д(базисный подсчет) / (полный ранг сверху)]. Двойное сглаживание (twicing): сглаживание с помощью того же метода, который использовался для получения плавной компоненты (и неровностей) в первый раз. Двойной корень (double root): У2+4 (наблюденный подсчет), иногда У1 +4 (подогнанный подсчет). Двойной св-логарифм (double flog) см. дсв-логарифм. Двойные линии (double lines): использованы в таблицах и разделяют величины, по которым путем сложения можно получить исходные дан- ные. Двухфакторная диаграмма (two-way plot): представление аппрокси- мации с помощью двух семейств прямых — каждому фактору соответ- ствует одно семейство прямых, каждая прямая — одному значению»
Заключение 675 .фактора, так что ^/-координата каждой точки пересечения совпадает с соответствующим значением аппроксимации. Двухфакторная диаграмма остатков (two-way plot of residuals)} закодированные остатки, которые наносятся в местах соответствующих пересечений двухфакторной диаграммы. Двухфакторная схематическая диаграмма (two-way schematic plot) см. Схематическая (x, ^-диаграмма. Двухфакторный анализ (two-way analysis): анализ откликов, зави- сящих от двух факторов. Диагностическая диаграмма (diagnostic plot): после «ПЛЮС-ана- лиза» — диаграмма остатков в зависимости от сравнительных зна- чений. Добавочная строка (row-extra): дополнительная величина, завися- щая только от строки (часто появляется от перемножения постоянной и столбца). Доб стл (col-extra): дополнительная величина, зависящая от столб- ца. Доля подсчета (counted fraction): дробь, получаемая в результате подсчета общего числа наблюдений и числа «успехов» и последующего вычисления отношения второго к первому. дев-логарифм (//log): результат двойной свертки логарифма; двой- ной св-логарифм, линейная комбинация четырех членов (см. опреде- ление в разд. 15Д). Закодированный остаток (coded residual): изображение примерного значения остатка с помощью одного из специальных обозначений (©, О, °, •, +, и т. д.). Интерполированный ранг (interpolated rank): значение при интер- полированном ранге i+f (где i — целое число, / — дробь) равно <1—f)xt+fxi+i, где ранг xt равен i, а ранг xi+i равен Исправленная плотность (adjusted density): в гл. 20 — эмпирическая плотность, исправленная за наблюденную кривизну. Количество (amount): значение, которое не может быть меньше нуля и не является подсчетом. Координата (coordinate): функция положения точки, часто задавае- мая своими трассами уровня. Корень (root): здесь квадратный корень. Коэффициент зависимости (dependency ratio): (фактическое зна- чение МИНУС медиана) / (наибольшее положительное значение МИНУС медиана), если эта величина неотрицательна, в противном •случае знаменатель заменяют на (медиана МИНУС наибольшее отри- цательное значение).
§76 Глава 21 Крайнее значение (extreme): наибольшее или наименьшее значение в выборке (его глубина равна 1, поэтому оно часто так и обозначается: «1»). Кросс-медиана (cross median): точка (часто не находящаяся среди данных), каждая координата которой является медианой соответст- вующих координат заданных точек. Лестница преобразований (ladder of expressions): возрастающая последовательность степеней (сначала отрицательные степени, затем логарифм, потом положительные степени). Линия уровня (level curve): кривая, вдоль которой некоторая функ- ция (обычно какая-то координата) принимает постоянное значение (иногда ее называют кривой уровня). Ломаная из медиан (broken median): горизонтальные отрезки ме- диан каждого слоя (заданного буквенными разрезами) и те части бук- венных разрезов, которые необходимы для соединения этих отрезков. ig (logp,): десятичный логарифм (но основанию 10). In (log,): натуральный (или неперов) логарифм (по основанию 2,7i828...: hi п=2,30259 1g и). log: логарифм (большей частью по основанию 10). М (М): в качестве буквенного значения — медиана. Математическая плотность (mathematical density): предельное зна- чение средней плотности (в случае, когда ширина ячейки -> 0, а общее число подсчетов --> оо). Медиана (median): то значение, глубина которого равна J/2 (1+п), а в выборке всего п значений; срединное значение всех величин, когда они расположены в порядке убывания или возрастания. Медианная трасса (median trace): срединная трасса, полученная с помощью медиан (как большая часть срединных трасс). Межевая таблица (break table): таблица, не нуждающаяся в интер- поляции, где используются «межи», т. е. значения аргумента, при которых меняется значение функции (такие таблицы называют также «кр итическим и»). Многоугольник барьеров (fence polygon): в плоскости — многоуголь- ник, определенный всеми возможными внутренними барьерами. Модифицированные (modified) (сгибы, медианы и т. д.): результат взвешивания точных нулей с помощью числа 1/2. «НА-аппроксимация» (TIMES fit): аппроксимация «строка-НА- столбец» (или одно из ее простейших обобщений). Наклон (tilt): график данных (х, у) имеет наклон, если для устра- нения видимого наклона нужно из у вычесть некоторую величину Ьх (Ь=£0).
Заключение 677 Нарезаемая координата (sliced coordinate)-, служит, для определения буквенных разрезов и трасс. Неровности (rough), данные МИНУС плавная компонента. Неровности корней (root rough): неровности квадратных корней из заданных подсчетов. Обратная величина (reciprocal): результат деления единицы на данное число (и, следовательно, хотя это несколько неточно, результат деления любой выбранной константы на данное число). Общий член (common term): нечто, включаемое в виде слагаемого во все значения аппроксимации. Октавы (octaves): значения (в частности, подсчетов), лежащие между А и 2А (для некоторого А), или интервалы такого рода. Остаток (residual): результат вычитания аппроксимации из данных; таким образом, это то, что осталось необъясненным после введения неполного описания (аппроксимации). Отклик (response): переменная (или значение переменной), о которой мы предполагаем (по крайней мере временно или очень приблизитель- но), что она связана с определенными факторами или обстоятельствами. Отклонения (balances): переменные, которые могут принимать и положительные, и отрицательные значения и не имеют каких-либо очевидных границ изменения. Отметка (grade): любая переменная, значения которой упорядочены, но которую нежелательно рассматривать как числовую. Отношение (RATIO): в анализе произведений-отношений — базис- ный подсчет, деленный на п-ранг (сверху). Отрицательная обратная величина (negative reciprocal): результат деления некоторой выбранной отрицательной константы на данное число. Отскакивающая (точка) (far out): точка (значение) за пределами на- ружных барьеров. П (R): запись «ЗП» означает повторение усреднения по тройкам. п (h): после цифры означает «с половиной». Плавная компонента (smooth): последовательность значений, меня- ющихся более плавно, чем данные, и вычисляемая из них. Плавная компонента корней (root smooth): результат сглаживания квадратных корней из заданных подсчетов. Плотность (density) см. Средняя плотность, Математическая плот- ность. «ПЛЮС-аппроксимация» (PLUS fit): аппроксимация «строка- ПЛЮС-столбец» (или одно из ее простейших обобщений).
678 Глам 21 «ПЛЮС-один»-аппроксимация (PLUS-one fit)-, аппроксимация, которая может быть представлена в одном из видов (и, следователь- но, в обоих): всё ПЛЮС стр ПЛЮС стл ПЛЮС (стр) (стл)/постоянная, постоянная ПЛЮС (стр*) (стл *). «ПЛЮС-один»-диаграмма (PLUS-one plot)-, двухфакторная диаг- рамма, соответствующая «ПЛЮС-один»-аппроксимации (содержит одно семейство параллельных прямых и одно семейство прямых с общей точкой, когда мы имеем дело с исходными откликами). «ПЛЮС-один»-диаграмма остатков (PLUS-one plot of residuals): закодированные остатки, помещенные в точках пересечения прямых «ПЛЮС-оди н»-д иа гр аммы. Подсчет (count): целое число (положительное или равное нулю), полученное в результате подсчета наблюдений. Подсчет внутрь (counting in): приписывание крайнему значению ранга 1, следующему значению — ранга 2 и т. д. Полная доля (completed fraction): отношение полного ранга к обще- му числу случаев. Полный ранг (completed rank) см. п-ранг. Полуоктавные значения (half-octave values): возрастающая последо- вательность, в которой за два шага происходит увеличение на октаву (например, 1, 2, 3, 4, 6, 8, 12, 16, . . .). Получение повторных неровностей (reroughing): процедура, заклю- чающаяся в сглаживании первоначальных неровностей и прибавлении результата к исходным сглаженным данным. Порог (cutting value): один из элементов последовательности зна- чений х, выбранный для того, чтобы разделить выборку пар (х, у) на слои. Последовательность (sequence): упорядоченное множество данных (х, у), в котором х изменяется с постоянным шагом (х может не при- сутствовать в явном виде). Правило концевых значений (end-value rule): использование выра- жения «^—медиана (xi, у2, Зу2—Яуз)» в качестве сглаженного значе- ния на конце (х — данные, у — плавная компонента). п-ранг (c-rank): наибольший ранг, приписанный данному базисному подсчету (или размеру). Преобразование (re-expression): запись той же информации в другом виде, например замена у на log у. Примыкающая точка (adjacent point): точка, лежащая на примыка- ющем многоугольнике.
Заключение 679 Примыкающее значение (adjacent value)', значение, которое нахо- дится ближе всех к внутреннему барьеру, но все же внутри его. Примыкающий многоугольник (adjacent polygon)', многоугольник, содержащий в точности все не внешние точки. Приращение буквенных значений (letter-value difference): разность между соседними буквенными значениями (скажем, М—С,„ Св—М). Произведение (PRODUCT): в анализе произведений-отношений — базисный подсчет, умноженный на п-ранг (сверху). Прямая уровня (level line): прямая, на которой некоторая функция сохраняет постоянное значение. 25%-псевдоширина (25% pseudospread): расстояние между 25%- ными точками для распределения стандартной формы (обычно гаус- совской), вычисляемое по наблюдаемому расстоянию между р%- ными точками. Р (S): при сглаживании способ обработки вершин или впадин дли- ной в два значения путем расщепления (splitting) последовательности по середине этого отрезка и применения к каждой части сначала пра- вила концевых значений, а затем к результату — сглаживания по ал- горитму ЗП. Размах (range): наибольшее значение МИНУС наименьшее. Ранг (rank): порядковый номер значений после размещения наблю- денных значений либо в неубывающем порядке (ранг снизу), либо в порядке невозрастающем (ранг сверху). Растянутый стебель с листьями (stretched stem-and-leaf): представ- ление данных в виде стебля с листьями, где на каждое значение при- ходится два стебля, обозначаемых «*» и «•». Расщепленный подсчет (split count): число наблюдений, меньших порога, ПЛЮС половина числа наблюдении, равных порогу. РР (SS): процедура Р, примененная последовательно дважды. С (Н) см. Сгиб. Свернутый корень (folded root) см. св-корень. Свернутый логарифм (folded log) см. св-логарифм. Свертка (plurality): разность между долей и ее дополнением: /-(1-[) = 2/-1. св-корень (froot): свернутый квадратный корень, т. е. К2 (доля наблюдений выше порога) — 1^2 (доля наблюдений ниже порога). св-логарифм (flog): свернутый логарифм, т. е.
680 Глава 21 l/2 In (тех долей, что «попали») — —l/2 in (доля тех долей, что не «попали»), или, что лучше, In число случаев «попадания» 4- 1/в— 1п К число случаев «не- попадания» + Л/в. Сгиб (hinge1*): буквенное значение на глубине 1/2(1+т), где т — целая часть от глубины медианы, грубо говоря, четверть (квартиль). Сглаживание (smoother): процесс разделения данной последователь- ности на плавную компоненту и неровности (при сложении которых вновь получается данная последовательность). Сдвиг (start): постоянная, прибавляемая к подсчету перед вычис- лением логарифма или корня (или других функций). Наиболее рас- пространен сдвиг на 1/в. Иногда могут применяться значения 1/10, 1/4 или 1. Сдвинутый подсчет (started count): в анализе произведений-отно- шений — базисный подсчет, увеличенный на единицу (вообще — базисный подсчет, увеличенный на какую-то константу). Сжатая аппроксимация (condensed fit): результат объединения ап- проксимаций и вычисления медиан остатков, когда подогнанные зна- чения «стр» (или «стл») получаются слишком близкими друг к другу. Сжатые остатки (condensed residuals) см. Сжатая аппроксимация. Сжатый стебель с листьями (squeezed stem-and-leaf display): пред- ставление данных, в котором каждый пронумерованный стебель раз- делен на пять частей, обычно обозначаемых «*», «д», «ч», «ш», «•». С-значение (Н-value) см. С. Силуэт (delineation): множество сглаженных буквенных трасс, пересекаемое буквенными разрезами, использованными в начале по- строения трасс; изображение трасс и разрезов (обычно соответствую- щих буквам Б, В, С, М, С, В, Б). Скачущее среднее (skip mean): при сглаживании величина (x7_i+ 4-X/+i)/2, приписываемая номеру /. Скользящая медиана по тройкам (running median of 3): в последова- тельности для каждого i берется медиана трех значений: xz_(, xf и xi+i. Слой (slice): те пары (х, у), у которых значения х находятся между выбранными значениями порога. Смешанные листья (mixed leaves): листья, которые входят в одно и то же представление данных в виде стебля с листьями, но состоят из разного числа знаков. 11 Буквально: петля (на сгибах створок оконных ставень).— Прим, ред.
Заключение 68! Смещение (shift): смещение значения относительно точки максимума. Сокращенный силуэт (reduced delineation): схема, на которой изоб- ражены: В-коробка — сплошными линиями, М-трасса и М-разрез — пунктиром внутри коробки, С-трассы и С-разрезы — пунктиром вне коробки. Сопоставление (re-matching): соединение в пары заданных значений у с заданными значениями х с целью получить выборку с наиболее сильной (позитивной или негативной) зависимостью. ср (mid): среднее арифметическое из двух буквенных значений, например срС (из сгибов), срВ (из восьмых), ср 1 (из крайних значений). с.р. (ss): «сдвинутый и расщепленный» (подсчет). Сравнительные значения (comparison values): величины, равные (стр) (стл)/(всё) для «ПЛЮС-аппроксимации». с.р.-доля (ss-fraction): значение выражения «[(подсчет наблюдений, меньших порога) + (подсчет наблюдений, равных порогу) + 1/в], деленное на (общий подсчет + х/3)». Срединная трасса (middle trace): трасса, относительно которой при- мерно половина всех точек расположена выше, а другая половина ниже; обычно является результатом сглаживания кросс-медиан мно- жества слоев. Средняя плотность (average density): (доля подсчетов) / (размер ячейки). с.р.-подсчет (ss-count): значение выражения «(подсчет наблюдений, меньших порога) + 1/2 (подсчет наблюдений, равных порогу) + х/в». Стандартные разрезы (пороги) (standard cutting points): применя- ются для кодирования остатков и расположены на расстояниях в одну или две С-ширины наружу от сгибов. (Не путать с барьерами. Часто используются нестандартные разрезы.) Стебель с листьями (stem-and-leaf display): обобщенное двухчисловое представление данных, где левая часть представляемых значений да- ется значением стебля, а правая часть образует лист; листья записыва- ются непосредственно друг за другом, если все они состоят из одной цифры (одноразрядные), и отделяются запятыми, если в некоторых из них или во всех две или более цифр. стл (col): часто используется для обозначения величины, зависящей только от столбца. стр (row): часто означает величину, зависящую только от строки. Схематическая диаграмма (schematic plot): схематическое представ- ление выборки, включающее «ящик» со сгибами и поперечной чертой на медиане, пунктирными «усами», доведенными вплоть до примыкаю- щих значений и заканчивающимися (пунктирными) поперечными чер- точками; все внешние значения снабжены названиями.
682 Глава 21 Схематическая (х, у)-диаграмма {schematic (х, у) plot): схематике, ское представление выборки, включающее В-коробку, примыкающий многоугольник и идентифицированные внешние точки. С-ширина (H-spread): верхний сгиб МИНУС нижний сгиб. Точка максимума (peak): горизонтальная координата наивысшей точки аппроксимирующей кривой (обычно не попадает в центр ячейки). Трасса зависимости {dependency trace): трасса коэффициентов зави- симости (обычно сглаженная), построенная как функция расположе- ния слоя. Трасса из сгибов {hinge trace): гладкая кривая, отражающая пове- дение сгибов слоев; обычно проходит через точки, получаемые сгла- живанием разностей М—Си или Св—М и вычитанием или прибав- лением этого результата к медианной трассе. Трасса уровня (level trace): прямая уровня или линия уровня. Трассовая координата {traced coordinate): координата, по которой нарезаются слои и определяется ломаная из медиан и т. д. Трехсреднее (trimean): х/4(нижний сгиб) + 1/2(медиана) + */4 (верх- ний сгиб). Трехфакторный анализ (three-way analysis): анализ откликов, за- висящих от трех факторов. Тривиальное преобразование {trivial re-expression): использование a-\-bx вместо х при некоторых фиксированных значениях а и Ь. Удаление медиан (median removal) см. Шлифовка медианами. Фактор (factor): обстоятельство, которое может принимать одноиэ множества заданных значений. Форма распределения (shape of distribution): то общее, что присуще распределениям величин, получаемых в результате тривиальных преобразований данной величины. Функция распределения (cumulative function): формула или таб- лица, задающая накопленные доли в зависимое ги от порога. Целая часть (integer part): если i — целое число, a f — дробное (0</< 1), то целой частью i+f является i. Четыре шага (медианной шлифовки) (four steps of median polish): часто удовлетворительный анализ может быть достигнут удалением медиан строк и столбцов (попеременно) по два раза (эту процедуру называют также «двумя циклами медианной шлифовки».) Шаг (step): величина, равная 1,5 (С-ширина). Шлифовка медианами (median polish): процесс поочередного на- хождения, добавления в другом месте и вычитания здесь медиан.
Заключение 683 (В двумерных таблицах — поочередно медиан строк и медиан столб- цов.) Штриховка (blurring)-, изображение сглаженных значений в виде центров вертикальных отрезков (тщательно выбранной длины). эфф (eff): сокращенное обозначение «эффекта». Эффект (effect): часть наблюденного значения, связанная в некото- рым фактором (в более общем случае — с комбинацией факторов). Эффект столбца (column effect): см. Эффект. Эффект строки (row effect) см. Эффект. Ячейка (bin): клетка или интервал на ш^але, в которые отдельные значения могут попасть или не попасть. «Ящик с усами» (box-and-whisker plot): график в виде прямоуголь- ника («ящик»), построенного от сгиба до сгиба и имеющего попереч- ную черту на медиане, с «усами» до а) крайних значений, б) самых близ- ких к медиане значений из тех, что снабжены названиями на рисунке, в) примыкающих значений. «,»: при сглаживании применяется для отделения обозначений, используемых при вычислении повторных неровностей. обозначение подсчета, обычно общего числа значений или объема выборки; порядковый номер ячейки. *: используется для указания места, которое может быть запол- нено. *: когда после этого значка следует символ буквенного значения (например, *В, *-барьеры, *С, *-сгиб, *-буквенное значение, *Мит. д.), то это означает, что в каждом случае точные нули были заменены на 1/2. 1: в буквенных значениях — крайнее значение. 3: при сглаживании — скользящие медианы по тройкам. 5-числовая сводка (5-number summary): крайние значения, сгибы и медианы, т. е. значения 1СМС1. 7-числовая сводка (7-number summary): значения 1ВСМСВ1. 9-числовая сводка (9-number summary): значения 1БВСМСВБ1.
ПРЕРМЕТНЫЙ УКАЗАТЕЛЬ Анализ двухфакторный 333, 341, 675 — многих переменных 323 — подтверждающий 5, 10, 19, 38, 115 — разведочный 5, 8, 10, 18, 19, 38 — «строка-НА-столбец» 347, 350 — «строка-ПЛЮС-столбец» 334, 338, 343, 347, 352, 362 — трех- и многофакторный 446, 453, 459, 482 Аномальный закон больших чисел 32 Аппроксимации проверка 370, 372 — расширенные 435, 441 — сжатие 390 — упрощения 440—443 Аппроксимация 137 138. 148 152, 189, 215 342, 370, 381, 558, 672 — «всё-ПЛЮС-сгр-ПЛЮС-стл-ПЛЮС- .(стр) (стл) const -——-D 359 все — дополнительная 405—407, 435—440, 623 — плавной компоненты 572, 575 — сглаженных корней 557 , 558 — «строка-НА-столбец» 353, 361, 401— 404, 417, 424, 434, 672, 676 — «строка-НА-столбец-ПЛЮС-един» 423 — «строка-ПЛЮС-столбец» 338—342, 361, 376, 401—404, 407, 417, 437, 672, 677 — «строка - ПЛЮС-столбец- ПЛ ЮС-оди н» 359, 361, 402 , 423—432, 678 Аппроксимирующая прямая 146—152, 154 164, 183, 435, 483, 560, 561 ----- дополнительная 150, 151 А-трассы 312 Базисный подсчет наименьший 607, 613 -----нулевой 608 Базисных подсчетов сдвиг 609—612 Банковские вклады [пример! 288—300, 315—318 Барьерно-буквенное представление 61, 672 Барьеры 61, 229, 233. 298, 317, 672 Б-трасса 312 673 Буквенная трасса 673 Буквенно-числовое представление 50, 65, 91, 96, 438, 634, 673 --- с барьерами 65, 66 Буквенные значения 70, 272, 283, 323 548, 549, 571, 673 — пороги (разрезы) 272, 273, 673 Буквенных значений приращения 283 Валовые доходы [пример] 624—626 Величины 230, 231 Внешние значения 61—63, 232, 673 — точки 232, 233, 317 , 318, 673 Вогнутость вверх и вниз 181 Временные ряды 216 Всё 337, 673 В-трассы 312, 316, 673 Выборка 10 22, 674 Выборки пар (х, у) 325 — представление 30—32, 36. 46, 114— 116 — силуэт см. Силуэт — симметричность 95 — чисел 325 Выпрямление 167, 178 Выпуклость кривой 182, 204 Выравнивание 147, 158, 164—166, 674 Высоты вулканов [пример] 58, 89—92, 95 — местности | пример] 37, 58 Вычислительные устройства 667—669 Вычитание 143, 144, 147—151, 164, 369 Ганнирование 237—240, 527, 536, 572, 674 Глубина 47, 71, 674 Графики 59, 137, 140, 166 — отношения числа рождений к числу смертей 159—163 Графиков выбор 68, 69 — выпрямление 178 — масштабы 141, 142, 164 — построение 60, 134—142, 158 — форма 141 Группирование по ячейкам 545, 624, 625, 651, 652, 656 660 Двойной корень 578—583, 674 — св-логарифм см. дсв-логарифм
Предметный указатель 68S Двойные линии 336, 674 Двумерные таблицы подсчетов 512, 520 Двухфакторная диаграмма 352, 353, 382, 433, 674 __ — аппроксимации 380, 381 __ — остатков 354, 356, 385, 391, 675 __ таблица остатков 334 __ — откликов 333, 421, 442 Двухфакторного анализа методы 367 Диагностическая диаграмма 358, 401, 413, 462, 675 Диаграмма рассеяния 670, 671 Дискретность 652, 653 Длина предплечья [пример] 547—549, 558—563, 584—586 Добыча угля см. Производство угля Долей подсчетов последовательность 497 -----преобразования 501, 502, 510, 621, 623, 630 — — три шкалы 500 Доли подсчетов 14, 74, 496, 499, 6J9, 653, 675 -----свернутые 501, 502 Доля накопленная 654 — полная 606, 678 дсв-логарифм 517—524, 675 Жалованье губернаторов [пример] 41, 288—300, 315—318, 322 Задержанные вклады [пример] 219, 247, 259—266 Зипфа закон 593 Исп. газ, Исп. эл. 269, 275, 484—491 ---------- силуэт 313 Квадраты 106 Кодирование остатков 385, 387, 675 — плавной компоненты 398 Количество 74, 99, 107, 179, 400, 675 Концевое сглаживание см. Сглаживание на концах Концевые значения 227—229, 250, 252, 678 Координаты 469, 479, 483. 675, 677 Копирование 227, 240 Корней быстрое вычисление 85, 106 — подсчетов неровности 550. 552, 553, 555. 556 — — плавная компонента 548, 552— 554, 556, 559, 677 -----сглаживание 548, 553, 555, 557 Корни (квадратные) 85, 89, 179 , 548, 550 Крайние значения 46, 676 Кросс-медиана 276, 476, 477, 676 Кросс-сгиб 277, 280 Коэффициент зависимости 488—491, 675 Логарифмы 75, 104, 108. 179, 348, 548, — двузначные 77 — многозначные 77, 84, 85 — количеств и подсчетов 74, 179 — однозначные 77 — сглаженных корней 560, 572, 576 — сдвинутые 249 Логарифмов быстрое вычисление 77 — связь со степенями 105, 106 Ломаная из медиан 275, 676 ---сгибов 277, 278, 280, 281 Максимум гладкий, симметричный 557 — распределения 557 Максимума нахождение 558, 559, 572к 585 — желательное положе..не 584—589 Математическая плотность см. Плот- ность Медиан выравнивание 125, 126 — удаление см. Удаление медиан и Шлифовка медианами Медианная трасса 277, 293, 295, 297, 676 Медианы 47, 72, 478, 495, 676 — модифицированные 231 — повторные 218 — полуграфические 114, 116 — скользящие 217, 218, 680 Межевая таблица 77, 78, 86—88, 67в Миллиметровки и кальки использование 59, 60, 469 М-трасса 314, 316 НА-аппроксимация см. Аппроксимация «строка-Н А-столбец» Наклон 120, 123, 165, 166, 299, 676 Наклона уничтожение см. Выравнвание- Население США [пример] 153, 182 Населенные пункты [пример] 324—329, 472—477, 480—482 Населения Англии и Уэльса график 149- — — — — остатки 150 — США графики 153—158, 185 ---логарифмы 99, 100, 182 --- сводка 71 Начало отсчета 184, 199, 200 Неполное описание 137, 146—148, 338- Непрерывность 652, 653 Неровности 215, 230, 393, 527, 544,. 547—549. 677
686 Предметный указатель — корней из подсчетов 546, 572, 573, 677 — повторные 527, 529, 538, 678 Нули 104, 344, 400, 404, 498, 608 Нуль точный 231 -(Обратного нажима» метод 642, 648 Обратные величины 86, 106, 677 ----времен 91—94 ----корней подсчетов 576, 577 Обратный сдвиг 579 Обстоятельство 138, 484 Общее см. Общий член Общий член 337, 339, 343, 358, 677 Округление чисел 20 Октавы 677 — для логарифмов 554, 590 Особое значение 424, 426, 443 Особый отклик 424 Остатки 127, 137, 146, 151, 152, 155— 157, 230, 252, 382, 677 — как основа выбора преобразования 252 — приближенные 126 Остатков карта 163 — анализ 613 — двухфакторная таблица 334 — диаграмма 429 — кодирование см. Кодирование — сжатие 390 Отклик 137, 484, 677 Отклонение 74, 107, 179, 677 Отметки 74, 677 Отношение рожд./смрт. [пример] 159— 164 Отскакивающие значения 61—63, 72, 232, 233 — точки 232, 677 Плавная компонента 215, 221, 226, 529, 544, 677 ----с разрывом 243 Плавной компоненты изображение 253 — — сглаживание 221 Плотность квадратичная 657, 658 — линейная 657, 658 — математическая 653, 657, 658, 664, 676 — постоянная 657 — распределения 656 — средняя 653, 657, 658, 681 Площадей округов буквенно-числовое представление с барьерами 65, 71 ----логарифмы 83, 642—644, 648 ----среднее и 25%-псевдоширина 640, 641 ----стебли с листьями 29, 81, 82 ------ схематическая диаграмма 65 «ПЛЮС-аппроксимация» см. Аппрокси- мация «строка-ПЛЮС-столбец» «ПЛЮС-один-аппроксимация» см. Ап- проксимация «строка-ПЛЮС-столбец- ПЛЮС-один» «ПЛЮС-один»-диаграмма 427, 428, 432 — остатков 429 Подержанные автомобили [пример] 23 25, 26, 35, 40, 48, 51 Подсчетов базисных корни 554 ----группировка по октавам 554, 556 ----логарифмы 554 — доли см. Доли подсчетов — последовательности 546, 551 — преобразование 99, 101—103 — проценты 74 Подсчеты 14, 22, 33, 99, 179, 260, 400 678 — базисные 551, 555, 593, 672 — базисных подсчетов 551 — вглубь 47 — малые 101, 104 — накопленные 52—54 — расщепленные 498, 507 — сдвинутые 107, 260, 401, 498, 680 Полуоктавные сводки 602 Полуоктавы 600, 619, 644, 678 Поправки грубые 125 — точные 125 Порог 389, 496—498, 619—621, 654, 655, 663, 678, 681 Последовательность 215, 678 Потребление энергии см. Исп. газ, Исп. эл. п-ранг см. Ранг полный Президентские выборы [пример] 244— 247, 393 Преобразование второй переменной 197 Преобразований лестница 105, 181, 182, 204, 676 Преобразования 74, 103, 179 , 678 — выбор 94, 112, 113, 118, 181, 184, 250, 400, 510, 560 — тривиальные 104, 185, 623, 682 Приближенная коррекция 657 Примыкающие значения 61—63, 72, 679 — точки 317, 678 Примыкающий многоугольник 284, 286, 679 Проверка 27 Произведение-отношение 598—616, 672, 674, 677, 679 Производство угля [пример] 219—224, 226, 230, 232, 234, 530—537 Псевдоширина 633—642 Психологический эксперимент 446—451, 460-465
Предметный указатель 687 радиоактивность [пример] 201—203, 205 Разбиение данных на слои 268, 472— 477, 482 Размах 61, 63, 72, 679 Ранг 47, 71, 592, 679 __ интерполированный 48, 675 __ полный 593, 678 Рассеяние значений 112, 129 Рассеяния диаграмма см. Диаграмма рассеяния Распределение стандартное 618, 623, 625, 627 ----- гауссовское 627—631, 661, 666, 674 — Стьюдента 666 Распределения виды см, Формы распре- деления — математические 651, 657, 666 — пик 565, 568, 582 — плотность см. Плотность математи- ческая — с длинными хвостами 591—593, 595 — формы см. Формы распределения — функция см. Функции распределения «Растяжение хвостов» 504 Расщепление 233—237, 568, 679 Регрессионный анализ 669, 670 Рэлея пример 66—69 св-доли 501 Свертка 500, 501, 504, 679 — двойная 516, 518, 520 св-корень 501—504, 507, 523, 662—665, 679 св-корней зависимость от порога 621, 623 св-логарифм 501—505, 511—514, 523, 627, 662—665, 679 св-логарифмов зависимость от порога 620, 621 Сводки данных 45, 46, ИЗ—116 — срг-.инпые значения см. Середины СВ'..ТКИ св-процен гы 501, 503, 504 Связи негативные и позитивные 484, 485, лор 493 Сгибы 50, 51, 680 — модифицированные 231, 676 Сглаживание 211—213, 680 — двойное 529, 674 — коротких подпоследовательностей 234 — ломаной из медиан 275 --------сп.'оз 277—281 — медианами по тройкам 216, 240 — на кот-нах 227, 228, 235, 236 — обеих координат 308 — плавной компоненты 221 — разностей 282, 283 — через разрыв 243—245 Сглаживания алгоритмы 534, 537 Сдвиг подсчетов 107, 260, 401, 609, 680 Середины сводки 95—97 Силуэт 313—315, 321, 680 — полный см. Силуэт — сокращенный 316, 321, 681 Симметрия 95, 549, 557 Скачущие средние 239, 527, 536, 658, 680 Слой 459, 472—479, 680 Смещение 558—560, 681 — желательное 585 Сопоставление 484, 681 Сравнение выборок 81, 116, 129 Сравнения смысл 124 Сравнительные значения 356, 357, 460— 462, 681 с.р.-доли 498—500, 631, 632 Срединная трасса 275, 276, 281, 283, 300, 312, 472, 480, 481, 483, 485, 493, 681 -----истинная 485, 487, 492 с.р.-подсчеты 498—500 Стебель с листьями 24, 25—33, 51, 76, 679—681 Степени 103—106, 179 С-трассы 312, 314, 316 «строка-НА-столбец» 353 «стр-ПЛЮС-стл-ПЛЮС-два» 405 «стр-ПЛЮС-стл-ПЛЮС-один» 359 «строка-ПЛЮС-столбец» 338 Стьюдента модельный эксперимент 565 — распределения см. Распределение — /-статистика 572 Схематические диаграммы 64, 67—70, 91, 92, 681, 682. См. также «Ящик с усами» -----блуждающие 286 , 287, 293, 299, 672 -----двумерные 317—319 -----одномерные 321, 323 -----параллельные 268, 271, 274 С-ширина 61, 63, 72, 117, 299, 682 Сцинтилляции полония [пример! 580— 583, 586—588 Таблица мнений 510 Температуры в Аризоне [пример] 334— 346, 352—355, 389 408—411 — на восточном побережье США (при- мер! 356—360, 406, 407, 424—433 Тормозной путь [пример] 190—193 Точечные диаграммы 67 То шесть вычислений 20 Трасса 268, 470 — восстановленная 488—490
«88 Предметный указатель — зависимости 488, 682 — из сгибов 282—284, 295, 297, 300, 312, 682 — искривленная 478 — уровня 470, 471, 682 Трассовая координата 472 , 682 Трехсреднее значение 64, 682 Три точки 179, 183 Тройные линии 349, 351 Убийства в городах (пример] 412—417 Угловой коэффициент 148, 154, 165, 180, 182, 299, 401 Удаление медиан 367, 368, 371, 378, 406, 455 — средних 410, 411 — центра 406, 408 Уплощение 165 Уровень 299 Уровня линии 470, 676 — прямые 470, 676, 679 — трасса 470 •Фактор 138, 333, 337, 442, 449, 682 Фон 200 Форма распределения гауссовская 628— 630, 633, 662, 674 Формы распределения 623, 661, 682 — — анализ с использованием буквен- ных значений 631 Функции представления 654, 655, 661 — распределения 654, 655, 661, 663, 682 ‘Функция процентных точек см. Функции представления Хвостов распределения графики 625, 66g Центр 406, 408 Цены на «Шевроле» [пример] 26, 48, 49 620—623 Частичное описание см. Неполное опи- сание Шаг 61, 72, 682 Ширина 70, 673, 674 Шлифовка медианами 370, 454—457, 682 Штриховка 225, 229, 683 эфф см. Эффект Эффект 334, 337—339, 451, 683 Ячейки 546, 551, 578, 683 — бесконечно малые 651 — в виде октав 592, 595—597 — неравных размеров 572 — одинаковых размеров 546, 551, 554 — размер 578, 590 «Ящик с усами» 57, 65, 72, 683. См. так- же Схематические диаграммы 5-числовая сводка 50, 57, 70, 72, 683 7-, 9- и т. д. сводки 70, 71, 683 25%-псевдо ширина 633—644, 679 /-статистика см. Стьюдента /-статистика ♦-буквенные значения 231, 261
ОГЛАВЛЕНИЕ Предисловие редактора перевода ....................................... Б- Предисловие ............................................................. 8 Студенту или преподавателю.............................................. 14 Гл. 1. КАК ЗАПИСЫВАТЬ ЧИСЛА («СТЕБЕЛЬ С ЛИСТЬЯМИ») .... 17 1А. Следовательская работа с количественной точки зрения ... 18 1Б. Практический счет....................................... 20 1В. Как записывать числа.................................... 22 1Г. Усовершенствование: «стебель с листьями» ................... 24 1Д. Как правильно выбрать число стеблей ........................ 28 1Е. Как вести подсчет группами ................................. 33 1Ж- Что означает «почувствовать, в чем особенности данных»? ... 36 1И. Чего мы достигли?....................................... 38 1К. Использование метода стебля с листьями для получения дополни- тельной информации (факультативно)......................... 39 1Л. Дополнительные упражнения................................... 42 Гл. 2. ПРОСТЫЕ СВОДКИ ДАННЫХ — ЧИСЛОВЫЕ И ГРАФИЧЕСКИЕ 44 2А. Крайние значения и медиана.................................. 46 2Б. Сгибы и 5-числовые сводки................................... 49 2В. «Яшик с усами».............................................. 57 2Г. Барьеры и внешние значения ................................. 61 2Д. Схематические диаграммы..................................... 64 2Е. Доводы за и против: пример Рэлея ........................... 66 2Ж. Восьмые, шестнадцатые и т, д. (здесь они почти не понадобятся, но используются в последующих главах)................... 70 2И. Чего мы достигли?............................................ 70 Гл. 3. ПРОСТЫЕ ПРЕОБРАЗОВАНИЯ.......................................... 73 ЗА. Логарифмы................................................... 75 ЗБ. Быстрое вычисление логарифмов .............................. 77 ЗВ. Сравнение двух выборок наблюдений .......................... 81 ЗГ. Быстрое вычисление корней и обратных величин................ 85 ЗД. Быстрый обзор............................................... 94 ЗЕ. Подсчеты числа событий...................................... 99 ЗЖ. Соотношение между степенями и логарифмами (факультативно) 103 ЗИ. Чего мы достигли?.......................................... 107 ЗК. Основные сведения о логарифмах............................. 108 ЗЛ. Дополнительные упражнения.................................. 108 Гл. 4. ЭФФЕКТИВНОЕ СРАВНЕНИЕ, ВКЛЮЧАЯ ВЫБОР ПРЕОБРАЗО- ВАНИЯ ............................................................... 112 4А. Другие способы изображения сводок........................... 113 4Б. Сравнение нескольких выборок (продолжение).................. 116
690 Оглавление 4В. Более подробный пример................................ 119 4Г. Смысл сравнения........................................ 124 4Д. Поправки грубые и точные .............................. 125 4Е. Остатки................................................ 127 4Ж. Чего мы достигли?.................................... 129 4И. Дополнительные упражнения............................ 130 Гл. 5. ГРАФИКИ ЗАВИСИМОСТИ......................................... 136 5А. Как строить график зависимости у от х.................. 138 5Б. Вычитание.............................................. 143 5В. Вычитание прямой линии ............................... 147 5Г. Графическое изображение роста населения США............ 153 5Д. Графики отношения числа рождений к числу смертей .... 159 5Е. Выравнивание определяет наклон . ...................... 164 5Ж. Чего мы достигли?...................................... 166 5И. Дополнительные упражнения.............................. 167 Гл. 6. ВЫПРЯМЛЕНИЕ ГРАФИКОВ (С ПОМОЩЬЮ ТРЕХ ТОЧЕК) ... 178 6А. Три точки ............................................. 179 6Б. Преобразование одних {/-ов............................. 181 6В. Преобразование одних х-ов.............................. 184 6Г. Тормозной путь........................................ 189 6Д. Давление насыщенного пара Н2О.......................... 195 6Е. Преобразование второй переменной....................... 197 6Ж. Первый шаг — оптимальный выбор начала координат ..... 200 6И. Чего мы достигли?................................... 204 6К. Дополнительные упражнения . ........................... 205 Гл. 7. СГЛАЖИВАНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ............................. 210 7А. Медианы по тройкам..................................... 216 7Б. Графическое сглаживание плавной компоненты ....... 221 7В. Наши перспективы....................................... 223 7Г. Копирование и кое-что еще.............................. 227 7Д. Штриховка плавной компоненты и установка барьеров .... 229 7Е. Расщепление вершин и впадин............................ 233 7Ж. Ганнирование........................................... 237 7И. Чего мы достигли? ..................................... 241 Гл. 7+. ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ГЛАВЫ 7............................. 243 7К. Плавная компонента с разрывом .......................... 243 7Л. Выбор преобразования.................................... 250 7М. Пример с разбиением плавной компоненты на две части .... 261 7Н. Что мы еще узнали?...................................... 262 Гл. 8. ПАРАЛЛЕЛЬНЫЕ И БЛУЖДАЮЩИЕ СХЕМАТИЧЕСКИЕ ДИА- ГРАММЫ .......................................................• . 267 8А. Параллельные схематические диаграммы.................... 268 8Б. Сглаживание ломаной из медиан........................... 275 8В. Сглаживание ломаных из сгибов .......................... 277 8Г. Рассмотрение двух поставленных вопросов................. 280 8Д. Блуждающие схематические диаграммы...................... 284 8Е. Более трудоемкий пример: жалованье губернаторов и банковские вклады ................................................. 288 8Ж. Дальнейшие вопросы и анализ примера .................... 298 8И. Чего мы достигли? ...................................... 303 8К. Необходимость сглаживать обе координаты (факультативно) . 308
Оглавление 691 Гл. 9. СИЛУЭТЫ ВЫБОРОК ТОЧЕК . ...................................... 311 9А. В-трассы и Б-трассы....................................... 312 9Б. Простой силуэт — снова Туин-Риверс........................ 312 9В. Сокращенные и схематические силуэты ...................... 315 9Г. Что утеряно на наших схематических диаграммах и в силуэтах . 321 9Д. Три и более переменных сразу.............................. 323 9Е. Чего мы достигли?......................................... 330 Гл. 10. ИСПОЛЬЗОВАНИЕ ДВУХФАКТОРНОГО АНАЛИЗА.................. 332 ЮЛ. Двухфакторная таблица остатков; анализ «строка-ПЛЮС-стол- бец» ................................................ 334 10Б. Аппроксимация «строка-ПЛЮС-столбец»...................... 339 10В. Некоторые технические вопросы............................ 344 10Г. Анализ «строка-НА-столбец»............................... 347 10Д. Рассмотрение аппроксимаций «строка-ПЛЮС-столбец» и их ос- татков . . ........................................... 351 10Е. Аппроксимация с еще одним слагаемым...................... 355 ЮЖ. Переход от «ПЛЮС-аппроксимации» к «НА-аппроксимации»; преобразование ....................................... 361 ЮИ. Чего мы достигли?......................................... 363 Гл. 11. МЕТОДЫ ДВУХФАКТОРНОГО АНАЛИЗА................................ 366 НА. Удаление медиан........................................... 367 11 Б. Другие способы расчета ................................. 376 11В. Построение ядра двухфакторной диаграммы ................. 381 11Г. Продолжение анализа (обращение к остаткам) .............. 382 11Д. Кодирование остатков; сжатие аппроксимаций и остатков . . 385 НЕ. Можно объединить!......................................... 393 11Ж. Как выбирать преобразование?............................. 400 НИ. Чего мы достигли?......................................... 403 Гл. 11+. НЕОБЯЗАТЕЛЬНЫЕ РАЗДЕЛЫ ГЛАВ 10 И 11......................... 405 ПК. Исследование за пределами «ПЛЮС-один»-аппроксимации (до- бавление к гл. 10) ............................... 405 ПЛ. Удаление любых сводок..................................... 406 ИМ. Пример преобразования данных —убийства в городах .... 413 ПН. Необычная аппроксимация................................... 418 11П. Многое ли мы сумели узнать? ............................. 421 Гл. 12. УСОВЕРШЕНСТВОВАННЫЕ АППРОКСИМАЦИИ............................ 422 12А. «ПЛЮС-один»-аппроксимации............................... 423 12Б. Рисунки для «ПЛЮС-один»-аппроксимаций .................. 426 12В. Построение рисунков.................................... 430 12Г. Иногда можно по-прежнему построить прямоугольную диаг- рамму ................................................ 433 12Д. Расширенные аппроксимации.............................. 435 12Е. Иногда возможны упрощения............................... 440 12Ж. Чего мы достигли? ...................................... 443 Г-л. 13. ТРЕХФАКТОРНЫЕ АППРОКСИМАЦИИ................................. 445 13А. Трех- и многофакторный анализ: упорядочение и введение обо- значений ................................................ 446 13Б. Анализ психологического эксперимента..................... 449 13В. Проведение трехфакторного анализа........................ 453
692 Оглавление 13Г. Преобразования в случае трех факторов ................. 459 13Д. Еще об этом примере.................................... 464 I3E. Чего мы достигли?...................................... 466 Гл. 14. РАССМОТРЕНИЕ ВЫБОРОК ТОЧЕК С РАЗНЫХ СТОРОН................. 468 14А. Координаты и трассы уровня ............................ 469 14Б. Различные срединные трассы для одного и того же разбиения на слои................................................... 472 14В. Объяснение................................. 477 14Г. Изменение координаты, по которой нарезаются слои .... 479 14Д. Что важно?................................. 481 14Е. Сопоставление и сила связи ........................ 484 14Ж. Чего мы достигли?............................. 493 14И. Вездесущие медианы (факультативно)..................... 494 Гл. 15. ДОЛИ ПОДСЧЕТОВ ...................................... 496 15А. Сдвинутые подсчеты и доли подсчетов.................... 498 15Б. Три шкалы для долей подсчетов....................... 500 15В. Ускоренные вычисления........................... 504 15Г. Примеры, где особенно важен выбор преобразования .... 510 15Д. Двойная свертка — случай таблицы 2x2................... 516 15Е. Двойная свертка — таблицы большего размера............. 520 15Ж- Вычисление св-корней и св-логарифмов с помощью логарифми- ческой линейки (факультативно)......................... 523 15И. Чего мы достигли?...................................... 525 Гл, 16. УЛУЧШЕНИЕ СГЛАЖИВАНИЯ...................................... 526 16А. Повторные неровности................................... 527 16Б. Примеры................................................ 529 16В. Если желательно иметь еще более гладкие кривые......... 534 16Г. Дальнейшие возможности................................. 537 16Д. Чего мы достигли?...................................... 544 Гл. 17. ГРУППИРОВАНИЕ ПОДСЧЕТОВ ПО ЯЧЕЙКАМ......................... 545 17А. Плавные компоненты и неровности квадратных корней (ячейки одинаковых размеров)................................... 546 17Б. Подсчеты базисных подсчетов........................... 551 17В. Аппроксимация сглаженных корней....................... 557 17Г. Зерновые точильщики, цены на пшеницу и модельный экспери- мент Стьюдента......................................... 563 17Д. Ячейки неравных размеров.............................. 572 17Е. Двойные корни......................................... 578 17Ж. Предостерегающие примеры , ........................... 583 17И. Чего мы достигли? .................................... 589 Гл. 18. ГРАФИКИ ПРОИЗВЕДЕНИЙ-ОТНОШЕНИЙ — ОБРАБОТКА БЕЗ ИСПОЛЬЗОВАНИЯ ЯЧЕЕК......................................... 591 18А. Размеры и подсчеты..................................... 592 18Б. Анализ произведений-отношений.......................... 598 18В. Выделение необычного, требующего внимания.............. 601 18Г. Сравнение различных совокупностей данных .............. 605 18Д. Особенности наименьшего базисного подсчета............. 607 18Е. Нулевые базисные подсчеты.............................. 608 18Ж- «Под микроскопом» (анализ остатков).................... 613 18И. Чего мы достигли?...................................... 616
Оглавление 693 Гл. 19. ФОРМЫ РАСПРЕДЕЛЕНИЯ ...................................... 618 19А. Рассмотрение форм распределения ...................... 619 19Б. Гауссовское стандартное распределение ................ 627 19В. Использование буквенных значений для анализа форм распреде- ления ............................................... 631 19Г. Метод «обратного нажима» (факультативно).............. 642 19Д. Чего мы достигли?.....................................649 Гл. 20. МАТЕМАТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ.............................. 651 20А. Группирование по ячейкам и распределения............. 652 20Б. Плотности распределений и плотности сгруппированных наблю- дений ............................................... 656 20В. Таблицы и графики для сравнения различных видов распределе- ний ................................................. 661 Гл. 21. ЗАКЛЮЧЕНИЕ................................................ 667 21А. Как мы относимся к ЭВМ?............................... 667 21Б. Чего мы не затронули?................................. 669 21В. Какими могли быть первые главы?....................... 670 21Г. С чем мы познакомились?............................... 671 Термины и обозначения........................................... 672 Предметный указатель ........................................... 684