Text
                    STATISTISCHE
AUSWERTUNGSMETHODEN
LOTHAR SACHS
Ф
Dritte, neubearbeitete und erweiterte Auflage mit neuer Bibltographie
SPRINGER-VERLAG, BERLIN, HEIDELBERG, NEW YORK- 1972


СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ Л. ЗАКС Перевод с немецкого В. Н. Варыгина Научное редактирование и предисловие Ю. П. Адлера и В. Г. Горского МОСКВА «СТАТИСТИКА» 1976
517.8 3 20 ЗАРУБЕЖНЫЕ СТАТИСТИЧЕСКИЕ (ТЕОРИЯ И МЕТОДЫ) ИССЛЕДОВАНИЯ 3. С. И. ВЫШЛИ ИЗ ПЕЧАТИ: < Введение в теорию порядковых статистик. П. Массе. Критерии и методы оптимального определения капиталовложений. Г. Тейл. Экономические прогнозы и принятие решений. Г. Харман. Современный факторный анализ. Н. Д рей пер, Г. Смит. Прикладной регрессионный анализ. М. Кендэл. Ранговые корреляции. Э. М а л е н в о. Статистические методы эконометрии. Вып. 1. Э. М а л е н в о. Статистические методы эконометрии. Вып. 2. Редколлегия серии: A. Я. Боярский, А. Г. Волков, Н. К. Дружинин, Э. Б. Ершов, Б. Л. Исаев, Я. Б. Кваша, B. М. Кудров, В. В. Налимов, Т. В. Рябушкин (председатель) 3 108°5*-146 115-76 008@1 )-76 ^ перевод на русский язык. * Второй индекс — 10803. «Статистика», 1976.
ПРЕДИСЛОВИЕ Для нашего времени характерно бурное развитие теории вероятностей и математической статистики, которые находят все более широкое применение в науке, технике, экономике и политике. Интерес к этим методам возник давно. Так, например, 250 лет тому назад лондонский врач Арбатнотт, исследуя метрические книги за 80 лет, обнаружил, что мальчики рождаются чаще, чем девочки. Он располагал таким объемом данных, который позволил ему сказать: «Это не может быть случайным»*. Однако для того, чтобы подобное высказывание стало научным фактом, потребовалась разработка специальных статистических приемов. Такие специальные приемы разрабатывались по разным поводам и постепенно складывались в систему методов, которые теперь нам знакомы как методы математической статистики. Предлагаемая книга как раз и представляет собой современную сводку основных методов прикладной математической статистики. Книга в основном адресована экономистам, инженерам, научным работникам и врачам, в работе которых систематически возникает необходимость в этих методах. Материал изложен по схеме от простого к сложному. Вначале рассматриваются элементарные понятия теории вероятностей и описательной статистики. Этот материал занимает почти треть книги и представляет собой хороший вводный курс прикладной статистики для начинающих. Затем приводятся многочисленные примеры различных постановок статистических задач, заимствованные в основном из статистического контроля качества и из медицины. В дальнейшем речь идет о технике проверки статистических гипотез в разных ситуациях, рассматриваются процедуры сравнения выборочных средних, медиан, дисперсий, приемы сравнения совокупностей и др. Следует подчеркнуть, что в данной книге собрано большое число редко встречающихся критериев, таких, например, как критерии Лорда — Диксона, непараметрические критерии Краскела — Валлиса, модифицированный критерий знаков Мак-Нимара и т. д. Одна из глав книги посвящена детальному рассмотрению корреляционного и регрессионного анализа. Большое внимание здесь обращено также на различные процедуры проверки гипотез. Советские исследователи мало пользуются нетри- * Этот факт автор приводит в предисловии к первому изданию этой книги. 5
виальными статистическими методами анализа таблиц сопряженности признаков. Этому важному вопросу отведено значительное место в книге. Наконец, завершается книга главой, посвященной дисперсионному анализу. Через весь текст красной нитью проводится мысль о необходимости планирования эксперимента, но сами эти методы, по существу, здесь не рассматриваются. Однако книга дает неплохой фундамент для их изучения и использования. Работа снабжена уникальной библиографией по различным аспектам теории и приложений статистических методов. От многих известных руководств подобного рода книга выгодно отличается широким спектром рассматриваемых статистических методов, тщательностью и детальностью их разбора, яркими и разнообразными примерами. Поэтому автору пришлось прибегнуть к рецептурной форме изложения и отказаться от доказательств тех утверждений, которые содержатся в тексте. Этим объясняется некоторая фрагментарность изложения. Можно надеяться, что книга окажется полезной всем тем, кто приступает к изучению статистических методов с целью их применения в своей практической деятельности. Для них она может служить начальным учебным пособием. А тем, кто уже пользуется этими методами, она пригодится как справочное руководство, написанное на современном уровне, а также как богатый источник библиографических сведений. Ю. Адлер, В. Горский
ВВЕДЕНИЕ Эти основы статистики как инструмента для принятия решений имеют целью дать математически не подготовленному читателю необходимое введение в важнейшие современные методы статистики. Абстрактные математические рассуждения и выводы тщательно избегались. Основное внимание было обращено на фундаментальные статистические предпосылки и предположения, которые должны быть выполнены при применении тех или иных формул и критериев. Особое внимание было уделено также анализу выборок малого объема и непараметрическим методам. Это учебное и справочное пособие для нематематиков обращено главным образом к практикам, работающим в области экономики и промышленности, специалистам, инженерам, руководителям, учащимся, медикам, а также научным работникам в других областях. Для математиков, интересующихся прикладной статистикой, приводится обзор. В основу положены практические применения. Поэтому значительную часть книги занимают 400 специально упрощенных, полностью решенных числовых примеров, 57 упражнений с решениями, а также большая библиография. Особую роль в упрощении расчетов играют 210 математических и математико-статистических таблиц. Несколько слов о построении книги: после элементарных предварительных математических замечаний в главе 1 речь идет о статистических методах принятия решений. Глава 2 содержит введение в медицинскую статистику, последовательный анализ, биологические испытания, техническую статистику и исследование операций. В 3 и 4 главах выборки сравниваются по своим характеристикам и по распределениям частот. Следующие три главы содержат более сложные методы: измерение связи, анализ таблиц сопряженности признаков и дисперсионный анализ. В "заключении приведены обширная общая и специальная библиография, упражнения, указатель терминов и именной указатель. Для получения общего представления о важнейших статистических методах рекомендуется ограничиться чтением разделов, отмеченных знакома: 1.1, 1.2.1—1.2.3, 1.2.5, 1.3.1—1.3.7, 1.4, 1.5, 1.6.1, 1.6.2, 1.6.4—1.6.6; 3.1, 3.1.1, 3.2, 3.3, 3.5, 3.6, 3.9.4, 3.9.5; 4.1, 4.2.1, 4.2.2, 4.3, 4.3.1—4.3.3, 4.5.1—4.5.3, 4.6.1, 4.6.7; 5.1, 5.2, 5.3.1, 5.4.1—5.4.3,
5.4.5, 5.5.1, 5.5.3, 5.5.4, 5.5.8, 5.5.9, 5.8; 6.1.1, 6.1.4, 6.2.1, 6.2.5; 7.1, 7,2.3, 7.3.1—7.3.3, 7.4.1—7.4.3, 7.6.1, 7.6.2, 7.7. Поскольку последовательность изложения автором несколько нарушена — в отдельных случаях не удалось избежать ссылок на последующие разделы, — для более строгого представления целесообразно книгу прочесть по крайней мере дважды. Для понимания и для применения методов в тексте приведены многочисленные примеры — иногда нарочито простые. Эти примеры (в известном смысле игра с цифрами) часто носят учебный характер и служат больше для развития иг- рово-экспериментального мышления, чем для обработки приведенных данных, которая — при частом применении расчетных методов — интересна главным образом специалистам. Рекомендуем читателю все примеры, данные в качестве упражнений, рассчитать самостоятельно, а также выполнить некоторые упражнения, приведенные в конце книги. Автор будет благодарен всем читателям, которые обнаружат недостатки и сообщат свои впечатления, замечания или пожелания по улучшению книги. Лотар Закс
ВВЕДЕНИЕ В СТАТИСТИКУ Основные задачи статистики: описание, оценивание, решение. Каждый из нас на собственном опыте знает, что не может быть установлено истинное различие между мнимым и действительным больным. Обычно мы устанавливаем эту связь, различие или сходство, с помощью специальных знаний или по так называемому «впечатлению». Ученый, который открыл некоторые новые явления, зависимости, тенденции, эффекты и на них построил рабочую гипотезу, защищает ее от предположения, что все эти явления и эффекты обусловлены случаем. На вопрос, можно ли наблюдаемые явления рассматривать только как случайные или они являются закономерными, отвечает математическая статистика, методы которой становятся характерными для современной науки. С помощью статистических методов можно получать ответы на вопросы и проверять гипотезы. Например, сколько человек нужно опросить перед выборами, чтобы получить примерную картину результатов? Оказывают ли школьные занятия спортом два часа в неделю тренировочный эффект на сердце и легкие? Какую зубную пасту из нескольких рекомендовать как профилактическое средство против кариеса зубов? Как зависит качество стали от ее состава? Новая продавщица повысила дневной доход до 300 ДМ (West). Процент выздоравливающих, характерный для некоторой болезни F0%), увеличен с помощью лекарства А до 90%. Искусственные удобрения К» К2 и К3 показали при испытаниях одинаковый результат. У супругов наблюдается сходство голосов. Статистические методы имеют дело с эмпирическими данными (количественной информацией) из окружающего нас мира, с их получением и обработкой: описание, оценивание и обсуждение; целью является подготовка решения. Статистика появилась в XVIII в. с выходом книги «Lehre von der Zustandsbeachreibung der Staaten», в которой были собраны данные о населении, армии и ремесленниках. Из этого возникла и развилась описательная (дескриптивная) статистика, задачи которой состоят в том, чтобы описать наблюдаемые состояния и процессы; для этого служат таблицы, графики, соотношения, индексы и типовые характеристики как мера положения (например, арифметическое среднее) или мера рассеяния (например, дисперсия). Аналитическая статистика на основании наблюдений устанавливает общие закономерности, которые справедливы и вне области на-
блюдений. Она развилась из шолитической'арифметики», которая занималась главным образом регистрацией крещений, браков и смертей, чтобы оценить соотношение полов, рождаемость, возрастной состав и смертность населения. Аналитическая статистика базируется на теории вероятностей у которая описывает математические модели случайных или стохастических экспериментов. Примерами стохастических экспериментов являются: бросание игральной кости, азартные игры и лотереи всех видов, пол новорожденного, сегодняшняя температура, урожай, время горения лампы накаливания, показания измерительного инструмента при опыте, короче, любое наблюдение и любой опыт, в которых результаты подвержены случайным колебаниям или ошибкам измерения. Почти всегда сами наблюдения или результаты измерений менее интересны, чем упорядоченная совокупность, которая включает в себя эти наблюдения или измерения. Например, вероятность получить 6 в одном бросании игральной кости, угадать 6 цифр в цифровом лото, число рождений мальчиков в ФРГ в 1968 г. и др. Во многих задачах, связанных с повторяющимися испытаниями, нельзя провести все возможные испытания или наблюдения, входящие в так называемую генеральную совокупность, а можно проделать лишь доступную, выборочную часть этих испытаний. Чтобы оценить вкус вина, достаточно выпить один стаканчик. Эта выборка дает представление о частоте и составе интересующих нас признаков в генеральной совокупности, которую мы не можем исследовать всю по финансовым, временным или принципиальным причинам. При этом предполагается именно случайная выборка, в которой каждый элемент имеет равный шанс быть выбранным (попасть в выборку). Разумная или представительная репрезентативная часть торта — это не тесто, не начинка, не украшение, но кусок торта. Случайные выборки в цифровом лото получаются с помощью механических устройств. Вообще для получения случайных выборок служат таблицы случайных чисел (элементы нумеруются и выбор элемента осуществляется, когда в таблице выпадает его число). Случайным образом полученная выборка имеет преимущество: ее статистические характеристики будут содержать только неизбежные случайные отклонения от генеральной совокупности. Их можно оценить, поскольку они не искажают результата и при многократном повторении усредняются. При неслучайном выборе могут появиться так называемые методические или систематические ошибки, о величине которых, как правило, никаких данных получить нельзя. Особенно это важно при оценке случайной ошибки и при проверке того, характерны ли наблюдаемые явления для генеральной совокупности или их можно рассматривать только как случайные, — при так называемой проверке гипотез о генеральной совокупности. При постановке задачи по статистической проверке гипотезы необходимо уделить внимание выбору наиболее пригодных измерительных признаков и получению оптимальной по стоимости выборки, иначе говоря, плану эксперимента. Вообще цепочка (см. с. 11), в которой 8Десь для простоты показана только половина обратных связей, продолжается и решения содержат в себе уже подготовленные вопросы: 10
Новые проблемы Предварительная информация и постановка вопроса Новые проблемы Модель 1 Статистическая модель: план эксперимента Предварительные исследования: проверка плана эксперимента, оценки и модели Проведение эксперимента, получение данных: измерение и счет Обработка данных и проверка гипотез Интерпретация: решения или заключения является ли значимым, по существу, полученное заключение — обратный перенос на вход задачи (см. с. 513—514)? Для нас важно то, что на основании поставленной задачи делается предположение о структуре, лежащей в основе модели, и соответствующих статистических моделях. После проверки соответствия данных наблюдений и статистической модели оцениваются с заранее заданной статистической надежностью характеристики для описания генеральной совокупности, так называемые параметры, и проверяются гипотезы о параметрах. В обоих случаях результатом является вероятностное суждение. Этот и другие способы образуют ядро анализа данных, выполняемого на основании суждений об измеряемых величинах и их частотах, необходимых для многих областей техники, экономики, политики и науки.
0. ПРЕДВАРИТЕЛЬНЫЕ ЗАМЕЧАНИЯ Этот раздел посвящен повторению некоторых элементарных математических сведений, которые, за редкими исключениями, составляют часть знаний, требуемых в средней школе. Этих знаний вполне достаточно для понимания проблем, которым посвящена данная книга. 0.1. МАТЕМАТИЧЕСКИЕ СОКРАЩЕНИЯ Язык математики использует символы, например буквы или другие знаки, для точного и сжатого отображения существа дела. Числа обозначаются, как правило, малыми латинскими буквами (а, Ь, с, d, ...) или, когда чисел очень много, —аъ а2, ..., ап. Некоторые другие важные символы приведены в табл. 1. Таблица Обозначение а = Ь CL <^ Ь а ^> b CL ^ Ь a>b a^b axb афЬ 1. Некоторые математические отношения Значение а равно b а меньше, чем b а больше, чем b а равно или меньше b а равно или больше b а примерно, приближенно а не равно b равно b Пример 8=12-4 4<5 6>5 Он зарабатывает не больше чем. ..DM Он зарабатывает не меньше чем...DM 109,8 ^ 110 109,8 ^ 110 4^6 Для «х больше, чем а, и меньше или равно Ь» записывают: а <С х ^ Ь. Для «х значительно больше, чем а», записывают: х ^> а. 0.2. ВЫЧИСЛЕНИЯ Предполагается владение четырьмя арифметическими действиями: сложением, вычитанием, умножением и делением. Однако следует коснуться следующего определения: вычислительная операция — это пра- 12
вило, по которому из двух чисел образуется новое число, например сумма. 1. Сложение. Слагаемое + слагаемое = вычисленная сумма [5 + 8-13]. Сводка знаков четырех арифметических действий Вычислить— это значит из нескольких чисел получить одно новое число. Каждый из обычных арифметических знаков (+; —; .; :) символизирует правило вычисления: + плюс, положительный, знак сложения, — минус, отрицательный, знак вычитания, f ... раз, знак умножения, : поделенное на ..., знак деления. Результат каждого вычисления должен быть оценен перед началом вычисления, затем дважды рассчитан и проверен контрольным вычислением. Например, 4,8+ 16,1 примерно равно 21, точно—20,9; контроль: 20,9 — 4,8= 16,1; или 15,6 : 3 примерно равно 5, точно—5,2; контроль: 5,2 * 3 = 15,6. Для последовательности вычислений с четырьмя арифметическими действиями справедливы два правила. 1. Умножение и деление выполняются перед сложением и вычитанием. Примеры: 2 + 3 * 8 = 2 + 24 = 26; б в 2+ 8 : 4= 12 + 2= 14. Положительные числа (+1, +2, +3, + ...), нуль и отрицательные числа (—1, —2, —3, — ...) образуют целые числа, для которых любое вычитание имеет результат (например, 8—12 = —4). При умножении и делении следует обратить внимание на правила знаков: + •+ = + } Одинаковые знаки + — — 1 Разные знаки + :+=+/ дают плюс + : — = — / дают минус = _j (-8):( + 2) = Модуль числа, обозначаемый двумя вертикальными линиями, равен абсолютному значению числа и всегда положителен: |_4| = | + 4| = 4. 2. Вычисления в скобках выполняются вначале. Если стоит несколько скобок друг за другом, то начинать нужно с самой внутренней. Перед скобкой обычно опускают знак умножения, например: 4 C + 9) = 4 A2) = 4 s 12 = 48. Деление часто обозначают черточкой, например: А = 3/4 = 3: 4 = 0,75; 4 4 [12—(8-2 + 18I = 4 [12—A6+18)] = 4 A2—34) = = 4 (-22) =-88; 12|"ii=l— l] = 12f—-l] = 12C—1)=12B) =24. 2 J L 2 J 13
Если необходимо образовать сумму чисел хъ х2, ..., хп, то для этой операции используют следующий^символ: 2 — прописная греческая буква «сигма», здесь означает «сумму»; или полностью: г есть сумма всех чисел Xt от i = 1 до i = я. Индекс первого слагаемого стоит под знаком суммы, индекс последнего — над знаком суммы. Индекс i у х указывает, что при его изменении изменяется и сама величина jtj. Обычно суммирование выполняется от индекса i = 1 до i = я. Для такой суммы справедлива также следующая запись: 2. Вычитание. Уменьшаемое — вычитаемое = вычисленная разность [13 — 8 = 5]. 3. Умножение. Сомножитель X сомножитель = вычисленное произведение [2x3== 61 Произведение двух чисел редко обозначается знаком X между числами, потому что его можно спутать с буквой х. Обычно умножение обозначается точкой между сомножителями, а иногда и она опускается, например 5-6 или pq. Задание 1,23-4,56 записывают в США 1.23-4.56 или A.23) D.56), а в Англии и Канаде— 1-23.4 -56 или 1-23x4-56. Запятая в этих странах используется для наглядного представления больших чисел (например, 5,837-43 или 5,837.43 вместо 5837,43). 4. Деление. Делимое/делитель = вычисленное частное [6/3 == = 2] (делитель Ф 0). 5. Возведение встепень. Произведение п равных сомножителей а есть степень ап и читается как «а в я-й степени», или «/г-я степень от а». При этом а — основание, а п — показатель степени. Основаниепоказатель степени = степень числа. 5 • 5 • 5 = 53 = 125; 2-2-2-2 = 24= 16 (возведение в степень). Вторая степень а2 называется квадратом числа, так как а2 задает площадь квадрата со стороной а, и читается как «квадрат о» или «а в квадрате». Третья степень называется кубом числа\ а3 задает объем куба со стороной а. Особое значение имеет степень числа десять. Ее применяют при приближенных вычислениях, чтобы получить представление о порядке величины, а также для сокращенной и наглядной записи очень больших и очень малых чисел: 100 = 10-10 = 102; 1000 = 10-10-10 = 103; 1 000 000 = 10е. Поясним некоторые правила возведения в степень примерами: ат-ап = ат+п 24-23 = 24+3 = 27 = 128; ат:ап = т~п 24: 23 = 24~3 = 21 = 2; 14
62.32=6.6.3.3=6.3.6.3=F-3J=182=324; ат: Ь™ =* (—) Приведите пример; 52.52.52==52-3==56=: 15625; а-л = — 10~3 = — = —*= 0,001; а* 10* 1000 а0 = 1 для а Ф 0; — = аб~б = а0 = 1 (ср.:0а = 0 для а > 0). Эти правила справедливы, если *т и /i целые числа. Если а > 0, то приведенные правила справедливы также и для дробных показателей степени (т = —, я — —)' 6. Извлечение корня. Вместо а1/" записывают уЛо1 = уЛа и читают «корень я-й степени из а». При п = 2 (квадратный корень) записывают /5". Корень ^ — положительное число, которое после возведения в степень п дает в результате подкоренное число: [У~а\п = а. Обычно используют следующие названия: показатель корня Т/подкоренное выражение = значение корня; >^25 — V25 ^ 5 (извлечение корня), тогда 52 = 25. Извлечение корня (знак V —стилизованное г от лат. radix — корень) производится с помощью таблицы, логарифмов или вычислителей (см. с. 16—23, а также итерационные способы на с. 29—30). d Приближенная формула: у а2 ± d ~ а ± для d < а2. Например, необходимо рассчитать V1969, то из табл. 4 (см. с. 28), второй столбец, получаем 1936 = 442, т. е. У1969 = У442 + 33 « 44 + + 33/88 » 44,375 (точное значение 44,3734; ошибка 16/10000), или У 0,01969 = У0,0196 + 0,00009 = 0,14 + 0,00009/0,28 = 0,14032. Для вычисления кубического корня может быть использована приближенная формула VcP d= d « а ± d/3a2. Некоторые формулы и примеры для вычисления корней: Уа \ [ а Л. |^= J/ у; а й ^^ /"f"= ^^ = 5; ? 12 7. Вычисление логарифмов. Когда а — положительное число и у — произвольное число (>0), то имеется единственное 15
I I N "^ *—« О N Ю ^ CM •—• О OOONNCO CO CO CO CM CM' CMCMCMCMCM ^ _< ,-н ,—. .-^ cococococo cococococo eoogg6^ Й?см22 ??12:2:2 COCOCOCOCO COCOCOCOCO OiCOrfCO^ О 00 N CO CO Ю^^ФСОСМ CMCMCMCMCM W^^>-• i—' '—' —' •—« —H »-« cococococM cmcmcmcmcm iP^rt0500 N«oio^co ^^S^Z^^ CMCMCMCMCM »—' О N CO Ю трСОСМСМ'—' '—* О О О О cmcmUcmcm (NCMCMCMCM мопсом —* — < СОСОСОСОЮ 00 00 t"- CO CO oo ooo ooooo ^ Tt* CO CO CO CO CO CM CM CM CM CM CM CM CM ^ CO 00 CM COO ooS o>oooo NWOCOCO ©CM I- - _ CM CM CM CM CM -* rf 00 rh CM CO CO O) 00 CO CO CO CO CO CO -O CM Th -CM COO 8 со со с f oo см с t*- CO"**1 CM I4- -^ CM CM CM CM ¦-<1ЛО5 СОЮ OOOON СО""Ф COWNO) COWNO) со со со со со 2 «• о. 2 о ч со 2 в* >сосоооо »-«смсмс COO4—« Th Ю N 00 00 С •^ CM 00 h- CO Ob 00 CO CO t4- CM COO COCO O5 NOOO lONOO lONOO^ O>CM ^* t« O5 i-HCMCMCMCM OWONN СО СО со тр CM y—• СОЮ ?-- Oi CO CO CO CO CO )Огр О ооооо NO СОЮЬ ооооо см со о со со СМ N О СО ^ см со о со со и-нЮЮСО COO ЮО5СМ OiCM ¦* COO> ^см см см см союосм о ONCONO O^^ ^ COO ^-¦см см см см О) Ю »—* О О5 CO CO CO CO CO со со со со с I cO CO t** 00 «—• Ю О5 CM Ю ^н CM CM CM CM COCOOi-н CO '—• Ю О5 ^* 00 ooooo 00 ^ OO CO см со о со ю ~-< Ю 00 CM Ю о о o^ ~* h-CM ОЮ С ^CM 00 CM I oo *— cococ CMCM CMC ю N0 ОС сое « COC 5 COC 2 >ЮО C0N )ОООО ¦*00О СОЮ _ >оооо о CO CM "tf* COCO 00 О COOCM со со оо со см rf Ю CM NO »-< см см см см О 00 О N О О СО СО N i—« N О СОЮ 00 '—i СМ СМ СМ СМ CO ^* xO oo CO CO Ю CO со со со со ^t COO >СОСОООО СМСО^Н4 } xt^ 00 ^^ t44* ^"^ LO СГ5 С !8833 SSSJ N > *—< о со со ¦•fes интС СО 00 COtOlOOO NO см с >^,^ ^СМСМСМСМ irh NCM ICM^O D CO CO CO 8SSSS Ю CONGO О ^см CM CM осмео^ CM CM CM CM CM 16
¦-«—нООО 0H0000000 —« —< —* О О 0000505 0H0 00 00 00 0005 0H5 0H0000000 t-~ t--CO CO CO 000HH) 0H0000000 сососососо cocoicicic со 050000001^- t>- t*» Is- СО СО СОСОСОСОЮ iClClClClC 1>ОСОСОСО COCOiClClC LClClClCrt« т^^сососо сососососо сососососо со СОСОСОСОСО СОСОСОСОСО СМСМСМСМСМ СМСМСМСМСМ CM СМ СМ СМ СМ СМ см см см см-* СО 00 СО соою 33 ) Г*^ ю ооо см см оо О СО Is- О СМ О) О —' СО "**• Tj<iCiClCLC —•О СО 0H 1С С4» 00 О) »-"* IOCDNQOO 1С 1С 1С 1С СО t4*- СМ 1С Ю С со со со со с 00 tM COCO—« СО t"** 00 00 О) О) со со со со со ^* О ^ СМ оо "^ О) т*< см*1 Ю t 0H0 ЮС СО 1Л t С 1С COt COt^C 1С 1С I г^ см 2; ic со со со со ^о со со Is* t** оо О) оо со со со со со 5 t^ 00 О) со со со ] О) О) Tt* CO ) CM ^f 1С t4" hCM CO-* O) CO CO O) O) *~ CM CO "Ф 1С 1С 1С т^ 1С CM С -и СОЮС 00 O) O) O) O) CO CO CO CO CO >rooc ) со со с CO ЭСМ <. ЭСОС ?см с CO CO 0H00 ^ 00 •—• 1С Г*- 00 O) «—• CM CO "ф^ 1С 1С 1С \9i JESS 1С t4» t**» C CO t 1С CO t^ CO CO CO 1С ) CO 00 >tM CO 1 O)C CM < О—Ч O)C0l ~O) »-< CM ^ I ICIC1CICL 5 CO CO CO CO Is» со ic Tf со 1С CO t4* 00 O) со со со со со ^ О CM 00 < OCM С0ЮС t С CM ^ 00 050CM С f * 1С1С1 !i8i ЭСОСОС —i CO 0HH0 COlCrt« CO CM 1С CO t^OO O) CO со со со со со о — cot > 0)ОСМ< 1С t^lC»-* < CM O) CO 1С" rf TF 1СЮ1 cococococ ^н cOO)C 11 CO^^t 5(^0)OC h< 1С CO 00 Э 1С 1С 1С 1 —¦00 COlC-ч сосочФ<^ -ч со со со со с )NooOi ) CO CO CO t^.ic—. i^v СЛ= СО4^ С CO"* -^ rt*' fvCC Is» О) О «—« CO ^ ^ 1С 1С 1С i-i CO CM 00 —< ¦^cooo O)—• ^CMC COCOC 1С «ОГ-- 00 O) сососососо
I I s oooo S s s S S S CD CD CO COS COCO ЮЮ СОЮ Ю со со ч* со со CO CO CO CM <N CM CM CO CM CM CD CO CO CO CO ЮЮЮЮЮ ЮЮЮ"^ ^ «^ rf rf Tf r^ CO CO CO CO CO CM CM CM CM CM CM CM CNJ^ —, cococococo cococococo CO Ю Ю Ю Ю СОСОСОЮЮ ЮЮЮЮЮ ЮЮЮЮЮ cococococo cococococo cococococo cococococM смсмсмсмсм СМСМСМСМСМ СМСМСМСМСМ СЯСМСМСМСМ u S а. &>*& Oi СМЮ 00 Ю^ OO F —* см со со тр 00 00 00 00 00 CM 00 CM COC> 00 ^ "-¦* Ь-- со *—« см со со "^ 000000 0000 O — -4 ^-* О о со сч оо со Ю Ю СО СО t"— 00 00 00 0000 §31 S S S СО 00 »-« CM COCO Tj« 00 0000 0000 rt< Ю CD 00 00 00 ю in» sco Ю CD COS 00 00 00 00 CMCOOCMCM rf CM ^СЛ S O—« CM CM CO ss s s s 00 CM ^ ^ ^^ CO 00 CO »—< CM CM CO s ss s ^ 00 TF OJ CM ЮСМ О SIO ^ Ю CD COS soscMiO Рююсог ю со со ю см см сл со со о ss soooo 00 O) O5 00 CO 00 00 сл со со ss soooo СЛ lO СЛ СО СО со со сл со см оооо со оо оо СМ 00 C0SO со см слю см »-н СМ СМ СО ^ оо оо оо оо оо оо^ососч rf Ю СО СО S 00 00 00 00 00 «rj* О СОЮ С СМ— СЛ SI s ss t * Ю CO CJ> ^ 00 CO —< 00 CO CO ^ ЮЮ COS ©СМСМ-ч СЛ 1—. C20 Ю CMO0 00 00 СЛО О S SSOO00 СО CM S»-« ю см оо ю • CM CM CO CM CM COTf со 0000 00 00 COSSSCO SCOCTЮ*-• оо оо оо оо со союю-^см 00 ОО СЛ ОО S S S00 00 СЛ Ю О 'Ф t ^* ч-^ 00 ^* С ^^ СМ СМ СО" 00 00 00 00 С о-* — —-о S СО СЛ Ю~н ¦^ ю ю со s оо оооо оооо 2 5 1 I СМ та СО 00 00 SIO сл coco о s S СО СЛ О О S S S00 00 ) —« СОЮЮ1 слогосл 00 COCO SCO СЛ _ ss soo CO CM S—«1O со о со со сл -и <N CM CO CO 000000 00 00 ¦^ юю cos 00 00 00 00 00 s сл сл сл 00 ю —« s со сл rf ЮЮ COCO OO 00 OO 00 00 OCOOCO^ СЛ SCO"^1 CM ело»— см со CO S SSS СЛ Ю Ю 0 см сл со см 00 000000 00 00 ю ю со со 00 000000 O*-« CM CO^ ю ю ю ю ю lOCOSOO СЛ ю ю юю ю CO CO CO CO CO ю cosoo сл CO CO cO cO CO 18
*tf Tt<Tj<Tl< CO 00 cococococo cococococo f^ cococococo cococococo cococococo cococococo cococococo со cococococo cococococo cococmcmcm смсмсмсмсм c^cmcmcmcm ю CMCMCMCMCM CMCMCMCMCM CMCMCMCMCM CMCMCMCMCM CMCM<NCM<N rf CMCMCMCMCM CMCMCMCMCM CMCM*-"-<'-< —<~н,-ч~н.— —< ~-н ^н ~н *-. CO OOOOO OOOOO —« Э-^1Л СЛС 5 CO CO 00 СЛ - _ , . - CO 00 CO 00 ) оо со ел ел ел ел ел ел (DC0ONC0 CO CO 00 CM Г СООО СМ Г- ^1 СЛ1О—СОСМ Г^СМООСООО Г--00СЛСЛО О — -нСМСМ 00 00 00 00 СЛ СЛСЛСЛСЛСЛ 5 СЛ СЛСЛ 1—< CO ICCNOO 00 CO CT> СЛ O> О О) О) О) О) О) <* СЛС ел ел ел ел с 1С СМ СЛ ^ ( 00 "^ СЛ 1О С 0^^ 0^^ 0^/ ОС^ С СО N(N О «-* *-< CN С\| СЛ О5 C7i СЛ О> ю CM СО «"¦f Oi СО СО С?) Г4-1-1 со — ю lO CO CO t4- t^- О) ел ел ел ел ООСЛОО COTf—«СО4*1 h-CMCO—« СО«(ООЮ со'&^т mcocoh-t^- слсл СЛСЛСЛСЛСЛ СЛ СЛ С 00 00 00 ел ел ел ел ел ел ел 5СОСЛСМС0 ЮЮЮЮС0 CMC. )OiO-h@ —* СО *—< СО *—« С0ОЮО1 _> ^-, ^н СМ СМ СО СО *Ф ^f Ю Ю СО СО t4- t4^ ел ел ел ел ел ел слслслсл слслслслел ^^ш юсоо ел "^г оо со t t>- со 00 ел е ел ел ел ел е со ю см СОСМОО ^ОООО ь-00 00 ел ел оо оо оо со оо сосм г-»-» ю со со t-см со t4-» оо оо ел ел см ел ел ел ел ел СМ Is» CM t^ •-* 00 CM t4^ '-н СО ь оо со ел i^CO ^-iiO00'-*C0 ^ЮЮ'Ю^ СМ О С > СО СМ Is*- СО 00 СО СЛ Tj* СЛ-^ СЛ "^f СЛ тр СЛ С ~О 00 СЛ 3) СЭ СЭ *~" '~н СМ СМ СО СО "^ **J* LO Ю С °0 00 СО 00 00 СЛСЛСЛСЛСЛ СЛСЛСЛСЛСЛ СЛ СЛ С 5—' Г--СО00 СМ СО 3 СО Is- СЧ СО^- Ю Э t4" t^» 00 00 СЛ СЛ 5 ел ел ел ел ел ел С5 •¦"< СМ СО ^^ 1О СО t4» 00 СЛ С5 *~* СМ СО ^Ф оооооооооо сооосооооо слслслслсл 1Л COh-ООСЛ ел ел ел ел ел I I со .л 53 ex eg 81 ч о ъ <D CD Л СО о 3 «2 5 я I си 5^ со % 7 8 4 II IH 150 Н~ 1 g 9 I о и s & II 19
00 N. CNCNCNCOCO СО СО СО СО СО СОСОСОСОСО СОСОСО eN CN CN CN CN CNtNcNCOCO СОСОСОСОСО СОСОСО CNCNCNCNCN CNCNCNCNCN CNCNCNCNCN CN CN CN CN CO СОСОСО ^^^^n^| csi С* CN <N <N CNCNCNCNCN W(N(N(N(N CN CN CN ^,^^н_^ ^m^^^m^h -*CNcNCNCN CNCNCNCNCN CN CN CN _*_ч_«^^ _^,-«_«,-, ^^^^^, ,-*^,ч^,_ —«CNCN О'ООО-н .-,_«_-,,-_ ^^н^^_ ,^__^_ _ч^_ ooooo ooooo ooooo ooooo ooo —«ЮСЛт*«О> COCNONCO lOlOCONO МСООЮ^ 00 CO т** М^Фф>н "Ч* N О5 CN Ю 00 »—< rf t4-О rj< N <—• ^f 00 '—• Ю O^ О О О О •—• •—• «—• »—• С^ (N С^СОСОСО^ ^^ЮЮЮ СО CD СО O5WN-HN СОСЛГ^ЮСО CNCNCO^CO Oi CN I"» CM 00 ^ (N О »-н rf CO C2> «—• т|*СОО5СМЮ 00 •—< Tf h- О СО Г^- О rJ4 t^ -Н1ЛО) OOOO—< ^-.^н^^счкм (NCOCOCO^ ^тМОЮЮ СОСОСО С00"^*0>т|* OS^WO ОЭ050'—<C0 LOO^COOO4^ «-"OO N <-<^ @ 00*4 tJ* <O O> CN Ю t-- О ^ h* О СО СО О СО t4- i—t Tf 00 OOOO—* ^м ^-i^-«C4<N OJCOCOCO"^ ^ "^f Ю Ю Ю СОСОСО чфОООЧСОС^ 00^"—<СЛГ^- COCOt^OOO CNCOO Ю О f4* ^* CO ••^ CO f О 00 ^"^ CO CO O^ **"^ ^^ t4^ ^У CO ^O ^^ CO CO c1b3 CO Г4^ f'_',^ ^J* 00 CM Irt O5 **1* O^ 1Л *"^ O5 CO lO ^* CO ^* 1Л CO СУ5 CM CO *~* Г4** CO ^^ O5 i—i CO Ю 00 О COCOOO'-H^1 t^ О CO CO CT> CN CO O> CO CO О ^ t*- O О О О i—• ^^^^i—i cN CN CN CO CO CO CO ^М'тСЮЮ СО СО СО СЭ CO I"*» *—< t4» CNCT>CCCOcN ihOO'-'CO СООЭСООССО ON 1Л О СО Ю 00 О С0Ю00^"Ф NOCOOO) CN Ю O> CN CO OWN О О О О «—• *-^ *—| ^^ CN CN CN СО СО СО СО "^ "«f rf Ю Ю СО СО СО NOTfOirf' ОСОСО^^О 00NN00O CN Ю О5 "^ О СО СО -* О СО Ю N О СОЮОО'-^СО СО О5 CN Ю О5 CN Ю 00 CN СО О СО Is» ОООО—* *^ -^ -н CN CN CNCNCOCOCO trf^ifliO Ю СО СО IO00CNC0CN СОСООООСО lO^TplCN O> CN СО —* СО CN O5 N OWIOSO CNlOOOOCO COOCNIOOO —< Ю 00 CN Ю О> CN CO О О О О »—| -и «-* ~ч CN CN CNCNCOCOCO rf ^^«ЮЮ Ю СО СО CN СО СЗ т}* О^ 1Л »»н 00 1Л СО CN 1~^ »~ч CN ^* СО О^ СО t"** CN СР> СО СО О CN Ю N С75 CN Ю N О СО СО ОЭ CN Ю О0 «—' ^ 00 »-• Ю О0 CN СО ООООО »-* —н »—i (N CN CNCNCOCOCO rj< Tt* rt4 Ю Ю Ю СО СО OCONCNCO CNOOIOCNO О 00 00 О> О СО Ю СЛ ^ С75 Ю CN О OCNTpNGi CN^NOCO 1П00»-^^00 *—« ^ N i—< ^ OOCNCO »-t »-н i—i CN CN CNCNCOCOCO ^'^'tlOlO IO CO CO а и s ar co H 20
coco COCO COCOCOCOCO COCOCOCOTh ЮЮЮЮЮ ЮЮСОСОСО COCOCOCOCO O> ЮЮЮЮЮ ЮЮЮСОСО 00 ЮЮЮЮЮ t- CM CM CM CO CO CO CO COCOCOCOCO COCOCOCOCO rt< Tt4 tF ^ Th Tj* t*< т^ Tt< Tf* CO CM CM CMCMCMCMCM CM CM CM CM CO COCOCOCOCO COCOCOCOCO COC0C0'«t'^ Ю CMCM CMCMCMCMCM CMCMCMCMCM CMCMCMCMCM CMCMCMCOCO COCOCOCOCO ** "CM CMCMCMCMCM CMCMCMCMCM CMCMCMCMCM CO ooooo OOOO ~н CO00—«Ю»-н 00 00 CD CD CD t4- tJ< COCO со oo со oo с CM CM CM CM «OCDco cd со 00 CO CD rf О Tf -<3< Ю00СМ CO CM 00 тр —¦ ю coco t*- oo CM CM CM CM CM CO CO Ю ^н 00Ю oo ooooo CN CN CO CO CO ) 00C CM CM CM CMC СЛ 00 CT> CM 1 - -> —• r- •* <_ > CO 00 >lST* >O —• 00 эсосо CM CO О "^ CD CO 56 - ' 00 0000 CD CD CN COCN о со oo 00 00ЮСО 00 CO CN t*- CN t^-CN CM CM CMCM CM lO 00 CM 00 lO CM CO CO "^ ^* CM CM CM CM CM tJ4 ^—h CD CD »™* COCO CD COTt* 00 CD CD О »—• CNCN CN CO CO см см союс CM CO О ^ С - ' ooooc t CD COOOO 00 00 CN CN CN CN CN OCO O-CN CD t-- CN O-CO 00 CNCNCNCNCN 00 ^* CN CN CO ЮCN CD COCO 00 CD CD О «-^ CO CN CNCN CO CO 5 —* ^ 00 CN >^ OOCNtN- - 00 00 CD CD 00 ЮС0 COCO ^м со—• CO—i CNCN CNCNCN CO ~-«^-<N 00 CN CO CO Tf Tt< CN <NCN CNCN —« о —* со со "^f О CO CN 00 lOCOCONN lOCOCONN CN CNCN CN <N 1— h-Ю ЮсО CM CM CM CM CM CD CM CO-^ l^ Ю —< COCN Is- CM CO CO *^* *^t* см см см см см Ю Tt* Ю CO О со cd io "-^ oo CMCM CM CM CM * CDOOCD 00 CD CD О «-* см см см со со О О —«CMIOCDC -^ Ю CTJCON^C IS- Г- Г- 00 00 CDC CD CO^ CO < о ю о ».o с о o-^—«c см см см см с см см см см см CD О CO тГ — I>- CONN см см см см см OO rj< CM —'CM 00 CD CD О —• CO см см см coco oo см is- -*i t>- 00 00 CDC ^ —• CD 00 00 О Ю CD rf CD CM CM CM CM CM CD *-* Ю О CO CO CM CM "^ C*- тРОЮ-нСО CMOO^OCO см со со ^f ^ ю ю со is-1^. oo oo cd о »—* см CMCMCMCMCM CMCMCMCMCM CMCMCMCOCO CO CD CO COO 0000 CDO < CM ^ COO ^ 00 CM CO—1 Ю t4^ 00 00 CD CD о сотр coco О ^ CD"^ CD о о о —* —* см см см см см CM CM CO^ "f CM CM CM CM CM 00 CO CO 00 —* —* t^- CO CD CO Ю Ю CO CO l^- CM CM CM CM CM Ю ~« 00 l^ t^ CM CD Ю CM CD 00 00 CD О О см см см coco 00O CM I г*-см coc r- oooo с IS >CD ЮСМСЛ 00 00 CD "^ 00 CO 00 —*CM CM CM CM CO CD ^ф CD lO ^^ t4* CO CD IO ^-< 00 lO CM СЛ CM CM CO CO ^^ ^O l-O CO CO C4** 00 00 CD CO C? ^^ CMCMCMCMCM CMCMCMCMCM CMCMCMCOCO Ю CO Г^ 00 CD CM CM CM CM CM о — см со ^ COCO COCO CO LOcOt^-OOCD О —« CM CO " COCOCOCOCO ^TfTf^^ Ю CO t^-00 CD tj- rh ^ rf Tf 21
со со со со со ю toio со со Г-00 00 00 00 со со со со со 00 СЛ СЛ СЛ СЛ Г— 00 00 СО 00 0H000 ~*~4~, 00 СЛ СЛ СЛ СЛ О О О t-t-oooo oo оооосл g к 3 I «*• юю сою ю ю ю ю ю cO со со со cO cocot-t-t- Ю Ю Ю CO CO со со со ^ со COCO CO^t" Tf t-r-1- CO CD CO CN CM CM CO CM —< CM CM CM CM см со со со со CM CM CM CM CM со со со со со CM CM CM CM CM COCOCOCOCO CMCMCMCMCM *—< ело "US см t-со см см СМО СЛ00 t- CO Is- t- 00 СЛ со со со со со ;s?§t . . . jfe )MON< - о t- c- - 5Г-С t-COC ~-t CO I w- CMC ЮЮк _. _> Г- ЮС0 со со со со со 00 r^COCO « C7) 00 f*- CO COCO h» 00 O5 coco со со со о со ю '—< CM CO " о Ю Ю С ю** со осм^ ююю C7>lOC0f оо со^ см см см со тр ю со coco со со 5СЛ t— СОЮ 3COt- 00 СЛ 5 CO CO CO CO 0) s я СО "^ t4- СО СО см см со ^ ю со со со со со 5 CO CO CO I I ел со о oo с СЛ t- ЮСМ < ~* CM CO^t* I со со со со с "-* СМ СО "*4* ^ со со со со со О СО 00 СО СО ОО ^-Ю Tf CO ю со^- оо а> coco coco со * ^И О t4^ СО ) СО Ю СО СМ ) СО -Г4- 00 СТ> 5 СО СО СО СО 00-^ t со io со *—* ел со со со со со СО СО *™^ 00 I4* С^Юч^СМ^ со со coco со СО *"^ *•"* СО -^ СМ СО "^ СОГ»- 00 СЛ ЮЮ1 СО I4- ь-сл -^ см >СМ00ЮЮ ООСООСЙМ t-Tt*rh >ослелел ел о •—«•—< со ^f со со TfCOt-ООСЛ О^СМ 1-й 1-— ^< СО lO(NO 00 CM CO ^ j« NlO(NO 00 *-"• CM CO "^ Tj« со со со со со Ю 00 СО СЛ 00 СО^ СО^-^ О ю cot— оо ел со со со со со ООЮЮ t-СМСЛООО ЮСМСМ °°"-^ -" "* СООрСЛ О -и СМ i ОСОСЛСОЮ N •^'^'СЛГ-. со со со со со СОСЛ -*r-<O) юсосм ~* a> ю cot— oo oo COCOCOCOCO О CO 00 СОЮ СЛ 00 t*— t— Is- ел о«—* см со -—<со t—с Г>0О0О<й< t со СО *~н CM CO CO 'sj' со со со со со ОО^Ю ^ co-^o __ Ю CD t- 00 OO со со со coco о -* ** ел сою ел оо г*- сососо ОО СЛО "-"СМ СО СО Т ^^ 4 *— г— со оо г— г*- оо ел Ю СО t4- 00 см ел со ююю H 22 ю со t-со ел О CN СО СО СО COTh Ю COt— ООСЛ СО СО СО СО СО СО СО
о© OOi CMCMtMCO CO ооооо CM <N CM CO CO ©_ — —.-« ю ю со со со со со •**• "*• rh CM (N CM CM CO N- N-N-00 O) ююю со со CO CO ч*"«« rj« O> 0H 00 N. N- N- 00 00 Ю Ю Ю CO CO O) 00 N- 00 00 CO CO оо оо оо со о> N. Г^ N. Г^ N» N. 00 00 00 00 Ю Ю Ю СО СО СО СО СО СО СО ООО—«*-« —« ~< CM CM CM CMCOCOCOrf' СО 00000HH) 0HH00 О —« 1-н •-««—< Ю N•00000000 00000HH) Tt1 СО СО СО СО СО СО СО N- N» N» СО со со со со oo со со со со со —< (N (M CM CM CM CM CM CM CM CN <N(M(N (N —• СОО 00 ~* о < si Ю CO CO C I СО О) СО 00 -GOO)—"С" lOOOf TtO ^^^ 00 CN CO N- 00 O) —* CN Ю IQ Ю CO CO CO CO CO CO N1 N-N-O N. N. СО СО СО СО N» —< СО—* N-C0 ч$« Ю^ 00 О СО СО СО СО N» )COC I О) С ОО) СМОСМ »—» О) О) О) О) 00 00 00 00 00 ;§ « ОСМ^ СО 00 СО 00 00 00 00 SggS _ . ^ О) О) _) СО СО О 00 »-^ СО Ю^ОО N-N•N•1^ N- юсм т*« N- о со СМ тГ CN CD 00>CN CD CO N* C^ lO Ю Ю Ю СО СО МОЮ С Ю 00 CO'—• CO N« О ^ 00 СЧ CO 00 O) OCM IQ lO lO CO CO NCOOllOlO О) ^!^ О) lO *~^ со ю со оо о N» О) ^!^ О) lO ^ со ю со оо о СО СО СО СО N СО '—« СО О) С 00 СО 00 СО С со со со со с 00 CO 00 CO (N CO— CO CM 00 CO ЮСО00 O> со со со со со »-• 00 OiT** <N CO CM O> N-IO Ю ^ CO CO CO о см -^ со oo 00 00 00 00 00 ЮСМ "ФО О CO (N *--< ^н »-i О CM ^ CO 00 00 00 00 00 00 t*^ ^* 1Л СЭ C> »—• О O> O) O) OiNOOWN 00 00 N> 00 00 CON- CM COC CO t4 CO 00 С * COC со ¦"^ C4! ^f CO 00 О CN ^f CO 00 Ю O) O) O) O) O) lOTt<OH0C0 о» о*— со со OCM-^t* COOO 00 O> O> O) O> Oi COC 00 С Si CO N> О) 1СЮЮ О) —« СО СО ^ тр 00 ""н Ю О> юююоео D00 СМ05О МОЮ COCO > О Ю О С IЛ СО 00 С > со со со с о со О) i ^ CON-C со со со с —< СМ СО' N-CM N-C тР CON- С со со со с OJ О) СО СО ~~* у* CM Tf СО 00 N-N-N-N-N* СМ 00 N- — 00 ~« N-^CMO) ооююоо О5 00 N- N. N- N-ООО0 00 00 О СО СО — О 00 СОЮ Ю Ю О)»— СО Ю N- N•00 00 00 00 CM N-N-—*О со ^J* со со со О) «—• СО Ю N- N-00 00 00 00 О)—« СО СО00 СО 00 О) О) О) О) т}— CO^N- Ю СО N- О) ^ О) —СОЮ00 СМ 00 О) О) О) О) 00 О> О) О) О> SS СО ^^ 00 СО СО *^^ f**1- t4-. *"¦* 00 СМ Ю 00 СМ СО нЮОйн CO N- 00 О —< СО ^ СО N. О) Ю lO lO СО СО СО СО СО СО СО О)^ СО СО СМ N- Tt4 -н ОО СО NCM-* 125N со оо оо »—¦ о N* 00 00 00 00 соос *-• CMC %?1 ЮСО^ООО) O^(NC0"^ ЮСО^ООО) О — СМСОч* ЮСО^ООО) N» N" г* N. Is* 0000000000 0000000000 (J) СП Oi С?) О) О> О) О) О) О) 23
число х, такое, что ах = у. Это число х называется логарифмом у по основанию а и записывается: х = fllog у или loga у. Число у называется логарифмируемым числом по основанию а. В большинстве случаев используются логарифмы по основанию 10, записываемые 10log x9 logio x или просто lg x. Другие системы логарифмов будут упомянуты в конце этого раздела. Пусть а = 10 и у = 3, тогда получаем десятичный логарифм х — 0,4771, или 10 °'4771 == 3. Другие примеры с четырехзначными логарифмами: 5 = Ю0.6990 или ig 5 = 0,6990; 1 = 100'0000 или lg 1 = 0; Ю = 101.0000 или jg ю = 1,0000; 1000 = 103 или lg 1000 = 3; 0,01 = Ю-2 или lg 0,01 = —2. Так как логарифмы есть показатели степени, для них справедливы правила возведения в степень, например: 2»4 = 100'3010.100'6021 = 100>3010+0'6021 = Ю0'9031 = 8. Умножение чисел преобразуется в сложение логарифмов этих чисел и соответственно деление — в вычитание, возведение в степень — в умножение, извлечение корня — в деление: 1) lg (ab) = f 2) lg-f-lga-lgfe; о 3) 4) lg lg an = n ]/~a=z\gt lgtf; l l г n = — n Если мы запишем а == 10^a, то а — логарифмируемое число, или антилогарифм, lg a — десятичный логарифм от а, он состоит из двух компонент, например: lg 210,0 - lgB,M02) = Ig2,l + lglO2 = 0,3222 +*2 =*2,3222; lg 21,0 - lg B,1 -101) = lg 2,1 + lglO1 = 0,3222 + 1 = 1,3222; lg 2,1 = lg B,1-10°) = lg 2,1 + lg 10° = 0,3222 + 0 = 0,3222; lg 0,21 = lg B,l-10-1)= lg 2,1 + lg Ю-^0,3222 — 1. Цифры после запятой логарифма (здесь 3222) называют мантиссой (М). Мантиссу находят по таблицам логарифмов (табл. 2), которые лучше называть таблицами мантисс логарифмов. Мы привели четырехзначные мантиссы, которых обычно бывает достаточно; на практике пользуются, когда нет вычислительной маши- 24
ны, или счетной линейкой, или, когда требуется более высокая точность, пяти (или более)-значными таблицами логарифмов. Цифры перед запятой B, 1, 0, —1) называют характеристикой логарифма (X). Логарифмируемое выражение записывают, как в предыдущих 4 примерах, ё следующей форме: Г Последовательность цифр с запятой"] Логарифмируемое выражение = -10. [ после первой значащей цифры J Пример. Найдите логарифмы для: а) 0,000021 = 2,ЬЮ-6; lg B,Ы0-5) = 0,3222—5; б) 987000 = 9,87-105; lg (9,87-105) = 0,9943+5 = 5,9943; в) 3,37 = 3,37-10°; lg C,37.10°) = 0,5276+0 = 0,5276. Если при вычислениях корней появляются отрицательные характеристики, то необходимо эти характеристики представить в форме, делимой на показатель корня. Пример. Вычислите >Л),643. lg 0,643 = 0,8082 — 1 = 2,8082—3; Ig3/O643 - lg 0,6431/3 = 1/3 B,8082—3) = 0,93607 — 1; 1^643 = 0,8631. Перейдем к обратной операции — определению логарифмируемого числа по логарифму, антилогарифмированию. Отыскание антилогарифма производится в конце вычислений с помощью логарифмов по таблицам (табл. 3) аналогично отысканию логарифмов. Если нужно найти антилогарифм, то нужно при отрицательном значении логарифма мантиссу преобразовать в положительную форму, например: lg*= —5,7310 = ( — 5,7310 + 6) — 6-0,2690-6. Мантисса без характеристики употребляется для отыскания антилогарифма с запятой после первой значащей цифры. Значение X, положительное или отрицательное, дает показатель степени при 10: Г Последовательность цифр с запятой после! х • 10 = логарифмируемое выражение. L первой значащей цифры J Пример а) lg * = 0,2690 — 6; х = 1,858- Ю-6; б) lg х = 0,0899 — 1; х = 1,23-10; в) \gx = 0,5276; х = 3,37; г) \gx = 5,9943; * = 9,87-10б. Подведем итоги. Каждое вычисление с помощью логарифмов разделяется на 5 этапов: 1) формулировка задачи вычисления; 2) перевод в логарифмическую запись; 25
3) определение характеристики и нахождение мантиссы по таблице логарифмов; 4) проведение расчетов (с логарифмами); 5) нахождение антилогарифма по таблице. Характеристика определяет место запятой. Когда нет специальных таблиц антилогарифмов, приходится для обратного перехода пользоваться теми же таблицами логарифмов. Пример. Вычислите V- 89,493»5-У0,006006 0,001009а. 3601000*.2 Мы полагаем V- (8,949-10K >8*Уб,006-Ю-з A,009- 10-з)а. C,60Ы06L'2 Тогда \gx = -g- ({lg (числителя)}— {lg (знаменателя)}) = -g-({3,5x X lg (8,949 • 10) + ~ lg F,006 • 10-3)} — {2-lg A,009 * 10~3) + 4,2x XlgC,60M0e)}). Число 8,949-101 6,006-lO Числитель 1,009.10"* 3,60Ы0б Знаменатель Логарифм 0,9518+1 0,7786-3=1,7786—4 0,0039-3 0,5564+6 Множитель 3,5 0,5 2 4,2 Логарифм 6,8313 0,8893-2 5,7206 0,0078-6 27,5369 21,5447 lgх = -i- ({5,7206}-{21,5447})= -f ({23,7206-18} -{21,5447}); 6 О lg x = i- B,1759— 18) = 0,36265— 3. 6 Искомое значение х = 2,305-10~~3. В заключение следует упомянуть, что так называемые натуральные логарифмы (In) (см. табл. 29 и 36) в качестве основания имеют постоян- 26
ную ее-2,718281 (предел ряда е = 1 + 4" + 1~2" + 1 . 2 ¦ 3 + + 1-2.3.4 + —•)• • Формулы пересчета имеют вид: In х = In 10-lg x ~ 2,302585 • lg *; lgJC = lge-lnjc ~ 0,4342945-In л:. Вместо «In jc» иногда встречаются записи «'log x» и «loge a:». Логарифм по основанию 2, двоичный логарифм, Id (или lb [binar, состоящий из двух единиц]) получается по формулам: lg 2 ldx= —~ 1,442695-In л In 2 или из таблиц (например, [В. Alluisi, 1965]). 0.3. ВСПОМОГАТЕЛЬНЫЕ СРЕДСТВА ДЛЯ ВЫЧИСЛЕНИЙ Обычным для исследователя вспомогательным средством для вычислений является вычислитель [Lehmann, 1966], [Stender, 1967], с помощью которого достигается повторяемость результатов вычислений в лучшем случае до третьего знака. Медленнее, но точнее рассчитывают по табл. 2 и 3. С помощью шестизначных логарифмических таблиц можно получать в результате пять значащих цифр. Удобнее, однако, применение современных печатающих 12-знач- ных электромеханических или электронных настольных вычислителей. При очень больших расчетах, в особенности с большим числом переменных, целесообразно применение электронных установок обработки данных. Для многих случаев имеются уже готовые программы. Наряду с вычислительной машиной и счетной машиной для вычислений при статистическом анализе требуется ряд числовых таблиц, например, квадратов и квадратных корней. Рассмотрим такую таблицу: табл. 4 в 1 и 6 столбцах содержит числа от 1 до 100, в следующих справа столбцах — квадраты чисел, в следующих — корни квадратные из п и Юл и обратные значения 1//г. Например, для п — 36, /г2 = = 36-36 = 1296, квадратный корень из 36 равен У36 = У(Гб = 6; квадратный корень из 10-36 = 360 равен УЗбО = 18,974 D столбец). Обратное значение, записываемое 1//г, равно 1/36 = 0,02778 E столбец). Примеры на извлечение корней: = 8,307; У 0^9 = 0,8307; ]/6900 - 83,07; |/б^=2,6268; У690- 26,268; ]/69000 = 262,68. 27
Таблица 4. Квадраты, квадратные корни и обратные значения чисел от п—\ через 1 до 100, или в символической записи 1A) 100 п 1 2 3 4 5 6 7 8 9 10 И 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 1 4 9 16 25 36 49 64 81 100 121 144 169 196 225 256 289 324 361 400 441 484 529 576 625 676 729 784 841 900 961 1024 1089 1156 1225 1296 1369 1444 1521 1600 1681 1764 1849 1939 2025 2116 2209 2304 2401 2500 /я 1,000 1,414 1,732 2,000 2,236 2,449 2,646 2,828 3,000 3,162 3,317 3,464 3,606 3,742 3,873 4,000 4,123 4,243 4,359 4,472 4,583 4,690 4,796 4,899 5,000 5,099 5,196 5,292 5,385 5,477 5,568 5,657 5,745 5,831 5,916 6,000 6,083 6,164 6,245 6,325 6,403 6,481 6,557 6,633 6,708 6,782 6,856 6,928 7,000 7,071 >Лол 3,162 4,472 5,477 6,325 7,071 7,746 8,367 8,944 9,487 10,000 10,488 10,954 11,402 11,832 12,247 12,649 13,038 13,416 13,784 14,142 14,491 14,832 15,166 15,492 15,811 16,125 16,432 16,733 17,029 17,321 17,607 17,889 18,166 18,439 18,708 18,974 19,235 19,494 19,748 20,000 20,248 20,494 20,736 20 976 2^213 21,448 21,679 21,909 22,136 22,361 1/я 1,00000 0,50000 0,33333 0,25000 0,20000 0,16667 0,14286 0,12500 0,11111 0,10000 0,09091 0,08333 0,07692 0,07143 0,06667 0,06250 0,05882 0,05556 0,05263 0,05000 0,04762 0,04545 0,04348 0,04167 0,04000 0,03846 0,03704 0,03571 0,03448 0,03333 0,03226 0,03125 0,03030 0,02941 0,02857 0,02778 0,02703 0,02632 0,02564 0,02500 0,0243а 0,02381 0,02326 0,02273 0,02222 0,02174 0,02128 0,02083 0,02041 0,02000 п 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 /12 2601 2704 2809 2916 3025 3136 3249 3364 3481 3600 3721 3844 3969 4096 4225 4356 4489 4624 4761 4900 5041 5184 5329 5476 5625 5776 5929 6084 6241 6400 6561 6724 6889 7056 7225 7396 7569 7744 7921 8100 8281 8464 8649 8836 9025 9216 9409 9604 9801 10000 /л" 7,141 7,211 7,280 7,348 7,416 7,483 7,550 7,616 7,681 7,746 7,810 7,874 7,937 8,000 8,062 8,124 8,185 8,246 8,307 8,367 8,426 8,485 8,544 8,602 8,660 8,718 8,775 8,832 8,888 8,944 9,000 9,055 9,110 9,165 9,220 9,274 9,327 9,381 9,434 9,487 9,539 9,592 9,644 9,695 9,747 9,798 9,849 9,899 9,950 10,000 ¦p/lO/г 22,583 22,804 23,022 23,238 23,452 23,664 23,875 24,083 24,290 24,495 24,698 24,900 25,100 25,298 25,495 25,690 25,884 26,077 26,268 26,458 26,646 26,833 27,019 27,203 27,386 27,568 27,749 27,928 28,107 28,284 28,460 28,636 28,810 28,983 29,155 29,326 29,496 29,665 29,833 30,000 30,166 30,332 30,496 30,659 30,822 30,984 31,145 31,305 31,464 31,623 1/я 0,01961 0,01923 0,01887 0,01852 0,01818 0,01786 0,01754 0,01724 0,01695 0,01667 0,01639 0,01613 0,01587 0,01562 0,01538 0,01515 0,01493 0,01471 0,01449 0,01429 0,01408 0,01389 0,01370 0,01351 0,01333 0,01316 0,01299 0,01282 0,01266 0,01250 0,01235 0,01220 0,01205 0,01190 0,01176 0,01163 0,01149 0,01136 0,01124 0,01111 0,01099 0,01087 0,01075 0,01064 0,01053 0,01042 0,01031 0,01020 0,01010 0,01000 28
Величина п в табл. 4 называется независимой переменной, или аргументом. Зависящие от нее величины /г2, V/г, VlOn и \1п называют зависимыми переменными, или значениями функции, от соответствующей независимой переменной. Например, при аргументе п = 10 квадратный корень (или значение функции) равен 3,162. Это значение округляется до третьего десятичного знака B). При применении табл. 4 или подобных таблиц следует обратить внимание на следующее: квадратный корень из чисел свышеЮ00(>1000) и меньше 1(<1) определяется просто, так как любое число b может быть записано в виде Ь = а-10±*от при 0 ^ а <С 1000 и т — положительном целом числе, откуда: уь=У'а • 1 о±2т=У<* •!0±m; /Шб =/89-102 = 9,434-10 = 94,34; 1/89000 = /890-102 = 29,833.10 = 298,33; /0,000011 = /0,0000011 =]/110«10-8=10,488.10-4. Линейная интерполяция Определим корень из 126. Корни из 120 и 130 соответственно равны 10,954 и 11,402. Очевидно, что искомое число должно лежать между двумя этими значениями. Эта так называемая табличная разность составляет 0,448. Шесть десятых этой разности, т. е. —т§— = 0,2688 ~ ~ 0,269, нужно прибавить к 10,954 (корню из 120), чтобы получить корень из 126: V126 ~ 11,223. Точное значение равно 11,225. Эта так называемая линейная интерполяция в нашем случае дала вполне приемлемую точность. Если требуется большая точность, то нужны более подробные таблицы квадратных корней из чисел от 1 до 999. Соответствующие таблицы можно найти в списке литературы, относящемся к разделам 2 и 5.1. Итеративное определение квадратного корня В качестве примера приближенного метода определения квадратного корня из числа а рассмотрим так называемый итеративный способ— квадратный корень из положительного числа a: x=Va при а > 0 быстро вычисляется с помощью пошагового приближения (итеративного, от лат# iteratio — повторение), с помощью повторного вычисления среднего значения по формуле = --rfc + — ),*= 1,2,3,... В качестве начального значения хг принимается'значение, меньшее, чем значение корня, хг < У а и х\ < а, чтобы слагаемое а/х± приводило к увеличению приближенного значения. Итерационная процедура 29
продолжается до тех пор, пока не будет^стигйута желаемая точность. Если, например, нужно определить VlO (а = 10) и мы в качестве хг принимаем 3C2 = 9 < 10), то получаем: ^ = 3; а\хх =10/3 = 3,33333; х2= 1/2C + 3,33333) = 3,16667; х2 = 3,16667; а/х2 = 10/3,16667 = 3,15789; лг3= 1/2 C,16667+ 3,15789)=3,16228 и т. д. _ Точное до 7-го знака значение VlO = 3,162277. Кубический корень (например, уг8 = 2, так как 2-2-2 = 23='8) соответственно может быть рассчитан по формуле = 4-B*,+41 *= 1,2,3... Так как электронные вычислительные машины с программным управлением рассчитывают необходимые значения функций, а не берут их из таблиц, то приближенные методы, аппроксимация, играют весьма большую ролы Привлекая эти вспомогательные средства для вычислений, следует также учесть следующие рекомендации: 1. Построить схемы вычислений — определить последовательные этапы вычислений. Большие вычисления необходимо хорошо продумать и подготовить так, чтобы их можно было провести с привлечением неквалифицированной помощи. Наглядная схема вычислений, которая содержит общий план вычислений и по которой планомерно проводятся эти вычисления, помогает также избежать ошибок. 2. Разграфленную бумагу использовать только с одной стороны, большие поля оставлять для повторных вычислений, неправильные цифры зачеркивать, а правильные подчеркивать. 3. Проводить приближенные вычисления, чтобы избежать ошибок из-за неправильной постановки запятой, проверять вычисления! Каждой вычислительной операции должно предшествовать {или следовать за ней) приближенное вычисление, в результате которого по крайней мере надежно определяется место запятой. При этом рекомендуется запись со степенями 10: q 167 = /57.10-1 — ^* Ю~а» точное значение до 3-го знака 5,413'-10-2. 4. Когда возможно, необходимо для лучшего контроля задачу еще раз решить другим способом. 0.4. ОКРУГЛЕНИЯ Если нужно величины 14,6; 13,8; 19,3; 83,5 и 14,5 округлить до ближайших целых чисел, то для трех первых величин это не вызывает затруднений: 15; 14 и 19. Для следующих величин можно рассматривать числа 83 или 84 и 14 или 15. В таких случаях округление целесооб- 30
разно проводить до ближайшего четного числа, так что 83,5 переходит в 84, а 14,5 — в 14. При этом нуль рассматривается как четное число. Чем больше значений, входящих в сумму, определяется таким образом, тем меньше будет ошибка округления. В последнее время рекомендуется в подобных случаях всегда округлять в большую сторону (т. е. 14,5 до 15). Рекомендуется отмечать округления в меньшую сторону точкой над последней цифрой, а округления в большую сторону — штрихом под последней цифрой; особенно это важно, если последняя цифра равна 5 E и 5). Важным является также понятие значащих цифр. Под значащими цифрами числа понимают последовательность цифр без учета места запятой, а для чисел, меньших единицы, — без учета нуля перед запятой и всех последующих за ним нулей. Табл. 5 сравнивает три округленных результата, число значащих цифр и получающуюся при этом точность, предельные границы результата, а также максимальную ошибку округления. Таблица Результат 4 4,4 4,44 5 Число значащих цифр 4 2 3 Граничные значения ошибки 3,54-4,5 4,354-4,45 4,435-4,445 Максимальная ошибка (±1%) 0,5-F - —-юо 12,5 1,14 0,113 Из этогоследует, что если применяется метод, ошибка которого лежит в пределах 8%, то будет ошибочным выдавать результаты с более чем двумя значащими цифрами. Если перемножаются два числа, каждое из которых характеризуется1 л: точными или значащими цифрами, то максимум (х — 1) зна- чащихвцифр следует учитывать в произведении. То же справедливо и для деления. Пример. Рассчитайте площадь прямоугольника со сторонами 38,22 см и 16,49 см. Ответ 38,22-16,49 = 630,2478 см2 был бы неверным, так как истинное значение может лежать между 38,216-16,486 = = 630,02898 см2 и 38,224-16,494 = 630,46666 см2. Эта площадь равна 630,2 ± 0,3 см2. Результат может содержать только 3 значащие цифры F30 см2). 0,5. РАСЧЕТЫ С ПРИБЛИЖЕННЫМИ ЧИСЛАМИ Если в вычислениях участвуют приближенные числа, то следует оценить так называемое преобразование ошибок. Для этого можно провести два параллельных расчета: один — с граничными значениями, приводящими конечный результат к минимуму, а другой — с граничными значениями, приводящими конечный результат к максимуму. 31
Пример 30 ± 3 область от 27 до 33 20 ± 1 область от 19 до 21. 1. Сложение. Истинное значение суммы этих двух чисел лежит между 27+19 = 46 и 33 + 21 = 54. Относительная ошибка суммы равна 54Т46 = щ = 0,08. Она лежит в пределах ±8%. 2. Вычитание. Истинное значение разности лежит между 27 — 21 =* 6 и 33 — 19 = 14 («перекрестное» вычитание, т. е. максимальное значение одного числа вычитается из минимального значения другого и минимальное значение одного числа из максимального значения другого). Относительная ошибка разности равна 3. Умножение. Истинное значение лежит в пределах от 27* 19 = 513 до 33-21 = 693. Относительная ошибка произведения равна: 513-30-20 в 513-600 ^_^= 30-20 600 600 693-30-20 693-600 93 30-20 =~ш"б?= +15>5/о- 4. Деление. Истинное частное лежит между 27/21 = 1,286 и 33/19 = 1,737 («перекрестное» деление). Относительная ошибка частного: 1,286-30/20 =_JL2Ij 143> _14,3% 30/20 1,500 ИЛИ Ц37- 30/20 _ 0,237 п , ,я ¦ i* qoz = = U,lOo, -4- 1о,ол). 30/20 1,500 ' ' Из всех четырех арифметических операций наибольшую ошибку может дать вычитание, относительная ошибка при котором значительно больше, чем при остальных арифметических операциях. 0.6. ПРИБЛИЖЕННЫЕ ФОРМУЛЫ ДЛЯ ВЫЧИСЛЕНИЙ С МАЛЫМИ ЗНАЧЕНИЯМИ Если а, 6, с суть малые в процентном выражении относительные ошибки, то произведениями вида а2, аб, be2 при многих вычислениях можно пренебречь. На с. 33 приведены некоторые приближенные формулы для вычислений с малыми значениями. Абсолютное значение числа обозначается двумя вертикальными черточками, значение \а\ всегда положительно, вне зависимости от знака (например, |—2| = |+2| = 2). 32
№ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Функции и приближенные формулы A +а) A ±Ь) ~ \+а ± Ь для \а\ > |*| A + а) A + Ъ) A + с) с* 1 + а + 6 + с для |а| ^ \Ь\ > |с| -i/" 1/2 ^ ~~ ~ "" 2 / l+fl=(l±fl) ^1± 3 yi5-,.±.,«-i*-J- 1 х= Aч-а) 2 ?^ 1+а 1±а 1 1 —=г = A-4~а) — 1 -Ь — у 1+д 2 1 -1/3 а -^ ^ 1 + 2а \±а /l + я 1 \ ~ * 1 i An ±а л , In A±а)^ ±а lg A±а)^ ±0,4343а 1 — а ~ а lg ?^и,ооооа 1 —а Ошибка <0,001 для \а\ ^ 0,031 0,017 0,089 0,095 0,100 0,032 0,018 0 014 0,052 0 0fi7 V/, \J\JI 0,022 0,045 0,011 0,045 0,045 0,068 0,120 0,152 930
Если не превышается заданное максимальное справа значение |а|, то ошибка приближения меньше чем 0,001. Если мы проверяем фор- МУЛУ ьЬ" — 1 — а: для а = 0,031 Г+Тоз!= °'96 1—0,031= 0,96900 0,00093 <0,001; для а = 0,032 ^±—- = 0,96899 1 —0,032= 0,96800 0,00099 < 0,001; для а == 0,033 ! = 0,96805 1+0,033 1 —0,033= 0,96700 0,00105 > 0,001, то максимальное значение для \а\ получается равным 10,0321. Примеры 1. Приближенная относительная ошибка произведения C0± 10%) X ХB0±5%) согласно A) получается F00±10%±5%) равной±15%. D30+^М*в0+*5) у () р 2. Частному D30+^М*в0+*5) соответствует D30 + 4,89%) X X A60 + 9,38%)/C40 — 5,59%); согласно A) и F) приблизительная относительная ошибка равна E+9)+6 = 20% и результат —^— ± ±20%, или 202 ± 40, т. е. пределы 162 и 242. 3. Длина, ширина и высота кирпича равны хъ х29 xs см с относительными ошибками 0,01. Максимальная ошибка в объеме равна тогда 3% (см. [2]), максимальная абсолютная ошибка равна 0,03'Хх*х^хъ см3. 4. Согласно A.4, 1.5, 1.6) мы получаем: во,оз гки i?o3, до 5-го знака точное значение 1,03045; In A + 0,03) ~ 0,03 - » » » 0,02956; lg A + 0,03) ~ 0,013 » » » 0,01284? 0J. ОТНОСИТЕЛЬНЫЕ ЧИСЛА Относительные числа, такие, как, например, число рождений мальчиков на число рождений девочек, равное в ФРГ 1,07, —это отношения двух значений или характеристик, описывающих определенный процесс, явление. Часто это число умножают на 100 или на 1000 и дают его в процентах или в тысячных долях (концентрация алкоголя в крови). Зачастую совсем непросто образовать осмысленные, содержательные относительные числа. Мы здесь хотим упомянуть о том, что можно различать три вида этих чисел (см. табл. 6, а также [Mudgett, 19511, 34
Та 1. 2. 3. блица 6 Относительные числа Отношение части к целому Относительные числа Показатели Отношение Часть целого к целому Отношение чисел различного вида Отношение чисел подобного вида Возрастное Население Сравнение Пример деление на 1 км2 числа населения площади рабочих двух предприятий одной отрасли, рольный занятых день в конт- [Snyder, 1955], [Freudenberg, 1962], [Pfanzagl, 1964], [Crowe, 1965], [Craig, 1969]): 1. Отношение части к целому, которое в количественной форме выражает отношение части к соответствующему целому, например часть родившихся живыми от общего числа родов. 2. Относительное число, которое выражает в количественной форме отношение двух различных величин, логически взаимосвязанных, например число рождений на общую численность населения. 3. Показатель, отображающий в количественной форме отношение подобных величин, логически связанных друг с другом, но сгруппи* рованных по разным признакам, например число мертворожденных к числу родившихся живыми. Показатель в Англии и США называют также индексом. В Германии обычно только комбинации нескольких показателей, например их среднее значение, называют индексным числом или просто индексом. При выборе вида относительного числа для характеристики яв* леиия решающими являются соображения целесообразности* 0.8. ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ Графическое изображение в самом различном виде хорошо изйестйо из рекламы. Различают линейные, прямоугольные, плоскостные и объемные диаграммы (рис. 1). Прямоугольная диаграмма характеризуется постоянной шириной прямоугольника; для плоскостной диаграммы употребляют обычно или квадрат (площадь = а2), или круг (площадь = лг2); для объемной диаграммы используется куб (объем = а3). Поскольку при сравнении площадей и объемов легко ошибиться, то в смысле ясности изображения предпочтительнее линейные и прямоугольные диаграммы. Если элементы диаграммы дополнить распределением частот в процентах, то наглядность прямоугольной диаграммы (рис. 2) возрастет. При этом, как во всех процентных представлениях, необходимо общее число, соответствующее 100%-ному объему выборки, указать или на самой диаграмме, или в подписи к ней. 35
Линейные WO Прямоугольные WOr \50 70 С = С Диаграммы Плоскостные (Шдрат) (Круг) *~W rzifso V 7Г Рис. 1. Виды диаграмм. Объемные Графическое представление лежит также в основе координатной системы: две прямые, расположенные под прямым углом (рис. 3). Горизонтальная ось называется «ось лс», или «ось абсцисс», а вертикальная — «ось у», или «ось ординат». От точки пересечения прямых, начала координат или нулевой точки на прямых в четырех направлениях наносятся и отмечаются единицы измерения, причем вправо и вверх — положительные значения, влево и вниз — отрицательные. Теперь можно задать любую точку внутри системы. Например, точка х = 2 и у = 3, сокращенно B,3), представлена на рис. 3. Обычно используется положительная часть координатной системы, первый квадрант («вправо вверх»). Подробнее о методах графического изображения см. [Dickinson, 1963], [Bertin, 1967], [Bachi, 1968], [Lockwood, 1969], [Schon, 1969], [Spear, 1969] и [Wilhelm, 1971]. Указания о технике научно-исследовательских работ см. [Kjober, 1969], [Heyde, 1970] и [Kliemann, 1970]. (ордината) У 4 3 2 1 Точна -U -3 -2 -1 -1 -2 -3 -4 (-4-3) J 2 3 4 ^ Нулебоя точно системы координат Ось х (абсцисса) Рис. 2. Прямоугольная диаграмма в процентах (значения отдельных частей объясняются в описании). Рис. 3. Система координат. 36
ГЛАВА L СТАТИСТИЧЕСКИЕ МЕТОДЫ РЕШЕНИЯ ЗАДАЧ При первом чтении начинающему рекомендуется: ограничиться разделами, отмеченными #; быстро продвигаться вперед, обращая особое внимание на примеры, указания и трудные для понимания места оставлять для последующего изучения. ф 1.1. ЧТО ТАКОЕ СТАТИСТИКА! СТАТИСТИКА И НАУЧНЫЙ МЕТОД Основу экспериментальных наук образуют не единичные, изолированные события или признаки, относящиеся к отдельным индивидуумам или элементам, а повторяющиеся опыты, совокупности однородных опытов, рассматриваемые как единое, однородное целое. Когда Земмельвайс (Semmelweis) в 1947 г. в акушерской клинике в Вене преодолевал сопротивление своих коллег гигиеническим мероприятиям, он не знал ничего о возбудителе родильной горячки. Не мог он также и доказать своего успеха, так как и после введения этих мероприятий женщины продолжали умирать в его клинике от родильной горячки. Но смертность матерей при родах была снижена с 10,7% A840—1846 гг.) до 5,2% A847 г.) и до 1,3% A848 г.), причем эти проценты были вычислены Лески [Lesky, 1964] на основании достаточно большого числа родов B1120, 3375, 3556). Только после этого Земмельвайс пришел к убеждению, что гигиенические мероприятия надо принять. Статистические методы требуются всегда, когда результаты не могут быть точно повторены сколь угодно много раз. Причины такой невоспроизводимости лежат в неконтролируемых и не поддающихся контролю влияниях, в неоднородности объектов опыта, в изменчивости материалов и условий опыта. Эти причины приводят к «рассеянию» количественных признаков в ряду наблюдений. Так как вследствие этого рассеяния найденные значения почти никогда не воспроизводимы точно в естественнонаучных исследованиях и изменчивость отдельных признаков много меньше, чем в социальных исследованиях, то необходимо оставить надежду на возможность получения надежных однозначных 37
выводов, заключений. Рассеяние ведет к неопределенности, при которой возможны только неформальные решения. Это обстоятельство является основой одного из современных определений статистики, которое было предложено Абрахамом Вальдом (Wald) A902—1950): статистика — совокупность методов, которые дают нам возможность принимать оптимальные решения в условиях неопределенности. Описательная (дескриптивная) статистика ограничивается исследованием и описанием полных совокупностей. Современная индуктивная, или аналитическая, статистика исследует, напротив, только ре-_ презентативную, представительную часть совокупности, свойства которой нас интересуют. Наблюдения части распространяются по индукции на всю генеральную совокупность. При этом решающим является случайный выбор наблюдаемой части генеральной совокупности — выборки— по аналогии с лотереей. Мы называем выборку случайной, если каждая возможная комбинация равного числа элементов из генеральной совокупности имеет равную вероятность образовать выборку. Случайная выборка важна, так как только она позволяет распространить выводы на всю генеральную совокупность. Полное исследование почти всегда или невозможно, или связано со слишком большими материальными и временными затратами. Примерно за 9 лет удваиваются человеческие знания, 90% всех ученых, которые жили когда-либо, живут и работают в настоящее время [Price, 1969]. Могут быть выделены следующие 4 ступени научного метода: 1. Проведение наблюдений. 2. Выделение (абстрагирование) значимых элементов как основы для гипотезы или теории. 3. Развитие гипотезы теории с предсказанием новых результатов. 4. Сбор новых фактов, которые ревизуют (верифицируют) предсказания теории: наблюдения второго цикла. Полный цикл начинается снова. Выдвигается гипотеза, затем условия испытаний и их объем изменяются и уточняются до тех пор, пока не находится возможность требуемого улучшения, уточнения теории. Затем появляются новые результаты и гипотеза окончательно отвергается, формулируется новая гипотеза, которая согласуется с большим числом наблюдаемых факторов. Окончательная истина вообще не может быть достигнута в экспериментальной науке. Неудачные попытки опровергнуть определенную гипотезу укрепляют нашу веру в нее, однако окончательно доказать, что она справедлива всегда, не удается: гипотеза может быть только проверена, но никогда не может быть доказана! В описанном выше цикле познания статистика может применяться на всех четырех ступенях: 1) при выборе наблюдений (теория выборок); 2) при классификации, представлении и обобщении наблюдений (описательная статистика); 3) при формулировании и проверке гипотез (методы проверки гипотез). 38
Главную роль играет основанная на описательной статистике статистика индуктивная, или аналитическая (теория статистического вывода). Она позволяет распространить заключения, сделанные на основании выборки, на всю генеральную совокупность, установить закономерности у справедливые иене области наблюдений. Индуктивная статистика дает возможность с помощью сопоставления экспериментальных данных с результатами, вытекающими из вероятностных моделей (идеализированных ситуаций), вынести суждение о соответствии эксперимента существующим научным теориям; при этом высказывания, естественно, должны носить вероятностный характер и сообщать практикам информацию, необходимую для принятия решения. В теории оценивания необходимо принять решение о том, как можно наилучшим образом по выборке узнать характеристики генеральной совокупности. В теории проверки гипотез речь идет о том, к какой генеральной совокупности принадлежит данная выборка. Современная статистика интересуется двумя направлениями: получением данных (т. е. планами и проведением опытов) и анализом и интерпретацией данных, при которой из чисел «экстрагируется» максимально возможное количество информации. Так как плохо спланированный опыт мало информативен, что нельзя исправить самой лучшей статистической техникой, то планирование эксперимента становится особо важным составным элементом статистики (см. также с. 507—514). 1.2. ЭЛЕМЕНТЫ ВЕРОЯТНОСТНЫХ РАСЧЕТОВ Ненадежность решений может быть оценена количественно с помощью теории вероятностей. Или, иначе: идеи теории вероятностей позволяют получить оптимальные способы принятия решений. Поэтому в первую очередь мы обратимся к понятию «вероятность», • 1.2.1. СТАТИСТИЧЕСКАЯ ВЕРОЯТНОСТЬ В повседневной жизни мы встречаемся с различными видами высказываний, в которых используется слово «вероятность» (область значений от «предположительно» до «невероятно» [Walter, 1966]): 1. Рут, вероятно, счастлива замужем. 2. Вероятно, версия генерального прокурора верна. 3. Вероятность того, что выпадет «1», равна 1/6. 4. Вероятность рождения близнецов равна 1/82. Два последних предложения относятся к понятию относительной частоты появления события при одинаковых условиях. При бросании игральной кости мы предполагаем, что в среднем каждая сторона появляется одинаково часто, и, следовательно, ожидаем, что при частом повторении относительная частота, с которой будет появляться «1», равна примерно 1/6. Четвертое предположение исходит также из понятия относительной частоты. В последние годы наблюдается, что относительная частота 39
появления близнецов равна 1/82; таким образом,можно предположить, что предстоящие роды с вероятностью 1/82 могут принести близнецов. В первых двух предложениях условия для применения понятия относительной частоты не соблюдаются. Мы же хотим применять понятие «вероятность» только в тех случаях, которые допускают применение понятия относительной частоты. При частых повторениях относительная частота проявляет поразительную устойчивость. Исторически основой понятия вероятности послужило известное соотношение число благоприятных случаев число возможных случаев — определение вероятности, данное Я. Бернулли A654—1705) и П. С. Лапласом A749—1827). Здесь предполагается, что, как и при бросании игральной кости, все возможные елучаи4 (исходы) равновероятны. Значение вероятности (Probability = Р) изменяется от нуля до единицы: $<*Р]<*\- A.2) Невозможный результат имеет вероятность нуль, а достоверный — единицу. В повседневной жизни""обычно вероятность умножают на 100 и выражают в процентах @% <; Р ^ 100%). Вероятность выпадания любой грани геометрически идеальной однородной игральной кости равна 1/6, потому что любая из шести граней имеет равные шансы. Все шесть граней симметричной игральной кости считают равновероятными, хотя они, естественно, никогда не бывают одинаковыми, хотя бы потому, что на гранях стоят различные числа! Естественно, определение вероятности по Бернулли и Лапласу имеет смысл только тогда, когда все возможные случаи равновероятны, статистически симметричны. Это имеет место в обычных азартныхиграх (орлянка, кости, карты и рулетка). В них наблюдается физическая симметрия, которая имеет следствием и статистическую симметрию. Статистическая симметрия является, безусловно, необходимой в приведенном выше определении вероятности. Речь идет при этом об априорной вероятности, которая может быть также названа математической вероятностью*. При несимметричной игральной кости нет основания говорить о статистической симметрии и нельзя для расчета вероятности воспользоваться приведенным выше соотношением. Здесь может помочь только эксперимент с большим числом бросаний кости. В этом случае говорят об апостериорной вероятности, или о статистической вероятности. Различие между * математической и статистической вероятностью заключается лишь в способе определения самого значения вероятности. Аксиоматическое определение вероятности принадлежит А. Н. Колмогорову A933), который понятие вероятности построил на основе сов- * Это определение вероятности в нашей литературе называется классическим, или, иногда, геометрическим. — Прим. пер, 40
ременной теории множеств, теории меры и на функциональном анализе (ср. [Waerden, 1951]) и тем самым создал теоретический аналог эмпирической относительной частоты (ср. также [Rasch, 1969]). # 1.2.2. ТЕОРЕМА СЛОЖЕНИЯ ВЕРОЯТНОСТЕЙ Совокупность (множество) возможных результатов исследования или опыта образует так называемое пространство событий Q*. Теперь можно поставить вопрос: попадает ли результат опыта в определенную часть пространства событий или нет? Случайные события могут относиться также к частям (подпространствам) пространства событий. При бросании кости пространство событий состоит из шести точек, которые мы нумеруем числами от 1 до 6. В этом примере пространство событий конечно. Но когда кость бросают до тех пор, пока не выпадет число 6, и фиксируется число потребных бросков, пространство событий бесконечно; тогда событиями могут быть все положительные целые числа [Walter, 1966]. Если производятся измерения веса человека или продолжительности сна, то в качестве события (результата измерения) может быть принята точка на натуральной оси. Пространство событий тогда составляют, например, все точки некоторого интервала. Подпространство пространства событий называется событием и обозначается прописной латинской буквой, обычно Е или Л. Следует заметить, что и все пространство событий Q также представляет собой событие, называемое достоверным событием I. В примере с игральной костью / = {1, 2, 3, 4, 5, 6}, т. е. / есть событие, заключающееся в появлении любого числа от 1 до^б. Пусть даньГсобытия Вг и Е2\ часто интересно, попало ли измерение в Ех или в Е2 (или в оба одновременно). Это событие определяется подпространством Ег ^ Е2 пространства событий, которое состоит из точек, принадлежащих Ег или ?2, или одновременно Ег и Е2. Композиция «или», логическая сумма Ег ^ Е2 (записываемая также Ег+Е2), читается как «Е1У объединенное с Е2» (эта композиция называется «объединением» — union) и означает наступление по крайней мере одного из двух событий Ег и Е2. Символ v напоминает букву v (ср. лат. vel, т. е. или — в неисключающем смысле). Пример: Это множество определяет событие: Ех или ?2, или оба вместе» Совершенно аналогично можно говорить о том, принадлежит ли измерение одновременно Ег и Е2. Это событие определяется теми точками пространства событий, которые принадлежат как Ег, так и Е2. Такое множество точек обозначается через Exs-\E2 (композиция «как—так и»), ¦ В советской литературе чаще встречается термин «вероятностное пространство!. — Прим. пер. 41
логическое произведение ( Е2 записывается также ЕХЕ2, читается р Х2 как «пересечение (intersection) Ег и Я2» и состоит в одновременном наступлении событий Ег и Е2. Например: Ег ^ Е2 = {2, 4} /-n {1, 2} = {2}. В случае если Ег и Е2 не имеют общих точек, то говорят, что события Ег и Е2 взаимоисключающие. Операция Ег г^ Е2 образует тогда так называемое пустое множество, которое не содержит ни одной точки. Пустое множество 0 соответствует невозможному событию. Для любого события Е может быть определено событие ?, которое состоит из тех точек пространства событий, которые не лежат в Е. Е (читается «не Е») является противоположным к Е событием, дополнительным "событием или логическим дополнением. Если, например, Е — четное число на игральной кости, то ? — нечетное, или Е = {2, 4, 6}, Е = {1,3, 5}. Очевидно, что E \^J1 = / (достоверное событие); Е ^ Е = 0 (невозможное событие). На приведенной ниже диаграмме отражены эти понятия. Яруги Эйлера > или диаграмма Венна A.3) Е-2Ш ЗаштрихоВано - Заштриходано Е Заштриходано Согласно A.2) вероятность Р (Е) того, что при измерении измеряемая величина х попадет в Е, есть число между нулем и единицей. Для того чтобы сделать основные статистические выводы, предположим, что каждому событию Е может быть сопоставлена его вероятность Р (Е). Это сопоставление не только необходимо, но и достаточно для следующих правил (аксиом теории вероятностей): I. Каждому событию соответстёует его вероятность, число между нулем и единицей: 0<Р(?)<1. A.5) II. Достоверное событие имеет вероятность, равную единице: Р (/) = 1. A.6) 42
III. Вероятность того, что из нескольких попарно взаимоисключающих событий (Et /-ч Ej = 0 для i Ф /, т. е. два любых различных события взаимонезависимы) наступит хотя бы одно («вероятность или —или»), равна сумме вероятностей событий (теорема об аддитивности вероятностей для взаимонезависимых событий): Р (Ег ^Е2^ ...) = Р (EJ + Р (Е2) + ... A.7) Поскольку Е /^ Е = 0 и 1 = рA) = р(Е w Е) - Р(?) + Р(?), тоР (Е) = 1 — Р(Ё). A.8) Примеры на аксиому III 1. Вероятность выпадания 3 или 4 при бросании игральной кости равна 1/6 + 1/6 = 1/3. При достаточно большой серии испытаний число выпаданий 3 или 4 также равно примерно 33%. 2. Если в тотализаторе на скачках поставить на трех лошадей, то вероятность выигрыша равна сумме шансов каждой лошади прийти первой. Вероятность того, что из двух событий Ех и Е2у которые не являются взаимоисключающими, наступит хотя бы одно, определяется следующим выражением: Р (Ех v E2) = P (EJ+P (E2)-P (Ex rs E2). A.9) Диаграмма Венна (а) показывает, что если мы просто просуммируем Р {Eij и Р (Е2), то вероятность «как — так и» Р (Ег /^ Е2) будет участвовать в этой сумме дважды. Это есть теорема сложения вероятностей для взаимозависимых событий. Примеры 1. Пусть из колоды в 52 карты вынута одна и нас интересует вероятность того, что эта карта является тузом или имеет бубновую масть, — эти случаи не взаимоисключеиы; тогда получаем, что вероятность появления туза Р (Е-^ = 4/52, появления масти Р (Е2) = 13/52 и появления бубнового туза Р (Ег г\ Е2) == 1/52: Р (Е1 w ?2) = = Р (Ег) + Р (Е2) — Р{Ег^ Е2) = 4/52 + 13/52 — 1/52 = 16/52 = = 0,308. 2. Пусть вероятность того, что будет дождь, равна 0,7, что будет снег — 0,35, и что оба этих случайных события произойдут одновременно — 0,15. Тогда вероятность плохой погоды равна Р (Е^ Е2) = = Р (Ег или Е2, или оба вместе) = 0,70 + 0,35 — 0,15 = 0,90. 3. Пусть события Ег — появление дамы, Е2 — появление масти черви. Пространство выборок состоит из 32 различных карт, которые могут появиться с равной вероятностью; имеем Р (Ег) = 4/32 и Р (Е2) = = 8/32. Вероятность появления дамы червей Р (Ек ^ Е2) = 1/32 = = Р (Ег)-Р (?2), так что события появления дамы и масти черви независимы. Предположим, что в колоде отсутствуют две карты масти червей (не дама), тогда Р (Ег) = 4/30, Р (Е2) = 6/30, но Р (Ег ^ Е2) = - 1/30 ^Р^.Р^) (ср. с. 44). 43
• 1.2.3. ТЕОРЕМА УМНОЖЕНИЯ ВЕРОЯТНОСТЕЙ ДЛЯ НЕЗАВИСИМЫХ СОБЫТИЙ: УСЛОВНАЯ ВЕРОЯТНОСТЬ И НЕЗАВИСИМОСТЬ На двух предприятиях изготавливаются лампочки накаливания, соответственно 70 и 30% общей продукции. Испытания показали, что из 100 ламп первого предприятия 83 выдерживают нормальный срок службы, а для второго предприятия — только 63. В среднем из 100 ламп 77 нормальных @,83-70+0,63-30), т. е. вероятность купить нормальную лампу равна 0,77. Предположим, что приобретена лампа первого предприятия. Тогда вероятность того, что она исправна, равна 0,83. Безусловная вероятность приобретения исправной лампы равна 0,77; условная вероятность (условие — изготовлена на первом предприятии) равна 0,83. Две брошенные кости дают независимые результаты. Если же они связаны ниткой, то независимость нарушается, причем тем сильнее, чем короче нить. Пусть мы бросаем кость и выпадает 6; при следующем броске шанс снова выкинуть 6 не уменьшается! Он остается равным 1/6 для любого броска. Естественно, предполагается, что в результате броска кость не деформируется. 1. Под условной вероятностью события Еъ при условии, или предположении, что событие Ег наступило — записывается Р (Е2 \ Ег) — будем понимать вероятность, определяемую следующим выражением: AЛ0) что справедливо, естественно, только при Р (Ег) Ф 0, или Р(Е,\Е2)= Р(^?2) A.10а) при Р (Е2) ф 0. Из этих выражений следует теорема умножения вероятностей для одновременного наступления событий Ёх и Е2: Р (Ег ~Е2) = Р {Ег).Р (E%\EJ = р 2. Два события Ег и Е2 называются стохастически независимыми, когда P(Et\EJ = P(Ej A.12) или P&lEl^PiEJ. A.12а) Из этого следует теорема умножения вероятностей для независимых событий.: Р{Е1^Е2)^Р{Е1)^Р{Е2). A.13) Эта теорема справедлива для любого конечного числа независимых событий: Р (Ег ^Е2^ ... /-n Еп) = Р (Ег)-Р (?2)-...-Р (Еп). A.13а) Теперь мы можем дать следующее определение: события являются взаимонезависимыми, если для них справедлива формула A.13а). 44
Примеры применения теоремы умножения вероятностей для независимых событий 1. Какова вероятность того, что при трех бросках игральной кости выпадут три шестерки? 1/6.1/6.1/6=— ?* 0,005. В серии из 216 бросков только один раз подряд появились три шестерки. 2. Какова вероятность того, что в серии из четырех бросков хотя бы один раз появится шестерка? Определим «хотя бы один раз» через отрицание «ни одной шестерки»; вероятность непоявления шестерки в одном броске равна 5/6, в четырех бросках — E/6L = 0,482; тогда вероятность появления шестерки равна 1 — E/6L = 0,518, т. е. немного больше, чем 1/2. Это обещает прибыль в пари на появление хотя бы одной шестерки в четырех бросках, если имеется терпение, деньги и игральная кость безупречна. Аналогично может быть поставлен вопрос: когда имеет смысл держать пари на появление двух шестерок подряд в серии? Вероятность непоявления двух шестерок подряд равна 35/36, так как имеются 36 равновероятных событий 1—1, 1—2, ..., 6—6. Тогда вероятность в п бросках получить по крайней мере хоть один раз две шестерки подряд равна Р = 1 — C5/36)". Р должно быть больше 0,5, т. е. C5/36)" < 0,5, п lg C5/36) < lg 0,5, откуда п > 24,6. Мы приняли п lg C5/36) = lg 0,5 и получили п_ lgO,5 _ lgO,5 _ 9,6990—10 _ — 0,3010 П ^C5/36) Ig35 — Ig36 1,5441 — 1,5563 —0,0122 Итак, можно держать пари на появление двойной шестерки в 25 бросках; вероятность этого события немного больше, чем 50%. Шевалье де Мере выиграл большую сумму денег на пари — при четырехкратном броске появится хоть одна шестерка, — и проиграл ее, поспорив на появление двух шестерок подряд в серии из 24 бросков: 1 — C5/36J4 = 0,491 < 0,5. Переписка Пьера де Ферма A601—1665) и Блеза Паскаля A623— 1662), из которой и получил Шевалье де Мере решение упомянутой выше задачи, привела в 1654 г. к появлению исчисления вероятностей, которое позже Якобу Бернулли A654—1705) послужило основанием для построения теории вероятностей [Westergaard, 1932], [David, 1962], [King, Read, 1963], [Freudenthal, Steiner, 1966], см. с. 514. 3. В юности от девушки своей мечты требуют греческого носа, тициановского цвета волос и первоклассного знания статистики. Примем, 45
что соответствующие вероятности равны 0,01; 0,01; 0>00001. Тогда вероятность того, что первая встреченная молодая дама (или любая выбранная случайным образом) обладает указанными качествами, равна Р = 0,01-0,01-0,00001 = 0,000000001, или одной миллиардной. Естественно предположить, что эти три признака не зависят друг от друга. 4. Три орудия стреляют независимо друг от друга в один и тот же самолет. Каждое орудие при данных обстоятельствах имеет вероятность попадания, равную 1/10. Чему равна вероятность того, что самолет будет сбит? Иначе говоря, чему равна вероятность хотя бы одного попадания? Вероятность того, что ни одного попадания не будет, равна (9/10K. Тогда вероятность того, что будет хотя бы одно попадание, равна /> = 1—(9/10K= 1—?*L=:-^L = 27,lo/o V ' 1000 1000 (ср. Р = \— (9/10J8 = 94,8% или Р = 1 — A/2L = 93,7%). 5. Из колоды вынимают четыре карты. Чему равна вероятность того, что: а) это будут 4 туза? б) карты будут одинакового достоинства? Вероятность вынуть из колоды одного туза равна 4/52 = 1/13. Если вынутая карта возвращается в колоду, то вероятность вынутЬ подряд двух тузов равна 1/13• 1/13 = 1/169; если не возвращается, то эта вероятность равна 1/13-3/51 = 1/221. При возврате карты вероятность события не изменяется, постоянна; без возврата карты эта вероятность меняется на каждом шаге. Получаем: для случая (а): Р = 4/52-3/51-2/50-1/49 = 6492744(Ю « 3,7-10; для случая (б): Р = 13-4/52-3/51-2/50.1/49 = 6 497400 = 4>8'10~5- 6. Наугад выбраны 24 человека. Какова вероятность того, что хотя бы у двоих совпадут дни рождения? Интуитивно представляется, что эта вероятность мала. На самом деле она около 27/50 = 0,54, или 54%! Вероятность того, что дни рождения двух произвольно выбранных людей совпадают, равна 1/365. Тогда вероятность несовпадения равна 364/365. Вероятность того, что день рождения третьего отличается от дней рождения двух предыдущих, равна 363/365, ... и для 24-го она равна 342/365. Если теперь мы все эти числа перемножим, то получим 23/50 — это есть вероятность того, что все дни рождения не совпадают. Иными словами, пари о том, что из 24 человек хотя бы двое родились в один и тот же день, при достаточно большой серии испытаний имеет смысл заключать, так как только в 23 случаях из 50 будет проигрыш, а в 27 случаях — выигрыш. При этом мы не учитывали 29 февраля и тот факт, что на иные месяцы дни рождения падают чаще. Первое уменьшает вероятность выигрыша, а второе — увеличивает. 46
Вероятность того, что в группе из п человек по крайней мере у двоих совпадают дни рождения, определяется формулой л 365-364- ,..-C65- 365« ' К ' } При п = 23 Р = 0,507, при п = 24 Р = 0,538 и при п = 50 Р - 0,970. Наусс [Nauss, 1968] составил таблицу вероятностей того, что в группе из п человек (п ^ 35) хотя бы двое имеют дни рождения, находящиеся в интервале d дней (d^ 30) (например: 1. п = 7, d = 7, Р = 0,550; 2. Л = 7, d = 21, Р = 0,950; 3. л = 15, d = 10, Р = 0,999; ср. также [Gehan, 1968], [Faulkner, 1969], [Glick, 1970]). Примеры на условную вероятность 1. В урне содержатся 15 красных и 5 черных шаров. Событие Е± соответствует появлению красного шара, Е2 — черного шара. Чему равна вероятность того, что в двух последовательных испытаниях появится сначала красный, а затем черный шары? Вероятность вынуть красный шар равна Р (Ег) = 15/20 = 3/4. Вероятность вынуть черный шар после того, как вынут красный шар и назад не возвращен, равна Р (Е2\Е1) = 5/19 ~ 0,26. Вероятность в двух последовательных испытаниях вынуть красный шар и затем (без возврата) черный равна Р (Ег) -Р (E2\EJ = 3/4-5/19 = 15/76 ~ ^ 0,20. 2. Пусть в среднем 10% населения в заданный промежуток времени были больны (Р (Ег) = 0,10). Из этих больных, как правило, около 8% умирали (Р (Е2\Е1) = 0,08). Тогда условная вероятность этого события равна 0,08 (условие: заболевание). Вероятность того, что человек, принадлежащий к данной группе населения, в рассматриваемый промежуток времени заболеет и от этой болезни умрет, равна Р (Ег * Е2) = Р (EJ-P {Е2\ЕХ) = 0,Ь0,08 - 0,008 - 0,8%. Врач в этом случае бы сказал: заболеваемость — 10%, летальность — 8% и смертность — 0,8%, т. е. смертность = заболеваемостьх X летальность. Мы пойдем еще дальше: при некоторой другой болезни 20% людей могут подвергнуться воздействию инфекции (Ех), из них в определенный промежуток времени могут заболеть 30% (?2), из которых, наконец, 5% могут умереть (Я3). Тогда смертность, которая равна числу смертей в определенный промежуток бремени, деленному на полное число наблюдаемых событий, определится как Р (Ег ^Е2^ЕВ) = Р (EJ -Р (E2\EJ-P (Ев\?2) - 0,20-0,30 X ХО,О5 = 0,003 = 0,3%. Поскольку можно говорить о вероятности некоторого события только при точно определенных условиях, то, по существу, любая вероятность является условной вероятностью. Безусловной вероятности в собственном смысле этого слова не существует. 47
Эта маленькая сводная таблица (табл. 7) — обратите внимание на указания в правом столбце—содержит формулы для расчета вероят ности того, что при независимых событиях Ег и Е2 с вероятностями Р (Ег) и Р (?2) наступит: Таблица 7 Событие Оба Ни одного Или Еъ или Е2, но не оба вместе Или Elt или Е2> или оба вместе Ни Еъ ни Е2 Или оба, или ни одного Ei, но не Е2 Вероятность Р(Е1)-Р(Е2) 1 Р(Ег).Р(Еь) P(?j -|_ p(Ej _ 2Р(Е1)-Р(Еь) Р(?х) _j_ p(?2) _ PlEJ-PiEJ 1 - Р(?х) - Р(Ег) + Р(БХ) .Р^а) [1 -Р(ЕгIи -PlEM+PiEJ-PlEJ PlEJ.[l-P(EM Пример P(?i)-0,10; Р = 0,001 — , Р = 0,999 Р = 0,108 Р = 0,109 Р = 0,891— Р = 0,892 -J Р = 0,099 1.2.4. ТЕОРЕМА БАЙЕСА Пусть А19 А2, ..., Ап — взаимоисключающие события. Объединение всех At образует достоверное событие, полную группу событий. Тогда теорема Байеса гласит: вероятность того, что событие At наступит при условии, что событие Е уже наступило, определяется выражением DiA |пч__ P(Aj).P(E\Ai) . P (Е\ Ах) + ... +Р (Ап)'Р (Е\ Ап) P(Ai\E)= A.16) Примеры 1. Две машины на некоторой фирме производят соответственно 10 и 90% общей продукции определенного вида. Предположим, что вероятность брака на первой машине равна 0,01, а на второй — 0,05. Чему равна вероятность того, что наугад взятое из дневной продукции изделие изготовлено первой машиной, если оно оказалось бракованным? Применим теорему Байеса. Е — событие, заключающееся в том, что изделие бракованное, Ах — изделие изготовлено первой машиной; Л 2 — изделие изготовлено второй машиной. Р (изготовлено 1 машиной | брак) = Р (Лг | ?).
Р (А2)Р (Е | А2) P{Al\E) = *4±±П = -L ^0,022. V l{ } 0,10-0,01 +0,90-0,05 46 2. Пусть имеются две урны, вероятности выбора которых соответст*- венно равны 1/10 и 9/10. В первой урне содержится 70% черных и 30% белых шаров, а во второй — соответственно 40 и 60%. Какова вероятность того, что черный шар вынут из первой урны? Е — вынут шар черный, Аг — шар вынут из урны 1 и Л2—шар вынут из урны 2. 0 100 70 Р(из урны И черный) =0I00>70+;90М0 =0,163. Это означает, что при многих испытаниях в 16,3% всех случаев черный шар будет выниматься из первой урны. 3. Предположим, что надежность определения туберкулеза при рентгеновском просвечивании грудной клетки составляет 90%, т. е. 10% тбц-носителей остаются неопознанными; вероятность неправильного определения тбц у здоровых людей составляет 1 %. Просвечиванию была подвергнута большая группа людей со средним процентом больных 0,1%. Какова вероятность того, что люди, которые признаны больными, действительно являются тбц-носителя- ми? Е — просвечивание определило наличие тбц, Аг — человек болен,, А2 — человек здоров. Р (тбц-носитель | полож. результат просвечивания) = ~~ 0,001-0,9 + 0,999-0,01 ^ °'0826' т. е. мы нашли, что из общего числа людей, признанных больными, только 8% являются действительно тбц-носителями. В среднем рентгеновские исследования дают 30% неправильных отрицательных и 2% неправильных положительных диагнозов. 4. В бюро работают 4 секретарши, которые отправляют соответственно 40,10, 30 и 20% исходящих бумаг. Вероятности ошибки при этом соответственно равны 0,01; 0,04;, 0,06 и 0,01. Чему равна вероятность того, что некоторый документ неверно адресован третьей секретаршей? Р (секретарша №3 | документ неверно адресован) = 0,30-0,06 ~~ 0,40-0,01 + 0,10-0,04+ 0,30-0,06+0,20-0,10 — =0391 Ничего себе, 39% всех ошибок! 49-'
Для упражнения проведите аналогичные расчеты для каждой секретарши и результаты представьте в виде соответствующей графы табл. 8. Подробнее о теореме Байеса и о так называемой байесовой статистике см. [Barnard, 1967], [Cornfield, 1967, 1969], [Schmitt, 1969], [de Groot, 1970], [Maritz, 1970]. Таблица 8. Сводная таблица первых трех примерев на теорему Байеса Справа стоит значение Р(ЕХ Г\ Е2)=Р{Е{)-Р{Е2\ЕХ). Для примера 1: 0,001=0,10-0,01 и т. д. Стрелками отмечены произведения, которые входят в формулу Байеса. Пример I Машина^ (М) Пример Л Урна (У) < Пример Ш Население 0,ю' 0,90^ ^0,10 /С ТбЦ. 0,001 \ 0,999 без тбц качество продукции (к) 0 собран (Б) ">™^без бра на 0,05-^бран °' 95^без драна Доли (Д) 0 70^черный шар (ш) °'30^6ель/й шар о ^черный шар 1 ^белый шар РентгеноВсное обследование (Р) 090/ положит. ^положит. 0. ЗУ^отрицат. Произведение Вероятностей о. 001** 0,099 0, 045^ 0, 855 1, 000 0,07+ 0,03 0,36 + 0,5U 1,00 0, 00090* 0, 00010 0,00999* 0, 98901 1, 00000 ф 1.2.5. СЛУЧАЙНЫЕ ПЕРЕМЕННЫЕ Случайный процесс называют также стохастическим процессом. СлучайнаЯу или стохастическая, переменная—это величина, характеризующая исход случайного эксперимента, например продолжительность горения лампы накаливания. Случайная переменная сопостав- 50
ляет каждому исходу эксперимента число. Если проведен эксперимент, при котфом случайная переменная X приняла значение х, то х называют реализацией X. Генеральная совокупность есть множество всех возможных реализаций случайной переменной, выборка — это я-мерная реализация, или реализация, состоящая из п исходов. Значения суть действительные числа, которые можно представить десятичными числами с конечным B, —4) или бесконечным числом знаков, периодическая дробь (—7/3) или непериодическая (V2, lg 3, я, ё). Вероятность события, что X примет некоторое значение из интервала от а до Ь, будем записывать в виде Р(а<.Х<.Ь). Соответственно достоверное событие имеет вероятность Р (—оо <Х< оо), X обязательно примет одно из значений на числовой оси. Вероятность того, что X примет значение большее, чем с, записывается в виде Р (X > с), и поскольку Р (X > с) + Р (X ^ ^ с) = 1, то для любого с справедливо равенство Р (X > с) = 1 — Р (X < с). A.16) Пример Пусть число, появляющееся при бросании игральной кости, есть X; тогда Р (X = 6) = 1/6. Р E < X < 6) = 0; Р E < X < 6) = 1/6; Р A < X < 6) - 1; Р E < X < 6) = 1/6; р (X > 1) = 1 — Р (X < 1) = 1 — 1/6 - 5/6. 1.2.6. ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ И ФУНКЦИЯ ВЕРОЯТНОСТИ 1 Распределение вероятностей случайных переменных определяет, с какой вероятностью переменная может принять данное значение. Распределение вероятностей случайной переменной однозначно определяется так называемой функцией распределения F(x) = P(X^x). A.17) Она задает вероятность того, что случайная переменная X примет значение, меньшее или равное х. F определена для всех действительных значений х и монотонно возрастает от нуля до единицы, F (х) называют также накопленным (кумулятивным) распределением вероятности. Пример В качестве примера рассмотрим эксперимент с игральной костью. Вероятность выпадания любого числа равна 1/6. F (х) принимает следующие значения: 1 Раздел 1.2.6 при первом чтении можно опустить, так как его содержание несколько сложнее предыдущего и в дальнейшем тексте не используется. 51
X Fix) х<1 0 1<*<2 1/6 1/6+1/6=1/3 3<g*<4 1/6+1/3 = 1/2 4<^x<5 1/6+1/2=2/3 5^*<6 1/6+2/3=5/6 1/6+5/6=1 Мы получили так называемую ступенчатую функцию. Она скачком возрастает при тех значениях х, которые Х{ принимает с вероятностью 1/6. Между двумя соседними ступеньками функция постоянна. Начертите эту функцию (абсциссы х — целые числа от 0 до 1\ ординаты Р (X ^ х) — интервал от 0 до 1, разделенный на 6 частей). Если случайная переменная на определенном интервале принимает только конечное число значений, то говорят о дискретной случайной переменной, которая, как в случае с игральной костью, изменяется только скачками (например, число детей, доход). Имеется другой способ описания распределения вероятностей случайной переменной. Так, в случае с игральной костью достаточно указать вероятности появления числа (Р (X = xt) = 1/6). Вообще для дискретной случайной переменной обычно задают соот-. ветствие между значениями хг и вероятностями / (xt) в виде функции вероятностей (probability function, frequency function). Для дискретной случайной переменной функция распределения получается простым суммированием значений / (хг). Для непрерывной случайной величины, например для длины, веса, скорости и т. д., функция распределения получается интегрированием так называемой плотности вероятности (probability density function), или функции плотности. Она однозначно определяет распределение. Между функцией вероятности или плотностью вероятности и функцией распределения имеется следующая зависимость: 1. Для дискретной случайной переменной X f(xt) — функция вероятностей. 2. Для непрерывной случайной переменной X F(x)= I f{t)dt. A.18) A.19) / (t) — плотность вероятности (с» = бесконечность). Для более наглядного представления плотности вероятности следует заметить, что при очень малом интервале dt вероятность того, что X попадет в интервал (t, t + dt), приблизительно может быть задана дифференциалом / (t) dty что обозначают так же, как элемент вероятности: A.20) 52
Отметим, что \ l A.21) и в особенности b ^ A.22) Вероятность события а < X ^ Ъ равна площади под кривой плотности вероятности / (X) между х = а и х = 6. Теперь мы можем дать определение дискретной и непрерывной случайных переменных (discrete random variable, continuous random variable): 1. Случайная переменная Х, которая может принимать только конечное или счетное множество значений, называется дискретной. Соответствующая функция распределения изменяется скачками. 2. Случайная переменная X называется непрерывной, когда соответствующая ей функция распределения A.17) может быть представлена в интегральной форме A.19). Значения, которые в этом случае может принимать случайная переменная, образуют континуум. В то время как вероятность Р определенного события при дискретном распределении обычно имеет смысл, для непрерывного распределения ее определить нельзя (например, вероятность того, что яйцо будет весить 50,00123 г), поэтому определяется вероятность того, что переменная X меньше а (<а) или больше или равна а (^а). Поскольку эта книга написана для практиков, в дальнейшем мы не станем учитывать разницы между X и х и будем везде писать х. 1.3. ПОДХОД К НОРМАЛЬНОМУ РАСПРЕДЕЛЕНИЮ Ф 1.3.1. ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ И ВЫБОРКА Монеты, кости, карты суть элементы азартных игр. Поскольку каждый случайный эксперимент или случайное массовое явление может быть приближенно представлено урновой моделью, то можно вместо подбрасывания монеты вынимать шар из урны, в которой содержатся Два шара, отличающихся только надписями В и П (выигрыш и проигрыш) Вместо бросания кости можно вынимать шар из урны, содержащей 6 шаров с цифрами 1, 2, 3, 4, 5, 6. Вместо карты из колоды можно вынимать шар из урны с 52 пронумерованными шарами. Этой урновой модели следует предпослать такое замечание. Мы отмечаем числа 0, 1, 2, ... на шарах как признаки или значения, а появление какого-либо значения из урны — как событие. Поэтому можно воспринимать эти значения как возможные события. 53
Задача математической статистики — на основании одной или нескольких выборок сделать вывод о всем содержимом (генеральной совокупности) урны. 52 шара образуют коллектив, или, лучше сказать, генеральную совокупность. Если содержимое урны хорошо перемешать, то каждый элемент генеральной совокупности, каждый шар получит равный шанс быть вынутым. Сама выборка также имеет случайный характер, поэтому мы будем говорить о случайной выборке (random sample). Число элементов в выборке — от 1 до максимум 51 — будем называть размером, или объемом, выборки. Совокупность возможных выборок образует пространство выборок. Относительная частота появления игральной карты-признака есть вероятность этого признака: она составляет для любой игральной карты или соответствующего шара 1/52; для появления короля — 4/52 = 1/13, для появления масти пик — 13/52 = 1/4 и для любой черной масти — 26/52 = 1/2. Относительная частота признака в выборке является оценкой вероятности этого признака. Оценка будет тем точнее, чем отчетливее случайный характер выборки и чем больше ее объем. Предполагается, что все наблюдения независимы. При конечной генеральной совокупности независимость достигается тогда, когда после каждого испытания вынутый элемент возвращается в генеральную совокупность, которая затем перемешивается, — урновая модель с возвратом. Число выборок с возвратом может рассматриваться как бесконечное, что является весьма важным моментом математической статистики. Если при конечной генеральной совокупности элемент не возвращается после испытания — урновая модель без возврата, — то соотношение в оставшейся части непрерывно изменяется. Каждое наблюдение в этом случае зависит от результатов предыдущих испытаний. Мы говорим о сопряженной или «нанизанной» вероятности, которая описывается так называемыми цепями Маркова (А. А. Марков, 1856— 1922): каждое наблюдение зависит от одного или ограниченного числа непосредственно предшествующих наблюдений. Подробнее об этом и других классах случайных последовательностей, в которых случайные переменные не являются независимыми во времени, — эти последовательности образуют математически весьма интересную и важную область стохастических процессов — следует обратиться к [Bartlett, 1955, 1960, 1962], [Feller, 1957, 1966], [Bharu- cha-Reid, 1960], [Parzen, 1960], IKemeny, Snell, 1960], [Kullback, Mitarb, 1962], [Lahres, 1964], [Gurland, 1964], [Takacs, 1966], [Wold, 1965], [Deming, 1963] и [Armitage, 19663. На стохастических процессах основаны многие теории и модели явлений физики малых и мельчайших частиц (броуновское движение молекул, явление диффузии, радиоактивный распад, квантовые состояния атома), развитие населения (рождения, смерти, иммиграции, возникновение и развитие рака, распространение эпидемий [Dietz, 1967]), качество сложных электронных комплексов (в эксплуатации, хранении, ремонте), так называемые проблемы очередей (театральные кассы, самолеты, ожидающие взлета или посадки; особо интересные вопро 54
бы здесь о среднем и максимальном времени ожиданий и длине очереди) и модели прогнозов для генетических проблем, а также для инвестиционных, кадровых и других организационных задач. Литература по стохастическим процессам собрана в конце библиографии к главе I. Теория очередей называется теорией массового обслуживания: основные проблемы здесь относятся к выбору количества каналов обслуживания при случайных колебаниях потока потребителей и определению возможных очередей. Примеры: клиенты — парикмахеры, корабли — доки, больные — врачи, пожары — пожарные команды, изделия — машины, отказы оборудования — механики, телефонные разговоры — каналы — показывают большое число реальных систем массового обслуживания (универсальные магазины, фабрики, телефонные узлы), см. [Doig, 1957], [Schneeweiss, 1960], [Сох и Smith, 19611, [Ferschi, 1964], [Lee, 1966] и [Saaty, 1966]. Обратимся снова к урновой модели выборки с возвратом. Распреде* ление вероятностей по различным признакам будем называть просто распределением. Характеристические величины распределения имеют числовую меру. Такие числа, как относительная частота, среднее значение или стандартное отклонение, которые относятся к генеральной совокупности, будем называть параметрами. Числовые значения, рассчитанные на основании выборки, будем называть оценками, или статистиками. Параметры будем в большинстве случаев обозначать греческими буквами (табл. 9), для оценок будем употреблять латинские буквы. Таблица Греческие буквы А а в р Г v А 6 Е 8 Z С Н т) е и 9. Греческий алфавит Наименования букв альфа бета гамма дельта эпсилон дзэта эта тхэта Греческие буквы I I К к А X М |А N v s i О о П я Наименования букв йота каппа ламбда мю ню кси омикрон пи Греческие буквы Р р 2 а Т т Г с Ф ф X к W ф Q со Наименования букв ро сигма тау ипсилон фи хи пси омега Так, относительную частоту, среднее значение и стандартное отклонение для генеральной совокупности будем обозначать: л (пи), \i (мю) и а (сигма), а их оценки по выборке — р, х и s. Элементы, которые образуют генеральную совокупность, почти всегда отличаются друг от друга. Если же они одинаковы, то изменчивость вносится ошибками измерения. Эта изменчивость приводят к колебаниям между выборками, группами, которые отбираются из генеральной совокупности. 55
Дли того чтобы по выборке можно было судить о генеральной купности, выборка должна быть максимально близкой к генеральной совокупности, она должна быть репрезентативной. При такой выборке каждый элемент генеральной совокупности должен иметь равную вероятность быть представленным в выборке. Согласно закону больших чисел различие между выборкой и генеральной совокупностью уменьшается с увеличением объема выборки. При определенном объеме выборки это различие столь мало, что дальнейшее увеличение объема выборки становится неоправданным! Вернемся к вопросу о том, что понимать под репрезентативной выборкой. Случайные выборки, которые отбираются случайным образом из генеральной совокупности, являются репрезентативными. Часть генеральной совокупности может представлять собой репрезентативную выборку также и в том случае, когда отбор не чисто случайный, но признак, по которому он ведется, не зависит от оцениваемых признаков. # 1.3.2. ПОЛУЧЕНИЕ СЛУЧАЙНЫХ ВЫБОРОК Простым способом получения действительно случайной выборки является лотерея. Например, из генеральной совокупности в 652 человека необходимо получить две выборки (I и И) по 16 элементов. Возьмем 652 карточки, заполним любые 16 цифрой I и 16 — цифрой II, 620 останутся пустыми. Если теперь предложить 652 людям вытянуть карточки, то тогда и будут получены требуемые выборки. Еще проще эта задача решается с помощью таблицы случайных чисел (табл. 10). Пусть таблица содержит пятизначные числа; предположим, что нам требуются 16 случайных чисел, меньших, чем 653. Будем двигаться по таблице слева направо, обращая внимание на тройки цифр и выписы* вая только те, которые меньше 653. Первое число отмечаем вслепую концом карандаша (например, третий столбец, шестая строка снизу — 17893) и далее слева направо: 178 (935 — отбрасываем), 317, 607, 436, 147 (997, 819, 748 — отбрасываем), 601 и т. д. Когда из генеральной совокупности N элементов необходимо получить выборку п элементов, можно рекомендовать следующие правила: 1. Пронумеровать элементы генеральной совокупности числами от 1 до N. Если N = 600, то следует нумеровать элементы трехзначными числами от 001 до 600. 2. Выбрать произвольную цифру таблицы за исходную и прочесть 3 ближайшие цифры (если генеральная совокупность имеет размер, описываемый 2-значным числом, то взять группу z ближайших цифр). 3. Когда считываемое число меньше N, то оно заносится в выборку; если это число больше N или оно уже встречалось, то оно отбрасывается и берется следующее число из трех цифр, и т. д. до тех пор, пока не будет отобрано п чисел. Старейший метод получения случайных чисел, которые лучше называть псевдослучайными числами, основан на мегоде «средних квадратов» фон Неймана: s-значное число (s — простое) возводится в квадрат, затем выбираются средние s цифр 2з-значного квадрата. Это 56
число снова возводится в квадрат и т. д.; эти s-значные числа представляют собой псевдослучайную последовательность. Хорошие последовательности могут быть получены также при использовании десятичного разложения известных иррациональных чисел, таких, как У 2, Уз, я; и большинства логарифмов. Подробнее о значении, получении и проверке случайных чисел см. [Teichroew, 1965], [Good, 1969]. На примеры важных случайных перестановок ([Moses, Oakford, 1963], [Plackett, 1968]) только кратко укажем (например, [В. Sachs, 1970]). Прогнозы Каждому приходится иметь дело с ненадежными прогнозами погоды, с долговременными планами и прогнозами в промышленности и политике. Так как будущее нам сегодня не известно, исследование будущего (футурология) стоит перед вопросами о том, что может быть на переднем крае в интересующей нас области. На некоторых аспектах прогностики стоит коротко остановиться. Распространение выводов, получаемых по выборке, на всю генеральную совокупность, используемое при предварительных расчетах результатов выборов, в официальной статистике, при изучении рынка или общественного мнения и т. п., называется предсказанием (Hoch- rechnung), так как при этом частота появления признака пг1пу определенная по выборке, умножается на число элементов в генеральной совокупности N и образует оценку Nt = -%~uN. Примерно так компьютер по немногим поступившим данным предсказывает результат выборов [Bruckmann, 1966]. Долговременные прогнозы, или, лучше сказать, предварительные оценки, например, роста населения, потребления энергии, рынка рабочей силы, образуются на основе анализа тенденции развития; реже, но с большими предубеждениями и большими ошибками — на основании аналогии (и интуиции). Среди немногих известных источников ошибок следует указать на неучет обратного влияния правильных, разумных предсказаний («Vorkoppelung», «forecast feedback»). Предсказанная в 1955 г. в США оезкая нехватка научных кадров в 1965—1970 гг. не реализовалась. 1исло учащихся выросло скачком (вероятно, вследствие этого мрачного прогноза). Этот пример отчетливо показывает возможное влияние предварительных прогнозов (см. также [Wold, 1967], [Kahn, Wiener, 1968], [Baade, 1969], [Bright, 1969], [Jungk, 1969], [McHale, 1969], [Flechtheim, 1970], [Polak, 1970], [Steinbuch, 1970], [Theil, 1966], [Wagle, 1966], [Montgomery, 1968], [Cetron, 1969]). Если необходимая для прогноза информация полностью или почти отсутствует, то пользуются методом опроса компетентных специалистов, методом экспертных оценок. Способ заключается в том, что экспертам выдается тщательно продуманная анкета. Слишком субъективные и необычные мнения можно исключить тем, что сообщать участникам остальные ответы, чтобы каждый еще раз мог продумать свое мнение с учетом остальных (англ. . 57
CON-h LOCO 00 CO О) Ю CO LO O> N NO *—• "^f oo oo со . , 3 N COO-<OON "T 00 CM TH CO — Ю00 CT> CM 4^. —• _ CD — 00 CO LOrf tJh — rf NNCO > CD Ю О СО > СО СО СМ О «)IOOCO(N О О СМ СМ Ю -ф О5 О5 N — O5 Ю CO CO CM N CD CD CD O5 COCO ЮСМ — NCM О COO J CM N N С * со oonc CM ** LON —« cDO "f ЮСМ lO — CO О CO (NOC0NN см —• сою n O5 0ОЮ CO CM oo CD N oo CO n см — см со CM CO—1 00 CM N O5 CD •* CO CO "tf C oooo Ю —• o ю - 00 "* СМ С _. , _> ^ N О NCMlOC ЮСМЮСМО О5СОСМСМС CO00N— т}< COCO —Ю« — ЮСО С , - О5Ю СО С — СО^СОО COOCOL . . ,- СО О Ю СОСМ — О СО— CM CON СО < O00^ N О CD CO i CO O5 OO CO О500СМ00С0 ЮСМСМСОСО СМ Ю ^ — CM NCMC0CON О СМ СО 00 СО О СО1--' 00 СМ ОХГОСМЮ — TfCONCDOO СО—CMN — CMNOOCO СОООООСМ'^ OJ» N N N OO СО О5 О О С — rf N— СМ 1 СМ СМ . _ . _ . . ТНСМООО"* СМСМСМ— СМ TfCOCMCMO O00N— О COCO^^OO OOit-iOC 00 CO t4-- LO O5 OOlOOO^C >l> CO CM ^—'CM O500COCMC OOt^-COOOOi t^O5l>-CMC NOOOOOO ЬЮОО! 00ОЮ00Ю LOOOCOCMCM C0C0OO5C0 ОЬ'ФСОО OcOOiCOC CM CO LO N *-< CO —« 00 00 " -hOIOOO LO-^OO^tH (NOCOCNN t^-LOC005CM 00 CO t4-" CO lO lO "™^ CO ^ ^t4 ^f oo^юсо сосло^оо —4 LO »—' O5 Tf Ю 00 CO CO CO 5Ю ^Э СМ ^* 00 00 CM LO O5 Tt4 СО О 00 "^ СМ СМ О~«1>~ЮЮ C000CDC5N О Ю О '—• О ~-' N 00 ^ Ю CD00NCO00 COCDNЮCD О5 — 00 СМ 00 _О),—I,—«,—< 05CDOOC0 . СО — — CDC0 «—< СО— N СО O5CD00OCO 1—н О0 00 ""^ LO O5 СО """• 00 N О) 00 ^ СО 00 СМ О СО О СО О5 — ЮС75СО CO^N — CM ,-< <M "Ф —< CO -hINOOOO) OOCOO-CO — CM4* COCO 00 <M t- t4- —« CM LO O5 t^- Ю CM CM — О 0>l>-000000 CMt^-^^CO OCMO^—00 О5СО— CO ^h fCMLOOO ICOOO ЮО5СМО500 LOCMOO—i 00 OOOOCMCDOO CMOOCOOOh- »-<COt^CMCO OCDCOrH Ю l--t>-ThO5-H СООЭ00СМ00 "СМ1Л05СОО O5 t^- Tf 00 LO CMf-'^FCMCM СО CM N-O ^ О CM CM O5 " N <—< СО ^ СМ СМ СО О О5 С -IONCN(N 00 — rff- CDCMcMOt4- CON-^fCOCO СО^СОООО "Э— О0 СМО5— СО — ThLOсо со со о о OiOiCOCOOO "f LO O) O> C75COOOCOLO OOOCOOO cOr СО; 00CDCDCMO5 tFcMOOCO — -^*Ю— CM CO CM— N^O5 O со O OO f LO O) O> C LO OOOCOOOO CM OOCMO^OOt C0O5C000CO ^lC(NO LOCOOOt^-CD — — 0005 t^b0005 00 0)tDN 05 0 0)D hooh Ю CO oo — CM 00 Ю ^* ^ CONOO о см г^- О5 со ThoocMi L005O5OC0 — O5 О OOOOOCOCO OCO OOCONO CO CO ^" IN- LO 00 Oi CM Г*- 00 OCO — CO CM CMOO— COCO C0OC0CM05 ff^fcM locmc LO Tf O) CO CO CO CO С CM ч*1 CO rf О CM О Tfr< CO t-- l>- LO "^ О со rh см oo — CO4* О — LO -^ lN- CO "^ t^ — CO h- O5 Tt* t- 1 со со О (NONOiOJ со t-- — CD со <J> CO LO CO CM — о о t^- c^ b- "^ COLO CO — О- О О5 00 LO CO CO О "«f — LO OO CD LO —i — 00 Ci ~ — O5— ЮО5 OCMLOCMCM Oh-ООЮОО lO-^OO^N lOOsOcdcO cOC0t*-O5CO O5LO— О 00 OOCOIN-LOO O> '-*' О CO «—• О NN NO 00С0ОЮ0) CD I4* CM "^ *~* N00 CM CD О LO CO OcOO ONLOcMO ^-^сО со N О) —< CO X •^ — CM -^ N со coco о см CO COLO ^f О О ^ O5 ^ ^h O5 O5 tF O5 rh CO N Tt<00 LOO5 00 COCO О CO- CM N LOO О — О N CO ^ CD CO N CO N ^ — CM О О 00 CO CM N CD CO CO 00 00 CM (NO — ^lO О CM O5 CD — CO CM 00 — CM 00 LO COLO 00 LO CD CO LO О — CM CM C. CM LO 00 О LO CM O)^N(MN N O5 CO CM O5 О N N О Ю CM — О OO CD ** CM O5 O5 <ф CM CO LO О 00 N LO 00 CD N Oi N О CO LO CO LO ^ Tf CO -и 00 N 00 CM О CO CD — CT> CM — CT> rf rt< CM CDOQ CM OO 00 CM N Ю CO CO GO О Oi LO CO CON СОЮ О CM CM LO ^t4 CO O5 -^ CO CM LO 00 C0O5 O5 LO CO *—< 00 "^ 00 CD CD "^ О i—i *-~> см Th см 00 "^ ^ LO CM N О LO 00 CD CO О LO —* Ю O) cD»h ts.flfi 00 00O — О O5 СО СОЮ00 LO N CM LO Ю 58
6S СЛСТ>»—COCD ©tOSlOOCO t—. CO О CD CD •— CD tO tO 4^ CO SI 4». tO CO CD CO © СЛ tO -4.—СОСОЮ tOCOCnCOCD СЛ bO Si CD tO 00 CO СЛ 4s*» СЛ 4* CO 00 >—tC ,. tO CO CO 00 S| SI CD >— CD СЛ 4*. 45». CD СЛ СО СО Ю >— CO SI СЛСО •— tOCO CO CO 4*» CO tO «—' Qo SI >— © СЛ 45» CD СЛ 00 00 4* S| CO CD © 00CO tOd^ )COCO© и-i— tOCO© ' ' ~ S» Q i-J to 00©4-*CO4s» COtO4s.CnSl •—OltOQO*— 4^CO >— SJCD СЛ >— СЛ 00 SI OO »— CD CO OO О tO 00 SJ 4*. CO >— 00 00 CO ©СЛ©©© CO4s»h 4*. © SI CO 4* © Ооь— OCO 00CO CO CD >— »— ни- CD © too юсо СЛ CD CD SJ CO 0 CD © 4*. © CO tO CO © 4* © 00 CO to cn si сл сл cd si сл si oo Ю 4*. CO CO СЛ 4»» tO CO СЛ •— CO CD tO tO 00 CO004s»COCD >—CO»—СОСЛ 45»- CO 4»» SI CO SJOOCOCDS) •—tO 00 tO 0O СТ>СЛСО-<1СО ЧОЮ СО )н-СО00 si to t _ tO 00 © ©CO _ 00 SJ tO СЛ tO © 00 0O CD4*.COCO© — - — 45*СЛ00»О© l 00J СТ5 CD COCO O О 4 СТ5 0 Со CD GD О 00 С •—' CD СЛ й5»- О 4СЛ^Ю СЛ4^ЬОСО -sj i— 4з» ОЭ СЛ ОСЛ»-СОЧ ©СТЭЬОСЛСЛ tO 4s. CD »—* CT) ~vj CO 00 СЛ 4^ Ю^СО tDO CO >— CO CD ~*J CO СЛ CO © © СЛ *~* ь™- 4^ 00 TtOSlCTlCO OOtOCOCDtO ^Cl^CDSI 00 4*» CO SJ 4*» L»»ootoco cncococosi 2SSS оюелчо -4 CO CO CO CD ОСЛ #*O ~#>.G> co to со со со со oo СО-J CD^^-CDCO co45».cococo ^couitoqo © oooo toe . - - - cooosioi- loooo©© >¦ U\ CD tO S| CO OO SI СЛ SJ >SltOtOCO CO©CO45».CD -4 CO© ОО^Л 4^ CD OO CO CO >—CO tO CD CD © CO© Ю 4 H-iyiCD ОС СлЭ СЛ CO CO •<! CO 4^ ©^J СЛ 4^ •—-J CO "<I CO COCO — CO © CO © 4^ сл со со oo со со сл to si -4 4s» CO tO CO tO SI 4*> <•— CD CO CO 4^СЛ © -Si ) CO Э tO COCO 4 ;>CD >— —* tO ЭСЛ © CO © СЛ -<ICD 4*- 00 © O СЛ —• — CD -^J © 4^ СЛ-<1 -vj 4*. J 4CD CD l -vl -<1 CO 00 •— 00CDCO©tO H~* tO СЭ •"* 4s 4*.tO ©4*С ОСЛ 45» 4^ ^J i— -4 >— CO -О СЛ 4s» CO 4* CO СЛ 00 to -vj CO CD tO -vl 4s» CO сл toco со — CDCDCO©00 4 ^ CO — 4 00 СЛ СЛ СЛ OO oo — to сл со 4^ CD 4*- tO •<! -^ 4>J4 ) Oo 4^ 5 СЛ 00 © tO <! ICOtOCD CDCO-4>~vJ iCD^OCD © 4^. »—'»— DCDtOCD »—СОСЛСОО »—CO —CO tO 00 tO --J © CO 4». >—©<—© > >— 4&. CO ©4>- © CO * >—SI © CD CO CO CO >— 4* CD СЛ CD 4*. -q >—CDCD SI 4*. -«4 CO CO CO CD СЛ •— O0 СЛСО SJ CO 4^ ©CO CD •— CD CD SI CO SJ CO со сл to si со SJ »—« S| CO CD © 4*. tO tO © SI СЛ CO >— CO SI SI 4* © CO СЛ 4* СЛ CD CO CO SI СЛ © 00 © CD SI CO 00 СЛ © CO tO 4s» ¦—* tO CD СЛ CD CO CD •— SI CO CDCntOSlOO CO4©SlCn S| SI 4*» tO CO 00CD©00>— СЛ СЛ OO CD CD ^Э_-Ю>—iO CHSlCOCDtO i4^S|tO SlCO©tO© 4> 4*. 4»» CO CD OO4s»CDCn4s» CD 4s» •—' © 45»» COtO©OOCD gCOSJtOSJ CD4s»©CO^— SJ C5 00 CO *~"' CO 4s» O^ СЛ »—©tosico ootocn©>— CDCOtOCOSl CH©tOtO00 00 Sj SI CO 00 CO CO 4*. tO © ©СЛСЛ tO 4* h-4*. SI 00 SI CD CO i— © 4>> S) «—CO tOCn SI СЛ »— СЛ 00 CD СЛ 00 4^. SI сл © to to oo SI CO •—* © CO bOS] СЛ CO © si ©со © en si sj © >— сл tO CD CO 4s». СЛ CO CO CD SI CD 4*> tO CO CO 4=». tocn •— со и- СЛ — СЛ h-CO OO 4^ CO CO 00 Sj 4^ CO tO © ©CO 00 »— CO CO S] SI 4»-CO со © © сл © О •— 4>> CO Ю COCO h—-^ CO СЛ — CO OOCD 00 CD CD •— CD tOCO CD СЛ tO CD © SI CD © •— *— CO © •— О 4». •— tO SI CO © 4». CD *>J •— 4^ CO СЛ CO CD 00 >—4s». CO CDOOtOOOSl CDlOCOCDtO if**- ?j^ 00 CD ЬО >¦"* >•** CO СЛ 00 4^ CO СЛ 43» CD СЛ 4s» OO 4^ CD •SICDCOCnCO CDCO4»»©00 CD 4»» 00 CO CO СЛ CO SJ CD CD coco ©со si СЛ © S| CO © Si 4*. CO CD СЛ tOCO SI ©CD 45» tO 00 00 CO 00 45»» CO h—si to со сл si sj &?2? SI 4* CD i— © SJ Si 4 tO CD SJ SJ 4*. tO CD _ __ .. СЛ SI S| OO СЛ CO45»-©COCO СОСОСО-Й-СЛ 8gg§§ *—' SJ tO >— 45». CO SI СЛ © © OOW4 42». о сл to © © CD tO СЛ 00 CD CO СЛ SI tO CD 4* CO 4* СЛ © >— to oo со со со со >— со 00 tO tf* ©CO СЛ tO tocn 00 sj
Таблица 11 feedback — обратная связь). После нескольких подобных операций образуется общее мнение, которое может качественно превосходить каждое отдельное мнение (метод Делфи; см. [Helmer, 1967], [Graul, Franke, 1970], [Martino, 1970]). • 1.3.3. ЧАСТНОЕ РАСПРЕДЕЛЕНИЕ Статистический материал состоит обычно из измеряемых или наблюдаемых значений непрерывного (измеримого) признака (вес, возраст) или дискретного (счетного) признака (число детей). К этим количественным признакам добавляются альтернативные* признаки (пол, наличие или отсутствие признака), определения (семейное положение), а также качественные признаки (специальность). О ранговых признаках (маленький, средний, большой) мы будем говорить позже. Если имеется много результатов, то их целесообразно представить в табличной или графической форме. Например, приведем распределение 200 новорожденных по их росту (диапазон 40—61 см), разбитых на 7 классов (согласно приближенному правилу Штюргеса [Stur- ges, 1926] число классов можно выбирать по формуле k « 1 + +3,32-lg я,т.е. 1+3,32-lg200= = 1 + 3,32 • 2,30 = 8,6; здесь k можно принять равным и 8, и 9). Здесь верхняя граница класса к классу не относится, например ребенок, имеющий рост 5?_см, относится к классу 52—55 см. Класс в интервале «от а до Ъ (исключая Ь)» записывается в виде а ^ х < Ь (ср. табл. 1, с. 12). Сбор данных Здесь, видимо, не следует подробно останавливаться на получении первичного статистического материала посредством анкет, интервью, наблюдений или активных экспериментов. Следует только заметить, что при опросе, в противоположность наблюдениям и экспериментам, вольно (или невольно) ошибочный ответ едва ли можно исключить. Наш материал — рост новорожденных — имеется в любом родильном доме. Поскольку главной целью книги является изложение статистических методов, то имеет смысл говорить о вторичном статистическом материале, игнорируя его получение. Статистический материал может быть подготовлен тремя способами. При первом способе каждый измеренный ребенок отмечается чер- Класс 40—43 43-46 46—49 49—52 52—55 55—58 58—61 И т о г о Частота абсолютная 2 7 40 87 58 5 1 200 относительная, % 1,00 3,50 20,00 43,50 29,00 2,50 0,50 100,00 * В советской литературе эти признаки называются обычно качественными, или дихотомическими, факторами. — Прим. пер. 60
точкой в соответствующей графе ведомости. Если число черточек больше четырех, то их объединяют в группы по 5 (для облегчения счета). При втором способе можно использовать миллиметровку или бумагу в клеточку с нанесенным горизонтальным масштабом; каждый новый элемент списка отмечается точкой в соответствующем месте диаграммы. После нанесения всех точек на диаграмму можно границы классов отметить вертикальными линиями; при этом точки, лежащие на границах, принадлежат последующему классу. Третий способ предполагает, что каждый случай отмечается в картотеке, так что карточки уже разложены по классам, а классы образуются их соответствующими пачками. В противоположность первому способу третий (картотека) не предусматривает возможности контроля, проверки. Преимущество картотеки — возможность дальнейшего распределения по классам, например на мальчиков и девочек или по возрасту матерей. Нахождением, получением, фиксированием, обработкой и последующим распределением данных — сбором и обработкой информации — занимается документалистика. При этом существенно фиксировать значимую, ценную информацию (данные, документы, литература и т. д.), имея в виду возможность ее дальнейшей научной обработки. Если принять за исходную точку постановку задачи, то в ряду: постановка задачи -> получение данных -> обработка данных центральное место занимает получение данных, которое от математико-стати- стического планирования эксперимента приводит к анализу и интерпретации данных. Вернемся к данным о новорожденных. В табл. 11 в двух правых столбцах стоят абсолютное число случаев, попадающих в данный класс, и относительная доля этих случаев — относительная частота. Полигон частот^ блок-диаграмма, или гистограмма, представлена на рис. 4. При этом значения относительной частоты соответствуют площадям прямоугольников, построенных на классах. Если мы соединим середины классов ломаной линией, то получим распределение, которое тем ближе к истинному распределению, чем уже классы. Если классы достаточно узкие, то относительную частоту можно характеризовать площадью под кривой распределения. Можно утверждать обратное: кривая, целиком находящаяся в положительной области, площадь под которой равна единице, представляет собой кривую некоторого распределения. Кривая распределения называется также кривой плотности вероятности. S> 40 - I I 30 - 20 - I Ю - 1 _ I 1 1 1 1 / N \ \ \ \ \ i \ \ \ 43 46 49 52 55 Величина (см) 58 61 Рис. 4. Распределение частот табл. 11. 61
1аблица 12 Рост ниже, см 43 46 49 52 55 58 61 Накопленная частота абсолютная 2 9 49 136 194 199 200 относительная, % 1,00 4,50 24,50 68,00 97,00 99,50 100,00 Во^многих случаях эта кривая имеет колоколообразный вид, вид кривой нормального распределения. Если интересно узнать число новорожденных, рост которых меньше 49 см, то из таблицы получим 2 + 7 + 40 = 49 случаев из 200, или 1,00% + 3,50% + + 20% =24,50%. Если мы проведем этот расчет для всех классов, то получим итоговую табл. 12. Суммируемая подобным образом частота образует так называемую кривую кумулятивной частоты; если мы соответствующие значения роста и частоты отложим на координатной сетке, то получим ломаную линию, которая при уменьшении (сужении) классов хорошо аппроксимируется монотонно возрастающей S-образной кривой (рис. 5). Кривая накопленной частоты позволяет определить, как много новорожденных имеют рост меньше х см, или какой процент элементов в множестве меньше, чем х. Кривые удобно сравнивать, отмечая на координатной сетке, где они стремятся к прямой. Кривую накопленной частоты можно изменением масштаба по оси ординат превратить в прямую. Через 50%-ную точку S-образной кривой проводится выравнивающая прямая; далее некоторые процентные точки S-образной кривой вертикально проецируются на эту прямую и затем горизонтально — на новую ординатную сетку. Если кол околообразная кривая, а вместе с ней и S-образная кривая симметричны, то все точки E0±р)% симметричны относительно 50%-ной точки прямой (см. рис. 6, ср. также рис. 15). Рис. 5. 40 43 46 69 52 55 58 61 Величина (см) Кривая суммарной частоты Рис. 6. Спрямление кривой суммар- (в процентах). ной частоты. 62
0 1.3.4. НОРМАЛЬНАЯ КРИВАЯ И НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Величины, которые по своей природе могут принимать только целочисленные значения, как, например, число детей или количество выпущенных изделий, образуют случайные процессы с дискретным распределением частот, т. е. соответствующие стохастические переменные могут принимать только целочисленные значения. В дальнейшем мы будем рассматривать глабным образом непрерывные случайные переменные, основанные, как правило, на измерительных процессах и, по крайней мере внутри заданных интервалов, могущие принимать любое значение. Примерами таких переменных" могут служить вес человека, его рост, возраст. Чисто дискретные величины, например -2 0 2 Рис. 7. Колоколообразные кривые. доход, могут рассматриваться как непрерывные и, наоборот, непрерыв ные величины могут объединяться в группы, классы и затем рассматри ваться при статистической обработке как дискретные величины. Если учесть, что каждое измерение принципиально представляет собой перенумерацию*, а каждое измерение лежит внутри интервала (или на его границе), определяемого точностью измерений, то «несгруп- пированные данные» суть данные, которые, по существу, группируются во время самих измерений. Чем грубее измерительный процесс, тем больше проявляются эти групповые эффекты. Собственно «сгруппированные данные» — это дважды классифицируемые данные: один раз при измерении и второй — при обработке. Классификацию, которая происходит при самих измерениях, мы не будем, как правило, учитывать. Случайных переменных, которые в строгом смысле могут принимать любое значение, поэтому не существует, и такое их рассмотрение является некоторой идеализацией. Если на основании наблюдений некоторого непрерывного признака строится распределение частот, то обычно оно представляет собой симметричную кол околообразную (нормальную) кривую. Особенно часто подобную форму имеют результаты повторных одинаковых измерений, например, длины спички или объема головы ребенка. * За номера можно принять результаты измерений. — Прим. пер. 63
Типичную нормальную кривую дает графическое представление уравнения у = е-х\ Общий вид уравнения нормальной кривой определяется следующим выражением. у==ае-Ьх2 A.23) (при а, Ъ > 0). На рис. 7 представлены две кривые при а = Ь = 1 и при а == 5 и ft = 1/3. Увеличение а вызывает увеличение t/, крива я пропорционально повышается; уменьшение Ъ приводит к растяжению, уплощению кривой. Многие плотности распределения (распределения частот) можно хорошо аппроксимировать кривой подобного вида при рационально выбранных значениях an b. Распределение случайных ошибок измерения при многократных измерениях (п—велико) физических величин имеет практически точно симметричную нормальную кривую: четко выраженный максимум, по обе стороны от которого кривая падает; очень маленькие и очень'большие ошибки весьма редки! Это распределение называется законом ошибок, или нормальным распределением. Прежде чем перейти к его подробному изучению, следует коротко остановиться на его всеобщем значении. Кетле A796—1874) обнаружил, что рост солдат-ровесников подчиняется нормальному распределению. По его мнению, причиной такого распределения являются ошибки, которые делает природа при воспроизведении среднего идеального человека. Школа Кетле, которая в законе ошибок Муавра A667—1754), Лапласа A749—1827) и Гаусса A777—1855) увидела закон природы, говорила также о «среднем человеке» с его «средней "наклонностью к самоубийству», «средней наклонностью к преступлению» и многом тому подобном. В то время как число «лучей» в плавниках камбалы распределено практически нормально, в окружающем нас мире встречается множество распределений, которое лишь с большой натяжкой можно описать нормальным распределением Муавра. Он его открыл и указал на его особое значение [Freudental, Steiner, 1966]. Особое значение распределения Муавра состоит в том, что сумма многих независимых, произвольно распределенных случайных переменных приближенно распределена по нормальному закону, причем тем ближе, чем больше членов в этой сумме (центральная предельная теорема: приводятся качественные высказывания о скорости сходимости). Эта теорема служит основой того, что очень многие выборочные распределения при достаточном объеме выборки хорошо аппроксимируются нормальным распределением и благодаря этому для соответствующих критериев можно ограничиться построением таблиц только для нормального распределения. Нормальное распределение обладает к тому же рядом весьма благоприятных математико-статистических свойств, что позволяет его рассматривать как краеугольный камень математической статистики. Его основополагающее значение зиждется также настом, что случайные переменные, которые представляют собой наложение многих раз- личных^более или менее независимых причин, могут рассматриваться 64
как суммы многих случайных переменных! Это можно легко проверить экспериментально: достаточно насыпать сухой песок через воронку между двумя параллельными вертикально поставленными стеклянными пластинками, полученная картина будет близка к нормальному распределению. Справедливость распределения Муавра следует ожидать в тех случаях, когда испытываемые переменные подвержены влиянию многих независимых примерно в равной степени влияющих факторов, когда не производится предварительный отбор измерений и когда число измерений или наблюдений велико. х—н Рис. 8. Нормальная кривая. Рассмотрим это распределение подробнее (рис. 8). Ордината у, которая определяет высоту кривой для каждой точки оси х, представ - вляет собой плотность вероятности некоторого значения переменной х. Максимум плотности вероятности приходится на среднее значение х. Плотность вероятности (W) нормального распределения определяется следующим выражением: (—оо • = 7=- -е •оо,а>0), A.24) Здесь х — абсцисса, у — соответствующая ей ордината (у есть функция от х\ у = / (*)), 0 — стандартное отклонение распределения, \i — среднее значение (математическое ожидание) распределения; я и е — математические постоянные, примерно равные: я = 3,141593 и е = = 2,718282. Формула содержит два параметра \х и а, постоянные для данной случайной переменной х. Как видно из формулы A.24), нормальное распределение полностью определяется параметрами [х и а. Среднее \i определяет положение распределения относительно оси х; стандартное отклонение определяет форму кривой: чем больше а, тем кривая более пологая (тем шире кривая и тем ниже ее максимум). Другие свойства нормального распределения: 1. Кривая симметрична относительно прямой х == ^, т. е. симметрична относительно среднего значения. Значения х' = \i — аи х — 3 Зак. 93 0 65
= |i + а имеют равную плотность и, естественно, одну и ту же ординату у. 2. Максимум ординаты кривой равен утах = 1/(а • ^2^), для а = 1 он равен 0,398942 ~ 0,4. Для очень больших х (х ->• оо) и очень малых х(х-+-—оо) у стремится к нулю; ось х является асимптотой. Очень большие отклонения от среднего имеют очень малую вероятность, что позволяет сказать: «они почти невозможны». Точна перегиба/ кривой Точна перегида _\/ кривой jU-36 M'2b ju-6 ju ji'+b ju+2b M+3b ~Z -3 -2 -1 0 1 2 3 Рис. 9. Нормальное распределение; стандартное отклонение и точки перегиба. Соотноше- X — U ние между х и z: z= , где z — стандартная нормальная переменная. 3. Стандартное отклонение определяется абсциссой точки перегиба (рис. 9). Ордината точки перегиба равна примерно 0,6 • угаах. Грубо говоря, 2/3 всех наблюдений лежит между — а и + а (|л ± а). 0 г Рис. 10. Стандартная нормальная кривая. 4. При больших объемах выборки примерно 90% всех наблюдений лежит между — 1,645а и + 1,645а. Границы —0,675а и + 0,675а называются вероятными отклонениями-, в этом интервале лежит 50% всех наблюдений. Так как у» и а в формуле для плотности нормального распределения могут принимать любые значения, возможно бесконечно много нормально распределенных совокупностей с различными распределениями. Если в A.24) мы примем * — и* = г, то получим единственное, стандартное нормальное распределение с нулевым средним и единичным стандартным отклонением. 66
Сокращенно нормальное распределение записывают в виде N (fi, a) или fN ([А,^а2), а стандартное нормальное распределение — N @, 1). Стандартное нормальное распределение — имеет у как функцию стандартной нормальной переменной z — определяется выражением y = /(z)=—jL-e 2 =0,3989-e 2 ~ 0,4-е 2 . A.25абв) Для каждого значения z по табл. 13 можно найти вероятность того, что случайная переменная Z примет значение, большее, чем z. Следует отметить два следующих важных обстоятельства: 1. Вероятность под всей кривой стандартного распределения равна единице: из этого следуют выражения для определения постоянных нормального распределения а = \lV2n и 6= 1/2 (ср. у = ae~bz2). 2. Нормальное распределение симметрично. Табл. 13^показывает «правостороннюю» вероятность того, что значение z будет больше, чем z. Например, значению z = 0,00 соответствует ^вероятность Р = 0,5, т. е. справа от среднего значения лежит половина площади под кривой; для z = 1,53 Р = 0,0630 = 6,3%, или справа от z = 1,53 лежит 6,3% общей площади под кривой. Табл. 13 дополняется табл. 14 (с. 69) и 43 (с. 204). Рис. 11. ^[асть площади (заштрихованная) справа от определенного значения z, равна А. Площадь, лежащая слева от z, равна A— Л), причем значение А определяется значением z согласно табл. 13. Рис. 12. Распределение площади под кривой нормального распределения. $999367,- При оценке результатов выборки часто используют следующие соотношения: а ± 1,96а, или z = dh 1,96 накрывают 95% всей площади; 1 X -1- 2,58а, ± 3,29а, ± 1СГ, ±2а, ±3а, или или или или или z= ± Z== ± z= ± z = ± Z = Ч- 2,58 3,29 1 2 3 » » » » » 99% 99,9% 68,27% 95,45% 99,73% » » » » » » » » » » 3* 67
Таблица 13. 2-критерий. Площадь под кривой стандартного нормального распределения от г до оо для значения г в интервале 0^2^:3,7, т. е. вероятность того, что переменная Z примет значение ^г (символически Р (Z^z). 00 01 02 03 05 06 07 03 0Э 0,5000 0,4602 0,4207 0,3821 0,3446 0,3085 0,2743 0,2420 0,2119 0,1841 0,1587 0,1357 0,1151 0,0968 0,0808 0,0668 0,0548 0,0446 0,0359 0,0287 0,0228 0,0179 0,0139 0,0107 0,0082 0,0062 0,0047 0,0035 0,0026 0,0019 0,0013 0,4960 0,4562 0,4168 0,3783 0,3409 0,3050 0,2709 0,2389 0,2090 0,1814 0,1562 0,1335 0,1131 0,0951 0,0793 0,0655 0,0537 0,0436 0,0351 0,0281 0,0222 0,0174 0,0136 0,0104 0,0080 0,0060 0,0045 0,0034 0,0025 0,0018 0,0013 0,4920 0,4522 0,4129 0,3745 0,3372 0,3015 0,2676 0,2358 0,2061 0,1788 0,1539 0,1314 0,1112 0,0934 0,0778 0,0643 0,0526 0,0427 0,0344 0,0274 0,0217 0,0170 0,0132 0,0102 0,0078 0,0059 0,0044 0,0033 0,0024 0,0018 0,0013 0,4880 0,4483 0,4090 0,3707 0,3336 0,2981 0,2643 0,2327 0,2033 0,1762 0,1515 0,1292 0,1093 0,0918 0,0764 0,0630 0,0516 0,0418 0,0336 0,0268 0,0212 0,0166 0,0129 0,0099 0,0075 0,0057 0,0043 0,0032 0,0023 0,0017 0,0012 0,4840 0,4443 0,4052 0,3669 0,3300 0,2946 0,2611 0,2296 0,2005 0,1736 0,1492 0,1271 0,1075 0,0901 0,0749 0,0618 0,0505 0,0409 0,0329 0,0262 0,0207 0,0162 0,0125 0,0096 0,0073 0,0055 0,0041 0,0031 0,0023 0,0016 0,0012 0,4801 0,4404 0,4013 0,3632 0,3264 0,2912 0,2578 0,2266 0,1977 0,1711 0,1469 0,1251 0,1056 0,0885 0,0735 0,0606 0,0495 0,0401 0,0322 0,0256 0,0202 0,0158 0,0122 0,0094 0,0071 0,0054 0,0040 0,0030 0,0022 0,0016 0,0011 0,4761 0,4364 0,3974 0,3594 0,3228 0,2877 0,2546 0,2236 0,1949 0,1685 0,1446 0,1230 0,1038 0,0869 0,0721 0,0594 0,0485 0,0392 0,0314 0,0250 0,0197 0,0154 0,0119 0,0091 0,0069 0,0052 0,0039 0,0029 0,0021 0,0015 0,0011 0,4721 0,4325 0,3936 0,3557 0,3192 0,2843 0,2514 0,2206 0,1922 0,1660 0,1423 0,1210 0,1020 0,0853 0,0708 0,0582 0,0475 0,0384 0,0307 0,0244 0,0192 0,0150 0,0116 0,0089 0,0068 0,0051 0,0038 0,0028 0,0021 0,0015 0,0011 0,4681 0,4286 0,3897 0,4641 0,4247 0,3859 0,3520 0,3483 0,3156 0,3121 0,2810 0,2483 0,2177 0,1894 0,1635 0,1401 0,1190 0,1003 0,0838 0,0694 0,0571 0,0465 0,0375 0,0301 0,0239 0,0188 0,0146 0,0113 0,0087 0,0066 0,0049 0,0037 0,0027 0,0020 0,0014 0,0010 0,2776 0,2451 0,2148 0,1867 0,1611 0,1379 0,1170 0,0985 0,0823 0,0681 0,0559 0,0455 0,0367 0,0294 0,0233 0,0183 0,0143 0,0110 0,0084 0,0064 0,0048 0,0036 0,0026 0,0019 0,0014 0,СОЮ 0,0010 3,2 0,0007 3,3 0,0005 3,4 0,0003 3,5 и 3,6 0,0002 3,7 0,0001 Источник: Fisher R. A. and Yates F. Statistical Tables for Biological, Agricultural and Medical Research, Oliver and Boyd., Edinburgh, p. 45. 68
Отклонения, большего чем <т, от среднего значения следует ожидать примерно в одном случае из трех опытов; отклонения, большего чем 2а, — одного в 22 опытах и отклонения, большего чем За, — при- Таблица 14. Границы стандартного нормального распределения г 0,6745 0,8416 1,2816 1,6449 1,9600 2,3263 2,5758 2,8070 3,0902 3,2905 двусторон. 0,5 0,4 0,2 0,1 0,05 0,02 0,01 0,005 0,002 0,001 р односторон. 0,25 0,2 0,1 0,05 0,025 0,01 0,005 0,0025 0,001 5-Ю-4 г 3,4810 3,7190 3,8906 4,2649 4,4172 4,7534 4,8916 5,3267 5,7307 6,Ю94 двусторон. 5-Ю-4 2-Ю-4 ыо-4 2-Ю-5 ыо-5 2-10-» ыо-6 ЫО-7 ыо-8 ыо-9 р односторон. 25.10-5 ыо-4 5-Ю-5 ыо-5 5. Ю-6 ыо-* 5-10-7 5-Ю-8 5-Ю-9 5-Ю-10 мерно в одном случае из 370 опытов, иначе говоря: вероятность того, что х будет отличаться по абсолютной величине больше чем в 3 раза от среднего значения, существенно меньше чем 0,01. Р (| х — (г | > За) = 0,0027. A.26) Последнее соотношение для нормального распределения часто называют правилом трех сигм: вероятность того, что разность между случайной переменной, распределенной примерно по нормальному закону, и ее средним значением по абсолютной величине превосходит За, меньше чем 0,3%! Для произвольного распределения справедливо неравенство Бьенэ- мэ A853) и Чебышева A874): вероятность того, что разность между случайной переменной и ее средним значением по абсолютной величине больше чем За (в общем случае: > ?а), меньше чем 1/32 (в общем случае: <; 1/&2), т. е. меньше 0,11. P(|*-|i|>3o)<-i- = 0,llll (i.27a) у или в общем случае Р(\х— 4 4r при k" A.27) т. е. чтобы получить 5%-ный порог, необходимо принять 4,47а; тогда 1/4,472 примерно равно 0,05. Для симметричного распределения с одним максимумом справедливо строгое неравенство Гаусса A821) 4т A-28) и отсюда 9-9 -0,0494, A.28а)
т. е. вероятность отклонения, большего чем За, примерно равна 5%. Более подробно о неравенствах подобного рода можно прочесть в [Mallows, 19561 и [Savage, 1961]. • 1.3.5. ОТКЛОНЕНИЯ ОТ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ Некоторые признаки объектов, находящихся в одинаковых условиях, — продукция машины, особи одного вида — зачастую распределены по нормальному закону. Вместе с тем многие распределения, например, в химическом анализе и многих других областях сильно отличаются от нормального [Clancey, 1947]. При этом генеральная совокупность в противоположность нормальному распределению, как правило, конечна, состоит в большинстве случаев из дискретных значений и часто имеет асимметричное, многовершинное распределение частот. Отклонения от нормального распределения могут быть из-за неудачного выбора единицы измерения. Площадь поверхности и вес организмов обычно не подчиняются нормальному распределению, поскольку речь ? идет о квадратах и кубах нормально распределенных переменных. В подобных случаях рекомендуется преобразование переменных. Для площадей, объемов в области малых частот рекомендуется преобразование типа квадратного и кубического корня; для распределения, ограниченного слева нулем, часто применяется логарифмическое преобразование переменных. Процентные закономерности нормализуются преобразованием поворота осей. Подробнее об этом можно посмотреть на с. 104—107, 247—248, 466—467. Если применяемую шкалу нельзя произвольно менять, то следует внимательнее рассмотреть технику отбора. Когда выборка содержит только самые большие экземпляры, которым отдается в отборе вольное или невольное предпочтение, не следует ожидать нормального распределения. Подобное влияние оказывает неоднородность выборки, например, в отношении возраста или пола: получается больше чем один пик. , 4 Мы еще будем рассматривать некоторые способы проверки выборки на однородность, или, иначе говоря, контроля отклонения от нормального распределения (с. 84—86, 233—235, а также 256—258 и 297—299). Если обнаружится, что генеральная совокупность, в особенности на краях, имеет значительное отклонение от нормального распределения (Чарлз П. Уинзор указал на то, что многие эмпирические распределения только в средней части приближаются к нормальному распределению), то может оказаться целесообразным исключить из рассмотрения наименьшие и наибольшие наблюдения, или, иначе говоря, отбросить некоторые из экстремальных наблюдений на обоих концах распределения (? 5% всех значений). Это усечение (trimming, censoring) сильно уменьшает дисперсию, но улучшает оценку среднего значения [McLaughlin, Tukey, 1961], [Tukey, 1962], [Gebhardt, 1966]. Графические методы определения х, s и s2 для усеченного распределения даны Нельсоном [Nelson, 1967] (ср. также [Cohen, 1957/1961] и [Sarhan, Greenberg, 1962]). 70
ф 1.3.6. ХАРАКТЕРИСТИКИ РАСПРЕДЕЛЕНИЯ С ОДНИМ ПИКОМ (УНИМОДАЛЬНОГО) 1.3.6.1. Оценка параметров Статистики, такие, как, например, среднее значение х = -^ 2я, должны наилучшим образом удовлетворять следующим четырем условиям: 1. Они должны быть несмещенными (unbiased, verzerrungsfrei), т. е. при очень большом числе испытаний с одинаковыми выборками среднее значение оценок должно стремиться к истинному значению генеральной совокупности. Если этого нет, то оценка смещена. Это смещение (bias) может быть обусловлено ошибками измерения, юстировки, эталонирования, тарировки, протоколирования, счета и оценки или неслучайным характером выборки, или комбинацией этих ошибок и совсем независимо от объема выборки. Ошибки такого рода называются систематическими ошибками-, они всегда приводят или к завышению, или к занижению оценки. Значение этой ошибки может быть определено только после анализа процедуры получения рассматриваемой величины. Избежать ее можно только при тщательном планировании эксперимента или наблюдения. При наличии систематических ошибок нельзя судить об истинном значении величины — в отличие от случайных ошибок (ср. также с. 188—191, [Anderson, 1963] ,[Zarkovick, 1966], [Sza- meitat, Deininger, 1969]). 2. Они должны быть согласованными или состоятельными, т. е. с ростом п они должны стремиться к соответствующему параметру генеральной совокупности j 3. Они должны быть" эффективными (efficient), т. е. для выборок равного объема они должны иметь минимальное рассеяние и дисперсию. Представьте себе, что из генеральной совокупности взято бесконечно много выборок объема п и для некоторой статистики, удовлетворяющей условиям 1 и 2, рассчитывается дисперсия. Тогда условие 3 означает, что та статистика удовлетворяет ему, дисперсия которой относительно среднего значения или математического ожидания минимальна. Как правило, стандартное отклонение оценки по абсолютной величине и отнесенное к математическому ожиданию уменьшается при увеличении объема выборки. 4. Они должны быть достаточными, т. е. не должна возникать необходимость в дополнительной информации об оцениваемом параметре. Это условие означает, что статистика должна содержать всю основную возможную информацию. Подобно смещению рассеяние оценки может быть уменьшено соответствующим планированием эксперимента. Названия «состоятельная» (consistent), «эффективная» (efficient) и «достаточная» (sufficient) введены Р. А. Фишером A925). Для оценивания параметров по выборочным данным разработаны многочисленные методы. Особое значение имеет метод максимального правдоподобия (Р. А. Фишер); это универсальный метод оптимального оценивания неизвестных параметров, применимый в случаях, когда вид функции распределения известен; оценки неизвестных параметров 71
в этом случае равны значениям, при которых полученная выборка имеет максимальную вероятность появления, т. е. в качестве оценок отыскиваются значения, максимизирующие функцию максимального правдоподобия для параметров, в предположении, что эти параметры существуют. Этот метод построения точечных оценок параметров находится в тесной связи с методом наименьших квадратов. Примечание. Закон больших чисел Бернулли Пусть событие имеет вероятность я, а относительная частота появления Е в п независимых случайных испытаниях равна рп. Для любого сколь угодно малого наперед заданного положительного числа 8 справедливо выражение • Р(\рп — я|е)-М для п^оо, A.29) т. е. вероятность того, что рп отличается меньше чем на 8 от теоретического значения я, стремится (сходится) при увеличении п к единице. Можно также сказать, что с любой как угодно близкой к единице вероятностью при достаточно большом числе п относительная частота рп как угодно мало отличается от параметра я. Следствием этого закона больших чисел является, например, сходимость по вероятности выборочного среднего к среднему значению генеральной совокупности. В конце раздела 1.3.4 мы привели неравенство для случайной переменной* справедливое также и для среднего значения и позволяющее заменить его при определенных условиях на х при некотором конечном я. Функции выборки, такие, как среднее значение и дисперсия, для которых справедливо выражение A.29), называют состоятельными или сходящимися по вероятности. Выражение A.29) называют иногда слабой формой закона больших чисел. Соответствующий сильный закон больших чисел гласит: при бесконечном п с вероятностью 1 будет наблюдаться только конечное число случаев,^когда рп не будет стремиться к я (ср., например, [Weinberg, 1968]). На законе больших чисел основаны A) возможность как угодно точно оценивать параметр по выборке и B) метод Монте-Карло <ср. с. 224—227). 1.3.6.2. Арифметическое среднее и стандартное отклонение Среднее значение и стандартное отклонение суть характеристические значения симметричной колоколообразной кривой, или гауссовой кривой, или нормального распределения. Они определяют положение среднего значения ряда измерений и удаления, колебания, рассеяние, или дисперсию, отдельных значений от среднего. Приведенное выше неравенство Чебышева A.27) показывает, что стандартное отклонение — независимо от нормальности распределения — может служить в качестве общей меры рассеяния. Определения _ Арифметическое среднее х есть сумма всех наблюдений, поделенная на число этих наблюдений: 72
n или - _ _2*_ n A.30) Стандартное отклонение практически равно корню квадратному из среднего значения квадратов отклонений: Выражение «практически» при этом означает, что под корнем стоит делителем не п, как это должно быть при вычислении среднего, а число, на 1 меньшее. Квадрат стандартного отклонения называется дисперсией S2= 2(*-*Г- 9 A32) п—1 Если среднее значение (fx) генеральной совокупности известно, то используют величину \>0= *<*-!*)' A.33) п в качестве оценки дисперсии а2. 1.3.6.3. Оценивание среднего значения и стандартного отклонения при малом объеме выборки Когда данные содержат мало знаков или при наличии вычислитель* ной машины среднее значение рассчитывается по формуле A.30), стандартное отклонение (положительное значение корня Ys2) по A.31а) или по A.316): г п—1 f s=\/ -5-; A.31а) г п1 Пример. Рассчитайте 1с и s по значениям 27, 22, 24 и 26 (п = 4). - 2л _ 99 _247е. х-—-— -24,75, = I/ 5 f^ n—1 / / s= I/ 5_= I/ i_ = /4,917 = 2,22 f^ n1 f 4—1 73
или s = a:*- рц« = ,/.2465 - 99* = утау= 2> л(л-1) К 4D-1) Для сравнения двух средних значений по критерию Стьюдента (^-критерий, см. с. 245—246 и 248—250) —целесообразно вместо стандартного отклонения вычислять дисперсию, так как она необходима для проверки равенства дисперсий (с. 241—245) и для ^-критерия. Для вычисления дисперсии в формулах A.31а, б) используется подкоренное выражение, например: s = 1/4,917 или s2 = 4,917, т.е. ^ ( Примечания 1. Дисперсия при п парных измерениях рассчитывается по формуле 2. При выборке большого объема можно просто вычислить стандартное отклонение как одну третью разности между средними значениями наибольших и наименьших шестых частей ряда наблюдения [Prescott, 1968]. 3. В то время как s2 является несмещенной оценкой для а2, для а оценка s будет смещенной. Это смещение, как правило, невелико. Для нормально распределенной генеральной совокупности можно получить несмещенную оценку а с применением поправочных коэффициентов (например, [Bolch, 1968]). Для неслишком малой выборки (т] ? 10) этот множитель хорошо аппроксимируется выражением 1 Н ¦ — и близок к единице (например, 1,00866 для п = 30). L Цп — 1)J Подробнее об этом сказано у [Brugger, 1969], [Stephenson, 1970]. 4. Для ~х справедливы выражения 2 (** — *) = 0 и 2 (xt — 1сJ < < 2 (xt — яJ для любого х\ для медианы^справедливо выражение 21 х$ —1с\ < < 2 \xi — х\ для любого Ху т. е. суммы [JS (xt — Icf и 2 \xi — И \ суть / i i некоторые минимумы! При многократно повторяющихся отдельных значениях для упрощения расчетов предварительно выбирается среднее значение d с учетом того, чтобы разность х —*d была возможно меньшей или была везде положительной. Тогда справедливы выражения: ¦-V- A.34) A.35) 74
Пример Таблица 15 X 11,27 11,36 11,09 11,16 11,47 х-11,26 0,01 0,10 —0,17 —0,10 0,21 0,05 (л;—11,26J 0,0001 0,0100 0,0289 0,0100 0,0441 0,0931 Согласно A.34) и A.35): ^Zf?L:=llj26 + -^ = ll>270; 5—1 Умножением всех значений х на 10 в подходящей степени в числовых данных устраняется запятая: в нашем случае это соответствует умножению на 100, т. е. х* (х со звездочкой) = 100 х и для значений х* получаем х* = 1127,0 и s* = 1,52. Отсюда обратным преобразованием приходим снова к значениям * = x*/100= 11,27 и s = s*/100 =0,152. От больших чисел при расчетах можно освободиться, если сделать еще один шаг. При кодировании исходные значения х преобразуются в возможно более простые числа х* Еыбором постоянных kx и k2> причем с помощью &! осуществляется изменение масштаба, а с помощью k2 изменяется нулевая точка отсчета (в совокупности — линейное преобразование): х = fa* + k2 A.36a) или По рассчитанным л;* и s* или s*2 тотчас получаются требуемые значения: <;2 — ?>? с*2 /1 QQ\ Рекомендуем читателю просчитать предыдущий пример заново, используя преобразование х* - 100 (х— 11,26), т. е. К = 0,01, k2 = 11,26. 76
4.3.6.4. Оценивание среднего значения и стандартного отклонения по выборкам большого объема: отдельные значения сгруппированы в классы Сумма 10 чисел 2, 2, 2, 2; 3; 4, 4, 4, 4,4 = 31 может быть записана также в следующем виде D • 2) + A • 3) + E • 4), среднее значение этого ряда рассчитывается тогда по формуле 4+1 + 5 На этом примере мы видим выборку, отдельные значения в которой сгруппированы в три класса. Частоты 4, 1 и 5 сообщают значениям 2, 3 и 4 различный вес. Значение 3,1 может рассматриваться как взвешенное среднее арифметическое. К этому мы вернемся позднее (см. с. 79). Чтобы можно было лучше рассмотреть большой числовой материал и проще определить такие характеристики, как среднее значение и стандартное отклонение, часто используется объединение упорядоченных значений в классы. При этом целесообразно использовать классы равной ширины. Кроме того, следует в качестве середин классов выбрать возможно более простые числа с небольшим числом значащих цифр. Число классов следует брать, как правило, от 6 при 25—30 наблюдениях до '25 при^ЮООО значений и больше (см. с. 60 и 90). Классы k характеризуются соответствующими частотами /lf /2, ..., fk (п = 2 ft = /=i s= Б/). Выбранное предварительное значение среднего d обычно попадает в самый большой класс. I. Способ с умножением Отдельные классы затем нумеруются: значению d присваивается номер z = 0, возрастающие классы нумеруются 1, 2, ..., уменьшающиеся — 1, — 2f ... Тогда: x = d + — I>fz\ A.39) п s = b]/ "" ~^'г> '" ; A.40) -n(/i-l) Г где d — принятое среднее значение; Ь — ширина класса; п — число значений; / — частота в классе, число значений в классе; z — отклонения [г = ^- 76
Таблица 16 X 13 17 21 d = 25 29 33 37 2 / 1 4 6 7 5 5 2 30 z з -2 — 1 0 1 2 3 и —3 —8 -6 0 5 10 6 4 fzi ¦ 9 16 6 0 5 20 18 74 x = d + — 2/z = 25 + — -4 = 25,53; л 30 s = t = 4 74 _ 42/30 л—1 J ' V \ 31-1 Проверка — применяются тождества: 2/ (z + 1) = 2/2 + 2/ = 2/2 + /г; 2/ (г + IJ = 2/ (z2 + 2г + 1); 2 f(z + IJ = 2/z2 + 22/2 + 2/; 2/ B + IJ = 2/22 + 22/2 + n, и записываются соответствующие распределения. Таблица 17 )=6,37. A.41) A.42) 2+1 2 — 1 0 1 2 3 4 л = 2/ = f И 4 6 7 5 5 2 = 30 /B+D ( 2 —4 0 7 10 15 8 S/(z+l)=34 f B+1J 4 4 0 7 20 45 32 2/(г+1J=112 Проверка для средних значений: 2/ (г + 1) = 34 (из табл. 17); 2/z + п = 4 + 30 = 34 (из табл. 16). 77
Проверка для стандартного отклонения: 2/B+ IJ = 112 (из табл. 17); 2/z2 + 22/2 + п = 74 + 2 • 4 + 30 = 112 (из табл. 16). II. Способ со сложением Это лучший способ для вычисления среднего значения и стандартного отклонения для очень большого ряда наблюдений. По отношению к предыдущему способу он имеет то преимущество, что на стадии расчетов производится только суммирование (табл. 18). Способ с суммированием состоит в том, что производится суммирование частот, начиная с верхнего и нижнего концов таблицы, по направлению к предполагаемому среднему d (графа 3). Затем полученные значения аналогично суммируются еще раз в 4-й графе. Суммарные значения выше и ниже d обозначаются через б3 и 62. Затем аналогичное суммирование проводится еще раз (см. графу 5). Соответствующие суммы обозначаются через гх и е2. Затем, "обозначая 6,-6! _ „ получаем: s = i л— 1 A.43) A.44) S2=i Л—1 где d — принятое среднее; b — ширина класса; п — число значений; 61э б2, elf е2 — специальные суммы, см. текст. Рассмотрим последний пример. Таблица 18 X 13 17 21 d = 25 29 33 37 л=30 f 1 4 6 7 5 5 2 Si 1 5 И 12 7 2 s2 1 6 17 = б! 21 =6а 9 2 s3 1 7 24 = 8i 32 = е2 11 2 * 87
с = Az^L = Л=П =0,133; п 30 .0,133 =25,33; л—1 !==4.j/. 2B4 + 32)—A7+21)—30-0,1332 30—1 s = 41 Стандартное отклонение, рассчитанное с применением группировки данных, обычно несколько больше, чем его значение, рассчитанное без группировки данных, а именно внутри небольшой области тем больше, чем больше ширина класса Ь\ поэтому рекомендуется ее выбирать не слишком большой (см. с. 96). По возможности должно выполняться неравенство b^s/2. A.45) В нашем примере это условие выполняется с запасом. Кроме того, Шеппард предлагает дисперсию, рассчитанную с применением группировки, корректировать вычитанием значения Ь2/12. Поправка Шеппарда: s*-b*/12. A.46) Эта поправка требуется только тогда, когда производится грубое распределение по классам при п > 1000, т. е. когда k<. 20. Для скорректированной дисперсии нельзя применять статистические критерии! 1.3.6.5. Взвешенное арифметическое среднее, взвешенное стандартное отклонение и арифметическое среднее с весами Если необходимо несколько рядов данных размера nlf n2, ..., nk со средними хг, х2, ..., хк и квадратами стандартных отклонений sf, s|, 7.7ysl объединить в один ряд объема п = пг + п2 + ... + nk, то взвешенное среднее полного ряда есть 7 +! ft A.47) п и взвешенное стандартное отклонение -+SS (*fc-D e A 48) 79
Пример п1 = 8,^=9, (Sl = 2)(sf=4; = 2), si = 4; -Y- 4(8-1)+1(Ю-1)+4F-1) , fi, — =1,65. Возводя в квадрат A.48), получаем 2_ A0—1L-4F—1) 24-3 ? Арифметическое среднее с весами: отдельные измерения неравной точности можно отметить различными весами wt (измерениям 1, 2, 3 соответственно приписать 0,1 или 0,01 и т. д. при 2до| = ^.^Взвешенное по важности среднее получают тогда по формуле Другим способом, более целесообразным, служит введение вспомогательной переменной а\ тогда при расчетах используется отклонение Пример г%=х% — а. xi 138, 137, 137, 2 2 9 8 Щ- w. 1 2 1 = 4 (a = 137,8) 0,4 0,1 0,0 ш 0 0 0 = 0, л ,4 ,2 ,0 6 х — а Zj # х = 137,8 0,6 : 137,95. A.49) 1.3.6.6. Коэффициент вариации Отношение стандартного отклонения к среднему значению называется коэффициентом вариации или изменчивости (coefficient of variation, seltener coefficient of variability) и обозначается V: V=~t хфО. A.50) X 80
Коэффициент вариации равен стандартному отклонению, когда среднее значение равно единице. Иными словами: коэффициент вариации есть относительная безразмерная мера рассеяния с единичным средним значением. Зачастую пользуются также стандартным отклонением в процентах от арифметического среднего: у = 4-100, хфО. A.50а) х При использовании коэффициента вариации следует обратить внимание на то, чтобы значения xt были положительными (что получается при употреблении шкалы с абсолютным нулем и постоянной шириной классов). В не слишком маленькой выборке из нормальной генеральной совокупности величина Vдолжна быть не больше 33%. Коэффициент вариации особенно пригоден для сравнения выборок из генеральных совокупностей одного типа. Пример При s = 4 и х = 20 согласно A.50) и A.50а) получаем У = — = 0,20=20%. 20 1.3.6.7. Примеры на нормальное распределение С помощью ординат нормального распределения из табл. 20 легко построить нормальную кривую. Для быстрого построения нормальной кривой могут быть использованы следующие значения: Таблица 19 Абсцисса Ордината 0 Углах ±0,5G 7 g "I/max ±1,0G 5 > g 'Утах ±2,0а 1 g 'Утах ±3,0а 1 80 *^max Абсцисса ±3,5сг соответствует ординате A/400) • */тах, кривая при этом практически сливается с осью х\ при максимальной ординате, например, в 40 см при г = ± 3,5, ордината будет равна 1 мм. Длина нормально распределенных предметов в среднем равна 80 см при стандартном отклонении 8 см. а. Какой процент предметов находится между 66 и 94 см? б. Между какими длинами располагаются в среднем 95% предметов? а. Область 80 ± 14 см может быть при заданном стандартном от- 14 клонении 8 см записана в виде 80 ± -g- or = 80 ± 1,75а. Табл. 13 для г ~ 1,75 дает вероятность, примерно равную 4% (Р = 0,041 ~ с* 0,04). Требуется определить процент значений между z = — 1,75 81
00 to сососососососососо CO 00 Vj O5 СЛ 4*~CO tO ^~ ]O NDJO JO tO W Ю NO Ю 5C04^C75COtO-<l4^CO tOtOCOCOCOCOCOCOCO 05 00 >— W СЛ Ci OO (?) C?) CJ)DbOWtOOO) со CO 00 CO о о о о о oo< ооооос ююсососососососо С7500СОСДСТ500СОСО С700СОСД СО ЧО ^ О -^44^»— tOCO О О < ooboo-^t >слсосо-^соосо в ооооо ^ С^5 С^ <^^ <"~*> <^> О^^ •'ЮСО 8 о о о—» llCOtOC о О J3 О О О О О О О "to to Ьо со Ьо ~оэ ^о "со со 0500OtO4^CT>"'' " 3S00 ююсососососососо Cn00Ot04^0i-J00C0 n00 о со со со 00 СО о со о о S и— СЛ I—к СО . _>СЛ I 5 >— СО tO 00 СО 00 С СО^4Ю400 4*.ОООСОСЛ05СОСО totocococococococo cnoooto^o^^ooco О JD О О О О О О О ооооооооо юю^слчослооо ооооооо 5СО^-*СЛСОСЛ»— СО CO4^00tO^JC7> оооооороо sfp©" • • * - • totocococococococo СО со 00 о со о 8 ооооооооо ооооооооо ооооооооо -> о о |—' •—' to to >оооооо > н- h— ^- tO СО СО Э >— СЛ СО 4*. >— 00 э а) ь— 4*. а> о ->j tototococococococo СЛ-ЧСОЮ4^СЛ-ЧООСО >—СЛООО"—ООСОСЛСО СлОСОСООсОСО^СО со СО 00 to
и z = + 1,75. Выше z = 1,75 лежит 4% и ниже z = — 1,75 также лежит 4% (см. рис. 13, с?! = — 1,75 и za = + 1,75); между этими двумя границами, т. е. между длинами 66 и 94 см, находится 100 — D + + 4) = 92% предметов. б. Для z = 1,96 получаем (см. с. 67): 95% всех предметов находятся в области 80 ± 1,968 см, т. е. между 64,32 см и 95,68 см. Пусть установлено, что некоторое эмпирическое распределение хорошо аппроксимируется нормальным распределением с х = 100 и s = 10. Нас интересуют доли от всей совокупности (в %), которые: а) превосходят л: = 115; б) лежат между х = 90 и х = 115; в) меньше 90 Рис. 13. Нормальное распределение: заштрихованные части площади лежат слева от Z\, (отрицательное значение) и справа от z2, (положительное значение). На рис. | ^?i | = | «2 i - Табл. 13 на с. 68 дает значение площади справа от z2 или, на основании симметрии кривой, также и слева от произвольного отрицательного значения 2i= —z2, причем входом в таблицу является значение | z2 |. Решение. Вначале преобразуем величину х по формуле z — х ~~ х s в стандартную форму (приведем к стандартным единицам). а) л: = 115, г = j^ = 1,5. По табл. 13 определяем, что искомая доля равна 0,0668, или ~ 7%. б) х = 90, г = —jq— = — 1,0, для х = 115 мы ранее получили z = 1,5. Искомая доля соответствует площади под нормальной кривой между z = — 1,0 и z = 1,5. Суммируем: (площадь между г = — 1 и 2 = 0)+ (площадь между z = 0 и z = 1,5). Поскольку первое слагаемое из соображений симметрии может рассматриваться как площадь между z = 0 и z = 1, искомую площадь (пл.) находим из выражения (пл. от z = 0 до z = 1) + (пл. от а == 0 до z = 1,5). Так как табл. 13 содержит вероятность того, что значение будет лежать правее 2 = 0, и учитывая, что площадь под криЕой правее нуля равна половине, получаем: для z = 1,0 Р = 0,1587, для z = 1,5 Р = = 0,0668, откуда пл. = @,5000 — 0,1587) + @,5000 — 0,0668) = = 0,3413 + 0,4332 = 0,7745, или 77,5% (см. рис. 14). в) для х = 90 мы получили z = — 1,0. Правее г = 1,0 также лежит площадь, равная 0,1587, или 16% (искомая площадь). Проверка вычислений по пунктам а), б), в): 0,0668 + 0,7745 0,1587 1,0000 83
ф 1.3.7. ВЕРОЯТНОСТНАЯ БУМАГА С помощью вероятностной бумаги можно определить, является ли распределение в данной выборке близким к нормальному. Кроме того, попутно находятся среднее значение и стандартное отклонение. Вероятностная бумага (особый вид миллиметровой бумаги) разграфлена таким образом, что при нанесении накопленных частот нормального распределения, выраженных в процентах, получается прямая линия. Ординатная сетка разделена согласно кривой накопленных частот нормального распределения и задает проценты накопленных частот. Ось абсцисс может градуироваться или по линейному закону (в мм), или в логарифмическом масштабе (рис. 15). Значения ординат, равные 0% и 100%, отсутствуют на вероятностной бумаге. Частоты (в %), соответствующие этим значениям, графически не отображаются. Рис. 15. Вероятностная бумага. Суммарная линия на вероятностной бимаге (б %) 99,98v 1% 90 50 W 0,02 0,021 н 55% 5% ! 1 1 / / --- / f В 8 Ю х-шнала (Верхние границы илассоЬ) 3,15 Sg (х) - шиала (середины млассоб) 10 Эмпирическое частотное накопленное распределение (в %) наносится на вероятностную бумагу. При этом следует обратить внимание на отметки границ классов на оси абсцисс. Суждение о линейности выносится на основании кривой между 10 и 90%. Для определения характеристик выборки проводится горизонтальная линия на уровне отметки 50% на оси ординат и точка пересечения проектируется на ось абсцисс. Точка пересечения есть графическая оценка среднего значения (xg). Далее находятся точки пересечения линий, соответствующие 16 и 84%; их проекции на ось абсцисс равны xg + sg n~xg — sg. Вычитая из второго первое, получаем 2sg и отсюда — стандартное отклонение. 84
Среднее значение (xg) и стандартное отклонение (sg) определяются при весьма небольшой расчетной работе и зачастую с вполне достаточной точностью. Кривая накопленных частот нормального распределения строится по следующим характеристическим значениям: для х = {л справедливо у = 50%; » х = \i + а » у ~ 84%; » х = \i — а » у с^. 16%. Проверка распределения на нормальность с помощью вероятностной бумаги дает вполне хорошие результаты. Для более точного исследования этот метод, естественно, непригоден, потому что вес отдельных классов проявляется недостаточно отчетливо, к тому же возможна только плохая оценка того, является ли отклонение от теоретической прямой случайным или нет. В дальнейшем мы изучим другой метод проверки нормальности распределения. Внизу рис. 15 приведена шкала весьма важного логарифмически нормального распределения, рассматриваемого в разделе 1.3.9. Дальнейшие указания можно найти в [Zacek, 1964, 1968]. Другие графические способы рассмотрены в [Mahalanobis, 1960]. Многие эмпирические распределения являются неоднородными смешанными распределениями. Из того факта, что выборочное распределение выглядит однородным и аппроксимируется, например, нормальным законом, не следует однородность распределения отдельных признаков. Нередко оказывается, что найденное нормальное распределение оказывается на самом деле составным. Подробнее об этом [Preston, 1953], [Daeves, Beckel, 1958], [Rohr- berg, 1958], [Weichselberger, 1961], [Ageno, Frontali, 1963], [Bhatta- charya, 1967], [Harris, 1968], [Nothnagel, 1968], [Day, 1969]. Принципиально не может быть доказана однородность материала исследования! Может быть установлена только неоднородность*. Неоднородность не означает непригодности материала, но требует учета при оценивании параметров главным образом построением групп. Примечание* Равномерное, или прямоугольное, распределение При бросании игральной кости можно получить результат 1, 2, 3, 4, 5 или 6. Теоретическое распределение в этом случае равновероятное, т. е. Р (х) = = g- для х = 1, 2, ..., 6. Дискретное равномерное распределение (uniform distribution) определяется выражением Р (х) = \1п для 1 < х < п A.51) со средним значением |i = (я+ 1)/2 A.52) и дисперсией а2 = („2 _ !)/12. A.53) Для нашего примера имеем и = F + 1)/2 = 3,5 и а2 = (б2 — 1)/12 = 2,917. Когда, как в примере, отдельным событиям Е могут быть поставлены в соответствие числа х и их вероятности Р (х) (относительные частоты появления), тогда для параметра теоретического распределения справедлива общая формула ) A.54) 85
и так называемая формула сложения для дисперсии о2 = 2х2Р (х) — ц2. A.55) Например, \х = 1 » g-+ 2 i g- + ..• + 6 • g-= 3,5 и а2 = 1 . g-+ 4 i g- + + ... + 36 * ^ —3,52 = 2,91?. Равномерное распределение выступает также в ошибках округления. Здесь соответственно Р(х) = ±для *=-0,4,-0,3, ..., + 0,5. Параметры: ц = 0,05 и а2 = 0,287. Для равномерно распределенных цифр от 0 до 9 согласно A.52) и A.53) справедливо р = A0 + 1)/2 = 5,5; = 8,25. Постоянная плотность вероятности непрерывного равномерного или прямоугольного распределения (rectangular distribution) в области от а до Ъ определяется выражением f 1/<6-«) для *<*<*; 1 I 0 для x<za или #>&. J Среднее значение и дисперсия: |i = (а+Ь)/2; A.57) а2 = (Ь — аJ /12. A.58) Непрерывное равномерное распределение в прикладной статистике имеет существенное значение: во-первых, когда любое значение в некоторой области равновероятно, и, во-вторых, для аппроксимации относительно небольших участков произвольного непрерывного распределения. Так, например, нормально распределенная величина х в области |д, — а/3 < х < \i + а/3 A.59) аппроксимируется равномерным распределением. Ридер [Pider, 1951] предложил критерий для проверки равенства двух прямоугольных распределений, который основан на соотношении их размахов; работа содержит границы доверительных интервалов с 5%-ным уровнем значимости. 1.3.8. ДРУГИЕ ПАРАМЕТРЫ, ХАРАКТЕРИЗУЮЩИЕ ОДНОМЕРНОЕ РАСПРЕДЕЛЕНИЕ ЧАСТОТ К характеристикам одномерного распределения частот относятся: 1. Меры положения: меры среднего положения распределения (арифметическое, геометрическое и гармоническое средние значения, медиана, мода, интердециальная широта). 2. Меры рассеяния: меры, которые характеризуют изменчивость распределения (дисперсия, стандартное отклонение, размах, коэффициент вариации, интердециальная широта). 3. М е р ы формы: меры, которые характеризуют отклонение распределения от нормального (простые меры асимметрии и эксцесса, а также моменты as и а4). 86
1.3.8.1. Геометрическое среднее Пусть даньмтоложительные числа х1у х2, ..., хп, тогда геометрическим средним xq называется корень степени п из произведения этих чисел: XG = Vxi-X2-Xs- — 'Xn. A.60) Расчет удобно проводить, преобразуя (lg Логарифм геометрического среднего равен арифметическому среднему логарифмов. Если необходимо определить общее среднее из выборок объемом пъ п2, ..., nk, то формируется взвешенное геометрическое среднее по формуле lA Л 63) Геометрическое среднее следует применять прежде всего тогда, когда среднее значение должно быть рассчитано из значений, заданных через некоторые равные промежутки времени (см. пример 1). Геометрическое среднее применяется, когда переменная во времени меняется с приблизительно постоянным соотношением между измерениями. К этому случаю относятся .многообразные явления роста. Прирост населения во времени, число пациентов или эксплуатационные расходы — вот известные примеры подобного типа явлений. Если имеется скорость, изменяющаяся в постоянном соотношении, которую необходимо оценить, то целесообразно данные нанести на логарифмическую бумагу (ордината: логарифмический масштаб, для признака; абсцисса: пропорциональный масштаб, для времени). В предположении изменения скорости в постоянном соотношении график должен получиться близким к прямой, xq есть в этом случае среднее значение скорости возрастания (см. примеры 2 и 3). Геометрическое среднее применяется также тогда, когда отдельные значения в выборке далеко отстоят от остальных значений; это меньше влияет на геометрическое среднее (чем на арифметическое среднее), так что оно дает более правильное представление о среднем. Примеры 1. Служащий получал в течение трех последовательных лет прибавки жалованья соответственно 6,10 и 12%. Процентная надбавка относится к окладу предыдущего года. Определить среднюю прибавку к окладу. 87
Необходимо определить геометрическое среднее из 1,06; 1,10 и 1,12: lg 1,06 = 0,0253 lg 1,10 = 0,0414 lg 1,12 = 0,0492 — lg*j=--0,03863 = \gXG 3 xG = 1,093 В среднем оклад возрастает на 9,3%. 2. В некоторой культуре число бактерий в единице объема за три дня увеличилось со 100 до 500. Определить средний прирост за день в процентах. Обозначим это значение через х, тогда число бактерий после 1 дня 100 + 100* = 100 A + х)\ 2 дня 100 A + х) + 100 A + х) х = 100 A + xf\ 3 дня 100 A + xf + 100 A + xf x = 100 A + xf. Последнее значение равно 500, так что 100A+*K С помощью логарифмирования находим ^5^= 1,710, откудал; = 0,710 = = 71,0%. В общем случае если принять начальное количество за М, постоянную скорость роста в единицу времени за г, то спустя п единиц времени получим В = М (I +г)п. A.64) 3. Пусть за 4 года, п = 4, начальная сумма в 4 млн. марок (М) возросла до 5 млн. марок. Определить среднюю ежегодную скорость роста. Поскольку начальный капитал М марок за п лет увеличился до В марок, то геометрическое среднее роста определяется выражением Получаем в нашем случае ИЛИ r=V — — J М 5000000 « _V/j[_i 4000000 ^ 4 fTT 15 1 ^ =*, тогда \gx = -j- • lg -j- = -^ (lg 5 — lg 4) 0,0217, откуда x = 1,052 и r = 1,052 — 1 = 0,052* Средняя скорость роста составляет 5,2% в год.
Примечание. Число лет п, в течение которых капитал удваивается, получается с хорошей точностью из приближенной формулы Трофтона [Troughton, 1968] п = 70/р + 0,3 или р = 70/(п — 0,3), где р — процентная ставка. Например: р = 5%, п = -g- + 0,3 = 14,3. (Точный расчет следовало бы вести по формуле A + 0,05)" = 2, откуда п = Ig2/lg 1,05 = 14,2.) 1.3.8.2. Гармоническое среднее Пусть даны положительные значения хг, х2, ..., хп\ тогда обратная величина арифметического среднего всех обратных величин называется гармоническим средним хн- ~ П ft r* пг\ л;# = = . A.65) Х1 Х2 ХП Зачастую необходимо отдельным значениям xt поставить в соответствие веса wt и рассчитать взвешенное гармоническое среднее (см. пример 3). п xl X2 xn A.66) В иной форме взвешенное гармоническое среднее задается формулой +++ . A.67) ^1 . П2 Пк -Z—+-Z—+..-+"=— Гармоническое среднее необходимо тогда, когда наблюдения, для которых мы хотим получить арифметическое среднее, заданы обратными значениями, когда эти наблюдения каким-либо образом уже содержат эту обратную зависимость, например часы на километр (вместо км/ч). Другие примеры применения гармонического среднего: расчет средней скорости при заданных траекториях частиц с различными скоростями (пример 2) или расчет средней плотности газа, жидкости, частиц и т. п. при заданных различных плотностях в отдельные промежутки времени. Гармоническое среднее используется при расчете средней продолжительности жизни. 89
Примеры 1. В трех различных магазинах продается определенный предмет по цене: 10 штук за 1 марку, 5 штук за 1 марку и 8 штук за 1 марку. Определить среднее число предметов, которое можно купить за 1 марку. - 3 з х _L _L _L JL 10 + 5 + 8 40 Этот результат можно проверить: 1 шт. = 0,1 1 шт. = 0,2 120 17 =7,06~7,1. м м 1 шт. = 1 шт. = 0,125 м 3 шт. = 0,425 м 0,425 П1Л7 1,0000 = 0,1417, или -7,06, 3 ' ' 0,1417 или 7,1 шт. на 1 марку. 2. Классическим примером применения гармонического среднего является определение средней скорости. Пусть некто проехал от А до Б со средней скоростью 30 км/ч. На обратном пути, от Б до Л, скорость была 60 км/ч. Определить среднюю скорость на всем пути (Do). 2 DG = = 40 км/ч. ——— i_ ——— 30 ~ 60 Примечание Предположим, что расстояние от А до Б составляет 60 км; тогда на путь от А 60 км л 60 км до Б потребуется 30 км/ч = 2 ч, на путь от Б до А 60 км/ч = 1 ч, т. е. п Общий путь __• 120 км время Общее Зч ¦=40 км/ч. 3. В некотором рабочем процессе определены для 5 рабочих расходы времени на изделие в минутах за штуку. Среднее время на штуку для группы из 5 рабочих необходимо рассчитать в предположении, что 4 рабочих работают по 8 ч, а 5 — по 4 ч. Таблица 21 Рабочее время w.y мин 480 480 480 480 240 2^=2 160 Время на штуку x.f мин/шт. 0,8 1,0 1,2 1.2 1,5 . Изготоолено шт. 480/0,8 = 480/1,0 = 480/1,2 = 480/1,2 = 240/1,5 = Цщ/хд = wJxi 600 480 400 400 160 :2040 90
2 (Wi/xt) 2 040 Итак, среднее время на штуку составляет 1,06 мин/шт. Между тремя средними значениями существует следующее соотношение: itf<?o<i. A.68) Причем равенство справедливо при одинаковых выборочных значениях. Для двух значений справедливо ИЛИ X-Xh = Xq. С1-69) 1.3.8.3. Медиана и мода Асимметричное унимодальное (с одной вершиной) распределение характеризуется тем, что большая часть значений расположена с одной стороны от среднего, в то время как меньшая часть значений расположена на большом удалении с другой стороны. Широко цитируемым примером ярко выраженного асимметричного распределения является распределение доходов в стране. Основная масса рабочих и служащих в Германии (Западной) имеет доход ниже 1500 марок, незначительная часть имеет высокие и очень высокие доходы. Имеющийся средний арифметический заработок слишком высок, иначе говоря, среднее значение лежит слишком далеко вправо. Более правильную картину дает медиана (х), равная значению, которое делит распределение на две равные части, так что каждая содержит 50% всего распределения; медиана соответствует тому члену упорядоченного ряда, который делит ряд пополам. Важно заметить, что медиана в противоположность арифметическому среднему не зависит от экстремальных значений в выборке. (Подробнее см. [Smith, 1958], [Rusch—Deixler, 1962], [Dalenius, 1965].) У большинства рабочих и служащих доход оказывается «ниже среднего» из-за того, что «медианный доход» меньше, чем средний арифметический доход. Вершина кривой распределения дает еще лучшее представление, когда изучается основная масса рабочих и служащих. На рис. 16 значение х расположено справа от *, т. е. арифметическое среднее больше, чем медиана, или разность (х — х) положительна; такой тип распределения называют положительно-асимметричным. Более просто объяснить, сказав, что положительно-асимметричное распределение имеет отчетливую вытянутость вправо. При унимодальном распределении мода (см. рис. 16), положение максимума (mode), соответствует наиболее часто встречающемуся выборочному значению\ при многовершинном распределении появляются относительные моды, которые более часто встречаются, чем их соседние значения, относительные максимумы кривой плотности рас- 91
Таблица 22 Класс О <^ V ^" 1 1 С/ <^. Л <s. 1 1 11 <лг<13 13 < д:< 15 15<х<17 17^x<19 Середина класса л:^ 6 8 10 12 14 16 18 Частота f. 4 8 11 7 5 3 2 л = 40 Мода Медиана о х я Рис. 16. Положительная асимметрия с модой (?>), медианой (х) и средним значением (х); медиана делит распределение на две равные части. пределения. При многовершинных распределениях (см. рис. 17) мода непригодна для характеристики среднего положения; распределения называются в этом случае «двухвершинными», или «бимодальными», и «многовершинными», или «мультимодальными». Оценка медианы Если ряд содержит нечетное число значений, то медиана равна «среднему» упорядоченных по величине значений; если п — четное, то имеются два средних 1сх и х2; медиана тогда определяется как х = -х- (*i + х2) (см. также примечание 4 на с. 74). Если отдельные значения бимодальная крибая сгруппированы в классы, то медиану оценивают с помощью следующей интерполяционной формулы: '.6, A.70) Трииодальная нридап 7 /мед где U — нижняя граница класса, которому принадлежит медиана; п — число значений; B/)G — сумма значений и частот всех классов ниже класса медианы; /мед — число значений в классе медианы; Ь — ширина класса. Так как медиана лежит между 20- и 21-м членами ряда, а 4 + 8 = 12 и 4 + 8 + 11 = 23, очевидно, что медиана принадлежит третьему классу: Рис. 17. Кривые с несколькими модами. /мед 92
Грубая оценка моды Строго говоря, мода есть значение переменной, которая соответствует максимуму идеальной кривой, наилучшим образом аппроксимирующей распределение выборки. Точное определение моды затруднительно, но для большинства практических случаев пригодна формула 2.fu -/«-i- fu+i A.71) где U — нижняя граница класса,[к которому относится наибольшее число значений; /и — число значений в этом классе; /и_! и /и+1 — числа значений в соседних классах; Ь — ширина класса. Пример Для распределения предыдущего примера "~8—V 1-8-7J 2 = 9,86. Здесь D есть максимум аппроксимирующей параболы, проходящей через три точки (*и_ь /u_i); (хи9 fu) и (хи+19 /и+1). Соответствующее арифметическое среднее лежит несколько выше (х = 10,90). Для положительно-асимметричного унимодального распределения, как в нашем примере, справедливо D<.!e<Lx (рис. 18). -шкала с пятикратным растяжением 4 1 10,05 9 10 11 12 Рис. 18. Распределение частот с положительной асимметрией. Для унимодального симметричного непрерывного распределения значения моды, медианы и среднего совпадают. Это справедливо, естественно, и для распределения /7-образной формы. Примерами асимметричных распределений этого типа являются: смертность от гриппа в зависимости от возраста, так как грудные младенцы и старики подвержены гриппу наиболее сильно, или облачность в Бреслау за 1876—1885 гг., выраженная в десятых: на 751 безоблачный день и 2089 дней с густой облачностью приходится всего 9 дней, когда небо было покрыто облаками на 5/10. 93
1.3.8.4. Стандартная ошибка арифметического среднего и медианы Мы знаем, что с ростом объема выборки оценки параметров стремятся к параметрам генеральной совокупности; в частности, и выборочное среднее х стремится к \i. Насколько сильно х может отличаться от ц,? Отклонение будет тем меньше, чем меньше стандартное отклонение совокупности и чем больше объем выборки. Поскольку среднее значение есть случайная величина (как сумма случайных величин), оно имеет соответствующее распределение вероятностей. Стандартное отклонение (теоретическое) среднегоис из п случайных переменных хх, ..., хпу которые имеют одно и то же распределение, рассчитывается по следующей формуле: где а — стандартное отклонение для xt. В качестве грубой оценки а*, стандартного отклонения арифметического среднего, служит выражение n(n-l) V f Z (x- Для наблюдений с разными весами х = - Физики называют s средней ошибкой отдельного измерения, a s^ — средней ошибкой среднего значения. Целесообразно заметить, что уменьшению ошибки в два раза соответствует увеличение объема выборки в 4 раза! S = J ?__ Т/4я~~ 2 " У л * В предположении нормальности распределения стандартная ошибка медианы определяется следующим выражением: т. е. она в 1,25 раза больше, чём ошибка арифметического среднего, и поэтому медиана — менее точная оценка, чем арифметическое среднее. Расчет стандартного отклонения для моды затруднителен. Для суждения о качестве измерений записывают результат в виде среднего значения с соответствующей ошибкой: ~х±в». A.75) (Важным дополнением является доверительный интервал, см. раздел 3.1.) 94
При этом ошибка округляется до двух значащих цифр; например, х = 49,36 при sx = 0,228 записывают в виде 49,4 ± 0,2. Часто ошибку задают в процентах — для большей наглядности. Для последнего примера ±JLlgj = ± 0,2-100 =±0>4%. ( Окончательный вид суммы, разности, произведения и частного средних значений с соответствующими ошибками [Fenner, 1931]: .77) Сумма х 1 + Х2 "v Л- ~Y J_* V* -I- 1/ Л\ "Т" Л2 —\~ Л3И1 V Разность хх—х2± Произведение ххх. — 1 / —2 ~2 2 X1X2XS±V Х\Х2 Sx,' Частное -~: Х2 ±1/4 /2,2 Sxt + S; 2±Г Х\ , ~2 ~2 +4 - _i_ - 2 2 , • • —2 2 *2 sjt ; 2 , ~2 " 2 v2 r «^2 Хз SXl 4- A.79) A.80) Независимость предполагается. Здесь следует упомянуть закон преобразования ошибок степенных произведений. Пусть мы имеем некоторое функциональное соотношение h = kxaybzc... A.81) (с постоянными ky a, b, с, ... и переменными х, у, г, ...) при заданных &, а, 6, с,...» и нам необходимо определить по независимым измерениям Xt, Угу zt, ^. среднюю относительную ошибку (среднее относительное значение) /z, а именно s^ /h, для чего нужны средние значения переменных х, уу z, ... и их стандартные ошибки sj, Sy> Sz, ... Тогда средняя относительная ошибка определяется следующим выражением: -ylyf+{c-s-zlzf+... A.82) 1.3.8.5. Размах Простейшей мерой рассеяния является размах (англ. range). Размах R есть разность между наибольшим и наименьшим значениями в выборке: *шт- A.83) 95
Если выборка состоит только из двух значений, то размах является исчерпывающей характеристикой рассеяния. При увеличении объема выборки эта мера уже становится недостаточной, потому что она ничего не говорит о среднем положении и учитывает только крайние, экстремальные значения. Поэтому размах используется преимущественно при малых выборках (см. также с. 459—460). Примечания о размахе 1. Кому часто приходится определять стандартное отклонение, тот может с успехом пользоваться методом, предложенным в [Huddleston, 1956]. Автор исходит из усеченного размаха, поделенного на соответствующий коэффициент, и получает при этом хорошую оценку для s; таблицы и примеры следует взять в оригинальных работах автора (см. также [Harter, 1968]). 2. Когда задано много взаимно независимых пар наблюдений п\ размах может служить оценкой стандартного отклонения s = l/ ±5-.. A.84) К 2л' Знак Л над s обозначает оценку. 3. Если даны повторные выборки объема п, то средний размах (R) дает возможность удовлетворительно оценить стандартное отклонение по формуле я = A/<*„)•«. A.85) Выражение A.85) содержит коэффициент l/dn, который зависит от объема выборки и основан на предположении о нормальности распределения. Этот множитель приведен в табл. 156. Позднее мы к этому еще вернемся (с. 459). 4. Приближенное правило Стургеса (Sturges) для определения ширины класса в распределении частот основано на размахе и объеме выборки: Ьса - A-86) 1 + 3,32-lgn Для распределения, приведенного на с. 60 (табл. 11), получается 6= 2е4. мы выбрали 3. 5. Размах позволяет оценить максимальное значение стандартного отклонения [Guterman, 1962]: n-1 > s. A.87) Отличие эмпирического стандартного отклонения от его верхней границы может служить мерой точности оценивания. Для трех значений —3, 1,5 — при = 2 получаем Выражение A.87) дает возможность грубой оценки стандартного отклонения, когда известен только размах, а о форме распределения заранее ничего сказать нельзя. 6. Грубая оценка стандартного отклонения по экстремальным значениям гипотетической выборки очень большого объема: пусть нам известно, что распределение хорошо приближается к нормальному закону, тогда стандартное отклонение генеральной совокупности приближенно может быть оценено по формуле S^~, A.88) 6 96
так как в предположении нормальности распределения размах в 6а включает 99,7% всех значений. Для треугольного распределения справедливо #/4,9< ? < Я/4,2; применимо для левостороннего (левоасимметричного), s^fl/4,2), симметричного (s~R/4,9) и правостороннего (правоасимметричного, saiR/4,2) распределений; для равномерного, или прямоугольного распределения (си) s ~ Я/3,5; а для V-образного распределения справедливо s ~ Я/2. В качестве примера можно рассмотреть ряд 3, 3, 3, 3, 10, 17, 17, 17, 17, который аппроксимируется (/-образным распределением. Для стандартного отклонения получаем s = V8.72/(9— 1) = 7, или s~A7—3)/2 = 7. Провертье на других выборках! 7. Следует упомянуть еще об одной особенности размаха: желаемые параметры выборочного распределения получаются без учета того, что исходная генеральная совокупность принадлежит к нормальному распределению (центральная предельная теорема); учитывается только распределение размаха! 1.3.8.6. Интердецильный размах Упорядоченные данные делятся девятью значениями на десять равных частей. Эти значения мы назовем децилями и обозначим DZl9 DZ2, ..., DZ9. Первый, второй, ..., девятый децили получаются отсчетом я/10, 2/г/Ю, ..., 9/г/Ю значений. Можно определить k-й дециль как значение, соответствующее точке на шкале распределения частот, ниже которой попадает в точности 10 • k% случаев. Вспомним, что тогда 5-й дециль — это точка, ниже которой лежит 50% всех случаев, т. е. это медиана. Мерой рассеяния, которая, в противоположность размаху, почти не зависит от экстремальных значений и в то же время включает в себя большую часть случаев и имеет очень малые колебания от выборки к выборке, может служить интердецильный размах /80, включающий в себя 80% всего выборочного распределения. A.89) Этот размах как мера положения превосходит моду. Дециль интерполируют линейной зависимостью A.70), заменяя /г/2 через 0,1/г, ..., 0,9/г, 7/ — через значение нижней границы класса, B/)^ — через сумму значений частот всех классов внутри децильного класса и /мед — через значение частоты децильного класса. Для примера на с. 92 имеем: 4 36~35 -2=15,67. 3 Интердецильный размах /80 = 15,67 — 7 = 8,67. Значение DZX может быть вычислено непосредственно из формулы Ю = 40/10 = 4 как нижняя граница второго класса. DZ9 определяется выражением ~^г = * = 36, DZ9 равен значению 36-го члена ряда. 35 значений разделяются на классы 1—5. Необходимо еще одно 4 Зак. 930 97
значение 36—35 = 1 из класса 6, имеющее частоту, равную 3. Мы умножаем значение 1/3 на ширину класса и получаем корректирующий член, который суммируется с нижней границей класса 6 и дает значение децили. Другая мера рассеяния только для особых случаев — среднее абсолютное отклонение — рассматривается в третьей главе. Грубая оценка среднего значения и стандартного отклонения для приближенного нормального распределения основана на первом, пятом и девятом децилях и задается следующими выражениями: х ~ 0,33 (DZ1 + x + DZ9); A.90) s~ 0,39 (DZ9 — DZ1). A.91) Пример Для нашего примера (см. с. 92) имеем согласно A.90) и A.91): х = 0,33 G+10,45 +15,67) = 10,93; F~ 0,39 A5,67 — 7) - 3,38. Сравнение со значениями х = = 10,90 и s=3,24 показывает приемлемость этой простой оценки. Для нормальной выборки приближение вполне удовлетворительно (хорошая проверка правильности счета!). Если выборка распределена не по нормальному закону, то и тогда эти простые и быстрые оценки при определенных обстоятельствах, как в приведенном примере,^ могут быть лучше, чем оценки параметров "х и s, полученные обычным способом. Рис. 19. Интердецильная область, содержащая 80% распределения с модой D и медианой л*. Нижнее U-образ- ное распределение имеет две моды. 1.3.8.7. Асимметрия и эксцесс Обычно различают два типа возможных отклонений от нормального распределения (рис. 20). ¦ I. Одна из спадающих ветвей удлинена, распределение скошено, асимметрично; когда удлинена левая ветвь, то говорят об отрицательной асимметрии, если удлинена правая ветвь, то асимметрию называют положительной. Или, иначе: если главная часть распределения концентрируется с левой стороны, то асимметрию называют положительной. II. Максимум расположен выше или ниже, чем у нормального распределения. Если максимум выше и кривая, колокол, острее, то говорят о положительном эксцессе; при отрицательном эксцессе максимум ниже, распределение более плоское, чем нормальное. 98
Асимметрия (skewness) и эксцесс (kurtosis) определяются точно через моменты. Часто применяются следующие меры асимметрии и эксцесса: асимметрия 1=— --> A.92) использующие редко достижимые границы — 3 и 3. Если арифметическое среднее больше медианы, как на рис. 18, то асимметрия положительна. Положи те ль нал асимметрия Нормальная Лебая I .Ж" Х^Смоской Вершиной кривая Отрицательный эксцесс Рис. 20. Отклонения от симметричной колоколообразной кривой (нормальное распределение). Другая пригодная мера асимметрии основана на применении медианы и интердецильного размаха: асимметрия II =.ШЪ=^ЫЬ?*й.9 A.93) (DZ^+tfDZ) и изменяется от — 1 до + 1. Примечание. Квартиль Распределение частот делится тремя значениями на четыре равные части. Центральное значение есть медиана, другие называются нижним, или первым, квартилем и верхним, или третьим, квартилем, т. е. Qx соответствует тому значению, которое стоит в конце первой четверти упорядоченного по величине ряда; Q3 соответствует концу третьей четверти этого ряда. Если заменить в A.93) DZL и DZd на Qt и Q3t то получим (область: от —1 До + 1): асимметрия III = — ~ (*y4j <Q При симметричном распределении все три меры асимметрии равны нулю. Простая мера эксцесса, которая основана на квартилях и децилях, дается следующим выражением: эксцесс 2^1 A.95) 2(DZ9~DZ1) ' v для нормального распределения он равен 0,263. 4* 99
Если разность между средним значением и модой больше или равна соответствующей удвоенной стандартной ошибке 2n, A.96) то распределение уже нельзя считать приближенно симметричным. Для примера на с. 92 имеем A0,90 — 10,20) - 0,70 >2/3-3,24/B-40) = 0,697, так что расчет меры асимметрии необходим. В этом случае может оказаться также целесообразным оценить стандартное отклонение по данным на неасимметричной стороне (у нас xt < D) от моды (предполагая нормальность распределения). Мода тогда будет наилучшей оценкой для среднего. Примеры Используем данные из последнего примера: асимметрия I = 3A0,90-Ю,4Щ =0>417. асимметрия II = A5,67-Ю,45)-A0,45-7,00)= ^ A5,67— 10,45) + A0,45—7,00) Т1Т A3,00—10,45)—A0,45—8,50) п 1QQ асимметрия III = -— —-—-—¦ —7=0,133, Н A3,00-10,45) + A0,45-8,50) где Q, = 7 + ^i • 2 = 8,5, Q3 = 13 + 30 ~ 30 • 2 = 13, согласно A.70) подставляем я/4 и Зя/4 вместо я/2: 13,00—8,50 п oari эксцесс = ¦ = 0,260. 2A5,67—7,00) Это распределение имеет положительную асимметрию при нормальном эксцессе. Для расчета асимметрии и эксцесса генеральной совокупности с использованием моментов а3 и а4 применяются следующие формулы: x)\ A97) 2fi{Xi-x) -3. A.98) Для симметричного распределения а3 = 0, для нормального распределения а4 = 0. Если а3 — положительно, то имеем левостороннее распределение, если а3 — отрицательно, то распределение правостороннее. Распределение с более острой вершиной — с крутизной, большей, чем у нормального распределения, — или с положительным эксцессом имеет положительное значение а4; распределение с отрицательным экс- 100
цессом — более плоское, чем нормальное распределение, — характеризуется отрицательным значением а4, особенно значительным при бимодальном распределении ([Finucan, 1964], [Chissom, 1970] и [Darlington, 1970]). Прямоугольное распределение с резко выраженным «плечевым поясом» имеет отрицательный эксцесс (а4 = — 1,2). То же самое справедливо даже для треугольного распределения (а4 = — 0,6), которое по отношению к нормальному распределению с равной дисперсией имеет более отчетливый «плечевой пояс». Обе меры имеют смысл только при больших выборках (п > 100). Для иллюстрации воспользуемся примером с выборкой меньшего объема (п = 40), но прежде еще одно замечание о моментах. Выражение вида A.99) называется выборочным моментом порядка г (тг). При г = 2 имеем оценку дисперсии. Оба моментных коэффициента а3 и а4 сокращенно записываются в виде а3 = m3/s3 и а4 = mj^ — 3. A.97а) A.98а) Если величина класса не равна 1, то имеем A.100) Для облегчения расчетов обычно моменты относят не к арифметическому среднему, а к произвольной величине, скажем к d, к частоте наибольшего класса распределения частот. Этим способом мы уже пользовались (способ с умножением, см. с. 76—77). Полученные подобным способом моменты для отличия их от тг будем обозначать через т'г. Таблица xi 8,8 9,3 d = 9,8 10,3 10,8 11,3 11,8 23 4 8 11 7 5 3 2 40 —2 —1 0 1 2 3 4 —8 —8 0 7 10 9 8 18 16 8 0 7 20 27 32 110 -32 —8 0 7 40 81 128 216 h4 64 8 0 7 80 243 512 914 4 0 11 112 405 768 1250 2550 101
Обозначим снова —-— = z и получим моменты от первого до четвертого порядка (см. табл. 23): момент 1-го порядка т{=—'vZl = — = 0,45; п 40 момент 2-го порядка /т?2 = момент 3-го порядка /пз = момент 4-го порядка т'А = ПО п п Zfi-zf 40 216 40 914 40 A.101) = 2,75; A.Ю2) = 5,40; A-ЮЗ) = 22,85. A.W4) Для проверки правильности вычислений в табл. 23 содержится дополнительный столбец произведений ft (zt + IL. Сумма его членов равна 2/, (z, + 1)* = 2/, + 42/, zt + 62/, zf + 42/, zf + 2/, z?, A.105) 2550 = 40 + 72 + 660 + 864 + 914. Выражения для параметров имеют следующий вид: 1. Среднее значение х = d + bm{, * = 9,8 + 0,5 • 0,45 = 10,025. 2. Дисперсия s2 = b2 {m'2 — ml2), s2 = 0,52 B,75 — 0,452) = 0,637. о a b3 (trio—3m[ mL-\- 2m{3) 3. Асимметрия a3=—*-2 ^—?-H—L-l.^ ^_ 0,53E,40-3-0,45-2,75+2-0,453) 3 0,5082 4. Эксцесс fl4= ^«-ii A.106) A.107) 71 1ЛОЧ A.108) ^ 0,54 B2,85— 4-0,455,40+ 60,452»2,75— 3-0,45*) 0,4055 Т а б л '< 4 8 11 7 5 3 2 ица 24 4 12 17 10 5 2. s2 4 34 = б 17 7 2 За 4 20 = ?i 60=?2 26 9 2 4 24 = ?* 97 = ?2 37 11 2 * 4 28 = % 147 = ri2 50 13 2 102
Кто хочет просчитать еще один пример, тому можно порекомендовать выборочное распределение в табл. 22, которое от табл. 23 отличается только средними классов xt (и Ъ) при равенстве частот ft. Если под руками есть вычислительная машина, то стоит вычислить суммы 2/jZb 2/,-z?, 2/,-г? и Е/гг? по методике, приведенной на с. 77—78. К значениям б1( б2 и е^ е2 мы по столбцам S4 и 55 должны подсчитать еще четыре суммы: ?ъ ?2 и % и ti2 (cm. табл. 24) по формулам: /г, = б2 — Sj; = 2е2 + 2^ — б2 — бх; ВД = б?2 — 6^ - бе2 + евх + б2 — б1; . = 24ii2 + 24Л1 — 36?2 — 36?х + 14е2 + 14ех — б2 Подставляя данные из табл. 24, получаем: S/,z, = 34 — 16 = 18; 2/гг? = 2-60 + 2-20 — 34 — 16= 110; Z/,z? = 6 • 97 — 6 • 24 — 6 • 60 + 6 • 20 + 34 — 16 = 216; 2/,г? = 24 • 147 + 24 • 28 — 36 • 97 — 36 • 24 + 14 • 60 + + 14 • 20 — 34 — 16 = 914. Далее параметры определяются по формулам A.101) — A.109). Для расчета моментов второго и четвертого порядка при выборках очень большого объема, а также при выборочном распределении без асимметрии следует воспользоваться выражением для скорректированной по Шеппарду дисперсии: A.46) = «i — A /2) т^ Ь* + G/240) Ь*. A.110) Меры асимметрии и эксцесса, рассчитанные на основании моментов, имеют то преимущество, что для них известны стандартные ошибки (выражения для них громоздки и здесь не приводятся). Заключение. Если данные сгруппированы в классы с шириной класса Ь, средними классов xt и частотами ft , то среднее значение, дисперсия и моментные коэффициенты для асимметрии и эксцесса оцениваются по следующим формулам: A A.111) 103
где d — предполагаемое среднее, обычно среднее значение наиболее полного класса; b — ширина класса; / — частоты классов, точнее ft; z — отклонения zt = (xt — d)lb: класс со средним значением d имеет номер 0, убывающие классы имеют номера z = — 1, — 2, ..., возрастающие — номера z = 1, 2, ... Метод моментов был предложен Карлом Пирсоном (К. Pearson, 1857—1936). Им введены также понятия стандартного отклонения и нормального распределения. Значащие цифры параметров Среднее значение и стандартное отклонение обычно задают, как правило, на один, максимум два, десятичных знака точнее, чем исходные данные; последнее рекомендуется в особенности для выборок большого объема. Безразмерные постоянные, как симметрия и эксцесс, корреляционные и регрессионные коэффициенты и т. д., необходимо задавать с двумя, максимум с тремя, значащими цифрами. Для увеличения точности необходимо промежуточные результаты, такие, как моменты, рассчитывать на две или три цифры точнее, чем окончательные значения. Теперь мы в состоянии одномерное распределение частот представить, наряду с табличной и графической формами, в форме четырех параметров: среднего значения, меры рассеяния, меры асимметрии и меры эксцесса. 1.3.9. ЛОГАРИФМИЧЕСКИ-НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Многие распределения в природе имеют вид положительно-асимметричных, крутых слева и плоских справа распределений. Наглядным указанием на то, что признак распределен не по симметричному нормальному закону, является наличие ограничений, за которые признак не может перешагнуть, и возможность изменения задана в одну сторону от этого ограничения. Классический пример есть распределение времени (нижняя граница — нуль). Когда распределение ограничено слева от нуля, то логарифмирование значений приводит к приближенно нормальному закону. Благодаря логарифмированию область от 0 до 1 переводится в область от — оо до 0 и левая часть распределения сильно растягивается. Это справедливо особенно в тех случаях, когда стандартное отклонение велико по сравнению со средним значением, когда коэффициент вариации больше чем 33%. Наличие логарифмически-нормального закона может указывать на то [Aitchison, Brown, 1957], что многие случайные величины действуют мультипликативно, т. е. действие их на изменение конечной величины примерно пропорционально их изменению. В противоположность этому нормальное распределение появляется при аддитивном действии многих случайных величин. Очевидно, что логарифмически-нормальное распределение справедливо для многих биологических и экономических явлений и признаков. Примеры: чувствительность зверей к определенного вида бактериям;
у людей — рост (детей), размеры сердца, объем груди, частота пульса, верхнее и нижнее кровяное давление, скорость оседания красных кровяных телец, процентное содержание отдельных видов белых кровяных телец ([Gaddum, 1945], [Wachholder, 1952]); экономические признаки — месячная заработная плата рабочих и служащих, оборот предпринимателей, посевные площади под различными культурами в деревне. Близкое к логарифмическому распределение часто имеют такие признаки, которые могут выражаться только целыми числами, например число свиноматок на единицу площади и число плодовых деревьев в селе. В [Williams, 1940] исследовано 600 предложений, взятых из книг; при рассмотрении первых 15 предложений получена логарифмически- нормальная плотность вероятности. fJ * r 2-0,29* У " 0,29.УЙ где у — частота, х — логарифм числа слов в предложении. Число букв (и фонем) на слово в английском разговорном языке также распределено логарифмически-нормально [Herdan, 1958, 1966]. Логарифмически-нормальное распределение появляется также при анализе продолжительности жизни и в аналитической химии: при расчетах в широкой области концентраций (свыше нескольких порядков), при работах вблизи 0 и 100% (например, исследование частоты) и когда случайные ошибки способа сравнимы с самими измеряемыми величинами, например при полуколичественном спектральном анализе. Логарифмически-нормальное распределение определяется следующим выражением: -L.e *« для*>0. A-115) х Для проверки того, следует ли признак логарифмически-нормальному закону, применяется логарифмическая вероятностная бумага, которая по оси абсцисс имеет логарифмический масштаб. Накопленная вероятность наносится, начиная с нижней границы классов до верхней. Границы классов и значения границ признаков принимаются справа, если построение идет от меньших значений к большим, и наоборот. Если наносимые точки близки к прямой, то закон распределения близок к логарифмически-нормальному. Если прямая линия в нижней части загибается вверх (вниз), то наносят суммарные проценты исходя не из заданных значений границ lg gy а из значений lg (g + F) [или lg (g — F)]; точка схода F, нижняя граница распределения, расположена на крутой части кривой. Она подбирается методом проб: если при одном значении наблюдается изгиб влево, а при другом значении — изгиб вправо, то искомая точка находится в этом интервале и легко интерполируется. Иногда F можно хорошо интерпретировать по существу дела, явления. 105
Для графического определения параметров проводят аппроксимирующую прямую; точки пересечения прямой с 5, 50 и 95%-ными линиями проецируют на ось абсцисс и считают соответственно значения: (медиана)/(коэффициент рассеяния), (медиана) и (медиана) х X (коэффициент рассеяния). Определяющая часть логарифмически-нормального распределения содержащая 90% всех значений, находится в диапазоне (медиана) • (коэффициент рассеяния) ±! (область не уменьшена на экстремальные значения и содержит «еще типичные значения»). Коэффициент рассеяния ниже будет объяснен подробно. Для расчета параметров необходимо по данным, сгруппированным в классы постоянной широты, рассчитать логарифмы средних значений классов (Igxj), произведения fj • lg*,- и fj(\gXjJ (Д — частота по классам), просуммировать их и подставить в выражения: медиана/, = antilg x[gx.= antilg( 2filgXi V A.116) J \ n ) коэффициент рассеяния = antilgj/ sfg x. = A.117) n—1 = antilg (x *gx}. A.118) 3 4 5 5 5 5 5 6 7 7 7 7 8 8 9 9 10 11 12 14 21 0 0 0 0 0 0 0 0 0 0 0 0 0 о, о, о, 1,' 1, 1, 16, ,4771 ,6021 ,6990 ,6990 ,6990 ,6990 ,6990 ,7782 8451 8451 8451 8451 9031 9031 9542 9542 0000 0414 0792 1461 7141 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0, 0, 1, 1, 1, 1, 14, ,2276 ,3625 ,4886 ,4886 ,4886 ,4886 ,4886 ,6056 ,7142 7142 7142 7142 8156 8156 9105 9105 0000 0845 1647 3135 5104 мода,, = antilg (xigx.—2,3026 4^.). A.119) При малых выборках вместо логарифмов средних классов применяют логарифмы отдельных значений; частота для каждого класса (ft) тогда равна единице. Оценкой коэффициента рассеяния является antilg s\gXt. С увеличением коэффициента рассеяния арифметическое среднее смещается вправо от медианы, а мода — на удвоенное значение влево (см. также с. 466) [Gebelein, 1950], [Binder, 1962, 1963], [Nelson, David, 1967] и [Thoni, 1969]. Пример Приведенная слева таблица содержит 20 упорядоченных по величине значений xJy которые распределены по логарифмически-нормальному закону. Оцените параметры. Коэффициент вариации исходных данных 2 83 (xj) равен ^==7l5== 38>^% и заметно больше чем 33%! 106
Параметры: медиана^ antilg{-^^) = antilg 0,8357 = 6,850; ээффициент рассеяния = antilgl/ —- ТЛ/*Ч ^/4"\г1лтгтт ттлттт *ч л^лл*"»»»*** *-т л ¦"! 4* J I /Т 1 / • * 1 * / 20—1 = antilgK0,02854 = anlilg 0,1690 = 1,476; центральная часть распределения (90%) лежит между 6,850/1,476 = .= 4,641 и 6,850 • 1,476 = 10,Ш (или 6,850 * 1,476**); среднее значение!. = antilg @,8357 + 1,1513 • 0,02854) = = antilg 0,8686 = 7,389; мода/, = antilg @,8357 — 2,3026 • 0,02854) = antilg 0,7700 = = 5,888. Несимметричный 95%-ный доверительный интервал для |д Удобно определяется также с применением логарифмического преобразования 95%-ный доверительный интервал для \i (95%-ДИ) (см. разделы 1.4.1 и 3.1.1). Для этого преобразуют значения, рассчитывают 95%-ДИ и совершают обратное преобразование: 95%-ДЯ: antilg[ ±/я_1; о.о Для нашего примера с 20 значениями и при х = 7,35 получаем: [ ] = 0,8357 ± 2,093]Л),02854/20 = 0,7566, 95 %*ДИ: 5,71 <jx< 8,22. Примечания 1. Для сравнения мер положения эмпирического нормального распределения (примерно одинакового вида) имеются таблицы [Moshman, 1953]. 2. Распределение экстремальных значений — высший уровень рек, годовая температура, урожай и т. п.—часто подчиняется логарифмически-нормальному закону. Так как стандартный учебник [Gumbel, 1958] труден для восприятия, то лучше воспользоваться более простыми графическими способами, рекомендованными в [Botts, 1957] и [Weiss, 1955, 1957]. Гумбель излагает идею применения вероятностной бумаги, на которой функция распределения экстремальных значений имеет вид прямой (см. также [Maritz, Munro, 1967]). 3. Многие распространенные социально-экономические величины, как, например, доход на душу населения, капиталы фирм, размеры городов или число фирм во многих отраслях, имеют распределение, более растянутое справа, которое в большой области значений аппроксимируется распределением Парето [Quandt, 1966) или другим сильно вытянутым вправо распределением (оно существует только для значений выше некоторой величины, например: доход > > 800 марок). Если логарифмически-нормальное распределение усечено до моды, то в остальной части распределение аппроксимируется распределением Парето. 4. Если среди значений, преобразуемых логарифмированием, имеются значения между 0 и 1, то все данные умножают на число 10 в соответствующей степени, чтобы все значения были больше чем 1 и не получалось отрицательных параметров Fм. с. 466—467). 107
1.4. ПОДХОД К СТАТИСТИЧЕСКИМ КРИТЕРИЯМ 1.4.1. СТАТИСТИЧЕСКАЯ НАДЕЖНОСТЬ От статистик к параметрам. Статистики, получаемые по различным выборкам, как правило, отличаются друг от друга. Поэтому статистика, получаемая из выборки (например, среднее значение Зс), есть только оценка для параметра jut — среднего значения генеральной совокупности, которой принадлежит данная выборка. Эта оценка дополняется интервалом, которому принадлежит предположительно параметр генеральной совокупности. Этот интервал около статистики, который должен включать в себя параметр, называется доверительным интервалом (confidence interval). Величина доверительного интервала, зависящая от соответствующего коэффициента, позволяет установить, насколько надежно высказывание о том, что этот интервал содержит параметр генеральной совокупности. Если мы выберем коэффициент таким, что высказывание в 95% подобных случаев окажется правильным и только в 5% неправильным, то мы говорим: со статистической надежностью S в 95% доверительный интервал выборочной статистики содержит параметр генеральной совокупности. Вместе с тем в 5% всех случаев утверждение «параметр принадлежит доверительному интервалу» будет неверным. Мы выбираем коэффициент таким, чтобы вероятность эгого не превысила заданного маленького значения а (а ^ 5%, т. е. а ^0,05), и называем а вероятностью ошибки, или вероятностью превышения уровня*. В случае нормально распределенной генеральной совокупности табл. 25 дает представление о доверительном интервале для среднего значения |li генеральной совокупности: г—т=- или р(х—г ~^=г < |л <# + z ~т=- )=S = 1—а A.120а,б) Уп \ Уп Уп I Величину z следует определять по таблице стандартного нормального распределения (см. с. 68 и 204); а известна или при очень большом объеме выборки (nG > 1000) определяется как оценка стандартного отклонения (па связана с п через У, гДе п — объем выборки при оценке х). При так называемом доверительном решении с вероятностью а часто возникают ошибки. Если п раз высказывается утверждение, что неизвестный параметр лежит в доверительном интервале, то в среднем следует ожидать an ошибок. Если мы внимательнее ознакомимся с табл. 25, то увидим, что S (или а, они дополняют друг друга до 100%, или до 1) определяют надежность статистического высказывания. * В отечественной литературе в данном случае применяется термин «уровень значимости». — Прим. ред. 108
Таблица 25 Доверительный интервал для среднею значения р, из нормально распределенной генеральной совокупности Статистическая надежность 5 Вероятность ошибки а x±2-—7z=- /n ~X±3*—T=- x± 1,645 —~=r- G х± 1,960 /я "х± 2,576 -4=- л; ± 3,2905-7=^- л; ±3,8906—т^- /я 95,44% = 0,9544 99,73% =0,9973 90% = 0,9 95% =0,95 99% =0,99 99,9% = 0,999 99,99% =0,9999 4,56% = 0,0456 0,27% =0,0027 10%ф=0,10 5% = 0,05 1% =, 0,01 0,1% =0,001 0,01% =0,0001 Чем больше статистическая надежность 5, тем больше доверительный интервал при заданных стандартном отклонении и объеме выборки. Из этого следует, что существует противоречие между категоричностью высказывания и надежностью этого высказывания: надежное высказывание некатегорично\ категоричное высказывание ненадежно. Вероятности ошибки (доверительные вероятности) обычно принимаются равными а == 0,05; а = 0,01 и а = 0,001 и зависят от того, насколько важно решение, которое принимается на основании выборки. В особых случаях, прежде всего тогда, когда исследуемые процессы представляют опасность для жизни человека, необходимо принимать еще меньшие вероятности ошибок. В гл. 3 мы еще раз вернемся к понятию доверительного интервала. Заключение о параметрах, основанных на статистиках. Параметры генеральной совокупности могут быть известны только на основании теоретических соображений. Определим область, в которой будет лежать статистика (например, среднее значение х) отдельной выборки. Для этого около теоретического значения параметра определяется допустимый доверительный интервал (tolerance- interval), внутри которого должна с заданной вероятностью находиться выборочная статистика. Границы интервала называются допустимыми границами (в смысле А. Вальда и Дж. Вольфовица; с «допусками» (specifications) в технике они не имеют ничего общего). В предположении нормальности распре- 109
деления (а — известно или оценено при па > 100) выражение для допустимых границ выборочного среднего имеет следующий вид: \1±г \1±г~ или P(\i— z-=t=-<*<[*+г -H_)=S=1— a. уп \ \/п у п / A.121 а, б) Если в табл. 25 символы \ь и х поменять местами, то можно произвести и эти расчеты. Со статистической надежностью 5 выборочное среднее х будет накрываться интервалом, т. е. в (S • 100)% всех случаев Сбудет находиться внутри допустимого интервала. Если выборочное среднее попадает в допустимый интервал, то отклонение от среднего значения генеральной совокупности рассматривается как возможное случайное; в противоположном случае можно сделать вывод о том, что данная выборка с надежноегью S взята из другой генеральной совокупности. Иногда интерес представляют только допустимые границы; тогда лишь проверяют, в каком соотношении находится определенная величина к заданному значению (выше или ниже; например, когда это регулируемая величина какого-то технологического процесса). 1.4.2. НУЛЬ-ГИПОТЕЗА И АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА Гипотеза о том, что две совокупности, рассматриваемые с точки зрения одного или нескольких признаков, одинаковы, называется нуль- гипотезой. При этом предполагается, что действительное различие равно нулю, а найденное из эксперимента отличие от нуля носит случайный характер. Поскольку статистические критерии могут установить только отличие, но не одинаковость совокупностей относительно рассматриваемых признаков, то нуль-гипотеза, как правило, выдвигается для проверки, нет ли оснований для ее отбрасывания и принятия альтернативной гипотезы. Когда мы можем с помощью статистических критериев отвергнуть нуль-гипотезу и принять альтернативную? Только тогда, когда отличие в обеих совокупностях не носит случайного характера. Зачастую мы имеем в распоряжении две выборки и ничего не знаем о генеральных совокупностях, из которых они взяты. Мы должны тогда рассмотреть вариацию выборок, которые имеют различные значения статистик даже для выборок из одной совокупности. Из этого следует, что различия надо ожидать практически всегда. Для решения, является ли это различие случайным или значимым, мы должны установить границы, где господство случайности «как правило» заканчивается. Итак, мы выдвигаем нуль-гипотезу и отвергаем ее тогда, когда по выборке получается результат, который при истинности выдвинутой нуль-гипотезы невозможен (маловероятен). Необходимо точно определить, что мы хотим рассматривать как «невозможность» (в предположении нормальности распределения)., ПО
Часто принимают 5%, т. е. границей невозможного или маловероятного считают 1,96 - о (S = 95%). Раньше использовали почти всегда правило трех сигм, т. е. вероятность ошибки принимали равной а == = 0,0027 (статистическая надежность S = 99,73%), которая соответствует границам в За. Мы можем, например, выдвинуть требование, чтобы вероятность события была (по крайней мере) равна 95%. Это требование означает, что при бросании монеты четырехкратное появление герба еще допускается как вероятное, в то время как пятикратное уже рассматривается как «сверхслучайное». Вероятность четырех- или пятикратного выпадания монеты подряд одной стороной равна р4х = A/2L = 1/16 - 0,06250; ръх = A/2M = 1/32 = 0,03125, т. е. примерно 6,3 и 3,1%. Итак, когда о некотором обстоятельстве говорят, что со статистической надежностью 95% оно может рассматриваться как сверхслучайное, то это означает: его случайное появление столь же невероятно, как и событие, состоящее в выпадании герба подряд 5 раз. Вероятность того, что при га-кратном бросании монеты каждый раз будет выпадать герб, равна A/2)" и приведена в табл. 26. Если проводится испытание при вероятности ошибки, например, 5% (уровень значимости а = 0,05) с целью установления различия совокупностей, то при превышении этого уровня нулевая гипотеза отклоняется и принимается альтернативная гипотеза: генеральные совокупности различаются. Различие называется значимым, или надежным, на уровне 5%, т. е. правильная нуль-гипотеза будет отклонена только в 5% всех случаев или различие, наблюдаемое по выборкам данного объема, будет следствием чисто случайного процесса настолько редко, насколько это задано уровнем значимости: а) иначе, данные не могут появиться, если имеют место чисто случайные процессы, или б) можно принять, что имеющееся различие основано не только на случайности процесса, но и на различии генеральных совокупностей. Выборочные результаты могут привести только к двум возможным утверждениям: ill Таблица 26. Вероятность Р того, что при м-кратном бросании монеты каждый раз ока выпадает одной и той же стороной, как модель случайного события п 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 2 4 8 16 ' 32 64 128 256 512 1024 2048 4096 8192 16384 32768 0,50000 0,25000 0,12500 0,06250 0,03125 0,01562 0,00781 0,00391 0,00195 0,00098 0,С0049 0,00024 0,00012 0,00006 0,00003 р Уровень <ю% <5% <1% <0,5% «0,1% ^0,05% <0,01%
1) решению о подтверждении или отклонении нуль-гипотезы; 2) указанию доверительного интервала. Сравнение двух или большего числа доверительных интервалов приводит снова к проверке, является ли найденная разность случайной или не случайной (значимой). Нуль-гипотезы и альтернативные гипотезы образуют сеть, которую мы забрасываем, чтобы поймать в нее «мир», упорядочить его, объяснить и в будущем овладеть им. Наука делает ячейки сети все меньше, с тем чтобы всеми средствами своего логико-математического и технико- экспериментального аппарата постоянно выдвигать и проверять все новые нуль-гипотезы и альтернативные гипотезы, наиболее просто и наиболее правдоподобно объясняющие этот мир. Получающиеся при . этом выводы и заключения никогда не будут обладать абсолютной надежностью, но они ведут от предварительных гипотез ко все более общим и строгим теориям, выдерживающим тщательную проверку, приводят к научному прогрессу и все лучшему познанию мира. Цель науки — максимальное число эмпирических фактов объяснить минимальным числом гипотез и теорий и затем снова их проверить. Собственно творчеством здесь является выдвижение гипотез. Вначале они представляют собой только лишь допущения, обобщения эмпирических данных большей или меньшей степени достоверности. Если гипотезы допускают упорядочение по рангам и между ними возникают дедуктивные соотношения, т. е. из более общей следуют частные гипотезы, то этим уже двигается теория. Установление теоретических законов и объединение отдельных теорий в научную картину мира является дальнейшей целью научного прогресса. Примечание. Случайный статистически значимый результат Понятие вероятности ошибки предполагает, что среди большого числа выборок из одной и той же генеральной совокупности могут быть чисто случайные выборки. Вероятность получить при ограниченном числе опытов п случайный стати» стически значимый результат можно определить с помощью разложения бинома (а + A — а))п- Если вероятность ошибки принять равной 0,01, для двух одинаковых опытов имеем (из школы известно, что (а + ЬJ = а2 + 2 аЬ + Ь2): @,01 + 0,99J = 0,012 + 2 . 0,01 • 0,99 + 0,992 = 0,0001 + 0,0198 +0,9801. Следовательно: 1) вероятность того, что при справедливости нуль-гипотезы оба опыта дадут неверный результат, чрезвычайно мала: Р = 0,0001; 2) вероятность того, что один из двух опытов дает неверный результат, равна Р = 0,0198, или —2% (Но справедлива); 3) с наибольшей вероятностью оба опыта дадут верный результат (Р = = 0,9801) (Но справедлива). Могут быть определены соответствующие значения вероятностей и при других вероятностях ошибки при трех и более опытах. В качестве упражнения рассчитаем вероятности при а = 0,05 и при трех опытах. Вспомним, что (а + bf = а3 + 3 аЧ + 3 ab2 + Ь3, и получим @,05 + 0,95K = 0,053 + 3 . 0,052 . 0,95 + 3 • 0,05 i 0,952 + 0,953 = = 0,000125 + 0,007125 + 0,135375 + 0,857375 = 1. Вероятность того, что при верной нуль-гипотезе один из трех опытов даст случайно неверный результат, равна примерно 14%! 112
1.4.3. РИСК I И РИСК II При проверке гипотез (по одному из критериев) возможны два ошибочных решения: 1) неправильное отклонение нуль-гипотезы: ошибка 1-го рода; 2) неправильное принятие нуль-гипотезы: ошибка 2-го рода, В то время как в действительности: A) нуль-гипотеза верна и B) нуль-гипотеза неверна, критерий может привести к двум ошибочным решениям: A) нуль-гипотеза отклоняется и принимается альтернативная гипотеза и B) нуль-гипотеза принимается. Четырем возможным случаям соответствуют следующие решения: Решение по критерию Но отклоняется Но принимается Природа Но верна Ошибка 1-го рода Правильное решение Hq неверна Правильное решение Ошибка 2-го рода Если, например, установлено, что новый медикамент лучше, хотя на самом деле он идентичен старому, то это ошибка 1-го рода; если из сравнения вытекает, что оба медикамента одинаковы, хотя на самом деле новый лучше, то имеет место ошибка 2-го рода. Вероятности, соответствующие обоим неверным решениям, называются риском I и риском II: риск /, маленькая вероятность отклонить верную нуль-гипотезу, очевидно, равен вероятности ошибки а; риск //, вероятность принять неверную нуль-гипотезу, обозначается р. Поскольку а больше нуля, при а = 0 нуль-гипотеза принималась бы всегда, то всегда есть риск ошибки. При заданных а и объеме выборки п значение Р будет тем больше, чем меньше принятое а. Если п может неограниченно расти, то а и Р могут быть как угодно малыми, т. е. принимать решения при очень малых значениях аир можно только при очень большом объеме выборки. При малом объеме выборки и малом а возможность установить фактически существующее различие мала: результат «статистически значимого различия нет» можно получить заранее. Смотря потому, какая из ошибок дороже, устанавливают в конкретном случае значения а и Р таким образом, чтобы критическая вероятность была ^0,01, а вторая вероятность ^0,10. Практически а устанавливают следующим образом при более дорогостоящих ошибках: 1-го рода а = 0,01, или а = 0,001; 2-го рода а = 0,05, или а = 0,10. Согласно [Wald, 1950] следует учитывать выгоды и потери, которые являются следствием ошибочных решений, включая расходы на испытания, и те, которые целиком зависят от вида и объема выборки. 113
Так, например, при изготовлении вакцины требуется предельная константа сыворотки. Не безупречные измерения должны быть обнаружены и исключены. Необоснованное принятие нуль-гипотезы «сыворотка в норме» означает опасную ошибку. При этом желательно и р также выбрать возможно меньшее, в то время как отбрасывание хороших результатов не принесет ничего, кроме дополнительных расходов, и в остальном не будет иметь никаких серьезных последствий (т. е. примерно а = 0,10). Предположим, что мы на основании очень большого числа опытов с монетой знаем вероятность л выпадания герба и говорим своему товарищу, что эта вероятность равна или 0,4, или 0,5. Наш друг решает провести испытания при нулевой гипотезе п = = 0,5. План испытания: монета бросается п = 1000 раз. Если п = 0,5, то герб выпадает примерно в 500 случаях. При справедливости альтернативной гипотезы следует ожидать выпадания герба примерно в 400 случаях. Он принимает следующий способ решения: если событие «выпадание герба» наступает меньше чем 450 раз, то нуль-гипотеза л = 0,5 отклоняется и принимается альтернативная гипотеза я = 0,4. Если, наоборот, это число больше 450, то принимается нулевая гипотеза. Ошибка 1-го рода — отклонение правильной нуль-гипотезы — появляется тогда, когда на самом деле зх —0,5, но в данной серии испытаний получилось меньше 450 выпаданий герба. Ошибка 2-го рода наступит тогда, когда фактически п = 0,4, а при испытаниях получилось больше 450 выпаданий герба. В этом примере риск I и риск II выбраны примерно равными (ср. значения npq, равные в первом случае 250, а во втором — 240). Однако можно при данном объеме выборки п, увеличивая область принятия нуль-гипотезы, уменьшить ошибку 1-го рода. Пусть, например, нуль-гипотеза п = 0,5 отклоняется только тогда, когда герб выпадает меньше 430 раз. При этом, если объем выборки п постоянен, ошибка 2-го рода — принятие неверной нуль-гипотезы — увеличивается. При а = р между нуль-гипотезой и альтернативной гипотезой появляется симметрия. Нередко тщательно выбирают только значение а, не обращая внимания на симметрию между нуль-гипотезой и альтер* нативной гипотезой, и ставят, таким образом, нуль-гипотезу в особое положение. Так, некоторые статистические методы с заранее заданным значением а и неопределенным значением р заведомо благоприятны для нуль-гипотезы; их называют поэтому консервативными критериями. По правилу Неймана заранее задаются значением а и пытаются сделать р возможно меньшим. Предполагается, что известна важная характеристика критерия, так называемая кривая мощности критерия, или функция мощности, на которой мы остановимся позднее (с. 122—123). В дальнейшем стоит задержаться на разнице между статистической значимостью и «практической» значимостью: практически значимое различие должно обнаружиться уже по выборке небольшого объема. 114
Высшим судьей истинности знаний является опыт. Он состоит в том, что мы наши действия, поступки и их следствия храним в памяти. Основное условие того, что опыт возможен, — существование мира с отклоняемыми нуль-гипотезами. Можно выделить две различные стратегии: «первооткрывателя» и «критика». «Первооткрыватель» хочет отвергнуть нуль-гипотезу, он поэтому предполагает большой риск I и маленький риск II. Для «критика» справедливо обратное. Он с малым риском принимает неверную альтернативную гипотезу и с большим риском сохраняет ошибочную нуль-гипотезу. Науке требуются, как правило, люди с относительно большим риском I, скорее, первооткрыватели, чем критики. 1.4.4. УРОВЕНЬ ЗНАЧИМОСТИ И ГИПОТЕЗЫ УСТАНАВЛИВАЮТСЯ ПО ВОЗМОЖНОСТИ ПЕРЕД ПОЛУЧЕНИЕМ ДАННЫХ Представители математической статистики подчеркивают, что уровень значимости, безусловно, следует устанавливать перед получением данных. Это требование для практики иногда является некоторой головоломкой. Макнимар [McNemar, 1962] обсуждает две другие возможности. Нуль-гипотезу можно: а) отклонить, когда Р<С0,01, или принять, когда Р>0,10, и б) воздержаться от заключения, если 0,01 <Р< <0,10, и повторить эксперименты для получения большего числа данных. В противоположность этому грубому методу можно задавать просто полученный уровень значимости, например: разница надежна с Р = 0,04, или на 4%-ном уровне, и читателю представляется решать, достаточно ли для него этого высказывания и можно ли произвести оценку или принять решение на этом уровне значимости. Когда вероятность ошибки заранее не задана, в качестве наилучшей предлагается следующая процедура: обычно называют Р > 0,05 (или Р >0,1) как статистически незначимую. Для Р — 0,05 даются критические 5, 1 и 0,1%-ные границы; границы, между которыми находится Р, отмечаются следующим образом: [*] 0,05 >Р> 0,01 [**] 0,01 >Р> 0,001: [***] Р< 0,001. Целесообразно перед статистическим анализом сформулировать все те гипотезы, которые существенны, доступны для нас и могут быть проверены с помощью соответствующих критериев. После этого числовой материал должен быть подвергнут тщательному анализу, но он не должен служить основанием для выдвижения других гипотез, проверяемых на нем же. Такие гипотезы (из статистического материала) должны выдвигаться с весьма большой осторожностью, и их следует дополнительно проверять, поскольку каждая группа чисел имеет свой случайный экстремум. Риск ошибки в этом случае больше, чем тогда, когда гипотеза выдвигается заранее* Гипотезы, полученные из статистического материала, могут быть полезными в качестве новых гипотез для последующих проверок! 115
1.4.5. СТАТИСТИЧЕСКИЙ КРИТЕРИЙ Следующая прелестная история принадлежит Р. А. Фишеру [R. A. Fischer, 1960]. В некоторой компании дама X утверждала, что если ей предлагают чашку чая, в который добавлено немного молока, то она обычно без ошибки может сказать, что в чашку наливали первым — молоко или чай. Как проверить это утверждение? Ненадежный способ проверки таков: предлагаются две совершенно одинаковые чашки; в первую вначале налито молоко, а затем чай (МЧ), а в другую—наоборот (ЧМ). Если их предложить даме, то она имеет 50%-ный шанс ответить правильно, даже если ее утверждение неверно. Лучше следующая процедура: из восьми одинаковых чашек четыре наполнить в последовательности МЧ, а четыре — ЧМ. Чашки расположить на столе случайным образом, затем пригласить даму и сообщить ей задачу: из четырех МЧ- и четырех ЧМ-чашек найти 4 чашки ЧМ. Теперь вероятность ответить правильно, не имея специальных данных, становится очень малой. Из восьми чашек можно выбрать Я V А г> 4 чашки ^ ' ' = 70 способами и только один из них правильный. Вероятность случайно выбрать правильную комбинацию равна 1/70= = 0,0143, или примерно 1,4%. Если дама действительно выберет правильно все 4 чашки, то нулевая гипотеза — дама X не обладает особыми способностями — будет отброшена и эти особые ^способности будут подтверждены. При этом вероятность ошибки^равна 1,4%. Естественно, что эту вероятность можно еще уменьшить, увеличивая число контрольных чашек (например, при 12 чашках вероятность ошибки а~0,1%). Для нашей процедуры характерно следующее: мы выдвигаем вначале нуль-гипотезу и отвергаем ее только тогда, когда наступает событие, невероятное в предположении справедливости нуль-гипотезы. Если мы выдвигаем гипотезу, которую хотим проверить статистическими методами, то нас интересует, отвергает или""нет нуль-гипотезу данная выборка. В'примере с чашками чая мы отбрасываем нуль-гипотезу, когда дама все 4 чашки указала правильно. Во всех других случаях'мы бы приняли нуль-гипотезу. Мы должны принимать решение при любой другой выборке. В примере было бы оправдано решение отбросить нуль-гипотезу, когда дама по крайней мере 3 чашки определит правильно. Подробнее о «чай- критерии» можно посмотреть в [Neyman, 1950] и [Gridgeman, I960]. Для того чтобы избежать необходимости^все возможные решения получить заранее, пользуются методами, которые такие решения дают непосредственно. Метод, который для каждой выборки определяет, удовлетворяет ли она гипотезе или нет, называется статистическим критерием. Стандартные критерии в статистике характерны тем, что они в известном смысле оптимальны. Многие критерии предполагают, что наблюдения независимы, как это было'при случайной выборке. Большинство статистических критериев используют статистику. Такая статистика есть предписание (правило), по которому по данной 116
выборке находится число. Тогда критерий состоит в том, что решение принимается согласно этой статистике. Пусть например х — нормально распределенная случайная переменная. При известном стандартном отклонении а выдвигается нуль- гипотеза \i = Но (или и — jx0 = 0), т. е. среднее значение и генеральной совокупости, оцениваемое на основании случайной выборки, не отличается от желаемого значения \х0. Альтернативная гипотеза противоположна нуль-гипотезе, т. е. jx Ф fx0 (или \х — fx0 =7^= 0). В качестве статистики используем ±=L?*. f n=z, A.122) а где п — объем выборки. Согласно теории г распределена по стандартному нормальному закону, т. е. имеет нулевое среднее значение. Статистика, зависящая от выборки, больше или меньше отличается от нуля. В качестве меры отклонения примем абсолютное значение \z\. По принятому уровню значимости а теперь можно определить такое критическое значение г, что при верной нуль-гипотезе справедливо Р(|г|>г) = а. A.123) Если статистика г, рассчитанная по выборке, удовлетворяет неравенству \z\ < г (например, для а = 0,01 имеем z = 2,58), то принимают, что отклонение гот 0 можно рассматривать как случайное. В этом случае говорят, что нуль-гипотеза не отвергается на основании выборки или что нет оснований для отклонений нуль-гипотезы. В дальнейшем мы будем использовать уровень значимости в процентах, который соответствует вероятности а (например, а = 0,01; а% = 0,01-100% = 1%). Если \г\ ^ z (например, \z\ > 2,58 при 1%-ном уровне), то при справедливой нуль-гипотезе такое отклонение возможно, но маловероятно, и поэтому считают более вероятным, что нуль-гипотеза неверна, и ее отклоняют на уровне а%. В дальнейшем мы будем изучать и другие статистики и для всех них верно: принятое распределение статистики только тогда справедливо, когда справедлива нуль-гипотеза (см. также [Zahlen, 1966] и [Calot, 1967]). Пример Дано: цо = 25,0; о0 = 6,0; п = 36; 1с = 23,2; Нс: |i - Но (На : [л ф Но); « = 0,05 E = 0,95); ,g|= 128,2-26,011 Так как \z\ = 1,80 < 1,96 = zM5, нуль-гипотеза (равенство средних) подтверждается (Р>0,05).' Неотклоненная нуль-гипотеза принимается в качестве рабочей гипотезы, так как она может быть правильной и не противоречит мате- 117
риалу наблюдений. Более важно, чем правильность нуль-гипотезы, то, что нет достаточного статистического материала для ее отклонения. Если материал дополнен, то получается новая перепроверка нуль гипотезы. Она будет приниматься до тех пор, пока новые данные не сделают ее неприемлемой. Пример _ Дано: fx0 = 25,0; <г0 = 6,0; п == 49; 1с - 23,1; Но: Ц = ^о (На : |i ф Щ»); а - 0,05 (S - 0,95); Гг|д 123,1-25,01 /49 = 2,22. Так как \z\ = 2,22 > 1,96 = z005, нуль-гипотеза отклоняется на 5%-ном уровне (со статистической' надежностью 95%; Р < 0,05). Зачастую нелегко решить, какое количество данных необходимо для перепроверки нуль-гипотезы; так, при достаточно большом объеме выборки можно отклонить почти все нуль-гипотезы (в разделе 3.1 приведены некоторые формулы для выбора достаточного объема выборки). Теория критериев была развита после 1930 г. Е. С. Пирсоном и Дж. Нейманом (см. [Neyman, 1942, 1950]). В_иды статистических критериев Ёслй~мы "имеем одну гипотезу, нуль-гипотезу, как в примере с чаем, то используемый критерий проверяет только, не нужно ли эту гипотезу отклонить; в этом случае говорят о критерии значимости. Критерии, которые служат для проверки гипотез о параметре (например, нуль-гипотеза \х = |х0), называют параметрическими критериями, ^Критерий согласия проверяет, согласуется ли наблюдаемое распределение с гипотетическим. Особую роль играет проверка на нормальность признака, поскольку многие критерии эту нормальность предполагают. >/ Когда критерий не использует предположения о распределении, то его называют непараметрическим критерием. Критерии согласия относятся к непараметрическим критериям. Мы видим теперь, что оптимальные критерии должны быть нечувствительны к отклонениям от сделанных предположений (например, о нормальности распределения), но чувствительны по отношению к контролируемым отклонениям от нуль-гипотезы. Стохастика Преодоление нейтральной полосы между реальным и символическим миром, между эмпирическим распределением определенного признака и соответствующей моделью, играет в статистике большую роль. Существенны предположения о выборах, которые вероятны на основании принятой модели. Индуктивно выведенным от случайной выборки (т. е. выборки, которая может получиться случайным образом из генеральной совокупности и является для нее репрезентативной) к соответствующей генеральной совокупности заключениям противопоставляется теория вероятностей, которая переносит дедуктивно выведенные заключения из 118
генеральной совокупности модели на свойства случайной выборки. Особая связь между статистикой и теорией вероятностей называется стохастикой (от греч. axo^os — предположение; см. [Geppert, 1958]). Статистика индумтибная СТОХДСТИКД дедуитибная Теория бероятностей Индуктивная статистика имеет две задачи: 1) оценка неизвестного параметра генеральной совокупности с построением доверительных интервалов (методы оценивания); 2) проверка гипотез о генеральной совокупности (методы проверки гипотез). Чем больше известно о свойствах генеральной совокупности на основе метода максимального правдоподобия или хотя бы на основе груг бых оценок из предыдущих опытов, тем точнее будет вероятностная модель и тем более точные результаты будут давать методы оценивания и проверки гипотез. Для научного метода весьма важно объединение индуктивного и дедуктивного процессов; индукция занимается созданием моделей на основе эмпирических наблюдений, их проверкой и улучшением. Задачей дедукции является выбор лучших способов вычисления оценок параметров генеральной совокупности и определение статистических распределений этих оценок для случайных выборок. 1.4.6. ОДНОСТОРОННИЕ И ДВУСТОРОННИЕ КРИТЕРИИ Если цель опыта состоит в том, чтобы установить различие двух генеральных совокупностей, соответствующих различным условиям, то, как правило, неизвестен знак предполагаемого различия обоих параметров, скажем, средних значений двух последовательных измерений. Нуль-гипотеза: оба средних значения относятся к одной и той же генеральной совокупности ([хх = |i2); наша цель — показать несостоятельность этой гипотезы. Поскольку неизвестно, какой из параметров имеет большее значение, то альтернативная гипотеза: оба средних значения относятся к различным генеральным совокупностям. Иногда основная гипотеза позволяет высказать определенное предположение о знаке ожидаемого различия: среднее значение генеральной совокупности I больше, чем среднее значение генеральной совокупности II [хх > \х2, или, наоборот: ^ < (ы2. В обоих случаях мы должны те отклонения, которые не фиксирует альтернативная гипотеза, отнести к нуль-гипотезе. Если альтернативная гипотеза гласит \хг > щ, то соответствующая нуль-гипотеза \ix ^ |i2. Альтернативная гипотеза: |хх < fx2 соответствует нуль-гипотезе \1г ^ \i2. Если альтернативная гипотеза jxx Ф fx2, то мы говорим о двусторонней альтернативной гипотезе, так как при отклонении нуль-гипотезы 119
(Mi == №2) и Mi > P4> и ^ < [i2 рассматриваются как возможные исходы. Говорят о двусторонней постановке задачи и о двустороннем критерии. При односторонней постановке вопроса — один параметр больше, чем другой, — альтернативной гипотезе |хх > \х2 противостоит нуль-гипотеза \ix ^ |л2 (или \ix < (х2 против \ix >> jli2). Когда знак предполагаемого различия двух параметров (например, средних значений) известен, тогда статистический анализ проводят с использованием односторонних критериев. Если знают, что нуль- гипотезе я = я0 (например, одинаковый эффект от применения двух лекарств) можно на основе предыдущих исследований противопоставить альтернативную гипотезу я < я0 (новое лекарство хуже, чем старое), то следует предпочесть односторонний критерий (я > я0) двустороннему критерию (я Ф я0), потому что первый обладает большой мощностью и чаще будет давать правильный ответ. Если заранее трудно решить, какой применять критерий, то следует применять двусторонний критерий. 1.4.7. МОЩНОСТЬ КРИТЕРИЯ При анализе решений следует иметь в виду два возможных типа ошибок — ошибки первого и второго рода. Зависимость между ними показана на рис. 21. Два выборочных распределения некоторой статистики представлены двумя нормальными кривыми: левая представляет нуль-гипотезу (Яо), правая — одно- Нп спрабедлибо /~\ /Щ\ Нд справедлиба ' х /мщностК Sv г Рис- 21. Мощность ^ критерия. критическое значение^ статистики Ts стороннюю альтернативную гипотезу (На)- Если мы получаем на основании некоторого решающего правила критическое значение статистики, то в зависимости от положения эмпирической статистики, определенной на основании выборки, возможны два решения. Если это значение статистики достигает или превосходит критическое значение, то нуль-гипотеза отклоняется, т. е. принимается альтернативная гипотеза. Если критическое значение не достигается статистикой, то нет оснований для отклонения нуль-гипотезы, т. е. она подтверждается. На рис. 22 показано, что в зависимости от положения критического значения статистики при постоянном расстоянии между средними значениями статистик для Яо (Тв1) и На (Ts2) с уменьшением вероятности ошибки а значение р, риска II, растет. Риск II, вероятность р принять неверную нуль-гипотезу, зависит: 1) от объема выборки п: чем больше выборка, тем надежнее при данном уровне значимости а (риск 1) будет установлено различие между двумя генеральными совокупностями; 120
2) от степени различия, например, расстояния между центрами генеральных совокупностей; 3) от свойства критериев, которое называют мощностью критерия (power). Мощность критерия тем больше: а) чем больше информации в данных, используемых в критерии. Представим уровни информации в виде ряда: частоты, упорядочения и статистики (см. также с. 126—127 и 261—264). [Частоты представляют собой простейшую ступень в измерении признака: вычисляется, сколько индивидуумов в выборке или нескольких выборках обладают (или не обладают) признаком или несколькими признаками. Упорядочения — ранговая нумерация измеряемых значений и качественное упорядочение наблюдений, как, например, плохой, ..., очень хороший]; б) чем больше предположений сделано о распределении значений: критерий, требующий нормальности распределения и однородности дисперсии, как правило, существенно мощнее критерия, не требующего этих предположений. Мощность критерия есть вероятность отклонить Яо, когда верна гипотеза НА. Мощность критерия = Р (решение отклонить Н0\На верно) = ^ J— Р> A.124) Чем меньше при заданном а вероятность |3, тем лучше критерий разделяет гипотезы #0 и На* Критерий называется мощным {powerful), когда он по сравнению с другими возможными критериями при заданном а показывает относительно более высокую дискриминирующую способность (способность к разделению гипотез). Hq 6 этой области И/1 6 этой области не отклоняется не отклоняется Но принимается принимается Критическое значение статистики Ts Рис. 22. Критическое значение статистики в зависимости от а (и от р (об ошибке 2-го рода следует еще сделать замечание, что она может быть уменьшена с помощью рандомизации)). 121
Подробно об этом см. [Cohen, 1969], а также [Lehmann, 1958] и [Clea- ry, Linn, 1969]. Во всех случаях мощность критерия увеличивается только при увеличении объема выборки. Следует напомнить, что имеется в виду случайная выборка с независимыми наблюдениями (см. также с. 347-348). Но принимается Нд принимается принимается л/г Критическое значение статистики Ts Рис. 23. Зависимость мощности критерия от применения одно- или двусторонних доверительных интервалов. Сравнение мощности критериев проводится с использованием асимптотической эффективности (asimptotic relative efficiency, Pitman efficiency, см. с 125 и 270). При переходе от одностороннего к двустороннему критерию мощность его уменьшается. Это показано на рис. 23: «треугольник» а делится пополам, критическое Т6 -значение смещается вправо, увеличивается р, и мощость критерия уменьшается. При равных объемах выборки односторонний критерий всегда мощнее, чем двусторонний. Приведенные на рис. 24 весьма схематичные кривые мощности критерия показывают зависимость мощности критерия от разности между двумя средними значениями. Критерий при заданной разнице между выборками тем мощнее, чем больше п и больше а. Для а область изменения невелика, потому что это ведет к увеличению риска 1, и поэтому редко а берут больше 5%: 1) если между средними значениями генеральных совокупностей нет различия, то мы отклоним верную нулевую гипотезу только в а% случаев (при уровне а%): вероятность отклонения равна риску I; Вероятность ошибочно отклонять нуль- гипотезу -1,0- Рис. 24. Кривые мощности критерия (функции качества) для различных условий при двустороннем критерии; средняя ордината даст для обеих кривых значения вероятности ошибки (а«0,01 или а«0,03); с возрастанием а и п кривая приближается к оси симметрии (оси ординат); все схематизировано. 122
2) если между средними значениями есть различие 1,5а0, то более мощный критерий, соответствующий более крутой кривой на рис. 24, укажет эту разницу в 80% случаев (мощность критерия = 0,8); более слабый критерий, отображаемый пологой кривой, эту разницу укажет только в 30% случаев (мощность критерия = 0,3); 3) если между средними значениями имеется очень большая разница, то мощность обоих критериев равна 1. Итак, мы установили, что при двустороннем критерии увеличению разности \i — |ы0 соответствует увеличение вероятности отклонить нуль-гипотезу, а с увеличением уровня значимости или объема выборки эта вероятность падает. Мы установили также, что для достижения хорошей мощности критерия следует максимально возможно увеличивать объем выборки. Если объем выборки мал, то нужно брать уровень значимости не слишком малым, так как и малая выборка, и малый уровень значимости приводят к нежелательному уменьшению мощности критерия. Односторонний критерий, как мы видели, имеет большую мощность, чем двусторонний. Поскольку односторонний критерий лучше устанавливает наличие разницы в совокупностях данных, чем двусторонний, следует всегда предпочитать одностороннюю альтернативную гипотезу (если другая ее часть для нас незначима или неинтересна). Если, например, сравниваются новый и старый, широко применяемый, методы лечения, то интерес представляет вопрос: лучше ли новый метод? Если новый метод немного хуже или такой же, как прежний, то нет оснований отказываться от старого метода» Если же сравниваются два новых метода, то применим только двусторонний критерий, поскольку односторонний почти нечувствителен к другой, или «неправильной», альтернативной гипотезе. Непараметрические критерии (в особенности быстрые критерии) по отношению к параметрическим критериям имеют меньшую мощность. При использовании непараметрических критериев в случаях нормального или равномерного распределения платой является увеличение ошибок 2-го рода. Статистические решения становятся тогда консервативными, нулевая гипотеза дольше «держится», и для' ее отклонения необходим большой объем выборки. Если, как обычно, имеется малая выборка, то непараметрические критерии часто эффективнее некоторых оптимальных параметрических критериев. Если для анализа имеются несколько критериев, то обычно выбирают те, которые наиболее полно используют информацию, содержащуюся в статистических данных. Конечно, желательно, чтобы основные предпосылки в статистической модели, проверяемой с помощью критерия, соответствовали экспериментальным данным. Если предпосылки выполняются только частично, то это надо соответствующим образом учитывать при интерпретации полученных результатов. Полезная рекомендация: указывать те предпосылки, выполнение которых негарантированно. Например: «В предположении, что обе выборки относятся к нормально распределенным генеральным совокупностям, имеем ...». 123
Следует учесть еще одно предостережение. Перепроверка критерия недопустима. Применение почти исключительно односторонних критериев и выбор критериев на основе уже полученных результатов приводят к тому, что фактическая вероятность ошибки иногда больше чем вдвое превосходит заданную вероятность [Walter, 1964]. Оперативная характеристика Рис. 24 показывает зависимость мощности критерия от разности средних значений, заданных в единицах стандартного отклонения (\i — цУ^о), функцию мощности критерия (power function). Ее дополнение (до единицы), вероятность принять неверную нуль- гипотезу, т. е. ошибка 2-го рода, называется оперативной характеристикой ОХ, ОХ-кривой (operating characteristic curve), или линией приемки; качественное определение: Оперативная характеристика = 1 — функция мощности. A.125) ОХ-кривая при двустороннем критерии представляет собой куполообразное дополнение к обратной куполообразной кривой мощности. Мы теперь для характеристики критерия можем указывать только одну из двух функций и, например, на основе ОХ для заданных риска I и п определить неизбежный риск II решения о выборе между нуль- гипотезой и альтернативной гипотезой. Когда для заданного риска I и при малом риске II объем выборки, необходимый для определения разности А, становится слишком большим, нужно увеличивать риск I (табл. 52а содержит пример определения объема выборки для сравнения двух средних по Стьюденту при заданных риске I, риске II и А). Иногда, конечно, можно применять более мощный критерий. При равном объеме выборки ОХ тогда круче и разница устанавливается надежнее. Если испытание закончено, то ОХ показывает, каков шанс определить разницу А. Если при малом объеме выборки принят слишком малый риск I, то следует ожидать большого риска II и при принятии нуль-гипотезы надо помнить об осторожности, так как отчетливо установить различие при этих условиях едва ли возможно. Большое значение имеет ОХ для определения выборочного плана при контроле качества, в особенности при приемочных испытаниях. Примеры построения ОХ-кривых приведены в [Bunt, 1962] и [Ya- mane, 1964]. ОХ-кривые для важнейших критериев содержатся в [Ferris и др., 1946] и особенно в [Owen, 1962]; см. также [Liebscher, 1968], [Hodges, Lehmann, 1968], а также [Могice, 1968]. Исчерпывающие таблицы приведены в [Cohen, 1969]. 1.4.8. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ Классические статистические методы обычно предполагают нормальность распределения, которая, однако, строго говоря, никогда не удовлетворяется, так что любое приложение этих методов оставляет ощущение опасности ошибки. По этой причине развитие непараметри- 124
ческих методов, которые не предполагают нормального распределения, вызывает неослабевающий интерес. Эти критерии не требуют никакого предположения о виде распределения, если вероятно или по крайней мере правдоподобно, что сравниваемые выборки принадлежат к одной и той же генеральной совокупности [Walter, 1964], что они могут рассматриваться как однородные [Lubin, 1962]. Непараметрические методы, как правило, очень просты в использовании. Их преимущество состоит в том, что практически не требуется почти никаких знаний о функции распределения генеральной совокупности. Кроме того, эти методы могут использовать качественную информацию и упорядоченные по рангам данные. Классическое сравнение средних «по Стьюденту», например, основано на следующих предположениях: 1) независимость наблюдений (случайная выборка!); 2) признаки должны быть измеримы в единицах метрической шкалы (например, системы МКС); 3) генеральная совокупность должна быть (по крайней мере приближенно) нормально распределенной; 4) дисперсии должны быть равны (о\ = ai). Непараметрические методы, соответствующие критерию Стьюден- та, требуют только независимости данных. Являются ли данные наблюдений взаимно независимыми, устанавливается из способа их получения. Итак, практически единственное предположение состоит в том, что все данные или пары данных выбраны случайным образом и независимо друг от друга из одной и той же генеральной совокупности; это должно соответствовать самому виду эксперимента и его проведению. Поскольку непараметрический критерий, когда его применяют на нормальном распределении, всегда слабее, чем соответствующий параметрический критерий, используется показатель Еп (по [Pitman, 1949]): П п для параметрического критерия /1 1ОЛ\ Ln— , (l.lzoj п для непараметрического критерия который называют «эффективностью» непараметрического критерия. При этом под п подразумевают объем выборки, необходимый для получения заданной мощности критерия. Понятие асимптотической эффективности применяется для случая бесконечно большой выборки нормально распределенной случайной величины. По этому показателю определяют действительность критерия, когда он применяется вместо классического критерия на совокупности нормально распределенных данных. Асимптотическая эффективность Е = 0,95 — например, для {/-критерия — означает: если при использовании непараметрического критерия в среднем требуется выборка с п = 100 для определенного уровня зависимости, то в случае соответствующего параметрического критерия было бы достаточно п = 95 (подробнее об этом см. [Bradley, 1968]). Непараметрические методы предполагают случайную выборку из генеральной совокупности с непрерывным распределением. Они рекомендуются к применению тогда, когда
а) параметрические методы слишком чувствительны к отклонениям от сделанных допущений или б) когда удовлетворение этим допущениям с помощью соответствующих преобразований (Ь^ или с помощью устранения выбросов (Ь2) представляет значительные трудности. Непараметрические методы, которые отличаются относительно простыми вычислениями, называют также быстрыми. Другим важным свойством непараметрических критериев, кроме экономичной вычислительной процедуры, является применимость без предварительных допущений. Их недостаток — малая мощность, поскольку только часть информации, содержащаяся в данных, используется для принятия ста!истического решения! Статистические решения быстрых тестов консервативны, т. е. труднее отклонить нуль-гипотезу, чем при параметрических критериях, для этого требуется большая выборка или большее число противоречащих альтернативных данных. Указания к применению непараметрических быстрых критериев (по [Lienert, 1962]): 1. Важнейшим применением непараметрических тестов является приближенная проверка значимости для параметрических и непараметрических методов. При этом определяют, выгодно ли вообще проводить проверку значимости с помощью оптимального критерия. Для решения по быстрому критерию есть три возможности: а) результат может быть отчетливо значимым, проверка по более сильному критерию не нужна, так как цель проверки может быть достигнута и с помощью более слабого критерия; б) результат может быть абсолютно незначимым, т. е. никакую значимость определить не удается; в этом случае проверка с помощью более сильного критерия также ни к чему; в) результат может быть слабо значимым, но иметь тенденцию к значимости; в этом, и только в этом, случае последующая проверка с помощью оптимальных критериев возможна, хотя, строго говоря, недопустима (см. предостережение на с. 124). * 2. Другой областью применения непараметрических критериев является суждение о значимости данных, полученных в предварительных опытах. Результаты предварительных опытов должны быть хорошо обоснованы, если последующие главные испытания призваны обеспечить надежные выводы. 3. И наконец, непараметрические критерии могут применяться для получения обоснованного вывода там, где имеется достаточно большая выборка измерений, т. е. объем выборки п > 100. Эта рекомендация основана на том, что при больших п даже слабый критерий должен указать на наличие значимости, когда результат не только статистически, но и практически должен быть значимым. К этому следует добавить, что экономия в вычислениях здесь становится особенно значительной. Среди трех приведенных возможностей применения наибольшее значение имеет первая, так как здесь экономический эффект прояв- 126
ляется вдвойне: во-первых, приближенные методы проще и, во-вторых, вообще не нужно применять сложных и дорогостоящих критериев. Примечание. Системы мер Опрос о принадлежности к той или иной специальности не позволяет составить однозначные объективные последовательности. Классификации подобного вида, мы говорим о номинальной шкале, используются при упорядочении по полу, профессии, языку, национальности. Иногда требуется подобное упорядочение, когда, например, объекты исследования необходимо расположить в объективную последовательность по возрасту или какому-либо другому признаку, при которой, однако, интервалы по шкале рангов не соответствуют требуемым интервалам (например, по некоторой возрастной шкале могут стоять последовательно двадцатилетние, тридцатилетние и затем тридцатидвухлетние). Если интервалы постоянны, как в обычных измерениях температуры по Цельсию, то сравнение по этой интервальной шкале бессмысленно: некорректно утверждать, что 10° С вдвое теплее, чем 5° С. Лишь интервальная шкала с абсолютным нулем позволяет проводить осмысленные сравнения. Признаки, для которых возможно задание такого нуля, это, например, температура в градусах Кельвина, длина, вес и время. Шкалы такого вида называют шкалами отноше» ний. В то время как шкала отношений может быть переведена в другую умножением на положительную константу (например, 1 морская миля = 1,609347 км, т. е. у — ах), причем отношение двух упорядоченных наблюдений при умножении их на константу сохраняется, в интервальной шкале оно изменяется: Градусы Цельсия: 0 10 160 Градусы Фаренгейта: 32 50 212 Четыре вида шкал, выделенных Стивенсом [Stevens, 1946], можно упорядочить с помощью следующих понятий статистики: 1. Номинальная шкала (произвольная нумерация, например, автомобилей): названия и их частоты, %2-критерии, биномиальное и пуассоновское распределения и мода как мера положения. 2. Ранговая шкала: школьные отметки и подобные данные, которые допускают упорядочение по рангам; ранговые критерии, как [/-критерий, Я-критерий, ранговый дисперсионный анализ и ранговая корреляция, децили и медиана. 3) Интервальная шкала: температурные измерения в градусах Цельсия или Фаренгейта; типовые параметрические статистики, такие, как арифметическое среднее значение, стандартное отклонение, коэффициенты корреляции и регрессии, а также обычные статистические критерии, как /-критерий и F-критерий. 4. Относительная шкала (с истинным нулем): температурные измерения в градусах Кельвина, физические измерения в кг, м, с; к статистикам, перечисленным в п. 3, добавляются геометрическое и гармоническое среднее, а также коэффициент вариации. Существенно, что для данных, которым соответствуют номинальная или ранговая шкалы, могут быть применимы только непараметрические критерии, в то время как данные в интервальных и относительных шкалах можно анализировать как с параметрическими, так и с непараметрическими критериями. 1.4.9. ПРИНЦИПЫ СТАТИСТИЧЕСКИХ РЕШЕНИЙ Многие наши решения соответствуют философии минимакса Абрахама Вальда A902—1950). Согласно принципу минимакса (см. также [Neyman, 19281) выбирается то решение, которое приводит к миними зации максимальных потерь" в наихудшем случае. 127
Наименьшие возможные потери имеют решающее значение. Это оптимум при максимальной боязни риска, когда во всех случаях легко пренебрегают большими шансами. Только хронический пессимист обладает таким постоянством. С другой стороны, этот принцип «минимизирует» шансы на катастрофические потери. Минимаксер, следовательно, это тот, кто решает максимально хорошо защищаться против наихудших {минимума) ситуаций. По минимаксному критерию отвергается всякое решение, за которое можно угодить в тюрьму. Частные определения не полностью изобличенным преступникам — вот плата за эти методы. Без минимаксера не было бы и страхования: пусть предприятие стоимостью в 100 000 марок застраховано от огня; стоимость страховки 5000 марок; вероятность пожара составляет 1 %. Если мы хотим уменьшить потери, то сравним верные потери в 5000 марок с вероятными потерями 1%, т. е. 1000 марок. Однако истинные потери составят или ноль, или 100000 марок. Поэтому предпочитают наверняка терять, но только 5000 марок. Если застраховать не один объект, а много, скажем, речь идет о 80 кораблях большой пароходной компании, то может быть целесообразным страховать только отдельные корабли или вообще не страховать. Свободные от долгов объекты могут быть не застрахованы. Государство не страхует ничего. Полный жизни оптимист — в нашем определении «максимаксер» — выбрал бы решение, которое в наилучших условиях приводит к наилучшему результату, и вообще отказался бы от страховки, потому что пожар маловероятен. Максимальный критерий тогда обещает успех, когда при относительно малых потерях возможны большие выигрыши. «Максимаксер» играет на тотализаторе и в лото, потому что заведомо малые потери он может возместить крупным выигрышем. Этот принцип решения — учитывать только наибольший возможный выигрыш — введен Байесом A702—1761) и Лапласом A749—1827). Мы не можем здесь подробно останавливаться на этих принципах решения. Интересующийся и математически подготовленный читатель может эти и другие критерии найти в [Kramer, 1966], в специальной литературе ([Buhlmann и др., 1967], [Shsneeweis, 1967], [Bernard, 1968], [Cher- noff, Moses, 1959], [Weiss, 1961]), а также в библиографии [Wasser- man, Silander, 1964]). Важные частные случаи рассмотрены в [Raiffa, Schlaifer, 1961], [Ackoff, 1962], [Hall, 1962], [Fishburn, 1964], а также в [Theil, 1964]. От решений наука переходит к заключениям. Решения выглядят так: «мы решаем теперь, как будто бы». С ограничениями «как будто бы» и «теперь» мы говорим в особо правдоподобных случаях. «Наши лучшие» высказывания без упоминания о вероятности типа 6> 4. В противоположность этому заключения — максимы науки — выводятся при тщательном рассмотрении доказательств, полученных из специальных наблюдений и экспериментов. Если достаточные доказательства^ отсутствуют, то заключение отвергается. Заключение есть утверждение, которое распространяется на данные условия эксперимента или наблюдения до тех пор, пока оно не войдет в противоречие с необычно сильными доказательствами. 128
Это определение содержит три решающих пункта: оно подчеркивает слово «допущение» в прямом смысле этого слова; говорит о необычно сильных доказательствах и содержит возможность отклонить заключение в дальнейшем (см. [Tukey, I960]). #1.5. ТРИ ВАЖНЫХ РАСПРЕДЕЛЕНИЯ ВЫБОРОЧНЫХ СТАТИСТИК В этом разделе мы будем рассматривать распределения статистик. Статистики — это предписания, по которым из выборки рассчитывается число — значение статистики для данной выборки. Выборочное среднее, выборочная "дисперсия или отношение дисперсий двух выборок, все эти оценки или значения функции от выборки могут рассматриваться как статистики. Статистика — случайная переменная. Ее распределение вероятностей лежит в основе критериев, которые построены на этой статистике. Распределения статистик, функции от выборок нормально распределенной переменной называют поэтому также тест-распределениями. Вместо слова «статистика» используют выражение «тест-статистика» (teststatistic); cm [Haight, 1961]. 1.5.1. РАСПРЕДЕЛЕНИЕ СТЬЮДЕНТА В. С. Госсет A876—1937) в 1908 г. доказал (под псевдонимом «Стью- дент»), что распределение отношения разности между выборочным средним и средним значением генеральной совокупности к стандартной ошибке среднего значения генеральной совокупности Ошибка среднего значения Стандартная ошибка среднего значения af\/~n A.127) Рис. 25. Плотность вероятности нормального распределения и распределения Стьюдента при 3 степенях свободы (я=4). С уменьшением числа степеней свободы максимум распределения Стьюде,н- та уменьшается. В отличие от нормального распределения большие вероятности концентрируются на выбегах и меньшие — в центре. Нормальное распределение Распределение Стьюдента ' G7 = 4, !>=j; только тогда подчиняется нормальному закону, когда а является стандартным отклонением единичного значения от среднего значения генеральной совокупности. Зак. 930 129
t- 00 00 CN CO —ToTt^. ь- со ^сосо —« CN CD —• CO CN CD СОЮ CO CD^ rH CD t> CO CO < CD CD CN —i О CD 00 Г- ^ CD 00 rt< CO 00 CO CD Ю OO t4- t4^ CO CO СОЮЮ ЮЮ ЮЮЮ ^ *4f 0H0^0 —« OCN —• OlOCDCO CD—t CN 00 CO CO—< CD CD CD 00 *-ч —< СОЮ О "Ф 00 00 CD'' t>- t*-oo ~* о 00 00*-< CN "tf < 00 CN —« 00 00* Ю rt< СО Ю Ю Ю ^ СО Ю Ю CN СО О О CD CD 00 "^ ^t4 СО СО 00 оо оо t- i со со со со со СО СО CN—• oo"of ©~^ СОООЮ^ t- (ЛО00О05 00 CN t^ Ю СМ ^100<NN Tf CN СОЮ 00 OCfH0N COCO COO СЛ CO 00 TP »-• t-- t^ CO CD CO Ю UOCN О 00 СО Ю Ю Ю "^ tJ^ сосъсососо со со со со со I E I ^ О CD CD 00 СО СО* С СО CN t>- <5>ЪО С 00 О CD Ю1 ON'tCOC Gi CD Ю CN t*- CO О Ю —• t^- »-. ^н о О О) i-< оо оо—< CN O5 I4* CD O5 CX) 00 00 "^ CO CO COCO со со cococn CD CD cX) 00 00 CNCN*orCN*CN Ю —< О IN- h- т^ CO «-i О CD 00 00 00 00 N CN CN CN CN CN 3 Bf i CN CD^ «Ф OOC^JON 5 00 00 СО—* ?т}- CD CDCN Э—* CD 00 00 тН00 —i < со—" оо» h- t^ СГ < 00 00 00 О CN CN "-"• О О CD Ю Ю Ю Ю rr C CO CO CO CN CN <N CN CN CN CN CN CN CN CN CN CN CO CO CN CO OO00N CN r^ CO CN Ю COCN CD СЭ CD CO 00 CN CN CN CN CN CN 00—• CD ОЮ oTcnoTcn'cn' OOCO COCN—« О CD CNCNCNCNCN CD О ^ CD rh оГо^С^С^ГсМ I ^ О CO CN —* CN ЮСО CO O5 CO—* ЮСО ЮО CO О CD 00 00 00 CN COCN —< —* —• CD OO !>• CO COCO OtP CD Ю ««f ^ COCN 1 5 g оо со oo oo «>- оо со со о со сою CD О Ю t^ CO l> 3< v-ч CD 00 * аэ со 5Ю -н{ rf CO CO CO CN CO CO COCO CO Ю CO—' СП 00 CN CN CN —• —¦• со со со coco 5 (X I a. О СОЮ —i о —« со ^< O00NN -Г о* о* о o"o*o'4o"o'4 О^Ют^сМ ^OCDOOOO OCDCDCDCD CDO>000000 t^-CD CO CD cD CO CO CD CD CO ооооо ооооо Г^ CD CO Ю L ОО 00 00 ОО С СО СО СО СО С ооооо Ю CD h-00 СЛ Ю СО1>- 00 CD О^н CN СО т*« CN CN CN CN CN н 130
25 26 27 28 29 30 35 40 45 50 60 70 80 90 100 120 200 500 1000 со Число степеней свободы 0,684 0,684 0,684 0,683 0,683 0,683 0,682 0,681 0,680 0,679 0,679 0,678 0,678 0,677 0,677 0,677 0,676 0,675 0,675 0,675 0,25 1,316 1,315 1,314 1,313 1,311 1,310 1,306 1,303 1,301 1,299 1,296 1,294 1,292 1,291 1,290 1,289 1,286 1,283 1,282 1,282 0,10 1,708 1,706 1,703 1,701 1,699 1,697 1,690 1,684 1,679 1,676 1,671 1,667 1,664 1,662 1,660 1,658 1,653 1,648 1,646 1,645 0,05 г > 060 2,056 2,052 2,048 2,045 2,042 2,030 2,021 2,014 2,009 2,000 1,994 1,990 1,987 1,984 1,980 1,972 1,965 1,962 1,960 0,025 2,485 2,479 2,473 2,467 2,462 2,457 2,438 2,423 2,412 2,403 2,390 2,381 2,374 2,368 2,364 2,358 2,345 2,334 2,330 2,326 0,01 2,787 2,779 2,771 2,763 2,756 , 2,750 2,724 2,704 2,690 2,678 2,660 2,648 2,639 2,632 2,626 2,617 2,601 2,586 2,581 2,576 0,005 3,450 3,435 3,421 3,408 3,396 3,385 3,340 3,307 3,281 3,261 3,232 3,211 3,195 3,183 3,174 3,160 3,131 3,107 3,098 3,090 0,001 3,725 3,707 3,690 3,674 3,659 3,646 3,591 3,551 3,520 3,496 3,460 3,435 3,416 3,402 3,390 3,373 3,340 3,310 3,300 3,290 0,0005 4,619 4,587 4,558 4,530 4,506 4,482 4,389 4,321 4,269 4,228 4,169 4,127 4,096 4,072 4,053 4,025 3,970 3,922 3,906 3,891 0,00005 Источник: Fisher R. A. andYates F. Statistical Tables for Biological, Agricultural and Medical Research, Oliver and Boyd Ltd. Edinburgh A963), p. 46, Table III. Примечание. Для каждого вычисленного значения t, исходя из принятых вероятностей ошибки а, одно- или двустороннего крите- g рия и данного числа степеней свободы, находят табличное значение tCt значимо на <х%-ном уровне при условии f>/. Например, *"* t =2,00 для v = 60; двусторонний критерий значим на 5%-ном уровне, односторонний—на 2,5%-ном уровне.
132 CO CM t- t>- <M OO 00 CM тр Ю о coco ooo —" ~ —• ^ <N CO <M CM 00 CD "^f CO •—* OO Ю счГ^со^г^стГ CM CM CM CM CM CO CO CO CO CO Ю O —« CM <M CM b- 00 00 CO OOCNCOlO CO f Ф ^ ^ CO*— т}< OOO CO^CM CO CM О со* о"—Г'' ~ ooo t^.~« 00 "* О СО СМ ,-н ^ СМ СМ СМ rfCO t^- OO см см см см со о "Ф оо -* CM 00 "^ CO Г^- СО COCO CO CO см оо ю*-* со юг-- о—< см Ю—i CO CM 00 rj^O^LO О ^ ^H^Hr-4^ CM ^ 00*^ CO h- см см см см см 00 ^ Ю 00 •— см со со со со 00 ^ со'ю t^. сгГ—Г — CM -^ ^Cft CO о а> r^ rh »— CO Ю 00 ^ ^ CONOOO^ CM CM CM CO 00 IN СО СМ Г- СМ CM <f СО t-~ О 8J8S8 СО < Юс rf lOt4^ 00 O> 1С CO 00 050 о *—• см со ю CN CM CM CM CM — со oo со т^со ooo oooo см см со ю t*- oo l^ OOOJO-* 050—< CSJ CO CNtlflCON tJ« ЮСО In-оо 222см см см со со со со со со со со со со со со со со со CO h- 00O51^- ooco юсосм 00 4f ЮСО t4- ЮС0С0 схГстГстГо CM CO "^ Ю CO s I rHcO О "«f O^CO CO t*-CM O>00 00 0^00^00^^ CO 00^ ЮСО о оос СО t*- 00 ОО —Г см см со -^ I S о, I Ю ПОМО ЮСО t^ !>• 00 CO^O^OO^CO^r ooo '-Те ОС со —^ t ь- ooof- со Ю СМ 00 Ю СМ rf ЮЮСО Г>- СО О 1^ ОСМ Ю СООО00 1 а. Ои СЧ,' О СО OOCO *+'™t о ю»-^ оо оо О О СМ тР 00 о* о* о* о* о" Th OOO О Ю см со -* t^см — COCO—* О о юсмою СО t*- 00 00 О о ю г- <м *—< о о ю о* о* о* о* о" см 00 СМ СО О Ю «со со чСО СМ ^_^_С0<о 00 ^ О СО СМ ю*со*г^ t^- оо »-н СМ СО ""Ф Ю со t*- оо оо
Продолжение Число степеней свободы 22 24 26 28 30 35 40 50 60 80 100 120 150 200 0,99 9,54 10,86 12,20 13,56 14,95 18,51 22,16 29,71 37,48 53,54 70,06 86,92 112,7 156,4 0,975 10,98 12,40 13,84 15,31 16,79 20,57 24,43 32,36 40,48 57,15 74,22 91,57 118,0 162,7 0,95 12,34 13,85 15,38 16,93 18,49 22,46 26,51 34,76 43,19 60,39 77,93 95,70 122,7 168,3 0,90 14,04 15,66 17,29 18,94 20,60 24,8 29,05 37,69 46,46 64,28 82,36 100,62 128,3 ^ 174,8] 0,80 16,3 18,1 19,8 21,6 23,4 27,8 32,3 41,4 50,6 69,2 87,9 106,8 135,3 183,0 0,70 18,1 19,9 21,8 23,6 25,5 30,2 34,9 44,3 53,8 72,9 92,1 111,4 140,5 189,0 0,50 21,3 23,3 25,3 27,3 29,3 34,3 39,3 49,3 59,3 79,3 99,3 119,3 149,3 199,3 0,30 24,9 27,1 29,2 31,4 33,5 38,9 44,2 54,7 65,2 86,1 106,9 127,6 158,6 210,0 0,20 27,3 29,6 31,8 34,0 36,2 41,8 47,3 58,2 69,0 90,4 111,7 132,8 164,3 216,6 0,10 30,81 33,20 35,56 37,92 40,26 46,06 51,81 63,17 74,40 96,58 118,50 140,23 172,6 226,0 0,05 33,92 36,42 38,88 41,34 43,77 49,80 55,76 67,50 79,08 101,88 124,34 146,57 179,61 234,0 0,0025 36,78 39,36 41,92 44,46 46,98 53,20 59,34 71,42 83,30 106,63 129,56 152,21 185,8 241,1 0,01 40,29 42,98 45,64 48,28 50,89 57,34 63,69 76,15 88,38 112,33 135,81 158,95 193,2 249,4 0,001 48,27 51,18 54,05 56,89 59,70 66,62 73,40 86,66 99,61 124,84 149,45 173,62 209,3 267,5 Источник: Fisher R. A. and Yates F. Statistical Tables for Biological, Agricultural and Medical Research, Oliver and Boyd Ltd. EdinburghJ1963), p. 47, table IV. Примечание. P (%* > табличн. знач.) = а, что значит, например, для 4 степеней свободы Р (х"> 9,49) =>0,05, т. е.ха — значение, равное 9,49, или превышающее эту величину, для v =я 4 значимо на 5%-ном уровне. Односторонние критерии допустимы только для одной степени свободы. %2ОДн = 6,63 значимо на (а/2) 0,5%-ном уровне. Примеры можно взять в разделах 3.3, 3.4, 4.3, J3 4.6, 6.1 и 7.6.
осоачо сл ^5 со to — о со ос j c? сл 4^ со й — © со оо ^4 ста сл !2 со to — о со оо Ci о> сл ? со io — о со оо -а ст> сл 4* со to > ** sat "а ста ста СТа С> ста сл сл сл ¦а сл 4* Ю —о со оо а> СД СЛ СЛ СД СЛ 4^ 4^> 4*» »4^ 4*. 4>>4^4^4^СО СО СЛ4^С0Ю — СО ОО-«4 СТа 4* COtO —ООО ->J jO СОСОЬО tO tO ю — ооо-^стэ СЛ СО — О ОО СТа 4* СО — СО О 4*--4 О СО СТаОООЮФ'- -nj сл со — о СТа -*| Оо ер О 4Слса — оо ста 45ь — со ста 4^ — оослсо ооасооста со со Сл J СТа 4=» —>СО CTltO-^tO^ —4J--4COO ОООСТаСООО — Ю — СОСОСЛОСЛ О4^00СО00 -*4со — со > tOtOtO —— *-»—1-1 СО —00005 СЛСО — СО СТ> СО ел S сл я р I Z 43 п а •о I -vj-vj-v]-4«*4 СТастаСТаСТаста СТаОСТаСлел О»СЛСЛСЛСл СЛ4^4>4^4^ 4»-4^4^4^СО СОСОСОСОС СТа 45* СО tO — СО 00-4 СТа 4а» СО SO — СО 00 -^ СТа 4* СО Ю О СО 00 СТа СЛ 4^ Ю ^—О 00 ->4 СТ5 4^ СО t со to ©СО *—*СОСТа4>*Ю СО**^4»*ЮСО Оа4^»-*00СТа С0О--44*»1-* сл to со 4з> О ста — ста —' сл со со ста со to 4ь ста ^j оо со сл — с. . . ¦^4 СО — — < СЛСЛ 45" 4»- 4*. Ю —<O00 О) S O> to 00 4^- — юслчсоо СО 00 СО-4 tO — к> — сосл — CO4*> CO tOO 0 00 00 00 COtO — tO tO tO tO •—* i»-*n-»»—»•—*>—* 4^C0N3OC0 00 -sj CTS СЛ 4». aW— "со"со ^"ста'сл'со'Ц "— "< * ^° — со*ч ел со — (psi o\t 38888 ^—О 00-vICT>4*.C0 ЮО СоЪоЪ> оослкасосл to оо сл — ^4 bg ВSgSSJg 88588b gа«83 ооЪаУсо"»— "соЪо en 4^ to — сомлел 4^ ьооооспел со — со->4 сл "со"ю'оЪо'с& Ую'о'оо'о^ Ую'о'оо'сл "со*— '«oVi'oi "to'o'oo'crt'co >->^^.~>4^ -4ОС0СПС0 tO4^-<lCO- C0CD00CO— СО 4*> О> -^ СО CQ Q — NJ tO tO CO CO CO tO tO tQ — О СО ОО СТ) СЛ СО — CQ 5 S — СО СЛ О^ >— СО -Ч ,j СО СОСОСОСОСО COtOtOtOtO ,_ СО tO С^ СО СО *~4 СЛ 4*» СО tO •—* СО СО *~4 Оа 4^ СО 1О •—* СО "со"— Ъо "ста"V "to со -4 ел to "о"со"ел"со"о ЪоЪт"со"—Ъо оослсооо ^СОСЛОСЛ спеоооо ОСЛСОСО сл соо^сл ю ОО ЬЭСЛСОЮСТ) ь^СОСОСООО СОСОСОСОСО OCOOO<iCT СЛ4^С0Ю lOtOtO СО--4а> tOtOtOtOtO СЛ Ф» СО Ю н- >— >— О >— OCO ООООО Cn4s»COtO — СОСО-4СЭСЛ сл^о-эюю > о со оо <i оо со о со о о о — — — -vj -ч! ста ста ста ста ста ста _. •— О СО СО--1С7аСЛ4^ COtOOCOOO *>4СТаСЛ4а» i-O(O00 4 СТаСЛ42»СлЗЮ t-ОСОООЧ СТаСЛ4^СОЮ ста ста ста ел сл слелелелсл со to о со со *4 ста сл 4= со >Ь.СОСОСОСО СОСОСОСОСО tOtOtOIOtO —сооо-405 сл4^сою— сооо-доасл аел4Слзю о со to ю to to to to to CO со ~. ^.. _... — ОСО00*>4СЛ 4^. СО Ю *— О СОООСТаСЛ4^ со со ~-4 -4СТаслсл4ь со to >¦-* о со оо-4 ста ел со to о со X) ста СО СО СО СО 00 СОООООСООО ОООО cotoococo --ЗСТаСл4^Ю —О ^ , . ....,, -4 ста ста ста ста ста ста оа ста ста ел ел сл Сл ел со Со-^ саСЛСою— Ососооасл 4*. СО to — О 00--4 оа СЛ 4*- СЛ СЛ СЛ 4* 4*. 4^-4^4^4^4^ 4^ 4^ СО СО СО со to о со оо ->j ста сл со to и— о со оо ста ЮОсОСХ^СТа СЛ СО tO — СО 00-0Cn4s»tO >—О00--4СЛ 4^ tO — СО 00 — -<1 4*. О -q W СО СЛ tOCO 4^OCTatO00 4a. О СЛ — -s| tO00C0CO4i» oacn4^to^- сооо СОелОСЛО СЛО стаелсо —ооо-^ел 4»-to —co-vi ста 4*. со — с СЛО^ СО4^00СО-^ >~*CTaO4^00 tOOaOCO- ооооо ооососо сососососо сососооосо оооооооосо . . . . _ cocooaaiv^ со to >— со оо ^стаелсою >— о со •<! ста сл 4^ со •— о сооо-4ста4*» to осо --4сл ста со — со сл 38588 8fiS2 825*83
Если параметры pa неизвестны, то нужно в качестве оценки a использовать s; тогда мера отклонения t=*JZJL (Определение см. на с. 136) A.128) s/Уп имеет распределение Стьюдента, или t-распределение. При этом предполагается, что отдельные наблюдения xt независимы и распределены (хотя бы приближенно) нормально, /-распределение (см. рис. 25) весьма напоминает нормальное распределение: оно непрерывно, симметрично, колоколообразно, с областью изменения от минус бесконечности до плюс бесконечности. Оно, однако, не зависит от значений pa. Форма /-распределения зависит только от так называемого числа степеней свободы. Число степеней свободы: число степеней свободы FG, или v, статистики определяется числом независимых («свободных») наблюдений и равно объему выборки п минус число оцениваемых по выборке параметров: fG^v^ n — k. A.129) Статистика /-критерия, так как среднее значение оценивается по выборке, имеет ? = 1 и v = /г — 1 степеней свободы. Указания о том, как определять число степеней свободы для других статистик, мы приведем ниже. Чем меньше число степеней свободы, тем сильнее отклонение от нормального распределения, тем кривая будет более пологой, т. е. в отличие от нормального распределения больше вероятности на «хвостах» кривой и меньше — в центре (см. рис. 25). При большом числе степеней свободы t-распределение сходится к нормальному распределению. Основная область применения /-распределения — это сравнение средних значений. Распределение Стьюдента при малом числе степеней свободы по сравнению с нормальным распределением будет ниже, но более широким. В то время как при нормальном распределении 5% и 1% общей площади лежат за пределами границ ±1,96 и ±2,58, при 5 степенях свободы эти значения соответственно равны ±2,57 и ±4,03, а при 10 степенях свободы ±1,98 и ±2,62, т. е. почти совпадают с нормальным распределением. Таблица доверительных границ для /-распределения приведена на с. 130—131. Значения /, превосходящие табличные, при заданном уровне значимости следует считать чисто случайными. Исходят из данного числа степеней свободы; вероятности выйти за пределы границ, указанных в таблице, приведены в верхней строке. Тогда, например, для 5 степеней свободы (v »= 5I получаем, что вероятность Р выхода /-значения за пределы 2,571 равна 0,05, или 5%. Р — площадь, лежащая на обоих концах /-распределения за пределами /-границ. Это вероятность того, что табличное значение / будет превышено эмпирически найденным значением. 135
Табл. 27 содержит доверительные границы для дву- и одностороннего критерия. Например, для одностороннего критерия определяем ^зо; о.об = 1,697, t\2o; o.oi =* 2,358. Первый индекс означает число степеней свободы, второй — принятую вероятность ошибки. Подробные таблицы ^-распределения до п = 10 000 приводятся в [Federighi 19591 (см. также [Смирнов, 19611). 1.5.2. ^-РАСПРЕДЕЛЕНИЕ Пусть sa — дисперсия случайной выборки объема п из генеральной совокупности с дисперсией а2; тогда случайная переменная A.130) (Г* подчинена ^-распределению (хи-квадрат-распределение) с параметром v == п — 1 (число степеней свободы). Ее область изменения 0 ч—Ьоо; с ростом п ^-распределение также приближается к нормальному (но медленнее, чем ^-распределение). Форма ^-распределения зависит , как и в ^-распределении, только от числа степеней свободы. 0,2 г о 4 8 12 Рис, 26, Плотность вероятности % пределения при v=2 и v=5. Чем больше степеней свободы, тем более пологой и симметричной. становится асимметричная унимодальная кривая распределения. Важным свойством ^-распределения является его аддитивность. Если две независимые величины распределены по закону %2 с vx и v2 степенями свободы, то их сумма имеет ^-распределение с Vl + v2 степенями свободы. Основная область применения этого распределения, открытого Хельмертом A876) и Пирсоном A900), — это проверка гипотез о таблицах сопряженности признаков 2x2 и большего размера. Статистика %2 с v степенями свободы определяется как сумма квадратов v независимых переменных, распределенных по стандартному нормальному закону: "Определение t\ г?, A.131) 136
Для более чем 30 степеней свободы справедлива аппроксимация: AЛ32) (где г — переменная, распределенная по стандартному нормальному закону, см. табл. 13), или лучше (U32a) Подробнее о ^-распределении см. в [Lankaster, 1969]; см. также [Paradine, 1966] и [Vahle, Tews, 1969]. Еще одно замечание о написании х2. Обычно индексы записывают таким образом: % *; а- Если неверное понимание исключено, то достаточно одного индекса. Табл. 28 содержит только избранные значения ^-распределения. Если нужно найти точную вероятность для некоторого значения к2, то проводят логар и фмическую интерполяцию между двумя соседними значениями. Требуемые значения натуральных логарифмов приведены в табл. 29. Пример Пусть мы имеем х?о fg — 13,4. Вероятности для него лежат между 10 и 30%. Соответствующие границы: JCo,io ^ 16,0 и %о,зо *= И,8. Искомая вероятность находится тогда по формуле Таблица 29. Трехзначные натуральных логарифмов п 0,001 0,01 0,025 . 0,05 0,10 0,20 0,30 In п —6,908 -4,605 —3,689 —2,996 —2,303 —1,609 -1,204 п 0,50 0,70 0,80 0,90 0,95 0,975 0,99 значения Inn —0,693 —0,357 —0,223 —0,105 —0,051 -0,025 —0,010 —1пО,3 3,30 1пО,1-1пО,3 ,жо ~ Ко.зо Хо.ю — Ко.зо A3,4-11,8) (-2,303+1,204) 16>о_И,8 A.133) A.133а) In P = — 1,623, In P = 0,4343-In P - 0,4343-(—1,623), In Р = —0,7049 = 9,2951 — 10, или Р = 0,197в~ 0,20. Табл. 28 показывает, что 5Cio; о,ае = 13,4; совпадение хорошее. 137
Таблица 30а. Верхние доверительные границы F-распределения для Р = 0,Ю степеней свободы знаменателя X I 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 оо 1 39,86 8,53 5,54 4,54 4,06 3,78 3,59 3,46 3,36 3,29 3,23 3,18 3,14 3,10 3,07 3,05 3,03 3,01 2,99 2,97 2,96 2,95 2,94 2,93 2,92 2,91 2,90 2,89 2,89 2,88 2,84 2,79 2,75 2,71 2 49,50 9,00 5,46 4,32 3,78 3,46 3,26 3,11 3,01 2,92 2486 2,81 2,76 2,73 2,70 2,67 2,64 2,62 2,61 2,59 2,57 2,56 2,55 2,54 2,53 2,52 2,51 2,50 2,50 2,49 2,44 2,39 2,35 2,30 3 53,59 9,16 5,39 4,19 3,62 3,29 3,07 2,92 2,81 2,73 2,66 2,61 2,56 2,52 2,49 2,46 2,44 2,42 2,40 2,38 2,36 2,35 2,34 2,33 2,32 2,31 2,30 2,29 2,28 2,28 2,23 2,18 2,13 2,08 4 55,83 9,24 5,34 4,11 3,52 3,18 2,96 2,81 2,69 2,61 2,54 2,48 2,43 2,39 2,36 2,33 2,31 2,29 2,27 2,25 2,23 2,22 2,21 2,19 2,18 2 17 2,17 2,16 2,15 2,14 2,09 2,04 1,99 1,94 5 57,24 9,29 5,31 4,05 3,45 3,11 2,88 2,73 2,61 2,52 2,45 2,39 2,35 2,31 2,27 2,24 2,22 2,20 2,18 2,16 2,14 2,13 2,11 2,10 2,09 2,08 2,07 2,06 2,06 2,05 2,00 1,95 1,90 1,85 6 58,20 9,33 5,28 4,01 •3,40 3,05 2,83 2,67 2,55 2,46 2,39 2,33 2,28 2,24 2,21 2,18 2,15 2,13 2,11 2,09 2,08 2,06 2,05 2,04 2,02 2,01 2,00 2,00 1,99 1,98 1,93 1,87 1,82 1,77 7 58,91 9,35 5,27 3,98 3,37 3,01 2,78 2,62 2,51 2,41 2,34 2,28 2,23 2,19 2,16 2,14 2,10 2,08 2,06 •2,04 2,02 2,01 1,99 1,98 1,97 1,96 1,95 1,94 1,93 1,93 1 87 1,82 1,77 1,72 8 59,44 9,37 5,25 3,95 3,34 2,98 2,75 2,59 2,47 2,38 2,30 2,24 2,20 2,15 2,12 2,09 2,06 2,04 2,02 2,00 1,98 1,97 1,95 1,94 1,93 1,92 1,91 1,90 1,89 1,88 1,83 1,77 1,72 1,67 9 59,86 9,38 5,24 3,94 3,32 2,96 2,72 2,56 2,44 2,35 2,27 2,21 2,16 2,12 2,09 2,06 2,03 2,00 1,98 1,96 1,95 1,93 1,92 1,91 1,89 1,88 1,87 1,87 1,86 1,85 1,79 1,74 1,68 1,63 138
(S=90%); Vi — число степеней свободы числителя; v2 — число 10 60,19 9,39 5,23 3,92 3,30 2,94 2,70 2,54 2,42 2,32 2,25 2,19 2,14 2,10 2,06 2,03 2,00 1,98 1,96 1,94 1,92 1,90 1,89 1,88 1,87 1,86 1,85 ,84 ,83 1,82 1,76 1,71 1.65 1,60 12 60,71 9,41 5,22 3,90 3,27 2,90 2,67 2,50 2,38 2,28 2,21 2,15 2,10 2,05 2,02 1,99 1,96 1,93 1,91 1,89 1,87 1,86 1,84 1,83 1,82 1,81 1,80 1,79 1,78 1,77 1,71 1,66 1,60 1,55 15 61,22 9,42 5,20 3,87 3,24 2,87 2,63 2,46 2,34 2,24 2,17 2,10 2,05 2,01 1,97 1,94 1,91 1,89 1,86 1,84 1,83 1,81 1,80 1,78 1,77 1,76 1,75 1,74 1,73 1,72 1,66 1,60 1,55 1,49 20 61,74 9,44 5,18 3,84 3,21 2,84 2,59 2,42 2,30 2,20 2,12 2,06 2,01 1,96 1,92 1,89 1,86 ,84 ,81 ,79 ,78 1,76 ' 1,74 1,73 1,72 1,71 1,70 1,69 1,68 1,67 1,61 1,54 1,48 1,42 24 62,00 9,45 5,18 3,83 3,19 2,82 2,58 2,40 2,28 2,18 2,10 2,04 1,98 1,94 1,90 1,87 1,84 1,81 1,79 1,77 1,75 1,73 1,72 1,70 1,69 1,68 1,67 1,66 1,65 1,64 1,57 1,51 1,45 1,38 62,26 9,46 5,17 3,82 3,17 2,80 2,56 2,38 2,25 2,16 2,08 2,01 1,96 1,91 1,87 1,84 1 81 1,78 1,76 1,74 1,72 1,70 1,69 1,67 1,66 1,65 1,64 1,63 1,62 1,61 1,54 1,48 1,41 1.34 40 62,53 9,47 5,16 3,80 3,16 2,78 2,54 2,36 2,23 2,13 2,05 1,99 1,93 1,89 ] ] 1.85 1,81 1,78 1,75 1.73 ,71 ,69 1,67 ,66 ,64 1,63 1,61 1,60 1,59 1,58 1,57 1,51 1,44 1,37 1,30 60 62,79 9,47 5,15 3,79 3,14 2,76 2,51 2,34 2,21 2,11 2,03 1,96 1.90 1,86 1,82 1,78 1,75 1,72 1,70 1,68 1,66 1,64 1,62 1,61 1,59 1,58 1,57 1.56 1,55 1,54 1,47 1,40 1,32 1,24 120 63,06 9,48 5,14 3,78 3,12 2,74 2,49 2,32 2,18 2,08 2,00 1,93 1,88 1,83 1,79 1,75 1,72 1,69 1,67 1,64 1,62 1,60 1,59 1,57 1,56 1,54 1,53 1,52 1,51 1,50 1,42 1,35 1,26 1,17 оо 63,33 9,49 5,13 3,76 3,10 2,72 2,47 2,29 2,10 2,06 1,97 1,90 1,85 1,80 1,76 1,72 1,69 1,66 1,63 1,61 (,59 1,57 1,55 ,53 1,52 1,50 1.49 .48 ]47 1.46 1,38 1,29 [,19 [,00 139
Таблица 306. Верхние доверительные границы F-распределения для Р=0,05 v2 — число степеней свободы знаменателя 7 236,9 19,35 8,89 6,09 4,88 4,21 3,79 3,50 3,29 3,14 3,01 2,91 2,83 2,76 2,71 2,66 2,61 2,58 2,54 2,51 2,49 2,46 2,44 2,42 2,40 2,39 2,37 2,36 2,35 2,33 2,25 2,17 2,09 2,01 8 238,9 19,37 8,85 6,04 4,82 4,15 3,73 3,44 3,23 3,07 2,95 2,85 2,77 2,70 2,64 2,59 2,55 2,51 2,48 2,45 2,42 2,40 2,37 2,36 2,34 2,32 2,31 2,29 2,28 2,27 2,18 2,10 2,02 1,94 9 240,5 19,38 8,81 6,00 4,77 4,10 3,68 3,39 3,18 3,02 2,90 2,80 2,71 2,65 2,59 2,54 2,49 2,46 2,42 2,39 2,37 2,34 2,32 2,30 2,28 2,27 2,25 2,24 2,22 2,21 2,12 2,04 1,96 1,88 1 2 3 4 5 6 7 S 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 161,4 18,51 10,13 7,71 6,61 5,99 5,59 5,32 5,12 4,96 4,84 4,75 4,67 4,60 4,54 4,49 4,45 4,41 4,38 4,35 4,32 4,30 4,28 4,26 4,24 4,23 4,21 4,20 4,18 4,17 4,08 4,00 3,92 3,84 199,5 19,00 9,55 6,94 4,26 4,10 3,98 ,3,89 J3,81 .3,74 3,68 3,63 3,59 3,55 3,52 3,49 3,47 3,44 3,42 3,40 3,39 3,37 3,35 3,34 3,33 3,32 3,23 3,15 3,07 3,00 21Ь,7 ^19,16 9,28 6,59 5,41 4,76 4,35 4,07 3,86 3,71 3,59 3,49 3,41 3,34 3,29 3,24 3,20 3,16 3,13 3,10 3,07 3,05 3,03 3,01 2,99 2,98 2,96 2,95 2,93 2,92 2,84 2,76 2,68 2,60 224,6 19,25 9,12 6,39 5,19 4,53 4,12 3,84 3,63 3,48 3,36 3,26 3,18 3,11 3,06 3,01 2,96 2,93 2,90 2,87 2,84 2,82 2,80 2,78 2,76 2,74 2,73 2,71 2,70 2,69 2,61 2,53 2,45 2,37 230,2 19,30 9,01 6,26 5,05 4,39 3,97 3,69 3,48 3,33 3,20 3,11 3,03 2,96 2,90 2,85 2,81 2,77 2,74 2,71 2,68 2,66 2,64 2,62 2,60 2,59 2,57 2,56 2,55 2,53 2,45 2,37 2,29 2,21 234,0 19,33 8,94 6,16 4,95 4,28 3,87 3,58 3,37 3,22 3,09 3,00 2,92 2,85 2,79 2,74 2,70 2,66 2,63 2,60 2,57 2,55 2,53 2,51 2,49 2,47 2,46 2,45 2,43 2,42 2,34 2,25 2,17 2,10 140
со f- coco-* СО СО CM CD f- ^ СО СО<М СМ ^ОО О ю ^сосм ^ см" см" см" см" см* h-—• СОСМ с О О CD CD с ^ —< оо со со 00 00 Г- t- Is- Is- СО СО СО СО СО Ю СО СМ О CD Ю СО СО4** Ю СО СО CD 00 Ю Ю—• СМ 1>- CM CD 1>- rt СОСо"сМ CM 00 lOTf Ю 00 Ютр СОСМ *-ч см" см" см" см" см" SSI CM CM » О t^- ^ 1—1 СГ> О5 00 00 00 Is- О0 00 t^- Ю СМ СОЮ "*¦ СО СМ 8 00 1-- СГ> СМ "^ Ю СО н О—• 0s • COON rf CO CO CO CM см о>оо о см СО* СО СО СМ см СМ см" см* см" см" см" СО—* СО(М ОО —"-< 00 05 см см см см—. ЮСМ CD СО"^ СЛ (Л 00 00 00 CNOONlO 00 00 h- Is- t- •^f ^ со со см 1>- СОЮ -sf СО CO Is- Tf ^ CO Th" со" со" со" см" СО СО СО* 1 сою^ сосм см" см" см" см" см" О ЮО COCO CN^h-hOO см" см" см" см" см" <Л СО^ СУ5 О) О) СУ) OS 00 Г Ю f CM i-« 00 00 00 00 00 СО СМ Ю >-'^н CDN О CD 00 Ю ю—« см Soocoooo rr" со" со" со" см" О t-- Is-со —• см" см" см" см" см" г\| •—' —• —• О см" см" см" см" см" -* —• 00 СО4*1 О О CD CD О (NO00NIO CD CD 00 00 00 00 l>- СОЮ "^f IOCDN cd" *оо"ю" "* CD CM -ч Ю 00 ^ —* CD ^со"со*со"см см см см см см CD"* CDlO—< CM CM —« «-н —* CM CM CM CM CM 888SS cm" cm" cm" cm" —Г CO Ю CO —« О CD CD CD CD CD CD CD О ~ч CM 00 С— t— СОЮ 00 CD 00 Ю см~* •^ coco сосм rf1 CO CD ю^ со см см" см см" см СО 00 СО CD CO со см см-^ —• см см см см см СЧ О Is- ЮС0 -«—-ооо смечем см<м »-н CD Is- СО"* О CD CD CD CD POtiOCDN CD 00 t4- CO Ю CD CO CD "tf1 t—00 ю"ст> оо ю CM см *ф -и см «—• CO CD Ю CM О т^Ю COCO CO юс^ см со со 00 Is- СОЮ ^ CM CM CM CM CM •^ со сосм см ci См" см" СМ" СМ* O00 Ю CO—• CM «—i —< »-* i-x CM CM CM CM CM CD t>- CO^ CO о о оо о см" см" ci см" см" О CD 00 Г- СО см"—«"^Г^Г^-Г ^ tCD со" cd оо ю см > I>-O0 h- ?ю см о -* •* со со со ^н CD CDO СО CD Is- СО СО Ю см см <м см см оо см оо ^—< ^ ^ со coco <м" см" см" см" см" см см см см с>Г СОЮС0 СМ О см" см см см см" 88SSIS см*см"*-Г—. »-Г О CD СО CD ^f Is- CD rf CO ^ Ю^ t- о со со —* оо ю ю Is- с CD 00 Г*- СО С СМ СМ СМ СМ СМ Tf CDIO—< СО Ю^Ф ^f гр СО см см см" см <м юмомо COCO СОСМ СМ см см см (мечГ см см см см см СО 00 CD^ СО —« О CD CD 00 см см—.—..-н
Таблица ЗОв. Верхние доверительные границы F-распределения для Р=0,025 E=97,5%); Vi — число степеней свободы числителя; V2 ~ число степеней свободы знаменателя \. VI V2 ^""\ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 оо 1 647,8 38,51 17,44 12,22 10,01 8,81 8,07 7,57 7,21 6,94 6,72 6,55 6,41 6,30 6,20 6,12 6,04 5,98 5,92 5,87 5,83 5,79 5,75 5,72 5,69 5,66 5,63 5,61 5,59 5,57 5,42 5,29 5,15 5,02 2 799,5 39,00 16,04 10,65 8,43 7,26 6,54 6,06 5,71 5,46 5,26 5,10 4,97 4,86 4,77 4,69 4,62 4,56 4,51 4,46 4,42 4,38 4,35 4,32 4,29 4,27 4,24 4,22 4,20 4,18 4,05 3,93 3,80 3,69 3 864,2 39,17 15,44 9,98 7,76 6,60 5,89 5,42 5,08 4,83 4,63 4,47 4,35 4,24 4,15 4,08 4,01 3,95 3,90 3,86 3,82 3,78 3,75 3,72 3,69 3,67 3,65 3,63 3,61 3,59 3,46 3,34 3,23 3,12 4 899,6 39,25 15.10 9|6О 7,39 6,23 5,52 5,05 4,72 4,47 4,28 4,12 4,00 3,89 3,80 3,73 3,66 3,61 3,56 3,51 3,48 3,44 3,41 3,38 3,35 3,33 3,31 3,29 3,27 3,25 3,13 3,01 2,89 2,79 5 921,8 39,30 14,88 9,36 7,15 5,99 5,29 4,82 4,48 4,24 4,04 3,89 3,77 3,66 3,58 3,50 3,44 3,38 3,33 3,29 3,25 3,22 3,18 3,15 3,13 3,10 3,08 3,06 3,04 3,03 2,90 2,79 2,67 2,57 6 937,1 39,33 14,73 9,20 6,98 5,82 5,12 4,65 4,32 4,07 3,88 3,73 3,60 3,50 3,41 3,34 3,28 3,22 3,17 3,13 3,09 3,05 3,02 2,99 2,97 2,94 2,92 2,90 2,88 2,87 2,74 2,63 2,52 2,41 7 948,2 39,36 14,62 9,07 6,85 5,70 4,99 4,53 4,20 3,95 3,76 3,61 3,48 3,38 3,29 3,22 3,16 3,10 3,05 3,01 2,97 2,93 2,90 2,87 2,85 2,82 2,80 2,78 2,76 2,75 2,62 2,51 2,39 2,29 8 956,7 39,37 14,54 8,98 6,76 5,60 4,90 4,43 4,10 3,85 3,66 3,51 3,39 3,29 3,20 3,12 3,06 3,01 2,96 2,91 2,87 2,84 2,81 2,78 2,75 2,73 2,71 2,69 2,67 2,65 2,53 2,41 2,30 2,19 9 963,3 39,39 14,47 8,90 6,68 5,52 4,82 4,36 4,03 3,78 3,59 3,44 3,31 3,21 3,12 3,05 2,98 2,93 2,88 2,84 2,80 2,76 2,73 2,70 2,68 2,65 2,63 2,61 2,59 2,57 2,45 2,33 2,22 2,П 10 968,6 39,40 14,42 8,84 6,62 5,46 4,76 4,30 3,96 3,72 3,53 3,37 3,25 3,15 3,06 2,99 2,92 _2,87 2,82 2,77 2,73 2,70 2,67 2,64 2,61 2,59 2,57 2,55 2,53 2,51 2,39 2,27 2,16 2,05 По [Hald, 1952] (см. [Cochran, 1940]) для vx и va больше 30 справедлива следующая аппроксимация: = - 0,290^; , v2; 0,4555 1,1131 V A —0,77 ==--0,527 142
Таблица ЗОв (продолжение) V4\V1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 со 12 976,7 39,41 14,34 8,75 6,52 5,37 4,67 4,20 3,87 3,62 3,43 3,28 3,15 3,05 2,96 2,89 2,82 2,77 2,72 2,68 2,64 2,60 2,57 2,54 2,51 2,49 2,47 2,45 2,43 2,41 2,29 2,17 2,05 1,94 15 984,9 39,43 14,25 8,66 6,43 5,27 4,57 4,10 3,77 3,52 3,33 3,18 3,05 2,95 2,86 2,79 2,72 2,67 2,62 2,57 2,53 2,50 2,47 2,44 2,41 2,39 2,36 2,34 2,32 2,31 2,18 2,06 1,94 1,83 20 993,1 39,45 14,17 8,56 6,33 5,17 4,47 4,00 3,67 3,42 3,23 3,07 2,95 2,84 2,76 2,68 2,62 2,56 2,51 2,46 2,42 2,39 2,36 2,33 2,30 2,28 2,25 2,23 2,21 2,20 2,07 1,94 1,82 1,71 24 997,2 39,46 14,12 8,51 6,28 5,12 4,42 3,95 3,61 3,37 3,17 3,02 2,89 2,79 2,70 2,63 2,56 2,50 2,45 2,41 2,37 2,33 2,30 2,27 2,24 2,22 2,19 2,17 2,15 2,14 2,01 1,88 1,76 1,64 30 1001 39,46 14,08 8,46 6,23 5,07 4,36 3,89 3,56 3,31 3,12 2,96 2,84 2,73 2,64 2,57 2,50 2,44 2,39 2,35 2,31 2,27 2,24 2,21 2,18 2,16 2,13 2,11 2,09 2,07 1,94 1,82 1,69 1,57 40 1006 39,47 14,04 8,41 6,18 5,01 4,31 3,84 3,51 3,26 3,06 2,91 2,78 2,67 2,59 2,51 2,44 2,38 2,33 2,29 2,25 2,21 2,18 2,15 2,12 2,09 2,07 2,05 2,03 2,01 1,88 1,74 1,61 1,48 60 1010 39,48 13,99 8,36 6,12 4,96 4,25 3,78 3,45 3,20 3,00 2,85 2,72 2,61 2,52 2,45 2,38 2,32 2,27 2,22 2,18 2,14 2,11 2,08 2,05 2,03 2,00 1,98 1,96 1,94 1,80 1,67 1,53 1,39 120 1014 39,49 13,95 8,31 6,07 4,90 4,20 3,73 3,39 3,14 2,94 2,79 2,66 2,55 2,46 2,38 2,32 2,26 2,20 2,16 2,11 2,08 2,04 2,01 1,98 1,95 1,93 1,91 1,89 1,87 1,72 1,58 1,43 1,27 оо 1018 39,50 13,90 8,26 6,02 4,85 4,14 3,67 3,33 3,08 2,88 2*,72 2,60 2,49 2,40 2,32 2,25 2,19 2,13 2,09 2,04 2.00 1,97 1,94 [,91 1,88 1,85 1,83 1,81 ,79 ,64 ,48 ,31 ,00 2,0206 2,6841 igf0>0005 = -±Щ°_ 1>857 g. Пример. Fm. т. „05; g= 1/200— 1/100=.— 0,005; А = 2/A/200+1/100) = == 133,333; igF200. ш. 005; = у 133,33—0 95 ~ 0'681(-°'005> - °'12755: ^200; ЮО; 0,05 (точное значение). 143
Таблица 30г. Верхние доверительные границы ^-распределения для Я=0,01 (S=99%); vi — число степеней свободы числителя; V2 —число степеней свободы знаменателя 1 4052* 98,50 34,12 21,20 16,26 13,75 12,25 11,26 10,56 10,04 9,65 9,33 9,07 8,86 8,68 8,53 8,40 8,29 8,18 8,10 8,02 7,95 7,88 7,82 7,77 7,72 7,68 7,64 7,60 7,56 7,31 7,08 6,85 6,63 2 4999,5 99,00 30,82 18,00 13,27 10,92 9,55 8,65 8,02 7,56 7,21 6,93 6,70 6,51 6,36 6,23 6,11 6,01 5,93 5,85 5,78 5,72 5,66 5,61 5,57 5,53 5,49 5,45 5,42 5,39 5,18 4,98 4,79 4,61 3 5403 99,17 29,46 16,69 12,06 9,78 8,45 7,59 6,99 6,55 6,22 5,95 5,74 5,56 5,42 5,29 5,18 5,09 5,01 4,94 4,87 4,82 4,76 4,72 4,68 4,64 4,60 4,57 4,54 4,51 4,31 4,13 3,95 3,78 А 5625 99 28 15 И 9 7 7 6 5 5 5 5 5 4 4 4 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 3, з, 3, 3, ,25 ,71 ,98 ,39 ,15 ,85 ,01 ,42 99 67 41 21 04 89 77 67 58 50 43 37 31 26 22 18 14 11 07 04 02 83 65 48 32 р 5764 99 28 15 10 8 7 6 6 5 5 5 4 4 4 4, 4 4, 4, 4, 4, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, ,30 ,24 ,52 ,97 ,75 ,46 ,63 ,06 64 32 06 86 69 56 44 34 25 17 10 04 99 94 90 85 82 78 75 73 70 51 34 17 02 10 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 5859 99,33 27,91 15,21 10,67 8,47 7,19 6,37 5,80 5,39 5,07 4,82 4,62 4,46 4,32 4,20 4,10 4,01 3,94 3,87 3,81 3,76 3,71 3,67 3,63 3,59 3,56 3,53 3,50 3,47 3,29 3,12 2,96 2,80 5928 99,36 27,67 14,98 10,46 8,26 6,99 6,18 5,61 5,20 4,89 4,64 4,44 4,28 4,14 4,03 3,93 3,84 3,77 3,70 3,64 3,59 3,54 3,50 3,46 3,42 3,39 3,36 3,33 3,30 3,12 2,95 2,79 2,64 5982 99,37 27,49 14,80 10,29 8,10 6,84 6,03 5,47 5,06 4,74 4,50 4,30 4,14 4,00 3,89 3,79 3,71 3,63 3,56 3,51 3,45 3,41 3,36 3,32 3,29 3,26 3,23 3,20 3,17 2,99 2,82 2,66 2,51 6022 99,39 27,35 14,66 10,16 7,98 6,72 5,91 5,35 4,94 4,63 4,39 4,19 4,03 3,89 3,78 3,68 3,60 3,52 3,46 3,40 3,35 3,30 3,26 3,22 3,18 3,15 3,12 3,09 3,07 2,89 2,72 2,56 2,41 6056 99,40 27,23 14,55 10,05 7,87 6,62 5,81 5,26 4,85 4,54 4,30 4,10 3,94 3,80 3,69 3,59 3,51 3,43 3,37 3,31 3,26 3,21 3,17 3,13 3,09 3,06 3,03 3,00 2,98 2,80 2,63 2,47 2,32 144
Таблица ^Ог (продолжение) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 оо 12 6106 99,42 27,05 14,37 9,89 7,72 6,47 5,67 5,11 4,71 4,40 4,16 3,96 3,80 3,67 3,55 3,46 3,37 3,30 3,23 3,17 3,12 3,07 3,03 2,99 2,96 2,93 2,90 2,87 2,84 2,66 2,50 2,34 2,18 15 6157 99,43 26,87 14,20 9,72 7,56 6,31 5,52 4,96 4,56 4,25 4,01 3,82 3,66 3,52 3,41 3,31 3,23 3,15 3,09 3,03 2,98 2,93 2,89 2,85 2,81 2,78 2,75 2,73 2,70 2,52 2,35 2,19 2,04 20 6209 99,45 26,69 14,02 9,55 7,40 6,16 5,36 4,81 4,41 4,10 3,86 3,66 3,51 3,37 3,26 3,16 3,08 3,00 2,94 2,88 2,83 2,78 2,74 2,70 2,66 2,63 2,60 2,57 2,55 2,37 2,20 2,03 1,88 24 6235 99,46 26,60 13,93 9,47 7,31 6,07 5,28 4,73 4,33 4,02 3,78 3,59 3,43 3,29 3,18 3,08 3,00 2,92 2,86 2,80 2,75 2,70 2,66 2,62 2,58 2,55 2,52 2,49 2,47 2,29 2,12 1,95 1,79 30 6261 99,47 26,50 13,84 9,38 7,23 5,99 5,20 4,65 4,25 3,94 3,70 3,51 3,35 3,21 3,10 3,00 2,92 2,84 2,78 2,72 2,67 2,62 2,58 2,54 2,50 2,47 2,44 2,41 2,39 2,20 2,03 1,86 1,70 40 6287 99,47 26,41 13,75 9,29 7,14 5,91 5,12 4,57 4,17 3,86 3,62 3,43 3,27 3,15 3,02 2,92 2,84 2,76 2,69 2,64 2,58 2,54 2,49 2,45 2,42 2,38 2,35 2,33 2,30 2,11 1,94 1,76 1,59 60 6313 99,48 26,32 13,65 9,20 7,06 5,82 5,03 4,48 4,08 3,78 3,54 3,34 3,18 3,05 2,93 2,83 ?,75 2,67 2,61 2,55 2,50 2,45 2,40 2,36 2,33 2,29 2,26 2,23 2,21 2,02 1,84 1,66 1,47 120 6339 99,49 26,22 13,56 9,11 6,97 5,74 4,95 4,40 4,00 3,69 3,45 3,25 3,09 2,96 2,84 2,75 2,66 2,58 2,52 2,46 2,40 2,35 2,31 2,27 2,23 2,20 2,17 2,14 2,11 1,92 1,73 1,53 1,32 оо 6366 99,50 26,13 13,46 9,02 6,88 5,65 4,86 4,31 3,91 3,60 3,36 3,17 3.00 2,87 2,75 2,65 2,57 2,49 2,42 2,36 2,31 2,26 2,21 2,17 2,13 2,10 2,06 2,03 2,01 1,80 1,60 1,38 1,00 145
Таблица ЗОд. Верхние доверительные границы /^распределения для Р=0,005 (S==99,5%); vi ~~ число степеней свободы числителя; V2 — число степеней свободы знаменателя 02 \ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ОО 1 16211 198 55 31 22 18 16 14 13 12 12 11 И 11 10 10 10 10 10 9 9 9 9, 9, 9, 9, 9, 9, 9, 9, 8, 8, 8, 7, ,5 , ЬЬ ,33 ,78 ,63 ,24 ,69 ,61 ,83 ,23 ,75 ,37 ,06 ,80 ,58 ,38 22 07 94 83 73 63 55 48 41 34 28 23 18 83 49 18 88 2 20000 199 49 26 18 14 12 11 10 9 8 8 8 7 7 7 7 7 7 6 6 6 6, 6, 6, 6, 6, 6, 6, 6, 6, 5, 5, 5, ,0 ,80 ,28 ,31 ,54 ,40 ,04 ,П ,43 ,91 ,51 ,19 ,92 ,70 ,51 ,35 ,21 09 99 89 81 73 66 60 54 49 44 40 35 07 79 54 30 3 21615 199 47 24 16 12 10 9 8 8 7 7 6 6 6 6 6 6 5 5 5 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 4, 4, ,2 ,47 ,26 ,53 ,92 ,88 ,60 ,72 ,08 ,60 ,23 ,93 ,68 ,48 30 16 03 92 82 73 65 58 52 46 41 36 32 28 24 98 73 50 28 4 22500 199 46 23 15 12 10 8 7 7 6 6 6 6 5 5 5 5 5 5 5 5, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, з, з, ,2 ,19 ,15 ,56 ,03 ,05 ,81 ,96 ,34 ,88 ,52 ,23 ,00 ,80 ,64 50 37 27 17 09 02 95 89 84 79 74 70 66 62 37 14 92 72 5 23056 199 45 22 14 11 9 8 7 6 6 6 5 5 5 5 5 4 4 4 4 4, 4, 4, 4, 4, 4, 4, 4, 4, 3, 3, 3, 3, ,3 ,39 ,46 ,94 ,46 ,52 ,30 ,47 ,87 ,42 ,07 ,79 ,56 ,37 ,21 07 96 85 76 68 61 54 49 43 38 34 30 26 23 99 76 55 35 6 23437 199 44 21 14 11 9 7 7 6 6 5 5 5 5 4 4 4 4 4 4 4, 4, 4, 4, 4, 4, 4, 3, 3, з, з, з, з, ,4 ,84 ,97 ,51 ,07 ,16 ,95 ,13 ,54 ,10 ,76 ,48 ,26 ,07 ,91 ,78 66 56 47 39 32 26 20 15 10 06 02 98 95 71 49 28 09 7 23715 199 44 21 14 10 8 7 6 6 5 5 5 5 4 4 4 4 4 4 4, 4, 4, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 2, ,4 ,43 ,62 ,20 ,79 ,39 ,69 ,88 ,30 ,86 ,52 ,25 ,03 ,85 ,69 56 44 34 26 18 11 05 99 94 89 85 81 77 74 51 29 09 90 8 23925 199 44 21 13 10 8 7 6 6 5 5 5 4 4 4 4 4 4 4 4, 3, 3, 3, з, 3, 3, з, 3, 3, з, з, 2, 2, ,4 ,13 ,35 ,96 ,57 ,68 ,50 ,69 ,12 ,68 ,35 ,03 ,86 67 52 39 28 18 09 01 94 88 83 78 73 69 65 61 58 35 13 93 74 9 24091 199 43 21 13 10 8 7 6 5 5 5 4 4 4 4 4 4 4 3 з з, 3, з, 3, 3, 3, з, з, з, 3, з, 2, 2, ,4 t88 ,14 ,77 ,39 ,51 ,34 ,54 ,97 ,54 ,20 ,94 ,72 ,54 ,38 ,25 ,14 04 96 88 81 75 69 64 60 56 52 48 45 22 01 81 62 1 0 24224 199 43 20 13 10 8 7 6 5 5 5 4 4 4 4 4 4 3 3 з, 3, 3, 3, 3, 3, з, з, з, з, з, 2, 2, 2, ,4 ,69 ,97 ,62 ,25 ,38 ,21 ,42 ,85 ,42 ,09 ,82 ,60 ,42 ,27 ,14 03 93 85 77 70 64 59 54 49 45 41 38 34 12 90 71 52 146
Табл «2 \ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 оо и ц а Збд (продолжение) 12 24426 199,4 43,39 20,70 13,38 10,03 8,18 7,01 6,23 5,66 5,24 4,91 4,64 4,43 4,25 4,10 3,97 3,86 3,76 3,68 3,60 3,54 3,47 3,42 3,37 3,33 3,28 3,25 3,21 3,18 2,95 2,74 2,54 2,36 15 25630 199,4 43,08 20,44 13,15 9,81 7,97 6,81 6,03 5,47 5,05 4,72 4,46 4,25 4,07 3,92 3,79 3,68 3,59 3,50 3,43 3,36 3,30 3,25 3,20 3,15 з,п 3,07 3,04 3,01 2,78 2,57 2,37 2,19 20 24836 199,4 42,78 20,17 12,90 9,59 7,75 6,61 5,83 5,27 4,86 4,53 4,27 4,06 3,88 3,73 3,61 3,50 3,40 3,32 3,24 3,18 3,12 3,06 3,01 2,97 2,93 2,89 2,86 2,82 2,60 2,39 2,19 2,00 24 24940 199,5 42,62 20,03 12,78 9,47 7,65 6,50 5,73 5,17 4,76 4,43 4,17 3,96 3,79 3,64 3,51 3,40 3,31 3,22 3,15 3,08 3,02 2,97 2,92 2,87 2,83 2,79 2,76 2,73 2,50 2,29 2,09 1,90 30 25044 199,5 42,47 19,89 12,66 9,36 7,53 6,40 5,62 5,07 4,65 4,33 4,07 3,86 3,69 3,54 3,41 3,30 3,21 3,12 3,05 2,98 2,92 2,87 2,82 2,77 2,73 2,69 2,66 2,63 2,40 2,19 1,98 1,79 40 25148 199,5 42,31 19,75 12,53 9,24 7,42 6,29 5,52 4,97 4,55 4,23 3,97 3,76 3,58 3,44 3,31 3,20 3,11 3,02 2,95 2,88 2,82 2,77 2,72 2,67 2,63 2,59 2,50 2,52 2,30 2,08 1,87 1,67 60 25253 199,5 42,15 19,61 12,40 9,12 7,31 6,18 5,41 4,86 4,44 4,12 3,87 3,66 3,48 3,33 3,21 3,10 3,00 2,92 2,84 2,77 2,71 2,66 2,61 2,56 2,52 2,48 2,45 2,42 2,18 1,96 1,75 1,53 120 25359 199,5 41,99 19,47 12,27 9,00 7,19 6,06 5,30 4,75 4,34 4,01 3,76 3,55 3,37 3,22 3,10 2,99 2,89 2,81 2,73 2,66 2,60 2,55 2,50 2,45 2,41 2,37 2,33 2,30 2,06 1,83 1,61 1,36 оо 25465 199,5 41,83 19,32 12,14 8,88 7,08 5,95 5,19 4,64 4,23 3,90 3,65 3,44 3,26 3,11 2,98 2,87 2,78 2,69 2,61 2,55 2,48 2,43 2,38 2,33 2,29 2,25 2,21 2,18 1,93 1,69 1,43 1,00 147
Таблица ЗОе. Верхние доверительные границы F-распределения для Р=0,001 V2 — число степеней свободы знаменателя XI 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 оо 1 4053+ 998,5 167,0 74,14 47,18 35,51 29,25 25,42 22,86 21,04 19,69 18,64 17,81 17,14 16,59 16,12 15,72 15,38 15,08 14,82 14,59 14.38 14,19 14,03 13,88 13,74 13,61 13,50 13,39 13,29 12,61 11,97 11,38 10,83 2 5000+ 999,0 148,5 61,25 37,12 27,00 21,69 18,49 16,39 14,91 13,81 12,97 12,31 11,78 11,34 10,97 10,66 10,39 10,16 9,95 9,77 9,61 9,47 9,34 9,22 9,12 9,02 8,93 8,85 8,77 8,25 7,76 7,32 6,91 3 5404+ 999,2 141,1 56,18 33,20 23,79 18,77 15,83 13,90 12,55 11,56 10,80 10,21 9,73 9,34 9,00 8,73 8,49 8,28 8,10 7,94 7,80 7,67 7,55 7,45 7,36 7,27 7,19 7,12 7,05 6,60 6,17 5,79 5,42 4 5625+ 999,2 137,1 53,44 31,09 21,92 17,19 14,39 12,56 11,28 10,35 9,63 9,07 8,62 8,25 7,94 7,68 7,46 7,26 7,10 6,95 6,81 6,69 6,59 6,49 6,41 6,33 6,25 6,19 6,12 5,70 5,31 4,95 4,62 5 5764+ 999,3 134,6 51,71 29,75 20,81 16,21 13,49 11,71 10,48 9,58 8,89 8,35 7,92 7,57 7,27 7,02 6,81 6,62 6,46 6„ 32 6,19 6,08 5,98 5,88 5,80 5,73 5,66 5,59 5,53 5,13 4,76 4,42 4,10 6 5859+ 999,3 132,8 50,53 28,84 20,03 15,52 12,86 11,13 9,92 9,05 8,38 7,86 7,43 7,09 6,81 6,56 6,35 6,18 6,02 5,88 5,76 5,65 5,55 5,46 5,38 5,31 5,25 5,18 5,12 4,73 4,37 4,04 3,74 7 5929+ 999,4 131,6 49,66 28,16 19,46 15,02 12,40 10,70 9,52 8,66 8,00 7,49 7,08 6,74 6,46 6,22 6,02 5,85 5,69 5,56 5,44 5,33 5,23 5,15 5,07 5,00 4,93 4,87 4,82 4,44 4,09 3,77 3,47 8 5981+ 999,4 130,6 49,00 27,64 19,03 14,63 12,04 10,37 9,20 8,35 7,71 7,21 6,80 6,47 6,19 5,96 5,76 5,59 5,44 5,31 5,19 5,09 4,99 4,91 4,83 4,76 4,69 4,64 4,58 4,21 3,87 3,55 3,27 9 6023+ 999,4 129,9 48,47 27,24 18,69 14,33 11,77 10,11 8,96 8,12 7,48 6,98 6,58 6,26 5,98 5,75 5,56 5,39 5,24 5,11 4,99 4,89 4,80 4,71 4,64 4,57 4,50 4,45 4,39 4,02 3,69 3,38 3,10 + Эти значения следует умножить на 100. Источник: Biometrika Tables for Statisticians. Vol. 1, edited by Pearson E. S, Fisher R. A. and Yates F. Statistical Tables for Biological, Agricultural and 148
E=99,9%); vi — число степеней свободы числителя; 10 6056+ 999,4 129,2 48,05 26,92 18,41 14,08 11,54 9,89 8,75 7,92 7,29 6,80 6,40 6,08 5,81 5,58 5,39 5,22 5,08 4,95 4,83 4,73 4,64 4,56 4,48 4,41 4,35 4,29 4,24 3,87 3,54 3,24 2,96 12 6107+ 999,4 128,3 47,41 26,42 17,99 13,71 11,19 9,57 8,45 7,63 7,00 6,52 6,13 5,81 5,55 5,32 5,13 4,97 4,82 4,70 4,58 4,48 4,39 4,31 4,24 4,17 4,11 4,05 4,00 3,64 3,31 3,02 2,74 15 6158+ 999,4 127,4 46,76 25,91 17,56 13,32 10,84 9,24 8,13 7,32 6,71 6,23 5,85 5,54 5,27 5,05 4,87 4,70 4,56 4,44 4,33 4,23 4,14 4,06 3,99 3,92 3,86 3,80 3,75 3,40 3,08 2,78 2,51 20 6209+ 999,4 126,4 46,10 25,39 17,12 12,93 10,48 8,90 7,80 7,01 6,40 5,93 5,56 5,25 4,99 4,78 4,59 4,43 4,29 4,17 4,06 3,96 3,87 3,79 3,72 3,66 3,60 3,54 3,49 3,15 2,83 2,53 2,27 24 6235+ 999,5 125,9 45,77 25,14 16,89 12,73 10,30 8,72 7,64 6,85 6,25 5,78 5,41 5,10 4,85 4,63 4,45 4,29 4,15 4,03 3,92 3,82 3,74 3,66 3,59 3,52 3,46 3,41 3,36 3,01 2,69 2,40 2,13 30 6261 + 999,5 125,4 45,43 24,87 16,67 12,53 10,11 8,55 7,47 6,68 6,09 5,63 5,25 4,95 4,70 4,48 4,30 4,14 4,00 3,88 3,78 3,68 3,59 3,52 3,44 3,38 3,32 3,27 3,22 2,87 2,55 2,26 1,99 40 6287+ 999,5 125,0 45,09 24,60 16,44 12,33 9,92 8,37 7,30 6,52 5,93 5,47 5,10 4,80 4,54 4,33 4,15 3,99 3,86 3,74 3,63 3,53 3,45 3,37 3,30 3,23 3,18 3,12 3,07 2,73 2,41 2,11 1,84 60 6313+ 999,5 124,5 44,75 24,33 16,21 12,12 9,73 8,19 7,12 6,35 5,76 5,30 4,94 4,64 4,39 4,18 4,00 3,84 3,70 3,58 3,48 3,38 3,29 3,22 3,15 3,08 3,02 2,97 2,92 2,57 2,25 1,95 1,66 120 6340+ 999,5 124,0 44,40 24,06 15,99 11,91 9,53 8,00 6,94 6,17 5,59 5,14 4,77 4,47 4,23 4,02 3,84 3,68 3,54 3,42 3,32 3,22 3,14 3,06 2,99 2,92 2,86 2,81 2,76 2,41 2,08 1,76 1,45 оо 6366+ 999,5 123,5 44,09 23,79 15,75 11,70 9,33 7,81 6,76 6,00 5,42 4,97 4,60 4,31 4,06 3,85 3,67 3,51 3,38 3,26 3,15 3,05 2,97 2,89 2,82 2,75 2,69 2,64 2,59 2,23 1,89 1,54 1,00 and H. О. Hartley. Cambridge Unirversity Press, Cambridge, 1958,- Table 18; Medical Research. Oliver and Boyd Ltd., Edinburgh, 1963, Table V. 149
1.5.3. ^РАСПРЕДЕЛЕНИЕ Пусть sf и si — дисперсии независимых случайных выборок объема пг и п% из двух нормально распределенных генеральных совокупностей с равными дисперсиями; тогда случайная переменная ^=4- w>si) о-134) подчиняется F-распределению с параметрами v1 — n1 — 1 и v2 = = п2 — 1. ^-распределение — также непрерывное, асимметричное распределение с областью изменения от нуля до бесконечности (см. рис. 27). Вид F-распределения зависит, как уже было упомянуто, от двух степеней свободы vx и v2. Таблицы с доверительными границами ^-распределения для одностороннего критерия представлены на с. 138—149. Промежуточные значения определяются с помощью гармонической интерполяции. Определение F: ^ x$t/v Рис. 27. Плотность вероятности F-pac- пределения: F (vi = l; v2=5) и F (vi= 10; va-10). Если, например, нужно отыскать 1%-ные границы для vt — 24 и v2 = 60, то по таблицам находят границы для 20, 60 и 30, 60, соответственно равные 2,20 и 2,03. Обозначая искомое значение через х% получаем 2,20-* 1/20 — 1/24 2,20—2,03 1/20-1/30 * A.135) откуда х = 2,115. Точное табличное значение равно 2,12. Значение F, как отношение двух квадратов, может изменяться отО до оо и подобно ^-распределению имеет только правую координатную сетку. Вместо зеркальной симметричной кривой, как у ^-распределе- ния, тут имеет место «обратная симметрия». Здесь может рассматриваться связь F и VF и vx и v2 (как +t и — t при ^-распределении): F^"'-l-a)=n^y (U36) 150
По этому соотношению легко вычислить, например, значение FOf95 при известном значении F005. Пример Дано: vt = 12; v2 = 8; а = 0,05, т. е. F = 3,28. Найти Т7 для: vx = 12; v2 = 8, а = 0,95. Определяем для \\ = 8, v2 = 12 и а = 0,05, т. е. значение F = s= 2,85, откуда искомое значение равно 1/2,85 = 0,351. Для больших чисел степеней свободы справедлива аппроксимация lgF = 0,4343 -z.i/2(Vl+V8), A.137) J/ vi-va где г — стандартная нормально распределенная величина для выбранной вероятности ошибки при одностороннем доверительном интервале (см. табл. 43, с. 204). Так, например, определим F A20; 120; 0,05) lgF = 0,4343-1,64 УЩ1+Ш- ^0,13004, F=l,35 (табл. 306). Интерполирование промежуточных значений В случае, когда ни vqHCJIHT (vx или v4), ни v3HaMeilaT (v2 или v3II) не содержатся в таблицах, следует воспользоваться соседними табличными значениями и аппроксимацией по [Laubscher, 19653: v3H) = (l-A).(l-B)-F(vi vZH) + A-(l-B).F(v'H, vH) + + (l-A)-B.F(v'49 v;H) + A-B-F(vl v'sH) A.138) V3H\V3H и В Пример Рассчитать F B8, 44, 0,01). Дано: F B0, 40; 0,01) = 2,37; F B0, 50; 0,01) = 2,27; F C0,40; 0,01) - 2,20; FC0, 50; 0,01) = 2,10. Вычисляем л_ 50D4--40) = 5 u B== 30B8 — 20) = 6 ~~ 44E0 — 40) ~ 11 ~~ 28C0 — 20) ~" 7 ' откуда .F B8,44; 0,01) = ± . ± . 2,37 + ±-. -L. 2,27 + + 1 y*2,20 +A.-5-.2,10 = 2,178^2,18. Если таблица содержит vr, но не содержит v3H, то интерполируют по формуле F (v,, v3H) = A-А) - F,(v,, v3'H) + A'F (v,f vi), A.139) 151
в противоположном случае, когда v4 — нет, v3H — есть в таблице, справедливо выражение F (v«, v3H) = A-5) • F (v,', v3H) + В • F К, v3K). A.140) Интерполирование вероятностей Мы привели таблицы доверительных границ для 0,1, 0,5, 1,0, 2,5, 5 и 10%-ного уровня значимости. Если необходимо интерполировать значение уровня /^критерия для v± и v2 степеней свободы между границами 0,1 и 10%,то используется следующий способ, предложенный в [Zinger, 1964]. 1. Эмпирически определенное значение F расположить таким образом между двумя табличными значениями (Fly F2) с вероятностями ошибок а и а • /п, что Ft<i F < F2. 2. Определить отношение k = F*~F . A.141) 3. Интерполированная вероятность тогда равна Р = а • mk A.142) Пример Дано: F = 3,43; vx = 12; v2 = 12. - Подобрать вероятность того, что это значение F будет превышено. 1. Наблюдаемое F-значение лежит между границами 1 и 2,5% (т. е. а = 0,01; т = 2,5): Fx - 3,28 < F = 3,43 < F2 = 4,16. 2. Отношение /С = ^'^б-з'гв = 0>8295' 3. Аппроксимирующую вероятность получаем тогда (логарифмированием!) по формуле Р = 0,01 • 2,50'8295 = 0,0214. Точное значение 0,0212. Если необходимо определить значимость произвольного эмпирического F-критерия, в особенности для значений с Р>0,10, то следует воспользоваться аппроксимацией, предложенной [Paulson, 1942], которая справедлива для числа степеней свободы, не меньшего трех: z=-± v j*^ AЛ43) 9v2 9v! причем значимая вероятность определяется как площадь, соответствующая г-границам на обоих концах нормального распределения. Кубический корень из F и F2 определяют с помощью логарифмов. Пример Дано F = 1,50 при v± = 6 и v2 = 14. Определить вероятность ошибки, соответствующую этому значению F: 152
г = JL 9-14 ' T9-6 Для одностороннего доверительного интервала получаем вероятность ошибки около Р = 0,20. Точное значение Р = 0,25. Чем больше* число степеней свободы, тем лучше аппроксимация. В диапазоне 0,01 < Р < 0,99 для среднего числа степеней свободы точность ее вполне удовлетворительна. Простое и наглядное соотношение между F'-распределением, двумя другими распределениями выборочных статистик и нормальным распределением F-распределение переходит при Vj = 1 и v2 = v в распределение для t2; A.144) vx = 1 и v2 = оо в распределение для z2; A.145) Vj = v и v2 = оо в распределение для %2/v. A.146) Например, имеем для /чо; ю; o,os = 2,98: Fu ю; 0,05 =4,96, /105 0,05 = 2,228, т. е. /f05 o,os=4,96; Гц оо; cos = 3,84, г0,05= 1,960, т. е. z20,05 = 3,84; Логов; 0,05 = 1,83, xfo; 0.05/10= 18,307/10= 1,83. Одновременно распределение Стьюдента, стандартное нормальное распределение и ^-распределение допускают обратный переход в F-распределению и его предельным случаям v = В заключение следует отметить, что ^oojoo = 1. 1.6. ДИСКРЕТНЫЕ РАСПРЕДЕЛЕНИЯ О 1.6.1. БИНОМИАЛЬНЫЙ КОЭФФИЦИЕНТ Число комбинаций из п элементов по х (по х одновременно) обозна- чаютп Сх или I ) (читай вначале п> потом х). Расчет числа таких комбинаций производится по формуле пСх=( п )= 2! . A.147) 153
При этом п ! (п факториал) означает: произведение натуральных чисел от 1 до п, или п ! = п • (/г— 1)-(/г—2) *... * 1; например, 5! = = 5. • 4 • 3 • 2 • 1 = 120. Число комбинаций из 5 элементов по 3 составляет п 5! 54-3.2-1 1Л 5 3 3E3)! 32121 3.E-3)! 3-2-1.2.1 [ИШ[х)~~~ 1-2-3. ... -х f \Т/ Г<Гз~~ ' ~~~ ' для х>п справедливо / ) =0, для х<?п справедливо ( п J = V п-х ) (л—*)!*!_!' Другие примеры. Сколькими способами можно составить комитет из 5 членов, когда в распоряжении есть группа из 9 человек? С 9! _ 91 _.9-8.7-6-5_126 9 5~~ 5!-(9—5)! "' 51-4! 5! ~~ Сколько шансов выиграть в лото, когда необходимо выбрать 6 цифр из 49? Число комбинаций из 49 элементов по 6 составляет / 49 \ 49! ^ . , — ] = =1 14 МЛН. \ 6 ) 6!- 43! Вспомним, что 0! = 1 по определению; тогда 71 ° \ 0 ) ~~ 0! • (л —0)! "~ 0!-л! Кроме того, естественно, ( 1=1. Другие способы записи для пСх — это Сп или Cllt х. Треугольник Паскаля (п\ Биномиальные коэффициенты можно находить из приведение)- \Х/ го ниже треугольника Паскаля A623—1662). Если сложить два соседних числа треугольника, то получим число, стоящее ниже в промежутке между ними. Правило треугольника Паскаля гласит: f п) + ( п ) = (n+l) AЛ48) I 2 J ~ + ~ ~\2 154
Биномиальные коэффициенты для (о) (?) B) Г)C) (о) (? 33 * Л== з и т. д. Особенность треугольника состоит в том, что он непосредственно дает вероятности различных случаев при бросании монеты. Например, сумма чисел в четвертой строке равна 1+3 + 3+1=8. Если мы образуем дроби 1/8, 3/8, 3/8, 1/8, то получим вероятности различных событий, возможных при трехкратном бросании монеты, т. е. три герба A/8), два герба и решка C/8), герб и две решки C/8) и три решки A/8). Соответственно значения в пятой (я-й) строке дают нам вероятности при четырехкратном (п—1:кратном) бросании монеты. Треугольник Паскаля служит также для определения вероятностей комбинаций: вероятность определенной комбинации мальчики — девочки в^семье, скажем, с четырьмя детьми. Вначале суммируются числа соответствующего ряда; дано п = 4 и сумма равна 16. На концах ряда стоят наименее вероятные комбинации — или все мальчики, или все девочки — с вероятностью 1/16. Передвигаясь к середине, получим более вероятные комбинации — три мальчика и одна девочка или наоборот — с вероятностью 4/16. Среднее число 6 соответствует двум мальчикам и двум девочкам: вероятность этого равна 6/16, или примерно 38%. Коэффициенты разложения (а + b) n — сумма двух членов называется биномом, так что это выражение дает n-ю степень бинома — могут быть получены с помощью треугольника Паскаля. Следует заметить, что первый и последний коэффициенты всегда равны единице; второй и предпоследний — показателю степени бинома п. Коэффициент 1 обычно не пишут ((а + bI = la + \Ь = а + Ь). Общая формула для п-й степени бинома дается теоремой (Ньютон, 1643—1727): ( п }ап-гЬ+( п , dbn+bn= ^ I )an-kbk. A.149) Для а > b справедливо (а + Ь)п « а" + па^-1 6. /г / Л \ Примечание: 2n=(l + l)" = 2 ( fe )• A.150) 155
Биномиальные коэффициенты приведены в табл. 31 ниже. Результаты обоих примеров могут быть непосредственно взяты из таблицы. Таблица большего объема приведена в [Miller, 1954]. Если нет таблицы достаточного объема для вычисления факториала ft! и его десятичного логарифма lg ft! — табл. 32 содержит значения для 1 <! ft ^ 100, — то следует воспользоваться приближенной формулой Стирлинга У2лп-ппе~п. [A.161) Для больших значений п приближение весьма хорошее. При вычислении lg n пользуются следующими логарифмами: lg У§я = 0,39909; lg е = 0,4342945. Для lg я! ~ lg |/я + 1/2 lg ft + п lg ft—ft lg e лучше записать ft + 0,5)lgft— nlge. A.152) Таблица 31. Биномиальные коэффициенты пРх—~ х\ • (п—х)\ [ п \ [ п \ { ^ \ fy 6 • Так как I 1=1 1, то найдем для eW^I — )= = / 6 \ / 6 \ при ( — 1=1--——I значение, равное 15. 3-2 :. 1 Ч. л: п ^\ 2 3 4 5 6 7 8 9 10 И 12 13 14 15 16 17 18 19 20 2 1 3 6 10 15 21 28 36 45 55 66 78 91 105 120 136 153 171 190 3 1 4 10 20 35 56 84 120 165 220 286 364 455 560 680 816 969 1140 4 1 5 15 35 70 126 210 330 495 715 1001 1365 1820 2380 3060 3876 4845 5 1 6 21 56 126 252 462 792 1287 2 002 3 003 4 368 6 188 8 568 11628 15 504 6 1 7 28 84 210 462 924 1716 3 003 5 005 8 008 12 376 18 564 27132 38 760 7 1 8 36 120 330 792 1716 3 432 6 435 11440 19 448 31824 50388 77 520 8 1 9 45 165 495 1287 3 003 6 435 12 870 24310 43 758 75 582 12 5970 9 1 10 55 220 715 2 002 5 005 11440 24310 48 620 92 378 167 960 10 1 11 66 286 1001 3 003 8 008 19 448 43 758 92 378 184 756 Например, для 100! получаем lg 100! ~ 0,39909 + A00 + 0,5) 2—100 100! ~ 9,325 0,4342945 ~ 157,96964, 10ш. 156
Т а б л i п 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 i ц а 32. Факториалы и их десятичные логарифмы л! 1,0000 2,0000 6,0000 2,4000X10 1,2000Х103 7,2000x102 5,0400X103 4,0320x104 3,6288ХЮ5 3,6288хЮ6 3,9917X107 4,7900хЮ8 6,2270ХЮ9 8,7178хЮЮ 1,3077x1012 2,0923хЮ13 3,5569x1014 6,4024хЮ15 1,2165x101? 2,4329X1018 5,1091x101» 1,1240x1021 2,5852x1022 6,2045X1023 1,5511X102* 4,0329x1026 1,0889x1028 3,0489x1029 8,8418хЮзо 2,6525x1032 8,2228X1033 2,6313хЮзз 8,6833X1036 2,9523X1038 1,0333хЮ4о 3,7199x1041 1,3764хЮ4з 5,2302x1044 2,0398хЮ4в 8,1592x1047 3,3453x1049 1,4050хЮ51 6,0415хЮ52 2,6583X1054 1,1962хЮ5б 5,5026хЮ57 2,58б2хЮ59 1,2414x1061 6,0828X1062 3,0414x1064 \g п\ 0,00000 0,30103 0,77815 1,38021 2,07918 2,85733 3,70243 4,60552 5,55976 6,55976 7,60116 8,68034 9,79428 10,94041 12,11650 13,32062 14,55107 15,80634 17,08509 18,38612 19,70834 21,05077 22,41249 23,79271 25,19065 26,60562 28,03698 29,48414 30,94654 32,42366 33,91502 35,42017 36,93869 38,47016 40,01423 41,57054 43,13874 44,71852 46,30959 47,91165 49,52443 51,14768 52,78115 54,42460 56,07781 57,74057 59,41267 61,09391 62,78410 64,48307 п 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 1,5511x1066 8,0658x1067 4,2749x1069 2,3084x1071 1,2696x1073 7,1100x1074 4,0527хЮ7в 2,3506x1078 1,3868хЮ8о 8,32ЮхЮ81 5,0758хЮ83 3,1470хЮ85 1,9826хЮ87 1,2689x1089 8,2477хЮ9о 5,4435x1092 3,6471x10*4 2,48ООХЮ96 1,7112хЮ98 1,1979x101°° 8,5048X10101 6,1234х10ЮЗ 4,4701хЮЮ5 3,3079хЮЮ7 2,4809x10109 1,8855х10ш 1,4518x10113 1,1324хЮИ5 8,9462x10116 7,1569ХЮИ8 5,7971x10120 4,7536x10122 3,9455x10124 3,3142 X 10*26 2,8171x10128 2,4227хЮ1зо 2,1078X10132 1,8548x10134 1,6508x10136 1,4857x10138 1,3520x10140 1,2438X10142 1,1568x10144 1,0874хЮ146 1,0330x10148 9,9168X10149 9,6193ХЮ151 9,4269x10153 9,332бхЮ155 9,3326x1015? lg/i! 66,19065 67,90665 69,63092 71,36332 73,10368 74,85187 76,60774 78,37117 80,14202 81,92017 83,70550 85,49790 87,29724 89,10342 90,91633 92,73587 94,56195 96,39446 98,23331 100,07841 101,92966 103,78700 105,65032 107,51955 109,39461 111,27543 113,16192 115,05401 116,95164 118,85473 120,76321 122,67703 124,59610 126,52038 128,44980 130,38430 132,32382 134,26830 136,21769 138,17194 140,13098 142,09477 144,06325 146,03638 148,01410 149,99637 151,98314 153,97437 155,97000 157,97000 157
Табличные значения равны: lg 100! = 157,97000, 100! = 9,3326 • 10157. Применяя формулы Стирлинга, следует помнить, что сростом п (значение п\ растет чрезвычайно быстро) абсолютная ошибка становится очень большой у в то время как относительная ошибка стремится к нулю — она равна примерно 11A2 п) — и уже при п = 9 ниже одного процента. Следует упомянуть также о грубом приближении (п + а)\ & п ! паеТ, где г = (а2 + а) / B/г). Элементы комбинаторики Каждое расположение (упорядочение) п элементов в определенный ряд называется перестановкой этих элементов. Из п элементов получается п\ различных перестановок. Так 3 буквы а, Ь, с могут быть упорядочены 3! = 6 способами: а Ь с Ъа с cab а с b b с а с b a Если среди я элементов имеются пг элементов одного типа, п2 элементов другого типа и nh элементов &-го типа, что число возможных перестановок равно при Пх + п2 + п3+ ,.. +nk = n. A.153) Это выражение понадобится нам в дальнейшем при изучении многомерных распределений. Выбор k элементов из общего числа п элементов (п ^ k) называется сочетанием из п элементов по k. В зависимости от того, имеются ли среди элементов одинаковые или все элементы различны, говорят о сочетаниях с повторениями и без повторений. Если нужно различать сочетания, состоящие из одних и тех же элементов, но отличающиеся их порядком, то говорят о сочетаниях с учетом порядка и о сочетаниях без учета порядка. В зависимости от этого мы можем выделить 4 различные модели — число сочетаний из п элементов по k: I. Без повторения и без учета порядка определяется биномиальным коэффициентом II. Без повторения, но с учетом порядка равно —^ , . A.155) (л-А)! III. С повторением, но без учета порядка равно A.156) 158
IV. С повторением и с учетом порядка равно /А A.157) Пример Число сочетаний из трех элементов (буквы а, Ь, с) по два (п = 3, Модель I II III IV Повторение без без с с Учет порядка без с без с Сочетания вид aby ас, be aby aCy be buy cat cb aa bby aby асу be cc aa aby асу be bb buy cat cb cc число (i H 3! 6 C—2)! / 3+2-' ^ 6 \ 2 32=9 Введение в комбинаторику см. [Netto, 1927], [Riordan, 1958], McMahon, 1960] и [Wellnitz, 1965]. ® 1.6.2, БИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Пусть р — это вероятность «успеха» в данном опыте, q = 1—р — вероятность «неуспеха», тогда вероятность того, что в п опытах «успех» наступит ровно х раз (неуспех—(п—л') раз), определяется следующим выражением: х\(п — х) *дп~* Ч A.158) при х = 0, 1, 2, ..., п. Выражение биномиальное распределение происходит из биномиального разлооюения -*=l при p+q=\. A.159) Примечание. Мы здесь используем не я, ар (и q) как параметры и р (и q) как оценки относительных частот. 159
Это распределение, открытое Якобом Бернулли A654—1705) и называемое также распределением Бернулли, основано на следующих предположениях: 1) опыты и результаты опытов независимы друг от друга; 2) вероятность события в каждом опыте остается постоянной. Это очень важное дискретное распределение применяется тогда, когда повторяющиеся наблюдения имеют одну альтернативу. Так как х может принимать только некоторые целые значения, вероятности существуют только для положительных целых значений х (рис. 28). Параметрами биномиального распределения являются пир. Среднее значение: \i = пр, A.160) дисперсия: а2 = пр A—р) = npq. A.161) Выражения A.160 и 1.161) справедливы для абсолютных частот; для относительных частот верно |д> = р и а2 = pqln. Биномиальное распределение симметрично при р = 0,5; если р <С 0,5, то оно более пологое справа, а если р > 0,5, то оно более пологое слева. Из выражения асимметрия = _ я — Р A.162) следует, что для больших значений стандартного отклонения а асимметрия очень мала. Если надо рассчитать отдельные вероятности р (х) (см. пример 2t с. 164), то удобно воспользоваться рекуррентной формулой ..P(X). A.163) 0,2- 0 2 468'024 6 L Рис. 28. Биномиальные распределения для я=8 и различных р-значений. Так как Р @) = qn при заданных qnh легко рассчитывается A.158), то далее имеет место РA) = А . jL./>@); р B) =2—1. -^••P(l) и т.д. 1 <7 2 (/ 160
Таблицы приводятся в [Romig, 1953], [Harvard Univ. Сотр. Lab., 1955], [Weintraub, 1963] и [Natl Bur. Stds, 1950]; табл. 33 содержит избранные значения вероятностей для биномиального распределения (см. примеры 1 и 2). Для многих случаев достаточен метод, предложенный в [Jowett, 1963] (см. пример 2а), который основан на таблицах F-распределения: В области 0,001 < Р < 0,10 используется интерполяция по A.141, 1.142). Выборки из биномиальной генеральной совокупности, рассматриваемые в 4 и 6 главах, сравниваются с помощью так называемого критерия для таблиц сопряженности 2x2 (при двух биномиальных распределениях) и с помощью k • 2 — входового — %2-критерия (при нескольких биномиальных распределениях). Аппроксимация биномиального распределения нормальным распределением При npq > 9 биномиальное распределение хорошо аппроксимируется нормальным распределением со стандартной переменной г (см. примеры 4 и 5): J^L A.165) Доверительные границы для биномиального распределения подробнее будут рассмотрены в разделе 4.5 (с. 304—318). Очень удобные номограммы функции распределения приведены в [Larson, 1966]. Аппроксимации рассмотрены в [Gebhardt, 1969]. Примечания 1. С помощью A.163) может быть построен графический критерий: если нанести значения Р (х + \IР (х) против 1/(х + 1) и точки лежат на прямой линии (см. гл. 5), то распределения являются биномиальными (см. [Dubey, 1966] и [Ord, 1967]). 2. По инициативе Р. А. Фишера Мостеллер и Тьюки [Mosteller, Tukey, 1949] предложили биномиальную вероятностную бумагу, которая наряду с графической оценкой биномиальных вероятностей (в особенности оценкой доверительных интервалов относительных частот, а также сравнением двух относительных частот) позволяет непосредственно определять ^-вероятности и отношения дисперсий F. Относительно биномиальной бумаги см. библиографию, разд. 7. Подробности следует смотреть в оригинальных работах [Gebelein, 1953], [Schindowski, Schiirz, 1957], [Stange, 1965], а также в соответствующих главах книги [Wallis, Roberts, 1962]. 3. Функциональные параметры и явные параметры. Параметры, которые дают информацию о том, где на числовой оси лежат значения случайной переменной (fi,"jx) и как плотно они сосредоточены (а2), Пфанцагль (Pfanzagl, 1966] назвал функциональными параметрами. Они представляют собой функции явных параметров в формуле для плотности распределения. Так, для биномиального распределения: пир — явные параметры; |и = пр и о2 = пр A — р) — функциональные параметры, так как они выражаются через явные параметры» Плотность вероятности для нормального распределения содержит также два параметра: \х и а2, которые одновременно и функциональные параметры, что уже было указано выше. 6 Зак. 93Q 16J
>ООЮ СМСМЮЮСМСМ _ _ )lOO(N —« CO<-M<N<0 — Ю СО ООО ОООО ЮС OQO ЮЮЮЮ CMC - --.-_ -„--.,..-., . - - - - ^ - „ ЮОЮ CM t>- h- СМ СОЮ^-ЮСО СОЮ—«—н Ю СО —• СЛ СО —« СО СЛ ~н OU5C_SN СМ Ю СМ —<СОСО~-« ОСМСОСМО О^СОСО—<О ООСМСОСМОО ОО—'СМСМ О*О*О* О*О*О*О* О*О*О*О*О* 0*0*0*0*0*0* 0*0*0*0*0*0*0* 0*0*0*0*0* Ю О CO " —< -^ ЮЮЮЮО ) "^ •—* •—* СЛ Г4*» CD —•* ) СО СП СЛ О. СО О ^ О CN CO CM О ""> Ю СО Ю С4 00 —« О О —' СЧ СО *—' t-- O> О CM —< CD CO CNKNO00C NlflOOCOOOOO Ю t*- ^ »_-< С I—" 00 *-" СЛ С о о<мс - 0*0*0*0*0*0*0* 0*0*0*0*0* ооо оооо ооооо ООО ОООО СО СО СО СО СО 00 СЧ СО ^ 00 CM SCOOlOMCft*H ОСОСОСОЮ ООО СО <М 00 tJ« С-Г> Ю Ю СО Ю М^ЮОФО СО СО —' СО 00 СО тР 00 О —^ О СО СОООСО ^СОООСО CM^t"*lOCM b-in^COt^—• -^ СО —« h- CO СО О СМСОСОСЛСУ) СОтР—I (NT^CMO —*С0С0*-'О ОСМСО<_МОО 0—«COCN^OO О^СМСМ-^ ООО 0 0*0 0* 0*0*0*0*0* 0*0*0*0*0*0* 0*0*0*0*0*0*0* 0*0*0*0*0* ЮОЮ С0С0О>0- ЮЮЮЮО О Tf ^ ^-< ОО СО ^SOW^lOOO ОООЮОСМ СМЮСМ TfCOOOCM 00^О«Ю СО СМ СО "-• 00 Ю inCOOOlO-OO'—< CfJ^OOh-^ СМЮС^ t^--^CO^ t-- CO —« —-i »— 'H'HOOOO^O h-^ <N CO СГ> CM О "^OOCDCO4* rf^f^ CM ТГ CN О «-hC0C0*—O *— CO CO i-» О О О CM CO CM О О О СО^СМСМ—* О*О*О* О*О*О*О* ОО*О*О*О* 0*0*0*00*0* 0*0*00*0*0*0* 0*0*0*0*0* S i s 5 00 СО l>- CM (N СО <_М —" ООСЧ "- О. СГ) ^ —« ^ а> сосмсмо^о со ^ см ю со ю , _- t--СО СЛ СЛ СМ СО — ОО ^ Ь- ~) О О ^-«ss * "¦* __? ^ СМ О Ю Г!1 ¦>—н сосмсмсо^о со со см —< оо«—¦ о Ю —*СОСО—'ОО OCMCOCNOOO ооо* оооо* о*о*сГо*о о*о*о*сГоо* 0*0*0*0*0*0*0* о*оооо s о V/ ) О С J О < > CN С оо СО —« о -нсо . Г"» О—' тН—* h- СЛСМ fCOCN "^ —н СО h- О СОСООООСЧО '-«ОСМООЮ-^О 00 Tf — СМ СЛ '«—' О СМ "^ СМ О О -СООО^ОО ^СООО-нООО OCMCOCNO ООО О О* О* О* О* О* О* О* CD* CD* CD* О* О О* О* 0*0*0*0*0*0*0* ООООО _ . , СОЮ—«СМЮСМГ ОО CD СО СМ ОО СМ ?¦"-• СМ ^Ф ^О СЛ CD С СОСОООО<МО —«ОСМООЮ—'С —¦«СОСО'-чОО »-• СО СО —* О О < юо ю сг>а> СМЮСМ --ч^^ согсо смем эсо со ю t^-ел со о оосооос (NC0NOOO —'СОСМ'-нОС Ю Ю Ю О 1>- оо со^ _, СО —< О СО с (?} f^. ^_Q g\J g\^ ^< ^_н t—( CM '~- ^* C»- — —- -— юсоо ^^-o co^cnoo csIcocnooo -ww^boo ^coco^-«< о о o* o*o*o o* 0*0*0*0*0 0*0*0*0*0*0^ 0*0*0*0*0*0*0* 0*0*0*0*0* *-"< csj оо а. rj^ ю -и см со ю *—• ю—^ о COCi^OO—ОО C4C0CNOOOO ооо оооо ооооо оооооо ооооооо ооооо I free о о о" 5CM ^?Ю ОЮЮЮЮ ГЮСЧ| CM ОО t4- »—'О СО—нОО СМ СО СЛ — О ^СЛСОС cocooo юсоооо ^co2 СМ rtinN CM »— CM Ю O COCOO ^ -_ *-нС0СМЮЮ^О @OSN05 i ^^ {**--* ^75 CO ***^ ^Л €_) ^^ <^^ cO O^ t™"* Cl^ ЭО Г-.СЛ^-.^'ООО CM СЛ OCO —« ? о со со •—• о ооо cococnoo ооо оооо ооооо оооооо ооооооо ооооо CD CD C5 CD *—* СО СО СО ^^ r^c?.^< СО—нООСОО см ооо „_« оо —« см ^ см о СО-^О NCNOO -hO СОООС • О О СО CN •* С оо tьсм с ОО Tt 00 ^ О О СО CN •* С союа.—*ооо t--ь-см с ЮСОООООО т}< СО *-ic ооооо S I со* со юою Tt"^4—<*-* \n\d\r^\ao cocorh-^c ОСЛО ЮСООО «—'N^OO N О W О С СЛОО 00 —< О О ОО'-'ООО Г^-С^ООС ооо оооо ооооо оооооо ооооооо ооооо -—< 00 ~* СО "^ СО О СОООСООО ООО< ОСЛО ОСЛОО ОООООО •—• 00»—" < СО»—'О l^-CMOO СО СО О О О Ю '" — " О^ ^D CD СЛ CD ^D CD СЛ CD ^D ^D CD СЛ o*o*o* o*o*o*o* oo*o*o*o* o*o*o"o*o*o* ooooo O—'CM O—h(NCO О—« ^ <N CO "^ ЮСО - О —^
^КоЬ *—«CDOOCOCOCFii—1 CQO^NfOcQ сОЮО OcoO'-'t^—'OcoC —<ОО О О — СМСМ СМ'-* О С ._.„ ооосЪем —~<*-чемс}>ооо ltv-0^tlCOCO'^OtN^CM —<O>00t>--tOCOiOt>-00CJ5'—« )*—«t-^CO-Tp^COt--»—'О ОО"^}4'—'О^О*—«"tf'OO )OO-(N<N-OOO OO ©—< CM CM CM —• OO О —' CMCN—• OO О OO—' CMCNCM—< ООО О О О —« CN CM —' О О О О ооо ¦^ см со со с j^. t4^ »-* со <: SS8 Bl oS?J§gS^2§§ §§o8§©28g?3 ^? © О CO CO Ю t4-. GO С OOO О «-< CM CM '—' С ©"о*4©" - rf CM CO гИ — т^ 00 CO ~• Ю tO Г^- CM С- CO O5 CM CO Ю О JOCO-^CiOOCMCTi-HO C0(MiO(MN00Q0'-<'*OO ] €~} •—i t44»* i>h »-M ^^ f^ ^^ f^ »*^i t*^ ^>^ lO CO tO CO CM r i' C]5 <"м,д ------ OOOO OO»—«CMCM1—'OOOOO О —< —i —« t^- 00 Q) CO CO CO О 00 t coю^^N@ -HOOOiCOfNCOin^OOO OO — CMCM-^OOOOO cooo -нО OO 58 ococM со h- ю —<-~«t O-t^CO^COC tOOCDlOOO^'—Ю( o^o'o" tO CM O ^СОСОООЮЮО rflOCOCDNNlN О—'СМСМ-нОО оо—«сосоосмсоа>—«oo CMCMCOCOOOCOOOOO О'—СМСМСМ*-'OOOOO ^OO OCO^OCOCMOC OOO «h(NCO(NOOOC OCMCOCM^—'OOOC 888 OOO СМ О О (N »-« Ю 00 С ^ см см со со со г" COOONCD^l Tf4 ^t4 C5 CO »""• ^* t-*-COCM-^00CO _ _ OCOOOOOCNOOOOO ^CMOOCMOOOOOOO -88 о ~ 8! tO b- СО СГ> Ю СО С CM ^f t4^ СО СО СМ С t-» со со со'—< о с см со см о о ос ) СО ОСО < )ооюо< > o< >o с ;o < >o с J*— OOOO ¦«00CM'-«OOOOOOO ©"оЪЪ^оооЪЪ"© CM < ЮСО oo^hco со со rt^ 5^00 ОО ОС э^о о о ос ч* «**« СМ СО "^ СО —1 < - - t>- CN "Г" Ь < " 3 00 t-Tt< О < 5 СО — < емю—<оо ^-'OOO ОООО * OO ЭОООО CO CO —OOOOO О о о" о" о* о" о" о* <э о" о" о" о" о" о" о" о" о* о" о* о" о* о" о" о* о" о" о* о* о* о" о* о" о* 5 О Tt* СОЮ" > О COQ5 »-н I ооо со см о < о" о" о" см too» ь. соо < о оосм t ' СО CD CO < СО СМ О С юсоооо о о о о о о о о о о о" > О h-CO СО — < ' ~ СМ ч*1 СМ <~ ' ^о8! ю< СОС оо с . _ о ос >о оос > оо ос т}ОО оооо )ОООО 881 оос о о ооо о ос ооо оооооооооо ЮСО1>- О-ч О »- <М СО ^ Ю СО 1^ 00 О О « СМ СО 'Ф Ю СО t>- 00 СП О о* I од 6* 163
4. Номера выигрышей в рулетке й Лото уже Для Средних значений п ЭссфоШб аппроксимируются нормальным распределением. Для больших п (п ~* оо) они в процентном отношении равны; частоты отдельных номеров выигрышей тогда сильно рассеяны (они лежат, согласно A.161), очень далеко друг от друга). Тенденции к абсолютному выравниванию нет даже при полностью одинаковых шансах—рулетка, лото (разве равные шансы в социальной области не приводят к неравенству?). Примеры 1. Чему равны вероятности при трехкратном бросании идеальной монеты получить: а) три раза решку; б) два раза решку и один раз герб? а) ^зСзD-K (i)°=b | -1 = 1 = 0,125 / /142/141 11 о также замеча- б) р = 2С21—\ —) =3. J-.-L=± = 0,3751 ние под табл. 33 2. Машина производит 20% бракованных карандашей. Каковы вероятности среди четырех случайно выбранных карандашей обнаружить: а) ни одного бракованного карандаша; б) один бракованный карандаш; в) максимум два бракованных карандаша? Вероятность появления брака р =0,2, вероятность появления небракованного карандаша q = 1—р = 0,8: а) Р (нуль брака) = 4С0 @,2)° @,8L = 0,4096; б) Р (один случай брака) = 4СХ @,2)х @,8K = 0,4096; в) Р (два случая брака) = 4С2 @,2J @,8J = 0,1536, Р (макс, два случая брака) = Р (нуль брака) +Р (один случай брака) + Р (два случая брака) = 0,4096 +0,4096 + 0,1536 = = 0,9728. По табл. 33: здесь п=4, х пробегает значения 0, 1, 2 при р = 0,2. Соответствующие вероятности могут быть непосредственно прочитаны. По рекуррентной формуле: р @) = 0,8* = 0,4096 РA) = ± . -L-0,4096 = 0,4096 1 4 Р B) = -L . -L. 0,4096 = 0,1536 РC) = — .—-0,1536 = 0,0256 3 4 РD) = — .—.0,0256 = 0,0016 Контроль 2/>=1>0000 164
2а. Для п *= 4 и р *= 0,2 мы ищем йероятность йо мекьшей мере Трех случаев брака: Z—-)=P(/?4i6>6,00). Вероятность этого значения F F,00) для v± — 4 и v2 = 6 приходится интерполировать: ^- 4,53 (а = 0,05); m = 2; k = ^~6'°° - 0,1353 f? = 6,23(а-0,025); P = 0,025-2°.1353-0,0275. Сравнивая с точным значением, равным 0,0272, приходим к выводу, что аппроксимация хорошая. 3. Что вероятнее: а) появление по крайней мере одной шестерки при 6 бросаниях идеальной игральной кости или б) двух шестерок — при двенадцати бросаниях? а) Р (непоявление шестерок) =6С0 (-g-J (-g-J Р (появление одной и более шестерок) = 1—6^o(-g-) (-F-) ^0,665. б) Р (появление двух и более шестерок) = 1—d2 С"о (~^-) X X (|I2 + 12 Сх Щ1 D)П - 1—@,1122 + 0,2692) - 0,619. Итак, событие а) вероятнее, чем событие б). Для оценки вероятности можно было бы воспользоваться табл. 33 при р' = 0,15 вместо р = 0,166 ~ 0,17. 4. Идеальная кость бросается 120 раз. Какова вероятность того, что цифра 4 появится восемнадцать или менее раз? Вероятность того, что четверка появится 04-18 раз, определяется выражением Поскольку вычислительная работа здесь весьма велика, воспользуемся аппроксимацией с помощью нормального распределения (npq = 120 • 1/6 • 5/6=16,667> 9). Если мы будем рассматривать числа как непрерывную переменную, то область от 0 до 18 четверок включается в область от —0,5 до 18,5 четверок, т. е. х = пр= 120-1/6=>,20 и s^Vnpq^V 16,667 = 4,08. Значения — 0,5 и 18,5 переводим в стандартные единицы: z = (x—*)/s, для —0,5 получаем (—0,5—20) / 4,09 = —5,01; для 18,5 получаем A8,5—20) / 4,09 = —0,37. Искомая вероятность определяется как площадь под нормальной кривой между z = —5,01 и z = —0,37. Р = (площадь между z = 0 и z = —5,01) — (площадь между z = 0 и z = —0,37) = 0,5000 — — 0,1443 - 0,3557. 165
Из этого следует: если мы рассмотрим повторяющуюся выборку Из 120 бросаний, то четверка в 36% случаев будет появляться 18 раз и менее. 5. Предполагается, что кость неидеальна. В 900 бросаниях четверка появилась 180 раз. Соответствует ли это нуль-гипотезе, согласно которой кость идеальна? Согласно нуль-гипотезе вероятность появления четверки равна Тогда /2р = 900-1/6 = 150 и ~V~npq =1/900-1/6.5/6 = 11,18; Двусторонний доверительный интервал на 1%-ном уровне дает Р - 0,0074. Нулевая гипотеза на основании этой серии бросаний отклоняется; кость нельзя рассматривать как идеальную. 6. Нас интересует число мышей-самок в помете из четырех мышей [D a v i d F. N. A Statistical Primer. Ch, Griffin, London, 1953, p. 187], Имеется 200 пометов подобного вида. Т а б л Число Число и ц а 34. Число самок в помете пометов (общее мышеи-самок число 200) в помете из четырех 0 15 мышей 1 63 2 66 3 47 4 9 Предположим, что в этой выборке вероятность рождения самки постоянна, не зависит от числа уже родившихся самок, два помета независимы друг от друга. Тогда можно рассматривать данный процесс как случайный и по выборке оценить параметры генеральной совокупности. Будем считать, что теоретическое среднее равно вычисленному среднему; тогда Н. = л/г, A.160а) ~ среднее значение общее число индивидуумов ' - _ 0-15 + Ь63 + 2-66 + 3.47+4-9 = Q 4g5 Р~ 4-200 ~~ ' Мы знаем, что если предположение о биномиальном распределении выполняется, то вероятности рождения 0, 1, 2, 3, 4 самок могут быть определены из разложения бинома @,535 + 0,465L, откуда для 200 пометов получаем: 200 @,535 + 0,465L = 200 @,0819 + 0,2848 + 0,3713 + 0,2152 + + 0,0468) = 16,38 + 56,96 +- 74,26 + 43,04 + 9,36. Сравнение наблюдений с ожидаемыми значениями приведено в табл. 35. 166
Таблица 35. Сравнение ожидаемых значений с наблюдениями табл. Число самок в помете Число пометов: ' наблюдаемое ожидаемое 0 15 16,38 1 63 59,96 2 66 74,26 3 47 43,04 4 9 9,36 34 2 200 200 В разд. 1.6.7 (с. 182) мы детальнее остановимся на подобном примере и проверим, выполняется ли предположение о распределении Пуассона, т. е. простому или комбинированному распределению Пуассона следуют наблюдения. 1.6.3. ГИПЕРГЕОМЕТРИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ Если производится выборка «без возврата», то вместо биномиального распределения следует применять гипергеометрическое распределение. Этим распределением широко пользуются в связи с задачами контроля качества. Урна содержит 5 белых шаров, W = 5, и 10 черных шаров, S = 10. Какова вероятность того, что в выборке из 5 шаров окажутся два белых, w = 2, и три черных, s =3, шара? Эта вероятность определяется следующим выражением: P(w из W9s из S) = - w w+s I A.166) при 0 < w < W Отсюда получаем и 0<s<S. -0,3996, РBИз 5 белых шаров и Зиз 10 черных шаров) =^~ __ E1/31-2!) A01/71 .3!) 5-4-10.9-8-5-4» 3-2.1 ~~ 151/101.5! ~~ 2-1-3-2-1-15-14 -13- 12-11 т. е. вероятность примерно 40%. Общая формула для выборки объемом пг + п2 = п и генеральной совокупности Nx + N2 = N среднее значение: дисперсия: о2=п C) Ni ^пт=пр9 —/?) N—n N-\ " A.167) A.168) A.169) 167
Если N очень велико, то распределение практически идентично биномиальному. Дисперсия соответственно также стремится к дисперсии биномиального распределения -~1 — — ~1 ДЛЯ N>AZ Ь п — 1 N ) Обобщенное гипергеометрическое распределение (полигипергео- метрическое распределение): Г1) И •••(*) Р{пъ п2, .... tiblNiN» ..., #0=V<V* KnkJ A.170) определяет вероятность того, что в выборке объема п будут точно п19 я2, ..., пк наблюдений признаков Лх, Л2, ..., Ah> если в генеральной совокупности объема N частоты этих признаков равны N±, N2J ..., Nk и 2 Nt = Л^ и 2 л* = л. Параметры (для пг) определяются следующими выражениями: среднее значение: \it = n -~; A.171) дисперсия: 0? = лр, A— р,) —^ . A.172) Это распределение наряду с другими применяется в области контроля качества и для оценки неизвестного объема N популяции (например, наличие и состояние дичи): Nx особей поймано, промаркировано и отпущено; затем поймано п особей и определено число промаркированных (пх). Тогда справедливо N ж п N-Jn^ (см. также [Jolly, 1963], [Southwood, 1966], [Roberts, 1967], [Hanson, 1968], [Manly, 1968] и [Robson, 1969]). Примеры 1. Предположим, из 10 студентов 6 изучают биохимию и 4 — статистику. Какова вероятность того, что выборка из 5 студентов содержит 3 биохимиков и 2 статистиков? РC из 66., 2 из4ст. 4ст.) в+4С3+2 101/5!-5! 6-5-4.4.3.5-4-3-2.1 . = J?<L^ п 4762 3-2.1.2-Ь10-9-8-7-6 42 Вероятность примерно равна 50%. 2. Наугад выбраны 6 чисел из набора от 1 до 49. Какова вероятность того, что будут выбраны 4 правильных числа (лото)? 6\,43 из в, 2 „з 44-Iii U 168
Для решения задач подобного типа следует пользоваться табл. 31 и 32: Р~ 13»545-103 с-0,967-Ю-3, т. е. примерно 0,001. 13,984-Ю6 * * Вероятность выбрать по крайней мере 4 правильных числа имеет порядок 0,1%. 3. Генеральная совокупность из 100 элементов содержит 5% бракованных элементов. Какова вероятность того, что в выборке из 50 элементов окажется: а) нуль бракованных элементов; б) один бракованный элемент? а) РE0 из 95;0из 5) = <*»•*> 95'-5!-50!-50! 95'-501 96+бСбо+о 50!-451.51.0!.100! 451-100! аа 32) б) РD9 из95;1 из 5) = 1,1962- 10*в. 9,3326-Ю1*7 «^ 95Ь5Ь50Ь5Ш 95+5С9+1 49!-46!-4!-1!. 100! ._95!50Ь501__ 49!-46!. 100! 4. Пусть в течение года в 10 номерах ежедневной газеты (всего 52 недели) помещается некоторое объявление. Тогда вероятность того, что читатель в 15 произвольно выбранных номерах не встретит этого объявления, равна: ( Л \ i W—A\ Р(а из A, w из №)= ^ „Л""" ; или W 10 \ / 52 — 10 \ / 42 из 10; 15 из 52) = -^ ' v '""" ' ч liJ' 42М5!-37! 15!-27!-52! (напомним, что (»] = 1) lg 42! = 51,14768 lg 15! = 12,11650 lg 37! =44,13874 106,40292 lg 15! = 12,11650 lg 27! -= 28,03698 lg 52! = 67,90665 108,06013 JgP = 0,34279 —2 P = 0,02202 ~ 2,2%. 169
Таким образом, вероятность встретить хотя бы одно объявление равна 98%. Примеры 2 и 3 полезно в порядке упражнения пересчитать с помощью десятичных логарифмов от факториала (табл. 32). Задачи подобного типа решаются значительно быстрее с помощью таблиц [Lieberman, Owen, 1961]. Номограммы с доверительными границами опубликованы в [De Lury, Chung, 1950]. Ann p^o ксимации (см. также с. 179) 1. При больших Nx и N2 и сравнительно малом п (n/N<.0,l; N > > 60) можно гипергеометрическое распределение аппроксимировать биномиальным распределением р — Nx/ (Nx + N2). 2. При пр > 4 хорошую аппроксимацию дает нормальное распределение [|х = пр; а2 = npq ((N—NJ I (N— 1))]: "'"Т А, ' AЛ73) 3. При малых р, больших п и очень больших N (п I N < 0,05) гипергеометрическое распределение аппроксимируется распределением Пуассона, которое рассматривается в следующем разделе (X = пр). 4. Биномиальное распределение и распределение Пуассона при а2 = npq ^9и р = п • р = %^9 с вполне достаточной точностью аппроксимируются нормальным распределением. # 1.6.4. РАСПРЕДЕЛЕНИЕ ПУАССОНА Если в выражении A.158) принять пр = Хя при постоянном X увеличивать п(п-+- оо ), то биномиальное распределение со средним значением пр — % перейдет в так называемое распределение Пуассона с параметром X (X также будет средним значением этого распределения.) Распределение Пуассона было предложено французским математиком С. Д. Пуассоном A781—1840). Оно справедливо тогда, когда среднее число событий является результатом очень большого числа возможных исходов с очень маленькими вероятностями этих исходов.Хо- рошим примером является радиоактивный распад. Из многих миллионов атомов радия в единицу времени распадается очень маленький их процент. Существенно, что распад есть случайный процесс и что распад отдельного атома не зависит от числа уже распавшихся атомов. Распределение Пуассона имеет весьма большое значение. Оно используется для решения задач исчисления относительно редких, случайных взаимно независимых событий в единицу времени, длины, площади и объема. Говорят также об изолированных событиях в континууме. Примеры этого дискретного распределения: распределение изюминок в булке с изюмом, дрожжевых клеток в суспензии, числа опеча- 170
ток на страницу, нарушений изоляции по длине шнура или числа повреждений поверхности на плоскости стола; последовательность прилета самолетов на аэродром; число внезапных бурь в данной области; число телефонных вызовов в единицу времени; число электронов, которые улетают с нагретого катода в единицу времени; число поломок в автомобилях большой воинской части; число случаев брака; число транспортных средств на дорогу в единицу времени; число отказов в сложном механизме. Все это — на единицу времени или пространства. Если вероятность — непостоянная величина или события зависимы, то это приводит к отклонению от распределения Пуассона. Если эти условия соблюдаются, то — для приведенных примеров — следует ожидать выполнения распределения Пуассона. Самоубийства или промышленные аварии в единицу времени не следуют распределению Пуассона, хотя они могут рассматриваться как редкие события. В обоих случаях нельзя говорить о «равных шансах для каждого», существует различие относительно возможностей аварии или самоубийства. Представим себе булку с изюмом, разделенную на маленькие кусочки равной величины (выборки). Вследствие случайного распределения изюминок нельзя ожидать, что все кусочки будут содержать их одинаковое число. Когда среднее число X изюминок, содержащееся в этих кусочках известно, тогда распределение Пуассона задает вероятность того, что любая взятая выборка (кусочек) содержит равное x(x = 0,l, 2, 3,...) число изюминок. Иначе говоря, распределение Пуассона определяет, какая часть A00% • Р (х) %) длинной серии последовательных выборок будет содержать точно 0 или 1, или 2 изюминки: P(x\X)^P(x)^?j^-, A.174) Х = 0, х = 0, 1, 2, ... е = 2,718... —основание натурального логарифма; X — среднее значение; х = 0, 1, 2, ... — точное число изюминок в данной выборке, х\ = 1 • 2 • 3... (х— 1) х (например 4! = 1 • 2 • 3 • 4 = 24). Распределение Пуассона определяется дискретной функцией вероятности A.174); оно полностью характеризуется параметром X и выражает плотность случайных точек внутри заданного временного интервала, на единице длины, площади или объема. X есть одновременно среднее значение и дисперсия а2 = X A ), а2 при больших п равна X [ср. а2 = npq, пр = X, q = 1—р = 1—JJ# Этот параметр оценивается по формуле (для q сы 1) Х^п- р. A.175) 171
Таблица 36. Значения е -*• для распределения Пуассона 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,9901 0,9802 0,9704 0,9608 0,9512 0,9418 0,9324 0,9231 0,9139 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0,9048 0,8187 0,7408 0,6703 0,6065 0,5488 0,4966 0,4493 0,4066 к 1 2 3 4 5 6 7 8 9 0,367879 0,135335 0,049787 0,018316 0,026738 0,022479 0,039119 0,033355 0,04234 10 11 12 13 14 15 16 17 18 0,04540 0,04670 О,О56144 О,О5226О 0,068315 0,063059 0,04125 0,04140 0,О71523 19 20 21 22 23 24 25 30 50 О,О856ОЗ О,О82О61 0,097583 0,0*2789 0,091026 0,010378 0,0^139 О,113936 0,021193 = 0,0001234-0,4493.0,9512 = 0,0000527 Если для дискретного распределения отношение дисперсии к среднему значению лежит вблизи единицы, — скажем, между 9/10 и 10/9, — то его можно аппроксимировать распределением Пуассона вплоть до больших значений переменной х. Если справедливо s2 < x, то в выборке можно применять биномиальное распределение; в противоположном случае (s2 > x) можно использовать так называемое отрицательное биномиальное распределение (см. [Bliss, 1953]). Величины е~% обычно не надо вычислять, потому что для ряда значений Я они табулированы. Так как е~(*+#+*) = е~х • е~у • е~~2, мы найдем с помощью табл. 36, например, в~5>23 = 0,006738 • 0,8187 • 0,9704 = 0,00535. Табл. 36 одновременно является таблицей натуральных антилогарифмов. Пусть, например, х = —3, тогда е~3 = 1/е3 = 1/2,718283 = = 1/20,086 = 0,0499787, т. е. In 0,049787 - —3,00. Пример Радиоактивный препарат дает в среднем 10 импульсов в минуту. Какова вероятность получить 5 импульсов в минуту? p = j^sj0^= 10M.S4.10-- =jjj=, О!оз78з ^0,04. 5! 5-4-3-2-1 120 Итак, примерно в 4% случаев будут регистрироваться 5 импульсов в минуту. Таблица 37. Распределение Пуассона для малого параметра Я и для х=0; 1; >1 Р(х) Для х = Для х = Для *> 0 1 1 0 0, 0, 0, ,1 905 090 005 0,2 0,819 0,164 0,017 0, 0, 0, 1 368 368 264 0, 0, 0, 2 135 271 594 172
0.2 Т 0,2 I I ... 8 10 12 Л-2 Распределение Пуассона 1 — дискретное асимметричное распределение имеет положительную асимметрию 1/Т/Я, которая с ростом Я, стремится к нулю, т. е. с ростом X распределение становится более симметричным. 2 — отдельные вероятности при Ж 1 с ростом х уменьшаются; при X > 1 — вначале увеличиваются, затем уменьшаются, 3 — максимум распределения приходится на ближайшее целое число, меньшее Я,. При четном целом X имеются два равных максимума вероятностей. Например, если число опечаток на газетную страницу следует распределению Пуассона с Х=0, 2, то из 100 страниц в среднем 82 страницы будут без опечаток, 16 — содержать одну и 2 — больше чем одну опечатку (табл. 37). Табл. 38 показывает, что из 10 000 страниц р 29 р еделение п . в среднем только одна будет иметь v 4 опечатки. Для случая, когда а) X — велико и б) х = Я, справедлива формула Стирлинга: 0 8 Ю 12 0,4- 0,2- 0 2 6 8 10 12 ~]/2rik V Р(Х)~ 0,4 A.176) 0,4 Например, Р (х = X = 8) ~ -^ = 0,141; точное значение из V* табл. 38 равно 0,1396. Для расчета последующих значении используется рекуррентная формула P(x+l) = -h-p(x). A.177) х + \ Подробнее об этом распределении см. монографии [Haight, 1967], [Molina, 1945], [Kitagawa, 1952] и [Defense Systems Dept., 1962]. Примеры 1. Чему равна вероятность того, что из 1000 человек в данный день родились: а) ни одного, б) один, в) два, г) три человека? Так как q = Ш ^ 1 • можно X оценить как Х = пр= 1000-^: = 2,7397 -2,74. 365 173
Таблица 38, Распределение Пуассона Р(х) « з для избранных значений X. При увеличении Я .распределение Пуассона приближается к нормальному распределению х \. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 0 0 0 0 0 0 0,2 ,8187 ,1637 ,0164 ,0011 ,0001 ,0000 0 0 0 0 0 0 0 0,5 ,6065 ,3033 ,0758 ,0126 ,0016 ,0002 ,0000 0 0 0 0 0 0 0 0 0,8 ,4493 ,3595 ,1438 ,0383 ,0077 ,0012 ,0002 ,0000 1 0,3679 0,3679 0,1839 0,0613 0,0153 0,0031 0,0005 0,0001 0,0000 3 0,0498 0,1494 0,2240 0,2240 0,1680 0,1008 0,0504 0,0216 0,0081 0,0027 0,0008 0,0002 0,0001 0,0000 5 0,0067 0,0337 0,0842 0,1404 0,1755 0,1755 0,1462 0,1044 0,0653 0,0363 0,0181 0,0082 0,0034 0,0013 0,0005 0,0002 0,0000 8 0,0003 0,0027 0,0107 0,0286 0,0573 0,0916 0,1221 0,1396 0,1396 0,1241 0,0993 0,0722 0,0481 0,0296 0,0169 0,0090 0,0045 0,0021 0,0009 0,0004 0,0002 0,0001 0,0000 К у/ yS X 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 = е-* = е-2-74—0,06457~ 0,065; = te-x ~ 2,74-0,065 = 0,178; 2! 0,244. />(х^3) = 3! 2,743 • 0,065 ~ = 0,223. Если имеется выборка из 1000 человек, то вероятность того, что в определенный день не родился ни один из них, равна примерно 7%; вероятности того, что родились один, два и три человека соответственно равны 18, 24 и 22%. 174
С помощью рекуррентного соотношения A.177) этот расчет можнб упростить: Р @) = (см. выше) ~ 0,065; РA)== -^1.0,065 = 0,178; Р B) = iiZi. 0,178= 0,244; РC)== Mi. 0,244 = 0,223. 3 Если помножить эти вероятности на /г, то получим среднее число человек в выборках размером в 1000 человек, которые родились в определенный день (п — число выборок), 2. Вероятность того, что пациенту противопоказана некоторая инъекция, равна 0,001. Чему равна вероятность того, что из 2000 пациентов а) точно три б) больше двух пациентов не воспримут этой инъекции. Так как q = 0,999 ~ 1, получаем X = п • р = 2000 • 0,001 = 2. Р (х пациентов не воспримут инъекции) = ¦—= ; 23.е~2 4 а) РC пациента не воспримут инъекции) = ———= —=0,180; е2=7,389; о! об* б) Р @ пациентов не воспримут инъекции]= ¦—-— ="Т» 21 e~* 2 Р A пациент не воспримет инъекции) = = —; 22 ? — 2 2 Р B пациента не воспримут инъекции) = -——== —; Р (больше чем 2 пациента не воспримут инъекции) = 1—Р @ или 1, или 2 пациента не воспримут инъекции)=1 —A/е2+2/е2+2/е2) = 1 ———0,323. Если имеется большое число выборок по 2000 пациентов, то с вероятностью примерно 18% три пациента и с вероятностью примерно 32% больше чем два пациента не воспримут этой инъекции. Расчет всей задачи а) с помощью биномиального распределения был бы затруднителен: Р C пациента не воспринимают инъекции) == 2000 С3 • 0,0013 X X 0,9991997. Примечание. Ответ на вопрос, как велико должно быть значение К9 чтобы с вероятностью Р результат проявлялся по крайней мере один раз: 175
ДЛЯ р = 1_е A.178) = 1_р, in е-* = In (I—Р), X = —2,3026 • lg (I—P). A.179) Результаты расчета сведены в таблицу. Например, для Р = 0,95 Я 3 получаем Д о в е р Хс и т -3. р 0,999 0,99 0,95 0,90 0,80 е л ь н ы е 6,908 4,605 2,996 2,303 1,609 и н т е ] р 0,50 0,20 0,05 0,01 0,001 овалы 0 0 0 0 0 д ,693 ,223 ,051 ,010 ,001 ля среднего значения Для заданных значений X верхнюю и нижнюю границы доверительного интервала (ДИ) можно вычислить по формуле A.180) или приближенно по A.181) или найти в табл. 80 на с. 314—317 (примеры на с. 312—313). 1) 95%-ДЯ и 99%-ДЯ: п < 300: табл. 80, с. 314—317; п>300: приближение по A.181), где подставляются: а) < вместо ^ (при больших п приближение первоклассное); б) 1,645вместо 1,9600 (95%-ДЯ) и соответственно 2,5758 (99%-ДЯ). 2) 90%-ДЯ: я < 20: формула A.180) и табл. 28, с. 132 — 133; п > 20: приближение по A.181). 90%-ДЯ: 90%-ДЯ: AЛ80) A.181) В правых частях A.180) и A.181) стоят (односторонние) верхние 95%-ные доверительные границы: так, например, для х = 50 по A.180) 2 • E0 + 1) = 102, хо.05; 102 = 126,57, т. е. Я< 63,3 и по A.181) A,645/2 + У50 + IJ = 63,4, т. е. X < 63,4. Соответственно получаем также, например7 верхние 90%-ные доверительные границы: A.180: хо,ю вместо хо,о5; см. табл. 28/28а, с. 132—134), A.181: 1,282 вместо 1,654; см. табл. 43, с. 204). Табл. 80 (с. 314 — 317) служит также для проверки нуль-гипотезы к=Хх\ она отбрасывается, когда ДИ для Хх не накрывает параметр Я. 176
ф 1.6.5. НОМОГРАММА ТОРНДАЙК Эта номограмма (рис. 30) служит для графического определения накопленной вероятности распределения Пуассона, отдельных последовательных выражений типа е~х -г . Она была рассчитана Ф. Торндайк, 0,001 0,01 0,1 0,2 J 0,8 ^Г 0,9 0,99 0,999 0 0,1 0,2 QfO,5 0,7 0,9y 1,0 \ 4 S>\ 0,001 0,01 0,1 0,2 ОА 0,6 0,8 0,9 0,99 0,999 2 3 4 4 f 7 8910 Рис. 30. Номограмма Торндайк. Ордината: вероятность того, что событие х наступит с раз или больше (по меньшей мере с раз) — значение Р(х^с). Абсцисса: значение X для вероятности Р> что событие в большей серии опытов со средней частотой события X наступит по меньшей мере с раз; масштаб логарифмический. По оси абсцисс отмечены значения X; ряд кривых соответствует значениям с = 1, 2, 3, ... Ординаты, соответствующие различным значениям АГи с, определяют вероятность того, что переменная х больше с или] равна ей: Р (х > с | Я). Номограмма Торндайк используется следующим образом: 1) найдите точку Я на горизонтальной шкале, проведите перпендикуляр до пересечения с кривой с\ 2) ординату точки пересечения определите по вертикальной шкале, она соответствует Р (х^ с). Обратите внимание, что шкала ординат для лучшего считывания в области малых и больших значений Р (х^с) размечена нелинейно. Примеры 1. Машина дает около 1% брака. Какова вероятность среди 200 изделий обнаружить 6 бракованных? р *= 0,01; п = 200; % = п • р - 200 • 0,01 = 2. Точка пересечения вертикали X = 2 с кривой с = 6 соответствует ординате Р (х ^ 6) ~ 0,015. Вероятность обнаружить по меньшей мере 6 бракованных изделий равна примерно 1,5%. 177
2. Контейнер должен содержать не более 0,5% картонок с яйцами, в которых 4 яйца или более испортились. Чему должна равняться верхняя граница процента испорченных яиц, чтобы удовлетворить поставленным выше требованиям? Мы предполагаем, что картонка содержит 250 яиц и является для гнас случайной выборкой. Здесь нужно номограмму использовать для решения обратной задачи по сравнению с задачей в примере 1. Вероятность того, что в выборке из 250 яиц содержится 4 и более плохих яйца, должна быть не более 0,005, т. е. Р (х ^ 4) = 0,005. Необходимо определить допустимое среднее число плохих яиц X. Соответствующая Р = 0,005 горизонталь пересекает кривую с = 4 при % ~ 0,67. Тогда /? — искомое допустимое содержание плохих яиц определяется по формуле \ = п • р или Р = \~ Ш = °>00268>или 0,27%, или округленно 0,3%. 3. В коробку уложены 100 ламп накаливания. Средний процент брака р = 0,01. Какова вероятность того, что совокупность из 100 ламп содержит 2 или более негодных лампы? Мы ищем точку пересечения вертикали X = 1 с кривой с = 2и получаем ординату 0,26. Итак^ из 100 коробок примерно 26 будут иметь по 2 и более бракованных лампы. Обычная расчетная процедура имела бы вид Р (х > 2, X = 1) = 1— (Р (х = 0, X = 1) + Р (х = 1, X = 1) = = 1— @,3679 + 0,3679) = 0,2642. Подобным образом с помощью номограммы получаем Р (х !> 3; X = 1) ~ 0,08, откуда Р (х = 2; X = 1) ~ 0,26—0,08 ~ 0,18 и т. д. Для контроля приведены вероятности 0, 1, 2, 3, 4, 5 и 6 негодных на 100 ламп. Для упражнения рассчитайте эти вероятности с помощью рекуррентнойгформулы. При больших вычислениях используют таблицы распределения Пуассона (см. с. 174). Удобная аппроксимация, которая позволяет грубо оценить вероятность появления по меньшей мере х0 редких событий, дана в [Jo- wett, 1963]: P(x2*xo)=l-P(%lx.<2np). A.182) Применим эту формулу к последнему примеру х0 = 2, пр = 100 • 0,01 = 1: Таблица 39 Число бракованных ламп на 100 0 1 2 3 4 5 > 6 Вероятность 0,3678 0,3679 0,1840 0,0613 0,0153 0,0031 0,0005 1,0000 Табл. 28 на с. 132—133 дает значения р (Х1 = 2) с-0,73, т. е. Р (х > 2) ~ 1— — 0,73 ~. 0,27. 178
Этот быстрый способ оценки примените для упражнения к другим примерам. С помощью A.177) можно выполнить графическую проверку (см. с. 161): если значения Р (х) I P (х + 1) располагаются по прямой, то имеет место распределение Пуассона ([Dubey, 1966], [Ord, 1967], [Grimm, 1970]). Аппроксимации Великолепный обзор сделан в [Molenaar, 1970]. 1. Аппроксимация биномиального распределения распределением Пуассона. Если имеется распределенная по биномиальному закону выборка большого объема п с малой вероятностью события р> так что q = 1—р практически равно 1, скажем, когда р < 0,05 и п > 10, то можно использовать как аппроксимацию распределение Пуассона. Пример В некоторой области в среднем один из 2000 домов ежегодно сгорает от пожара. Если в области имеется 4000 домов, то чему равна вероятность того, что в течение года случится ровно 5 пожаров? ? = пр = 4000--!— = 2; г 2000 Р(х = 59 Х = 2) = е-2 • -Н1 5! Вероятность составляет примерно 4%. 2. Аппроксимация распределения Пуассона нормальным распределением. Можно показать, что при достаточно больших X распределение Пуассона аппроксимируется нормальным распределением со стандартной переменной (х—ЩУ%. A.183) Для практических целей можно использовать эту аппроксимацию при Я > 9. Пример Нас интересует вероятность Р E < х < 15) для Я = 9, Для непрерывной стандартной переменной, распределенной по нормальному закону: 1/2-9 3 Р (х < 15) = 0,9849; Р (х > 15) = 0,0151; Р (х > 15) = 0,0668; Р E < х < 15) = 0,9849—0,0668 = 0,9181; сравнивая с Р — 0,9230 для распределения Пуассона, следует признать аппроксимацию вполне удовлетворительной. 179
ft 1.6.6. СРАВНЕНИЯ СРЕДНИХ ЗНАЧЕНИЙ ПРИ РАСПРЕДЕЛЕНИИ ПУАССОНА 1. Сравнение двух распределений Пуассона Два средних значения Хх и Х2 (при Хх > Х2) можно сравнить с помощью соотношения J A.184) (число степеней свободы = 2 (?С2 + 1); 2ХГХ), причем нуль-гипотезе (Хх > Х2) могут противостоять односторонняя (Ях > Х2) или двусторонняя (Хх Ф Х2) альтернативные гипотезы. Нуль-гипотеза отвергается, если F равно или больше табличного значения. Следует заметить, что таблицы /^-критерия построены для односторонних доверительных интервалов. Пример. Проверить для Ях = 13 и Х2 = 4 справедливость нуль-гипотезы (к± = Х2) при альтернативной гипотезе Хх =#= Х2 (а = 0,05): ? = -^- = 2,60. 4 + 1 Так как 2,60 > F A0,26; 0,025) = 2,59, то нуль-гипотеза отвергается (при односторонней альтернативе %1 > Х2 F A0,26; 0,05) = = 2,22 разность была бы еще более значимой). Сравнение такого типа при не очень малых X (Х± + Я2 > 8) можно делать с помощью стандартной нормальной переменной A.185) При Хх + ?2 > 40 подходит выражение z= (Xx— Х2)/ У%г + 12. A.185а) Пример Возьмем данные последнего примера: ?=A3—4—1)//13 +4=1,940<1|960 = г0,05, следовательно, нет оснований для отклонения Но. Примечание. Сравнение двух выборок из относительно редких во времени событий Если мы посчитаем за промежутки времени tx и t2 число относительно редких событий хг и х29 то нуль-гипотеза (равенство относительных частот) может быть приближенно проверена с помощью выражения F= 'ito+°'5> A.186) ^(^ + 05) при Bхг+ U 2 х2 + 1) степенях свободы [Сох, 1953]* Пример Дано: хх = 4 событиям за 205 ч; х2 = 12 событиям за 180 ч. 180
Проверим гипотезу: относительные частоты равны (двусторонний доверительный интервал а = 0,05, т. е. следует применять верхние границы /^-распределения). Находим р= 205-A2+0,5) ^3 ш 180.D + 0,5) Так как 3,16 > F (9,25; 0,025) = 2,68, то нуль-гипотеза отклоняется. Для сравнения двух относительных частот (x-^ln-^ — рг и х2/п2 = = р2)» которые относятся к биномиальному (р1у р2 > 0,05) или пуассоновскому (ръ р2 <! 0,05) распределениям, Джонсон [Johnson, 1959] предложил номограмму, которая дает элегантное приближенное решение вопроса о том, относятся ли рг и р2 к одной и той же генеральной совокупности. 2. Сравнение нескольких распределений Пуассона (сравнение средних в нескольких выборках из пуас- соновской генеральной совокупности) Если xt — стохастически независимые наблюдения из одной и той же генеральной совокупности (|х, а), то сумма квадратов стандартизованных отклонений (Г ?-Х2 AЛ87) следует ^-распределению с v степенями свободы. Для сравнения k выборок (k ^ 2) наблюдений в произвольных ^-единицах (времени, площади, пространства), в которых событие наступило хг раз, образуют отношения *,//, = *; и B) преобразуют xt по формулам zi — < и вычисляют сумму квадратов 2 z?. Проверка производится по формуле О-188) при (k—1) степенях свободы A степень свободы расходуется на оценку параметра Я; если он известен, то нужно считать число степеней свободы равным k). Пример Используем данные последнего примера: М-4/205 =19,51-Ю-3; Я5 = 12/180 -66,67- Ю-3; 181
X - D + 12)/B05 + 280) - 41,558.10~3; Zl = 2 (]/Т+Т— ^205-41,558.Ю-3) = — 1,366; —1/180-41,558.10) = 1,458 и = 1,866 + 2,126 = 3,992. Так как 3,99 > %!; o.os = 3,84, то нуль-гипотеза отклоняется. Разумеется, что при сравнении именно двух средних используется формула A.184). 1.6.7. ИНДЕКС РАССЕЯНИЯ Если необходимо эмпирическое распределение описать распределением Пуассона^ то должны выполняться два следующих предположения: 1) вероятность данного события для любого числа опытов постоянна; 2) разные события не зависят друг от друга, так что они могут рассматриваться как случайный процесс во времени или пространстве. Если эти условия выполняются частично, то нуль-класс зачастую содержит больше элементов, чем это следует из распределения Пуассона. Если значения переходят из нуль-класса в первый класс, то увеличивается стандартное отклонение распределения. Если мы разделим стандартное отклонение подобного наблюдаемого распределения на стандартное отклонение аппроксимирующего распределения Пуассона или, лучше, возьмем отношение двух дисперсий выборочная дисперсия теоретическая (пуассоновская) дисперсия выборочная дисперсия s2 теоретическое (пуассоновское) среднее А, при большом объеме выборки выражение A.189) — это индекс рас- сеяния, то следует ожидать, что отношение будет больше чем 1. Поскольку каждая случайная выборка имеет свой собственный разброс, то мы должны поставить вопрос: насколько больше 1 должно быть это отношение, чтобы распределение не относилось к пуассоновскому типу? Если отношение ? 10/9, то можно предполагать, что данное распределение может аппроксимироваться распределением Пуассона. Ближайший пример даст нам возможность применить это приближенное правило. Для точной проверки, относятся ли данные (xt) к распределению Пуассона (со средним А), служит индекс рассеяния X2=2(*,-*J/*, A.190) имеющий число степеней свободы, равное (п—1). Если эмпирически оцененное значение %2 равно или больше табличного значения, то дисперсия значимо больше, чем среднее значение, и имеет место композиционное распределение Пуассона: когда наступает вообще редкое со- 182
бытие, тогда зачастую за ним следуют многие и тогда говорят о положительном вероятном заражении. Дни с грозами редки,,но наступают подряд. Используют еще, например, отрицательное биномиальное распределение. Число клещей на овцу в стаде точно следует этому распределению. Распределения других биологических признаков часто лучше описываются так называемым распределением Неймана. Подробнее об этом см. работы: [Neyman, 1939], [Fischer, 1941, 1953], [Bliss, 1953, 1958], [Gurland, 1959], [Bartko, 1966, 1967] и [Weber, 1967]. Важные таблицы даны в [Grimm, 1962, 1964] и [Williamson, Bretherton, 1963]. Пример Классическим примером распределения Пуассона является смерть солдат от удара копытом лощади в 10 армейских корпусах за период 20 лет A875—1894), Таблица 40 Смертные случаи Наблюдаемые Расчетные 0 109 108,7 1 65 66,3 2 22 20,2 3 3 4,1 4 1 0,6 >5 0 0,1 2 200 200 На основании средних частот получаем -65+2-22+3-3 + 4- п 200 @2.109 + 12-65+22-22 + 32 200 6J ) —122/200 200—1 121,58 129 -0,61. Согласно A.189) мы имеем по A.190) X2 - 0,61 0,61 _t 10 0,61 ~~ 9 199,3 < 233 ^Х?99; cos. Итак, предлагаемое распределение можно описать распределением Пуассона (X = 0,61) Вообще, как правило, оценки s2 и X отличаются друг от друга. = °»610'g~°'ai ^0,5434; 200-0,5434=108,68 и т. д. 183
— ). A.191) х\ J В качестве упражнения рекомендуем заполнить до конца табл. 40. Относительные частоты (вероятности) распределения Пуассона задаются последовательными членами соотношения e-b2-*L=e-b(l+K+—+—+... + — х\ \ 2\ 31 х\ Ожидаемые частоты получаются как произведение отдельных членов на объем всей выборки. Определим, например, ожидаемую частоту для третьего члена: n.e-KlL= 200-0,54335.-^^ ==20,2и т.д. Если имеется эмпирическое распределение, похожее на распределение Пуассона, и если нуль-класс (нуль успехов) содержит наибольшее число членов, то можно оценить X по формуле -,„(. число членов в нуль-классе общее число членов ^-ln(-M. A.192) Пример Таблица 41 0 327 1 340 2 160 3 53 4 16 5 3 6 1 2 900 Обычно X = 904 900 (О . 327 + 1 • 340 + ... + 6 • 1) = gg ~ l. Упрощенно j± = g~ = 0,363, In 0,363 = —1,013 или К = 1,013 ~ 1, или через десятичные логарифмы lg 0,363 = 9,5599—10 = —0,4401; 2,3026 • lg 0,363 = 2,3026 (—0,4401) = —1,013. Применяя упрощенную оценку к нашему примеру, получим Я= —In [ ) = —In 0,545=0,60697 (отличный результат!). \ 200 / Критерий однородности, определяющий допустимые отклонения в нуль-классе и других классах, описан в [Rao, Chakravarti, 1956]. Таблицы и примеры можно найти в оригинальных работах. 1.6.8. МУЛЬТИНОМИАЛЬНЫЕ КОЭФФИЦИЕНТЫ Когда п элементов распределены по k группам так, что/&Х + Л2 + + ... + nh — п, где ttj, па,.-м Пи обозначают числа элементов в соответствующих группах, то число возможных распределений п элементов по таким k группам определяется выражением 1S4
-(мультиномиальный коэффициент). A.193) «11-п2 !•.. .-r Примеры 1. 10 студентов нужно разделить на 2 баскетбольные команды по 5 человек. Сколько можно составить различных вариантов команд? 10! 3628 800 5!-5! ( 120-120 2. Колода из 52 карт разделяется 4 игроками поровну (по 13 карт). Сколько существует вариантов такого разделения? 52! 8,0658-10е? 13!-13!-13!-13! F,2270- 109L 1.6.9. МУЛЬТИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ -5,36.1028. Мы знаем, что если вероятность случайного выбора курящего составляет р, а некурящего — A—р), то вероятность получить точно х курящих из общего числа п равна ^ц-ру*-*. A.158) Если вместо двух исходов возможны несколько — Ег, Е2, ..., Ek с вероятностями рг, р2, ..., pky то вероятность в п опытах получить точно nl9 пъ ..., nk событий Еъ ?2, ..., Ek определяется выражением A.194); иначе: если возможны больше чем два исхода и генеральная совокупность состоит из исходов Аг, А2, ..., Ah с вероятностями ръ р2, ...» Ри при 2 Pi = 1> то вероятность того, что в выборке из п независимых наблюдений пг раз наступит исход Аъ п2 раз наступит исход Л2 и т. д., распределена по мультиномиальному закону (полиномиальное распределение): Р(пип%9...9пи\1р1,р2,...,рк\п) = A.194) k При УСЛОВИИ 2 ni = п- 1=1 Параметры этого распределения: среднее значение: jui^ = при A.195) дисперсия: а? = npt (l—pi) = пргцг. A.196) При k = 2 (частный случай) получается биномиальное распределение. Выражение A.194) может быть получено также из обобщенного гипергеометрического распределения при постоянном п и растущем N. Мультиномиальное распределение имеет много применений: на предприятии имеется, скажем, п машин, которые работают не постоян- 185
но. Включаются и выключаются они независимо друг от друга. Обозначим через рг вероятность того, что 1-я машина работает в заданный момент времени; тогда вероятность того, что в этот момент времени работают точно п' машин, Р (п' \ pt I n) определяется выражением A.194). Параметры полиномиального распределения рассматриваются в гл. 6 (проверка таблиц сопряженности признаков типа г*с на однородность и независимость). Примеры 1. В коробке содержится 100 бус, из которых 50 — красные, 30 — зеленые и 20 — черные. Какова вероятность того, что из 6 вынутых наугад бус будут 3 красные, 2 зеленые и 1 черная? Так как выбор осуществляется с возвратом, то вероятность выбрать красную, зеленую и черную бусинку равны соответственно /?х 5= 0,5, р2 = 0,3 и р3 = 0,2. Вероятность выбрать б бус в заданном сочетании равна Р - ^~^ = @,5K @,3)* @,2)i = Оу 135. 2. Идеальную кость бросают 12 раз. Вероятность появления 1,2 и 3 по одному разу и 3, 4 и 6 — по три раза равна (заметьте: 1 + 1 + 1+3+ 3 + 3 = 12) р = 12! 1Mb 11.31- 31-3! 3. 10 человек должны выбрать одного из трех кандидатов (Л, В, С). Чему равна вероятность выбора &4, 1В и 1С? -.—.— = 0,00152. 81-11.1! \3 ) \ 3 ) \ 3 ) 6561 3 3 Вероятность события ЗАУ ЗВУ 4С (или ЗА, 4В, ЗСУ или 4АУ ЗВ, ЗС) равна Р — 10! ( 1 \* ( 1 \*( 1 У== 362880Q JL J_ JL _ "~ 3I.31-41 \3/ V 3 у \ 3 / 6-6-24 ' 27 ' 27 ' 81 "~" 420°-=--0,07113, 59 049 т. е. примерно в 47 раз больше, чем Psa, ib, ic-
ГЛАВА. 2 ПРИМЕНЕНИЕ СТАТИСТИЧЕСКИХ МЕТОДОВ В МЕДИЦИНЕ И ТЕХНИКЕ 2.1. СТАТИСТИЧЕСКИЕ МЕТОДЫ В МЕДИЦИНЕ Если действие снотворного испытывается на большом круге лиц, увеличение продолжительности сна для разных лиц оказывается различным. Чего можно достичь статистическими исследованиями — это прежде всего суждения о среднем увеличении продолжительности сна. Далее необходимо проверить, гарантируется ли статистически это увеличение. Этот вид исследований предполагает, наряду с использованием математической статистики, хорошую осведомленность в исследуемой области, потому что воздействие должно быть определено как функция наперед заданных причин. Это означает в нашем примере, что необходимо избегать всякого психологического влияния пациента. Ни врач, ни пациент не должны знать, является ли даваемое средство испытуемым снотворным или заведомо неэффективным средством (так называемым плацебо). Этот вид опытов называют «дважды слепыми опытами». Они показывают трудности нематематического характера при использовании статистических критериев. Наряду с этим стоит опасаться следующего. Если мы исходим из определенной постановки задачи, то, собственно, подменяем проблему изучением поведения ряда признаков у некоторого объекта при определенных условиях; реальный признак подменяется наблюдением признака, наблюдение — символами протокола. В каждом приведенном пункте из цепочки подстановок может иметь место ошибка (ошибка подстановки). Во многих и важнейших случаях подстановки близость задачи и признака и тем самым ценность заключения незначительны. Например, у тех, кто при исследовании плодовитости и бесплодия ориентируется на число детей. Непосредственно связанный с задачей признак должен будет учитывать еще и детскую смертность. В последние десятилетия особенно распространилось понимание того, что и в клинической медицине статистика также может служить вспомогательным средством при добывании знаний. В этой области импонирующим результатом является открытие (в 1941 г.) поражения 187
эмбриона краснухой австралийским окулистом Грегом (Gregg), koto- рый путем чисто статистического анализа провел доказательство того, что должна существовать связь между известными, но ранее считавшимися наследственными повреждениями эмбриона и заболеванием краснухой матерей в первые месяцы беременности. В 1851 г. примирились причуды так называемых терапевтических опытов некоторых врачей, которые чаще всего строили их на анализе собственных ощущений и воспоминаний, а также признаков, извлеченных из описанных в литературе случаев, с образом действия физиков, которые выводили среднюю температуру некоторых помещений из того, как часто они зябнут или потеют (см. [Martini, 1953, s. 5]). С тех пор прошло более 120 лет. Основные принципы медицинской статистики, в особенности клинико-терапевтических исследований, сегодня хорошо знакомы каждому врачу. Применение статистических и математических методов в биологии (и медицине) привело к биометрии; в соответствующих значениях употребляются психометрия, социометрия, эконометрия и технометрия. 2.1.1. ОБЗОР ИСХОДНЫХ МАТЕРИАЛОВ Помимо ошибок округления при записях веса и сверх того фальсификаций возраста, помимо субъективных ошибок оценивания и измерения персоналом лаборатории есть ошибки, которые совершаются умышленно вследствие заинтересованности опрашиваемого лица. Большая доля стариков в Болгарии якобы объясняется незнанием секрета их возврата и легкостью соединения действительных данных с завышенными. В странах, население которых преимущественно исповедует ислам, наблюдается значительное отклонение соотношения полов новорожденных от обычного. Там наблюдается значительное превышение числа мальчиков. Достаточно достоверное объяснение заключается, согласно [Freudenberg, 1962], в том, что в этих странах рождение девочки считается столь маловажным, что часто не регистрируется. Введение в демографическую статистику (демометрию, см. [Winkler, 1963]) дают [Flaskamper, 1962], см. также [Adam, 1966], [Benjamin, 1968], [Bogue, 1969], [Winkler, 1969] и [Сох, 1970]. 2.1.2. НАДЕЖНОСТЬ ЛАБОРАТОРНЫХ МЕТОДОВ Известно, что результаты клинических и лабораторных исследований подвержены различного рода искажениям. Ошибки могут, например, появиться при получении, хранении и обработке материалов исследования. Так, ошибки считывания не столь уж редки при измерении температуры тела, скорости оседания эритроцитов и фотометрическом анализе. Знание степени надежности исследований, проведенных в клинической лаборатории, трудно переоценить для практической медицины. 188
Решение о том, указывает ли резул!л^ исследования йа йатолб* гию или нет, опирается, с одной стороны, на точное знание надежности метода, а с другой — на точное знание нормы (ср. также [Kol- 1ег, 1965], [Castleman и др., 1970], [Eilers, 1970], [Reed, 1970], а также [Williams и др., 1970]). Так как норма для здоровых людей в большинстве случаев имеет значительные отклонения от нормального распределения, приходится принимать 2,5%-ные и 97,5%-ные пределы выборочного распределения как «клинические границы» ([Elveback и др., 1970]). Надежность метода определить трудно, так как она обусловлена рядом факторов, которым от случая к случаю, в зависимости от практической медицинской цели и диагностического значения метода, придается различный вес. Важнейшими критериями надежности служат: 1. Специфичность (specificity)—способность обнаружения некоторых химических веществ без помех со стороны других веществ. 2. Правильность (accuracy) — способность точно количественно определять расход исследуемого материала (во избежание систематической ошибки!). Правильность контролируется тремя простыми методами: а) сравнительный опыт — сравнение методов производится за счет параллельного определения каким-то более точным (надежным) методом; б) опыт с добавкой — к исследуемому материалу добавляют известное количество анализируемого вещества; в) опыт со смесями — сыворотка или моча смешиваются в различных объемных содержаниях с высокими и низкими концентрациями анализируемых веществ. 3. Прецизионность (precision), точность или воспроизводимость — способность регистрации случайной ошибки метода при обновлении реагентов, в различные дни различными лаборантками и в разных лабораториях, на основании размаха вариации, среднего квадратичного отклонения и коэффициента вариации. Если коэффициент вариации выше пяти, то необходим двукратный или трехкратный анализ. При трехкратном анализе следует предостеречь от отбрасывания значений, лежащих несколько в стороне; почти всегда от этого страдает точность анализа. Значительные отклонения значений друг от друга не столь уж редки (ср. [Willke, 1966], а также [Anscombe, Barron, 1966]). Юденом [Youden, 1962] показано, как для нормально распределенной величины (а) по двукратному (пусть меньшее значение обозначено xi : xi ^ *г) и б) по трехкратному анализу (хг ^ х2 <| х3) можно сделать вывод об истинном значении величины (fx) и произвести оценку соответствующего доверительного интервала. A) jlx лежит (а) с вероятностью Р = 50% в области хг < \i < x2 и (б) с вероятностью Р = 75% в области хг < \х < х3. B) Приближенной доверительной областью служит (а) 80%-Ш: хг — (х2—хх) < [х < х2 + (х2—хг) и (б) 95%'DH: хх — (хъ—х^ < [х < х3 + (х3—хг). 189
Для величины, по меньшей мере приближенно нормально распре* деленной, можно указать в соответствии с [McFarren, 1970] общую (равную сумме случайной и систематической ошибок) ошибку анализа, в %; Здесь \х — истинное значение; x и s нельзя вычислять по малой выборке. Метод практически непригоден в случае G>50% и очень хорош, если G<25%. Пример |х — 0,52; *=0,50; G^U°-50-°>52l + 2-M5 1-100 = 23%. L 0,52 J s = 0,05; 4. Чувствительность (sensitivity) — характеризуется наименьшей абсолютной величиной, которая значимо отличается от нуля. В предположении приближенно нормального распределения случайной величины, обозначая дисперсию нулевого значения через si, дисперсию стандартной навески через s% и дисперсию скорректированного значения через s?Opp = s? + s?> получим нижнюю границу Ви или чувствительность метода — если риск I = риск II = 0,05 — в виде следующего выражения (по Уилсону [Wilson, 1961] и Русу [Roos, 1962]): Ви = 2 . 1,645 • sKopp ~ 3,3 • sKOpp. B.16) Более подробно в случае надобности можно ознакомиться в [Kaiser, 1966], [Svoboda, Gerbatsch, 1968], а также [Gabriels, 1970]. При сравнении двух и более методов можно использовать отношение чувствительностей по [Mandel, Stiehler, 1954], [Mandel, 1964] (см. также ниже). 5. Практическая проверка в течение долгого времени. Здесь выясняются: степень трудности, аппаратурная сложность, требуемое время, затраты. Правильность и точность — важнейшие понятия для характеристики надежности измерений. Наряду со стандартным отклонением как мерой повторяемости необходимо в каждом случае производить хотя бы грубую оценку систематической ошибки. Для этого требуется знание дела. На практике метод с малой систематической погрешностью и более высокой точностью следует предпочесть методу, который дает несмещенное среднее значение с невысокой точностью, иначе говоря: результат, близкий к истинному и имеющий малый разброс, определенно лучше того, который дает «в среднем» истинное значение, однако имеет значительный разброс, ибо мы обычно вынуждены ограничиваться немногими измерениями (см. также [Cochran, 1968]). 190
Более подробно знакомит с надежностью измерений великолепный обзор [Eisenhart, 1963]. К сожалению, мы не можем остановиться на сравнении точности и правильности многих лабораторных методов. Наряду с работами [Tonks, 1963], [Mandel, Lashof, 1959] следовало бы в особенности отметить публикации [Youden, 1959, 1963] (см. также [Chun, 1966] и [Kramer, 1967]). Простое сравнение некоторого нового количественного метода и стандартных методов приведено в [Barnett, 1965]. Там, где необходимо проделать 164 опыта, —для быстрой оценки достаточно сорока, проанализированных в соответствии с обоими методами. Контрольные карты в лаборатории Непрерывный контроль надежности, прежде всего точности метода, осуществляется графическим путем с помощью так называемых контрольных карт. Согласно правилу по меньшей мере 40 раз проводят анализ пробы с известным содержанием и рисуют статистическое распределение частот полученных результатов измерений. Если кривая распределения хотя бы приближенно совпадает с кривой нормаль- Верхняя контрольная гоаница ^^н^л_ожи^аемая_граница_ _ —_____ х Нижняя i Нижняя контрольная граница Выборки до времени Рис. 31. Контрольная карта. ного распределения, можно при помощи оценок для х и s сконструировать контрольную карту. Если максимум отсутствует или имеется несколько максимумов, метод еще непригоден для контроля. Пример контрольной карты приведен на рис. 31 (по оси абсцисс — дни, по оси ординат — измерения). На миллиметровке на расстоянии zfcs и ±2 s от среднего значения х нанесены граничные линии. Мы знаем, что в случае нормального распределения 68% всех наблюдаемых значений лежит в области х ±s и 95% — в области х ±2 s. Поэтому следует ожидать, что при ежедневном контрольном анализе среди 100 точных анализов приблизительно 32 будут лежать за областью ±s и приблизительно 5 — за областью ±2 s (рис. 32). Если отклонения от среднего значения встречаются чаще, то на каждом этапе метод должен быть подвергнут критической проверке. Если нанесенное множество точек беспорядочно рассеяно не около средней, а вдоль возрастающей или ниспадающей линии, следует предположить существование зависящей от времени систематичес- 191
кой ошибки. Как только по меньшей мере восемь следующих друг за другом измерений окажутся лежащими по одну сторону от средней линии, напрашивается мысль о неслучайном характере отклонений. Используется также «правило трех сигм» (x±3s). Давая консервативную контрольную границу, это правило почти никогда не вызывает ложную тревогу. Наряду с картами среднего значения (лг-карты), предназначенными для кон- 19,2] x+2s троля правильности, карты -+s оазмаха (R-карты) служат # х* для контроля точности по па- /8\ s_L_ х раллельным анализам и так • • # т называемые кумулятивно- • x-s суммирующие карты — для ! x-2s раннего надежного определения систематических откло- L-^ ^ ^ * нений. Заблаговременноерас- ' „ ' познание тренда чрезвычайно Рис. 32. Результаты ежедневных кон- RflWHO ппя КОНТПлпЯ неппе- трольных измерений по определению ка- важно для кишрилм исирс лий-стандарта. рывного процесса: определяют для i последовательных дней (I = 1, 2, 3, ..., г) отклонения хг истинной концентрации от значений стандартного раствора базового значения k и наносят непрерывно суммируемые значения (скользящие суммы) Sr= У (xt-k) B.2) на диаграмму типа изображенной на рис. 32. По оси ординат вниз от начала координат откладывают отрицательные и вверх — положительные значения Sr. По оси абсцисс откладывают дни; в протиполож- ность к обычным контрольным картам на этой карте отсутствуют граничные линии, параллельные оси абсцисс. Пока метод находится под контролем, кривая имеет нулевой наклон и проходит параллельно оси абсцисс. Если наклон кривой достиг значения, заметно отличающегося от нуля, можно предположить, что метод вышел из-под контроля. Это предположение тем обоснованнее, чем длиннее отрезок кривой с таким наклоном. Проверка того, не превосходит ли наклон кривой граничное значение, производится F-об- разным шаблоном (У-маской), конструкция которого описана в [Barnard, 1959], [Kemp, 1961], [Ewan, 1963], [Johnson, Leone, 1964], а также в [Woodward, Goldsmith, 1964]. Кумулятивно-суммирующие карты разработаны Пэйджем (Page). Другие интересные применения этого принципа в рамках контроля качества даны в [Kemp, 1962] и [Page, 1963] (см. также [Taylor, 1968], [Вагг, 1967], [Woodward, 1968], [Zacek, 1968], [Vessereau, 1970]) и в особенности в [Dobben de Bruyn, 1968] и [Bissel, 1969], в обеих с важными примечаниями. 192
2.1.3. ЗАБОЛЕВАНИЕ КАК ПРЕДМЕТ ЭКСПЕРИМЕНТА И МАССОВОЕ ЯВЛЕНИЕ Опыт является решающим элементом врачебных знаний, будь то собранный воедино и изложенный опыт предыдущих исследователей или опыт, обобщенный теорией. Основой опыта и знаний, закономерностей и законов никогда не были единичные наблюдения, а всегда, как подчеркивал Коллер [Koller, 1963], —сведения, полученные на основе массовых явлений. Только благодаря понятию массовости, которое является основой классической статистики, в познании создается такая ситуация, когда можно превзойти результаты отдельных наблюдений. Только для массы, или для генеральной совокупности, больных (и тем самым для заболевания) могут быть сделаны категорические выводы: 70% пациентов после определенного лечения будут здоровы, 10% — получат рецидивы. Если из 100 больных 90 вылечились, это служит показателем, который как массовый признак приблизительно верен также и для следующих 100 больных. Если при другой терапии выздоравливает только 70% и обе группы больных по своему составу совпадают по всем существенным влияющим факторам (т. е. в отношении возраста, пола, серьезности болезни, телосложения, предрасположения и других входных переменных и влияющих факторов), то эти методы лечения можно сравнивать друг с другом. Если это различие доли выздоравливающих для двух методов лечения повторяется для Других мест, с другими врачами и при других прочих привходящих обстоятельствах, то результат можно считать пригодным к обобщению. Тогда станет обоснованным вывод о том, что метод лечения I лучше, чем метод лечения II. В будущем следует ожидать лучших результатов от метода I, и метод II отбрасывают. Только рассмотрение массовых явлений позволяет при благоприятных условиях сделать заключение о сравнении двух методов. 2.1.4. СТАТИСТИКА ПРИЧИН БОЛЕЗНЕЙ: РЕТРОСПЕКТИВНЫЕ И ПЕРСПЕКТИВНЫЕ СРАВНИТЕЛЬНЫЕ РЯДЫ Важнейшими методами этиологической статистики являются ретроспективные и перспективные сравнительные ряды [Koller, 1963], [Cochran, 1965]. В ретроспективном ряду сравнивают группу больных с группой лиц, не страдающих этой болезнью, и устанавливают задним числом (по историям болезни или посредством личных бесед или обследований) наличие или отсутствие в прошлом определенных факторов. Мы можем допустить употребление термина «причина» для такого фактора, при отсутствии которого заболевание не встречается и по сравнению с которым другие факторы отходят на второй план. Следует, однако, подчеркнуть, что вместо причинной связи соединения фактора и болезни может иметься также ряд других связей (соотношений); например, может быть фактором симптом, или предпосылка, болезни, 7 Зек. 930 193
Сравнивается частота этого фактора в обоих рядах. При этом контрольный ряд по величине должен быть по меньшей мере такой же, что и испытуемый ряд. На рис. 33 верхняя кривая I изображает изменение стандартного отклонения, или, как говорят еще, нормированной ошибки разности, когда контрольный ряд п2 больше или меньше проверяемого ряда ях. Если контрольный ряд делают вдвое больше проверяемого, нормированная ошибка разности уменьшается пример, ОА Равные объемы'""^ рядов ;/2(nf+n2) i i i 0 Tlf 2П] J/7/ 4П; 2п, Зщ 6щ Рис. 33. Стандартная ошибка разности между двумя частотами при различных соотношениях объемов рядов [KollerS. Einfiihrung in die Metho- den der atiologischen Forschung-Stati- stik und Dokumentation, Method. Inform. Mod., 2A963I—13, Abb. 1, S. 6]. но лишь на 13%. При дальнейшем увеличении эффект еще слабее. Такие затраты окупаются только в случае редких заболеваний, когда объем пг проверяемого ряда не может быть увеличен. Но если контрольный ряд меньше проверяемого, стандартное отклонение быстро увеличивается (левая часть верхней кривой!). Если можно увеличить расходы, то проверяемый и контрольный ряды стоит наращивать в одинаковой мере. Пунктирная кривая II показывает для абсциссы, соответствующей одному и тому же общему объему (пг + п2), как и для кривой I, стандартную ошибку разности, много меньшую при пг = п2 = 1/2 (пг + п2), чем при одностороннем увеличении я2. Необходимо, следовательно, выбирать проверяемый и контрольный ряды одинакового объема. Два ряда сравнимы, если они различаются только сравниваемыми признаками, а по всем другим признакам совпадают, т. е. статистические распределения прочих признаков, за исключением случайных различий, должны быть одинаковыми. На практике это зависит от трех существенных моментов: совпадения структуры, условий наблюдения и репрезентативности [Roller 1964]. 1. Структурное совпадение: совпадение в сравниваемых группах распределений частот влияющих факторов, таких, как возраст, пол, серьезность заболевания. Структурного неравенства зачастую можно избежать только соответствующим подбором групп. Лучше всего предпринять подбор аналогичных сравниваемых пар, причем, когда в распоряжении имеется несколько пригодных для сравнения случаев, при распределении по парам должен использоваться принцип случайности (рандомизация). 194
2. Совпадение условий наблюдения: совпадение способов наблюдения и условий наблюдения. Наблюдение и регистрация фактора должны в точности совпадать. Результаты опросов изменяются, если врачам или больным станет известна гипотеза или когда больных расспрашивают о факторе с большой настойчивостью; в таких случаях у больных иногда создается предрасположение к подтверждению или отрицанию фактора. В сущности, выводы пригодны только тогда, когда и опрашивающий и опрашиваемый не имеют ясного представления о диапазоне и об этиологической гипотезе. Когда играют роль психологические факторы, например, при ретроспективных опросах, как в случае «Thalidomid-Komplex» либо в клинических сравнительных исследованиях при определении успеха лечения, система наблюдения является решающей. Смещение интервьюера {interviewer bias), как известно из социологических опросов, также относится сюда, подобно меняющейся с течением времени и обычно возрастающей точности диагноза при исследованиях изменения во времени смертности от различных причин. 3. Совпадение репрезентативности. Сравниваемые ряды должны быть выборками, соответствующими одной и той же генеральной совокупности. В случае перспективных этиологических рядов оба ряда относятся чаще всего или ко всему населению, или к родившимся в той же самой клинике. В случае ретроспективных рядов получение подходящего, с точки зрения репрезентативности, контрольного ряда часто затруднительно. Контрольный ряд должен быть репрезентативным как для не заболевшей части населения, так и для больных, поступивших в клинику. Только тогда может быть проверена возможность обобщения результата. Перспективные ряды менее подвержены ошибкам, но должны быть большими по объему. Здесь сравниваются две группы лиц в одинаковых условиях наблюдения в равные промежутки времени. Вычисляется частота появления болезни. Решающей количественной мерой угрозы заболевания со стороны вредного фактора является отношение числа заболевших к численности обследованного населения или группы с фактором к группе без фактора. Угроза заболевания, выраженная посредством фактора, диагносцируется и измеряется непосредственно. Опытный и контрольный ряды должны быть сопоставимы также по структуре и по условиям наблюдения. Контрольный ряд — быть репрезентативным для всех групп без фактора, из которых получена группа с фактором. Если нет какой-либо специальной этиологической гипотезы, на передний план выдвигается собирание данных осмотра и документации. Из ретроспективного без точной цели анализа накопленных случаев уродств конечностей возникла позднее «проблема талидомида». Перспективно рассматривают такой вредный фактор, как курение, и все разнообразие болезней, на которые оно может оказывать влияние. И здесь широкое наблюдение и документация являются решающими. 7* 195
Выяснение вопроса, нужно ли расценивать наблюдаемые комплексы болезней как случайный феномен, часто является, как, в частности, доказал Ланге [Lange, 1965], очень проблематичным, прежде всего вследствие того, что, кроме трудностей в рациональном разграничении сравниваемых групп и учете времени течения болезни, картина может быть искажена эффектом селекции и неоднородности (см. IFein- stein, 1970] и [Rumke, 1970]). Перспективные ряды представляют для изучения ассоциаций такого рода наилучшие возможности. Замечания о клинических материалах больниц 1. Процентные соотношения пациентов с определенными болезнями, принятых в клинику, почти совсем неизвестны. 2. Возможности быть принятым в клинику у каждого пациента различны. Клинический материал по этой причине не является случайной выборкой. Известные и неизвестные факторы отбора содействуют тому, что в каждой клинике оказывается вполне определенный круг пациентов. 3. Возможными факторами отбора (селекции) являются вид и серьезность заболевания, другие болезни, возраст, пол, профессия, практика диагноза, склонность врача при направлении больного в клинику, размеры и расположение клиники. 4. Поэтому всегда можно обобщать только по частным гипотетическим генеральным совокупностям случаев, которые можно вообразить себе с ростом числа наблюдений при одинаковых условиях. 5. Группы пациентов той же клиники не сопоставимы, если у них различные шансы быть принятыми в клинику. Сопоставление возможно, если рассматриваемый признак не является причиной (поводом) для приема в клинику. 6. Взаимосвязь между болезнями определяется лучше всего при наблюдениях за ровесниками в течение всей их жизни. 7. Сводные данные из-за неудовлетворительной сопоставимости клинического материала отдельных клиник почти никогда непригодны. 2.1.5. ТЕРАПЕВТИЧЕСКИЕ СРАВНЕНИЯ Необходимая предпосылка для терапевтического испытания некоторого лечебного средства — комбинированных препаратов и поли- прагмазей (лечение разносторонними лечебными средствами) при появившихся симптомах болезни следует по возможности избегать — это наличие основы для сравнения. Она может быть получена или (а) из исхода заболевания: альтернатива — здоровье или смерть, или (б) из числа выживших или срока улучшения, или (в) из хода болезни и соответственно из достигнутого улучшения или остаточного дефекта. При острых инфекционных заболеваниях по- повышенную температуру тела всегда необходимо принимать во внимание как самый устойчивый симптом. Кроме того, учитывается картина крови (гемограмма). 196
Желательно в каждом случае иметь измеримые (количественные) критерии. Можно, следуя [Pipberger, Freis, 1960], по аналогии с обычной в анализе технических данных терминологией различать и в медицине «мягкие» и «жесткие» параметры. «Мягкие» параметры — это сведения, полученные при анализе, — такие, например, как кашель, одышка, которые в значительной мере зависят от мнения опрашиваемого пациента. «Жесткие» параметры — такие, например, как возраст, вес тела, рост, являются в большинстве случаев данными лабораторного исследования. Оценка «мягких» параметров количественными значениями, как правило, не приводит к заметным результатам. Критическая оценка результатов терапии, основывающаяся на сравниваемых наблюдениях, имеет задачу разграничить подлинные различия от спонтанных колебаний. Важнейшими предпосылками для применяемых с этой целью статистических методов являются: однородность пациентов, случайное распределение отдельных пациентов по отношению к различным способам лечения, а также повторяемость наблюдений. Требование однородности отдельных объектов эксперимента (в нашем случае пациентов) наталкивается при терапевтическом сравнении на следующие трудности. Ни один больной не походит полностью на другого, страдающего тем же заболеванием. Состояние болезни полностью также никогда не повторяется. Только в случае хронического заболевания в течение болезни пациента повторяются отрезки времени со сходными состояниями. Поэтому преимущественно для таких пациентов исследования ограничиваются, чаще всего на начальной стадии испытания лекарственных веществ, так называемыми индивидуальными терапевтическими сравнениями. При этом пациента лечат в течение следующих друг за другом одинаковых периодов болезни обоими сравниваемыми методами. Кроме обоих терапевтических периодов, в таком случае следует различать и контролировать свободные от специфической терапии предварительный, промежуточный и окончательный периоды. В течение предварительного периода пациента лечат по чисто симптоматическим признакам. Все периоды должны длиться, пока не станет очевидным, что нельзя больше рассчитывать на изменение существовавшего до сих пор течения болезни. Картины болезни пациентов с острыми инфекционными заболеваниями очень похожи. Объединение различных пациентов в две группы однородных больных возможно. Оба коллектива проходят сравниваемые курсы лечения — так называемое коллективное терапевтическое сравнение. Второе требование — о случайном распределении пациентов — при коллективном сравнении и соответственно распределение периодов наблюдения в индивидуальном сравнении (при лечении новым проверяемым медикаментом или при контрольном лечении) гарантирует равномерное распределение всех мешающих точной оценке причин в обеих сравниваемых группах. Тем самым в значительной мере ликвидируется мешающий эффект воздействия неконтролируемых причин. Серьезные искажения могут давать спонтанные выздоровления. 197
Часто для терапевтического сравнения применяют «чередующиеся ряды» (Bleuler), построенные так, что при распределении пациентов и соответственно периодов лечения по различным терапевтическим способам лечения чередуют их между контрольным методом и подлежащим оценке терапевтическим методом. В случае «чередующихся рядов с выравниванием» выбирают или по принципу гарантированной случайности, например с помощью случайных чисел, или так, что первого больного, находящегося под наблюдением и лечащегося, лечат одним средством, второго же — другим из двух сравниваемых медикаментов. С другой стороны, ввиду возможных неравномерностей такого случайного распределения при относительно малом количестве больных, выборку все-таки еще упорядочивают, в особенности по полу, возрасту, весу, стадии заболевания, сопутствующей болезни и т. д., и притом в соответствии с их значимостью и ранговой упорядоченностью. Прежде всего выравнивают те признаки, которым приписывается большее влияние на течение болезни и исход; при тифе, например, — возрасту, при дифтерите — дню болезни. С целью соблюдения объективности врач, проведший выравнивание чередующегося распределения, должен быть отстранен, из осторожности, от последующей оценки результатов. Принцип «выравниваемого чередования» заключается, следовательно, в том, что при формировании коллектива в основу кладут чисто случайное распределение, но в течение коротких промежутков времени устраняют биологически и антропологически обусловленные неравенства двух рядов, с тем чтобы достичь большей аналогичности и сопоставимости обеих групп пациентов. Если для сопоставления располагают значительным количеством больных, то зачастую бывает достаточно распределить их в два ряда по дню их рождения — четным и соответственно нечетным дням месяца. Подлинно случайное распределение при однородном клиническом материале, само собой разумеется, превосходит любой чередующийся ряд с выравниванием. В случае незначительной разнородности клинического материала также не следует отказываться от выравнивания. Третье требование о повторяемости наблюдений, наталкивается особенно на временнйе трудности: некоторые важные признаки болезни нельзя произвольно часто и произвольно быстро последовательно наблюдать и измерять, потому что нельзя требовать произвольно частого обследования пациента. Другое требование, которое должно быть выполнено для достижения безупречной терапевтической оценки,—наличие признаков болезни и репрезентативных симптомов, которые позволяют количественно точно регистрировать состояние болезни: например, таких, как содержание сахара в крови по сравнению с ощущением боли. Субъективные симптомы могут вдобавок находиться под влиянием самообмана пациента, верящего в помощь врача; невольного и непреднамеренного внушающего воздействия врача на пациента, а также самовнушения врача при установлении, наблюдении и градации интенсивности симптома болезни, обусловленного его знанием того, что применено эффективное средство. Против непреднамеренного и невольного обмана оказывается действенным только «неосознанное 198
проведение опыта», «неосознанное его построение» в форме просто или дважды слепого опыта (см. [Martini, 1957], [Schindel, 19623). Построение простого слепого опыта состоит в том, что больного, на котором должна быть испытана пригодность и эффективность медикамента, на протяжении всего испытания держат в неведении о сущности и составе средства, которое должно быть испытано. Сверх того, он по возможности 'должен находиться в неведении и относительно самого факта привлечения его к терапевтическому испытанию. По меньшей мере, необходимо утаивать от него тип средства, которое на нем испытывается, и если для него не составляет тайны факт самого испытания на нем средства, необходимо средство маскировать; при случае пациент должен быть введен в заблуждение ложным лекарством, иначе плацебо (фармакологически неэффективным веществом), с тем чтобы элиминировать его предубеждение за или против средства. Известен случай, приведенный в [Jellinek, 1946]. Три лекарства от головной боли Л, Б, С и плацебо D испытывались на 199 пациентах. Каждый пациент получал, как только он жаловался на головные боли, в течение 14 дней определенный препарат. Доля успешно излеченных головных болей от общего числа составила 0,84 для Л, 0,80 — для В, 0,80 — для С и 0,52 для D. Три активных препарата не проявили, следовательно, каких-либо значительных отличий в отношении эффективности. При более детальном обследовании 79 лиц, на головной боли которых не сказался прием плацебо, доля успешного лечения составила 0,88 для Л, 0,67 —для В и 0,77—для С. Эти числа весьма различаются! Для остальных 120 пациентов, ощущавших подчас облегчение от головной боли после приема плацебо D, процентная доля успеха составляет 0,82 для Л, 0,87 — для В, 0,82 — для С и 0,86 — для D. Если рассматривать этих пациентов, то все 4 препарата как будто обнаруживают одинаковую эффективность. Следовательно, целесообразно всем пациентам перед сравнением нескольких препаратов от головной боли давать плацебо и пациентов, реагирующих на плацебо, при проведении прямого опыта исключить. В среднем треть каждой группы пациентов реагирует на плацебо. Эта реакция наступает быстро, но длится недолго. Разброс велик. Доля положительно реагирующих на плацебо простирается при болях от 0 до 67%, при головных болях — от 46 до 73%. Даже по меньшей мере в 30% случаев дисменореи наблюдается реакция на плацебо. Плацебо не действуют на маленьких детей, в случае тяжелых острых болезней и в случаях органических заболеваний по специфическим причинам. Странным образом тесты на устойчивость к внушению не согласуются с реакцией на плацебо (см. [Documenta Geigy, 1965]), хотя способ употребления (эликсир, таблетки, желатиновые4 капсулы) оказывает большое влияние. Необъяснимы также определенные, обусловленные плацебо, клинические результаты и особенно результаты биохимического анализа [Schindel, 1965]. Некоторые американские врачи предпочитают так называемые «активные плацебо», которые содержат малое количестро более эффективного вещества (см. [Lasagna, 1962]). Само собой разу- 199
меется, что активные плацебо можно применять только тогда, когда исключено, что малое количество активного вещества проявит противоположный эффект или вообще обнаружит другие более или менее сильно ослабленные воздействия. Часто от плацебо отказываются и дают стандартный препарат. «Дважды слепой опыт» предъявляет по сравнению с обычным слепым опытом дополнительные требования. Не только больные, но также и врач (или врачи), наблюдающий и судящий о реакциях больных, не должны знать, что вообще и что непосредственно дают больным — медикаменты или плацебо. Таким врачом не может быть лечащий врач, чтобы его недостаточная информированность о чем-либо, происходящем с его больным, ни в коем случае не сталкивалась бы с его ответственностью врача. Целесообразно, чтобы медикаменты давали сестры, во всяком случае, тот обслуживающий персонал, который их обычно раздает. Всего необычного следует избегать. Но еще более важным является то, чтобы и эти лица не были знакомы со средствами, которые они выдают больным. Очевидно, что таким образом, достигается очень хорошая защита от непреднамеренного внушения. Стремление к такой значительной гарантии показывает, что возможны влияния не только непосредственно на основании предубеждений или самовнушения больного, но также и косвенно, путем сознательного или непреднамеренного, для больного даже неощутимого, влияния лечащего врача. Дважды слепой опыт необходимо применять, например, во всех психологических задачах, когда для установления субьективного критерия требуется суждение врача. Чем большее значение имеют субъективные критерии в исследуемой проблеме, тем более показаний к применению дважды слепого опыта. Он не нужен и достаточно простого слепого опыта, если характеристика симптома может быть осуществлена пациентом без участия врача, например при характеристике боли посредством высказываний: «стало лучше», «по-прежнему» или «хуже». Следует упомянуть также трижды слепой опыт. В этом случае врачу неизвестно, какое лекарство получает пациент, сестра не знает, что она дает больному, и больной не знаком ни врачу, ни сестре. Лучших результатов, чем при дважды слепом опыте, не удалось достичь и при таком построении эксперимента. Относительно «многократно» слепого опыта (однажды был осуществлен даже «five way blind cross over»* опыт) Шиндель [Schindel, 1965] заметил: «По-видимому, авторы думают, что после достижения достаточной «слепоты» осуществляется оккультное зрение». Грандиозный клинический опыт с участием многих клиник, который пропагандировался и осуществлен два десятилетия назад в США Майнлэндом, в Великобритании Хиллом, здесь не обсуждается. Следует только упомянуть, что, как это названо Майнлэндом, «закон Мерфи» («Murphy's Law») — правило из театрального мира * «Пятиступенчатый слепой перевернутый» (англ.). — Прим. ред* 200
«If something can go wrong, it will»* — действует и при сотрудничестве нескольких клиник. Это можно предотвратить прежде всего планированием, осуществлением и оценкой простого и «многобольничного» опыта («multiclinic trials»); авторами все обстоятельно изложено, так что можно рекомендовать обратиться к приведенной литературе. Более поздние обзоры дает журнал «Methodik der Information in der Medizin. Internationale Zeitschrift fur die Methodenlehre der medizinischen Forschung, Information und Dokumentation» — бывший журнал «Medizinische Dokumentation». 2.1.6. ОБЪЕМ ВЫБОРКИ ДЛЯ КЛИНИЧЕСКОГО ЭКСПЕРИМЕНТА В каждом клиническом опыте, при любом сопоставлении двух методов лечения для определения надлежащего объема двух групп пациентов необходимо прежде всего ответить на три вопроса: 1) чему должен быть равен риск обнаружения ложного различия двух методов лечения, которые на самом деле вообще не различаются? (Этот риск мы определим как уровень значимости а); 2) как велик должен быть риск высказывания ложного суждения «нет значимого различия» о двух методах лечения, которые на самом деле отчетливо различаются? (Этот риск обозначают |3). Мы познакомились с ним (риск II) в разделе 1.4.3. «Мощность» статистического критерия или некоторого эксперимента определяют как A—Р). Эксперимент имеет мощность критерия, по крайней мере, равную 0,95, если установлено, что из 20 случаев принятия решений ошибаются только в одном, упуская значимую разницу; 3) как велико должно быть наименьшее, но еще важное различие двух методов лечения? Это различие обозначают А и указывают в процентах. Обычными ответами на эти вопросы являются: 1) нуль; 2) нуль; 3) любое фактическое различие. Теперь легко ответить на вопрос об объеме выборки: обе группы должны иметь бесконечно много пациентов! Из этого следует, что для получения подходящего объема выборки необходимо допустить оба риска; кроме того, различие не должно быть слишком малым (см. обсуждение на с. 113). Задачу нахождения требуемого объема выборок лучше всего решать приближенным методом Шнейдермана [Schnei- derman, 1964], который предполагает нормальное распределение. Рис. 34 дан для двусторонней постановки задачи Bа = 0,05) — т. е. проверяемый метод лучше или хуже стандартного метода лечения—и для 4 уровней риска II (кривые для 0 = 0,5; 0,10; 0,20; 0,50), а также для разностей методов лечения (р2—Pi), равных 5 и 10% (левый рисунок), 15 и 20% (правый рисунок). По оси абсцисс отложена доля выздоровевших рх для стандартного метода и по оси ординат — требуемый объем выборки (пример см. ниже). ¦ «Все, что может испортиться — портится» (англ.). — Прим. ред* 201
Ё этом и следующих разделах для обозначения односторонней постановки задачи (одностороннего критерия) используем символ а, для двусторонней постановки (двустороннего критерия) — символ 2а (т. е. а = аодн и 2а = аДВуст)- ?000 2000 1000 500 wo (р2-р1)-Ж. - /'*< f I . I . c Мощность ' &\05.95~ ~^^-2fi:10.90 ш ~^Z- fl*20.8Q ^T^2Z^05.95: - ^ -КЩО. till 1 ' I ' I ' I МОЩНОСТЬ йкО5 .95 — (p2-p1)*J5 (p2-pi)--20 .00 JO .20 .30 .40 Ю .00 JO .20 JO .40 Рис. 34. Номограмма для определения объемов двух выборок пациентов для ситуации «успех — неудача». Непрерывные линии на левом рисунке — для различия по величине в 5%: линии на правом рисунке — для различия по величине в 15%. Пунктирные линии — для различия в 10% (слева) и в 20% (справа). Уровень значимости Bа=0,005) справедлив для двустороннего сравнения. Для четырех ступеней риска II (р) даны соответствующие мощности критерия. На левом рисунке штриховые линии демонстрируют (слева внизу) определение необходимого объема выборки для 2а=0,05; 0=0,10 (мощность 90%), ожидаемый процент выздоровления pi=20% для стандартных методов лечения; требуемая разница — 10% (р2—pi=0,10). Вертикальная прямая на уровне pi=0,20 продолжается до пересечения с кривой E=0,10, слева считываем объем выборки (я1=/г«410) (табл. 42 показывает /2i=«2=412). [Schneiderman M. A. The Proper Sire of a Clinical Trial «Grandma's Strudeb Method, J. New Drugs, 4A964), 3-11]. Для любого значения риска I задачи этого типа решают с помощью табл. 42 (см. также на с. 321 несколько более точный метод для одностороннего критерия). Прежде всего необходимо определить по табл. 43 некоторые константы. Обозначим их z и гр. Вновь возьмем пример рис. 34 для контроля нашей оценки с помощью номограммы. Поскольку мы назначим 2а = 0,05, из табл. 43 получаем значение z = = 1,9600. Риск II: р = 0,10 дает нам z$ = 1,2816. Для стандартного метода рх = 0,20. Таким образом, имеем три первые позиции А, В, С. Так как мы ожидаем увеличения результативности лечения на 10%, получаем долю выздоровевших для нового метода р2 = 0,20 + 0,10 = = 0,30 (D). Следуя схеме, получаем объем выборок для каждой из двух групп (U). Учитывая еще то обстоятельство, что подсчитанные значения представляют дискретные переменные, а величины z и z$ базируются на непрерывном нормальном распределении, получим (Z) объем выборки с поправкой на непрерывность (nh). V есть «быстрая» оценка объема выборки с учетом поправки на непрерывность (tl'k). 202
Таблица 42. Схема оценки объема выборки по Шнейдерману с примером (см. данные рис. 34) U:n С V: nk' W: X: У: Z: nk Позиция A: z B: zp C: Pl D: p2 ЕГр F: <7i 0: g2 H\~~g J: "pq K: ptfi L: p2g2 M: 2pg N • ^Pigi P: Q: R: S: T: Вычисление a = 2a = P = C + D 2 1 — С 1— D 1-Е E.H C-F D-G 2-/ K + L ¦/M /? AP + BQ \C-D\ R/S Пример 0,025 0,05 0,10 1,9600 1,2816 0,20 0,30 0,25 0,80 0,70 0,75 0,1875 0,1600 0,2100 0,3750 0,3700 0,6124 0,6083 1,97990 0,10 19,7990 Без поправки на непрерывность | Г2 | 392,00 = 392 «быстрой» оценкой поправки на непрерывность | U + 2/S | 412,00=412 С точной поправкой на непрерывность 4,3200 /W Т-Х S V + Y 2,0785 411,52 411,76-412
Таблица 43. Отдельные значения вероятностей нормального распределения для одно- и двустороннего критерия (дополнить табл. 13) Примечания 1. Групповые испытания. Во время II мировой войны каждому призывнику в США делали реакцию Вассермана (непосредственная проверка на сифилис). Положительная реакция была относительно редкой, примерно у 2% подвергавшихся проверке. Так как метод чувствителен, для сокращения проводимых исследований было предложено обрабатывать смешанные пробы крови от нескольких лиц. В случае отрицательного результата все входящие в группу лица считались здоровыми. Положительная реакция означает, что все входящие в группу должны быть обследованы вновь, Можно показать [Dorfman, 1943], что при частоте заболевания 2% оптимальный объем группы составляет 8 человек. Объем проводимых исследований сокращается при этом на 73% (табл. 44, см. также [Sobel, Groll, 1959]). Следует упомянуть еще, что вероятность появления в случайной выборке объемом п по крайней мере одного больного составляет Р = = 1 — A — р)п, где р — относительная частота болезни среди населения. 2. Правило 37%. Предположим, что руководитель ищет новую молодую секретаршу и имеются сто претенденток на место. Предположим далее, что тотчас по ознакомлении с претенденткой руководитель должен решить, зачисляет ли он ее на работу или нет. В таком случае вероятность выбора не лучшей кандидатуры составляет только 1%. Оптимальная стратегия, которая позволяет увеличить вероятность наилучшего выбора до 37%, состоит втом, чтобы ознакомиться с первыми 37 девушками и затем принять на работу первую же претендентку, которая превосходит своих предшественниц. Число 37 (точнее, 36,788) представляет собой отношение числа претенденток A00) к константе е (е = = 2,7 loo). Если вместо 100 в конкурсе участвуют п секретарш, то оптимальной стратегией является ознакомление с п/е девушками и зачисление на работу первой следующей претендентки, превзошедшей своих предшественниц. Вероятность выбора наилучшей кандидатуры в этом случае составляет 37%. Если же известно точное «распределение претенденток», то вероятность даже повышается при- in?fiHTeJIbH0 до 58%' как это показано в исследовании [Glibert, Mosteller, 1966J. Предположим, 30 наездников со своими лошадьми участвуют в турнире. Для определенного заезда лошади распределяются в соответствии со жребием. Вероятность того, что ни одному наезднику не достанется своя лощадь, и в этом р 0,000001 0,00001 0,0001 0,001 0,005 0,01 0,02 0,025 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,1 0,2 0,3 0,4 0,5 Критическое односторонний критерий 4,7534 4,2649 3,7190 3,0902 2,5758 2,3263 2,0537 1,9600 1,8808 1,7507 1,6449 '1,5548 1,4758 1,4051 1,3408 1,2816 0,8416 0,5244 0,2534 0,0000 значение г двусторонний критерий 4,8916 4,4172 3,8906 3,2905 2,8070 2,57581 2,3263 2,2414 2,1701 2,0537 1,9600 1,8808 1,8119 1,7507 1,6954 1,6449 1,2816 1,0364 0.8416 0,6745 Таблица 44 Относительная частота 0,01 0,02 0,05 0,10 0,20 Оптимальный размер групп 11 8 5 4 3 Сэкономленные испытания, % 80 73 57 41 18 204
случае примерно 37%. Интересно, что вероятность для объема выборки п > 6 составляет около 36,8%. Для большего п она вновь приближается к значению Me = 0,367879. 2.2. ПОСЛЕДОВАТЕЛЬНЫЕ ПЛАНЫ Один из современнейших разделов статистики — последовательный анализ был развит во время II мировой войны Вальдом (Wald). Последовательный анализ до 1945 г. оставался военной тайной, так как он тотчас был признан наиболее рациональным методом непрерывного контроля качества в промышленном производстве. Элементарное, но обстоятельное изложение метода с многочисленными примерами опубликовано исследовательской группой Колумбийского университета (Sequential Analysis of Statistical Data: Applications, New York: Columbia University Press, 1945). Дэвис [Davies, 1956] и Вебер [Weber, 19671 также дали очень хорошее введение в последовательный анализ. Библиография имеется в [Armitage, 1960], [Jackson, 1960], [Johnson, 1961] и [Wetherill, 1966]. Основной принцип последовательного анализа состоит в том, что после согласованного установления вероятностей ошибок 1-го и 2-го рода, аир, при заданном различии рассматриваемой генеральной совокупности необходимый для надежного определения этого различия объем выборки является случайной величиной (с определенным математическим ожиданием). Предполагается случайная выборка из бесконечной генеральной совокупности. Проводят соответственно только безусловно необходимое количество наблюдений. Это преимущество становится ощутимым прежде всего в случае, когда каждое наблюдение требует много времени и является дорогостоящим, а также в случае, если данные наблюдений можно получить лишь в ограниченном объеме. По результату каждого отдельного наблюдения, отдельного опыта устанавливают, следует ли продолжить опыт (или последовательность экспериментов) или уже может быть принято решение. Различают численные и графические способы и среди последних—так называемые открытые последовательные планы и замкнутые последовательные планы; последние в отличие от открытых планов всегда приводят к решению. С ними мы познакомимся несколько ближе. Они позволяют проводить сравнение двух медикаментов или методов без вычислений. Если новый препарат А сравнивают с другим медикаментом В, то по принципу выравненного чередования образуют пары пациентов. Оба пациента принимают препарат одновременно (или вскоре друг за другом), причем жеребьевка решает, какой пациент должен получить медикамент А. Оценка эффекта производится по следующей шкале: средство А лучше средства В; средство В лучше средства Л; нет никакого различия. Если средство А лучше, отмечают крестиком на рис. 35 — последовательный план^развитый Броссом [Bross, 1952] с особым учетом медицинских проблем,"— поле перпендикулярно над черным квад- 205
ратом; если лучше средство В — выделяют поле рядом по горизонтали. Если различия нет, никаких пометок на плане не делают, но, однако, на особом "листе отмечают этот результат. Результат второго опыта наносят" точно" таким ""же * образом, как и в первом опыте, но в качестве опорного квадрата'служит поле, выделенное в первом""опыте; при третьем опыте—поле, отмеченное во втором опыте, и т/д. Как только в ходе серии опытов будет'нарушена граница, с вероятностью ошибки 2'а«10% (см. замечание на с. 202 к символу а) справедливо: верхняя граница: А > В, медикамент А лучше; нижняя граница: В>А> медикамент В лучше; средняя граница: А = В, значимого различия не установлено. - й> р В ё ш Щ ¦¦¦¦Щ Ш2о(*0,05 F t nlllJT^ B>ff 0 5 10 15 20 25 30 0 5 Ю 15 20 25 30 35 В лучше, чей й Рис. 35. Два последовательных плана испытаний по Броссу (C^0,05). [Bross I. Sequential medical plans, Biometrics 8, 188—205 A952)]. На вопрос, какое различие является для нас значимым, еще предстоит ответить. Очевидно, что тем быстрее можно установить различие и тем меньше требуется серия экспериментов, чем больше установленное значимое различие; точнее, максимальный объем серии опытов зависит от этого различия. С каким количеством пар в данном случае должно быть проведено испытание, определяет только ход самого эксперимента! Если мы получаем почти только одни результаты «никакого различия», то решения придется ждать долго. Как правило, такие случаи встречаются редко. Если мы рассматриваем процент пациентов, излеченных старым медикаментом р1$ и процент пациентов, излеченных новым медикаментом р2» то ПРИ сравнении в первом и в каждом последующем опыте имеются следующие возможности: Таблица 45 № п/п 1 2 3 4 Старый медикамент Выздоровел Не выздоровел Выздоровел Не выздоровел Новый медикамент Выздоровел Не выздоровел Не выздоровел Выздоровел Вероятность РхшРг (l-ftHl-Л) ЛA-Л) A— Pi)Pu 206
Так как нас интересуют только 3-й и 4-й случаи, мы получаем для доли, в которой происходит случай 4, кратко обозначенной р+: р+ = Р. О-Л) 9 B.3) Pi(l-p2)+(l-Pi)P2 Если рг = р2, то независимо от того, какое значение принимает plt р+ равняется 1/2. Если мы теперь предположим, что новый медикамент лучше, т. е. р2 > р1% то р+ становится больше 1/2. Бросс предложил для обсуждаемого плана последовательных опытов, что если р2 достаточно велико по сравнению с р19 так что р+ = 0,7, то различие между двумя медикаментами можно расценивать как «значительное». Это означает: если старым медикаментом излечивалось 10, 30, 50, 70 или 90% пациентов, то соответствующие проценты для нового медикамента составляют 21, 50, 70, 84 и 95%. Видно, что наибольшее различие двух методов лечения имеет место, если процент излечиваемых старым лекарством пациентов составлял 30—50. При этом максимальный объем серии опытов становится наименьшим. Известно, что, если методы лечения имеют едва заметный успех или почти всегда дают успешный результат, необходимо выполнить значительный объем экспериментов, чтобы получить отчетливое различие между двумя методами. В целом при использовании метода последовательного анализа необходимо выполнить около двух третей наблюдений, требующихся при обычных классических методах. Возвратимся к рис. 35 и исследуем мощность этого последовательного критерия, который разработан для средних и коротких серий опытов и средних различий. Если различие между двумя методами лечения отсутствует (р+ = 0,5), то различие определяется ошибочно с вероятностью ошибки 10%, притом в обоих направлениях (Pi> P2> Рг> Pi)> T- е. примерно в 80% случаев мы бы правильно констатировали: какое-либо значимое различие отсутствует! Если для двух методов лечения имеет место значимое различие (р+ = 0,7; следовательно, р2 значимо больше рх), то общая вероятность ошибочного решения составляет уже только приблизительно 10%, или в 90% случаев мы признаем превосходство нового метода. Шансы сделать правильный вывод возрастают с 80% (р+ = 0,5) до 90% (р+ = 0,7). Если различие между обоими медикаментами незначимо (р+ = = 0,6), то мы делаем правильный вывод, что новый метод лечения обладает преимуществом примерно в 50% случаев. Вероятность того, что мы признаем (ошибочно) лучшим старый метод лечения, тогда менее 1 %. Если мы хотим обнаружить очень малые различия двух методов, то необходимо использовать другие схемы последовательных опытов с намного более длинными сериями опытов. Смотря по обстоятельствам, в таком случае необходимо заменить симметричную схему с двусторонним критерием — другой, с односторонним критерием (#0 : А > В, НА- А < В), при которой средняя область (на рис. 35 это область А = В) объединяется с областью В > А. Это целесообразно, когда старый метод лечения хорошо изучен, оправдал надежды, и новый метод должен быть введен только в слу- 207
20 W чае, если будет доказано его однозначное превосходство. Для этой цели Спайсер (Spicer) разработал одностороннюю схему последовательных опытов (рис. 36). Если А > В — новый метод принимают, если В > А — отклоняют. Схема односторонних опытов по Спайсеру [Spicer, 1962] (см. [Ailing, 19661) имеет то преимущество, что максимальный объем выборки относительно мал, особенно тогда, когда новый метод лечения фактически не превосходит старый. Поэтому такая схема пригодна главным образом для предварительных опытов, когда, например, надо испытать несколько новых комбинаций лекарств, из которых большинство не представляет собой действительного прогресса. То, что производится одностороннее испытание, для клинических экспериментов почти не является недостатком, так как ответ на вопрос — хуже или не хуже новый метод лечения — не может вызвать*Ъсобого интереса. Специально для регистрации экономически важных различий между двумя группами организмов Коул [Cole, 1962] разработал «быстрый» последовательный критерий (рис. 37), который позволяет быстро определять большие различия. При этом сознательно избегают чрезмерного подчеркивания минимальных различий, что приводит к некоторому увеличению ошибки второго рода. Принять неверную нуль-гипотезу — «неверный негативный диагноз» — в медицине менее опасно, чем обратное — отклонить правильную нуль-гипотезу. Если должно быть выявлено малое различие, «быстрый» критерий* разработанный для предварительных опытов, необходимо заменить более чувствительной процедурой. Если принят один из трех изложенных планов или другой план и обе выборки получены по принципу выравнивающих чередований, то после длительной серии опытов без однозначного результата часто целесообразно (а с этической точки зрения это также следует приветствовать), чтобы следующего пациента лечили в зависимости от исхода последнего опыта. Если новый метод лечения успешен, то пациента лечат по новому методу; если имела место неудача, пациента лечат старым методом. Опыт следует считать законченным в случае, если нарушены границы схемы последовательных опытов или если отношение пациентов, лечащихся по одному методу, к числу пациентов, лечащихся другим методом, достигло отношения два к одному. В заключение важно подчеркнуть, что использованию последовательного анализа в медицине положен естественный предел также иО Ю 20 В лучше, чем Я Рис. 36. Последовательный план по Спайсеру (а ^0,05; Р^0,05; р+= =0,8).' [Spicer С. С. Some new closed sequential designs for clinical trials, Biometrics 18 A962), 203—211]. 208
при наличии жестких данных. Во-первых, его применение целесообразно только тогда, когда индивидуальные периоды лечения невелики по сравнению с общей длительностью эксперимента, и, во-вторых, малая выборка не может дать объяснение побочным и вторичным эффектам новой терапии, например, возможным осложнениям. По сравнению с классическими методами решающим преимуществом по- 10 20 В лучше, чей й Рис. 37. Последовательный план по Коулу Bа с~0,10; Р~0,10; р+=0,7). [Cole L. М. С. A closed sequential test design for toleration experiments, Ecology 43 A962), 749-753]. следовательного анализа является то, что относительно малые серии опытов при экспериментировании без вычислений позволяют сделать выводы и не могут привести к слишком схематическому использованию этого метода. 2.3. ОЦЕНКА БИОЛОГИЧЕСКИ АКТИВНЫХ ВЕЩЕСТВ НА ОСНОВАНИИ АЛЬТЕРНАТИВНЫХ КРИВЫХ «ДОЗА — ЭФФЕКТ» Препараты, предназначенные для фармацевтического применения и включающие фармакологически активные компоненты, испытывают на животных, растениях и микроорганизмах. Первый шаг состоит в том, что устанавливают вид кривой «доза — эффект». Под этим понимают геометрическое представление измеренных реакций в зависимости от дозы медикамента в системе координат, по оси абсцисс которой откладывается доза, а по оси ординат — реакция (чаще всего интенсивность или частота). Различают альтернативные и количественные кривые «доза—эффект», в зависимости от того, альтернативную или количественную оценку реакции получают на их основе. Пример альтернативного соотношения «доза — эффект»: в опытах на токсичность выборкам мышей вводят различные концентрации яда (токсина); по прошествии определенного времени подсчитывают, сколько мышей выжило, сколько умерло. Результатом опыта является «Да» или «Нет», «Все» или «Никто», следовательно, альтернатива. 209
Пример количественного соотношения «доза — эффект»: несколько групп каплунов получают каждая определенную дозу различно замещенных производных тестостерона; эффект измеряется увеличением длины и высоты гребешка. Результат опыта имеет, следовательно, количественное выражение. В фармакологии и токсикологии важно понятие средней эффективной дозы (EDb0), под которой понимается доза, вызывающая эффект у половины лечащихся индивидов. Ее оценка осуществляется по альтернативным зависимостям «доза — эффект». По кривой накопленных процентов или накопленной функции распределения, для которой в большинстве случаев используют логарифмический масштаб по оси абсцисс, можно установить, у какого процента животных при этой и больших дозах обнаружен эффект и у какого процента при этой и меньших дозах не обнаружена реакция. Симптомом может быть смерть или выживание (для ядов 50% —летальная доза, LD50 — доза, при которой погибает 50% подопытных животных). Можно также контролировать другой симптом, как, например, неспособность к управлению автомобилем при алкогольных дозах (содержание алкоголя в крови в долях процента) или наступление наркоза при дозировании наркотизирующих веществ. ED100 — наименьшая доза, при которой следует ожидать 100%-ного действия наркоза. L Определение ED50 (соответственно LD&0) в большинстве случаев происходит с помощью пробит-анализа. Поскольку этот метод требует значительного объема вычислений, разработан ряд более простых, более пригодных для обычных исследований способов, которые позволяют получить математическое ожидание и дисперсии по зависимости «доза — эффект». При трех нижеследующих условиях значение для EDbQ получают приближенно: 1) дозы симметрично сгруппированы относительно среднего значения (значения накопленных процентов определены от 0 до 100%); 2) отличие фаз друг от друга, или логарифм отношения для каждой из двух последовательных доз, должны поддерживаться постоянными; 3) отдельные дозы должны быть распределены по одинаковому числу индивидов. Рекомендуется выбирать для каждой отдельной дозы максимум 6 индивидов и если в распоряжении имеется больше индивидов, уменьшать разницу между дозами. Это особенно справедливо для предложенного Олехновичом [Olechnowitz, 1958] метода, на который следует обратить внимание. Мы же в дальнейшем займемся методом Спирмэ- на — Кёрбера (Spearman, Karber). Оценка средней эффективности или летальной дозы по методу Спирмэна — Кёрбера Метод Спирмэна — Кёрбера (см. [Bross, 1950], [Cornfield, Mantel, 1950], а также [Brown, 1961], представляет собой приближенный непараметрический метод, который позволяет быстро получить очень хорошие оценки математического ожидания и стандартного отклоне- 210
ния. Если распределение симметрично, то оценивают значение медианы — медианную эффективную дозу (median effective dose) или медианную летальную дозу (median lethal dose), равные дозам, при которых у 50% подопытных животных обнаруживается реакция или наступает смерть. При упомянутых выше условиях и дополнительной гипотезе, что данный тип распределения скорее нормальный, чем логарифмически нормальный, справедливо LDb0 или EDb0 = т = xk—d (Si—1/2). B.4) При этом xh означает наименьшую дозу, начиная с которой всегда наблюдается 100%-ная реакция; d — отличие доз друг от друга; Si — суммарная доля реагирующих индивидов (при положительной реакции, см. табл. 46). Стандартное отклонение sm, соответствующее ED50y оценивают по формуле sLD50 или sED69=:sm = dV 252— Si—Sf—1/12, B.5) в которой S2 — сумма непрерывно суммируемых накопленных долей реагирующих индивидов. Пример Таблица 46 Доза, мг/кг 10 15 20 25 30 35 40 45 d—интервал между Число умерших 0 0 1 3 3 4 5 5 6 дозами =5 Доля мышей 0 0 0,17 0,50 0,50 0,67 0,83 0,83 1,00 4,50=5х Накопленная доля 0 0 0,17 0,67 1,17 1,84 2,67 3,50 4,50 14,52 =S2 В табл. 46 приведены результаты опыта по определению средней смертельной (летальной) дозы чрезвычайно сильно действующего анестезирующего средства. На дозу приходилось по 6 мышей. т = xh—d (Si—I т ** 50—5 D,5—0,5); т = 30; sm = dV2St—S1—S\—lll2; , = 51/2-14,52—4,5—4,52-0,083; 211
s m = 10,26. Отсюда можно установить 90%-ные доверительные границы для истинного значения: т ±1,645 • sm = 30±1,645 . 10,26 (распределение предполагается приближенно нормальным). т /72„ верхи 1=30 ±16,88= Г 46,88 мг/кг; 13,12 мг/кг. Таблица 47 Примеры не на биоиспытания мы не рассматриваем. Сами по себе эти критерии являются проверкой на чувствительность, при которой объект реагирует при превышении некоторого порога приблизительно так же, как наземная мина, реагирующая на сотрясение определенной интенсивности. Эти распределения отличаются незначительным размахом относительно их среднего значения. В большинстве случаев значения распределены примерно по нормальному закону. Для биоиспытаний характерным является то, что переход от линейной к логарифмической шкале доз приводит к «симметрированию» и «нормализации» распределения минимально эффективных доз. Если имеет место приближенно нормальное распределение, то т и sm рассчитывают по формулам: Доза, мг/кг 4 16 64 256 1024 Доля умерших животных 0/8 = 0 4/8 = 0,50 3/6 = 0,50 6/8 = 0,75 8/8= 1,00 5 = 2,75 = xh—d(S —1/2); S™= — B.6) B.7) Здесь приняты обозначения: т — оценка логарифма EDb0 или LDb0; xk — логарифм наименьшей дозы, начиная с которой наблюдается 100%-ная реакция; d — логарифм отношения двух последовательных доз; S — сумма долей реагирующих индивидов; Pi—частота реакции для t-й дозы (i = 0,1,2,..., k) в процентах; х0 — логарифм наибольшей дозы, на которую не реагирует ни один реагент или животное. Следовательно, р0 = 0% и pk = 100%; rtt — число подопытных животных или реагентов, получивших i-ю дозу (t = 1,2, ..., k). Из трех условий, оговоренных на с. 210, здесь необходимы лишь первые два. Несмотря на это, рекомендуется применять одинаковые по объему выборки nt. На практике иной раз трудно выполнить требование 1 — испытать при всех обстоятельствах по крайней мере одну дозу с полным отсутствием реакции и по крайней мере одну дозу с реакцией. В этих случаях оценивают х0 или .(и) лг^; результаты, полученные в этом случае, менее надежны. 212
Пример В табл. 47 приведены результаты опытов по определению средней летальной дозы слабо действующего анестезирующего средства. lg —= lg 4 = 0,6021; lg 1024 = 3,0103; 4 т = lg 1024—lg 4 B,75—0,5); m = 3,0103—0,6021 • 2,25 = 1,6556; antilg 1,6555 = 45,25; LD50 = 45.25 мг/кг; __ Ig4 i /" 50- 5C 1 100 1/ 8—1 50 50-50 75-25 6-1 8-1 ' sm = 0,2019. По выражению /л± 1,96 • sm можно оценить 95%-ные доверительные границы. тв 1 ' Г 2,0513; antilg 2,0513 = 112,54 мг/кг; = 1,6556 ±1,96-0,2019 = тн J L 1,2599; anlilg 1,2599= 18,19 мг/кг. Ради полноты следовало бы указать еще схему действия при проверке разности двух ED50. Если имеются две средние эффективные дозы ?Z?o5 и ?Х>5<> со стандартными отклонениями s' и s", то стандартное отклонение разности ?"Z?6s—EDlo ^J+(sT. B.8) Со статистической надежностью S=99% действительное различие имеется, если справедливо > 2,58.Sj)a3H. B.9) Для определения специфической биологической эффективности препарата на подопытных животных сравнивают его действие с действием стандартного препарата. Из отношения эффективности препарата к эффективности стандартного препарата получают, зная эффективность стандартного препарата, содержание препарата в международных единицах или миллиграммах биологически активного вещества. Можно указать при этом доверительные границы, в которых с большой вероятностью можно предполагать нахождение истинного значения, если только выполнены некоторые предположения. Более подробно о биоиспытаниях см. труды International Symposium on Biological Assay Methods (Red. R.H. Regamey), Karger, Basel, New York, 1969, s. 262 (см. [Stammberger, 1970], где имеется список литературы, а также обзоры [Borth, 19573, [Emmens, 19621, [Cavalli- Sforza, 19643, [Ther, 1965], [Oberzill, 1967], [Lazar, 1968], [McArthur, Colton, 1970] и в особенности [Bliss, 19711 и [Finney, 1971]). 213
2.4. СТАТИСТИЧЕСКИЕ МЕТОДЫ В ТЕХНИКЕ Основой технического прогресса является разработанная за последние четыре десятилетия техническая статистика. Под этим понимают совокупность статистических методов, которые применимы в технике или, как контрольные карты, разработаны специально д'ля этих целей. 2.4.1. КОНТРОЛЬ КАЧЕСТВА В ПРОМЫШЛЕННОМ ПРОИЗВОДСТВЕ Предпосылкой для применения статистических методов в технике служит тот факт, что значения показателей технических изделий всегда обладают распределением вероятности. Соответствующие параметры р и а — меры качества изготовления и а — мера однородности технологии, так что их распределение можно рассматривать в качестве визитной карточки продукции. 2.4.1.1. Контрольные карты Мы знаем, что контрольные карты (см. с. 191) необходимы во всех случаях, когда надо иметь удовлетворительное качество изготовления, причем под «качеством» в рамках статистики мы подразумеваем лишь «качество совпадения» (quality of conformance) между образцом и действительным исполнением изделия [Stange, 1965]. То, что сам образец в соответствии с различными требованиями покупателя может принимать различные обличия и принимает таковые, нас здесь не интересует. Стандартные методы графического контроля качества в промышленности базируются на средних значениях. Для текущего контроля производства регулярно берут малые выборки, вычисляют средние значения и наносят их непрерывно на контрольные карты Шьюхарта (Shewhart control chart), на которых отмечены предупредительные границы (marning limits) ±2а и контрольные границы (action limits) ±3а. Если среднее значение выходит за границы За или два последовательных средних значения переходят границу 2а, полагают, что процесс производства изменился. Исследуется причина значительного отклонения, исключается «ошибка», и процесс юстируется вновь. Вместо карты средних значений (я-карты) используют иногда карты медиан (Г-карты). Для контроля разброса процесса служат карты стандартных отклонений (s-карты) или карты размаха (#-карты). На кумулятивные карты для заблаговременного распознавания тренда мы указывали выше (с. 192). Карты размаха Карты размаха (#-кдрты) служат для локализации и устранения чрезмерного разброса. Если найдены и устранены основные причины разброса, их можно заменить s-картами. #-карты обычно используют совместно с лг-картами. #-карты контролируют «разброс между выборками», #-карты контролируют разброс внутри выборки, поэтому в большинстве случаев нижние границы не используются (см. [Hillier, 1967]. 214
Йостроепие и применение R-mptn Построение 1. Взять повторные случайные выборки объемом п = 4 (или п = 10). Всего надо иметь от 80 до 100 выборочных значений. 2. Вычислить размах для каждой выборки и затем средний размах для всех выборок. 3. Умножить средний размах на 1,85 (соответственно на 1,52). Этот результат является значением верхней предупредительной границы 2а. 4. Умножить это значение на величину 2,37 (соответственно на 1,81). Результат является значением верхней контрольной границы За. 5. Обе границы нанести в виде горизонтальных линий на 7?-карты (ординаты соответствуют размаху). Применение Взять случайную выборку объемом п = 4 (или п = 10). Вычислить размах и нанести его на контрольную карту. Если размах а) достигает предупредительной границы 2а или превосходит ее, то необходимо тотчас взять новую выборку, б) если он достигает контрольной границы За или превосходит ее, то процесс вышел из-под контроля. Наряду с этими контрольными картами имеется еще ряд специальных контрольных карт для наблюдения за исчислимыми признаками, т. е. за «количеством ошибок» и «долей брака». В первом случае качество изготовления оценивают числом ошибок на единицу испытаний, например числом погрешностей цвета и фактуры на 100 м длины костюмной ткани. Так как эти погрешности появляются относительно редко, контрольные границы вычисляются с помощью распределения Пуассона. Если отдельные изделия оценивают просто как «с изъяном» или «без изъяна», «хорошие» или «плохие» и за меру качества выбирают относительную долю брака, то используют р-карты, с помощью которых контролируют количество бракованных изделий. Границы вычисляются в этом случае с помощью биноминального распределения. Следует обратить внимание на так называемую биномиальную бумагу (см. с. 161) и на Мостеллер — Тьюки — Кайзер-тест (МТК-выбороч- ный тест), разработанный фирмой Beuth. Детальное описание различных видов контрольных карт дано в^ [Schindowski, Schiirz, 1966], а также содержится в соответствующих главах книг по контролю качества. Логарифмически-нормально распределенные данные контролируются по Феррелу [Ferrell, 1958] и Моррисону [Morrison, 1958]. Изящный способ контроля качества, основанный на методе последовательного анализа, предложили Бейтлер и Шамблин [Beightler, Shamblin, 1965]. Имеется обзор [Knowler, 1969]. 2.4.1.2. Приемочные испытания За непрерывным контролем производства при посредстве контрольных карт идут приемочные испытания готовой продукции, проводимые изготовителем или покупателем (оптовиком). Оба заинтересованы в удовлетворительном уровне качества, договариваются о допустимом и неприемлемом проценте брака и об уровнях значимости, соответст- 215
вующих обеим долям брака (риск поставщика— отклонение еще хорошей партии продукции; риск покупателя — прием уже плохой партии), и устанавливают таким образом план испытания выборок. (Характеристика приема или оперативная характеристика (см. с. 123) плана дают вероятность приема партии изделий в зависимости от ее процента брака.) На практике при определение планов выборок пользуются уже готовыми таблицами, из которых можно заимствовать объем выборки п и допустимое число приемки а. Число приемки а есть допустимое число плохих изделий в выборке объемом я, когда поставка еще должна быть принята. Если, например, находят по таблице значения п = 56, а = 1, то из поставляемой партии необходимо проверить 56 изделий и отвергнуть партию, если обнаружатся два и более бракованных. Специальную литературу, а также планы-для испытаний «хорошо — плохо» и для испытаний, в ходе которых производятся измерения, см. в первую очередь в [Bowker, Lieberman, 1961], [Schlndowski, Schurz, 1966], а также в [Stange, Henning, 1966]. В особенности следует обратить внимание на двойную вероятностную бумагу для определения планов контроля [Stange, 1962, 1966]. 2.4.1.3. Улучшение качества Необходимость улучшения качества представляет собой как инженерную, так и экономическую задачу. Прежде чем приниматься за нее, необходимо установить, какими входными переменными можно объяснить большую дисперсию а2, и только тогда можно реши!Ь, что именно необходимо улучшить. «Дисперсионный анализ» (см. гл. 7), с помощью которого отвечают на этот вопрос, делит входные переменные на «эффективные», или существенные, и «неэффективные», или несущественные. Для этого наблюдаемую общую дисперсию разлагают на составляющие, которые относятся к комплексам причин. С помощью такого разложения можно установить, какие меры могут обещать успех, а какие — с самого начала безрезультатность. Чтобы получить желаемый результат, необходимо управлять «существенными» компонентами! Только в результате дисперсионного анализа создаются необходимые предпосылки для рационального решения комплекса технико-экономических вопросов, связанных с улучшением качества. Чрезвычайно интересный и важный частный случай улучшения качества — поиск благоприятных условий производства (см. Уайлд [Wilde, 1964]). В технологических процессах выходная величина, т. е. выход продукции, степень чистоты или производственные расходы, зависит в общем случае от многочисленных входных переменных: использованные материалы, вид и концентрация растворителей, давление, температура, время реакции и т. д. Желательно выбрать входные переменные таким образом, чтобы выходная величина имела максимум или — при издержках — минимум. Экспериментальный поиск оптимального решения является задачей трудной, требующей много времени и дорогостоящей. Методы, минимизирующие необходимые экспериментальные расходы, весьма 216
ценны для практики. Особо хорошо зарекомендовал себя описанный Боксом и Уилсоном [Box, Wilson, 1951] метод крутого восхождения (см. [Brooks, 1959]). Хорошее изложение этого метода крутого восхождения («Steepest ascent method») с примерами дано в [Davies, 1956] и [Duncan, 1959]. Если этот не совсем простой метод используют при разработке новых методов, говорят о « Response Surface Experimentation» [Hill, Hunter, 1966], [Burdik, Naylor, 1969]. К сожалению, трудно или даже невозможно точно соблюдать в промышленном производстве лабораторные условия. Практические условия всегда более или менее отклоняются от идеальных. Если в производство внедряют технологию, оптимально построенную в лаборатории, то производят в «теперь уже полностью пригодном способе» ряд небольших систематических изменений всех входных переменных, рассматривают после каждого изменения результат, затем вновь производят изменения, чтобы поэтапно довести технологию до оптимума; этот процесс представляет собой оптимизацию производства с помощью «эволюционного планирования» (Evolutionary Operation). Более подробно об этом см. работы Бокса, а также обзор [Hunter, Kittrel, 1966]. Примеры даны в [Bingham, 1963], [Kenworthy, 1967] и [Peng, 1967] (см. также [Ostle, 1967] и [Lowe, 1970])*. 2.4.2. СРОК СЛУЖБЫ И НАДЕЖНОСТЬ ТЕХНИЧЕСКИХ ИЗДЕЛИЙ Срок службы технических изделий (во многих случаях измеряемый не временными единицами, а в единицах пользования — у ламп накаливания, например, в часах горения) является важнейшей мерой качества. Если хотят вычислить приходящуюся на год потребность в замене или правильно оценить емкость складских помещений для запасных частей тех типов, производство которых прекращено, то необходимо знать их средний срок службы, или, еще лучше, кривую жизни, или кривую отказов. Кривая отказов (абсцисса — время от t0 до tmax, ордината — относительная доля еще имеющихся элементов F (t) = = п (t) 100//г0 (%), F (tQ) = 100 до F (*max) = 0) имеет нормальный г-образный вид. Если хотят определить, в какой мере новые методы производства, иные средства защиты и ухода, новые материалы или изменившиеся экономические условия влияют на срок службы технических элементов, то правильное решение невозможно без знания кривой^отказов. В то время как кривая отказов (потерь) биологической совокупности, как правило, изменяется медленно во времени, для технических и экономических совокупностей она существенно зависит от состояния техники и господствующих в данный момент экономических условий. Такие кривые отказов поэтому значительно менее стабильны. Их нужно, строго говоря, контролировать в течение длительного времени. Для этих целей следует обратить внимание на изящный графический метод. * Горский В. Г., Адлер Ю. П. Планирование промышленного эксперимента. М., 1974. — Прим. ред. 217
Если так называемый характерный срок службы обозначить через время — t и крутизну — а, то кривая отказов F (/) принимает про- F(t) = e V т ) ш B.10) В надлежащим образом преобразованной функциональной сетке — сетке срока службы Штанге [Stange, 1955] — эти линии преобразуются в прямые. Через ряд наблюдаемых точек {/; F (t) = n (t) I n0} — достаточно немного точек — рисуют выровненные прямые. Считывают соответствующие параметры 7\ а и также отношение срока службы IIТ. Средний срок службы t в таком случае равен t = (t/T) Т. Рассмотрение точности, а также примеры линий отказов технических товаров широкого потребления и экономических комплексов из различнейших областей надо заимствовать из оригинальных работ, в которых указываются также контрольные примеры, с тем чтобы не возникало впечатление, как будто бы все линии отказов можно преобразовать в прямые. Особенно полезной является сетка срока годности при анализе сравнительных опытов. Уже после сравнительно короткого наблюдения получается ответ на вопрос, продлевает ли новый метод срок службы! Для первого представления во многих задачах о сроке службы применяют экспоненциальное распределение. Приближенно распределенными по экспоненциальному закону (плотность распределения вероятности падает с ростом переменной) являются, например, срок службы радиоламп и длительность телефонных разговоров, которые ежедневно регистрируются на телефонной станции. Плотность вероятности B.11) #>0, 0>О и накопленная плотность вероятности (функция распределения) F (х) = l—e-o* B.12) экспоненциального распределения имеют простой вид. Среднее значение и дисперсия этого распределения определяются выражениями: р= 0-1, а2 = 0-2. B.13, 2.14 Важные критерии предложены в [Nelson, 1968], а также в [Kumar, Patel, 1971] (см. также [Kabe, 1970]). Пример Для ремонта автомобиля требуется в среднем 3 часа. Какова вероятность того, что время ремонта составит самое большее 2 ч? Предположим, что время, необходимое для ремонта автомобиля t и измеряемое в часах, подчиняется экспоненциальному распределению с параметром 9 = З — 1/3. Получаем тогда вероятность Р (t > 2) - F B) = 1-е Vs = 1—0,513 - 0,487, близкую к 50%, 218
Существенно большое значение для задач срока службы и надежности имеет рассматриваемое как обобщение экспоненциального распределения распределение Вейбулла (Weibull). Оно характеризуется тремя параметрами, может аппроксимировать нормальное распределение и принимать формы разнообразных несимметричных кривых. (Причем оно позволяет легко обнаруживать также неоднородность выборок и (или) смешанные распределения. Это очень интересное распределение (см. [Weibull, 1951, 1961], [Као, 1959], [Goode, Као, 1962], [Berettoni, 1962], [Gottfried, Roberts, 1963], [Ravenis, 1964], [Cohen, 1965], [Qureishi, 1965], [Ireson, 1966], [Johns, Lieberman, 1966], [Dubey, 1967], [Harter, 1967], [Mann, 1967], [Nelson, 1967], [Bain, Thoman, 1968], [Morice, 1968], [Pearson, 1969], [Thoman, 1969], [Fischer, 1970], [D'Agostino, 1971], таблицы [Plait, 1962]). Плотность вероятности распределения Вейбулла определяется формулой BЛ5) при х > а, Р > 0, у > 0, где а — параметр положения, р — масштаб и у — параметр формы. Как правило, лучше работать с функцией распределения F(x) = l—e V Р I . B.16) На интересных связях между этим распределением и распределением экстремальных значений (см. с. 107) подробно останавливаются Фройденталь и Гумбель [Freudenthal, Gumbel, 1953], а также Либлейни Зелен [Lieblein, Zelen, 1956]. В обеих работах вычислены примеры. Значение других распределений для изучения срока службы см. в [Ireson, 1966], а также в обзорах [Zaludova, 1965] и [Morice, 1966]. Примечания 1. Сравнение нескольких изделий относительно их средних сроков службы удобно провести с помощью таблиц [Nelson, 1963]. 2. Так как электронные устройства (как и живые организмы) особенно ненадежны в эксплуатации в начале и конце срока службы, особый интерес представляет промежуток времени с наименьшим числом отказов, который лежит, как правило, между 100 и 3000 ч. Для определенных доверительных границ среднего промежутка времени между отказами {mean time between failures, MTBF) [Simonds, 1963] даны таблицы и примеры (см. также [Hoheychurch, 1965]). 3. Сравнение двух чисел отказов, когда функции распределения неизвестны (см. также формулу A.185) на с. 180). Если количества отказов в двух типах технических устройств, отнесенные к одному и тому же промежутку времени, обозначить хг и х2, то можно приближенно сравнивать хг и х2 (при хх > х2 и хх + х2 ~ 10) по формуле d = V*7—V^. B.17) 219
Если d > У 2 — 1,41, то разница надежна на 5%-ном уровне. Точнее проверяют для хг > х2 и хг + х2 > Ю принадлежность к одной и той же генеральной совокупности по лежащему в основе B.17) соотношению г = V2 (Vx1—0,5—Vx2+ 0,5). Пример Две одинаковые машины имели в определенный месяц хг = 25 и х2 = 16 отказов. Превосходит ли машина 2 машину 1? Так как d = V25—Vl6 == 5—4 = 1 < 1,41, существует лишь случайное различие (а = 0,05), соответственно У2 (У 24^5—УТб^5) = 1,255 < <С 1,96 = z0>05. Так как средняя надежность редко бывает постоянной в течение длительного промежутка времени — вначале она улучшается, затем в результате старения ухудшается, — она должна регулярно контролироваться. Само собой разумеется, эти соображения справедливы лишь для распределения Пуассона. По произведению средней частоты отказов и среднего времени отказов можно оценить средний суммарный выход из строя. Н ад еж н ость Для промышленной электроники и ракетной техники большое значение помимо срока службы имеет надежность (reliability) приборов. Под надежностью мы понимаем вероятность безотказной эксплуатации в течение заданногб времени. Если элемент имеет надежность 0,99 или 99%, это означает, что на основании длительных серий испытаний установлено, что этот элемент работает на протяжении 99% заданного промежутка времени безотказно. Простые методы и вспомогательные средства даны в [Eagle, 1964], [Schmid, 1965], [Drnas, 1966], [Enrik, 1966], [Oehme, 1966] и [Kanno, 1967]. Нормы можно найти в [Domb- rowski, 1966]. Обзоры сделаны Гнеденко с сотрудниками [1968], [Amstadter, 1970] и [Stormer, 1970]. Предположим, прибор состоит из 300 сложных элементов. Если из этих элементов, например, 284 абсолютно безотказны, 12 имеют надежность 99% и 4 — надежность 98%, то надежность прибора при условии независимости надежностей элементов равна 1,00284 • 0,9912 • 0,984 = 1 • 0,8864 ¦ 0,9224 = 0,8176 а? 82%. Этот прибор никто бы не стал покупать. Производитель должен, следовательно, заботиться о том, чтобы почти все элементы имели надежность, равную 1. Пусть прибор состоит из трех элементов Л, Б, С, которые с вероятностями рл, Рв, рс работают безупречно. Пусть функционирование каждого из этих элементов не зависит от состояния двух других. Тогда для надежности типов прибора I—IV можно составить таблицу: 220
Модепь I Л ш ш -$$$>- Надежность Pi -pr'Pb-pc Рр- / - A -PlJ рш= {1<1-рпJУ{1-{1-рвJ}'{1<1-рсJ} Пример Рд - Pg ~ Pq " и, 98 Р* - 0, 94/19 Рл -0, 99653 Рш = 0, 99930 Рш- 0, 99999 * При больших вероятностях р удобно и с хорошим приближением можно вести расчет с использованием суммы вероятностей отказов: Pj -» 1 —C-0,02) =0,94. Благодаря параллельному включению элементов каждого типа (прибор работает удовлетворительно, пока из трех элементов по меньшей мере один функционирует) может быть достигнута любая надежность прибора. Ограничивают это стремление, во-первых, возрастающая стоимость, во-вторых, необходимое пространство и своеобразный феномен: дело в том, что для каждого элемента возникает вероятность начать действовать, когда это нежелательно. Для очень многих приборных систем применение двух, а еще чаще трех параллельно включенных элементов оказалось оптимальным (см. [Gryha, 1960], [Lloyd, Lipow, 1962], [Pieruschka, 1962], [Roberts, 1964], а также [Barlow, Proschan, 1965]). Система слепой посадки с тройным резервированием позволяет выполнять полностью автоматическую посадку реактивных самолетов при видимости, равной нулю. Каждый элемент в системе повторен трижды. Частота отказов должна быть меньше одной неисправности на 10 млн. посадок. Планирование обслуживания Свойство прибора, установки или системы снова восстанавливать свою работоспособность в определенный промежуток времени с помощью контрольной и ремонтной аппаратуры называется ремонтопригодностью (maintainability). Сложные системы стратегического оружия требуют сложных планов обслуживания. Для подводных лодок Голдмэн и Слаттери [Goldman, Slattory, 1964] рассмотрели 5 возможностей: отказ — затопление, ремонт в порту приписки, ремонт на судоверфи, ремонт на плавбазе, ремонт в подводной лодке. Численное решение этой задачи предполагает наличие соответствующих экспериментальных данных (надежность, время ремонта, вид и число регулярных проверок и т. д.) и данных о рентабельности (например, относительно сравнения между автоматическими контрольными устройствами и человеческим контролем и т. д.). 221
2.5. ИССЛЕДОВАНИЕ ОПЕРАЦИЙ Исследование операций (operations research), или наука об управлении производством (management science), является набором методов подготовки решений по управлению производством. На основе мате- матико-статистической модели отыскиваются с помощью электронных вычислительных машин оптимальные решения для системы в целом, ее обслуживания и перспективного развития. Когда модель записана в виде программы для электронной вычислительной машины и проверена в работе на контрольных цифрах, тогда она имитирует и проигрывает реальные ситуации и выдает результаты, которые переносятся на реальную систему. Это могут быть, например, план перевозок, некоторая химическая технология или прохождение крови через почку. «Имитационные модели» позволяют свободно менять параметры входных переменных и внешних условий и находить решения весьма сложных задач без больших затрат и без опасности неудач. Важную роль в исследовании операций играют имитационные модели и линейное программирование (см. IFlagle, 1960], [Sasieni, 1962], [Shuchman, 1963], IHertz, 1964], [Stoller, 1965], библиография дана в [Brusberg, 1965]; см. также [Moor, 1966]). 2.5.1. ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ Интересный метод планирования производства, решающий вопросы оптимального управления на основе системы линейных неравенств, представляет, собой метод линейного программирования (линейного планирования, линейной оптимизации). Нелинейные соотношения иногда могут приближенно заменяться линейными. С помощью линейной оптимизации может, например, решаться задача выпуска нескольких видов продукции с различной прибыльностью и заданной производительностью машин, с тем чтобы получить в результате максимальную общую прибыль. Транспортные перевозки могут быть организованы таким образом, что расходы или время будут минимальными; известна проблема коммивояжера, который должен объехать различные города и вернуться назад, причем надо выбрать кратчайший общий путь. В маталлообрабатывающей промышленности линейное программирование применяется для оптимального размещения оборудования, для уменьшения стружки и других потерь материалов, для решения вопросов об изготовлении или приобретении отдельных изделий. Особенно важно подобное решение об оптимальном распределении транспортных средств, самолетных и корабельных маршрутов при постоянном и неизвестном спросе. Модели такого рода — при неизвестном спросе или при учете различных затрат — особенно интересуют статистиков. Здесь большую роль играет неизвестность, обусловленная случайными факторами (числом туристов, инфляционными тенденциями, квотой занятости, политикой правительства, погодой, авариями и т. д.), распределение которых мало известно или вообще не известно. Простым примером может служить задача о рюкзаке: 222
вес должен быть не более 25 кг, но в нем должно быть все «необходимое» для дальнего похода! Задачей линейного программирования является (см. [Dantzig, 1966]) отыскание оптимума (максимума или минимума) некоторой линейной функции цели, зависящей от нескольких переменных, с учетом ограничений, заданных в виде неравенств. При решении используется так называемый симплекс-метод из геометрии. Дополнительные условия ограничивают целевую функцию внутренней и внешней поверхностями симплекса, т. е. многомерного выпуклого многогранника. Одна из вершин многогранника, которые перебираются по определенной программе на электронной вычислительной машине, и представляет собой искомый оптимум. 2.5.2. ТЕОРИЯ ИГР И ИГРЫ НА МОДЕЛЯХ (PLANSPIEL) Теория игр в отличие от теории вероятностей, которая занимается азартными играми [J.von Neuman, 1928], лотереей, имеет дело со стратегическими играми, в которых участники в течении партии принимают решения по определенным правилам и могут частично влиять на результат игры, как, например, при игре в скат. В игре «Не горячись!» наряду с человеком, который выбирает, какую двинуть фигуру, участвует и случай в виде бросания кости, который определяет число шагов, на которые нужно продвинуть выбранную фигуру. Большинство игр в компании содержит элемент случайности, на который игроки не могут оказать влияния: в карточных играх, например, это сдача карт; в настольных играх — кто начинает партию и тем самым получает право придать партии определенный характер. Игры и ситуации в экономике и в технике имеют много общего: случай, неполная информация, конфликт, коалиция и рациональные решения. Теория игр дает понятия и методы описания процессов с противоположными интересами участвующих сторон. Она занимается вопросом об оптимальном поведении «игрока» в широком классе «игр», наилучшей «стратегией», разрешающей конфликтную ситуацию. Она изучает модели хозяйственной жизни и военно-стратегические проблемы и проверяет, какое поведение индивидуумов, групп, организаций, предпринимателей, командующих армиями, какой план действий, какая стратегия наиболее приемлемы по «шкале пользы» с учетом всех возможных условий и случаев. Существенным является наличие участников с различными целевыми установками, судьбы которых неразрывно связаны друг с другом и которые стремятся к максимальной «пользе», оказывают влияние на «результат игры» выбором своего поведения, но никогда исход игры не могут определить полностью. Стратегические игры на моделях — вычислительные устройства позволяют «экспериментирование на моделях» — показывают последствия различных решений и стратегий. Подробнее об этом см. в [Fogelsang, 1963] и в особенности [Williams, 19661 (см. также [Morgenstern, 19631, [Dresher, 19641, [Charnes Cooper, 1961] или [Shubik, 1965], где имеется библиография), 223
В начале XIX века прусский военный советник фон Райзвитц в Бреслау создал так называемую «игру на ящике с песком», на котором со своим сыном проводил «военные игры». Эта игра вскоре нашла широкое применение при обучении офицеров в Германии. Для введения элемента случайности позднее применили бросание кости; воинские части уже представляли не фигурки, а флажки из целлулоида, накалываемые на карту. С помощью усовершенствованных военных игр были «опробованы» война с Россией 1941 г. (план «Барбаросса»), операция «Морской лев» против Великобритании и наступление в Арденнах 1940 и 1944 гг. [Young, 1959]. Игры преследования (два «игрока»: один пытается ускользнуть, другой пытается его обстрелять) описаны в [Isaacs, 1965]. Подробнее о военных играх см. [Wilson, 1969], а также [Buaknecht, 1967], [Eckler, 1969]. После второй мировой войны методика военных игр была применена в экономике. Из модельных игр по хранению и по снабжению армии США были созданы так называемые модельные игры по управлению производством [Rohn, 1964]. Их задачей является математическое отображение, моделирование с учетом конкуренции (игровые группы конкурируют друг с другом; решения групп принимаются последовательно), экспериментальная проверка политики управления (с входными переменными: продукция, емкость, цена, инвестиции, управление, прибыли, курс акций, наличные деньги, товарность и т. д.) с целью сделать возможным принятие оптимального решения. Моделирование управления производством позволяет, несмотря на неполные и неточные данные и непредусмотримость развития ситуации, проверить альтернативы: проверить взаимодействия и предположения, а также подготовить оптимальные решения и стратегии. Важнейшую помощь при этом оказывают электронные вычислительные машины. 2.5.3. МЕТОД МОНТЕ-КАРЛО И ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ Важной задачей исследования операций является расчленение очень сложной задачи на составные, более простые, построение соответствующих математических моделей, программирование моделей на вычислительных машинах и их проигрывание с реальными входными данными: этот метод представляет собой «имитацию». Если выборочные методы слишком дороги или вообще невозможны, то зачастую можно получить приближенное решение и ценные рекомендации на основании «имитационной выборки». Имитационный выборочный метод, как правило, состоит в том, что фактическая совокупность заменяется ее теоретическим описанием, стохастической «имитационной моделью» с предполагаемым распределением вероятностей, и затем выборки получаются из теоретической совокупности с помощью случайных чисел. Для этих целей в большинстве случаев применяют электронные цифровые вычислительные машины, которые генерируют последовательность псевдослучайных 224
чисел с заданным статистическим распределением, например равномерным, нормальным, пуассоновским и т. д. Так как согласно положению из теории вероятностей любая плотность распределения вероятностей может.быть преобразована к прямоугольному распределению с границами нуль и единица и обратно, то можно указанием числа из области 0 -г- 1 получить выборку, значения которой относятся к любому желаемому распределению вероятностей. На этом основан так называемый метод Монте-Карло (см. [Hammers- ley, Hanscomb, 1964], [Бусленко и Шрейдер, 1964], [Шрейдер, 1964], [Lehmann, 1967]). С помощью этого метода можно, например, имитировать и анализировать стохастические процессы, вычислять критические границы статистик (^-статистики), оценивать функцию мощности критерия и исследовать значение неодинаковых дисперсий при сравнении двух средних значений (проблема Беренса — Фишера). Этот метод быстро нашел применение в области имитационного моделирования (см. [Hading, 1958], [Shubik, 1960], [Guetzkow, 1962], [Tocher, 1963], [Chorafas, 1965], [Giloi, 1967]); моделируется абстрактная сущность исследуемой системы,, модель, но недействительность. Эксперименты на моделях особенно широко применяются при изучении систем в технике: аэродинамическая модель в аэродинамической трубе дает информацию о свойствах самолета в воздушном потоке. В противоположность физической модели абстрактная модель, реализованная в виде программы для электронной вычислительной машины, обладает существенно большей гибкостью, что облегчает, убыстряет и удешевляет экспериментирование. Двумя главными целями моделирования являются оценка работоспособности системы перед ее созданием и подтверждение оптимальности системы в смысле выбранного критерия. Задача имитационного моделирования состоит в том, чтобы получить достаточные данные и статистические оценки о динамических свойствах и работоспособности определенной системы. На основании этих результатов система и (или) модель может быть перепроверена и соответствующим образом изменена с целью итерационного отыскания оптимума. Моделирование работы фирм и предприятий, транспортных потоков и нервной системы, военных операций и международных кризисов дает информацию о поведении сложных систем в различных ситуациях. Особую ценность моделирование имеет тогда, когда точные натурные исследования слишком дороги или вообще невозможны и требуется быстрое приближенное решение. Для этой цели наряду с цифровыми вычислительными машинами используются электромеханические и электронные аналоговые вычислительные машины. Цифровыми приборами являются вычислительные устройства, на которых учатся считать наши дети, абака, в которой на проволоках перемещаются шарики (счеты), работает так же, как настольные вычислительные машины, кассовые аппараты, бухгалтерские машины и счетчики километров в вагонах. Результат считается, считывается. В противоположность этому измеритель скорости и другие физические приборы, указатель которых движется непрерывно — происходит измерение,.— представляют собой аналоговые приборы. Сюда относится также и логарифмическая линейка со своей непрерывной 8 Зак. 930 225
шкалой значений; каждому числу соответствует отрезок, длина которого пропорциональна логарифму этого числа. Перемножению двух чисел, например, соответствует сложение отрезков, соответствующих этим числам. Электронный цифровой вычислитель (digital computer) (см. [Rec- henberg, 1964], [Richards, 1966], [Sippl, 1966]) вследствие более простого конструктивного решения и большой точности счета оперирует не с десятичными цифрами @ — 9), а с двоичными, или бинарными, цифрами (binary numbers, binary digits) «нуль» и «единица» @,1), часто обозначаемыми для лучшего различения буквами 0 и L. Для записи числа 365 выполняется следующее разложение: 365 - 300 + 60 + 5 = 3 ¦ 102 + 6 • 101 + 5 • 10°. Наш способ написания позволяет опустить показатели степени у десяти, заменив их только значащими цифрами, у нас 3, 6, 5, на соответствующих местах. Если задано число 45 в двоичной форме B° = = 1, 21 = 2, 22 - 4, 23 = 8, 24 = 16, 2б = 32 и т. д.) 45 = 32 + 8 + 4 + 1 -1 . 2б + 0 • 24 + 1 • 23+1 • 22 + 0 • 21 + 1 • 2° и степени у 2 опущены, то получается следующая двоичная запись для 45: 101 101, или лучше L0LL0L. Перевод из десятичного в двоичное представление при вводе в машину и обратный перевод — при выводе, как правило, осуществляются автоматически. Важнейшим элементом цифровой электронной вычислительной машины является работающий в режиме переключателя транзистор. Он или находится под напряжением, проводит ток (соответствует L), или обесточен, без напряжения (соответствует 0). Определенное число представляется определенным сочетанием 0- и L-импульсов. Цифровая вычислительная машина незаменима, когда надо выполнить сложные вычисления с высокой (любой) точностью. Аналоговая вычислительная машина работает обычно с непрерывными электрическими сигналами (см. [Karplus, Sorogka, 1959], [Rogers, Connolly, 1960], [Winkler, 1961], [Ameling, 19631, [Fifer, 1963], [Giloi, Lauber, 1963], [Sippl, 1966]). Переменные и имеющиеся между ними соотношения преобразуются в электромеханические или электронные аналоги. Определенное число представляется пропорциональным ему напряжением. Поставленной задаче соответствует физический аналог, в котором изменяющиеся физические величины имеют те же самые математические взаимозависимости, что и величины в математической задаче; отсюда и появилось название «аналоговая вычислительная машина». Так выравнивание давления между двумя газохранилищами изучается на аналоге из двух конденсаторов, соединенных через сопротивление. Аналоговая вычислительная машина — это «живущая» математическая модель. Непосредственный вывод решения на экран дает инженеру возможность целенаправленно изменять параметры (вращать регулировочные ручки) и таким образом очень быстро находить оптимальное решение задачи. Достижимая точность зависит от 226
точности моделирования, от уровня шумов (noise) электронных элементов, от измерительных устройств, от допусков на электрические и механические элементы. Хотя отдельные элементы (усилитель) могут достигать точности максимум в четыре десятичных знака, или 99,99% (т. е. ошибка ^ 0,01%), общая ошибка, например, 100 совместно включенных усилителей, примерно та же, что и у логарифмической линейки. Основное преимущество проявляется в решении задач, требующих повторного интегрирования, т. е. решения дифференциальных уравнений. Большая скорость вычислений, быстрое изменение параметров и высокая наглядность характеризуют аналоговые вычислительные машины, которые к тому же обычно намного дешевле, чем цифровые вычислительные машины. Случайные величины с заданным статистическим распределением получаются с помощью генератора шумов. Областями применения аналоговых электронных вычислительных машин являются аппроксимация эмпирических зависимостей, т. е. отыскание математических соотношений для экспериментально найденных кривых измерений, решение алгебраических уравнений и интегрирование обыкновенных дифференциальных уравнений — анализ биологических систем регулирования, расчет, управление и контроль атомных реакторов и ускорителей, контроль клинических процессов и обычных контуров регулирования, а также имитация, например, поведения реактора и крекинг-установки при взрыве. Объединение двух ранее рассмотренных принципов — цифрового и аналогового—приводит к гибридной вычислительной машине, характерной особенностью которой является наличие преобразователей число — напряжение и напряжение—число. Гибридная вычислительная машина (аналого-цифровой комплекс) объединяет преимущества непрерывной и дискретной вычислительной техники: скорость в&чис- лений и простоту изменения программы аналоговых вычислительных машин, точность и гибкость цифровых машин. Гибридные вычислительные машины служат для решения систем дифференциальных уравнений и для оптимизации процессов: они управляют прокатными станами, транспортом, спутниками, электростанциями, а также процессами в химической промышленности, например разделением сырой нефти на фракции. При этом говорят об автоматизации процессов с помощью вычислительных машин, производящей переворот в промышленной технологии. Большие гибридные установки с аналоговой системой более чем в 100 усилителей находят особо широкое применение в авиации и космонавтике, например, для расчета траекторий ракет и спутников. Подробнее см. [Векеу, 1969], [Апке, 1970], а также [Barney, Hambury, 19701.
ГЛАВА 3. СРАВНЕНИЕ НЕЗАВИСИМЫХ ВЫБОРОК ИЗМЕРЕННЫХ ЗНАЧЕНИЙ Специальные способы выборки Если мы что-то знаем о предполагаемой неоднородности внутри генеральной совокупности, то эти знания можно эффективно использовать для производства случайных выборок. Важным является применение расслоенных, или стратифицированных, выборок; здесь генеральная совокупность разделяется на относительно однородные совокупности, слои, или страты, в зависимости от того, с какой точки зрения интересуют нас исследуемые переменные. Если речь идет о предсказании результатов выборов, то выборку производят таким образом, чтобы она представляла уменьшенную модель всего населения. При этом следует учитывать в первую очередь возрастные слои, соотношение между мужчинами и женщинами и имущественное положение. Стратификация в большинстве случаев удорожает выборку, однако ее применение весьма желательно. В противоположность этому при систематической выборке записывается каждый q-к индивидуум генеральной совокупности (выборка по группам). При этом q есть округленное целое число, получающееся при делении всего населения на объем выборки. При получении систематической выборки можно воспользоваться данными о переписи населения, списками избирателей, а также картотеками адресных бюро или органов здравоохранения. Естественно, предполагается, что в этих списках отсутствует какая-либо периодичность. Безупречный случайный выбор, конечно, возможен только тогда, когда эти карты, например картотека, тщательно перемешаны, и только после этого систематически берется каждая д-я карта. Применение систематической выборки имеет то преимущество, что зачастую легче выписать каждый q-й индивидуум, чем сделать это чисто случайным образом. Кроме того, этот метод в определенных случаях вносит некоторую непрямую стратификацию, например, когда карты упорядочены по месту жительства, профессии, доходами т. п. Способы выборки, основанные не на случайном принципе, т. е. большинство групповых выборок или особенно выбор типичных случаев, не дают оснований надеяться на надежные результаты анализа, поэтому их нужно избегать. В особенности в географических задачах используют выборки из фиксированных групп (гнездовые). Генеральная совокупность при этом делится на относительно небольшое число групп, или гнезд, ко- 228
торые могут быть изучены с относительно малыми затратами. После этого исследуется случайная выборка гнезд (семьи, школьные классы, дома, деревни, кварталы, части города). Здесь удобно применять многоступенчатый случайный выбор (например, деревни, а затем еще раз случайно — дома). Другие способы выбора 1. При пронумерованных картотеках—выбор по конечным цифрам. Если нужно, например, осуществить выборку 20% от всей совокупности, то можно отобрать все карточки с последней цифрой 3 и 7. 2. Выбор по дню рождения. При этом способе в выборку включаются люди, которые родились в определенные дни года. Если включить в выборку, скажем, всех, родившихся 11-го числа, то получим выборку примерно 12 : 365 = 0,033, или 3%. Этот способ может быть применен только тогда, когда имеются необходимые данные (листы, карточки) для достаточного числа лиц. Вопросы, связанные с объемом и точностью выборок, экономичностью способов выбора, см. в [Szameitat, с соавт., 1958,1964], а также в других рекомендованных литературных источниках (с. 367). ф 3.1. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ СРЕДНЕГО ЗНАЧЕНИЯ И МЕДИАНЫ Понятие «доверительный интервал» было введено. Дж. Нейманом и Е. С. Пирсоном [Neyman, 1950]. Так называют вычисленный по выборочным значениям интервал, который с заданной вероятностью, доверительной вероятностью, накрывает истинное, но не известное нам значение параметра. В качестве доверительной вероятности обычно принимают 95%; эта вероятность говорит о том, что при частых применениях данного метода вычисленный доверительный интервал примерно в 95% случаев будет накрывать параметр. ф 3.1.1. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ СРЕДНЕГО ЗНАЧЕНИЯ Пусть дана случайная выборка хъ х2, ..., хп из нормально распределенной генеральной совокупности. Среднее значение генеральной совокупности неизвестно. Мы ищем два рассчитанных по выборке значения хлеъ и #прав, между которыми находится с определенной, не слишком маленькой вероятностью неизвестный параметр Р: -^лев < М> < *прав- Эта границы называются доверительными границами (confidence limits), они определяют так называемый доверительный интервал (confidence interval). Искомый параметр со статистической надежностью S лежит между доверительными границами x±ts(VTi C.1) (где /п_1;а — коэффициент распределения Стьюдента, см. табл. 27, с. 130), т. е. в среднем в 100- 5% всех выборок между этими границами заключено истинное значение параметра. Р(х— /s/Vn<p,<*+/s/Vn) = S, C.1a) 229
т. е. максимум в 100 • а% всех выборок неизвестный параметр не накрывается этим интервалом. В среднем 100 A —S)% всех выборок имеют параметр вне этих границ, а именно 100 A — S)/2 = 100 а/2 всех выборок имеют параметр справа, а 100-а/2%—слева от доверительной области. Следует напомнить, что для рассматриваемого двустороннего доверительного интервала справедливо а/2 + S + а/2 = 1. Односторонний доверительный интервал (например, верхняя доверительная граница \лъ = х + tonB • s/Vri) P(r—/s/Vn< |i) = S или P(|i< 5+/s/Vn) = S C.16) в среднем в 100 • a% выборок не включает в себя значение параметра, и в среднем в 100 • S% всех случаев (а + S = 1) интервал накрывает его. Если а известна, то вместо C.1) используется выражение ^9 C,2) где г — нормированная нормально распределенная переменная (стандартная нормальная переменная); г = 1,96 (S = 95%), г = = 2,58 (S = 99%) и z = 3,29 (S = 99,9%). При большом объеме выборки можно в C.2) заменить а на s. Здесь предполагается также, что выборка взята из бесконечной генеральной совокупности или из конечной генеральной совокупности, но с возвратом. Если выборка взята из конечной генеральной совокупности объема N и после оценки не возвращается, то доверительные границы определяются следующей формулой: & C'2а) Корень 1/ дгцт называется поправкой на конечность генеральной совокупности. (У Отношение р= было введено на с. 93 как стандартное отклонение среднего значения (а-). Поэтому доверительный интервал можно записать как * ± ZGx ИЛИ ~X±tSx. C.26, 3. IB) Пример Пусть дана выборка из бесконечно большой генеральной совокупности, п = 200, х = 320, s = 20. Определите 95%-ный доверительный интервал для среднего значения. ^199; 0,06= 1,972 /•si= 1,972-1,414 = 2,79 230
317<ji<323 z • si = 1,96 • 1,414 = 2,77. Редко используемый процентный доверительный интервал рассчитывают по формулам: ±-.5-=А&1.1,414 = 0,0087^0,9%, или х 320 ¦ 1,414 = 0,0087 ~ 0,9%. х 320 95%-ный доверительный интервал: х = 320 4= 3 или х = 320 ± ±0,9%; обычно задают как «95%-ДЯ: 317<ц<323» (см. также с. 235). Удобную таблицу для определения доверительных интервалов для средних значений при оцененных или известных стандартных отклонениях дал Пайерсон A963). Примечание. Обратное заключение и прямое заключение Если на основании выборки согласно C.1) мы делаем заключение о среднем значении генеральной совокупности fat^, C.1а) то имеет место обратное, или индуктивное, заключение, так как выборка «представляет» генеральную совокупность. Наоборот, заключение о среднем выборочном значении на основании параметров генеральной совокупности ^ _^ C.3) является прямым, или дедуктивным, заключением, так как генеральная совокупность «включает в себя» выборку; например, вывод о структуре населения округа на основании полной переписи населения в стране. Если на основании одной выборки делается заключение о других выборках той же самой генеральной совокупности, то имеет место так называемое расширенное заключение. 3.1.2. ОЦЕНКА ОБЪЕМА ВЫБОРКИ Наименьшее число наблюдений для оценки стандартного отклонения и среднего значения Минимальные объемы выборки при заданной точности (d) и заданной статистической надежности, необходимые для оценки стандартного отклонения (ns) (см. также табл. 48, с. 232) и среднего значения (Пх)у определяются следующими формулами (приближения основаны на нормальном распределении!): ^J C.4) C.5) 231
zx берется из табл. 43, с. 204 (двусторонний критерий) для выбранной доверительной вероятности S = 1 — а. Для примеров мы используем z0 05 = 1,96 ~ 2 и z0 01 = 2,576 ~ ~ 2,58. Примеры Для оценки стандартного отклонения со статистической надежностью 95% (а = 0,05) при точности 20% (d = 0,2) необходимо примерно п8 = 1 + 0,5 B/0,20J = 49 наблюдений (см. также табл. 48). Для оценки среднего значения при известной дисперсии о2 = 3 со статистической надежностью 99% (а = 0,01) при точности 5% (d = 0,05) необходимо примерно п- = B,58/0,05)* • 3 « 8000 наблюдений. Для п-, теперь сокращенно будем называть п: если п больше чем 10% генеральной совокупности N (п > 0,1 • N)9 то необходимо не п, а только /г' = п1\\ + ^] наблюдений. При N = 10 000 нужно не 8000, а только 8000/(l + = 4444 наблюдений (или 4433 при zOi01 = 2,576 ип- = 7963). На других вопросах, касающихся наименьших объемов выборки, мы остановимся позднее (с. 256 — 261; см. также табл. [Hahn, 1969]). Таблица 48. Заданная точность как-функция доверительной вероятности и объема выборки 6 12 30 100 1000 0,99 0,77 0,54 0,34 0,18 0,06 0,95 0,60 0,41 0,26 0,14 0,04 0,90 0,50 0,35 0,22 0,12 0,04 0,80 0,40 0,27 0,17 0,09 0,03 Источник: Thompson W. A., Jr. and Endriss J. The required sample size when estimating variances. American Statistician, 15, June, 1961. Приближенно п можно рассчитать при заданных d и а по формуле C.4), на с. 231; например, d = 0,14, а = 0,05 (т. е. S = 0,95), п ъ « 1 + 0,5 A,96/0,14J = 99. Для оценки стандартного отклонения или дисперсии при S - 0,99 и d = 0,4 (d = 40%); S = 0,95 и d = 0,3 (d = 30%); 5 - 0,80 и d = 0,2 (d = 20%) необходима выборка, содержащая примерно 21 элемент, 232
Подробнее об определении необходимого объема выборки см. [Масе, 1964]. Наименьшее число наблюдений для сравнения двух средних значений Если ожидают, что средние значения двух независимых выборок заметно различаются — в одной и той же области измерения, — то необходимо 3 v 4 (а = 0,05) или 4 -~ 5 (а = 0,01) наблюдений. Для определения истинного значения разности б между двумя средними значениями независимых выборок с равными дисперсиями необходимо (при нормальном распределении) примерно C.6) наблюдений (т. е. пг = п2 = п) (см. также табл. 52, с. 251). Значения zo и z§ следует взять из табл. 43, с. 204 (см. на с. 112—114 ошибки 1-го и 2-го рода). При определении га нужно учитывать, какой критерий предполагается использовать—двусторонний или односторонний; Zp определяется всегда для одностороннего критерия. Для оценки объединенной дисперсии а2 необходимо воспользоваться следующей формулой: + Ъ—2 Пример 8 = 1,1; a = 0,05 (двусторонний)^ т. е. Zo,O5; двусторонний == 1,960; а2 = 3,0; р = 0,10 (односторонний), т. е, Zo, 10; односторонний ~ 1»282, « = 2A,960+ 1,282J(-А-) = 52,12. Всего нужно 53 + 53 = 106 (округленно) наблюдений. Тогда предполагается, что при двустороннем критерии на 5%-ном уровне значимости с вероятностью 90% @,9 = 1 — 0,1 = 1 — Р) вышеназванная истинная разность 1,1 будет признана значимой. 3.1.3. СРЕДНЕЕ АБСОЛЮТНОЕ ОТКЛОНЕНИЕ При малых объемах выборки в качестве меры рассеяния можно использовать среднее абсолютное отклонение (САО) от среднего значения (mean deviation from the mean), называемое также средним отклонением. Оно определяется по формуле 233
а для сгруппированных наблюдений LAU- где xt — групповое среднее; 2/j = п. Для быстрой оценки можно использовать формулу САО = — У (xi—x) = 2[I>xi-n1x]/n, C.8) х- > х пх значений х1>х. Так, для значений 1, 2, 3, 4, 5 САО = — [D—3) + E—3)]=2[D+5)—2-3]/5= 6/5= 1,2. 5 Для малых объемов выборки (и когда есть подозрение на выбросы) САО превосходит даже оптимальное стандартное отклонение (см. [Tukey, I960]): большим отклонениям от среднего значения, т. е. большим отклонениям от нормальности на выбросах выборочного распределения, оно дает меньший вес. Вместе с тем уменьшается влияние возможных выбросов (см. с. 256) и решение, оставить или отбросить экстремальное значение, уже не играет такой большой роли. Отношение САО/о для равномерного распределения равно Уз/2 = 0,86603, для треугольного распределения A6/27) ~[/2 = 0,83805, для нормального распределения ~\/2л = 0,79788 и для экспоненциального распределения — 21 е = = 0,73576. Для выборки, имеющей приближенно нормальный закон распределения, справедливо САО — 0,7979 0,4 < zy=; при этом проверяется, естест- венно, отклонение от нормального распределения. Согласно [D' Agostino, 1970] выражение (а — 0,7979) V^/0,2123, где а = = 2 (Zxi — п1хI~\/п1,х2> — B*J (критические границы даны в [Geary, 1936]) уже для малых п дает приближенно нормальное распределение (упрощенный критерий, основанный на кривизне). 95%-ный доверительный интервал для \х имеет вид х ± коэффициент . САО. C.9) Коэффициент для заданного объема выборки п следует брать из табл. 49. Равенство двух или нескольких САО может быть проверено по таблицам [Cadwell, 1953, 1954]. Пример Пусть даны восемь измерений: 8, 9, 3, 8, 18, 9, 8, 9 — при х = 9. Определите 95%-ный доверительный интервал. Вначале определим абсолютное отклонение 2\Xi-x\= (8 - 9) + (9 - 9) + C-9) + (8 - 9) + A8 - 9) + 1(9 — 9) + (8 — 9) + (9 — 9) = 1 +0 + 6+1+9 + 0+1 + 18 + 0 = 18 и среднее абсолютное отклонение по C.7) САО = -^ == = 2,25, или, по C.8), САО = 2 {18 — 1 • 9}/8 = 2,25. 234
Таблица 49. Коэффициенты для определения 95%-ных доверительных границ для среднего значения по среднему абсолютному отклонению п 2 3 4 5 6 7 8 9 10 11 Коэффициент 12,71 3,45 2,16 1,66 1,40 1,21 1,09 1,00 0,93 0,87 п 12 13 14 15 20 25 30 40 60 120 Коэффициент , 0,82 0,78 0,75 0,71 0,60 0,53 0,48 0,41 0,33 0,23 Источник: Неггеу Е. М. J. Confidence intervals based on the mean absolute deviation of a normal sample, /. Amer. Statist. Assoc. 60, 1965, 257-269, p. 267, Table 2. Коэффициенты для других доверительных границ даны в [Крючков, 1966]. Для п = 8 по табл. 49 находим коэффициент 1,09. Тогда 95%-ный доверительный интервал согласно C.9) равен: 9 ± 1,09 • 2,25 = 9 ± 2,45; 95%-ный ДИ : 6,55 < р < 11, 45. интервала Оценка 50%-ного доверительного для арифметического среднего Для повторяющихся выборок может быть определена область, которая для 50% всех выборок будет содержать искомый параметр. Этот интервал, который включает в себя средние 50% всей вероятности и вместе с тем вероятной ошибки (ВО; probable error), в нашем случае— арифметического среднего, или вероятное отклонение (probable deviation) среднего значения от истинного значения параметра, определяется (предполагается нормальное распределение) 50%-ным доверительным интервалом: Оцениваемое значение ± Вероятная ошибка оцениваемого . значения, (оЛО) например C.10а) 7) оценка может быть для не слишком малых объемов выборки (п проведена по [Peters, 1856]: х ± 0,84535 ¦ C.11) 235
Пример Мы используем данные последнего примера и получим 50%-ный 18 доверительный интервал: 9 ± 0,84535 • ^=i = 9 ± 0,72. 8.1/8—1 50%-ДИ: 8,28<у<9,72. 3.1.4. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ МЕДИАНЫ Для построения доверительного интервала для медианы при генеральной совокупности, распределенной не по нормальному закону, формулы C.1) и C.2) непригодны. Если упорядоченные по величине наблюдения обозначить х{1), х<2), ...уХ(п), то доверительный интервал для медианы, независимый от характера распределения, задается следующей формулой: ? C.12) Для п > 50 и доверительной вероятности 90, 95 и 99% значение h можно вычислять по формуле h = п~гУп-\ C.13) (при z= 1,64; 1,96; 2,58). Так как при п = 300 95%-ный доверительный интервал лежит между 133-ми 168-м измерениями упорядоченной по возрастанию значений выборки (h = [300 — 1,96 УЗОО — 1]/2 « 133; n — h + 1 = 300—133 + 1 = 168). Значения 95- и 99%-ных доверительных границ могут быть получены из табл. 69/69а (с. 292—293). Другие таблицы можно найти в [Mackinnon, 1964]. $ 3.2. СРАВНЕНИЕ ЭМПИРИЧЕСКОГО СРЕДНЕГО ЗНАЧЕНИЯ СО СРЕДНИМ ЗНАЧЕНИЕМ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ Вопрос о том, отличается ли среднее выборочное значение х от заданного среднего значения (х0 за счет случайных факторов или это отличие значимо, может быть сформулирован иначе: включает в себя доверительный интервал для (л0 заданное среднее значение или нет, т. е. больше или меньше абсолютная разность | х — \i01, чем половина ширины доверительного интервала / • —Ц ? Vn Пусть выборка имеет объем п и стандартное отклонение s; тогда отличие выборочного среднего х от заданного среднего значения \i0 значимо, т. е. статистически достоверно, если [л-,! |>; « или l*-^1 .Vn>t\ C.14) у П S статистика t для числа степеней свободы п — 1 и требуемой доверительной вероятности берется из табл. 27, с. 130. 236
Предельное значение статистики, выше которой отличие значимо и ниже которой считается случайным, определяется выражением / = ' х~~**°' • У/г, число степеней свободы равно п—1. C.14а) При больших объемах выборки можно заменить / на соответствующее требуемой доверительной вероятности значение z. Так как сравниваются параметры [х0 и соответствующий выборке параметр р, то данный критерий называется параметрическим. Пример Пусть выборка объемом п = 25 имеет х = 9 и s = 2. Спрашивается, можно ли со доверительной вероятностью S = 95% считать справедливой нуль-гипотезу jul = fx0 = Ю (двусторонний критерий). Гипотеза \х = fx0 отклоняется (Р < 0,05). По-видимому, здесь целесообразно сказать несколько слов о понятии функция. Она есть указание к упорядочению: как на каждом представлении любому месту в театре соответствует определенный входной билет, так каждому элементу одного множества функция ставит в соответствие определенный элемент другого множества. В простейшем случае каждому значению независимой переменной х соответствует определенное значение зависимой переменной у: у = f (x) (говорят: у равна / от х)\ независимая переменная х называется аргументом. Так, например, для функции у = х3 аргументу х = 2 соответствует значение функции у = 23 = 8. Аргументом функции C.14а) являются значения выборки х19 х2, ..., хп и параметр fx0: и — ? (у у у ' л\ \ У I \Л1» Л2> •") лт f*0/* Для заданного аргумента (v = 24 и а = 0,05) значение функции равно /= 2,06. Значения /имеют /-распределениес v = (п—1) степенями свободы только при справедливости нуль-гипотезы (|л = fx0). Если нуль-гипотеза не верна (рф^о), то значения / уже не имеют /-распределения и больше, чем соответствующее значение /-распределения. Значения функции, оцененные на основании выборочных значений (либо по выборке и одному или нескольким параметрам) для лучшего отличия от соответствующих табличных значений (например, /, г, %2 или F-распределения), можно отмечать «крышкой (Д)»- Этот прием некоторыми авторами не используется. Согласно их способу записи, например, выражение C.14а) выглядит следующим образом: статистика -Ул C.146) I*— при справедливости нуль-гипотезы имеет /-распределение с (п — 1) степенями свободы. 237
Другая возможность: проверить нуль-гипотезу (Яо: fx = |х0 против НА: ^ ^ щ)— значит установить, находится ли х внутри так называемой области принятия гипотезы. [Хо —tn-ua- -гт=-<^<Ио+^-1;а- ^rV. C.15) Если да, то нуль-гипотеза подтверждается. За пределами области принятия гипотезы лежат верхняя и нижняя области отклонения гипотезы. Если х попадает в эти области, то нуль-гипотеза отклоняется При одностороннем критерии (Яо : [х < \i0 против НА : jx > у,0) нуль- гипотеза сохраняется до тех пор, пока для среднего значения х выборки объембм п справедливо > + 'n-i:a- -=т=-; C.15а) уп t — значение для одностороннего критерия, см. табл. 27 на с. 130. Области этого вида важны для контроля качества в промышленности, где они служат для проверки «заданных значений» (параметров), таких, как среднее значение или медиана, стандартное отклонение или размах и относительная частота (например, допустимого процента брака). Приведенная на с. 119 схема может быть теперь дополнена: модель Теория бероятностей Статистика (дедуктивная) . (индуктивная) / СТОХАСТИКИ \ Спектр возможных выборок г——J < ¦ i ' т- —г-^Н Соблюдаемая Ииж-ИЯЯ __ i НРПХМЯЯ R^,f,r,r,un Sen VoBrnn принятая-A 8Sn дтнлонения\ випотезы от клоне ни наолшиаег* выборка _ Нуль- гипотеза критерии Сносов принятия решений Исходя из нуль-гипотезы и соответствующей репрезентативной (!) выборки, т. е. выборки, представляющей некоторую генеральную совокупность с допустимыми случайными ошибками, возможно стохастическое индуктивное высказывание о генеральной совокупности, лежащей в основе данной выборки, о стохастической модели. Затем возможно дедуктивное стохастическое заключеннее помощью методов теории вероятностей на основании стохастической изменчивости определенного распределения (например t -распределения) о совокупности выборок, полученных из данной модели: наиболее редко 238
ожидаемые выборки относятся к области отклонения гипотезы — примерно 5, 1 или 0,1% крайних случаев (двусторонний критерий), чем определяются границы области принятия нуль-гипотезы (см. IWeiling, 1965]). Затем на основании статистически лучшего стохастического критерия (например, /-критерия) осуществляется проверка, попадает ли нуль-гипотеза, основанная на данной выборке, в область принятия или отклонения гипотезы. Если наблюдаемая выборка соответствует области принятия гипотезы, то нуль-гипотеза выборкой не опровергается (оправдание за недостатком доказательств с правом дальнейших исследований для подтверждения или отклонения нуль-гипотезы). Если выборка соответствует области отклонения гипотезы, то это событие возможно при справедливости нуль-гипотезы, но очень мало вероятно. В этом случае считают более вероятным, что значение параметра не соответствует нуль-гипотезе: нуль-гипотеза на принятом уровне значимости отклоняется! Доверительные интервалы и критерии, которые относятся к о>, a2 (%2-распределение) и fff/tfi (^-распределение), более чувствительны к отклонениям от нормального распределения, чем доверительные интервалы и критерии для у и цх — jj2 (/-распределение). • 3.3. СРАВНЕНИЕ ЭМПИРИЧЕСКОЙ ДИСПЕРСИИ С ГЕНЕРАЛЬНОЙ Для нормально распределенной генеральной совокупности справедо: нуль-гиротеза в 2 l случай 1: \х неизвестно ливо: нуль-гиротеза в = о0 или а2 = al отклоняется, когда: й 1 случай 2 : у> известно = 4 Значение s§ — см. A.33) —может быть рассчитано C.23) как So = Q/n. Если имеется большая выборка из нормально распределенной генеральной совокупности, то справедливо следующее утверждение: нуль-гипотеза а = а0 на 5%-ном уровне отклоняется, если |s~ao1 У2п>1,96. C.166) Для 1%-ного уровня 1,96 нужно заменить на 2,58. Пример Следующие 8 наблюдений относятся к нормальному распределению (со средним значением у0 = 50) : 40, 60, 60, 70, 50, 40, 50, 30. Проверьте 239
справедливость равенства а§ = 60 (а = 0,05). На основании имеющейся выборки можно нуль-гипотезу g2=Gq на 5%-ном уровне считать неподтвержденной. 3.4. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ДИСПЕРСИИ И КОЭФФИЦИЕНТА ВАРИАЦИИ Доверительный интервал для а2 может быть построен на основании ^-распределения 2 ^ „ ^ 77г л— 1; а/2 ХЛ—1;1 —а/2 Например, 95%-ный доверительный интервал (а = 0,05) для п = 51 и s2 = 2 равен 2-50 а ^ 2-50 71,42 32,36 1,40<о2<3,09, Хб0;0,02Б= 71,42ИХ5О;О,976 = 32,36. Оценку для а2 получаем по формуле s2(/i—1) 2-50 95%-ный доверительны йинтервал для а Иногда бывает необходим доверительный интервал для стандартного отклонения: |/1,40< а< 1/3,09; 1,18< а < 1,76. Так как %2-рж> пределение несимметрично, оцениваемый параметр лежит не в середине доверительного интервала. Доверительные границы для коэффициента вариации могут быть определены по [Johnson, Welch, 1940]. Для V< 350% и п> 12 степень приближения вполне достаточна: с вероятностью S доверительный интервал находится между значениями (см. также [Iglewicz, 1968]): верхняя граница __^==V; C.18) нижняя граница _,, V, где Стандартная нормальная переменная z в соответствии с желаемой доверительной вероятностью и дву-или, чаще, односторонним критери- 240
ем, так как часто требуется только верхняя доверительная граница, определяется по табл. 43. Пример Дано V = 20% (т. е. V = 0,2), п — 19. Найти верхнюю доверительную границу Ve для S = 95%. При г = 1,64 и k = 1,64/ /2A9—1) = 0,273 получаем значение Vb, равное Ь 1- 0,2731/1 + 2-0,2* Итак, для коэффициента вариации справедливо: в случае нормально распределенной генеральной совокупности с параметром у = 20% и выборки объемом п = 19 с вероятностью S = 95%можно считать, что статистика У будет меньше соответствующего верхнего предела У 279% # 3.5. СРАВНЕНИЕ ДВУХ ВЫБОРОЧНЫХ ДИСПЕРСИЙ ИЗ НОРМАЛЬНЫХ СОВОКУПНОСТЕЙ Если необходимо определить, относятся ли две независимые случайные выборки к одной и той же генеральной совокупности, то в первую очередь нужно провести проверку на равенство (однородность) их дисперсий (большую выборочную дисперсию обозначим sf). Нуль- гипотеза (Яо) af = сг| отклоняется, если рассчитанное по выборочным дисперсиям значение F = -\ больше, чем соответствующее табличное значение F; в этом случае принимается альтернативная гипотеза (На) erf Ф оI (двусторонний критерий). Если в качестве альтернативной гипотезы принять, что одна из двух генеральных совокупностей имеет дисперсию большую, чем другая, тогда можно выборку с большей, согласно Я^, дисперсией обозначить № 1 (sf), а другую — № 2 (s^). Если F> F, то при одностороннем критерии принимается гипотеза На'&\ > ст|. 1. При малом и среднем объемах выборки Мы образуем отношение двух дисперсий sf и si и получаем статистику р = fi с числом степеней свободы vx = пг — 1; C.19) s\ с числом степеней свободы v2 = п2 — 1. Если рассчитанное значение F при требуемой доверительной вероятности (или соответствующей вероятности ошибки) равно или превосходит табличное F-значение для степеней свободы vx = пг — 1 и v2 = п2— 1, то гипотеза об однородности дисперсий отбрасывается (см. с. 239). При F < F нет оснований для отклонения этой гипотезы. Если нуль-гипотеза отбрасывается, то рассчитывают доверительный интервал (ДИ) для о\/о\ по формуле fi4<-?h-/rvtlv1, v^^-Uv^n.-l. C.19a) 4ht 241
Для 90^-ногоДЯ используют табл. 306 (с. 140—141), для 95%-ного ДИ—табл. ЗОв (с. 142—143). Таблицы нас. 138—149 содержат верхние границы значимости F-распределения для дисперсионного анализа при одностороннем критерии. Как правило, нас интересуют отклонения в обе стороны и мы применяем двусторонний критерий. Если мы проверяем гипотезу на 10% -ном уровне значимости, то необходимо использовать таблицу для5%-ных границ и соответственно для двустороннего критерия на 2%-ном уровне — 1%-ной границы. Пример Проверьте Но af = о\ против НаО\ Ф oj на 10%-ном уровне значимости Дано: /i! = 21; s? = 25; ? = Л^,^ л, = 31; s| = 16; 16 Так как F — 1,56 < 1,93 = [^20; 30; 0,10 (двух) = ^ 20; 30; 0,05 (одн.)Ь то Яо на 10%-ном уровне не отклоняется. Для выборок одинакового объема п можно также проверять Но с помощью соотношения (см. табл. 27, с. 130; [Cacoullos, 1965]). Упрощенный критерий изложен на с. 253. Пример Проверьте Но а\ = а\ против На о? Ф о| на 10%-ном уровне. Дано: Пх — пг = п = 20; s\ = 8; s| = 3; F= — = 2,67 > 2,12; / = 20~1' (8~3) = 2,22 > 1,729. 3 2*8'3 Так как Но на 10%-ном уровне отклоняется, то построим 90%-ный ДИ C.19а): Ли.и»:о.ов (ода.) =2,17; 4^=1.23; 2,67.2,17 = 5,79; 90%-ный ДИ: 1,23<af/cj<5,79. Непараметрические методы, заменяющие F- критерий Так как результат проверки с помощью F-критерия может сильно зависеть даже от небольших отклонений от нормального распределения, в [Cochran, 1947], [Box, 1953], [Box, Anderson, 1955], [Levene, 1960] предложен приближенный непараметрический метод: для сравниваемых рядов измерений образуют абсолютные значения (\xt — х\) и к ним применяют критерий суммы рангов; при двух выборках (/-критерий (обратите внимание на с. 264—2661) и при большем числе выборок — 242
Таблица 50. Число наблюдений, которое необходимо для сравнения двух дисперсий с помощью /^-критерия. Если получают значение, например, для а= =0,05, р = 0,01 и числ = F=4. то это означает, что оценки дисперсий обеих выборок должны быть основаны по меньшей мере на 35 степенях свободы (для 30 и 40 степеней свободы F-значения соответственно равны 4,392 и 3,579) Число стспрнёй свободы 1 2 3 4 5 6 7 8 9 10 12 13 20 24 30 40 60 120 оо C =0,01 654200 1881 273,3 102,1 55,39 36,27 26,48 20,73 17,07 14,44 11,16 8,466 6,240 5,275 4,392 3,579 2,817 2,072 1,000 а = р = 0,05 26070 361,0 86,06 40,81 25,51 18,35 14,34 11,82 1 10,11 8,870 7,218 5,777 4,512 3,935 3,389 2,866 2,354 1,828 1,000 0,05 0 = 0,1 6436 171,0 50,01 26,24 17,44 13,09 10,55 8,902 7,757 6,917 5,769 4,740 3,810 3.376 2,957 2,549 2,141 1,710 1,000 0 = 0,5 161,5 19,00 9,277 6,388 5,050 4,284 3,787 3,438 3,179 2,978 2,687 2,404 2,124 1,984 1,841 1,693 1,534 1,352 1,000 Источник: Davies О. L. The Design and Analysis of Industrial Experiments, Oliver and Boyd, London, 1956, p. 614, Table H. Я-критерий Краскела и Валлиса, если можно ряды из абсолютных от клонений (xt—х) рассматривать как выборки из распределений с равными средними значениями. Однородность нескольких (k) дисперсий по [Levene, 1960] может быть проверена также с помощью простого дисперсионного анализа, когда для п абсолютных отклонений наблюдений от их средних значений выполняется F > Fk-x-, n-k; а (см. также с. 450). Подробнее об альтернативной к ^-критерию' процедуре см. [Shorack, 1969]. Минимальный объем выборки для F-критерия Для любого статистического критерия необходимо учитывать, как мы знаем, два вида риска. Частный пример дает табл. 50 (выше). Более подробные таблицы см. в [Davies, 1956] и [Tiku, 1967]. Минимальные объемы выборок из (независимых) нормально распределенных генеральных совокупностей для сравнения двух эмпирических дисперсий можно определить также с помощью номограмм Рейтера [Reiter, 1956] или по таблицам [Graybill, Connell, 1963]. 243
2. При средних и больших объемах выборки Для нетабулированных F-значений (при среднем числе степеней свободы можно использовать интерполяцию) при большем числе степеней свободы однородность двух дисперсий может быть проверена с помощью выражения JLlnf+_L(J_M 2 2 \ vi v2 / которое распределено по приближенно нормальному закону. Если под рукой нет таблиц натуральных логарифмов, то с помощью соотношения g In F — •? • 2,3026 lg F получаем z= 2 {vi vJ-. C.21) 2 U+v2 где! сравнивается с нормальным распределением. Пример Проверим эту формулу на табл. 30. При vx — v2 = 60 и вероятности ошибки а = 0,05 из таблицы получаем значение F = 1,53. Предположим теперь, что это F-значение мы получили экспериментально для Vl = v2 = 60, а наша таблица содержит значения только до vx = v2 = = 40. Значимо ли найденное F-значение при одностороннем критерии (erf = о% против erf > а\) при 5%-ном уровне? Для F = 1,53, vx = 60 и v2 = 60 имеем 1,151293.0,189691 Z — ' v Г i / i . i \ °'1290995 -4-= 2 V 60 60 т. e. z = 1,64705 > 1,6449; соответствующее вероятности ошибки p = 0,05. Значение z = 1,6449 (см. табл. 43, с. 204) превышено, поэтому необходимо гипотезу об однородности дисперсий на 5%-ном уровне отклонить. Аппроксимация нормальным распределением выполнена. 3. При больших и очень больших объемах выборки (nx, n2 ^ 100) Мы вычисляем выражение с2 с2 sl , St>. ~Z "Г 2/г2 244
Если вычисленное значение статистики z превосходит теоретическое z-значение, указанное на с. 204 для различных значений достоверности или равно ему, то стандартные отклонения sx и s2 или дисперсии sf и s\ различаются значимо, т. е. они неоднородные; в противном случае они считаются однородными. Пример Пусть дано: sx = 12,1; пг = 3000; п2 = 4000; s2 = 11,7. Нуль-гипотеза о\ = а|. Альтернативная гипотеза erf Ф о\ (а = 0,05). z= 12,1-11,7 = 1,964; 12,12 , И,72 V 2-3000 2-4000 z= 1,964 >50|0В = 1,960. Так как граница значимости превышена, то с вероятностью 5 = 95% нуль-гипотеза об однородности стандартных отклонений должна быть отклонена. Надежность нашего заключения обоснована в первую очередь для выборок о?ень большого объема. ® 3.6. СРАВНЕНИЕ ДВУХ ВЫБОРОЧНЫХ СРЕДНИХ ИЗ НОРМАЛЬНЫХ СОВОКУПНОСТЕЙ 1. При неизвестных, но равных дисперсиях Сумму квадратов отклонений S (х — хJ обозначим через Q. Она рассчитывается по формулам Q = S х2 — BхJ/п C.23) или Q = (п — 1) s2. C.24) Для сравнения двух средних значений при неравных объемах выборок (дх Ф п2) получаем статистику I А Г I Qx+Q2 J C.25, 3.26) 1 / Г П1~\~п2 \ Г (^1 — 1) Sl Ч" (Л2 1) S2 1 V I ttin2 J I ni+n2—2 J с (пх + п2 — 2) степенями свободы. Проверяется нуль-гипотеза |^i = |i2 ° равенстве средних значений генеральных совокупностей, лежащих в основе обеих выборок, при неизвестных, но равных дисперсиях (см. с. 129 и 241 — 245). 245
Для случая равных объемов выборок (п = пг = п2) t-статистика для независимых выборок упрощается: ^ f Ql + Q2 I /" /g с числом степеней свободы, равным 2п — 2. Если статистика равна границе значимости или превосходит ее, то справедливо |хх Ф fx2- Если статистика меньше границы, то нуль-гипотеза fAi^M^ не отклоняется. Для п±= /22^20 молшо критерий Лорда (Lord-test с. 254) заменить /-критерием. Сравнение средних значений рассмотрено на с. 255—-256 и в гл. 7. Пример Проверьте Яо р* = ц2 против HA\^i ф ^2 на 5%-ном уровне. Пусть даны: пг = 16; ?i = 14,5; s\ = 4; п2 = 14; х2 = 13,0; sj = 3. Qx = A6 — 1) . 4 = 60; Qa = A4 — 1) • 3 = 39. Подставляем эти значения в C.25): / 14,5-13,0 = 1 // 16+14 \ / 60 + 39 \ V { 16-14 ) ' \ 16+14—2 / Для числа степеней свободы, равного пг + п2 — 2 = 28, имеем /ОвОВ = 2,048. Так как? = 2,180 > 2,048, нуль-гипотеза об однородности средних значений на заданном уровне значимости отклоняется и принимается альтернативная гипотеза (Р < 0,05). Важное указание А. Доверительный интервал для разности двух средних значений независимых выборок из нормально распределенных генеральных совокупностей с одинаковыми дисперсиями определяется следующим выражением (например, для S = 0,95 при 'ст.св;о,о25 (одн.)): Я1+я,2: a/2 C.28) л f gS(ni—l) + sl(na —1) _ -I / QT+Q2 ГД К «x+zza —2 V ni+n2—2 Если а известно, то t заменяется стандартной нормальной переменной z. Если объемы выборок равны (/гх = п2), то sy \/п1-\- \/п2 заменяется "l/(si + s!)/fl. Разница между [лх и [х2 на заданном уровне значима, если доверительный интервал не содержит значение fxi — jx2 = 0. 246
faблицa 51. Тригонометрическое преобразование: значения *=«arcsin ¦/"/> (например, arcsin /0,25 =30,0, arcsin /,00 =90); (х — в градусах) ; для пересчета в радианы необходимо табличные значения разделить на 57,2958 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0,000 18,435 26,565 27 33,211 39,231 45,000 45 50,769 51 56,789 57 63,435 64 71,565 72 5,739 19,370 ,275 33,833 39,815 45,573 ,354 ,417 ,158 ,543 8,130 20,268 27,972 34,450 40,397 46,146 51,943 58,052 64,896 73,570 9,974 21,134 28,568 35,062 40,976 46,720 52,535 58,694 65,650 74,658 11,537 21,973 29,334 35,669 41,554 47,294 53,130 59,343 66,422 75,821 12,921 22.786 30,000 36,271 42,130 47,870 53,729 60,000 67,214 77,079 14,179 23,578 30,657 36,870 42,706 48,446 54,333 60,666 68,027 78,463 15,342 24,350 31,306 37,465 43,280 49,024 54,938 61,342 68,866 80,026 16,430 25,104 31,948 38,057 43,854 49,603 55,550 62,028 69,732 81,870 17,457 25,842 32,583 38,646 44,427 50,185 56,167 62,725 70,630 84,261 Статистические критерии и доверительные интервалы приводят к одному и тому же решению. Доверительный интервал, кроме того, содержит дополнительную информацию о параметреХ Пример Используем данные последнего примера для построения 95%-ного доверительного интервала. (xi-^)i^l + /22^2;a/2-s Vl/nt+ 1/л2-A4,5-13,0) ±2,05-1,88 X X 1/1/16+1/14 = 1,5±1,4, т. е. 95%-ныйДЯ: 0,1 < fxi-^i2 <2,9. Нуль-гипотеза (\ii — \i2 = 0) на основании предложенной выборки на 5%-ном уровне должна быть отвергнута. Б. Удобно сравнивать средние значения двух независимых выборок с одинаковой дисперсией для случая пх ф п2 с помощью следующего выражения: —2) (п2 Ъхх— (пг+п2) C.29) vi=l; v2 = —2, а в случае пг = п2 = п C.30) vi=l; v2 = 2rt—2. Сравнение этого метода, основанного на соотношении t*=Fv _ v со i v стандартным методом показывает, что последние формулы экономичнее в вычислениях примерно на 30%. Это подтвердят небольшие упражнения, которые читатель может придумать сам. В. Средние значения относительных частот х^щ — pi нельзя сравнивать с помощью способов, рассмотренных в данном разделе C.23 — 3.30). Когда все относительные частоты лежат между 0,30 и 0,70, приближенное сравнение может быть произведено с помощью формул, приведенных в следующем разделе C.31 — 3.35), причем лучше предварительно эти частоты нормализовать. 247
Часто применяет также тригонометрическое преобразование (arcsin-npe- образование, обратное sin-преобразованию), arcsin "J/p» или sin "l/p, означает угол или длину дуги, синус которой равен ~|/р. При больших п значения arcsin V? распределены по нормальному закону. Дисперсия arcsin ~]/~p не зависит от я и зависит только от объема рыборки п. Относительные частоты xtlnt — pi (при щ ^ const и n{pi > 0,7, а также щ A — pi) > 0,7) от 0 до 1 преобразуются в углы от 0 до 90° (см. табл. 51 на с. 247): Относительные частоты 0,00 0,25 0,50 0,75 1,00 Градусы 0 30 45 60 90 Например, имеются два ряда наблюдений, некоторые группы из п индивидуумов. В каждой группе часть pi индивидуумов имеет определенный признак. Если теперь необходимо сравнить процентное распределение двух рядов, то значения pt, округленные до двух десятичных знаков, нужно преобразовать с помощью таблицы в значения *,-, которые затем после вычисления средних значений и дисперсий можно сравнивать по формулам C.23 — 3.35). Величины, распределенные по биномиальному закону, могут быть нормализованы с помощью логит- или пробит-преобразования. Подробнее об этом см. [Fisher, Yates, 1963], где имеются также подробные таблицы тригонометрических преобразований. 2. При неизвестных и неравных дисперсиях Проверяется нуль-гипотеза \ix = |х2 о равенстве средних значений генеральных совокупностей, лежащих в основе обеих выборок, при условии, что дисперсии не равны (сг? Ф oj). Это так называемая проблема Фишера — Беренса (см. [Вгепу, 1955], [Linnik, 1966], [Mehta, 1970] и [Scheffe, 1970], для которой точного решения не существует. Для практических целей пригодна статистика [Welch, 19371 ?= l*i-**l C.31) /-2 C2 ПРИ «1 / \ «2 где v — число степеней свободы, округленное до целого числа, лежит между меньшим из vx и v2 и их суммой (vx + v2), однако оно всегда меньше, чем (nL + пг — 2). При очень больших объемах выборок можно применять соотношение v — пх + п2. Формула C.32) аппроксимирует выражение, предложенное в .[Welch, 1947]. Другие возможности решения проблемы сравнения двух выборок *были указаны в [Trickett, Welch, James, 1956]; ими составлена таб- .лица. 248
Другое интересное решение предложено в [Banerji, 1960]. В случае равных объемов выборок {пх = п2 = п) возможны следующие упрощения: /^ /; ь(п-\) или v = n—1+ 2^=2—=л—1 Н ^^ , C.34) Q2 Qi sj ^ si где v — число степеней свободы. При очень больших объемах выборок можно заменить 1 на z. Требуемое значение z или / можно взять из табл. 14 на с. 68 или табл. 43, с. 204. Для сравнения нескольких средних значений при неравных дисперсиях существуют приближенные способы (см. [Sachs, 1970]). Пример __ _ Дано: пх = 2000; \ = 18; sx = 34; п2 = 1000; х2 = 12; s2 = 73. Требуемая доверительная вероятность при одностороннем критерии S = 99%. Поскольку объемы выборок велики, мы можем использовать стандартную переменную z вместо переменной t распределения Стьюдента: = 20,0>2,33=г0H1(одн.). 34 2000 Нуль-гипотеза об однородности средних значений отклонения (Р < 0,01). Выборки малого объема (п1у п2 < 9) с неоднородными дисперсиями могут быть изящно проверены на равенство средних значений по критерию Мак Каллоха [McCullogh и др., 1960]. Другие возможности предоставляют таблицы [Fisher, Yates, 1963]. Другой путь решения проблемы Беренса — Фишера предложен в [Weir, 1960]. Для нас интересно, что разница средних значений на 5%-ном уровне значима, ,?сли при объемах выборок пг ^ 3 и п2 ^ 3 выполняется соотношение: л/ >2,0; C.35) или 2,0. 1 1 -I —4 [ х г \ 249
Таблица. Сравнение двух средних значений независимых выборок из приближенно нормально распределенных генеральных совокупностей Объемы выборок Дисперсии равны: 02«*а неравны: равны: Y^ v = zn —; v=n-l+ n 2n — 2 _? неравны: 1 1*1 — *1 — JL n2 — 2 n2 — 2 / 4 \2 D П2+1 Примечание, v—число степеней свободы; границы для ^-критериясм. с. 130. Если отношение не превышает значение 2, то оснований для отклонения нуль-гипотезы \хг = \х2 на 5%-ном уровне нет. Доверительные интервалы для отношения двух средних значений независимых выборок из нормально распределенных генеральных совокупностей с равными или неравными дисперсиями см. в [Bliss, 1967]. Пример Сравните два средних значения на 5%-ном уровне: пг = 3; 1,0; 5,0; 9, 0; \ = 5,0; Qx = 32; s\ = 16; п2 = 3; 10,9; 11,0; 11,1; х2 = 11,0; Q2 = 0,02; s| = 0,01. Значение Q здесь может быть быстро рассчитано по формуле Q = 2 (х — хJ 15,0—11,01 /¦ 32—0,02 / _1_ J_\ 3+3—4 ' \~+ 3 /' 3,27 ¦<2,0. 250
Для данных выборок разница на 5%-ном уровне незйачима. Стандартные способы C.33, 3.34) ? |5,0-11,0| 6 ^ 32 + 0,02 3C-1) 2,31 2-3—2 32 0,02 0,02 ' 32 приводят к тому же результату. Три замечания к сравнению средних значений 1. Выборки, которые получены не чисто случайным способом, характеризуются большим сходством элементов внутри выборки и меньшим сходством выборочных средних значений. При неслучайных спо- всобах выборки стандартные отклонения уменьшаются, а разница средних значениях увеличивается. Таблица 52. Таблица указывает приближенный объем выборки п при одностороннем критерии дли одной и двух выборок, который необходим, чтобы при вероятности ошибки а и мощности критерия A—р) указать разницу как значимую, если параметр в генеральной совокупности имеет отклонение <2=(fi—\Xo)/g или когда два средних значения генеральных совокупностей с одинаковым стандартным отклонением а отличаются на d=*(|ii—м-2)/<г. При двустороннем критерии вероятность ошибки следует удвоить. При сравнении двух выборок предполагается, что их объемы одинаковы и равны Я1=/г2=м. а 0,005 0#025 \ d N. 0,1 0,2 04 0,7 1,0 2,0 0,1 0,2 0,4 0,7 1,0 2i0 Одна выборка 0,2 0,8 1173 296 77 28 14 7 788 201 52 19 10 — 0,05 0,95 1785 450 115 40 22 8 1302 327 85 29 16 6 0,01 0,99 2403 605 154 53 28 10 1840 459 117 40 21 7 0,20 0,80 2337 588 150 50 26 8 1574 395 100 34 17 6 Две выборк? 0,05 0,95 3567 894 226 75 38 11 2603 650 164 55 28 8 i 0,01 0,99 4806 1206 304 100 49 14 3680 922 231 76 38 11 Источник: Dixon W. J., Masse у F. J. Introduction to Statistical Analysis, New Vork, 1957, Table A—12c., p. 425, Copyright McGraw-Hill Book Company, 21, Aprill, 1966. 251
Применение табл. 52 поясняется примерами в табл. 52а (см. также C.6) на с. 233). Таблица 52а Критерий Для одной выборки Для двух выборок Односторонний или двусторонний односторонний двусторонний односторонний двусторонний а 0,005 0,01 0,025 0,05 Э 0,2 0,01 0,05 0,05 0,7 1,0 1,0 0,1 Объем П = п - пх = 28; пг = 2603; выборки = 28 = 28 Я2 = п2 = = 28 = 2603 2. Сравнение двух параметров возможно на основании их доверительных интервалов: 1) если доверительные интервалы перекрываются частично, то из этого не следует, что параметры различаются незначимо; 2) если доверительные интервалы не перекрываются, между параметрами имеется значимая разница. 3. Число выборочных значений, которые необходимо иметь для сравнения выборочного среднего с параметром генеральной совокупности или для сравнения двух выборочных средних, можно найти по табл. 52 для заданных значений ошибок 1-го рода (а = 0,005 и 0,025 или а = = 0,01 и 0,05) и 2-го рода (Р = 0,2; 0,05; 0,01) и для известных отклонений. Примечания 1. Другие способы изложены в [Croarkin, 1962], [Winne, 1963], [Owen, 1965, 1968], [Hodges, Lehmann, 1969], [Krishnan, 1968], [Cohen, 1969] и [Kuhl- meyer, 1970]. 2. Номографическое представление /-критерия [Thoni, 1963], [Diette, 1967], а также другие статистические критерии можно найти в [Wenger, 1963], [Stam- mberger, 1966/67] и [Boyd, 1969]. 3. Сравнение двух коэффициентов вариации. Стандартная ошибка коэффи- V if, . 2V2 v циента вариации определяется выражением sv — /-—- ¦ I/ 1 + —^ ш "i/o""" * Разность двух коэффициентов вариации при не слишком малых объемах выборок (%» я2 > 30) может быть приближенно проверена с помощью статистики C.36) распределенной по нормальному закону. Например, для Vx = 10%, V2 = 13% и пг = п2 = 30 получаем z = | 10 — 13 |/Vl02/60+132/60 =1,414. Так как 1,414 < 1,96 = z0H5, то нет оснований отвергать равенство параметров, лежащих в основе обоих коэффициентов вариации. 252
3.7. УПРОЩЕННЫЕ КРИТЕРИИ, ПРЕДПОЛАГАЮЩИЕ ПРИБЛИЖЕННО НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 3.7.1. СРАВНЕНИЕ РАССЕЯНИЙ ДВУХ МАЛЫХ ВЫБОРОК ПО ПИЛЛАИ (PILLAI) И БУЭНАВЕНТУРЕ (BUENAVENTURA) Рассеяния двух независимых рядов измерений могут быть сравнены с помощью размаха (Rly R2). Для этой цели образуют аналогично F-критерию отношение RJR2 ПРИ Ri > ^2 и проверяют, достигает ли отношение Rx/R2 соответствующей границы в табл. 53. Когда, например, ряд измерений А с пх = 9 и ряд измерений В с п2 = 10 имеют размах R1=l9uR2 = 10, тогда Rt/R2 = 1,9 больше, чем табличное значение 1,82 для а = 5%, поэтому нуль-гипотеза отклоняется. Таблица 53. Верхние границы значимости F-распределения, основанного на размахах (сверху а=0,05, внизу а = 0,01) п2 ^\ 2 3 4 5 6 7 8 9 10 2 3 4 5 6 7 8 9 10 2 Л2,71 3,19 2,03 1,60 1,38 1,24 ,15 ,09 ,05 63,66 7,37 3,73 2,66 2,17 1,89 1,70 1,57 1,47 3 19,08 4,37 2,66 2,05 1,74 1,57 1,43 1,33 1,26 95,49 10,00 4,79 3,33 2,66 2,29 2,05 1,89 1,07 4 23,2 5,13 3,08 2,35 1,99 1,77 1,61 1,49 1,42 116,1 11,64 5,50 3,75 2,98 2,57 2,27 2,07 1,92 5 26,2 5,72 3,38 2,57 2,17 1,92 1,75 1,62 1,54 131 12,97 6,01 4,09 3,23 2,75 2,44 2,22 2,06 6 28,6 6,16 3,62 2,75 2,31 2,04 1,86 1,72 1,63 143 13,96 6,44 4,36 3,42 2,90 2,55 2,32 2,16 7 30,5 6,53 3,84 2,89 2,42 2,13 1,94 1,79 1,69 153 14,79 6,80 4,57 3,58 3,03 2,67 2,43 2,26 8 32,1 6,85 4,00 3,00 2,52 2,21 2,01 1,86 1,76 161 15,52 7,09 4,73 3,71 3,13 2,76 2,50 2,33 9 33,5 7,12 4,14 з,и 2,61 2,28 2,08 1,92 1,82 168 16,13 7,31 4,89 3,81 3,24 2,84 2,56 2,38 10 34,7 7,33 4,26 3,19 2,69 2,34 2,13 1,96 1,85 174 16,60 7,51 5,00 3,88 3,33 2,91 2,63 2,44 Источник: Pullai К. С. S., Buenaventura A. R. Upper percentage points of a substitute F-ratio using ranges, Biometrika, 48, 1961, 195, 196. Границы в табл. 53 рассчитаны для одностороннего критерия. Если проверяется гипотеза о\ = о\ против а? Ф а|, то 5- и 1 %-ные границы этой таблицы нужно рассматривать как 10- и 2%-ные уровни двустороннего критерия. Критерий достаточно эффективен также и при малых выборках. 253
3.7.2. СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИИ ДВУХ МАЛЫХ ВЫБОРбК ПО ЛОРДУ (LORD) Для сравнения центров независимых рядов измерений равного объема (/гх = п2 ^ 20) вычисляют разность между средними и делят ее на среднее арифметическое размаха (Rly R2): и = C.37) Если статистика й, аналогичная /-статистике, достигает или превосходит границу табл. 54, то разность средних значений на соответствующем уровне значима [Lord, 1947]. Критерий предполагает нормальность распределения и равенство дисперсий в табулированной области, он имеет такую же мощность, как и /-критерий. Пример Если нужно сравнить ряды измерений Л: 2, 4, 1, 5 и Б: 7, 3, 4, 6, то при R1 = 5 — 1 =4, #2 = 7 — 3 = 4 получаем C-5) и = D+4)/2 = 0,5, что при пг = ла = 4 и двустороннем критерии на 5%-ном уровне не дает оснований для отклонения #0. Обе выборки взяты из общей ге- Таблица 54. Границы для сравнения двух средних значений независимых рядов измерений равного объема по Лорду 3 4 5 6 7 8 9 10 И 12 13 14 15 16 17 18 19 20 Односторонний *0,05 0,974 0,644 0,493 0,405 0,347 0,306 0,275 0,250 0,233 0,214 0,201 0,189 0,179 0,170 0,162 0,155 0,149 0,143 критерий ,01 1,715 1,047 0,772 0,621 0,585 0,459 0,409 0,371 0,340 0,315 0,294 0,276 0,261 0,247 0,230 0,225 0,216 0,207 Двусторонний «0,05 1,272 0,831 0,613 0,499 0,426 0,373 0,334 0,304 0,280 0,260 0,243 0,228 0,216 0,205 0,195 0,187 0,179 0,172 критерий «0,01 2,093 1,237 0,896 0,714 0,600 0,521 0,464 0,419 0,384 0,355 0,331 0,311 0,293 0,278 0,264 0,252 0,242 0,232 Источник: Lord E. The use of the range in place of the standard deviation in the Mest, Biometrika, 34, 1947, 41—67, Table 10. 254
Таблица 55. Границы значимости для проверки экстремальных значений при одностороннем критерии. Предварительно необходимо установить, какой конец упорядоченного ряда средних значений (или отдельных значений, см. с. 256) проверяется. При двустороннем критерии уровень значимости удваивается п 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 <х=0,10 0,886 0,679 0,557 0,482 0,434 0,479 0,441 0,409 0,517 0,490 0,467 0,492 0,472 0,454 0,438 0,424 0,412 0,401 0,391 0,382 0,374 0,367 0,360 а=0,05 0,941 0,765 0,642 0,560 0,507 0,554 0,512 0,477 0,576 0,546 0,521 0,546 0,525 0,507 0,490 0,475 0,462 0,450 0,440 0,430 0,421 0,413 0,406 а=0,01 0,988 0,889 0,780 0,698 0,637 0,683 0,635 0,597 0,679 0,642 0,615 0,641 0,616 0,595 0,577 0,561 0,547 0,535 0,524 0,514 0,505 0,497 0,489 Статистика Х1 — Х2 Х1 —хп хг — х2 Х1 — хп-1 *i— *з Х1 — хп-1 Х1 Х3 Х1 — хп-ъ Источник: Dixon W. J. Processing data for outliers, Biometrics 9, 1953,74-89, App. p. 89. неральной совокупности со средним значением \i. Мур составил таблицы [Moore, 1957] для этого критерия для неодинаковых объемов при ^i + ^2^ 39; другие таблицы дают возможность оценить стандартное отклонение, общее для обеих выборок. 3.7.3. СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИЙ НЕСКОЛЬКИХ ВЫБОРОК РАВНОГО ОБЪЕМА ПО ДИКСОНУ (DIXON) Для того чтобы установить, значимо ли отличие среднего значения ряда измерений хх от (п — 1) средних значений других рядов измерений, необходимо упорядочить эти значения по величине: возрастание — хг < х2 < ... < хПУ если интересующее среднее значение отклоняется в меньшую сторону, и убывание — хг*>х2 > ... > хп, если оно от- 255
клоняется в большую сторону. В обоих случаях хг соответствует экстремальному среднему значению. Затем вычисляется статистика М = C.38) которая затем сравнивается с границами значимости по табл. 55 [Dixon, 1951, 1953]. _Если даны_четыре средних_значения: 157, 326, 177 и 176 ихг = 326, то х2 = 177, х3 = 176, л:4 = хп = 157 и Ш~т =0,882. 326—157 Значение статистики превосходит значение 0,765 E%-ная граница для л = 4); нуль-гипотеза, согласно которой эти четыре средних значения получены из общей приближенно нормально распределенной генеральной совокупности, должна быть отклонена (табл. 55 содержит также статистики для 8 ^ п ^ 25). По отношению к отклонениям от нормальности этот критерий относительно мало чувствителен, так как согласно центральной предельной теореме средние значения рядов измерений, распределенных не по нормальному закону, распределены приближенно нормально. 3.8. ПРОБЛЕМА ВЫБРОСОВ И ДОПУСТИМЫЕ (ТОЛЕРАНТНЫЕ) ГРАНИЦЫ Слишком большие или слишком малые значения внутри ряда умеренно различающихся измерений при известных обстоятельствах могут не приниматься во внимание. Ошибка измерения, ошибка при оценке, ошибка в расчетах или патологический случай при исследовании состояния здоровья могут привести к экстремальным значениям, выбросам, которые, поскольку они принадлежат другим генеральным совокупностям, а не той совокупности, которой принадлежит рассматриваемая выборка, должны быть исключены. Общее правило гласит, что одно по меньшей мере из 10 отдельных значений может быть отброшено как выброс, если оно лежит вне области х ± 4s, причем среднее значение и стандартное отклонение рассчитываются без учета этих экстремальных значений, рассматриваемых как выбросы. «Интервал 4 сигм» (\х ± 4 а) включает в себя при нормальном распределении 99,99% значений, при симметричном распределении с одной вершиной—97% и при произвольном распределении—94% всех значений. Выброс тем менее вероятен, чем меньше объем выборки. Табл. 55 позволяет проверить экстремальное значение в выборке объемом до п = 25 с помощью статистики, приведенной в последнем столбце. При 256
этом проверяется, не относится ли экстремальное значение, рассматриваемое как выброс, к другой генеральной совокупности, а не к той, к которой принадлежит данная выборка [Dixon, 1950]. Отдельные значения выборки упорядочиваются по величине. Через х± обозначается экстремальное значение, которое предположительно рассматривается как выброс: Далее проверка осуществляется тем же способом, что и для средних значений на с. 256. В числовой последовательности 157, 326, 177 и 176 значение 326 оказывается выбросом (S = 95%). Пример Задан ряд значений: 1, 2, 3, 3, 4, 5, 9. Значение 9 предполагается выбросом: согласно табл. 55 (п = 7) получаем т. е. подозрение, что это выброс, на 5%-ном уровне отбрасывается как необоснованное (предполагается нормальное распределение). При объемах выборки больше п = 25 экстремальные значения могут быть проверены с помощью табл. 56 на основании статистики 3=Н-# C.39) а где хг — подозреваемый выброс, fx и а заменяются значениями х и s. Если статистика равна или превосходит табличное значение границы, соответствующее заданной надежности S и объему выборки п, то принимается, что проверяемое экстремальное значение принадлежит к другой генеральной совокупности и для данного ряда измерений является излишним. Экстремальное значение, являющееся выбросом согласно приведенным критериям, может быть отброшено только тогда, когда рассматриваемые данные распределены приближенно нормально. Если «опознанные» подобным образом выбросы исключаются из выборки, то при анализе данных о них не нужно забывать и по крайней мере указывать их число. Может быть целесообразно при наличии выброса проводить статистический анализ дважды: с учетом выброса и без его учета. Если выводы на основании этих анализов отличаются, то следует рекомендовать чрезвычайно осторожную и осмотрительную интерпретацию таких данных. Так, например, выброс может быть проявлением изменчивости, характерной для данной генеральной совокупности, или может быть исходной точкой нового ряда измерений. Удобен также способ, предложенный в [P. Winsor, 19621: 1) выборочные значения упорядочиваются по величине; 2) выброс заменяется соседним значением. Так, для ряда 26, 18, 21, 78, 23, 17 получаем 17, 18, 21, 23, 26, 78 и затем 17, 18, 21, 20, 26, 9 Зак. 930 257
п 1 2 3 4 5 6 8 10 15 20 30 50 100 1000 5=95% 1,645 1,955 2,121 2,234 2,319 2,386 2,490 2,568 2,705 2,799 2,929 3,082 3,283 3,884 S=99% 2,326 2,575 2,712 2,806 2,877 2,934 3,022 3,089 3,207 3,289 3,402 3,539 3,718 4,264 Источи и к: Pearson E. S., Hartley Н. О. Biometrika Tables for Statisticians, Cambridge University Press, 1954, Table 24. Таблица 56. Верхние границы 26. При этом экстремальное зна- значимости стандартизированного чение рассматривается как неэкстремального отклонения ^„„J, r F допустимое, однако указание направления отклонения как- то учитывается. Если этот метод кажется неприемлемым, тогда от «винзо- ризации» отказываются и приводят осторожное усечение выборочного распределения: с двух сторон, т. е. с нижнего и верхнего концов выборочного распределения, отбрасывают от 3 до 6% — при сильной неоднородности — выборочных значений, причем одинаковое число с каждой стороны (см. с. 70, а также [Dixon, Tukey, 1968]). Если нужно малую выборку рассматривать как неоднородную, то в качестве меры рассеяния рекомендуется среднее абсолютное отклонение (см. с. 233), так как оно уменьшает влияние экстремальных значений. Подобно тому, как стандартное отклонение минимально, если отклонения измеряются относительно арифметического среднего, для С АО минимум достигается при измерении отклонений относительно медианы. Правило гласит, что для симметричных и слабо асимметричных распределений САО составляет примерно 4/5 стандартного отклонения (CAO/s ~ 0,8). Для проблем, объединенных названием контроль качества, табл. 56 имеет особое значение. Предположим, для некоторого изделия с"х = = 888 и s = 44 проверяется выборка объема п = 10. Наименьшее выборочное значение в одном случае из ста должно быть меньше, чем 888 — 44 • 3,089 = 752, 1 (для п = 10 и S = 99% коэффициент- равен 3,089). Изменяя знак отклонения, получаем, что максимальное выборочное значение может чисто случайным образом в одном случае из ста превосходить значение 888 + 44 • 3,089 = 1023,9. Если отклонения такого вида появляются чаще, необходимо продукцию данного вида тщательно перепроверить. Допустимые границы Доверительные границы относятся к некоторому параметру. Границы для некоторой части генеральной совокупности называются допустимыми границами. Допустимые границы показывают, внутри каких границ может находиться с заданной вероятностью S = A — а) 258
Таблица 57. Допустимые коэффициенты для нормального распределения. Коэффициенты для двустороннего допустимого интервала около среднего выборочного значения нормально распределенной генеральной совокупности: с вероятностью 5 лежит по меньшей мере у процентов от всей генеральной совокупности внутри допустимой области x~±k-s; при этом х и s рассчитываются на основании выборки объема п \> У п \. 3 6 12 24 30 50 100 300 500 1000 оо 5=0,95 0,90 8,38 3.71 2,66 2,23 2,14 2,00 1,87 1J7 1,74 1,71 1,65 0,95 9,92 4,41 3,16 2,65 2,55 2,38 2,23 2,11 2,07 2,04 1,96 0,99 12,86 5,78 4,15 3,48 3,35 3,13 2,93 2,77 2,72 2,68 2,58 0,999 16,21 7,34 5,29 4,45 4,28 3,99 3,75 3,54 3,48 3,42 3,29 0,90 18,93 5,34 3,25 2,52 2,39 2,16 1,98 1,82 1,78 1,74 1,65 5= 0,95 22,40 6,35 3,87 3,00 2,84 2,58 2,36 2 17 2,12 2,07 1,96 =0,99 0,99 29,06 8,30 5,08 3,95 3,73 3,39 3,10 2,85 2,78 2,72 2,58 0,999 36,62 10,55 6,48 5,04 4,77 4,32 3,95 3,64 3,56 3,47 3,29 Источник: Bowker A. H. Tolerance Factors for Normal Distribution, p. 102 (Statistical Research Group, Columbia University), Techniques of Statistical Analysis (edited by Churchill Eisenhart, Mallard W. Hastiy and W. Allen WaHis), New York and London, 1947, McGraw-Hill Book Company Inc. (Copyright 1 Marsh, 1966). определенная часть генеральной совокупности. Для нормально распределенной генеральной совокупности эти границы имеют вид лГ± k • s, где k — соответствующая постоянная. Например, для определения допустимого интервала, в котором в среднем в 95% всех случаев E = = 0,95, а = 0,05) лежит по меньшей мере часть у = 0,90 генеральной совокупности, по табл. 57 для объема выборки п = 50 получаем коэффициент k =_2,00. Допустимый интервал находится между х — — 2,00 • sylx + 2,00 • s. При этом х us — оценки среднего значения и стандартного отклонения, вычисленные на основании выборки из 50 элементов. Коэффициенты для односторонних допустимых границ означают ([Bowker, Lieberman, 1959], [Owen, 19633, [Burrows, 1964]), что ниже х + ks или соответственно выше х — k • s, например, в 95% всех случаев содержится по меньшей мере часть у генеральной совокупности. Если объем выборки достаточно велик, то приближенно справедливо соотношение х ± z • s. Строго говоря, это выражение справедливо только при п = оо. Для неизвестного распределения эти коэффициенты недействительны. Здесь исходят из минимального объема выборки, при котором можно принимать с доверительной вероятностью 5, что часть у генеральной совокупности лежит между наименьшим и наибольшим значениями в выборке (см. также [Weissberg, Betty, 1960], [Owen, 1968], [Faulkenberry, Daly, 1970]). 259
Таблица 58. Объем выборки для двусторонних непараметрических допустимых границ 0,50 0,80 0,90 0,95 0,99 0,999 0,9999 0,50 3 5 7 8 11 14 18 0,90 17 29 38 46 64 89 ИЗ 0,95 34 59 77 93 130 181 230 0,99 168 299 388 473 662 920 1171 0,999 1679 2994 3889 4742 6636 9230 11751 0,9999 16783 29943 38896 47437 66381 92330 117559 При небольших отклонениях от нормального распределения следует рекомендовать пользоваться непараметрическими допустимыми границами. Непараметрические допустимые границы Для того чтобы с доверительной вероятностью S = 1 — а часть элементов произвольной генеральной совокупности лежала между наименьшим и наибольшим выборочными элементами, необходимый объем выборки п легко определяется по табл. 58. Табл. 58 содержит объемы выборок п для двусторонних непараметрических границ, которые удовлетворяют уравнению Уилкса [Wilks, 1941, 1942] щп~х — (п — 1) Vя = 1 — $ = <*• В среднем со статистической надежностью 5 по меньшей мере часть у произвольной генеральной совокупности лежит между наименьшим и наибольшим значениями случайной выборки из этой генеральной совокупности. То есть примерно в 5% случаев, в которых из произвольной генеральной совокупности будет взята выборка объема п, экстремальные значения выборки содержат по меньшей мере у • 100% значений генеральной совокупности. Пример 1 Для 5 = 0,80 и 7 = 0,90 объем выборки получается равным п = = 29, т. е. случайные выборки объемом п = 29 содержат в среднем в 80% всех случаев по меньшей мере 90% генеральной совокупности. Если расположить выборочные значения по величине, то в среднем с доверительной вероятностью 5=1 — а внутри интервала между наименьшим и наибольшим значениями в выборке лежит по меньшей мере у # 100% элементов генеральной совокупности. Табл. 59 дает значения 7 для различных вероятностей ошибки а и объемов выборки я. Пример 2 Экстремальные значения выборки объема п = 30 содержат с а = = 0,05 свыше 85% области значений генеральной совокупности. Нельсон [Nelson, 1963] дал номограмму для быстрого определения непараметрических допустимых границ. Важные таблицы помещены в [Danziger, Davis, 1964]. 260
Подробная таблица и номограмма для определения односторонних непараметрических допустимых границ даны в [Belson, Nakano, 1965] (см. также [Harmann, Guenther, 1970]). 3.9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ДЛЯ СРАВНЕНИЯ НЕЗАВИСИМЫХ ВЫБОРОК Простейший непараметрический критерий для сравнения двух независимых выборок предложил Мостеллер [Mosteller, 1948]. Предполагается, что объемы выборок равны (пх = л2 = л). Нуль-гипотеза (обе выборки взяты из генеральных совокупностей с одинаковым распределением) при п > 5 отклоняется с вероятностью ошибки 5%, если 5 наибольших или наименьших значений при п ^ 25, 6 наибольших или наименьших значений при п > 25 содержит одна и та же выборка. Коновер [Conover, 1968] дал интересное обобщение этого критерия. Упрощенные критерии Розенбаума Оба непараметрических критерия применяются для независимых выборок равного объема пх = п2 = п. Критерий положения. Если по меньшей мере 5 (для п ^ 16; а — = 0,65) или 7 (для п ^ 20; а = 0,01) значений одной выборки лежат выше или ниже размаха другой выборки, то нуль-гипотеза (равенство медиан) с заданной вероятностью ошибки отклоняется; предполагается, что различие размахов случайное; вероятности ошибки даны для одностороннего критерия; для двустороннего критерия они должны быть удвоены [Rosenbaum, 1954]. Критерий изменчивости. Если по меньшей мере 7 (для п ^ 25; а = 0,05) или 10 (для п ^ 51; а = 0,01) значений одной выборки (с большим размахом; критерий односторонний) лежат вне размаха другой выборки, то нуль-гипотеза (равенство мер изменчивости — дисперсий) отклоняется с заданной вероятностью ошибки; предполагается, что различие медиан случайное. Если неизвестно, что обе генеральные совокупности имеют одно и то же положение, то этот критерий проверяет и положение и рассеяние. Для 7 ^ п ^ 24 необходимо заменить 7 на 6 (а = 0,05), для 21 ^ п ^ 50 (или 11 ^ п <! 20) нужно заменить 10 на 9 (или на 8) [Rosenbaum, 1953]. Обе работы содержат критические значения для случая, когда выборки имеют неодинаковый объем. Ранговые критерии Если п выборочных значений упорядочены по величине и обозначены через *A), хм, -., Х{П), так что 261
•*¦« CO CM 00 СО 00 СО t4» »~* *Ф N» CO CM tO N> 00 СО CN CO lO CO t^» 00 ОЗ CO *"* CN CO CO "!f tO О О О О* О О*О*О* 0*0*0*0*0* О*О*О*О О* О О*О О*О ООООО ООО "^ СО lO ""Ф lO OO IjO Ь© *~* СО ^^ СО 00 ОО N> СО 00 CN tO t4- 00 00 ОО t4» tO CO CO t*** CO ОЗ lO 0*0*0*0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* о*о*о* S»*^ CO lO CD 00 ОЗ *~н ?>>| со *"Ф lO CO I4"* N1 00 О) ОЗ CO СО ^^ СО СО СО COCOCON NNNNN NNNNN OOOOOO 0*0*0*0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* О*О*О* О ~-« CN СО 'Sf *Ф Ю Ю Ю СО СО СО СО CONNNN NNNNN N00000000 OOOOOO 0*0*0*0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0" 0*0*0*0*0* 0*0*0*0*0* 0*0*0* СО N> N» CO tO t» CO t**» OS CO CO CN CO N1 CN CD 00 ОЗ ОЗ ОЗ 00 СО СО СО СО СО 00 С СО СО ОЗ I""*» CO 00 СО СО ОЗ CN lO I4"» ОЗ СО CN СО *Ф lO CD С4- 00 ОЗ СО ^—' •-* CN CN С _ «—• CN CN СО *Ф т*« Ю Ю lO СО СО СО СО NNNNN N NNN CO OOOOOOOOOO OOOOOO О 0*0*0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* О*О*О* к *^}* т^« CN ОЗ СО tO СО 00 tO СО ^^ "*!* СО *Ф N« N» ^t* '-*< ОЗ ОЗ CN 00 ОЗ tO CD CO t4* N« ""Ф 00 СО Л О О> CN N О О СО 00 OCOOON СО N О CN CO (M^ONrf *—• N СО 00 СО 00 CN N ¦ CN CN CN ОЗ Ю —i Ю ОО ^^ОсОО CNCOlOcON 00 0H0^ CN CN CO 00 *Ф *Ф Ю tO fe »-4 CN СО СО *4* Ю tO LO СО СО СО СО N NNNNN NNOOOOOO ОООООООСОО 000000 klO О 0*0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* О*О*О ""Ф СО СО СМ СО СО ООО СО СО N СО СО OOCOCDO СО О 00 ~^ О CN О tO СО *Ф О CN »—¦< Ю 00 CN ОО ОЗ ОЗ СО tO tO ^~* СО СО СО СО ОЗ CN СО СО СО *-ч ОЗ N СО СО СО *¦—' CD **¦* 1О СО "Ф '—• CN СО чф rj< Ю Ю СО СО СО СО NN NNNNN N00 00 00 00 OOOOOOOOOO OOOOOO ОООООООО ООООО О*О*О О О ООО О*О ООООО ООО О СО СО N ^^ СО ~^ CN СО <М О ОЗ N N О *—' О О СТз CN 00 О "* ^ —и СО CN 00 CN CN'—« ¦^ <о со со оз '•ф оо cn *ф ^N» оз *~* со *^* со ^s• оо оз со *~* **** cn со со ^j* ^t* to to со со i-*- »-^ CN CO "Ф ^* lO tO СО СО СО СО t*» t"^ N> t4*» Г4^ N> N« 00 00 00 00 CO 00 00 00 00 00 00 00 00 оооооооо ooooo 0*0000 о o*o0*0* 0*0000 000 I4» O3 CN CN O3 t(* CO 00 ^** lO CO CO ^* 00 00 tO <O CO CO *Ф t*4* tO 00 t**- *~* CN O) CO tO ^^ » •—«о со ~^ о оз оз см •-1 ю со to —« юооо^о о n тр —1 n со о-^ 00 со n •-• to CO 00 t4»» tO *~< tO O3 CO CO СО CO CN ^Ф tO CO OO O3 CO CO гши CN CO CO "si* ^" tO tO CD CD N» I**» *~"* CN CO ^* lO lO lO CO CO CO t4» t4» N» N> Is» N1 t4*» 00 00 00 00 00 00 00 00 00 OO 00 00 00 00 оооооооо ooooo 0*0000 ooooo ooooo 000 t4*" CO CO ^ч CN O3 *""^ ОЗ *\{У ^f* CO CO ОЗ С^З tO ОЗ *~* ^^ O3 C^** 00 ^1^ tO *"^^ '^f CO СЛ CN CN CO CD CO Ю О Ю -ф ~ч 1-щ СО «--• lO СО 'Ф О COCON00N tOCOONCC O^t*O CD 00 CNCDO »—• CN CO чф Ю tO CO CO CO CO NNN N NNN 00 OOOOOOOOOO OOOOOOOOOO OOOOOO 00*0*0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* 0*0*0*0* 0*0*0* SCNOOOCOCOOOO -HOOlOOtO CNtOlOlOtO 00 CO CN CO Ю O^OCOlO rH ~-« CD OO CO N CD 00 ^ ^f —» rt< ^ CN N '—CO'sFtFCO »—• О CD CN 00 ^OCOOOCN CDOCO ' 00 О О N CO 00 CN lO 00 О CN Tt< Ю tsflOO>0-< CN CN CO Tt< -^f tO Ю CD CD N N00 00 К~* CO-T^lOtOCOCD CONNNN N N N 00 00 OOOOOOOOOO OOOOOOOOOO OOOOOO ¦^0*0 0*0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* 0*0*0* 00 tO ^¦^ t^ ^Ф 00 CO CN 00 t^D CN CO ^^^ 00 00 tO CN CO ^*^ ^Ф CN ^t* **~* tO ^Ф *^"^ "^3* ^Ф CN 00 CN tO CO CO Oi N» CO *""• CO O3 CN CN ОЗ ^Ф N- O3 CD CO O3 t4- ^st* ~—* N CO 00 CO OO CN CD CO CO ?**• OCN~-•OO^OCOCO OO '—1 CO Tf CO NOQO»—•'-4 CNCO'^f'^'iO tOCDCDNN OOOOOO i—• CO "Ф "^ Ю Ю CO CO CONNNN NNOOOOOO OOOOOOOOOO OOOOOOOOOO OOOOOO оооооооо ooooo ooooo ooooo ooooo 000 rf tO О N CO Ю tO tJ« N ^ CM N CO 00 0 0 01»— CN NN CO CO ~-• Ю Ю "f О СО тН rf rf CO N 00 CO CO ^^ О TflOcOOOCN ^ lO "Ф CO •-< 00 *Ф О CD —< CDO^OO<-| Ю 00 »— ^NCOCOOCONO CN^CONO O'—'CNCO1^' "«flOCOCDN NOOOOOOO OOO CN CO ^ Ю lO CO CO N NNNNN OOOOOOOOOO OOOOOOOOOO OOOOOOOOOO OOOOO 0*0 0*0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* 0*0" 0*0*0* o*0*0*0*0* 0*0*0* ^юодсо~чсосмо ^t^noocm cnocoloco oorocoo cn —« со cn to юсоо NNONOOCNO -hOCOOcO TfCOCNO N г^СЙЮО^ О) (О CD О П CDOCN ¦^--ONCNCOOCN lONOOO-^ CNCOrfLOLO CO CO N 00 00 OOOOOO OO — t^.t-N.0000 oooooocooo cooooooooo oc^oo oc o^o^ о о о О О О*О*О* О*О ООО ООООО ООООО ООО CO^lOCDNOOOO *-<CNCO<n«lO CDNOOOO »—• CN CO "^f tO CDNCOOO »~' CN CO ^ ^^-,^^^ч ^^-.^^CN CNCNCSCNCN CMCNCNCNCO COCOOO о S S X ев о. 2 I § О S Q. I O, С S о Ю 262
О »-н О *Ф О- t*- tO —• tO I4- t4- CO 00 О СО СО ОО СМСОООО**** 00 СО CN t"» N О 1Л 00 00 О CDtO О СО —I СО •—« СОО^ООСМ СО О СО СО О СО 1О О СМ »—« М4 О)Г*1-" *Ф vD OO О О СО о*о* о*о*о*о*о* о*о*о*о*о* оо*ооо ооооо ооооо ооооо ОСМ —• 00 CN чф Ю СО О СО О CN СО СО tN О CD COCOOOCOO TFlOCOCMt"- ^1^00СО«--« ОООО OOOOOOOOOO OOOOOOOOOO OOOOOOOOOO OOOOOOO) О О O^O^O^ О^О^О^О^О^ о*о* о*о*о*о*о* о*о о о*о ооооо ооооо ооооо ооооо CNO О Г4- N СО СО 00 —i ^ -«ф *ф СМ О tO —'tO ^*OO Ю Ю CO »—• Ю 00 О CO Is— CD чф CO CMCN CM CO CO "<ф тр Tt^tOlOtOCD CO CD CO t4- h- О О •—« CN CO CO t4- 00 00 00 ^^^2^2^ oooo oooooooooo oooooooooo oooooooooo oooooo oooo o^ o^o^o^cd^cd^ о о оo*o*o*o ooooo о o*o*oо ooooo ooooo ooooo — "Ф Tf CN О Tt4 N 00 00 h- Ю — CD —« rf CD 00 CD Ю CM О •-¦ CNNlfJ'tCO t*- l4- Ю CM — О14** 00 CN Ю О CN ЮСО^^Ь О CN ^Ф СО 00 COOOCO CO «—« О Ю 00 О —* CM CO "Ф CO ¦^•^ ^ЮЮЮСО CDCOt^l^t4^ t4*- CO CO CO 00 О —• CM 00 чф N 00 OOOOO OOOOO oooo oooooooooo oooooooooo oooooooooo ooooo ooooo^ о^о^о_о^Ож о о ооо о*о* о*о о о*о ооооо ооооо ооооо ооооо СМ СМ О Ю О »—« СМ —нОСО'—CD OCN^T^Tf ООООООСО WOONCO —н "^* СО »-< t4- чф СМ СО О СО СО О СО СО ОО —« ""Ф CD ОО —« СО tO t4- COlOrf<-<N СО <N СО О —* CN СО ч*« rf CO tOtO Ю СО СО Is- t4- N t-- 00 СО GO COCDOOO »—' CN ОО чф «*{< t4- 00 СО ОО О ООООО ОООО ООООСОСООО 00 00 СО СО СО OOOOOOOOOO ООООО ООООО ООООО о о* о*о*о*о*о* о*о ооо ооооо ооооо ооооо ооооо О N СО СО 00 О СО CDCNt>- —< *Ф NCOCO00N СМ^ФОЮО (N^iflON O)NtON »—« r^« 00 *""• Tf t4*- CO CO CD 00 •—• CO tO t4" O) *~« CO O) CO 00 lO CO lO CO t*^> CO *~^ CM CO ^J* tO CO CD CD CD t4^ C4^1 t4^- CO CO 00 00 CD CD CD CD CT> CO CO ^-« CO 00 ^'J* Ю I4*» 00 00 O5 CD O) CD CD CD CD coco oooooooooo oooooooooo со оо со о о ooooo ooooo ooooo OO OOOOO OOOOO OOOOO OOOOO OOOOO OOOOO ОЮ О —• -и О СО 'tO'tNOJ О О О 00 СО ч* О ¦—* "Ф "* ЬОООСМЮ'—' СЧ ¦—" Г*- 00 00 Г- *—< 'ф 00 —<-^ CD О CM rf CD 00 *-* СО "«t1 СО 00 СО т*« СМ 00 00 СО^ОООСМ CO^fT^lOCD CD t4^- I4*" Г4^ СХ) 00 ОО 00 О CD О CD СО СО СО СО СО CSI 00 Tf *ч* 1О С**1* ОО 00 CD CD CD CD CD О) О) 00 00 00 00 00 СО СО СО 00 СО СО 00 CD CD CD О) О) О) О) О) О) О) О) О) О) О) О) О) CD О) CD О) ?*¦*• ^^ ^d4 "*^ "^* CN 00 СО t4^ c*mij CN 44i4 ^Nt4 CO C^ ^,з f*^» 00 ^j** Г*1^ t4^ CO ^O CO C4^ ^^ CO COt4- OCOCDO—< "«d* СО О —'CO tOl^O»-^CN CON'tOlO t*~ Ю GO *—i CM -,^ t^-t4- OOOOOOOOCD OOOOO О О О —' —' CNCO^ Ю Ю N00 00 0H) ООООО 00^00^ ОО^СО^СО^ОО^ОО^ СО СО^СО^О^О^ О^О^О^О^О^ О^О^О^О^О^ 0)^0)^0) О О^О О О5ж<^)л О*О* О*О*О*О*О* О*О*О*О*О* 0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* 0*0*0*0*0* CD О —ОСТ>Ю— ЮСО—«CNCN —• О 00 Ю CN OOCOOt^-т»* ЩСОСМт^ОО CO CO CN t>- — GO—i Ю СО О CO CD СО О 00 Ю Г^ О *-< СМ ^Ф CD OiONWN 00 Ю О *—• CN CO Tt4 Ю Ю Г*- h-CC COCOCDCDCD ООООО О »—< '—i —¦ *—i СМСО^Ф Ю Ю t4- ОО ОООО ООООО ОООО OOOOOOOOOO 00 О) О) О Оз ООООО CFi CTi О ОО ООООО ООООО оо ооооо ооооо ооооо ооо о*о* о о о*о*о* о*о о*о*о* OCN CN — OOrt-00 CN^CDCDCD "^CNOCOCM ОООООЮО COCNCOI>.'~' —ССФООСМ COCO OCN'* NO) CM "гг CD CO О CM Tt4 CD t4- О CM *—• 00-«t1 О О СО О —• CO *<*iOWN OOOO 00 03 0HH) О О О О >—• «—< *—< ^-н »-н ¦•-< СО'фчф Ю Ю N000000 ООООО со^со^ оосооосооо ooocdo ооооо ооооо ооооо ооооо О О 0*0*0*0*0* 0*0*0*0*0* О* О* О* о"О*" 0*0*0*0*0* 0*0*0*0*0 0*0*0*0*0* СО О) OCOCOCOCN lOCOt^NCO ^t »-i OOrfO О OON*-*^ О NOOM СООЮОСО CD CD CM IjO СО О СО lO Is* CD »-~« СО lO t4» 00 СО CN ^Ф 00 СО CD CO CO CO CD CM 00 *Ф Ю tO CD t4^* СО СО О> CD С7) СО СО СО СО СО »—« '—< *—< *~н »—i CN CN CO ^* IjO Ю СО 00 00 CD CD О) О) О) О) CD О ОООО OOOQOOOO ООООО ООООО ООООО ООООО ООООО ОО ООООО ООООО ООООО О*О*О О О* О О*О*О*О 0*0*0*0*0* СО "^ СМ О tO О CN ^Ф tO tO tO 00 *—i Г4— **d* CD т|^ t*^ CO CM Ю I4*1 t4»» *™^ 00 CM iO Ю »~* t*^ *~< ^* OO CDOOOO О —« —' »—< "—« —i —i CM CM CM СО'ФЮЮСО OOOOOOO OOOOO COCO OOOOOOO OOOOO OOOOO OOOOO CDOOOO OOOOO OO OOOOO OOOOO OOO O*O* 0*0*0*0*0* O*O*O*O*o\ O*O*O*O~O* CN CD Tfr* t4— CO '~t C4) »—< CD l>> ^Ф CO CD CO lO 00 »~< О СО Ю CO t4" CM 00 CO CO ^* tN 00 CO CD CO ^Ф CD (IT) »—i "ф CD GO CO ""« CO lO !>• CO CO ^—* CN ч^1 ч^< CN CO CO CO CO 00 '—< 0^ ""ф Ю li CD CO t4*- ^Я^ ^^!^^^ ?J?}<^???i cNcocococo ^фююсосо cocoooo o-cdocdo 0H Ob <J> (J) C7> CJ) 03 0 0HH) CDOOOO OOOOO O) OOOO OOOOO OO OOOOO OOOOO OOOOO OOOOO OO O*O*O 0*0*0*0*0* ICO) — CM CN CNO N чф о Ю О CO CD О — CO О 00 О — *Ф -н—«1ЛОО Г--сОГ-.«-)Г5 *ФСО О — СО tO С— ОООСЧСО'Ф COCDOOO'--* ONCONO ЮОСМ-^Ю ЮООСО^-ОО ^-ц^_« »—iCNCNCNCN CNCOCOCOCO CO00CO'^t>'i5f Ю Ю CDCON OOOOOO О) О"> О) О) О) О) Оз О) О) О> О) Оз О) О) О) О) СЗЪ О О4) Оз О) ОЗ О О) О) О) О) СЛ CD О) О> CD О) О) CD CD О) оо ооооо ооооо ооооо оо о*о*о* о*о*о*о*о о*о*о*о*о* CO со J3 Ю 8 2 с/Э 5 ^tO CDh-COOO — CN СО -^ to ON0C0)O ОООО COCO СОСОСООО^ ^^rf-Ф^ ^^H^TflO 0NOOO) S3 о S 263
то любое значение X(t) называют ранговым значением (или ранговой статистикой, order statistics). Номер выборочного значения называют рангом или ранговым числом (rank). Значению хщ соответствует ранг i. Критерии, в которых вместо выборочных значений используются их ранги, образуют особенно важную группу непараметрических критериев. Ранговые критерии показывают удивительно высокую асимптотическую эффективность. Кроме того, они не требуют громоздких вычислений! 3.9.1. РАНГОВЫЙ КРИТЕРИЙ РАССЕЯНИЯ ЗИГЕЛЯ И ТЬЮКИ Поскольку /^-критерий чувствителен к отклонениям от нормального распределения, Зигель и Тьюки [Siegel, Tukey, 1960] предложили непараметрический критерий, основанный на критерии Уилкоксона. Он позволяет проверить нуль-гипотезу: две независимые выборки относительно их изменчивости, рассеяния или вариации относятся к общей генеральной совокупности, против альтернативной гипотезы: обе выборки принадлежат различным генеральным совокупностям. С увеличением разности между средними значениями генеральных совокупностей уменьшается вероятность того, что нуль-гипотеза при наличии действительной разницы в дисперсиях будет отклонена, т. е. чем больше разница средних значений, тем больше вероятность ошибки второго рода. Это особенно справедливо при малых дисперсиях. Когда генеральные совокупности не перекрываются, мощность критерия равна нулю. Этот критерий, весьма чувствительный к разнице дисперсий при равных параметрах положения (см. также [Bradley, 1968]), был распространен Майер-Бальбургом [Meyer-Bahlburg, 1970] на случай k выборок. Для применения этого критерия объединенная выборка (пх + п2 при пх ^ п2) упорядочивается по рангам, причем экстремальные значения получают малые, а центральные, средние наблюдения — высокие ранговые значения: наименьшее значение получает ранг 1, два наибольших значения получают ранги 2 и 3, ранги 4 и 5 получают следующие наименьшие значения, 6 и 7 — следующие наибольшие значения и т. д. Если число наблюдений нечетно, то среднее наблюдение не получает никакого ранга, если четное, — оно получает наивысший ранг. Для каждой выборки определяется сумма ранговых чисел (Rl9 R2). При пх = п2 нуль-гипотезе соответствует соотношение R1 « R2, чем больше отличаются выборки по своим дисперсиям, тем больше разница между Rt и R2. В качестве контроля правильности определения ранговых сумм служит выражение #i + #2 = (пх + п2) (лх +п2 + 1)/2. C.40) Для оценки разности при малых выборках (пг ^ я2^20) авторы дают точные критические значения. 264
Для не слишком малых выборок fa и п2 > 9 или пг > 2, /г2 > 20) разница дисперсий с достаточной точностью может быть определена на основании стандартной нормальной переменной При этом i?x — сумма рангов меньшей выборки. Если 2RX > пх fa + п2 + 1), то в выражении C.41) заменяют + 1 на—1. Сильно различающиеся объемы выборок При сильно отличающихся объемах выборок выражение C.41) становится неточным, и следует использовать скорректированное выражение (Ы <3-41а) Много одинаковых значений Если больше чем пятая часть наблюдений связана равенствами или зависимостями (ties)—зависимости внутри выборки не мешают, —то знаменатель статистики C.41) нужно заменить выражением УЧ fa+n2 + 1) (/ь/3)—4 [fa ntlfa + nj fa + nt—l)](S1—S^t C.42) где St — сумма квадратов рангов зависимых наблюдений, a S2 — сумма квадратов средних рангов зависимых наблюдений. Например, для последовательности 9,7; 9,7; 9,7; 9,7 получаем обычные ранги 1, 2, 3, 4; средние ранги 2,5; 2,5; 2,5; 2,5 A + 2 + 3 + 4 = 2,5 + 2,5 + + 2,5 + 2,5); для последовательности 9,7; 9,7; 9,7 — обычные ранги 1, 2, 3 и средние ранги 2, 2, 2. Пример Даны выборки А и В: А I 10,1 7,3 12,6 2,4 6,1 8,5 8,8 9,4 10,1 9,8 В | 15,3 3,6 16,5 2,9 3,3 4,2 4,9 7,3 11,7 13,1 Проверить возможную разницу дисперсий на уровне 5%. Так как неизвестно, принадлежат ли выборки нормально распределенной генеральной совокупности, применим способ Зигеля и Тьюки. Упорядочим значения по величине: Л | 2,4 6,1 7,3 8,5 898 9,4 9,8 10,1 10,1 12,6 В | 2,9 3,3 3,6 4,2 4,9 7,3 11,7 13,1 15,3 16,5 и разместим по рангам: 265
Значения [ 2,4 2,9 3,3 3,6 4,2 4,9 6,1 7,3 7,3 8,5 8,8 Выборка Ранг Значения Выборка Ранг А 1 9,4 А 18 В 4 9,8 А 15 В 5 10,1 А 14 В 8 ю, А 11 В 9 1 В 12 11,7 в 10 А 13 12 Л 7 Л 16 ,6 в 17 13,1 6 15 Б 3 Л 20 ,3 1 А 19 16,5 в 2 После определения ранговых сумм цА = 1 + 13 + 16 + 20 + 19 + 18 + 15 + 14 + 11 + 7 = 134; Ял = 4 + 6 + 8 + 9 +12+17+10 + 6 + 3 + 2 = 76 и их контроля 134 + 76 = 210 = A0 + 20) A0 + 10 + 1)/2 получаем 2= 276—10A0+10+1)+! = 152-210+1 ^ _2 154 Т/Ю(Ю+10+1) A0/3) V700 Значению \z\ = 2,15 в табл. 13 соответствует вероятность Р ~ ~ 0,0158. Для двустороннего критерия при Р ~ 0,03 получаем на 5%- ном уровне значимую разницу дисперсий: на основании заданной выборки с доверительной вероятностью S = 95% имеется разница дисперсий генеральных совокупностей. Хотя здесь только 10% наблюдений между выборками связано равенствами G,3; 7,3 — значения 10,1; 10,1 можно и не принимать во внимание, так как они находятся внутри одной выборки А), продемонстрируем применение «длинного корня» C.42); если учитывать все связи, то получается: Sx = И2 + 142 + 162 + 172 = 862; S2 = 12,52 + 12,52 + 16,52 + 16,52 - 857 и 1/-10A0 +10+1) A0/3) — 4«10-10/A0+10) A0+10 -— 1) (862—857) = = V 700— 100/19 = У 694,74 = 26,36, 9 = _ J1L = _ 2,162 — весьма мало увеличенное значение по от- ношению кг — — 2,154. 3.9.2. СРАВНЕНИЕ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК; УПРОЩЕННЫЙ КРИТЕРИЙ ТЬЮКИ Две группы измерений отличаются тем больше, чем меньше пересекаются их значения. Пусть одна группа содержит наибольшее, а другая наименьшее значение; тогда необходимо подсчитать: 1) те значения группы, которые превосходят все значения другой группы; 266
2) те значения другой группы, которые меньше всех значений первой группы. Оба значения (каждое должно быть больше нуля) складываются, и таким образом получается значение статистики 7\ Если объемы выборок примерно одинаковы, то критические значения статистики равны соответственно 7, 10 и 13: 7 — для двустороннего критерия на 5%-ном уровне; 10 — для двустороннего критерия на 1%-ном уровне и 13 — для двустороннего критерия на 0,1%-ном уровне [Tukey, 1959]. Двум равным значениям следует приписать число 0,5. Если мы обозначим объемы выборок через пг и п2 при пг ^ п2, то критерий справедлив при не слишком сильно отличающихся объемах выборок, а именно при п± < п2 < 3 + 4 пх/3. C.43) Во всех других случаях рассчитанное значение статистики Т перед сравнением его с числами 7, 10 или 13 должно быть уменьшено на корректирующее число: 1, если C + 4 пг/3) <п2< 2/гх; C.44) целую часть от n2~""n , если 2пг ^ п2. C.45) Например, для пх = 7 и /г2 = 13 условие C.43) не выполняется, А 7 Q7 так как 3 + —. = —<; 13. Корректирующее значение в соответствии с C.44) равно L 14 4-4-1 При л1 = 4ил2= 14 в соответствии с C.45) получаем ~- = = — = 2,75, т. е. корректирующее значение равно 2. Если одна выборка превышает другую больше чем на 9 элементов (п2 — пг ^ 9), то для 0,1 %-ного уровня нужно применять критическое значение 14 вместо 13. Сходный критерий предложен в fHaga, 1960J. Пример А: 14,7 15,3 16,1 14,9 15,1 14,8 16,7 17,3* 14,6* 15,0 14, 13, 7 9 15 14 ,3 ,6 16, 14, 1 2 14 15 ,9 ,0* 15,1 14,3 14,8 13,8* В: 13,9 14,6 14,2 15,0* 14,3 13,8* 14,7 14,4 Отмечаем наибольший и наименьший элементы каждого ряда звездочкой. В первой группе имеется 5 значений; больших чем 15,0, и одно значение, равное 15,0. Во второй группе 5 значений, меньших чем 14,6, и одно значение, равное 14,6. Значение статистики равно Т = 5,5 + + 5,5= 11. Корректирующее значение равно нулю, так как (щ ^ < п2 < 3 + 4лгх/3) 8 < 10 < 41/3. Поскольку Т = 11 > 10, нуль- гипотеза (равенство функций распределения, соответствующих обеим выборкам) на 1 %-ном уровне должна быть отклонена. Точные критические границы для малых выборок можно получить из оригинальных работ. 267
Дальнейшее развитие этого критерия изложено в [Neave, 1966], где приведены подробные таблицы (см. также [Granger, Neave, 1968], [Neave, Granger, 1968]). Графический вариант критерия Тьюки описан в [Sandelius, 1968]. 3.9.3. СРАВНЕНИЕ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК ПО КОЛМОГОРОВУ И СМИРНОВУ Если необходимо сравнить две независимые выборки измерений (или значений частот) и ответить на вопрос, относятся ли они к одной и той же генеральной совокупности, то наиболее строгим критерием однородности является критерий Колмогорова A933) и Смирнова A939). Он включает в себя проверку всех видов различия распреде- делений, в особенности различия средних положений (среднее значение, медиана), рассеяния, асимметрии и эксцесса, т. е. различия функции распределения (см. также [Darling, 1957] и [Kim, 1969]). В качестве статистики служит наибольшая разность между ординатами обеих относительных кривых накопленных частот. При этом (при одинаковых для обеих выборок границах классов) накопленные частоты Ft и F2 делятся на соответствующие объемы выборок пг и п2. Затем вычисляется разность /Уях — /Ул2. Максимум абсолютного значения этой разности и есть искомая статистика D (для более интересного в этом случае двустороннего критерия): C.46) Распределение статистики D было табулировано Смирновым A948). Для средних и больших объемов выборок (пх + п2> 35) значениеD может быть приближенно заменено выражением =К*»'У "let* C.47) где К(а) есть постоянная, (см. замечание на с. 302). зависящая от вероятности ошибки а Таблица а *(a) 60 0,20 1,07 0,15 1.14 0, 1, 10 22 0 1 ,05 ,36 0 1 ,01 ,63 0 1 ,001 ,95 Если определенное на основании двух выборок значение D достигает критического значения Dw или превосходит его, это означает наличие значимой разницы между распределениями или функциями накопленных вероятностей. Для малых выборок таблицы 5 — 1%-ных границ даны в ISiegel, 1956] и ILindgren, 1960]. Для случая равных 268
объемов выборок (пг = п2 = п) приведено ниже несколько строк из таблицы [Massey, 1951], для критических значений Drt(a) в знаменателе указан объем выборки (табл. 61). Числитель для нетабулирован- ных значений Dn(a) получается по формуле К(а) • V я, его надо округлить до следующего целого числа. Например, для а = 0,05 и /г = 10 получаем 1,36 ]/2-10 = 6,08 и округляем до 7, т. е. Dlo(o 0Б) = = 7/10. Таблица 61. Отдельные значения Dn(a) n(=ni=n2) <х=0,05 Критерий двусторонний а=0,01 10 7/10 8/10 15 8/15 9/15 20 9/20 11/20 25 10/25 12/25 30 11/30 13/30 Если вычисленное на основании двух выборок значение Ь равно критическому значению Dn^a) или превосходит его, то имеется значимое различие. Пример Необходимо сравнить два ряда измерений. О возможных различиях какого-либо вида ничего не известно. Мы проверяем нуль-гипотезу: генеральные совокупности одинаковы,—против альтернативной гипотезы: генеральные совокупности имеют различные распределения (а = 0,05, критерий двусторонний). Ряд измерений 1: 2,1 3,0 1,2, 2,9 0,6 2,8 1, 6 1,7 3,2 1,7 Ряд измерений 2: 3,2, 3,8 2,1, 7,2 2}3 3,5, 3, 0 3,1 4,6 3,2 10 значений каждого ряда упорядочим по величине. Ряд измерений 1: 0,6 1,2 1,6 1,7 1,7 2,1 2,8 2,9 3,0 3,2 Ряд измерений 2: 2,1 2,3 3,0 3,1 3,2, 3,2 3,5 3,8 4,6 7,2 Из распределений частот (Д и /2) обеих выборок определяем накопленные частоты Fx и F2 и вычисляем отношения Fxlnx и F2/n2. Таблица 62 Интервал h /2 FJrn F2/n2 Fi/ni-Ft/nt 0,0-0,9 1 0 1/10 0/10 1/10 1,0-1,9 4 0 5/10 0/10 5/10 2,0-2,9 3 2 8/10 2/10 6/10 3,0-3,9 2 6 10/10 8/10 2/10 4,0—4,9 0 1 10/10 9/10 1/10 5,0-5,9 0 0 10/10 9/10 1/10 6,0-6,9 0 0 10/10 9/10 1/10 7,0-7,9 0 1 10/10 10/10 0 269
В качестве абсолютно наибольшей разности получаем значение D = 6/10, которое меньше, чем критическое значение ?>lo(OtO5) = = 7/10; следовательно, гипотеза об однородности сохраняется: на основании имеющихся выборок нельзя отвергать возможность существования общей генеральной совокупности. На одностороннем критерии Колмогорова — Смирнова C.47) при /C0j05 = 1,22 или /COioi — 1,52 мы здесь подробно останавливаться не будем, так как он обычно лежит в основе ранговых критериев, например (/-критерия Уилкоксона, Манна и Уитни. В [Birnbaum, Hall, 1960] даны критические границы для трехвы- борочного критерия, которые табулированы также и для двухвыбороч- ного одностороннего критерия. В разд. 4.4 критерий Колмогорова — Смирнова используется для сравнения наблюдаемого и теоретического распределений. ©3.9.4. СРАВНЕНИЕ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК: 17-КРНТЕРИЙ УИЛКОКСОНА, МАННА И УИТНИ Ранговый критерий Манна и Уитни [Mann, Whitney, 1947], основанный на так называемом критерии Уилкоксона для независимых выборок, есть непараметрический аналог ^-критерия для сравнения двух средних значений непрерывных распределений. Эта непрерывность, строго говоря, никогда на практике не выполняется, так как все результаты измерений являются округленными числами. Асимптотическая эффективность (/-критерия равна 100 • 3/я ~ ~ 95%, т. е. при использовании этого критерия для 1000 значений мощность критерия получается такая же, как при использовании ^-критерия для 0,95 • 1000 — 950 значений при условии справедливости нормального распределения. Очевидно, что (/-критерий целесообразно применять также для приближенных расчетов или для контроля заключений на основании ^-критерия, когда эти заключения выглядят неправдоподобными. Предполагается, что сравниваемые выборки относятся к распределениям одинакового типа [Gibbons, 1964], [Pratt, 1964], [Edington, 1965]. Если это не так, то нужно следовать указанию 6 (с. 280). Асимптотическая эффективность . (/-критерия (так же, как и Я-крктерия) в случае произвольного распределения не может быть ниже 86,4% [Hodges, Lehman, 1956]; она равна 100% у критериев Ван дер Вар- дена (Х-критерий) [Van der Waerden, 1965], Терри — Хоффдинга и Белла—Донсама; расчетные примеры и указания к основным таблицам даны в [Ritz, 1967/68], а также в [Penfield, McSweeney, 1968]. (/-критерий Уилкоксона, Манна и Уитни проверяет нуль-гипотезу: две независимые выборки принадлежат одной и той же генеральной совокупности, их функции распределения вероятностей равны: F1(x) = F2 (х). Эта гипотеза включает также равенство положений^ в частности равенство значений медиан^ — |х2 [Potthoff, 1963] и равенство средних значений ^ = р2. 270
Для вычисления статистики U упорядочивают (т + п) значений объединенной выборки по величине (см. с. 261), причем каждому рангу приписывают, к какой из выборок он относится. Пусть сумма рангов первой выборки равна Rl7 второй выборки — R2- Вычисляем = тп и проверяем правильность вычислений по формуле иг + U2 = тп. C.49) Искомая статистика есть меньшее из значений иг и ?/2- Нуль-гипотеза отвергается, когда вычисленное (/-значение меньше критического значения U(mt n; а) из табл. 63 или равно ему. Для достаточно больших выборок (т + п > 60) справедлива превосходная аппроксимация l/" C.50) Значение z для двух-или одностороннего критерия может быть определено по табл. 43 с. 204. Вместо выражения C.50) в случаях, когда значение а не может быть заранее задано или нет таблиц критических значений 13 (т, п\ а) и когда объемы выборок не слишком малы (т ^ 8, п ^ 8 [Mann, Whitney, 1947]), используется следующее выражение: тп(т+п+\) 12 C.51) Полученное значение z сравнивается с таблицами стандартного нормального распределения (табл. 14, с. 68 или табл. 43, с. 204). ^-критерий для однородных подгрупп выборок подробно рассмотрен в [Lienert, Schulz, 1967]. Пример Проверьте две упорядоченные по величине выборки А и В А: 7 14 22 36 40 48 49 52 (т = 8) В: 3 5 6 10 17 18 20 39 (п = 8) на равенство средних значений (\1А = \хв против \1а > Ця); a = = 0,025. Поскольку имеются значительные отклонения от нормального распределения, ^-критерий заменяется на (/-критерий, с помощью 271
Та бл и ц а Уилкоксона, т 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 1 — — — — — 0 0 0 0 0 0 0 0 0 0 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 ? \ 2 0 0 1 1 1 2 2 3 3 4 4 5 5 5 6 6 7 7 8 8 9 9 9 10 10 11 11 12 12 13 13 13 14 14 15 15 16 16 3 1 1 2 3 4 5 5 6 7 8 9 10 10 11 12 13 14 15 15 16 17 18 19 20 21 21 22 23 24 25 26 26 27 28 29 30 31 31 63. Критические Манна 4 3 4 5 6 7 9 10 11 12 13 15 16 17 18 20 21 22 23 25 26 27 28 30 31 32 33 35 36 37 38 40 41 42 43 45 46 47 5 5 7 8 10 12 13 15 17 18 20 22 23 25 27 28 30 32 33 35 36 38 40 41 43 45 46 48 50 51 53 55 56 58 60 61 63 и 6 9 11 13 15 17 19 21 23 25 27 29 31 34 36 38 40 42 44 46 48 50 52 54 56 58 61 63 65 67 69 71 73 75 77 79 Уитни:( 7 13 16 18 21 23 26 28 31 33 36 38 41 43 46 48 51 53 56 58 61 63 66 68 71 73 76 78 81 83 86 88 91 93 96 8 19 22 24 27 30 33 36 39 42 45 48 51 54 56 59 62 65 68 71 74 77 80 83 86 89 92 95 98 100 103 106 109 112 значения U х = 0 9 25 28 31 35 38 41 45 48 52 55 58 62 65 68 72 75 78 82 85 88 92 95 99 102 Ю5 109 112 115 119 122 126 129 ,10, 10 32 36 39 43 47 51 54 58 62 66 70 73 77 81 85 89 92 96 100 104 108 111 115 119 123 127 131 134 138 142 146 для одностороннего i двусторонни] 11 40 44 48 52 57 61 65 69 73 78 82 86 90 95 99 103 107 112 116 120 124 129 133 137 141 146 150 154 158 163 п 12 49 53 58 63 67 72 77 81 86 91 95 100 105 109 114 119 123 128 133 137 142 147 151 156 161 166 170 175 180 13 58 63 68 74 79 84 89 94 99 104 109 114 120 125 130 135 140 145 150 156 161 166 171 176 181 186 192 197 i критерий: а 14 69 74 80 85 91 97 102 108 113 119 124 130 136 141 147 152 158 163 169 175 180 186 191 197 203 208 214 15 80 86 92 98 104 ПО 116 122 128 134 140 146 152 158 164 170 177 183 189 195 201 207 213 219 225 231 16 93 99 106 112 119 125 131 138 144 151 157 164 170 177 183 190 196 203 209 216 222 229 235 242 248 критерия = 0,20. 17 106 113 120 127 134 141 147 154 161 168 175 182 189 196 203 210 217 224 230 237 244 251 258 265 18 120 128 135 142 150 157 164 172 179 186 194 201 209 216 223 231 238 245 253 260 268 275 282 19 135 143 151 159 167 174 182 190 198 206 213 221 229 237 245 253 260 268 276 284 292 300* 20 151 160 168 176 184 193 201 209 217 226 234 242 251 259 267 275 284 292 301* 309* 317* * Предполагается, что значения распределены приближенно по нормальному закону. Источник: Milton R. С. An extended table of critical values for the Mann—Whitney (Wilcoxon) two-sample statistic, /. Amer. Statist. Ass., 59, 1964, 925—934. 272
Та б Л I \ ц а 63 (продолжение критерия Уилкоксона, т 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 1 — — — — — — — — — — — — — — 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 2 _ 0 0 0 1 1 1 1 2 2 3 3 3 3 4 4 4 5 5 5 6 6 6 7 7 7 7 8 8 8 9 9 9 Ю 10 Ю 11 3 0 0 1 2 2 3 4 4 5 5 6 7 7 8 9 9 10 И И 12 13 13 14 15 15 16 17 17 18 19 19 20 21 21 22 23 23 24 4 1 2 3 4 5 6 7 8 9 Ю 11 12 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 38 39 5 4 5 6 8 9 11 12 13 15 16 18 19 20 22 23 25 26 28 29 30 32 33 35 36 38 39 40 42 43 45 46 48 49 50 52 53 6 7 8 10 12 14 16 17 19 21 23 25 26 28 30 32 34 36 37 39 41 43 45 46 48 50 52 54 56 57 59 61 63 65 67 68 Манна 7 11 13 15 17 19 21 24 26 28 30 33 35 37 39 41 44 46 48 50 53 55 57 59 61 64 66 68 70 73 75 77 79 82 84 8 15 18 20 23 26 28 31 33 36 39 41 44 47 49 52 54 57 60 62 65 68 70 73 76 78 81 84 86 89 91 94 97 99 1). Критические и Уитнн 9 21 24 27 30 33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78 82 85 88 91 94 97 100 103 106 109 112 115 10 27 31 34 37 41 44 48 51 55 58 62 65 68 72 75 79 82 86 89 93 96 100 103 107 ПО 114 117 121 124 128 131 значения U ДЛЯ : а=0,05; двусторонний и 34 38 42 46 50 54 57 61 65 69 73 77 81 85 89 92 96 100 104 108 112 116 120 124 128 131 135 139 143 147 п 12 42 47 51 55 60 64 68 72 77 81 85 90 94 98 103 107 111 116 120 124 128 133 137 141 146 150 154 159 163 13 51 56 61 65 70 75 80 84 89 94 98 103 108 113 117 122 127 132 136 141 146 151 156 160 165 170 175 179 14 61 66 71 77 82 87 92 97 102 107 ИЗ 118 123 128 133 138 144 149 154 159 164 170 175 180 185 190 196 15 72 77 83 88 94 100 105 111 116 122 128 133 139 144 150 156 161 167 172 178 184 189 195 201 206 212 16 83 89 95 101 107 113 119 125 131 137 143 149 156 162 168 174 180 186 192 198 204 210 216 222 228 одностороннего критерий: а 17 96 102 109 115 121 128 134 141 147 154 160 167 173 180 186 193 199 206 212 219 225 232 238 245 18 109 116 123 130 136 143 150 157 164 171 178 185 192 199 20& 212 219 256 233 240 247 254 261 19 123 130 138 145 152 160 167 174 182 189 196 204 211 218 226 233 241 248 255 263 270 278 = 0,10 20 138 146 154 161 169 177 185 192 200 208 216 224 231 239 247 255 263 271 278 286* 294* Таблица 63 (продолжение 2). Критические значения U для одностороннего критерия Уилкоксоиа, Манна и Уитни: а = 0,025; двусторонний критерий: а=0,05 т 1 2 4 12 3 4 5 6 7 8 0 п 9 10 11 12 13 14 15 16 17 18 19 20 273
m 1 2 3 * I 5 6 7 8 9 10 11 n 12 13 14 15 16 17 Продолжение 18 19 20 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 5 0 12 31 32 33 34 35 36 37 38 12 3 5 — 13 5 6 8 0 2 4 6 8 10 13 О 2 4 7 10 12 15 17 О 3 5 Ъ П 14 17 20 23 0 3 6 9 13 16 19 23 26 30 1 4 7 11 14 18 22 26 29 33 37 1 4 8 12 16 20 24 28 33 37 41 45 1 5 9 13 17 22 26 31 36 40 45 50 55 1 5 10 14 19 24 29 34 39 44 49 54 59 64 1 6 И 15 21 26 31 37 42 47 53 59 64 70 75 2 6 И 17 22 28 34 39 45 51 57 63 69 75 81 87 2 7 12 18 24 30 36 42 48 55 61 67 74 80 86 93 99 2 7 13 19 25 32 38 45 52 58 65 72 78 85 92 99 106 113 2 8 14 20 27 34 41 48 55 62 69 76 83 90 98 105 112 119 127 3 8 15 22 29 36 43 50 58 65 73 80 88 96 103 111 119 126 134 3 9 16 23 30 38 45 53 61 69 77 85 93 101 109 117 125 133 141 3 9 17 24 32 40 48 56 64 73 81 89 98 106 115 123 132 140 149 3 10 17 25 33 42 50 59 67 76 85 94 102 111 120 129 138 147 156 3 10 18 27 35 44 53 62 71 80 89 98 107 117 126 135 145 154 163 4 11 19 28 37 46 55 64 74 83 93 102 112 122 132 141 151 161 171 4 11 20 29 38 48 57 67 77 87 97 107 117 127 137 147 158 168 178 4 12 21 30 40 50 60 70 80 90 101 111 122 132 143 154 164 175 186 4 13 22 32 42 52 62 73 83 94 105 116 127 138 149 160 171 182 193 301 — 5 13 23 33 43 54 65 76 87 98 109 120 131 143 154 166 177 189 200 5 14 24 34 45 66 67 78 90 101 ИЗ 125 136 148 160 172 184 196 208 5 14 24 35 46 58 69 81 93 105 117 129 141 153 166 178 190 203 215 — 5 15 25 37 48 60 72 84 96 Ю8 121 133 146 159 171 184 197 210 222 — 5 15 26 38 50 62 74 87 99 112 125 138 151 164 177 190 203 217 230 — 6 16 27 39 51 64 77 89 103 П6 129 142 156 169 183 196 210 224 237 — 6 16 28 40 53 66 79 92 106 119 133 147 161 174 188 202 216 231 245 — 6 17 29 41 55 68 81 95 109 123 137 151 165 180 194 209 223 238 252 — 6 17 30 43 56 70 84 98 112 127 141 156 170 185 200 215 230 245 259 О 7 18 31 44 58 72 86 101 115 130 145 160 175 190 206 221 236 252 267 О 7 18 31 45 59 74 89 103 119 134 149 165 180 196 211 227 243 258 274 Таблица 63 (продолжение 3). Критические значения U для одностороннего критерия Уилкоксона, Манна и Уитни: а=0,01; двусторонний критерий: а=0,02 т 1 2 3 4 5 6 7 8 9 1 2 3 — 0 0 1 4 — 0 1 1 2 3 5 1 2 3 4 5 6 3 4 6 7 7 6 7 9 п 8 9 10 11 12 13 14 15 16 17 18 19 20 9 11 14 274
Продолжение т 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 1 2 — — ( — ( — ( — ( — ( — ( < с < ( ( ( с 3 - 1 - 1 - 2 ) 2 ) 2 3 3 3 3 3 4 3 4 1 4 1 5 1 5 [ 6 1 6 1 6 L 7 1 7 1 7 г 8 г 8 2 9 1 9 г 9 г ю 3 10 3 11 з и 3 11 3 12 3 12 3 13 4 3 4 5 5 6 7 7 8 9 9 10 И И 12 13 13 14 15 16 16 17 18 18 19 20 20 21 22 22 23 24 5 6 7 8 9 10 И 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 6 8 9 11 12 13 15 16 18 19 20 22 23 24 26 27 29 30 31 33 34 35 37 38 40 41 42 44 45 46 48 49 7 И 12 14 16 17 19 21 23 24 26 28 30 31 33 35 36 38 40 42 43 45 47 49 50 52 54 56 57 59 61 63 8 13 15 17 20 22 24 26 28 30 32 34 36 38 40 42 45 47 49 51 53 55 57 59 61 64 66 68 70 72 74 76 9 16 18 21 23 26 28 31 33 36 38* 40 43 45 48 50 53 55 58 60 63 65 68 70 73 75 78 80 83 85 88 90 ПО 19 22 24 27 30 33 36 38 41 44 47 50 53 55 58 61 64 67 70 73 76 78 81 84 87 90 93 96 99 101 104 п 11 25 28 31 34 37 41 44 47 50 53 57 60 63 66 70 73 76 79 83 86 89 92 96 99 102 106 109 112 115 119 12 31 35 38 42 46 49 53 56 60 64 67 71 75 78 82 85 89 93 96 ЮО 104 107 U1 U5 118 122 126 129 133 13 39 43 47 51 55 59 63 67 71 75 79 83 87 91 95 99 103 107 111 115 119 123 127 131 135 139 144 148 14 47 51 56 60 65 G9 73 78 82 87 91 95 100 104 109 ИЗ 118 122 127 131 135 140 144 149 153 158 162 15 56 61 66 70 75 80 85 90 94 99 104 109 114 119 123 128 133 138 143 148 153 158 162 167 172 177 16 66 71 76 82 87 92 97 102 108 ИЗ 118 123 129 134 139 144 150 155 160 165 171 176 181 187 192 17 77 82 68 93 99 105 110 116 122 127 133 139 144 150 156 161 167 173 178 184 190 195 201 207 18 88 94 100 106 112 118 124 130 136 142 149 155 161 167 173 179 185 191 197 203 209 216 222 19 101 107 ИЗ 120 126 133 139 146 152 159 165 172 178 185 191 198 204 211 217 224 230 237 20 114 121 127 134 141 14S 155 162 169 176 182 189 196 203 210 217 224 231 238 245 252 Таблица 63 (продолжение 4). Критические значения U для одностороннего критерия Уилкоксока, Манна и Уитни: а = 0,005; двусторонний критерий: а=0,01. 12 3 4 5 6 7 10 И 12 13 14 15 16 17 18 19 20 1 2 3 4 5 6 7 8 9 10 11 12 13 — i 0 0 0 1 1 0 0 1 1 2 2 3 3 0 1 1 2 3 4 5 6 У 2 3 4 5 6 7 9 10 4 6 7 9 10 12 13 7 9 11 13 15 17 И 13 16 18 20 16 18 21 21 24 27 24 27 31 34 275
Продолжение т 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 1 2 — ( — ( 3 ¦ 1 - 2 - 2 - 2 - 2 ) 3 ) 3 — 03 — ( — ( — ( — ( — ( — ] — 1 — 1 — я 1 ) 4 ) 4 ) 4 ) 5 ) 5 5 1 5 6 1 6 1 6 1 7 1 7 1 7 1 8 1 8 1 8 L 9 г 9 г 9 4 4 5 5 6 6 7 8 8 9 9 10 10 11 12 12 13 13 14 14 15 16 16 17 17 18 19 19 5 7 8 9 10 И 12 13 14 14 15 16 17 18 19 20 21 22 22 23 24 25 26 27 28 29 30 31 6 11 12 13 15 16 17 18 19 21 22 23 24 25 27 28 29 30 32 33 34 35 37 38 39 40 41 43 7 15 16 18 19 21 22 24 25 27 29 30 32 33 35 36 38 40 41 43 44 46 47 49 51 52 54 55 8 18 20 22 24 26 28 30 32 34 35 37 39 41 43 45 47 49 51 53 55 57 59 60 62 64 66 68 9 22 24 27 29 31 33 36 38 40 43 45 47 49 52 54 56 58 61 63 65 68 70 72 75 77 79 81 10 26 29 31 34 37 39 42 44 47 50 52 55 58 60 63 66 68 71 74 76 79 82 84 87 90 92 95 п 11 30 33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78 81 84 87 90 93 96 99 102 106 109 12 34 37 41 44 47 51 54 58 61 64 68 71 74 78 81 85 88 92 95 98 102 105 109 112 116 119 122 13 38 42 45 49 53 57 60 64 68 72 75 79 83 87 91 94 98 102 106 110 113 117 121 125 129 133 136 14 42 46 50 54 58 63 67 71 75 79 83 87 92 96 100 104 108 113 117 121 125 129 134 138 142 146 150 15 51 55 60 64 69 73 78 82 87 91 96 100 105 109 114 119 123 128 132 137 142 146 151 155 160 165 16 60 65 70 74 79 84 89 94 99 104 109 114 119 124 129 134 139 144 149 154 159 164 169 174 179 17 70 75 81 86 91 96 102 107 112 118 123 128 134 139 145 150 155 161 166 172 177 182 188 193 18 81 87 92 98 104 109 115 121 127 132 138 144 150 155 161 167 173 179 184 190 196 202 208 19 93 99 105 111 117 123 129 135 142 148 154 160 166 172 179 185 191 197 203 210 216 222 20 105 112 118 125 131 138 144 151 157 164 170 177 184 190 197 203 210 217 223 230 237 Таблица 63 (продолжение 5). Критические значения U для одностороннего критерия Уилкоксона, МаннаиУитни: а=0,001; двусторонний критерий: а=0,002. т 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 12 3 4 — —- — — — — — . 0 о 0 J 1 в 1 2 0 2 0 3 5 0 1 1 2 2 3 3 4 5 5 6 6 0 1 2 3 4 4 5 6 7 8 9 10 7 1 2 3 5 6 7 8 9 10 11 13 14 8 4 5 6 8 9 11 12 14 15 17 18 9 7 8 10 12 14 15 17 19 21 23 10 10 12 14 17 19 21 23 25 27 п 11 15 17 20 22 24 27 29 32 12 20 23 25 28 31 34 37 13 26 29 32 35 38 42 14 32 36 39 43 46 15 40 43 47 51 16 17 18 19 20 48 52 57 56 61 66 276
Продолжение т 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 1 2 3 С ( — — ; — — — — f _ ____ < —. . с ___ 1 < 4 ~~"~ ~~* «. — 1 4 ) 3 ) 3 4 1 4 1 4 1 5 1 5 1 6 1 6 г 6 2 7 * 7 2 7 2 8 J 8 3 9 3 9 * 9 5 10 3 10 1 И 1 11 5 7 7 8 8 9 10 10 11 12 12 13 14 14 15 15 16 17 17 18 19 19 20 6 11 12 12 13 14 15 16 17 18 19 20 21 22 23 24 25 25 26 27 28 29 30 7 15 16 18 19 20 21 22 24 25 26 27 29 30 31 32 34 35 36 37 39 40 41 8 20 21 23 24 26 27 29 31 32 34 35 37 38 40 41 43 45 46 48 49 51 52 9 25 26 28 30 32 34 36 38 40 41 43 45 47 49 51 53 55 57 58 60 62 64 10 29 32 34 36 38 40 43 45 47 49 52 54 56 58 61 63 65 67 70 72 74 76 п И 34 37 40 42 45 47 50 52 55 57 60 63 65 68 70 73 76 78 81 83 86 89 12 40 42 45 48 51 54 57 60 63 66 69 72 75 77 80 83 86 89 92 95 98 101 13 45 48 51 54 58 61 64 68 71 74 77 81 84 87 91 94 97 101 104 107 ПО 114 14 50 54 57 61 64 68 72 75 79 83 86 90 94 97 101 105 108 112 116 119 123 127 15 55 59 63 67 71 75 79 83 87 91 95 99 103 107 111 115 119 123 127 131 136 140 16 60 65 69 73 78 82 86 91 95 100 104 108 ИЗ 117 122 126 131 135 139 144 148 153 17 66 70 75 80 85 89 94 99 104 108 ИЗ 118 123 127 132 137 142 147 151 156 161 166 18 71 76 81 86 91 96 102 107 112 117 122 127 132 138 143 148 153 158 164 169 174 179 19 77 82 87 93 98 104 109 115 120 126 131 137 142 148 153 159 165 170 176 181 187 192 20 88 94 99 105 111 117 123 129 135 140 146 152 158 164 170 176 182 188 194 200 206 которого, разумеется, сравнивают прежде всего медианы. Помните, что сравниваются функции распределения! Ранг Значение 1 3 2 5 3 6 4 7 5 10 6 14 7 17 8 18 9 20 10 22 11 36 12 39 13 40 14 48 15 49 16 52 Выборка /?1 = 89 Я2 = 47 В 1 В В +2+3 А В 4 +5 А +6 В В +7+8 В А +10 +9 А +П В А +13 +12 А + 14 А +15 А +16 —89=11; ?/2 = —47 = 53; U1 + f/a= 64 =>тп. Так как 1!< 13 = U (8,8; 0,025; односторонний критерий), то нуль-гипотеза отвергается, альтернативная гипотеза {д»л > \}>в принимается на 2,5%-ном уровне. Согласно C.51) получаем 8-8 11- 8.8(8 + 8+1) 12 = 2,205, 277
и соотношение Р = 0,014 < 0,025 приводит к тому же самому заключению B0.025одн.крит. =* 1,96). (/-критерий при ранговом распределении Если у двух выборок, элементы которых упорядочены по величине, имеются многократно повторяющиеся элементы, то одинаковым элементам присваивается средний ранг. Например, получаем: Значение Выборка Ранг 1 3 В ъ 3 В 1.5 4 В 3 5 В 5,5 5 В 5,5 5 А 5,5 5 А 5,5 8 А 8,5 8 В 8,5 9 А 10 10 В 11 13 А 13 13 А 13 13 А 13 15 А 15 16 16 для первых двух В-значений ранг A + 2)/2 = 1,5; 4 пятерки имеют ранг 5,5 = D + 5 + 6 + 7)/4; для двух восьмерок получаем ранг 8,5; значение 13 повторяется три раза, поэтому ранг равен 3 Такие связи (объединения) оказывают влияние на значение U только тогда, когда они имеются между двумя выборками, но не тогда, когда они внутри одной выборки. Если в обеих выборках наблюдаемые значения одинаковы, то для ?/-критерия справедлива следующая скорректированная формула: z == l/V mn 1 Г S2-S __ у t?—tr 1 V L 5E—1) J '[ 12 ^ 12 J C.52) где 5 = т + п. В корректирующем члене 2 (tf—tr) /12 [Walter, 1951] через tr обозначается число значений, которые имеют одинаковый ранг. Число г означает, что имеется г групп значений с одинаковыми рангами; для каждого г определяется, сколько раз встречается одинаковое значение, эта частота возводится в третью степень, из нее вычитается первая степень результат делится на 12. Зти вычисления проводятся для всех групп, результаты суммируются и дают корректирующее значение. Для приведенного выше примера имеем четыре группы значений с одинаковыми рангами, г = 4: группа 1 fi = 2: два значения 3 с рангом 1,5; группа 2 t2 = 4 : четыре значения 5 с рангом 5,5; группа 3 /з = 2 : два значения 8 с рангом 8,5; группа 4 /4 = 3: три значения 13 с рангом 13. —*»- = 23-2 . 43--4 , 23--2 _L 33- 12 12 12 12 "' 12 278
12 12 12 12 Далее A:m = 8\ ^ = 83,5; В: п = 8, R2 = 52,5. 8(8+1) -83,5 = 16,5; 52,5 = 47,5; = 64 = mn\ 8-8 16,5— = 1,647, 1/ L"ieo5=irJ ¦ L—«—M0J Так как 1,65 < 1,96, то при двустороннем критерии и а = 0,05 нуль-гипотеза сохраняется. U-критерий — это самый строгий непараметрический критерий. Так как статистика U— очень сложная функция от среднего значения, эксцесса и асимметрии (с помощью {/-критерия сравниваются не только средние значения и медианы), то нужно подчеркнуть, что с увеличением различия между генеральными совокупностями надежность границ значимости будет уменьшаться. Если нужно сравнивать между собой больше чем 2 независимые выборки, то можно провести попарное сравнение. Совместное непараметрическое сравнение нескольких выборок возможно провести по //-критерию Краскела — Валлиса. Примечания 1. Появившийся ранее критерий Уилкоксона для двух выборок (см. [Jacobson, 1963]) в настоящее время также полностью табулирован [Wilcoxon, 1963, 1964]. 2. Так как упорядочение рангов при больших объемах выборок сгруппированных значений может быть весьма громоздкой процедурой, в [Raatz, 1966] предложен значительно более простой способ, который точен в случае небольшого числа классов; если имеется небольшое число или совсем нет одинаковых значений, то этот критерий дает вполне удовлетворительное приближение. Способ может быть применен также для Я-критерия Краскела — Валлиса. 3. Другие частные модификации ^/-критерия даны в [Halperin, 1960] и [Saw, 1966]. «Последовательный план использования» критерия Уилкоксона для сравнения двух видов терапии, который при определенных обстоятельствах позволяет значительно уменьшить число наблюдений, описан-в [Ailing, 1963] (см. также [Chun, 1965]). 4. Два интересных последовательных ранговых критерия для двух выборок предложены в [Wilcoxon, Bradley, 1963, 1965, 1966]. 5. Простой и распространенный критерий для сравнения медиан. Критерий действительно простой: объединенную выборку объемом («! + п2) упорядочивают по величинам, определяют значение медианы х и распределяют затем значения каждой выборки в зависимости от того, больше они или меньше, чем объединенная медиана, по следующей схеме (af b, с, d — частоты): 279
Выборка I Выборка II Число значений а с Ь d Дальнейшие расчеты проводятся при малых выборках (подробнее об этом см. с. 318) в соответствии с разделом 4. 6. 7 (точный критерий Фишера), при больших выборках — с разделом 4.6.1 (%2-критерий или G-критерий с поправкой на непрерывность или без нее). При значимой разности нуль-гипотеза ^i — 7*2 на принятом уровне отклоняется. Асимптотическая эффективность критерия по Муду [Mood, 1954] составляет 2/я си 64%, т. е. применение этого критерия для 1000 значений показывает ту же мощность критерия, как и применение /-критерия для 0,64-1000 = 640 значений при условии, что справедливо нормальное распределение. При других распределениях это соотношение может быть совсем другим, поэтому критерием сравнения медиан пользуются для приближенных расчетов или для контроля заключений при их высокой значимости, если они кажутся сомнительными. Если контроль приводит к другому результату, то необходима перепроверка. Пример Мы воспользуемся примером на ^/-критерий (без распределения по рангам) и получим ;Г= 19 и следующую таблицу: которая в соответствии с разделом 4.6.7 при Р = 0,066 не позволяет отклонить на 5%-ном уровне нуль- гипотезу. Если проверяются не две, a k независимых выборок, то применяется критерий для сравнения медиан: значения k выборок упорядочиваются по величине, определяется медиана и подсчитывается, сколько значений в каждой выборке меньше и сколько больше, чем медиана. Нуль-гипотеза: выборки принадлежат общей генеральной совокупности, проверяется в соответствии со способами, изложенными в разделах 6.1Л, 6.1.2 или 6.2.5; предполагается, что вся результирующая таблица из k % 2 клеток заполнена (все ожидаемые частоты должны быть > 1). Альтернативная гипотеза гласит: не все k выборок принадлежат к общей генеральной совокупности. Соответствующим оптимальным непараметрическим критерием является критерий Краскела — Валлиса. 6. Так называемый «мед иан-квар тиль-критерий», при котором объединенные значения наблюдений двух независимых выборок сводятся с помощью трех квартилей Qlf Q2 = ~х и Q3 в таблицу сопряженности признаков Bx4): А В <*< 2 6 6 2 п ^\^^ п2 ><2з . описан в [Bauer, 1962]. При полностью заполненной таблице (все ожидаемые частоты должны быть больше 1) нуль-гипотеза проверяется в соответствии с разделами 6.1.1, 6.1.2 или 6.2.5. Этот очень удобный и широко применяемый критерий позволяет проверить разницу всех видов в распределениях. При несгруппированных выборках значениям Qt и Q2 соответствуют значения с номерами 0,25 п и 0,75 п выборки, упорядоченной по величинам (номер округляется). 280
Если, например, п = 13, то 0,25 * 13= 3,25 и Q1 есть значение с рангом 4. 7. Доверительный интервал для разности медиан. С помощью (/-критерия определяется доверительный интервал для разности двух медиан (|хх — |х2 = = А при^х > \i2): kmin < А < ?тах. Для этого: 1)прибавляют константу k ко всем значениям выборки 2 и применяют для нее и выборки 1 (/-критерий; 2) находят левую и правую границы доверительного интервала для А — это наименьшее и наибольшее значения k (?min> ?max)> которые не приводят к отклонению нуль-гипотезы на заданном уровне значимости при двустороннем (/-критерии; 3) экстремальные значения k, которые еще не приводят к значимому различию, определяют путем шаговых проб (например, k = 0,1; 1; 10 и т. д.). Полный обзор дан в [Laan, 1970]. ф 3.9.5. СРАВНЕНИЕ НЕСКОЛЬКИХ НЕЗАВИСИМЫХ ВЫБОРОК: Я-КРИТЕРИЙ КРАСКЕЛА — ВАЛЛИСА Я-критерий Краснела—Баллиса [Kruskal, Wallis, 1952] является обобщением [/-критерия и служит для проверки нуль-гипотезы: k выборок принадлежат общей генеральной совокупности. Подобно {/-критерию асимптотическая эффективность Я-критерия по сравнению с оптимальным дисперсионным анализом (см. гл. 7) при нормальном распределении равна 100 • 3/я ~ 95%. k Наблюдения п = 1,пг упорядоченных или неупорядоченных по /= 1 рангам выборок пъ я2, ..., nk располагают по величине и ранжируют от 1 до п (как и при (/-критерии). Пусть Rt — сумма рангов i-й выборки; статистика для проверки нуль-гипотезы определяется из: C.53) (Я есть дисперсия ранговых сумм Rt); при больших пг и k (т. е. практически при пг > 5 и k >- 4) Я распределена по закону %2 с (k — 1) степенями свободы, т. е. Яо отклоняется, если Я>х!-1; « (см. с. 132). Для п ^ 5 и k = 3 табл. 65 на с. 283 содержит точные значения вероятностей (Яо с вероятностью Р отклоняется, если Я ^ Я при Р ^ а). Для контроля служит соотношение 2 /?|=л(л + 1)/2. C.54) Если объемы выборок равны, т. е. nt = ^-, то удобнее формула Если более чем 25% всех значений имеют одинаковые ранги, то Я необходимо корректировать. Формула коррекции имеет следующий вид: Я«орр = у, з v ¦ C-55) /23 — я 281
где tr означает число одинаковых рангов в группе г. Так как скорректированное Я-значение больше, чем нескорректированное, то при значимом Н можно Якорр не вычислять. Пример Проверьте 4 выборки (табл. 64) по //-критерию (ос = 0,05). Таблица 64. Справа от значений указаны ранги А 12,1 14,8 15,3 11,4 10,8 Ri Я/ 10 12 13 9 8 52,0 2704,0 5 в 18,3 49,6 10,1 35,6 26,2 8,9 15 21 if- 17 4 82,5 6806,25 6 с 12,7 25,1 47,0 16,3 30,4 11 16 20 14 18 79,0 6241,00 5 D 7,3 1,9 5,8 10,1 9,4 540,800 + 1134,375 + 1248,200 + 61,250 = 2984,625 = ]g 3 1 2 5 17,5 306,25 5 Щ Проверка: 52,0 + 82,5 + 79,0 + 17,5 = 21B1 + 1)/2. # = Г—-—1. [2984,625]—3 B1 + 1). L21B1 + 1)J v • / Так как Я = 11,523> 7,815 Хз; о.об» то нельзя принимать, что 4 выборки принадлежат общей генеральной совокупности (Р < 0,05). Примечания (см. также примечание 2 на с. 279). 1. Значимость проверяют далее непараметрическим множественным сравнением (см., например, [Sachs, 1970]). 2. Мощность //-критерия может быть увеличена, когда при задании выборок одинакового объема нуль-гипотезе: равенство медиан (или функций распределения) — может быть противопоставлена частная альтернативная гипотеза: имеется определенный ранговый порядок медиан, возрастание или убывание;ме- диан (или функций распределения). Для обобщенного одностороннего критерия в [Chacko* 1963] дана модифицированная статистика вместо C.53а). 3. Я-критерий для случая, когда k неоднородных групп выборок распределены на т соответствующих однородных подгрупп, описан в [Lienert, Schulz, 1967]. 4. Конкуренты Я-критерия проанализированы в [Bhapkar, Deshapande,1968]. 5. Для случая, когда заданы пары наблюдений, B[Glasser, 1962] предложена модификация //-критерия, который позволяет проверку парных наблюдений на независимость. 6. В первом разделе гл. 4 сравниваются две связанные выборки. Непараметрическое сравнение нескольких связанных выборок (ранговый критерий Фридмана) и параметрическое сравнение нескольких средних значений (дисперсионный анализ) рассмотрены ниже (гл. 7). 282
Таблица 65. Вероятности ошибок для Я-критерия Краснела — Валлиса п 6 7 7 7 8 8 8 8 9 9 11 11 11 12 12 2 3 3 3 4 3 4 4 5 3 4 5 5 5 4 5 п2 2 2 2 3 2 3 2 3 2 3 3 3 4 5 4 4 2 1 2 1 1 2 2 1 1 3 2 3 2 1 4 3 н 4,571 4,286 4,714 4,464 5,143 4,571 4,821 4,018 6,250 5,139 4,556 6,000 5,125 4,458 5,208 4,056 5,000 4,200 6,489 3,600 4,622 6,444 5,400 4,444 7,079 5,649 4,533 7,118 5,268 4,518 7,309 5,127 4,036 7,654 5,692 4,500 7,445 5,631 4,549 Р 0,067 0,100 0,048 0,105 0,043 0,100 0,057 0,114 0,011 0,061 0,100 0,014 0,052 0,100 0,050 0,093 0,048 0,095 0,011 0,050 0,100 0,008 0,051 0,102 0,009 0,049 0,097 0,010 0,050 0,101 0,009 0,046 0,105 0,008 0,049 0,104 0,010 0,050 0,099 п 9 9 9 10 10 10 10 11 12 13 13 14 15 4 5 5 4 4 5 5 4 5 5 5 5 5 п2 4 2 3 4 3 3 4 4 5 4 5 5 5 «3 1 2 1 2 3 2 1 3 2 4 3 4 5 н 6,667 4,967 4,067 6,553 5,040 4,293 6,400 4,960 4,018 6,873 5,236 4,445 6,746 5,727 4,700 6,822 5,251 4,495 6,955 4,986 3,987 7,144 5,576 4,477 7,269 5,246 4,508 7,760 5,618 4,619 7,543 5,626 4,545 7,791 5,643 4,520 7,980 5,780 4,560 р 0,010 0,048 0,102 0,008 0,056 0,122 0,012 0,048 0,095 0,011 0,052 0,103 0,010 0,050 0,101 0,010 0,049 0,101 0,008 0,044 0,098 0,010 0,051 0,102 0,010 0,051 0,100 0,010 0,050 0,100 0,009 0,051 0,100 0,010 0,050 0,101 0,010 0,049 0,100 Источник: К г u s k я 1 W. H. and W а 11 i s W. A. Use of ranks in one- criterion variance analysis, /. Amer. Statist. Ass., 47, 1952, 614—617, /. Amer. Statist Ass., 48; 1953, 910. 283
ГЛАВА 4. ДРУГИЕ КРИТЕРИИ % 4.1. УМЕНЬШЕНИЕ ВЫБОРОЧНОЙ ОШИБКИ ПОСРЕДСТВОМ ПОВТОРНЫХ ВЫБОРОК: ПАРНЫЕ СРАВНЕНИЯ Если необходимо сравнить два различных метода лечения, то во многих случаях первичное заключение будет получено на основе опыта над животными. Предположим, нас интересуют две мази. Возникает вопрос: есть ли разница в эффективности этих препаратов? Мы можем произвести опыты над больным стадом. Мерой эффективности следует считать продолжительность лечения. 1. Проще всего было бы разбить группу подопытных животных случайным образом на две равные подгруппы, к первой группе применить один способ, ко второй — другой и затем сравнить результаты лечения. 2. Более эффективна следующая процедура: сформировать для опытов пары, в которых партнеры были бы возможно однороднее в отношении состояния, возраста, веса, активности и т. п. Упорядочение партнеров по двум группам производится случайным образом. При этом достигается почти полная однородность экспериментального материала. 3. Еще более эффективной является следующая процедура: отбирают группу подопытных животных и проводят так называемое «сравнение направо-налево» так, чтобы индивидуумы справа и слева образовывали взаимно независимые группы больных животных, и затем случайным образом определяют, где следует применять первый, где второй препарат. В чем же собственно заключается преимущество парного сравнения? Сравнение точнее потому, что рассеяние, которое имеется между двумя группами, уменьшается или вообще исключается! Разумеется, применение парного сравнения — мы называем оба выборочных ряда связанными, или коррелированными, выборками, так же, как и кратные выборки, уменьшает число степеней свободы. Для сравнения средних значений в случае однородных дисперсий имеется пг + я2 — 2 степеней свободы; при кратных выборках число степеней свободы равно числу пар или разностей минус единица, т. е. (пг + я2)/ 2 — 1. Если п± = п% = Пу то отношение числа степеней 284
свободы при независимых выборках и кратных выборках равно (п — 2)/(л/2 — 1) = 2/1. При переходе от независимых к кратным выборкам число степеней свободы уменьшается наполовину, что связано со значительной потерей точности. Так как рассеяние между различными животными при всех обстоятельствах больше, чем рассеяние между двумя группами этих животных, то выигрыш в точности, который приносит применение связанных выборок, значителен; вообще этот выигрыш будет тем больше, чем больше отношение этих рассеяний друг к другу. Взаимно коррелированные пары наблюдений получают на основе двух следующих принципов. Известно построение опытов с повторным контролем в одной и той же выборке индивидуумов. Подопытные индивидуумы проверяются, например, один раз при нормальных условиях и другой раз — в состоянии стресса. При этом необходимо обратить внимание на то, чтобы такие факторы, как упражнение (обучение) или усталость, были исключены. Другой принцип заключается в организации кратных выборок с помощью предварительной проверки одного из измеримых или оцениваемых признаков, который наиболее коррелирован с изучаемым признаком. Индивидуумы, например, с помощью предварительного критерия размещаются в ранжированный ряд. Любые два следующих друг за другом в этом ряду индивидуума образуют пару. С помощью случайной процедуры (например, с помощью бросания монеты) определяется, какого партнера к какой выборочной группе отнести. Для определения стандартного отклонения между средними выборочными значениями для формулы C.31, с. 248) служит следующее выражение: ^|=К4+4;. D..) Это выражение справедливо только тогда, когда выборки взаимно независимы. Если они связаны друг с другом, взаимозависимы, т. е. имеется зависимость между парами значений, то стандартное отклонение разности уменьшается, и мы получаем 52г55 <4-2> Значение вычитаемого члена определяется величиной коэффициента корреляции г, который отражает степень взаимозависимости (гл. 5). При г = 0, т. е . ряды полностью взаимно независимы, вычитаемый член под корнем равен нулю; при г = 1, т. е. при максимальной корреляции и полной зависимости, вычитаемый член достигает максимума, а стандартное отклонение разности — минимума. 4.2. СРАВНЕНИЕ ДВУХ СВЯЗАННЫХ (ЗАВИСИМЫХ) ВЫБОРОК Проверяются два снотворных лекарства на одних и тех же пациентах. В результате получаются парные наблюдения, выраженные в дополнительных часах сна, т. е. получаются два связанных ряда измерений. 285
#4.2.1. ПРОВЕРКА СВЯЗАННЫХ ВЫБОРОК С ПОМОЩЬЮ /-КРИТЕРИЯ 4.2.1.1. Проверка значимости среднего значения разности пар Пусть xt и yt — значения связанных рядов измерений. Для проверки значимости разностей пар хг — yt = dt служит отношение ., число степеней свободы v=n— 1, D.3) образованное из среднего значения п разностей и соответствующего значения стандартного отклонения. Число степеней свободы равно п — 1, где п — число пар. Предполагается, что независимые разности из случайных выборок распределены нормально, по крайней мере, приближенно. Проверяется нуль-гипотеза: \id = О, где \id — истинное среднее значение разностей, оценка которого находится по результатам наблюдений. Альтернативная гипотеза: \id > О, или [xd < О, или при двустороннем критерии [kd Ф 0. Предполагается также постоянство дисперсии разности. Более простой по отношению к D.3) является статистика А = 2<i2/BdJ, предложенная и табулированная Сэндлером [Sandier, 1955], (см. также [Runyon, Haber, 1967]). Пример В табл. 66 содержатся значения измерений (xt, t/t) при двух способах воздействия или при воздействии (yt) и без него (хг). Необходимо проверить нуль-гипотезу: значимо ли различие в способах воздействия при 5%-ном уровне. Таблица 66 1 2 3 4 5 6 7 8 п=8 xi 4,0 3,5 4,1 5,5 4,6 6,0 5,1 4,3 3,0 3,0 3,8 2,1 4,9 5,3 3,1 2,7 d. i i.o 0,5 0,3 3,4 -0,3 0,7 2,0 1,6 d\ 1,00 0,25 0,09 11,56 0,09 0,49 4,00 2,56 2d? = 20,04 Вычисляем t ==• 9,2/8 v 20,04 — 9,22/8 8(8-1) = 2,80, 286
и так как"/ = 2,80 > 2,36 = /7; о,о5;двуСтоР, то разница между связанными выборками является значимой на 5%-ном уровне. При обработке парных наблюдений по сравнению со стандартными методами сравнения средних значений независимых выборок C.25), C.31) уменьшается мешающее рассеяние внутри выборок. Кроме того, здесь слабее допущения; переменные хг и уь могут значительно отклоняться от нормального распределения, а их разность будет достаточно точно распределена по нормальному закону! Большие парные выборки часто анализируют с применением непараметрических критериев. Доверительный интервал для истинной средней разности парных наблюдений задается следующим выражением: d± (/„-i;a)s5, n где d = — ; s-d^--T=~=\/ \[ , D.4) t — критерий двусторонний. Например, для п = 31, d = 5,03 и s5 = 0,43 95%-ный доверительный интервал равен (^зо; о.об; двустор = 2,04): 95%-ный ДИ: 5,03 + 2,04-0,43; 95%-ный ДИ: 4,15 <\id< 5,91. Естественно, что можно использовать и односторонние доверительные границы: верхняя 95%-ная доверительная граница равна 5,76, т. е. \id < 5,76. 4.2» 12. Проверка равенства двух связанных дисперсий Если нужно сравнить изменчивость признаков до (хг) и после (yt) лечения или в процессе старения, то проверяют на равенство две связанные дисперсии. Статистикой служит величина {45) yy при (п — 2) степенях свободы. Значения Qx и Qy вычисляются по формулам C.23) и C.24), а Qxy — по следующей формуле: Например, для *i [21 18 20 21 ISx = 80 33 27 34|2у=120 287
при Qx = 6, Qy = 50 и Qxy = B1 • 26 + 18 • 33 + 20 • 27 + 21X vQ/i4 80-120 . X34) 1—= —б, получаем: 7_ |F-50). V~21 . q, ,„,_ 1 — . — i,ai <^> *±,O\J — ^2; 0,05; двустор» 2-~l/6-50 — ( — 6J т. е. на 5%-ном уровне нуль-гипотеза: связанные дисперсии равны — должна быть принята. При одностороннем критерии с нуль-гипотезой ol = о\ против о\ < о2у критическая граница была бы равна /2;о,о5;одност =2,92. При неравных дисперсиях производят проверку (приближенную) по критерию Уилкоксона для разностей пар или по знаковому критерию; оба они заменяют критерий D.3). ф 4.2.2. КРИТЕРИЙ УИЛКОКСОНА ДЛЯ РАЗНОСТЕЙ ПАР Оптимальными критериями для сравнения двух независимых выборок, для сравнения парных наблюдений являются ?-критерий D.3) при нормально распределенных разностях и ранговый знаковый критерий Уилкоксона (Wilcoxon matched pairs signed rank test) при ненормальном распределении разностей. Последний критерий, известный как критерий Уилкоксона для разностей пар, может быть применен также и к ранжированным данным. Он требует значительно меньшего объема вычислений по сравнению с ^-критерием и почти так же строго проверяет нормально распределенные разности; его эффективность для больших и малых выборок составляет около 95%. Проверяется нуль-гипотеза: обе связанные выборки принадлежат к одной генеральной совокупности — функции распределения вероятностей равны Fx (x) — F2 (х). Эта гипотеза, естественно, включает в себя равенство параметров положений \лх = \i2 и \хг = fx2. Иначе выраженная нуль-гипотеза: значение медианы разностей dt парных наблюдений равно нулю \xd = 0. Разности dt в данном случае могут иметь и ненормальное распределение. Отбрасывая пары с отдельными равными значениями (см. [Cure- ton, 1967]), из оставшихся п пар значений образуют разности dt = xtl—xi2 D.7) и упорядочивают абсолютные значения \dt\ по рангам: наименьшее значение получает ранг 1, наибольшее — п. Равным по величине значениям разностей приписывается средний ранг. У каждого ранга отмечается знак (положительный или отрицательный) соответствующей разности. Далее образуют суммы положительных и отрицательных рангов (&р и Rn) и проверяют их с помощью выражения p D.8) В качестве статистики используется меньшая из сумм рангов (R). Нуль-гипотеза отбрасывается, если вычисленное /^-значение равно 288
Табл п 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 и ц а 67. Критические значения критерия Двусторонний критерий 5% 0 2 3 5 8 10 13 17' 21 25 29 34 40 46 52 58 65 73 81 89 98 107 116 126 137 147 159 170 182 195 1% 0 1 3 5 7 9 12 15 19 23 27 32 37 42 48 54 61 68 75 83 91 100 109 118 128 138 148 159 0.1% 0 1 2 4 6 8 И 14 18 21 25 30 35 40 45 51 57 64 71 78 86 94 102 111 120 Однос торонний критерий 5% 2 3 5 8 10 13 17 21 25 30 35 41 47 53 60 67 75 83 91 100 ПО 119 130 140 151 163 175 187 200 213 1% 0 1 3 5 7 9 12 15 19 23 27 32 37 43 49 55 62 69 76 84 92 101 110 120 130 140 151 162 173 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 Уилкоксона для разностей Двусторонний критерий 5% 208 221 235 249 264 279 294 310 327 343 361 378 396 415 434 453 473 494 514 536 557 579 602 625 648 672 697 721 747 772 1% 171 182 194 207 220 233 247 261 276 291 307 322 339 355 373 390 408 427 445 465 484 504 525 546 567 589 611 634 657 681 0.1% 130 140 150 161 172 183 195 207 220 233 246 260 274 289 304 319 335 351 368 385 402 420 438 457 476 495 515 535 556 577 пар Односторонний критерий 5% 227 241 256 271 286 302 319 336 353 371 389 407 426 446 466 486 507 529 550 573 595 618 642 66fi fiQft 715 74.1 / *tl 7fi7 i U/ 7Q3 / с/О 820 1% 185 198 211 224 238 252 266 281 296 312 328 345 362 379 397 416 434 454 473 493 514 535 556 578 600 623 646 669 693 718 Источник: McCornack R. L. Extended tables of Wilcoxon matched pair signed rank statistic. /. Amer. Statist. Assoc. 60, 1965, 864—871, p. 866, 867. критическому значению R {n\ а) из табл. 67 или меньше его. Для п > 25 справедлива аппроксимация D.9) Необходимое значение z для одно- или двустороннего критерия можно взять из табл. 43 на с. 204. Тогда вместо D.9) применяют (когда не могут или не хотят задавать значение а и п > 25) эквивалентную запись D.10): 11D.10) V Г п (п + 1) Bп + 1) 24 Зак. 930 289
Полученное значение z сравнивается затем со стандартным нормальным распределением (табл. 14, с. 68). Пример Биохимик сравнивает два метода А и В определения тестостерона (мужского полового гормона) в моче на основании 9 проб мочи при двустороннем критерии на 5%-ном уровне. О нормальности распределения не известно. Значения наблюдаемых величин заданы в миллиграммах суточной пробы мочи. Таблица 68 № пробы А (мг) В(мг) A-B«d, Ранг | dt | &г=22,5 Д0=13,5 1 0,47 0,41 0,06 5 (+M 2 1,02 1,00 0,02 1,5 (+I,5 3 0,33 0,46 -0,13 8 <-)8 4 0,70 0,61 0,09 6 (+N 5 0,94 0,84 ., 0,10 7 (+O 6 0,85 0,87 —0,02 1,5 <-I.В 7 0,39 0,36 0,03 3 (+K 8 0,52 0,52 0 9 0,47 0,51 -0,04 4 <-L Контроль 22,5+ 13,5«36=:8(8+1)/2, т. е. ?=13,5 Так как 13,5 > 3 = R (8; 0,05), то нуль-гипотеза не может быть отклонена. Подробная таблица D ^ п ^ 100; 17 уровней значимости между а = 0,45 и а = 0,00005) дана Маккорнаком [McCornack, 1965]. Непараметрические быстрые методы для анализа разностей парных наблюдений — удобный максимум-критерий и критерий знаков Диксона и Муда. 4.2.3, МАКСИМУМ-КРИТЕРИЙ ДЛЯ РАЗНОСТЕЙ ПАР Максимум-критерий — очень простой критерий для сравнения двух парных рядов измерений. Следует только заметить, что если 5 абсолютно наибольших разностей имеют одинаковый знак, то разность надежна на 10%-ном уровне; при 6 разностях такого рода разность значима на 5%-ном уровне, при 8 — на 1%-ном уровне и при 11 — на 0,1%-ном уровне. Эти числа — 5, 6, 8 и 11 — справедливы при двустороннем критерии и для объема выборки п ^ 6. При одностороннем критерии эти числа соответствуют 5%-, 2,5%-, 0,5%- и 0,05%-ным границам. Если имеются разности, равные по абсолютному значению, но с разными знаками, то для увеличения статистической надежности их располагают таким образом, чтобы уменьшить размеры случайных последовательных (серий) разностей с одинаковыми знаками ?90
[Walter, 1951,1958]. Максимум-критерий служит для независимой проверки /-критерия, не заменяя, однако, его [Walter, 19581. Пример Последовательность разностей + 3,4; + 2,0; + 1,6; + 1,0; + 0, 7 + 0,5; — 0,3; + 0,3 (обратите внимание на неблагоприятное расположение — 0,3) имеет последовательность из одинаковых знаков, равную 6, и при двустороннем критерии приводит к отклонению нуль-гипотезы: ^ = 0 (R < 0,05). Примечания 1. Частный видХ2-критерия для проверки симметрии распределения предложен Вальтером [Walter, 1954]. Если, например, нужно проверить, вызывают ли определенные медикаменты изменения исследуемой величины (содержание сахара в крови, число красных кровяных телец и т. п.), то измеряют эти величины до и после применения медикаментов. Если медикаменты не оказывают влияния, то разности измерений у отдельных испытуемых распределены симметрично относительно нуля. Расчетный пример можно найти в исходной работе. 2. Глэссер [Glasser, 1962] описал простой непараметрический критерий, пригодный для проверки парных наблюдений на независимость. Два просчитанных примера, а также таблица с критическими границами облегчают применение метода. 4.2.4. КРИТЕРИЙ ЗНАКОВ ДИКСОНА И МУДА Название критерия происходит оттого, что используются только знаки разностей наблюдаемых значений. Предполагается непрерывность случайной переменной. Критерий служит в первую очередь для быстрой проверки разности положений двух независимых выборок [Dixon, Mood, 1946]. В отличие от ^-критерия и критерия Уилкоксона здесь не требуется, чтобы пари принадлежали к общей генеральной совокупности] они могут, например, относительно возраста, пола и т. п. принадлежать разным генеральным совокупностям. Существенно, чтобы результаты отдельных пар были независимы друг от друга. Нуль-гипотеза критерия знаков: разности парных наблюдений в среднем не отличаются от нуля; ожидается, что около половины разностей будут меньше нуля, а другая половина — больше нуля. Критерий знаков проверяет также типотезу о том, что значение медианы распределения разностей равно нулю. Доверительные границы для медианы находят по табл. 69. Нуль-гипотеза отклоняется, когда имеется слишком мало или слишком много разностей одного знака, так что не достигнуты или превышены границы табл. 69. Нулевые разности не принимаются во внимание, что, естественно, уменьшает объем выборки. Вероятность появления определенного числа плюсов или минусов определяется на основе биномиального распределения при р = q = 1/2. Таблица вероятностей для биномиального распределения на с. 162 (последний столбец для р = 0,5) показывает, что должно быть по меньшей мере 6 пар наблюдений, чтобы результат при двустороннем критерии был надежен на 5%-ном уровне: п = 6, х = 0 или 6; табулированные значения Р для двустороннего критерия должны быть удвоены: Р = 2 • 0,0156 = 0,0312 < 0,05. Подобным же образом были определены и другие границы в табл. 69, с. 292. 10* 291
С/з о о> -73 о ж 5 si о "8 II ^ f if 3е CO ^^ооооюгэю^-''—оосо ЮОО?)С000С^ ^^^а>СЪ 4^СЭ10Ю ООС000004^0СЛСД очсл^^слэ^
Таблица п 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 5% 41 41 42 42 42 43 43 44 44 45 45 46 46 47 47 47 48 48 49 49 38 38 38 39 39 40 40 41 41 42 42 42 43 43 44 44 45 45 46 46 п 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 5% 50 50 51 51 52 52 52 53 53 54 54 55 55 56 56 57 57 58 58 58 Левые границы 1% 46 47 47 48 48 49 49 49 50 50 51 51 52 52 53 53 53 54 54 55 п 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 5% 59 59 60 60 61 61 62 62 63 63 63 64 64 65 65 66 66 67 67 68 для 1% 55 56 56 57 57 57 58 58 59 59 60 60 61 61 62 62 62 63 63 64 двустороннего критерия п 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 5% 68 69 69 69 70 70 71 71 72 72 73 73 74 74 75 75 75 76 76 77 1% 64 65 65 66 66 66 67 67 68 68 69 69 70 70 71 71 71 72 72 73 п 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 5% 77 78 78 79 79 80 80 81 81 82 82 82 83 83 84 84 85 85 86 86 1% 73 74 74 75 75 75 76 76 77 77 78 78 79 79 80 80 80 81 81 82 п 210 220 230 240 250 260 270 280 290 300 350 400 450 500 550 600 700 800 900 1000 5% 91 95 100 105 ПО 114 119 124 128 133 157 180 204 228 252 276 324 372 421 469 1% 8б 91 96 100 105 109 114 118 123 128 151 174 198 221 245 268 316 364 411 459 Эффективность критерия знаков уменьшается с ростом объема выборки от 95% при п = 6 до 64% при п -> оо. На с. 340 мы еще раз вернемся к этому критерию. Подробные таблицы для критерия знаков (п = 1 A) 1000) даны в [MacKinnon, 1964]. Правое граничное значение (ЯГ) табл. 69а определяется по формуле (п — ЛГ + 1), где (ЛГ) — левое граничное значение. Доверительный интервал (ДИ) для медианы (\х). 95%-ный ДИ и 99%-ный ДИ для |Г (см. с. 236) получают: при п < 100 — из табл. 69, снизу столбцы 5% и 1% по формуле ЛГ <7* <1 +ПГ. Например, п = 60, 95%-ный ДИ: 22-е значение< <! |х ^ 39-е значение; при п > 100 — из табл. 69а, столбцы 5% и 1% по формуле: ЛГ^^п — ЛГ + 1. Например, п = 300, 95%-ный ДИ: 133-е значение< ^ jl ^ 168-е значение. Пример Предположим, мы рассматриваем 15 пар (двусторонний критерий на 5%-ном уровне), где 2 нулевые разности, 11 положительных и 2 отрицательные разности. Из табл. 69 для п = 13 получаем границы 3 и 10. Наши значения лежат вне этих границ, поэтому разница между обеими выборками статистически значима (S = 95%). 293
Не слишком маленькие выборки разностей (п > 30) проверяют также просто по нормальному распределению с помощью формулы где х — наблюдаемая частота более редких знаков, а п — число пар, уменьшенное на число нулевых разностей. Модификация критерия, предложенная в [Duckworth, Wyatt, 1958], применима в качестве быстрого критерия. Статистикой Т служит абсолютное значение разности знаков (т. е. | число плюсов минус число минусов)). 5%-ный уровень этой разницы равен 2]/7г; 10%-ный уровень— 1,6 • "[//г, где п — общее число знаков заданных разностей. Если f > 2 • ]/7г или f > 1,6 • У п, то при двустороннем критерии разница должна рассматриваться как значимая. Рассмотренный выше пример: Т = 11—2 = 9 и 2 • |/"/Г= 2 • УШ = 7,21 и 9 > 7,21 даст тот же самый результат. Другие применения критерия знаков для быстрого ориентирования 1. Сравнение двух независимых выборок. Если необходимо сравнить положения центров двух независимых выборок, то можно не пользоваться методом вычисления средних значений, а сформировать случайным образом выборочные пары, определить их знаки и к ним применить критерий знаков. 2. Проверка принадлежности к одной генеральной совокупности. Пример 1 Может ли последовательность чисел: 13, 12; 11, 9, 12, 8, 13, 12, 11, 11, 12, 10, 13, 11, 10, 14, 10, 10, 9, 11, 11 быть выборкой из генеральной совокупности со средним значением (и = 10? Мы подсчитываем числа значений, меньших чем 10 и больших чем 10, образуем разность и сравниваем ее с критическим значением f-14—3=11>2. "^17 = 8,2. Гипотеза о том, что выборка относится к генеральной совокупности с |и = 10, должна быть отклонена (Р < 0,05). Пример 2 Принадлежит ли заданная последовательность значений: 24, 27, 26, 28,31,35, 33, 37, 36, 37, 34, 32, 32, 29, 28,28,31,28,26, 25 к одной генеральной совокупности? Для ответа на этот вопрос Тэйлор (см. [Duckworth, Wyatt, 1958]) предложил другую модификацию знакового критерия, позволяющую оценить изменчивость положения центра внутри генеральной совокупности. Вначале определяется выборочная медиана, затем вычисляют, как часто располагается медиана внутри последовательных пар чисел. Это значение обозначим через **. Если имеется тренд, т. е. среднее значение генеральной совокупности изменяется, то х* мало по сравнению с объемом выборки п. Нуль-гипотеза о том, что случайная выборка 294
принадлежит одной генеральной совокупности, отклоняется на 595 -ном уровне, если \п—2х*— 1|>2/л— 1. D.12) Медиана нашей выборки объемом п = 20 равна х = 29V2. Подчеркнутые пары (я* = 4) содержат между собой'медиану. Мы получи- ли п — 2 х* — 1 = 20—8—1 = 11 и 21/л — 11=2 "|/20—1 = 8,7. Так как 11 > 8, 7, то следует принять, что наблюдения относятся к двум различным генеральным совокупностям (Р < 0,05).^ ф 4.3. ПРОВЕРКА РАСПРЕДЕЛЕНИЯ ПО f-КРИТЕРИЮ СОГЛАСИЯ Чрезвычайно важной задачей сравнительной статистики является сравнение эмпирического и теоретического (или гипотетического) распределений. Если между ними имеется согласие, то можно заключить, что эмпирическое распределение вызвано теми же причинами, которые лежат в основе теоретического распределения. Пригодной для проверки статистикой является величина %2. Если выборка разделена на k классов, причем наблюдаемые значения расположены в отдельных классах случайным образом независимо друг от друга, то значение %2 определяется как сумма по всем k классам квадратов разностей между наблюдаемыми и ожидаемыми частотами, поделенных на ожидаемые частоты всех k классов В — наблюдаемая частота; Е — ожидаемая частота. Число степеней свободы равно (k — 1). Если для вычисления ожидаемых (лучше согласованных) частот нужно по наблюдаемым данным оценить п параметров, то число степеней свободы уменьшается до v = k — 1 — я, где k — число классов, an — число оцениваемых параметров. При использовании критериев согласия этого вида выборки должны быть не слишком малыми*дожидаемые гипотетические частоты должны'быть не ниже 4 (Е ~ 4). Если"они меньше, то их нужно увеличивать до требуемого уровня объединением 2, 3... соседних классов, но это необходимо только тогда, когда число классов мало. При v>8 и не слишком малом объеме выборки п > 40 значение ожидаемой частоты может быть уменьшено до 1. При вычислении значения %2 следует обратить внимание на знаки разностей (В — ?):( + ) и ( — ) должны перемежаться и не иметь систематических циклов (мы к этому еще вернемся). Какие гипотезы при этом проверяются? Нуль-гипотеза: в основе выборки лежит предполагаемое теоретическое распределение F (х). Согласно альтернативной гипотезе выборка принадлежит к неизвестному распределению F (х). Вероятность ошибки — а задается заранее. Суждение о рассчитанном 295
Ха-значении осуществляется на основании таблиц. Нуль-гипотеза отклоняется, если рассчитанное %2-значение равно табличному значению х2 Для заданного числа степеней свободы или больше его. #4.3.1. СРАВНЕНИЕ НАБЛЮДАЕМЫХ ЧАСТОТ С ЗАДАННЫМ РАСЩЕПЛЕНИЕМ В планируемом опыте расщепления гена ожидается соотношение расщепления 4 фенотипов 1 : 2 : 1; в эксперименте получены частоты 14 : 50 : 16. Соответствует ли полученное соотношение расщеплению 1 : 2 : 1? Заранее не будем задаваться уровнем значимости, так как первичную информацию нам должен дать ответ. Табл. 28 для числа степеней свободы k — 1=3 — 1 = 2 и %2 = = 5,10 дает вероятность 0,05 < Р < 0,10. Нуль-гипотеза сохраняется (см. табл. 70). Таблица 70. Результаты опыта по расщеплению гена в 14 50 16 80 Е 20 40 20 80 В-Е —6 10 -4 %2= 36 100 16 (В—?J (В-?J Е 1,80 2,50 0,80 =5,10 ф 4.3.2. СРАВНЕНИЕ ЭМПИРИЧЕСКОГО РАСПРЕДЕЛЕНИЯ С РАВНОМЕРНЫМ РАСПРЕДЕЛЕНИЕМ Для проверки игральной кости было произведено 60 бросков. Наблюдаемые частоты появления 6 чисел следующие: Число Частота 1 7 2 16 3 8 4 17 5 3 6 9 Нуль-гипотеза: кость «хорошая» — предсказывает теоретическую частоту для каждого числа, равную 10, так называемое равномерное, или прямоугольное, распределение. Мы проверяем нуль-гипотезу на 5%-ном уровне, для чего согласно D.13) вычисляем значение статистики ;2 G—10J+A6—10J + (8—10J + A7—10J+C—10J + (9 —10J % = —— =. 14,о. 10 Это значение больше табличного, равного 11,07 для k — 1 =6—1 =5 степеней свободы и5%-ного уровня (с. 134); нуль-гипотеза отклоняется (Р < 0,05). 296
ф 4.3.3. Сравнение эмпирического распределений С НОРМАЛЬНЫМ РАСПРЕДЕЛЕНИЕМ На практике распределения частот данных научных исследований, измерений редко похожи на нормальное распределение. Для практиков, если не говорить о вероятностной бумаге, особое значение имеет способ, На котором мы еще раз остановимся. Приведем простой числовой пример. Первый столбец табл. 71 дает среднее значение класса х, ширина класса Ь равна 1, наблюдаемые Частоты приведены во втором столбце; 3, 4 и 5-й столбцы служат дли расчета х и s. Таблица 71 1 к 1 2 3 4 5 6 2 |3 j 4 В 1 4 16 10 7 2 40 - 1 4 9 16 25 36 1 8 48 40 35 12 144 5 а, 1 16 144 160 175 72 568 ЪВх 144 h 40 6 X—X -2,6 —1,6 —0,6 0,4 1,4 2,4 3.6» SB*2—BВхJ/п _ л—1 7 X—X S 2,31 1,42 0,53 0,35 1,24 2,13 8 Ордината 0,0277 0,1456 0,3467 0,3752 0,1849 0,0413 nb 40-1 , 1,127 >68—1442/40 39 9 f(г) • К 0,983 5,168 12,305 13,317 6,562 1,466 55,49 - -1,127 10 Е 6,15 12,30 13,32 8,03 39,80 =40 И В-Е -1,15 3,70 -3,32 0,97 +0,2 =0 12 1,322 13,690 11,022 0,941 13 . XB-EWE 0,215 1,113 0,827 0,117 Х2= 2,272 v =4-3=1 В 6, 7 и 8-м столбцах показано приведение к стандартной нормальной переменной z и соответствующей ей ординате / (г) (табл. 20). Умножение на постоянную К служит для согласования с полной ожидаемой частотой. Малые крайние классы, так как у них Е< 4, должны быть объединены с соседними, что приводит к уменьшению числа классов до k — 4. _^ Оцениваются два параметра п = 2 (х и $), поэтому число степеней свободы равно только v = k — 1 — п = 4—1—2 = 1. Так как значение %2 = 2,27 не достигает граничного значения 5C2i; о, ю = 2,71, то нуль-гипотеза: наблюдаемые частоты распределены'нормально— принимается на 10%-ном уровне. Подобный способ описан в [Croxton, Cowden, 1955 с. 616—619] для сравнения эмпирического распределения с логарифмически нормальным распределением. Для предварительной проверки того, может ли данное эмпирическое распределение приближенно аппроксимироваться нормальным 297
распределением, служит следующее правило. Если заменить а на ее оценку s, то это правило гласит: 1) практически все отклонения от среднего значения (точнее, 99,7%) должны-быть меньше 3s; 2) примерно 2/3 всех отклонений (точнее, 68,3%) должны быть меньше s; 3) половина (точно 50%) всех отклонений должна быть меньше 0,675 • s. Проверьте по этому правилу, а также с помощью аппроксимации на с. 233 пример из первой главы. Возможность рассмотрения эмпирического распределения как нормального распределения может быть проверена также по асимметрии и эксцессу. Стандартные отклонения асимметрии и эксцесса при средних объемах выборок так велики, что обнаруживаются только очень большие отклонения от нормальности распределения; поэтому зачастую только при больших объемах выборок возможно доказать отклонение от нормального распределения. Особенно справедливо это в отношении эксцесса, который оказывает обычно сравнительно малое влияние на ненормальность распределения. Значительно действенное влияние асимметрии. Если обе меры рассчитаны, то их значимость легко может быть проверена с помощью %2-критерия: ^ + , (.1) Л| 6//1 24/л V ' число степеней свободы равно 2, или отдельно D.15) Для не слишком малых выборок эти аппроксимации достаточно точны. Если нужно с помощью D.14) и D.15) решить, применять или не применять параметрические методы, то следует выбирать 10%-ный уровень. Таблицы для проверки асимметрии и эксцесса содержатся в сборнике таблиц [Pearson, Hartley, 1958]; см. также [Pearson, 1965] и [Gebhardt, 1966]. Весьма изящный способ для быстрой проверки выборки на нормальность предложен в [David с соавт., 1954]. Эти авторы исследовали распределение отношения D.16) Стандартное отклонение s для выборки объема п из нормально распределенной генеральной совокупности со стандартным отклонением а. Они дали критические границы этого отношения.
Таблица 72. Критические границы отношения R Если отношение размаха к стандартному отклонению по выборке — меньше s нижней границы или больше верхней границы, то нормального распределения нет. Если превосходится верхняя граница, то обычно имеются выбросы. Особенно важны 10%-ные границы. Объем выборки п 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 150 200 500 1000 Нижние 0,000 1,732 1,732 1,826 1,826 1,871 1,871 1,897 1,897 1,915 1,915 1,927 1,927 1,936 1,936 1,944 1,944 1,949 1,949 1,961 1,966 1,972 1,975 1,978 1,980 1,982 1,983 1,985 1,986 1,987 1,987 1,988 1,989 1,990 1,990 1,993 1,995 1,998 1,999 0,005 1,735 1,83 1,98 2,11 2,Й 2,31 2,39 2,46 9 53 2,59 2,64 2,70 2,74 9 79 2,83 9 87 2 90 2,94 3,09 3 9\ 3,32 3 41 3,49 3,56 3,62 3,68 374 3,V9 3,83 3,88 3,92 3,96 3,99 4,03 4,32 4,53 5,06 5,50 0,01 1,737 1,87 2 02 2,15 2,26 2,35 2,44 2,51 9, 58 2,64 2,70 2,75 2,80 2 84 2,88 9, 99, 9 96 2,99 3,15 3 91 3,38 3 47 3,55 3,62 3,69 3,75 3,80 3,85 3,90 3,94 3,99 4,02 4,06 4,10 4,38 4,59 5,13 5,57 границы 0,025 1,745 1,93 2,09 2,22 2,33 2,43 2,51 2,59 2,66 2,72 2,78 2,83 2,88 2,93 2,97 3,01 3,05 3,09 3,24 3,37 3,48 3,57 3,66 3,73 3,80 3,86 3,91 3,96 4,01 4,05 4,09 4,13 4,17 4,21 4,48 4,68 5,25 5,68 0,05 1,758 1,98 9, 15 2,28 2,40 2,50 2,59 2,67 9 74 2,80 2,86 2,92 2,97 3 01 3,06 3 10 3 14 3,18 3,34 3 47 3,58 3 67 3,75 3,83 3,90 3,96 4,01 4,06 4.П. 4,16 4,20 4,24 4,27 4,31 4,59 4,78 5,37 5,79 Вероятность ошибки а 0,10 1,782 2,04 2,22 2,37 2,49 2,59 2,68 2,76 2,84 2,90 2,96 3,02 3,07 3,12 3,17 3,21 3,25 3,29 3,45 3,59 3,70 3,79 3,88 3,95 4,02 4,08 4,14 4,19 4,24 4,28 4,33 4,36 4,40 4,44 4,72 4,90 5,49 5,92 ( 1 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5, 5, 5, 5, 5, 5, 6, 6, 7, ),Ю ,997 ,409 ,712 ,949 ,143 ,308 ,449 ,57 68 ,78 ,87 ,95 ,02 09 ,15 9Л 91 ,32 ,53 70 ,84 96 ,06 14 22 29 35 41 46 51 56 60 64 68 96 15 72 11 ( 1 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5, 5, 5 5, 5, 5, 5, 5, 5, 6, 6, 6, 7, ),05 ,999 ,429 ,753 ,012 ,222 ,399 ,552 ,685 ,80 91 ,00 ,09 ,17 9А ,31 37 43 ,49 ,71 89 04 16 26 35 43 51 57 63 68 73 78 82 86 90 18 39 94 33 Верхние 0 2 2 2 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5, 5, 5 5, 5, 5, б] 6, 6, 6, 6, 7, *, 7, ,025 ,000 ,439 ,782 ,056 ,282 ,471 ,634 ,777 ,903 !02 ,12 ,21 ,29 37 ,44 51 57 ,63 > 87 ,06 21 >34 45 54 63 70 77 83 88 93 98 03 07 И 39 60 15 54 \ границы 2 2 2 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5, 6, 6 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 0,01 ,000 ,445 ,803 ,095 ,338 ,543 ,720 ,875 ,012 ,134 ,244 ,34 ,44 52 ,60 67 ,74 ,80 ,06 26 42 56 67 77- 86 94 01 07 13 18 23 27 32 36 64 84 42 80 0,005 2 2 2 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, ,000 ,447 ,813 ,115 ,369 ,585 ,772 ,935 ,079 ,208 ,325 ,431 ,53 62 ,70 78 ,85 ,91 > 19 40 57 71 83 93 02 10 17 24 30 35 40 45 49 53 82 01 60 99 0,000 2,000 2,449 2,828 3,162 3,464 3,742 4,000 4,243 4,472 4,690 4,899 5,099 5,292 5,477 5,657 5,831 6,000 6,164 6,93 7,62 8,25 8,83 9,38 9,90 10,39 10,86 11,31 11,75 12,17 12,57 12,96 13,34 13,71 14,07 17,26 19,95 31,59 44,70 Источник: Pearson E. S. and Stephens M. A. The ratio of range to standard deviation in the same normal sample. Biometrika, 51, 1964, 484—487, p. 486, table 3. 299
а (%) 0 1 5 10 Интервал 1,98—8,83 3,47—5,56 3,67—5,16 3,79—4,96 Если для обычных вероятностей Таблица 73 ошибок значение отношения выходит за табличные граничные значения, то с заданной статистической достоверностью гипотеза о нормальности распределения отклоняется. Подробные таблицы для способа, включающего также критерий однородности, предложены [Pearson, Stephens, 1964]. Применим этот способ: п = 40; R = 5; s = 1,127; R/s = 5/1,127 = 4,44. Для п = 40 из табл. 72 получаем границы, приведенные в табл. 73. Наше отношение лежит внутри этих интервалов. Строго говоря, на этом основании возможно суждение только о размахе, который в нашем случае соответствует нормальному распределению. Следует подчеркнуть, что нижние границы для вероятности ошибки а = 0% при п > 25 лежат выше 1,96 и ниже 2,00 (например, 1,990 при п = 100); верхние0%-ные границы легко оценить по формуле У2 (п — 1) (например, 4 для п = 9). Эти границы справедливы для любых генеральных совокупностей [Thomson, 1955]. Интересные новые методы для проверки нормальности выборки предложены в [Shapiro, Wilk, 1965, 1968]; см. также [Wilk, Shapiro, 1968]. 4.3.4. СРАВНЕНИЕ ЭМПИРИЧЕСКОГО РАСПРЕДЕЛЕНИЯ С РАСПРЕДЕЛЕНИЕМ ПУАССОНА Мы рассмотрим пример на удар лошади копытом (с. 183), объединим три малых крайних класса вместе и получим следующую faблицy: Таблица 74 в 109 65 22 4 200 Е 108 66 20 4 200, ,7 ,3 ,2 ,8 о 1 1 4 В—Е 0,3 -1,3 1,8 -0,8 0 0,09 1,69 3,24 0,64 (В- 0 0 0 0 0,319 ~ЕJ/Е ,001 ,025 ,160 ,133 Имеется 4 класса, оценивается 1 параметр (к по X = х), откуда определяем v = k — 1 — п = 4—1—1 = 2 степени свободы. Вычисленное значение %2 так мало (%о,о5 для v = 2 равно 5,991), что согласование следует признать весьма хорошим, 300
Последние три метода сравнения хороши тем, что позволяют рассматривать большое число классов. С помощью итерационного критерия можно проверять, не существует ли неслучайного влияния на знаки разностей В — Е. Если %2-критерий приведет к слишком малой значимости или, скажем, к значимости на 10%-ном уровне, а итерационный критерий выявит наличие систематических знаковых циклов, то предположение %2-критерия, что классы взаимно независимы, подорвано! В этом случае интерпретация результатов должна быть осторожной. Сравнение двух независимых эмпирических распределений рассматривается в гл. 6. «Слишком хорошее» согласие между наблюдениями и гипотезой может привести к очень малому значению %2. Предположим, например, что величина %2 значима на левостороннем 5%-ном уровне (или на правостороннем 95%-ном уровне); это означает: реже чем один раз в 20 случаях мы будем наблюдать такое же или еще лучшее согласие. Тогда мы можем сделать дальнейший вывод, что согласие слишком уж хорошее, чтобы быть обусловленным случаем. Следующим шагом должно быть более внимательное исследование принципа, использованного при получении данных. 4.4. КРИТЕРИЙ СОГЛАСИЯ КОЛМОГОРОВА—СМИРНОВА Критерий Колмогорова A941) и Смирнова A948) служит для проверки согласия наблюдаемого и теоретического распределений (см. также [Massey, 1951]). Это непараметрический критерий; он соответствует %2-критерию согласия. В особенности хорошо критерий Колмогорова — Смирнова (К — С-критерий) обнаруживает отклонения от нормального знакона при малых объемах выборок. Нерегулярность распределения, как правило, лучше устанавливать с помощью %2-критерия, а отклонения формы распределения — с помощью К — С-критерия. Этот критерий предполагает непрерывное распределение, хотя он применяется и при дискретных распределениях. Проверяется нуль-гипотеза: выборка относится к известному распределению Fx (х), против альтернативной гипотезы: выборка не относится к этому распределению. Определяют ожидаемые согласно нуль- гипотезе абсолютные значения частоты ?, образуют функцию накопленной частоты Fe, то же самое для наблюдаемых частот— В и Fb, образуют их разность Fb—Fek абсолютное значение разности делят на объем выборки п. Статистику max\FB-FE\ ^ ^ ^ п при объеме выборки п > 35 проверяют с помощью данных в табл, 75 критических значений. 301 Таблица 75 Границы для D 1,07/1/7 1,14/1/7 1,22/ V п 1,36/1/7 1,63/1/7 Уровень значимости а 0,20 0,15 0,10 0,05 0,01
Критические границы для малых выборок можно получить из таблиц [Massey, 1951] или [Birnbaum, 1951]. Миллер [Miller, 1956] дал точные критические значения для п от 1 до 100 при а = 0,20; 0,10; 0,05; 0,02 и 0,01. Особо важные 10 и 5%-ные границы для малых и средних объемов выборок мы приводим в табл. 76. Наблюдаемое D-значение значимо на соответствующем уровне, если оно достигает табличного значения или превосходит его. Для других значений а границы определяются с помощью соотношения У" — 0,5 • In (а/2) (на с. 268 обозначается /Са); например, а = 10; In @,10/2) = In 0,05 = — 2,996 (с. 137, табл. 29 или с. 28 вверху), т. е. Y ( — 0.5) ( — 2,996) = 1,22. Если для согласования с нормальным распределением оценивались выборочные значения среднего и дисперсии, то выводы на основании табл. 75 будут очень консервативными; точные границы для К — С- критерия предложены Лиллиефорсом [Lilliefors, 1967]^ согласно которому для /г>30 справедливы выражения 0,805/j/n" (а = 1,10) и Таблица 76. Критические значения К—С-критерия п 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 0,636 0,565 0,509 0,468 0,436 0,410 0,387 0,369 0,352 0,338 0,325 0,314 0,304 0,295 0,286 0,278 0,271 0,265 0,259 0,253 0,708 0,624 0,563 0,519 0,483 0,454 0,430 0,409 0,391 0,375 0,361 0,349 0,338 0,327 0,318 0,309 0,301 0,294 0,287 0,281 п 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 50 100 0,247 0,242 0,238 0,233 0,229 0,225 0,221 0,218 0,214 0,211 0,208 0,205 0,202 0,199 0,196 0,194 0,191 0,189 0,170 0,121 D0,05 0,275 0,269 0,264 0,259 0,254 0,250 0,246 0,242 0,238 0,234 0,231 0,227 0,224 0,221 0,218 0,215 0,213 0,210 0,177 0,134 Источник: Miller L. H. Table of percentage points of Kolmogorov sta* tistics. /. Amer. Statist. Assoc, 51, 1956, 111—121, p. 113—115, table J. Пример 1 Используем пример из разд. 4.3-3. (с. 297) и получим следующие данные. 302
Таблица 77 В Е pi \Рв~Ре\ 1 0,98 1 0,98 0,02 4 5,17 5 6,15 1,15 16 12,3 21 18,45 2,55 10 13,32 31 31,77 0,77 7 6,56 38 38,33 0,33 2 1,47 40 39,80 0,20 2,55/40 = 0,063 < 0,805/]/40 = 0,127, т. е. мы пришли к тому же самому выводу: нуль-гипотеза на 10%-ном уровне принимается. Пример 2 Игральную кость для контроля бросали 120 раз. Частоты чисел от 1 до 6 следующие: 18, 23, 15, 21, 25, 18. Соответствует ли полученное распределение нуль-гипотезе: данная кость безупречна? Мы проверяем при а = 0,10 упорядоченные по величине частоты: 15, 18, 18, 21, 23, 25. Таблица Ре Рв \Ре~Рв\ 78 20 15 5 40 33 7 60 51 9 80 72 8 100 95 5 120 120 0 Так как 9/120 = 0,075 < 0,111 = 1,22/^120 =Di20; 1,10, нуль- гипотеза не отклоняется. Следует отметить, что, строго говоря, х2-критерий предполагает бесконечно большой объем выборки я, а К—С-критер ий- бесконечно большое число классов k. Однако оба критерия могут применяться, как показано в [Slakter, 1965}, и для малых выборок с небольшим числом классов (п < 10, k < 5); в этих случаях следует предпочесть %2-критерий согласия или соответствующий ему 2/-критерий (см. разд. 6.2.5). Все три критерия согласия проверяют только строгость или близость согласия (clossenes of the fit). Знание о «случайности согласия» (randomness of the fit) теряется. Естественно, имеется различие, например, при х2-критерии в случаях, когда разности (В — Е) почти всегда положительны, или почти всегда отрицательны, или оба знака повторяются примерно одинаково часто, в чем проявляется мера случайно- сти. Чем регулярнее меняются знаки, тем лучше будет согласие при 303
заданных отклонениях В — ?1 Простую возможность проверки случайности согласования предоставляет итерационный критерий (см. с. 347). Другие важные критерии согласия (см. также [Darling, 1957]) предложены в [David, 1950] (см. также [Nicholson, 1961], [Csorgo, Guttman, 1962]) и [Quandt, 1964, 1966], (см. также [Stephens, 1970]). 4.5. ЧАСТОТЫ СОБЫТИЙ #4.5.1. ДОВЕРИТЕЛЬНЫЕ ГРАНИЦЫ НАБЛЮДАЕМОЙ ЧАСТОТЫ ПРИ БИНОМИАЛЬНО РАСПРЕДЕЛЕННОЙ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ. СРАВНЕНИЕ ОТНОСИТЕЛЬНОЙ ЧАСТОТЫ С ПАРАМЕТРОМ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ Если обозначить через х число попаданий (удач) при п выборочных наблюдениях, то относительная частота определяется выражением р = х/п. Процентная частота попадания в выборке равна p = JL. \оо D.18) п и при 25 ^ п <С 200 должна записываться без чисел после запятой, а начиная сп = 2000 — с двумя знаками после запятой. Например: р = 33/189 = 0,1746 определяет относительную частоту 0,17, или 17%. Доверительные интервалы (см. с. 108, 229, 236, 240) при биномиальном распределении даны в [Bluth, Hutchinson, 1960], [Do- cumenta Geigy, 1960, 1968] и [Pachares, 1960]. Точные границы можно вычислить по формулам D.19 а, б): при F {vi«2<*+n, v.-2 («-*)}• D.19а) /7{Vi=2Oi-*+lbvi-2*}i DЛ96) /2 — X -\- \Х -\- I) где v — число степеней свободы, F — значения для выбранной доверительной вероятности в зависимости от обоих чисел степеней свобЬды — определяются по табл. 30, с. 138 — 149. Аппроксимация нормальным распределением Простой способ определения доверительного интервала для относительной частоты генеральной совокупности основан на нормальном распределении. Он может быть использован только тогда, когда объем выборки достаточно велик и нет ни слишком больших, ни слишком малых относительных частот, так что пр и п A — р) > 5. Доверительный интервал тогда в первом приближении определяется следующим выражением: *=*- D.20) 304
Например, х = 19, п = 70, р = 19/70 = 0,271; 95%-ный доверительный интервал (z = 1,96); 0,271 ±0,104, т. е. 0,17 < л < 0,38; точные границы равны 0,172 и 0,391 (см. [Documenta Geigy, 1968]). Лучшую аппроксимацию дает выражение При больших объемах выборки п отношения z2/2/z, z2/4/z2 и z2/n очень малы и могут быть отброшены, а выражение D.21) при этом упрощается до выражения D.20). Например, при 50 бросаниях монеты 30 раз появился герб. Спрашивается, чему равен 95%-ный доверительный интервал для числа гербов, которые могут выпасть при очень большом числе бросаний. Для s = 95% z = 1,96. Подставляя значения р = 30/50 = 0,6 и п = 50 в формулы D.21) и D.20), получим 0,6-0,4 Г7962~ 100 ' ' у 50 ' 4.502 0,462< я< 0,724; или 0,6 ± 1,96 j^go^;0,464<я<0,73б- Разница мала (ср. точные границы: 45,18% < я< 73,59%). При « = 50 достаточно две значащие цифры: 0,46< я< 0,74, или 46% <я<74%. Для бесконечно большой генеральной совокупности вместо D.20), точнее, вместо D.25) пользуются выражениями D.22 а, б): Величина ^ называется поправкой на непрерывность. Она увеличивает доверительный интервал! Получающиеся значения частот являются дискретными переменными, в то время как используется стандартная нормальная переменная, имеющая непрерывное распределение. Ошибка, которая появляется за счет перехода от дискретного« распределения к нормальному, уменьшается поправкой на непрерывность. Для z — 1,96 получаем со статистической надежностью 95% следующий доверительный интервал (95%-ный ДИ): 305
При больших объемах выборки можно поправку отбросить, так ее численное значение будет очень мало. Для конечных генеральных совокупностей используют, кроме того, так называемую поправку на конечность совокупности: где N — объем генеральной совокупности. При очень больших объемах выборки эта поправка стремится к единице и может быть отброшена* Г ^ N D.24) Это справедливо также в случае, когда Умного больше, чем я, т. е. когда п меньше 5% от N. Итак, для случая конечной генеральной совокупности получаем: »^} {-».), „.ад т. е. Строго говоря, выражение D.25) можно применять только в случае выполнения предположений, задаваемых табл. 79. Особый случай: р = 0 или р = / Верхнюю доверительную границу для р = 0 (нуль-событие, см. табл. на с. 308) получают по формуле яв.= 1— Ya. D.26) Для р = 1 (полное событие, см. табл. на с. 308) нижняя граница определяется формулой яя,= >^оГ. D.26а) 306
Таблица 79 Для р равного 0,5 0,4 или 0,6 0,3 или 0,7 0,2 или 0,8 0,1 или 0,9 0,05 или 0,95 Также для пр и л A-й не менее чем 15 20 24 40 60 70 При п, равном или превышающем 30 50 80 200 600 1400 применять D.25а,б) Источник: Cochran W. G. Sampling Techniques, 2nd edition, J. Wiley, New York, 1963, p. 57, table 3.3. Для a = 0,05, n > 50, 3 ^ p ss 0, справедливо приближение jtB ~ — , П 3 D.266) p = 1, справедливо приближение лн# ~ 1 — . J Примеры 1. Пусть р = ~ = tq• Рассчитайте 95%-ный Д#. Так как пр = = 2 < 5, простой способ применить нельзя. В первую очередь определим по D.19 а, б) F-значения для яв.: Vl = 2 B + 1) = 6, v2 = 2 A9—2) = 34, F = 2,38, для лн.: vx = 2 A9—2 + 1) = 36, v2 = 2 • 2 = 4, F = 5,73, а затем и границы Я = B + 1J>38 ^ 7,14 в' 19—2+B+1J,38 24,14 2 2 н'~* 2+ A9 — 2+1M-73 105,14 = 0,019. 95%-ный доверительный интервал лежит между 1,9 и 29,6%; он ~ 2 асимметричен относительно характеристики выборки р — yg- = 0,105, или 10,5%. Только при р = 0,5 получаются симметричные доверительные границы. 95%-ный доверительный интервал для р = 2/19 задается в виде«95%-ный ДИ: 0,019<я<0,296», или «95%-ный ДИ: 1,9%<я< <29,6%. Предполагается, что р оценивалось по случайной выборке. 2. Пусть р = 0 (п = 100). Рассчитайте верхнюю 95%-ную доверительную границу: Точно: пв, = 1 —1 °У 6Ж= 0,0295, 307
Приближенно: яв# ~— = 0,03 (см. также ниже). Итак, если среди 100 пациентов, применявших определенное лекарство, не было ни одного случая нежелательных побочных явлений, то следует рассчитывать на максимум 3% этих явлений (а = 0,05). Односторонние нижние и верхние 95% — 99 %-ные доверительные границы (а = 0,05, а = 0,001) в процентах для нуль-события и полного события и для заданного п: а 5% 1% п яв. Ян. яв. ян. 10 26 74 37 63 30 9, 90, 14 86 5 5 50 5 95 8, 91 ,8 ,2 8 2 80 3 96 5, 94, J ,3 6 4 100 3 97 4 95 ,0 ,0 ,5 ,5 150 2 98 3 97 ,0 ,0 ,0 200 1.5 98,5 2,3 97,7 300 0,99 99,01 1,5 98,5 500 0,60 99,4 0,92 99,08 1000 0,30 99,7 0,46 99,54 Сравнение двух относительных частот Сравнение двух относительных частот есть сравнение вероятностей, лежащих в основе двух биномиальных распределений. Для этого известны точные методы (см. разд. 4. 6. 7) и хорошие приближенные методы (см. разд. 4.6.1). При не слишком малых объемах выборки (при пр и п A — р) > 5) возможна также аппроксимация нормальным распределением. 1. Сравнение относительной частоты /?х с параметром я без применения D.27) или с применением D.27а) поправки на конечность гене- * ральной совокупности (см. также примеры на с. 309 и 311): I Pi— я|- z = я A-я) D.27) Z =¦ D.27а) Проверяется нуль-гипотеза: ях—я. Альтернативная гипотеза: % Ф п (или при односторонних критериях: ях > я, или ях < я). 2. Сравнение двух относительных частот рг и /?8. 308
Предполагается: а) пх > 50, п2 > 50, б) пр > 5, п A — р)> 5, ~ 1 Рх — Рг! У Hl- D28) где Проверяется нуль-гипотеза: пг — я2, против пх Ф п2 (при одностороннем критерии — против пг > я2 или я± < я2). Так, например, для пх = па = 300, рх = 54/300 = 0,18, р2 = 30/300 = 0,10 (заметьте, что пр2 = 300-0,10 = 30 > 5), р = E4 + 30)/ C00 + 300) = 0,14, z = @,18—0,10)/)/0,14.0,86B/300) - 2,82, т. е. Р « 0,005. Обратите внимание на то, что при вычислениях могут использоваться проценты (г = A8— 10)/|Л4-86B/300) = 2,82), и (при лх = л2) разности, равные или превышающие D (в %), значимы на 5%-ном уровне. пх D 50 20 100 14 150 11,5 200 10 300 8 500 6,3 1000 4,5 5000 2 Если сравниваемые проценты лежат ниже 40 или выше 60%, то приведенным выше разностям соответствует значительно меньшее Р-значение (например, 18% — 10% = 8% при Р « 0,005). Несколько точнее, чем D.28), и при менее строгих ограничениях (пр и п A — р) ^ 1 для % и /22 > 25) дает ответ аппроксимация, основанная на тригонометрических преобразованиях (табл. 51. с. 247): z = (| arcsin j/^pi—arcsin ]/p2|)/28,648yrl/n1 + 1/я2. Например, г = B5,104—18,435)/ B8,648)/27300) = 2,85. Для проверки нуль-гипотезы: ях — я2 = d0, против ях — я2 Ф Ф d0 (а также < d0 или > d0), применяют следующее выражение <7i= 1 —Л, <72 = 1 — Рг): 1(рх —Р2) — ^ol D<28а) = x±/nlf л:2//г2, Примеры 1. В большом городе я = 20% семей покупали определенную газету. Имеются основания предположить, что число покупателей стало меньше 20%. Чтобы проверить эту гипотезу, была взята и проанализирована случайная выборка из 100 семей; при этом было получено рх = 0,16 A6%). Проверяется нуль-гипотеза: пг = 20%, против альтернативной гипотезы ях<20% (уровень значимости а = 0,05). Поправку на конечяость генеральной совокупности можно не учиты- 309
вать, так как объем генеральной совокупности значительно больше объема выборки. Так как прх > 5 и п A — р) > 5, применим аппроксимацию нормальным распределением D.27): i 1 1 « я —— |о,16 — О,2О|— г = *» = 2100 =0,875. 3,20-0,80 100 Значение z = 0,875 соответствует вероятности ошибки Р {рг = = 0,16 | л = 0,20} = 0,19 > 0,05. Таким образом, 19 случайных выборок из 100 из генеральной совокупности с п = 0,20 могут иметь рг = 0,16, поэтому нуль-гипотеза принимается. 2. Из 2000 торговцев я = 40% решили увеличить свои заказы (поставки). Немного времени спустя появилось предположение, что этот процент еще увеличился. Случайная выборка из 400 торговцев показала, что этот процент увеличился и составил рх = 46%. Спрашивается, можно ли считать это увеличение значимым? Проверяется нуль-гипотеза: пг = 0,40, против альтернативной гипотезы: пг > 0,40, при рг = 0,46 (уровень значимости а = 0,05). Так как объем выборки составляет 20% генеральной совокупности, необходимо применять поправку на конечность генеральной совокупности и пользоваться формулой D.27а). 268 1 / ГяA—я) 1 Г N — nl Л/ Г0,40-0,601 Г 2000—4001 V V п J [tf-1 J V L 400 J [ 2000-1 J Р {рх < 0,46 | я = 0,40} = 0,0037 < 0,05. Нуль-гипотеза на 5% -ном уровне отклоняется; имеется действительное увеличение поставок. • 4.5.2. БЫСТРАЯ ОЦЕНКА ДОВЕРИТЕЛЬНЫХ ГРАНИЦ НАБЛЮДАЕМОЙ ОТНОСИТЕЛЬНОЙ ЧАСТОТЫ ПО КЛОППЕРУ И ПИРСОНУ Исключительно экономичный по времени метод суждения о доверительном интервале по выборочным относительным частотам предложили Клоппер и Пирсон (Clopper, Pearson) (рис. 38). Этот график определяет со статистической надежностью 95% доверительные границы для наблюдаемой частоты. Числа, отмеченные на каждой крвдой, означают объемы выборки. Доверительные интервалы с ростом п становятся уже и симметричнее, так как биномиальное распределение переходит в нормальное распределение, при р == 0,5 доверительный интервал симметричен и при малых п. Из графика можно определить также числа наблюдений rty необходимое для достижения определенной точности. Более корот* 310
кие Двусторонние Доверительные интервалы Даны в [Grow, 1965]. Примеры 1. Пусть в выборке из 10 значений некоторое событие наблюдается 7 раз, т. е. р = - = 0,70, или р = 70%. Точки пересечения вертикали на уровне 0,7 с верхней и нижней кривой для п = 10 определяют 0,1 0,2 0,3 ОА 0,5 0,6 0,7 0,8 0,9*/,Ол ^ Наблюдаемая выборочная относительная частота jS Рис. 38. 95%-ный доверительный интервал для относительных частот. Числа на кривых означают объем выборки я. i[C 1 о р р е г С. J., Pearson E. S. The use of confidence or fiducial limits illustrated in the case of the binomial, Biometrika 26 A934) 404—413, p. 410]. границы 95%-ного доверительного интервала для параметра генеральной совокупности. Выход р за границы интервала 0,34 < я < 0,93 указывает со статистической достоверностью 95% на то, что выборка принадлежит другой генеральной совокупности, 2. Определите, когда относительная частота около 15% имеет доверительный интервал в 10%. Согласно рис. 38, эти условия выполняются при п = 250 (при S = 95%). • 4.5.3. ОЦЕНКА МИНИМАЛЬНОГО ОБЪЕМА ВЫБОРКИ Из формулы для доверительных границ процентной частоты р ± п нению а, то следует, что если значение z равно откло- Уп- *KHi-p) и «- а» 311
Если йрййять г = 2 (т. fc. примерно 5 = 95%, точйее 95,44%), то минимальный объем выборки определяется выражением h D>29) с* Так как п достигает максимума при максимуме произведения tp A — р), т. е. прир = 50%, то полученный при этом объем выборки ^обычно больше необходимого Если доверительный интервал вычислен с поправкой на конечность генеральной совокупности, то, заменяя получаем формулу для минимального объема выборки п = —^— > D.31) Примеры 1. Предположим, что нас интересует процент семей в точно опре* деленной местности, которые смотрят конкретную программу телевидения. Пусть там живет 1000 семей. Опросить все семьи затруднительно. Исследователю необходимо определить минимальный объем выборки и оценить его с ошибкой не более ±10% и статистической достоверностью 95%. Согласно D,31), получаем Я 100° с 91, 1+0,102-1000 Итак, достаточно опросить только 91 семью, при этом оценка получается с ошибкой а = 0,10 и статистической достоверностью 95%. Согласно D.30), грубо определяем: п = Q 1Q2 = 100. Если мы знаем, что л = 0,30,то полученный объем выборки, естественно, слишком велик; нам в этом случае потребуется приблизительно п' = 4 п • я A — п) = 4 • 91 • 0,3 • 0,7 = 76 отдельных значений п'**Апр(\ — р). D.32) -312
Для п > 0,5 N D.29) заменяется выражением - =нооо(о,1О2/4)+юооо,зо-юоо-0,302 ^74 корр~" 1000 @,102/4) +0,30-0,302 ~ При необходимости в обеих формулах число 4 заменяют значением г2: 2,6896 (S = 90%), 3,8416 (S = 95%) и 6,6564 (S = 99%). 2. Определите процент семей, живущих в небольшом городе с населением в 3000 жителей, которые смотрят определенную телевизионную программу. Требуемая доверительная вероятность — 95%, отклонение — ±3. N 3000 Ql1 п ~811 1+atN 1+0,0009-3000 В случайной выборке из 811 семей 243 семьи смотрят эту програм- ОАО т. е тервал Л ОАО му, т. е. р = gjj ~ 0,30. Итак, получаем 95%-ный доверительный ин 0,30—0,03 <я<0,30+0,03, 0,27 < я < 0,33. '4.5.4. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ РЕДКИХ СОБЫТИЙ Мы будем опираться на уже рассмотренные в разд. 1.6.4 (с. 170) доверительные границы для распределения Пуассона и раскроем правило использования табл. 80. В единицу наблюдения, равную 8 часам, зарегистрировано 26 событий. 95%-ные границы (х = 26) для единицы наблюдения равны (а) 16,77^17 и 37,67 ^ 38 событий, и для рдного часа (б) 16,77/8 ^2и 37,67/8 ~ 5 событий. Примеры 1. Пусть в некоторой области за столетие наблюдались 4 наводнения. Предположим, что число наводнений в различные столетия следует закону Пуассона; тогда можно подсчитать, что только в одном из 20 столетий (S = 0,95, табл. 80) число наводнений выйдет за границы 1,366 ~ 1 и 9,598 ~ 10. 2. Телефонная станция получает в минуту 23 вызова. Нужно построить 95%-ный доверительный интервал для числа ожидаемых вызовов в минуту или в час. Предположим, что число вызовов в рассматриваемый промежуток времени относительно постоянно и, так как установка может обеспечить, скажем, 1000 вызовов в минуту, следует распределению Пуассона; тогда 95%-ный доверительный интервал для вы- 313
«со см см—• © ^ со со © -* CO CM ЮЮ CM CO OOOW COCO •* «* rh CM CM CM CM CM CO"*CO h- h- CM CM CM CM CM CM CM CM CM O> x*« 00 — CO •* CO O5 Tt< CO CO — COCOCO OOCM •^NN000 00 O5 O> ©^ *** 1Л CO 00 CT) Oi Оэ CO CM ^tf* t$* ¦* lO CO 00 O5 O5 O5 C? CM CO ^J* ^* lO CO со со со со со со со г*» t4"» Г4» t4-14*» Is» t4» t4^ t**» I"**"* I**» oo oo oo oo oo oo oo 00О5 00ЮО5 COCO^ t^O5CMCD — 1ЛЮ — q COCO С 4 CM CM С > t. 3C0 I CM ©^^CM^CM^ o> © см с* см* CO тр ^f ^* •* CM CM CM CM CM J**T*rf CM CM CM CM CM — 1ЛС0 — COCO CO 00 f f CM -* h- ^-* со ел со со со ¦*f 00 00 00 00 •-* CO CO «—< CO CM^'*^—^CO >*p-h*CM rl^l 5O5O5 О5С CO NWO — h- t*~ t4^ 00 00 со со со со ю oo oo oooooo 00 00 00 00 00 о — смп« ю О5Г - - - о I > — СМ СО тН >оооо 1 СМ СМ СМ СМ гЛСО t4* 00 < о о о о< смсм см см< см см см см см с5 см см см см CO t4» CM lO 00 см c§ со со со —• О>050 00 СМ 1^ СЛ СО СО со со со со со ЮСО 00 О> со союооо t>- о> со —* со^ ~* ^ to—^ СО coco — ь-о о со^см^ю ю ©*сГсм*со~со~ оо оооо оооо емюсмемю oooooo 00 O5 O5 O5 O5 O5 O) CM CM CM CM CM CM CM CM CM CO 1CMC0** Ю > со со со со O5 O5 O> O5 CO со со со со ^* 2 I CM CD —< ЮЮ о — со ти tj« 00 00 00 00 00 О —«CM CO "* ooooo со t^ oo oo со CM CO Is-Tf CM *CO h- O> 00 00 00 00 O5 00 0>0 -^ CO* 00 O5C5 СЛ Oi b & Ob Ob O* о — см со-* ЮСО h- 00 Oi ) — CM CO ** 1 CM CM CM CM rt* CO 00© CM CO h- — CM CM O> h-O COCO tCM OOCOTt* CO CM Ю 1ЛС t- «*CDCM С OONOJC CO "* ^* O) Oi ooo^^co — CM Ю 00 O> CO ЮСО 00 Oi ©CM CO **io CM CM CM CM CM t>- 00 O5—* CM CM CM CM CO CO со со со со со © ©O5 CO «—• ^f со © »—i tj* о — —i ел с cor^^-смс t^ t ooc COCM h;t^CO ©*—*CM*CM*CO* ©©©© CO Г^ 00 00© lO CO CO C4^ 00 00 CM OO © O5 см со со — ю со* ю*со* oo* oT — 00 f- O> t CM ©СОЮСО CO © © CO CO t^ ^CO t^-O5 — см со Th t^ O —CM CM CM CM ©^CO CM^© CO^ ^o со со со со © — ю ooc ^Э со оо с © СО Ю Ю © —*СМ СО*СО*"** со со со со см CM CM 00 00© Ю ЮСО CO 00 s 4 \o CO H 314 © — CM CO'* Ю CO t^- 00 O5 © — CM CO «Ф
cOt t>» t CM SlocmcmS O)co — d)co O)co *^ 00 00 О) О) O) —«colololo cot^ooc 0HHHH) O)O)O)C CN С 1 CM ~-TcM CM CM CO CM CM CM CM CM OCOCOCO rt* CO O) CM LO CO I*» f4» O) »~^ ЮСО ССЭ CO CO CO 00 t*- LO tO CO О) ^ CM t4^ LO NOin^-H tFCOO)CMLO О tP COO) CM LO CM CM CM CM CM rt* CO 00 00 00 ЮЮЮЮЮ CM CM CM CM CM ЮСО CO CO CO ЮСО CO CO CO CM CM CM CN CM о см со ю to CM CM CM CM CM O)O)OH04j« LOCOLOCOCO © © © h-© CO Is- CO CO CO CO CO lO O)CO CO O) O) O) CM ©coco со oo 0H —« CO CO o^oq^—.^ rf LOCO 00 O) CN CM CM CM CM "> O> Oi Oi Oi *_4 ,-H »-H t—H CM CM CM CM CM CM O)O) О —-«CM — —.см см см CM CM CM CM CM ю cot^-oo с CM CM CM CMC CM CM CM CMC 5 *-*CM < CM CM CM CM CM XON00O) ) W CN CM CM см см со со CM^io^co ЮСО 0QO)O) ЮЮЮЮЮ CO тНЮСО t^ 00 00 00 00 00 CM CM©—<CO CO 1>.00ЮСОСО со г-*^ со со О) г^СОСО СО О) rf СО COCO OiOi LOO О) О) О) О О CN CM CO LOCO ooooo )O© rf СО 00 00 00 O) —« CM CM CM ^CMCMCMCN O) CM CM t4" lO 00 CM O) O) COCOCOOO »—«^O)Nr> LOCO COO) CO CO CO O) CO CO CO О t^QO O) CO 00 О CO t4» O)O) —«CM CO 00 CO CO 00 t*» Ю ЮЮ LOLOLO 00 0)OCMCM ЮЮСО COCO со со со со со со loco coco O) CO CO CO CO Tf 00 .—«CO -^CNCO ЮСО CM CM CM CM <N cncmcmcmcm cococococo cococococo ^^ ЮСО t^OOO) LO LO LO LO LO CO CO 00 5) CM CO CM O) 00 O) 00 cot^O)O)-H см-^^соь- oooq см"со" ^\ntot*So? -" -" -** -" -^ LOLOLOLOLO lOcOCOcOcO COCOCOCOCO H0 00 •CM CM ss ss^ss O) O) 00 00 LO »—• »-н со ю loco со 222 88 см см со co^* CM CM CM CM CM см см со со со COCO со со OOCN O)rfCNO)Lft CMO)»^O)CM -^^O-iO) CM СЭ CO ?••• ^i4 CM *~H Is— O) lO O) t4» 00 CN O) 00 ^f1 ^ " SSlOlOlO LOCoScOcO ю со со о O) t^t^^C ^S5?§g§ 5 со со со со со CO CO CO O) t COO»CO l>- Tt< COCO С"- O) O) © COI CO CMCMCMCMCM CMCNCOCOCO COCOCOCOCO CO CO COCO ^ \?><O Ь- 00 О) со со со со со 315
00 00 СЛ СО CN 00 lO 1Л Г4"* t4^ 00 СЛ ~~* CN CN 00 ^* CO t4» СЛ СЛ СЛ *"* CN 0O CN CN CN 00 00 00 CO 00 00 CO 00 CO CO CO 00 CO CO CO CO CO CO CO CO CO CO CM О 00 00 00 lfl-nONN NWOO'-hN h- h- 00 CO ~-« 00 О О О 00 CM 00 СЛ СЛ СЛ CN СО ^СО^СО^ ^^ °^Т*1СОЖ °Я.СО ^l00 ^ СМ Ю Ю1Л СО Ю СО t"» t^» [^- СЛ О CN CO 00 CO "rt* Ю h- СЛ СЛ СЛ О —- CN -^ЮЮЮСО _н —« _ —. —. ~ CN CM CM CM CNCNCNCNCN CN CM CO 00 СО ОООООООООО смсмсмсмсм смсмсмсмсм смсмсмсмсм смсмсмсмсм смсмсмсмсм О 00 — CO CO СО t^-СЛ СЛ СЛ -ч,—.СОСОСО OCNOOh-00 ч** h- Ь- СО О rf СО О "^Г CN СМСОЮОО т^00Ю*-н^ О CN ^ Ь- *-• СО О О 00 СО 00 00 00 СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ СЛ С5 СО CD CD СО СО СО СО СО ^^ •"¦* ^^ *—* СМСМСМСМСМ CNCNCNCNCN CNCN0000CO ООООСОСОСО ОООООООООО CN CN CN CN CN CN CN СО 00 00 00 00 00 00 00 СО 00 ^* 'З* ^* ,. смсмсмсмсм смсмсмсмсм смсмсмсмсм смсмсмсмсм смсмсмсмсм lO l-O LO LO lO CO ^O fО CO ^O c^ c^ c,^ cfy c?*i f^^ f4^^ j41»^ f4^ f1^ t4** t4*^ I*4* t4^ Г*4** CNCNCNCNCN CNCNCNCMCM O^CNCNCNCN СМСМСМСМСМ CNCNCNCNCN ©00_-tJ«CO СЛСЛ0О0000 ^т^СМг^сО О5О00О-* ОСЛСОт^СМ ЮСМСОСЛОО i—• Ю *-н 00 00 СОСЛСОСЛОО -^СООт^ОО ЮСМЮ ОО^СМ^ СЛОО-^00 ЮЮСО0000 ОС —CNTf CO CO t*-00 СЛ *—CNCN001O ООСЛСЛСЛСЛ СЛСЛСЛСЛСЛ О О О О О О О О О О „-4 »-ч ^^ 1—« «-^ ^н^н^н^н,—, ^_^н_^ СМСМСМСМСМ СМСМСМСМСМ CNCNCNCNCN OONN^h ©h-OCNCN ^^СЛСЛСЛО OO^^f^CO CN^COOOCJJ ^SOOCO t^CMlOOOOO^ СМ^СЛСЛСО^ СО^СМ^Ю^Ю^С^- ^-<CO—< *-н ^ СО ^^ СО СО 00 1О СО t4^ СЛ СЛ СО »~н CN "^ lO t**« t41» t^* СЛ СО *¦¦"' С оооооооооо оооооооооо слслслслсл слслслсл© о< сл< CNCNCNOOr^ lOh-t—t^OO СЛ-^ CN т^ Tf rf Ю СО t«- СЛ ООО^М СОСОСОСОСО СОООСОСООО ОО тР «* Th Tf Tf Tf -«f Tt^ "^ ЮЮЮ1ЛЮ ЮСО^-ООСЛ O^hCNOO'* ЮСОЬ-ООСЛ O^CNOOTf ЮСОЬ-ООСЛ ЮЮЮЮЮ СОСОСОСОСО cOCOCOCOCO l^O^t^t4-!4* t^t^t^h^t4*» «Ю-нСОЮ «—< CO CM Ю CM lOlOCNCOCN ^гЛЮСМСО СЛ —« CO CN т}« ^S^ ^™^ t^^ ^^^ ^^^ ^^^ IjC^ '^^ ^^^ ^*^ 1^0 ^^^ ^^^ ^^^ *'?J^ f^5 0^5 ^^^ ^^^ 0^5 ^^^ ^^^ f*1^ ^^^ 0^^ ^^Tg^s's' sr^sfssfe* fc^ssV s^ysfe's яГййй'й' r^r^r^OOOO ОООООООООО ООООСЛСЛСЛ СЛ СЛ Оз С75 Оз OOCOO^ СМ"*«^Г^СЛ СЛЮ-н^СО OOCMOOCO COOOOOOOCO ООСЛСЛООСО СО00СЛСЛСМ ЮЮЮ^-< СЛ^Г^СМО t>- 00 00 О -^ ~* C^T 00*00 Ю CO CO*t^ СЛ СЛ СЛ —< ^ CN ^ 0^5 C^i 0^^ ^^^ ^^J^ ^jj1^ *^^^ ^^^ ^^J^ ^^^ ^^^ ^J^ ^ч^ ^^i^ ^^^ ^^1^ ^ rj V»^ V^j ^i^j оооооооооо оооооослсл слслслслсл ООСМСЛСЛг^ СМСЛСЛЮСМ СЛСЛ»->СЛСМ СМ ч*< Tt< О •*< CNOCOCOt^ "^СМСМ»-н|>- СЛСЛЮ СЛ^Г- Г-^ОО^СМ СЛ^ОО CD »"н 00 ^* ^ lO t4*» l>» t4^ 00 СО «"ч *~^ CN CO *^* Tf lO CO 00 00 00 CD ^~< CN ^sj^ ^^^ ^d^ ^i^ ^J^ ^J^ ^^^ ^^^ ^^^ ^^^ i ^^ i ^\ \ f\ V^^ i ^^ ^ ^^ ^^^ ^^^ i r^y i r^i ic^ l^^ CC^ C^3 c^J^ ЮСО^СОСЛ © *— CM 00 "^ ЮСОГ^-ООСЛ ©—^CNOO4^ ЮСОГ^ООСЛ ЮЮЮ1ОЮ СОСОСОСОСО СОСОСОСОСО t>« ^ f^ С""- Г"*» !>• t^. Г-* f4* t4* 316
Ю CM Ю СО CD N 00 СЧ CN CN <N (N со со со со со о ел о о о •^ Ю W CN 00 со со со со со со со со со со (О N СО 00 -| о со N со_ ^ t**» СЛ СО со со tj* со со со ¦^ СО <О СЛ О -н со со М СО со со Tf CO со со ^ СО CN CN CN О Th СО СО СО ~-* ^^ ел Tt* ^* О СО СО (N Ю CN СО -* CD N CN CN CN CN CN ¦* rj* CN ^J< Ю LO Ю CO СЛ CO N N 00~ СЛ —• 't Tf Tf ^ Ю CN (N CN CN CN ~« со со ел см ю CO Ю CN со ю CN со ю CN COOCNCOCO Oi O5 Ю N 00 —< т*< ОО СО О О O> —' CN Tt* Ю CO 00 CO CO CO CO CO О) О) О) -« (N со со со со со N^ О^Ю CN^ CN со Ю со со оо" CM CM CN CN CN со со со со со cn N N СЛ со см CM CO 00 O) CN CN со со со о oo со со со N CN ТГ Tt« rf N СЛ О О О t« f LD Ю Ю CN •—« со со ел со сососо -и (N CO т^ со Ю Ю Ю 1С Ю CN CN CN CN CN s 00 O> CN CN с? см ю о t^ t^ CN 8 со ю со со CM CN со со со со CN CN О « CN 00 00 OO CN CN CN Ю CD N 00 О с» oo oo oo oo CN CN CN CM CN О —i CN CO Tf O5 C5 C7) Ct) CT> CN CN CN CN CN Ю CO сг> о CN CN t>- 00 O5 СЛ CM CM CD О О5 О CN CO о oo oo ю —• 00 O5 O5 CN CO CO f-* !>• О О CM CM CN CN CN CN CN CN CM CM CM CN CM CN CM CO CO О CO N O5 СЛ О ^ <N CN CN CO CO CN CN CN CN CN —• 00 t^ CM ю ю со о CM rf со со CN CN 8 ? CN CM т*< »—i CO CO CO Ю О t^- l> t^- CD 00 CT5 О G) t* f h t< Г SS288 о " " ^ О1ЮС0 CO CO CO CN Ю Ю Ю CO 00 CT> O> Ю Ю Ю Ю Ю СО О 8 S СО —• тр СО со со со со S3 ю ел со о 0 CN CN CN CM CN СЛ CN CN СЧ N со со со со оо ел см ел о »—• СО СО О ^ 00 ~-< CN rt4 Ю СО CN CN CN CM CM ю оо cn ел О) 00 О5 О) О « ^ч ,-н —м (N СМ CM CN CN CN ю со со о> со со ел со 1ЛЮЮЮЮ Ю Ю СО СО СО СОСОСОСОСО CN CM CN CN О -и О) 00 ^ СО 00 N Ю СО CN CM со со S3 со оо о со s"s* N N 00 00 00 00 00 00 со is. 00 00 СО N X О) О О О5 ОЪ S 2 2 со 2 g с§ & § 2" о —Г со 8Д со оо оо оГ ~ a gf a a со S Е: Ш S ш S CN со ел s N CN СО СО со со со со -н СО СО CN C75 00 СО СО СО СО СО оо ел оо оо о ю СО СО СО CD N N CN СО ^ СО — СО о> ел о о о о оо о см ^ ^ Ю О5 СО -^ СО '—• ^ 00 00 ел о ^н cn Tt« оо со ел со со со Tf Ю СО 00 О О ^ « _н « О) CN -н ел ю со со оо rt< ел t^ t^ со со со со со со о cn ел ел t> —< со^ о^ о^ СО СО (О NN S ю N оо ел ел о N NN NN 00 О *^ <N CO -* 00 00 00 00 00 00 со n оо ел 00 00 00 00 ел ел ел ел ел ел ел о^ ел ел о 317
зовов в 1 минуту составляет (согласно табл. 80) от 14,921 ±^ 15 до 34,048 ~ 34, а для 1 часа — от 60 * 14, 921 с* 895 до 60 • 34,048 ~ са 2043 вызовов (S =* 0,95). Табл. 80 служит также для проверки нуль-гипотезы: к ==» кх (к — задано заранее; х—число наблюдаемых успехов, Кх—соответствую* щий параметр). Если ДИ для кх не накрывает параметр Я, нуль-гипотеза отбрасывается в пользу гипотезы А, Ф кх> Частный случай х — 0. Для # = 0 односторонняя нижняя довери* тельная граница кн==0> верхняя (односторонняя) доверительная грани* ца Яв# может быть определена по маленькой таблице на с. 172 (напри* мер, для S = 95%, V =2,996 » 3,0) или рассчитана по формуле К=\%\* (х1;о.об = 5,99; V = 0,5-5,99 & 3,00). 4.5.5. СРАВНЕНИЕ ДВУХ ЧАСТОТ; ПРОВЕРКА ГИПОТЕЗЫ О ТОМ, НАХОДЯТСЯ ЛИ ОНИ В ОПРЕДЕЛЕННОМ СООТНОШЕНИИ Иногда возникает вопрос, находятся ли наблюдаемые частоты (аи b при а ^ Ь) в определенном соотношении р/а = ?. Проще всего ответить на основании х2-критерия: tt+Dfl}» D.з3а) и без учета поправки на непрерывность для значений а и Ь с помощью критерия (&»)¦ D.з3) -2 = А при соответствующем числе степеней свободы. Если вычисленное значение х2 меньше чем %2 = 3,841, то наблюдаемые частоты по двустороннему критерию со статистической надежностью 95% находятся в соотношении ?. Пример Соответствуют ли частоты а = 6 и 6 = 25 соотношению ?=» р 51( 005)? _ {15-6—251 —E + 1)/2}2 __ 4 Отклонение (— = 4,17 против 5,00] имеет случайный характер (Р > 0,05). 4.6. АНАЛИЗ ТАБЛИЦ 2X2 • 4.6.1. СРАВНЕНИЕ ДВУХ ПРОЦЕНТОВ — АНАЛИЗ ТАБЛИЦ 2Х* Сравнение двух относительных частот особенно важно в медицине. Разработано новое лекарство или предложен новый метод проведения операции: раньше умирали 15 пациентов из 100, после внедрения новшества— 4 из 81. Является ли новое лекарство или новый метод 318
действительно более эффективным или успех имеет случайный характер? Обычно проводится классификация я объектов по двум парам признаков на 4 класса — наблюдаемые частоты а, в, с, d — и затем ее заносят в четырехклеточную таблицу (табл. 81). Граничные случаи, когда результат можно отнести к обоим возможным классам, приводят к половинным значениям. Обе выборки из альтернативных данных исследуются на возможность их рассмотрения в виде случайных выборок из одной генеральной совокупности, представленной общей суммой (Randsummen), т. е. оценивается, распределяются ли частоты в клетках пропорционально этой сумме. Другими словами, мы проверяем частоты на пропорциональность, т. е. выясняем, имеют ли отношения и а/с bid только случайные отклонения от среднего отношения (а + ЬI (с + d) = пх1пг, а также можно ли рассматривать отношения alb и eld как случайные отклонения от среднего отношения (а + сI(Ь + ф. Таблица 81. Четырехклеточная таблица для сравнения двух выборок или вообще для сравнения двух альтернативных признаков ^^>^^ Пара при- ^ч*^^^^ знаков II Пара при- ^^\^ знаков I ^\^^ Первая выборка Вторая выборка Итого Событие Сложное ( + ) событие (—) а Ь с d а±с b+d Итоге а+Ь=пг c+d=n9 Вышеприведенный пример приводит к четырехклеточной таблице (табл. 82), предназначенной для выяснения вопроса, является ли более низкая смертность при новых условиях случайной. Таблица 82. Четырехклеточная таблица Лечение Обычное Новое Итого Умерло пациентов 15 4 19 Выздоровело пациентов 85 77 162 Итого 100 81 181 Нуль-гипотеза: процент выздоровления не зависит от терапии, или: обе группы пациентов, подвергавшихся лечению, относятся к общей генеральйой совокупности, т. е. эффект лечения в обоих случаях одинаков. 3J9
Обе группы представляют собой непосредственные выборки двух биномиальных распределений. Итак, сравниваются вероятности, лежащие в основе биномиальных распределений, т. е.: нуль-гипотеза: обе группы принадлежат общей генеральной совокупности с вероятностью успеха я; альтернативная гипотеза: обе выборки принадлежат различным генеральным совокупностям с вероятностями успеха ях и я2. Нуль-гипотеза о равенстве или однородности обоих параметров (пъ я2), или независимости обоих альтернатив признаков (см. также разд. 6.2.1), проверяется с помощью х2-критерия. Прежде стоит прояснить еще следующий вопрос: распределены ли частоты в клетках пропорционально суммам? Чтобы ответить, мы определим ожидаемые согласно этому предложению частоты и назовем их коротко ожидаемыми частотами Е. Перемножим сумму по строке на сумму по столбцу поля а A00 • 19= 1900) и разделим произведение на объем объединенной выборки п A900/181 = 10,497; Еа = 10,5). Аналогично рассчитаем остальные частоты: Еъ = 89,5; Ес = = 8,50; Ed = 72,50. Для решения вопроса, согласуются ли наблюдаемые частоты а, Ь, с, d с ожидаемыми частотами Еа, Еъ, ?с, Ed в смысле нуль-гипотезы, образуем статистику х2 . * Еа * Еъ Ес ^ Ed и проведем преобразования ii) <4-34) где \A\=\a-Ea\=\b-Eb\ = \c-Ec\ = \d-Ed\ или у» = n(ad-bc)t § где п — а + Ь + с + d. Четырехклеточный х2-критерий имеет только одну степень свободы (здесь справедливо: Ух2" = г, например, ^3,841 = 1,96), так как при заданных суммах могут быть свободно выбраны только 4 частоты. Обе формулы D.34) и D.35) могут употрябляться только тогда, когда все ожидаемые частоты > 3 и п > 20. Если хотя бы одно из этих условий не выполняется, нужно пользоваться точным критерием Фишера (с. 345), см. также [Vessereau, 1958]. При малом п необходимо в D.35) заменить п на (п—1). Эта формула применима, если пг > 5 и п2 > пг/3 [Van der Waerden, 1965], [Ber- chtold, 1969]. Для пх = n% D.35) переходит в 320
или при малых п п(а— (a+c)(b i_ (Я-1)(О-С)« D.35а) D.356) (a+c)(b+d) Нуль-гипотеза о независимости или однородности отклоняется, если значение х2, рассчитанное по D.34), D.35) или D.35, а, б)Десли в D.35) заменяют п на (п — 1), то записывают х2), по крайней мере, равно критическому значению %2 из следующей таблицы: Вероятность ошибки а Двусторонний критерий (#0 : я1=я2, НА : Tcti=n2) Односторонний критерий (#0 : ^1=^2» Ид '• Я1>Л2 ИЛИ Л2>Я1 0,05 3,841 2,706 0,01 6,635 5,412 0,001 10,827 9,550 Обычно используется двусторонний критерий! Табл. 83 дает точные вероятности для х2 = 0,0 @,1) 10,0. Таблица 83, ^-таблица для одной степени свободы. При одностороннем критерии Р-значения уменьшить вдвое. 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0.9 1,0 1,1 !,2 1,3 1,4 1,5 1,6 1,7 ,8 1,9 2,0 Р 1,00000 0,75183 0,65472 0,58388 0,52709 0,47950 0,43858 0,40278 0,37109 0,34278 0,31731 0,29427 0,27332 0,25421 0,23672 0,22067 0,20590 0,19229 0,17971 0,16808 0,15730 2,1 2,2 23 2,4 2,5 26 2,7 2,8 2,9 3,0 3,1 32 3[3 3,3 34 3,5 3,6 3,7 3,8 3,9 4,0 Р 0,14730 0,13801 0,12937 0,12134 0,11385 0,10686 0,10035 0,09426 0,08858 0,08326 0,07829 0,07364 0,06928 0,06928 0,06520 0,06137 0,05778 0,05441 0,05125 0,04829 0,04550 X2 4,0 4,1 4,2 4,3 4,4 4,5 4,6 4,7 4,8 4,9 5,0 5,1 5,2 5,3 5,4 5,5 5,6 5,7 5,8 5,9 6,0 р 0,04550 0,04288 0,04042 0,03811 0,03594 0,03389 0,03197 0,03016 0,02846 0,02686 0,02535 0,02393 0,02259 0,02133 0,02014 0,01902 0,01796 0,01697 0,01603 0,01514 0,01431 6,0 6,1 62 б!з 6,4 6,5 6,6 6,7 6,8 6,9 7,0 7,1 7,2 7,3 7,4- 7,5 7,6 7,7 7,8 7,9 8,0 р 0,01431 0,01352 0,01278 0,01207 0,01141 0,01079 0,01020 0,00964 0,00912 0,00862 0,00815 0,00771 0,00729 0,00690 0,00652 0,00617 0,00584 0,00552 0,00522 0,00494 0,00468 X2 8,0 8,1 & 8,3 8,4 8,5 8,6 8,7 8,8 8,9 9,0 9,1 9,2 9,3 9,4 9,5 9,6 9,7 9,8 9,9 10,0 р 0,00468 0,00443 0,00419 0,00396 0,00375 0,00355 0,00336 0,00318 0,00301 0,00285 0,00270 0,00256 0,00242 0,00229 0,00217 0,00205 0,00195 0,00184 0,00174 0,00165 0,00157 Источник: Kendall M. G. and Stuart A. The advanced theory of statistics, Vol. II. Griffin, London, 1961, p. 629, 630. 11 Зак. 930 321
Пример Мы проверим табл. 82 на 5%-ном уровне (односторонний критерий; предположение: новое лечение не хуже!): ~2= 181A5.77-4.85J _ Л 100.8Ы9.162 Так как %2 = 4,822 > 2,706 = хо.об, гипотеза о независимости (гипотеза об однородности) на основании имеющихся данных со статистической надежностью 95% отклоняется. Между применением нового лечения и уменьшением смертности имеется связь. Для упражнения рекомендуется провести расчеты по D.34) (см. табл. 82, ± = ^ и т. д.). Примечания 1. При анализе предварительных опытов, когда заранее не определена вероятность ошибки, сравнивают найденное ?2-значение с табулированным в табл. 83 (двусторонний критерий). 2. Если замечено, что числовые значения отношения D.35) не изменяются при делении частот в клетках (а, Ь, с, d) и суммарных частот (а + 6, с + d, а + с, Ь -\-d) на постоянную k (объем выборки п может не делиться на к), то вычислительная работа значительно уменьшается. Для предварительного расчета можно, кроме деления частот на k, результаты деления округлить. Для больших п расчеты по формулам D.34) или D.35) слишком громоздки, поэтому предпочитают формулы D.28) или D.36). 3. Так как четырехклеточный %2 -критерий представляет собой аппроксимацию, Йейтсом были предложены скорректированные формулы D.34а) и D.35а); (величины V2 или п/2 называются поправкой на непрерывность): I п \2 n\\ad-bc\-—} у2= i . D.35а) * (a + b)(c+d)(a+c)(b + d) ' Гриззль [ Grizzle, 1968] показал, что поправки D.34а) и D.35а) можно не учитывать. Только в случае, когда обязательно необходимо аппроксимировать вероятности точного критерия Фишера (консервативный способ), применяются эти формулы (см. также [Adler, 1951], [Cochran, 1952], [Vessereau, 1958] и [Pla- ckett, 1964]. 4. Дальнейшие указания находятся на с. 337. Число необходимых наблюдений для четырех- клеточного %2-к р и т е р и я Число наблюдений, необходимое для четырехклеточного ^-критерия или для сравнения двух относительных частот при заданных аир, приближенно определяется по следующей формуле: п = /<7(arcsin YPi — arcsin Y p2J (nx = щ = л, см. табл. 81). Можно пользоваться также табл. 51 (с. 247). 322
Значение К для целесообразного здесь одностороннего критерия можно взять из следующей таблицы: а ^^\^^ 0,05 0,01 0,001 0,2 12 885 16 474 19172 0,1 17 250 21369 24 426 0,01 30 161 35 537 3 945 Пример Pi = 50, p2 = 0,30, a = 0,05, C = 0,1. 17 250 D5,000—33,211J = 124, т. е., например, 2 37 62 87 124 124 Мощность критерия: 90%, 06=Х^05; одност. 99 149 248 G-k ритерий Вулфа G-критерий Вулфа [Woolf, 1957] заменяет четырехклеточныйх2-кри- терий и, кроме того, приводит к уменьшению объема вычислений. С другой стороны, G-критерий лучше обоснован теоретически, чем Х2-критерий. Если %2-сгатистика определяется выражением ~ 2 yi (наблюдаемое—ожидаемое)^ ожидаемое D.13) то G-статистика определяется формулой 6=22 наблюдаемое (In (наблюдаемое) — In (ожидаемое)). D.36) По-видимому, не имеет смысла останавливаться на этом подробнее. Важно, что необходимые для этого критерия значения 2п • In n (коротко, ^-значения) табулированы Вулфом. Четырехклеточные таблицы проверяются на независимость или однородность следующим образом: 1) для частот, скорректированных по Йейтсу (см. ниже) а\ Ъ', с'у д! — в табл. 86 записываются полученные ^-значения, пусть их сумма равна Sx (см. пункт 6); 2) по табл. 85 определяется значение, соответствующее объему общей выборки п\ обозначим его S2; 3) для четырех сумм частот также из табл. 85 определяются соответствующие значения; пусть их сумма равна S3; 4) затем определяется G-статистика по формуле G = Sx — S3; D.36а) И* 323
Таблица 85. Значения 2 л In л для п до 399 46,0517 119,8293 204,0718 295,П04 391,2023 491,3213 594,7893 701,1243 809,9657 921,0340 1034,1057 1148,9980 1265,5590 1383,6599 1503,1906 1624,0556 1746,1715 1869,4645 1993,8691 2119,3269 2245,7852 2373,1961 2501,5165 2630,7067 2760,7305 2891,5544 3023,1479 3155,4822 3288,5309 3422,2695 3556,6748 3691,7254 3827,4012 3963,6830 4100,5532 4237,9949 4375,9922 4514,5302 4653,5945 0,0000 52,7537 127,8699 212,9072 304,5129 401,0462 501,5266 605,3005 711,9008 820,9764 932,2543 1045,5157 1160,5813 1277,3017 1395,5503 1515,2185 1636,2122 1758,4489 1881,8559 2006,3684 2131,9286 2258,4841 2385,9879 2514,3970 2643,6721 2773,7774 2904,6797 3036,3484 3168,7553 3301,8741 3435,6804 3570,1512 3705,2652 3841,0024 3977,3438 4114,2719 4251,7699 4389,8219 4528,4131 4667,5293 2,7726 59,6378 136,0059 221,8071 313,9642 410,9293 511,7647 615,8399 722,7020 832,0091 943,4945 1056,9437 1172,1811 1289,0597 1407,4549 1527,2597 1648,3812 1770,7381 1894,2584 2018,8782 2144,5402 2271,1926 2398,7888 2527,2861 2656,6458 2786,8323 2917,8125 3049,5563 3182,0356 3315,2242 3449,0979 3583,6340 3718,8112 3854,6096 3991,0105 4127,9963 4265,5504 4403,6570 4542,3013 4681,4693 6,5917 66,6887 144,2327 230,7695 323,4632 420,8509 522,0350 626,4071 733,5275 843,0635 954,7542 1068,3896 1183,7974 1300,8329 1419,3736 1539,3140 1660,5626 1783,0389 1906,6719 2031,3984 2157,1616 2283,9105 2411,5986 2540,1839 2669,6279 2799,8951 2930,9530 3062,7716 3195,3229 3328,5811 3462,5221 3597,1232 3732,3634 3868,2229 4004,6831 4141,7264 4279,3365 4417,4975 4556,1948 4695,4144 11,0904 73,8936 152,5466 239,7925 333,0087 430,8103 532,3370 637,0016 744,3772 854,1394 966,0333 1079,8532 1195,4298 1312,6211 1431,3062 1551,3814 1672,7562 1795,3512 1919,0964 2043,9290 2169,7930 2296,6377 2424,4174 2553,0903 2682,6181 2812,9658 2944,1011 3075,9942 3208,6174 3341,9449 3475,9528 3610,6188 3745,9218 3881,8422 4018,3615 4155,4622 4293,1280 4431,3433 4570,0935 4709,3645 324
16,0944 81,2415 160,9438 248,8744 342,5996 440,8067 542,6703 647,6232 755,2507 865,2366 977,3317 1091,3344 1207,0784 1324,4242 1443,2528 1563,4618 1684,9620 1807,6751 1931,5317 2056,4698 2182,4341 2309,3744 2437,2452 2566,0052 2695,6165 2826,0444 2957,2568 3089,2241 3221,9188 3355,3155 3489,3902 3624,1208 3759,4864 3895,4675 4032,0456 4169,2036 4306,9251 4445,1945 4583,9974 4723,3198 21,5011 88,7228 169,4210 258,0134 352,2350 450,8394 553,0344 658,2715 766,1477 876,3549 988,6491 1102,8329 1218,7430 1336,2421 1455,2131 1575,5551 1697,1799 1820,0104 1943,9778 2069,0209 2195,0850 2322,1203 2450,0818 2578,9286 2708,6231 2839,1308 2970,4200 3102,4613 3235,2273 3368,6928 3502,8341 3637,6291 3773,0571 3909,0987 4045,7356 4182,9507 4320,7276 4459,0510 4597,9064 4737,2801 27,2427 96,3293 177,9752 267,2079 361,9139 460,9078 563,4288 668,9460 777,0680 887,4939 999,9854 1114,3487 1230,4235 1348,0748 1467,1872 1587,6612 1709,4099 1832,3570 1956,4346 2081,5823 2207,7456 2334,8755 2462,9273 2591,8605 2721,6378 2852,2251 2983,5908 3115,7057 3248,5428 3382,0769 3516,2845 3651,1437 3786,6340 3922,7359 4059,4314 4196,7033 4334,5356 4472,9129 4611,8207 4751,2454 33,2711 104,0534 186,6035 276,4565 371,6353 471,0114 573,8530 679,6466 788,0113 898,6536 1011,3403 Ш25,8816 1242,1197 1359,9220 1479,1748 1599,7800 1721,6519 1844,7149 1968,9022 2094,1537 2220,4158 2347,6398 2475,7816 2604,8008 2734,6007 2865,3271 2996,7690 3128,9573 3261,8652 3395,4677 3529,7415 3664,6647 3800,2169 3936,3790 4073,1329 4210,4616 4348,3490 4486,7800 4625,7401 4765,2158 39,5500 111,8887 195,3032 285,7578 381,3984 481,1494 584,3067 690,3728 798,9773 909,8337 1022,7138 1137,4314 1253,8316 1371,7838 1491,1760 1611,9115 1733,9058 1857,0841 1981,3804 2106,7353 2233,6957 2360,4134 2488,6447 2617,7496 2737,6915 2878,4369 3009,9547 3142,2162 3275,1946 3408,8653 3543,2049 3678,1919 3813,8060 3950,0281 4086,8402 4224,2255 4362,1679 4500,6524 4639,6647 4779,1912 325
Таблица 85 (продолжение 1). Значения 2я Inn для п от 400 до 799 4793,1716 4933,2489 5073,8140 5214,8553 5356,3618 5498,3228 5640,7284 5783,5687 5926,8347 6070,5173 6241,6081 6359,0989 6503,9820 6649,2496 6794,8947 6940,9101 7087,2892 7234,0255 7381,1126 7528,5446 7676,3156 7824,4199 7972,8522 8121,6070 8270,6793 8420,0641 8569,7566 8719,7521 8870 0462 9020^344 9171,5125 9322,6763 9474,1217 9625,8450 9777,8423 9930,1098 10082,6440 10235,4414 10388,4985 10541,8121 4807,1570 4947,2836 5087,8968 5228,9852 5370,5376 5512,5435 5654,9930 5797,8763 5941,1843 6084,9081 6229,0393 6373,5697 6518,4915 6663,7973 6809,4797 6955,5318 7101,9469 7248,7185 7395,8404 7543,3065 7691,1111 7839,2485 7987,7132 8136,5000 8285,6038 8435,0196 8584,7426 8734,7682 8885,0919 9035,7092 9186,6161 9337,8082 9489,2816 9641,0325 9793,0569 9945,3513 10097,9120 10250,7355 10403,8184 10557,1574 4821,1475 4961,3232 5101,9845 5243,1197 5384,7179 5526,7687 5569,2620 5812,1882 5955,5381 6099,3031 6243,4745 6388,0444 6533,0050 6678,3487 6824,0683 6970,1570 7116,6081 7263,4150 7410,5716 7558,0719 7705,9100 7854,0803 8002,5775 8151,3962 8300,5314 8499,9781 8599,7316 8764,8092 8900,1405 9050,7870 9201,9225 9352,9429 9504,4443 9656,2227 9808,2743 9960,5954 10113,1826 10266,0321 10419,1408 10572,5052 4835,1429 4975,3577 5116,0769 5257,2589 5398,9028 5540,9983 5683,5353 5826,5042 5969,8961 6113,7020 6257,9137 6402,5230 6547,5222 6692,9038 6838,6607 6984,7860 7131,2729 7278,1150 7425,3063 7572,8406 7720,7121 7868,9154 8017,4450 8166,2956 8315,4621 8464,9397 8614,7236 8779,8342 8915,1920 9065.8676 9216,8318 9368,0805 9519,6097 9671,4156 9823,4943 9975,8422 10128,4558 10281,3314 10434,4658 10587,8556 4849,1432 4989,4170 5130,1740 5271,4027 5413,0922 5555,2323 5697,8129 5840,8245 5984,2582 6128,1051 6272,3569 6417,0055 6562,0433 6707,4628 6853,2568 6999,4185 7145,9412 7292,8185 7440,0443 7587,6126 7735,5176 7883,7538 8032,3157 8181,1981 8330,3960 8479,9044 8629,7187 8794,8621 8930,2464 9080,9511 9231,9439 9383,2209 9534,7779 9686,6113 9838,7171 9991,0917 10143,7316 10296,6333 10449,7933 10603,2085 326
4863,1485 5003,4712 5144,2758 5285,5510 5427,2861 5569,4707 5712,0948 5855,1491 5998,6244 6142,5122 6286,8040 6431,4919 6576,5682 6722,0254 6867,8565 7014,0546 7160,6131 7307,5255 7454,7859 7602,3881 7750,3264 7898,5954 8047,1896 8196,1037 8345,3329 8494,8722 8644,7168 8809,8930 8945,3038 9096,0375 9247,0589 9398,3640 9549,9489 9701,8096 9853,9425 10006,3438 10159,0100 10311,9377 10465,1234 10618,5640 4877,1588 5017,5301 5158,3823 5299,7040 5441,4845 5583,7134 5726,3810 5869,4778 6012,9948 6156,9233 6301,2551 6445,9822 6591,0969 6736,5918 6882,4599 7028,6943 7175,2885 7322,2360 7469,5308 7617,1669 7765,1385 7913,4403 8062,0667 8211,0126 8360,2730 8509,8430 8659,7178 8824,9269 8960,3641 9111,1267 9262,1767 9413,5100 9565,1226 9717,0107 9869,1706 10021,5986 10174,2911 10327,2447 10480,4561 10633,9219 4891,1739 5031,5939 5172,4935 5313,8616 5455,6874 5597,9606 5740,6715 5883,8107 6027,3693 6171,3385 6315,7102 6460,4763 6605,6294 6751,1620 6897,0670 7043,3377 7189,9675 7336,9500 7484,2791 7631,9490 7779,9540 7928,2884 8076,9470 8225,9245 8375,2161 8524,8168 8674,7219 8824,9269 8975,4273 9126,2188 9277,2974 9428,6588 9580,2991 9732,9146 9884,4014 10036,8560 10189,5748 10342,5543 10495,7913 10649,2824 4905,1940 5045,6625 5186,6095 5328,9238 5469,8947 5612,2122 5754,9663 5898,1479 6041,7478 6185,7577 6330,1692 6474,9744 6620,1657 6765,7358 6911,6777 7057,9846 7204,6499 7351,6674 7499,0309 7646,7345 7794,7727 7943,1397 8091,8304 8240,8396 8390,1623 8539,7937 8689,7290 8839,9637 8990,4934 9141,3139 9292,4208 9443,8103 9595,4783 9747,4211 9899,6348 10052,1160 10204,8610 10357,8665 10511,1290 10664,6453 4919,2190 5059,7358 5200,7300 5342,1905 5484,1066 5626,4681 5769,2654 5912,4892 6056,1305 6200,1809 6344,6321 6489,4762 6634,7058 6780,3134 6926,2921 7072,6351 7219,3359 7366,3883 7513,7860 7661,5234 7809,5947 7957,9943 8106,7171 8255,7579 8404,1117 8554,7736 8704,7391 8855,0035 9005,5625 9156,4117 9307,5471 9458,9646 9610,6603 9762,6303 9914,8710 10067,3787 10220,1499 10373,1812 10526,4693 10680,0108 327
Таблица 85 (продолжение 2). Значения 2/г In n для п от 800 до 1199 800 810 820 830 840 850 860 870 880 890 900 910 920 930 940 950 960 970 980 990 1000 1010 1020 1030 1040 1050 1060 1070 1080 1090 1100 1110 1120 ИЗО 1140 1150 1160 1170 1180 1190 10695,3788 10849,1955 11003,2591 11157,5667 11312,1152 11466,9018 11621,9237 11777,1782 11932,6626 12088,3742 12244,3106 12400,4692 12556,8476 12713,4433 12870,2542 13027,2778 13184,5119 13341,9544 13499,6030 13657,4558 13815,5106 13973,7653 14132,2181 14290,8670 14449,7101 14608,7454 14767,9713 14927,3858 15086,9878 15246,7739 15406,7440 15566,8960 15727,2281 15887,7388 16048,4265 16209,2896 16370,3267 16531,5361 16692,9165 16854,4664 10710,7492 10864,5908 11018,6789 11173,0107 11327,5832 11482,3934 11637,4387 11792,7163 11948,2235 12103,9578 12259,9165 12416,0972 12572,4974 12729,1148 12885,9470 13042,9917 13200,2468 13357,7100 13515,3792 13673,2522 13831,3271 13989,6017 14148,0742 14306,7426 14465,6050 14624,6595 14783,9043 14943,3376 15102,9576 15262,7626 15422,7510 15582,9211 15743,2711 15903,7996 16064,5049 16225,3855 16386,4399 16547,6665 16709,0639 16470,6307 10726,1222 10879,9886 11034,1012 11188,4572 11343,0535 11497,8874 11652,9561 11808,2568 11963,7868 12119,5436 12275,5246 12431,7273 12588,1494 12744,7884 12901,6419 13058,7078 13215,9838 13373,4677 13531,1573 13689,0506 13847,1456 14005,4401 14163,9322 14322,6201 14481,5018 14640,5754 14799,8391 14959,2912 15118,9298 15278,7533 15438,7599 15598,9480 15759,3160 15919,8622 16080,5851 16241,4832 16402,5548 16563,7986 16725,2130 16886,7966 10741,4977 10895,3888 11049,5259 11203,9060 11358,5263 11513,3838 11668,4758 11823,7995 11979,3523 12135,1316 12291,1349 12447,3597 12603,8036 12760,4641 12917,3390 13074,4260 13231,7229 13389,2274 13546,9375 13704,8511 13862,9661 14021,2805 14179,7923 14338,4996 14497,4006 14656,4933 14815,7759 14975,2467 15134,9039 15294,7457 15454,7706 15614,9767 15775,3626 15935,9266 16096,6671 16257,5825 16418,6715 16579,9324 16741,3638 16902,9642 10750,8756 10910,7915 11064,9530 11219,3573 11374,0014 11528,8825 11683,9977 11839,3445 11994,9201 12150,7219 12306,7475 12462,9943 12619,4599 12776,1420 12933,0382 13090,1463 13247,4640 13404,9892 13562,7198 13720,6536 13878,7886 14037,1228 14195,6543 14354,3810 14513,3012 14672,4130 14831,7145 14991,2040 15150,8798 15310,7400 15470,7831 15631,0073 15791,4110 15951,9927 16112,7508 16273,6836 16434,7898 16596,0679 16757,5162 16919,1335 328
10772,2561 10926,1966 11080,3826 11234,8110 11389,4789 11544,3835 11699,5220 11854,8918 12010,4901 12166,3145 12322,3622 12478,6310 12635,1184 12791,8220 12948,7395 13105,8687 13263,2072 13420,7531 13578,5040 13736,4580 13894,6131 14052,9671 14211,6182 14370,2644 14529,2038 14688,3347 14847,6551 15007,1633 15166,8575 15325,7361 15486,7974 15647,0396 15807,4612 15968,0606 16128,8362 16289,7865 16450,9099 16612,2051 16773,5704 16935,3045 10787,6390 10941,6042 11095,8146 11250,2670 11404,9588 11339,8869 11715,0487 11870,4414 12026,0624 12181,9092 12337,9792 12494,2700 12650,7791 12807,5042 12964,4429 13121,5931 13278,9525 13436,5190 13594,2903 13752,2645 13910,4396 14068,8334 14227,3840 14386,1497 14545,1083 14704,2582 14863,5975 15023,1244 15182,8371 15342,7340 15502,8135 15663,0737 15823,5132 15984,1303 16144,9234 16305,8911 16467,0317 16628,3439 16789,8262 16951,4771 10803,0244 10957,0143 11111,2490 11265,7255 11420,4410 11575,3926 11730,5776 11885,9933 12041,6370 12197,5062 12353,5984 12509,9111 12666,4419 12823,1885 12980,1485 13137,3197 13294,6999 13452,2869 13610,0787 13768,0730 13926,2680 14084,6616 14243,2519 14402,0369 14561,0147 14720,1836 14879,5417 15039,0873 15198,8186 15358,7338 15518,8314 15679,1096 15839,5669 16000,2017 16161,0123 16321,9974 16483,1553 16644,4845 16805,9838 16967,6515 10818,4123 10972,4268 11126,6858 11281,1863 11435,9256 11590,9006 11746,1088 11901,5474 12057,2138 12213,1054 12369,2198 12525,5544 12682,1069 12838,8749 12995,8561 13153,0483 13310,4493 13468,0569 13625,8690 13783,8835 13942,0985 14100,5118 14259,1216 14417,9260 14576,9231 14736,1110 14895,4897 15055,0521 15214,8018 15374,7354 15534,8511 15695,1473 15855,6224 16016,2749 16177,1030 16338,1054 16499,2805 16660,6268 16822,1430 16983,8274 10833,8026 10987,8417 11142,1250 11296,6496 11451,4125 11606,4110 11761,6424 11917,1039 12072,7929 12228,7069 12384,8434 12541,1999 12697,7740 12854,5635 13011,5659 13168,7791 13326,2008 13483,8290 13641,6614 13799,6960 13957,9309 14116,3640 14274,9934 14433,8171 14592,8333 14752,0402 14911,4359 15071,0187 15230,7869 15390,7388 15550,8726 15711,1868 15871,6797 16032,3498 16193,1954 16354,2152 16515,4075 16676,7708 16838,3039 17000,0051 329
Таблица 85 (продолжение 3). Значения 2/г In n для п от 1200 до 1599 17016,1844 17178,0690 17340,1190 17502,3328 17664,7093 17827,2471 17989,9448 18152,8013 18315,8153 18478,9855 18642,3108 18805,7899 18969,4217 19133,2050 19297,1387 19461,2217 19625,4527 19789,8309 19954,3550 20119,0241 20283,8370 20448,7929 20613,8905 20779,1290 20944,5074 21110,0246 21275,6798 21441,4720 21607,4002 21773,4636 21939,6612 22105,9921 22272,4555 22439,0504 22605,7761 22772,6317 22939,6162 23106,7290 23273,9692 23441,3360 17032,3654 17194,2666 17356,3330 17518,5632 17680,9559 17843,5097 18006,2234 18169,0957 18332,1253 18495,3111 18659,6518 18822,1463 18985,7933 19149,5916 19313,5403 19477,6381 19641,8840 19806,2768 19970,8154 20135,4989 20300,3262 20465,2963 20630,4080 20795,6606 20961,0529 21126,5840 21292,2529 21458,0587 21624,0005 21790,0773 21956,2883 22122,6325 22289,1091 22455,7171 22622,4558 22789,3243 22956,3218 23123,4473 23290,7002 23458,0796 17048,5480 17210,4659 17372,5487 17534,7952 17697,2040 17859,7739 18022,5035 18185,3916 18348,4369 18511,6382 18674,9944 18838,5041 19002,1663 19165,9798 19329,9434 19494,0561 19658,3166 19822,7241 19987,2773 20151,9752 20316,8168 20481,8011 20646,9270 20812,1935 20977,5997 21143,1447 21308,8273 21474,6468 21640,6021 21806,6924 21972,9167 22139,2742 22305,7640 22472,3851 22639,1368 22806,0183 22973,0286 23140,1669 23307,4324 23474,8244 17064,7324 17226,6667 17388,7660 17551,0288 17713,4538 17876,0397 18038,7852 18201,6890 18364,7500 18527,9669 18691,3384 18854,8635 19018,5409 19182,6394 19346,3480 19510,4755 19674,7508 19839,1729 20003,7406 20168,4529 20333,3088 20498,3073 20663,4473 20828,7279 20994,1480 21159,7067 21325,4031 21491,2362 21657,2051 21823,3088 21989,5465 22155 9172 22322,4202 22489,0544 22655,8192 22822,7135 22989,7366 23156,8877 23324,1660 23491,5706 17080,9183 17242,8693 17404,9849 17567,2640 17729,7051 17892,3071 18055,0685 18217,9881 18381,0647 18544,2971 18707,6841 18881,2244 19034,9169 19198,7605 19362,7540 19526,8964 19691,1864 19855,6231 20020,2053 20184,9321 20349,8023 20514,8149 20679,9691 20845,2636 21010,6977 21175,2702 21341,9803 21507,8270 21673,8094 21839,9265 22006,1776 22172,5616 22339,0777 22505,7251 22672,5028 22839,4100 23006,4460 23173,6099 23340,9008 23508,3179 330
17097,1060 17259,0734 17421,2055 17583,5008 17745,9581 17908,5760 18071,3533 18234,2887 18397,3810 18657,6289 18724,0312 18877,5868 19051,2945 19215,1531 19379,1616 19543,3187 19707,6235 19872,0748 20036,6715 20201,4126 20366,2972 20531,3240 20696,4922 20861,8008 21027,2487 21192,8350 21358,5588 21524,4191 21690,4151 21856,5456 22022,8100 22189,2073 22355,7366 22522,3970 22689,1877 22856,1079 23023,1567 23190,3332 23357,6368 23525,0666 17113,2953 17275,2793 17437,4277 17599,7393 17762,2127 17924,8466 18087,6398 19250,5909 18413,6988 18576,9622 18740,3799 18903,9508 19067,6736 19231,5473 19395,5706 19559,7426 19724,0621 19888,5279 20053,1391 20217,8947 20382,7935 20547,8345 20713,0168 20878,3393 21043,8011 21209,4012 21375,1387 21541,0126 21707,0221 21873,1661 22039,4438 22205,8543 22372,3967 22539,0702 22705,8739 22872,8070 23039,8686 23207,0579 23374.3741 23541,8164 17129,4862 17291,4867 17453 6516 17615,9794 17778,4689 17941,1188 18103,9278 18266,8947 18430,0181 18593,2970 18756,7301 18920,3162 19084,0542 19247,9429 19411,9812 19576,1679 19740,5021 19904,9825 20069,6082 20234,3781 20399,2912 20564,3464 20729,5427 20894,8792 21060,3549 21225,9688 21391,7200 21557,6075 21723,6304 21889,7878 22056,0789 22222,5026 22389,0582 22555,7447 22722,5614 22889,5074 23056,5818 23223,7838 23391,1127 23558,5676 17145,6788 17307,6958 17469,8770 17632,2211 17794,7267 17957,3925 18120,2174 18283,2000 18446,3391 18609,5334 18773,0819 18936,6832 19100,4363 19264,3400 19428,3932 19592,5947 19756,9435 19921,4386 20086,0787 20250,8630 20415,7903 20580,8597 20746,0700 20911,4206 21076,9101 21242,5378 21408,3026 21574,2037 21740,2401 21906,4109 22072,7153 22239,1522 22405,7209 22572,4205 22739,2502 22906,2090 23073,2962 23240,5110 23407,8525 23575,3200 17161,8731 17323,9066 17486,1041 17648,4644 17810,9868 17973,6679 18136,5086 18299,5069 18462,6615 18625,9713 18789,4351 18953,0517 19116,8199 19280,7386 19444,8067 19609,0230 19773,3865 19937,8961 20102,5507 20267,3493 20432,2909 20597,3744 20762,5988 20927,9633 21093,4667 21259,1081 21424,8866 21590,8013 21756,8512 21923,0354 22089,3630 22255,8032 22422,3850 22589,0977 22755,9403 22922,9120 23090,0120 23257,2395 23424,5936 23592,0736 331
Таблица 85 (продолжение 4). Значения 2п In n для п от 1600 до 2009 1600 1610 1620 1630 1640 1650 1660 1670 1680 1690 1700 1710 1720 1730 1740 1750 1760 1770 1780 1790 1800 1810 1820 1830 1840 1850 1860 1870 1880 1890 1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000 23608,8285 23776,4461 23944,1878 24112,0531 24280,0410 24448,1509 24616,3820 24784,7335 24953,2049 25121,7953 25290,5040 25459,3304 25628,2737 25797,3333 25966,5086 26135,7987 26305,2032 26474,7213 26644,3524 26814,0958 26983,9510 27153,9173 27323,9941 27494,1808 27664,4767 27834,8814 28005,3942 28176,0145 28346,7417 28517,5754 28688,5148 28859,5596 29030,7090 29201,9626 29373,3198 29544,7801 29716,3430 29888,0080 30059,7744 30231,6419 30403,6098 23625,5846 23793,2147 23960,9688 24128,8463 24296,8465 24464,9685 24633,2117 24801,5753 24970,0586 25138,6608 25307,3814 25476,2195 25645,1745 25814,2457 25983,4324 26152,7340 26322,1499 26491,6793 26661,3217 26831,0763 27000,9426 27170,9200 27341,0078 27511,2054 27681,5123 27851,9278 28022,4514 28193,0824 28363,8203 28534,6646 28705,6146 28876,6698 29047,8297 29219,0936 29390,4612 29561,9318 29733,5049 29905,1800 30076,9566 30248,8342 30420,8121 23642,3420 23809,9845 23977,7510 24145,6409 24313,6532 24481,7874 24650,0427 23818,4183 24986,9135 25155,5276 25324,2599 25493,1097 25662,0764 25831,1592 26000,3574 26169,6705 26339,0977 26508,6385 26678,2921 26848,0579 27017,9354 27187,9238 27358,0226 27528,2312 27698,5490 27868,9753 28039,5096 28210,1514 28380,9000 28551,7548 28722,7154 28893,7811 29064,9514 29236,2258 29407,6037 29579,0845 29750,6679 29922,3531 30094,1398 30266,0274 30438,0154 23659,1007 23826,7556 23994,5345 24162,4366 24330,4612 24498,6075 24666,8748 24835,2624 25003,7695 25172,3955 25341,1396 25510,0011 25678,9794 25848,0738 26017,2836 26186,6081 26356,0467 26525,5988 26695,2636 26865,0407 27034,9292 27204,9288 27375,0386 27515,2581 27715,5867 27886,0239 28056,5690 28227,2214 28397,9807 28568,8461 28739,8172 28910,8934 29082,0742 29253,3589 29424,7471 29596,2383 29767,8318 29939,5273 30111,3241 30283,2217 30455,2197 23675,8606 23843,5279 24011,3191 24179,2335 24347,2703 24515,4288 24683,7082 24852,1077 25020,6268 • 25189,2646 25358,0205 25526,8937 25695,8837 25864,9896 26034,2109 26203,5468 26372,9968 26542,5602 26712,2363 26882,0245 27051,9242 27221,9348 27392,0556 27562,2861 27732,6256 27903,0736 28073,6294 28244,2926 28415,0625 28585,9385 28756,9201 28928,0068 29099,1980 29270,4931 29441Г8916 29613,3930 29784,9968 29956,7024 30128,5093 30300,4170 30472,4251 Источник: Woolf В. The log likelihood ratio test (the G-Test). Human Genetics, 21, 397—409, 1957, table 1, p. 400—404. 332
23692,6217 23860,3016 24028,1051 24196,0317 24364,0807 24532,2513 24700,5427 24868,9543 25037,4852 25206,1349 25374,9025 25543,7875 25712,7890 25881,9065 26051,1393 26220,4867 26389,9481 26559,5227 26729,2101 26899,0095 27068,9203 27238,9419 27409,0737 27579,3151 27749,6655 27920,1243 28090,6909 28261,3648 28432,1453 28603,0319 28774,0241 28945,1212 29116,3228 29287,6283 29459,0371 29630,5488 29802,1628 29973,8785 30145,6955 30317,6133 30489,6314 23709,3841 23877,0763 24044,8922 24212,8311 24380,8923 24549,0750 24717,3785 24885,8020 25054,3449 25223,0064 25391,7858 25560,6824 25729,6956 25898,8246 26068,0689 26237,4277 26406,9004 26576,4864 26746,1850 26915,9956 27085,9175 27255,9501 27426,0929 27596,3453 27766,7065 27937,1761 28107,7535 28278,4380 28449,2292 28620,1264 28791,1291 28962,2367 29133,4487 29304,7645 29476,1837 29647,7056 29819,3298 29991,0557 30162 8828 30334 ,'8106 30506,8386 23726,1477 23893,8523 24061,6806 24229,6318 24397,7051 24565,9000 24734,2155 24902,6509 25071,2057 25239,8790 25408,6702 25577,5785 25746,6033 25915,7439 26084,9997 26254,3699 26423,8540 26593,4512 26763,1610 26932,9827 27102,9158 27272,9595 27443,1133 27613,3765 27783,7486 27954,2290 28124,8171 28295,5124 28466,3141 28637,2219 28808,2351 28979,3532 29150,5756 29321,9018 29493,3312 29664,8634 29836,4978 30008 2338 30180,0711 30352,0089 30524,0469 23742,9125 23910,6296 24078,4702 24246,4336 24414,5192 24582,7261 24751,0536 24919,5011 25088,0677 25256,7528 25425,5558 25594,4757 25763,5121 25932,6643 26101,9315 26271,3132 26440,8086 26610,4171 26780,1382 26949,9711 27119,9152 27289,9699 27460,1347 27630,4088 27800,7918 27971,2830 28141,8818 28312,5878 28483,4002 28654,3185 28825,3422 28996,4707 29167,7036 29339,0401 29510,4799 29682,0223 29853,6668 30025,4130 30197,2603 30369,2082 30541,2562 23759,6787 23927,4081 24095,2610 24263,2367 24431,3344 24590,5534 24767,8930 24936,3524 25104,9309 25273,6278 25442,4425 25611,3741 25780,4222 25949,5859 26118,8646 26288,2576 26457,7644 26627,3842 26797,1164 26966,9605 27136,9157 27306,9814 27477,1572 27647,4422 27817,8361 27988,3380 28158,9476 28329,6642 28500,4872 28671,4161 28842,4504 29013,5893 29184,8326 29356,1794 29527,6295 29699,1821 29870,8369 30042,5932 30214,4506 30386,4085 30558,4665 Methods and tables for tests of geterogeneity in contingency tables. Ann. 333
5) G-статистика для не слишком слабо заполненной четырехклеточ- ной таблицы распределена как %2 при одной степени свободы; 6) если все ожидаемые частоты Е больше 30, то расчет проводится с наблюдаемыми частотами а, 6, с, d\ соответствующие ^-значения берут из табл. 85, их сумма равна Sv Пример Рассмотрим предыдущий пример (табл. 82). Таблица 84. Четырехклеточная таблица. Значения скорректированы по Йейтсу Лечение Обычное Новое Итого Умерло Выздоровело пациентов пациентов 15A4V2) 85(85Vt) 4D7*) 77G672) 19 162 Итого 100 81 181 Процедура расчета: из табл. 86 для 14Va [те значения, которые меньше, чем соответствующие ожидаемые значения, увеличиваются на х'г, те же, которые больше, уменьшаются на V2 (при слабо наполненных таблицах коррекция необходима, так как ОНескорр всегда значительно больше, чем Хнескорр)] получаем ^-значение, равное 77,5503. Затем для трех других чисел также определяются соответствующие ^-значения и вычисляется их сумма: 77,5503 760,6963 13,5367 663,6055 Для п = 181 из табл. 85 получаем: 5г= 1515,3888 52 = 1881,8559. S1 + 52 = 3397,2447. ^-значения для суммарных частот: 921,0340 711,9008 111,8887 1648,3812 S, = 3393,2047 Далее, G = 5Х + S2 — S3 = 4,04 > 2,71. 334
LO CN © 00 CO CN^^Nt^ lOCOCO©CO 0-*0lrt*05 С^СОЮ-<0 -*^ЮОО~-« t^- CM CO © '—• CMt^-C4COC7)C75COCT5l^©rf©OO'—'CD CO ^* ^^ f О СО C*^ ^™н СП C1^ 00 00 CO t4*1 О4! СТ4^ СО г 3 t^« CT*Q ^™* Оj LO ^^ CO CO CO СП LO "^ Ю OOCOO^t^t4- l4^ О СО t^- CO Oi CO Ю ^ Tt* rfCOOO-^lO *—* *""* CM CO ч* lO CO 00 Oi CO ~^ CN CO ^ CO l>» OO Oi —* СЦ CO ""^ CO t4^ 00 CO —н CM ""З* _н ^_н _« .j; ,_!< ^н ^н *-h ^-* CM CM CM CM CM CM CM CO CO CO CO '-iNrfO-• CO CO CO —' ~^ Tf rf CO —'CO "^t^00C7)C OOLO^f©»—< t^« t^- © O) "tf< CN lO t"-~ LO S- Tf t"^- O5 CO ' CO O5 O5 *-^ LO © © © Tl* CN © CO O> 00 —« 00 t>- 00 —« * СО©0H01^ C^- h-0O O> © »-< CO ¦* CO 00 O(Nl^N< •¦и 1—• CM CO Tf Ю CO t>- O> © -ч CN CO ^J« CDNOOOi'- «,4rf N w.- — —'•¦-' — _* ^н ^н ^ ~-н ^ ~-« ,-н t-h CM CM CM CM CM CM CM CO CO CO CO LO©<NCOCO COCM—<00CN LO©h-COCO © '«sf CO —* f- LO LO rf CO CM CM © CO —« LO CO t^ © Ю О> Ю t>- CO CD «—< © CO СП СО О5 O5 Oi Tf f^ CO O5 CD CO O5 00 LO Oi © CO *—< O^ I4** 00 O^ CO LO CO Oi CO t4** ^О *«н CD CTi I4** *"^ 0^ CO CO cp t44» LO LO C^^ ^t* t4^» t44* CO г' 1Д t4**" ©©CM^^CO LOOO-^fCMCO LO©COCOCO COlOOOCMt4-1^—105 00 00 OOOWlOOO »—< —• *—« —« '—< phphihphM CMCMCMCMCM CMCMCOCOCO ^^ O^ t^ 00 ^^^ O4 С7Э LO *^^ 00 СЛ t4^ CO CO LO LO 4|^t< CO 00 CO *^^ t*^ LO LO LO C^^ LO CO C^l C^^ ..,_,, LOOOCO'-*—* rf 00 ¦* CM y— —н CO CO © LO *-ч 00 CO LO LO Ю f- О -н Ю 5 t>~' CO LO LO LO CO t^~ 00 Ob CO CM ^J4 CO 00 © CM LO t4^» CO CM LO 00 «"¦* ^ I4*' CO ^i4 t4^ *—* CM CO ^ LO CO t4^ 00 Oi т~н C^l CO ^* LO t*"« 00 Oi CO CM CO Tt* lO t*4» 00 Oi ^^ CM CO ^4—« f-« —4 ~* ^ ^ ^ CM CM CM CM CM CM CM CM CO COCO CM©CO0000 LOCO^CO-^ ©LOt^-COCM 00 LO CO "^-и CO CM Tf 00 00 t*'» O> —* ^* ^^ 00 00 O5 CO t4^ O5 CO 05 CO CM LO CO 00 Is» t^» t4"^ t4* CO ^J4 ^~* LO 00 00 LO CO OO^LOCOt— lOh-CM©© CMh-CN©a> O^COt^CNOOLOCOCMCMCMCOLOOOCM *m"h 00 CO LO "^^ ''^ ''^ LO CO t4*4 00 Ob *~* CO ^3* CO C^^ ^^ CO CO 00 ^"^ ^^** t4** ^^ CO CO O) C^J CO —н CM CO ^LOCOt^-OO CT5©CMC0^' LO CO 00 O^ © ^^CO^LOt^ OOC75©CMCO ^и ~н *-н «-H —н —< -и —^ CM CM CM CM CM CM CM CM CO CO CO t4- CO © CN LO O500^^©Tf" •—« CO '—• 00 00 ©COC^t'4*'»—• COCftCMt^-CO —• © CM CM CO LOlOt^COt^ OO^COOOCO COlOCNLOCN ^OOLOCO^^ i—• © 00 Ю —• LOLOCOCMCO CO ?4*"* ^O ^t^ Г4^ l-O t4^ O^J СЛ ^У5 ^~< 1^5 ^m^ OQ t4^» t*4* 00 *^^ l-O ^^ CO CO ^^ ^Л O^ O^ C^ ^5 lO 00 *"^ I4** LO ^^* CO CO CO *^J* ^J^ LO t4**» OO ^^ ^^ CO l-O t41^ ^^ OQ l-O t4"* C^ CO l^D 00 ^"^ l-O 00 ^^ ^^t* **^ O^J CO ^^ l-O ^O t4^ 00 O^ ^^ ^J CO ^^ Ю ^-O 00 O} C^ i^^ CO ^t* l-O ^Q 00 ^^ C^ OQ CO ^н ^н ^ ^н ^н ^ —< ^ CM CM CM CM CM CM CN CNCO COCO CO CO CO LO CN Oi —* CO ^* 00 CO CO CO —* С4! ~н 00 CO 00 **!}* —* CT) СП CO CO tO ^* CO CO CM CTJCMCDCO© lOCM^OiOO "-1 O5 ^ LO 00 COh-C0CNCMCOCNCOC0CNO5COCMCr>CN 00 ^^ 00 lO 00 l-O t4^ ^"^ 00 00 *"r*3 ^^ ^^ c^ to l-O c.Q O^ ^^ l**1^ CO ^Э 00 ^0 ^O ^O t"** ^Л ^^^ LO Г*4* ^^* CO Ol (^^ Ol CO CO ^^ ^Q t4^ 00 ^^ OQ ^^ c^ 00 **^ CO ^O O^ *^^ ^^* t4^ ^^ CO ^O ^^ CO "^ i^^^^^^^^^C^Scs|C4OJ(N(NO1C0C0C0 tO OQ OQ CO 00 ^* 00 *"^ I4*» CO O^ l-O OQ ^* LO OQ "*& СЭ 00 ^Э t***» CO CO CU 00 I44» 00 ^Э ^* 00 00 ^J* ^^ 00 ^^ 00 O^ ^^ T™<^ CO OQ CO 00 ^^ ^*^ 00 t41^ 00 CO CO ^^ LO СЛ CO CO CO 00 CO C4 G5 CO ^f OI ^~< *••* ^*^ OQ OQ CO ^^ ^O l*4^ O^ *^ CO LO t4^ ^Э OQ LO t4^ ^? CO CO O^ C^} LO 00 O4^ ~* -Z!^h^ ^^ —* —hCN CM CM CM CM CM CM CNCO COCO tH © CO CN CO CT)COt^-CO© СП Ю CN 00 00 ^ CM ¦—• 00 © ^ CM CM LO © 00 ^^ "^h CO CO CO ^* CO СП C^ OQ *** CO 00 CO ^"^ l4^ Oi OO f^J t444 LO O*5 tO C^^ CO t4"^ t4^ C^ OO CO LO ^^ ^^* 00 ^^S-CN^CO OO^COOiOi t^CNt^t4^© COOiOiLOCN COCOOO^LO О^ЮО)^ CN —н O5 CO CN CncOlOCN4* OOCNCO^^LO CNCNlO©COCN00C000—^СОСМСПСОЮ ^н со —ГгчГоГ toco©t-co t——«coco^ *^смг^оосмоо*Фсм©© ©»-нсмю"схГ LOCO*-<© ©©—^ ^ CN COLOCOOO© CM "* CO 00 -и CO CO Oi CN LO 00 —* Th Г- © —н CN CO ^J* LO CO t4*1» 00 O5 CO ~^ CM ^Ф LO CO Is* 00 ^5 *~^ CM CO LO CO t** Oi CO "—* CO ^^^^_ ^н —н —< ^н CM CN CN CN CM CM CM CM CO CO CO ., COOOTfT^CO t^^CO^CO OSTft^-OO LO LO LOOiCO"^1 O> •—<(N O5N . ^н lO СП Oi —н O> 00 '~H 00 Is*" 00 CO CN CN 00 00 I4"*" CO CO CO tO 00 CM CD Is* t*» ^~н ' —<*--'^©CO ^©OOCN© ОСООЮ^н (NC<DO5lO00W'-«rf-HO ©О5С000СП COCO©CO LO CO Oi ^f '—* Oi C75OCN ЮО LOCNOit^t4^ t*-00O5CNLO ч^н C4^ CO Oi Oi Oi CO ^5 ^^ CN CO LO t^~ 00 CO CO tO Is-» CO CN LO t4^" CO CO CO СП CN CD Oi ~^CNCN CO^COI>>00 O5 © «—i CN CO LOCOt^OO© »—< CN CO Ю CO t^OOQi-HCN ,-н^н^^, ^-. ^-. ^н ^ CN CN CN CN CN CN CN CN CO CO CO -hCNCO4*1 LOCOt^OOCn © •—' CN CO -^ LOCO^OOOi О i—' CN CO "^f LOCOt^-00O> ^r^^^^ -h-s—i—.^^CNCNCNCNCNCNCNCNCNCN CM о o X CO 03 s vo CO H 335
Вулф [Woolf, 1957] определил ^-значения от п = 1 до п = 2009 (табл. 85) и от п = 1/2 до я = 299 V2 (табл. 86) (четырехклеточный критерий с поправкой на непрерывность), 4 в [Kullback, 1962] даны таблицы от п = 1 до п = 10 000. Обычно пользуются таблицами, составленными Вулфом; для п > 2009 он составил вспомогательную таблицу, которая позволяет без громоздких вычислений с точностью до трех десятичных знаков определять ^-значения до п ~ 20 000, с точностью до двух десятичных знаков — до п си 200000: я Таблица 87. Вспомогательная таблица для вычисления больших значений 2nln n р 2 3 4 5 6 7 8 9 10 11 13 17 19 20 40 50 100 2- In p 1,386294361 2,197224577 2,772588722 3,218875825 3,583518938 3,891820306 4,158883083 4,394449155 4,605170186 4,795790556 5,129898725 .5,666426699 4,888877971 5,991464547 7,377758908 7,824046011 9,210340372 делится на число/?,тогда число— = q входит в область табл. 85. Искомое значение от п, коротко — g от п, равное (п) = 2п-\п п = р • 2q • In q + + п • 2 In p = р • q (q) + 2 п • In p. Для уменьшения ошибок округления необходимо целое число р выбирать наименьшим из возможных. Табл. 87 дает для целочисленных р соответствующие значения 2 • In р. Пример Необходимо определить значение 2/г • In п для п = 10 000 с точностью до трех десятичных знаков. Выбираем р == 10 и получаем Источник: Тот же, table 5, р. 408. р 10 g(q)= 13815,5106 p. g (q)= 138155,106^ 21np= 4,605170187 n-2\np = 46051,70187 ^ g(n) ~ 184206,808 Таблицы Кульбака дают g (n) = 184206,807. Для случая когда п для данных значений р не делится без остатка, Вулф дал две другие вспомогательные таблицы, которые можно найти в его исходной работе. Т а б лица 88, Выборка или альтернатива 1 2 S Альтернатива 1 а С пг 2 b d 2 п2 п 336
4.6.2. БЫСТРЫЕ КРИТЕРИИ ДЛЯ ОПРЕДЕЛЕНИЯ ОТЛИЧИЯ СООТНОШЕНИЯ ЧАСТОТ ОТ ЗАДАННЫХ ЗНАЧЕНИЙ Положим, что имеются четырехклеточные таблицы типа табл. 88, в которых общие суммы пар — есть суммы по строкам (а + Ь) = пх и (с + d) — п2 или по столбцам (а + с) = п3 и (b + d) = я4. В таком случае проверка проводится приближенно: 1) по формуле 9(a + d)(&+cM, D.37) Y п если пх = п2 или п3 = п4; 2) по формуле Z _. (а—Ь) — (п3-—П4) пх если D.38) где меньшая сумма по строке должна быть не менее 10. Табл. 82— пример такого случая. После переобозначения получаем: Таблица 89 15 85 100 4 77 81 ' 19 162 181 и после подстановки табличных чисел в формулу - _ A5 —4] —A00—81I0/181 Z~~ 19 получаем z = 2,07 > 1,645, т. е. тот же самый результат как и на с. 319. Примечания. 1. Для сравнения двух четырехклеточных таблиц Ле Рой [Le Roy, 1962J предложил простой %2-критерий. Этот критерий проверяет нуль-гипотезу: аналогичные выборочные распределения двух четырехклеточных таблиц принадлежат к одной и той же генеральной совокупности (альтернативная гипотеза: неравенство генеральных совокупностей). Если мы исходим из материала I и материала II Материал I Материал II с, «1 с, d* «3 337
то равенство обеих таблиц проверяется на основании следующего выражения: All/12 число степеней свободы равно 3. Табл. 90 поясняет расчет суммы произведений q и Q по отношениям я, Ь, с, d (столбец 4) и разностям А, В, С, Д (столбец 5) [D.39) идентично F.1) и F.1а) с. 423 и 427 для k = 4]. Таблица 90 1 пх bt с\ dy 2 «. 3 01 + Й2 ьх 4- ь2 С^ _j_ с2 d1+d2 п1 + п2 4 «1/@1+ «•)=« Ь±1 {Ь-± -j- b2) =6 С±/{Ci -\- C2) = С dj^ + dj^d — 5 A=\—a В = 1—b С = 1—с D=\-d — 6 axa bxb cAc Я 7 CL2A b2B c2C d2D Q Следует заметить, что этот критерий можно применять, если ни одно из восьми чисел таблицы не меньше 3; если это условие не соблюдается, то решение нужно рассматривать как приближенное. 2. Простой способ составления четырехклеточных таблиц на основании многочисленных данных был предложен Тэрстоуном [Thurstone, 1948]. 3. Если частоты четырехклеточной таблицы можно расчленить путем привлечения других переменных, то следует рекомендовать описанный в [Bross, 1964] {см. также [Ury, 1966]) обобщенный критерий знаков. В цитируемой работе имеется иллюстративный пример. 4. Четырехклеточные таблицы с заданными общими суммами анализирует Рао [Rao, 1965]. 4.6.3. МОДИФИЦИРОВАННЫЙ КРИТЕРИИ ЗНАКОВ МАКНИМАРА Два опыта над одним и тем же индивидуумом: значимость изменения соотношения частот двух зависимых распределений альтернативных данных. Если выборка дважды (например, за определенный промежуток времени или при изменившихся условиях) исследуется на определенный альтернативный признак, то мы обычно цмеем дело не с независимыми, а с зависимыми выборками. Каждый элемент выборки дает пару упорядоченных наблюдаемых значений. Соотношение частот обеих альтернатив более или менее изменяется от первого к второму опыту. Интенсивность этого изменения проверяется с помощью критерия знаков, известного как %2-кРитеРий Макнимара [Me Nemar, 1947]. Точнее, он дает информацию о том, сколько^индивидуумов переходят в другую категорию при изменении опыта. Мы имеем четырехклеточную таблицу с одним входом для первого опыта и со вторым — для второго опыта. 338
Нуль-гипотеза: частоты в генеральной совокупности не отличаются в обоих опытах, т. е. частоты Ъ и с обнаруживают только случайные выборочные колебания. Так как эти две частоты представляют собой единственные возможные частоты, которые изменяются при переходе от опыта I к опыту II, причем Ь изменяется от + к — , а с от — к + , то Макнимар смог показать, что изменения такого рода (если (Ь + с)/2 > 4) могут проверяться на основании статистики Таблица I опыт 91 -^ + — II опыт ¦^-- + а с - Ь d (см. [Bennett, Underwood, 1970]), а также [Gart, 1969] и [Maxwell, 1970], а если (Ь + с) < 30, то с поправкой на непрерывность — с по- мощью статистики D4Оа) при одной степени свободы. Итак, сравниваются частоты Ь и с и проверяется, имеется ли отчетливое отличие их соотношения от 1 : 1. При справедливой нуль- гипотезе для обеих наблюдаемых частот ожидаемая частота равна (Ь + с)/2. Чем больше отличаются b не от этого ожидаемого значения, тем меньше оснований принимать нуль-гипотезу. Если направление ожидаемого изменения предполагается на основании предыдущих опытов, то может применяться односторонний критерий. Этот критерий значительно мощнее, чем обычный четырехклеточный %2-критерий. Очевидна связь между критерием Макнимара и частным методом, описанным в разд. 4.5.5. Пример На выборке из 40 пациентов сравнивается лечебный препарат с пустым препаратом (наполнителем). Пациенты по желанию начинают прибегать к помощи того или другого препарата. Между двумя фазами лечения предусмотрена достаточно долгая пауза. На основании высказываний пациентов доктор определяет действие как «слабое» или «сильное». Мы проверяем нуль-гипотезу (одинаковое действие обоих препаратов) на 5%-ном уровне при одностороннем критерии (препарат эффективнее, чем наполнитель). С помощью сумм четырехклеточной схемы получаем упорядоченную таблицу (табл. 92). Это значение соответствует, согласно табл. 83, при одностороннем критерии вероятности Р ~ 0,0165. 339
Таблица Действие препарата 92 сильное слабое Действие пустого препарата (наполнителя) сильное 8 5 слабое 16 11 Рассмотрим этот пример несколько подробнее: в табл. 92 11 пациентов слабо реагировали на оба препарата, а 8 пациентов определили действие обоих препаратов как сильное; они ничего не говорят о различии препаратов. Значительную информацию можно почерпнуть из рассмотрения значений b я с. Слабое действие наполнителя и сильное — препарата: 16 пациентов Слабое действие препарата и сильное — наполнителя: 5 » Итого 21 пациент Если между препаратами действительно нет различия, то мы должны ожидать соотношения частот Ь и с, равного 1:1. Отклонения от этого соотношения могут проверяться с помощью биномиального распределения. При одностороннем критерии получаем: или с помощью аппроксимации нормальным распределением: S= 45+0,5-21.0.5 1 = 2,182, т. е. РД*<5)<0,015. / -0,5-0,5 Критерий знаков, известный в физиологии как критерий Мак- нимара, основан на знаках разностей парных наблюдений. Он часто используется в форме рассмотренного выше критерия. Подсчитывает- ся число плюсов и число минусов. Нуль-гипотеза: оба знака имеют одинаковую вероятность. Она проверяется с помощью %2-критерия с поправкой на непрерывность:  __ (I Я плюс — Кминус I ~ 1 J Ядлюс + rt минус +1 D.406) В этом случае нуль-гипотеза: 112 пплюс + лминус Яплюс + Ямину с Альтернативная гипотеза отрицает это высказывание. Итак, речь идет о проверке на 112. Так как xf; оТсГб = 3,84, для получения 340
значимой на 5% -ном уровне разницы нужно, чтобы 0 минусов противостояло 5 плюсов, или 1 минусу — 8 плюсов (или наоборот). Если разницу нужно установить еще надежнее, например на 1 %-ном уровне при %!; о,о1 = 6,63, то частоты должны соотноситься как 0 к 9 или 1 к 11. Обобщением этого критерия для многих независимых выборок альтернативных данных является Q-критерий Кокрена [Cochran, 1950] (см. [Seeger, 1966], [Bennet, 1967], [Marascuilo, McSweeney, 1967], {Seeger, Gabrielsson, 1968], а также [Tate, Brown, 1970]). 4.6.4. СВОЙСТВА АДДИТИВНОСТИ у? Если повторяются эксперименты, проводимые (например, за определенный промежуток времени или при изменившихся условиях) на неоднородном материале, который не может быть проанализирован совокупно, то можно составить последовательные %2-значения х?> %h %s, ..., с Vj, v2, v3... степенями свободы. Тогда результат всех опытов может рассматриваться как эквивалентный %2-значению, выражаемому как^с! + %1 + %з + ... с v± + v2 + v3 + ... степенями свободы. При композиции %2-значений из четырехклёточных таблиц не следует использовать поправку Йейтса, так как это приведет к перекоррекции. Пример При проверке нуль-гипотезы (а = 0,05) был поставлен четыре раза эксперимент, скажем, на различных местах и различном материале. Пусть соответствующие %2-значения при одной степени свободы равны 2,30; 1,94; 3,60; 2,92. Нуль-гипотеза может быть и не отклонена. На основании свойств аддитивности %2 получаем %2 = 2,30 + 1,94 + + 3,60 + 2,92 = 10,76 при 1 + 1 + 1 + 1=4 степенях свободы. Так как xo,os для v = 4 равна 9,488, то для всех четырех экспери* ментов нуль-гипотеза на 5%-ном уровне отклоняется. Примечание. Комбинация сравниваемых результатов. Иногда при определенных обстоятельствах имеется несколько испытаний, для которых применяются различные статистические критерии (например, ^/-критерий и ^-критерий). Если желательно эти сравниваемые статистические высказывания объединить, то можно использовать следующий приближенный метод. 1. Значения Р могут комбинироваться с помощью формирования гармонического среднего: например, для п = 2, Рг = 0,06, Р = 0,8 получаем Р«л/2 РГХ =2/({1/0,06}+{1/0,08}) = 0,069. 2. х2-значения могут комбинироваться путем перемножения соответствующих вероятностей. Например, Рг — 0,06, Р2 = 0,08, т. е. Р = Рх • Р2 = = 0,06-0,08 = 0,0048-i 0,005. Подробнее см. [Good, 1958] и [Kincaid, 1962]. 341
4.6.5. КОМБИНАЦИЯ ТАБЛИЦ 2X2 Если имеется несколько четырехклеточных таблиц, которые не могут рассматриваться как повторения, поскольку от таблицы к таблице условия изменяются, Кокрен [Cochran, 1954] рекомендует два следующих метода получения достаточно точных решений (см. также [Horbach, 1967]. Случай /. Объемы выборок nk для i четырехклеточных таблиц (k = 1, ... О отличаются друг от друга не очень сильно (максимум в два раза); пропорции а/(а + Ь) и с/(с + d) (табл. 81) лежат для всех таблиц в пределах 20—80%. Тогда значимость высказывания проверяется на основании i комбинированных четырехклеточных таблиц с помощью нормально распределенной статистики г = -Щг- или г = S^_6 ¦ D.41а, б) yi yi Проверка состоит в следующем: 1) из значений %2 или G, определенных для четырехклеточных таблиц без поправки Йейтса, извлечь квадратный корень; 2) знаки этих значений определяются знаками разностей 3) образовать суммы значений % или V G (обратить внимание на знаки!); 4) из числа таблиц, участвующих в комбинации, извлечь квадратный корень; 5) образовать отношение z по приведенной выше формуле; 6) проверить значимость z с помощью таблиц стандартного нормального распределения (табл. 14 или табл. 43). Пример не нужен. Случай II. Относительно объемов выборок nh для i четырехклеточных таблиц и пропорций а/(а + Ь) и с/(с + d) не делается никаких предположений. Здесь проверяется значимость высказывания с помощью нормально распределенной статистики (i— D.42) где Wt — вес i-й выборки с частотами аи bu ci9 dt (табл. 81), определяемый как где ntl = at + bt\ ni2 = ct + dt\ nt == ntl + ni2; pi — среднее соотношение, равное ai ~\~ ci 342
Таблица 93. Объемы выборок изменяются в пределах 33—60, однако процент умерших — от 3 до 46%, поэтому 4 таблицы комбинируются по второму способу. Симптомы нет слабые умеренные сильные Пол донора мужск. женск. Итого мужск. женск. Итого мужск. женск. Итого мужск. женск. Число умерших 2 0 2 2 0 2 6 0 6 17 0 Итого 1 17 выживших 21 10 31 40 18 58 33 10 43 16 4 20 Итого 23 = /in Ю = п12 33 = nt 42 = п21 18 = /222 60 = л2 39 = «31 10 = /гз2 49 = л3 33 = /г4г 4 = п42 37 = л4 Число умерших в процентах 8,7 = Ри 0,0 = р12 6,1 =Pi 4,8 = p2i 0,0 = р22 3,3 = р2 15,4 = рз1 0,0 = р32 12,2 = р3 51,5 = p4i 0,0 = р42 45,9 = р4 и Dt — разность между пропорциями: Для иллюстрации приведем пример, рассмотренный у Кокрена. Пример Причиной эритробластоза новорожденных является несовместимость /-/^-отрицательной материнской и /^-положительной крови эмбриона, что наряду с другим приводит к распадению эмбриональных эритроцитов; процесс, который после рождения останавливается заменой крови ребенка гЛ-отрицательной кровью донора. На 179 новорожденных в одной из клиник г. Бостона наблюдалось, что кровь доноров-женщин лучше совместима с кровью детей, чем кровь доноров-мужчин [Allen, Diamond, Watrous. The New EngL J. Med. 241, 1949]. Необходимо было проверить, существует ли действительно зависимость между полом донора и выживанием или смертью ребенка. Все 179 случаев из-за различной симптоматики не могли рассматриваться как единый статистический материал; по тяжести симптомов все случаи были разделены на 4 относительно однородные группы. Результаты объединены в табл. 93. На основании вспомогательной табл. 94 при pt в процентах и Я =100 1/25537,2 343
Таблица Симптомы Нет Слабые Умеренные Сильные 94 D 8,7-0, 4,8—0, 15,4—0 51,5-0, i 0=8,7 0=4,8 0=15,4 0=51,5 Р 6 3 12 45 * ,1 ,3 ,2 ,9 573 319 1071 2483 w .= л/1*л/2 7,0 12,6 8,0 3,6 wiDi 60,90 60,48 123,20 185,40 429,98 4011,0 4019,4 8568,0 8938,8 25537,2 При двустороннем критерии это значение?соответствует вероятности ошибки, равной 0,0072. Отсюда мы можем заключить, что доноры- мужчины при зародышевом эритробластозе менее пригодны, чем доноры-женщины, — тенденция, проявляющаяся прежде всего при сильно выраженных симптомах. Следует заметить, что этот результат другими авторами не мог быть подтвержден, пол донора не оказывает влияния на исход зародышевого эритробластоза! Если мы возвратимся к исходной таблице, то увидим относительно высокую часть доноров-мужчин (> 76%) при повышенной тяжести симптомов, благодаря чему доноры-женщины имели более благоприятные условия. Несмотря на это, вывод следует признать серьезным. 4.6.6. КОЭФФИЦИЕНТЫ СОПРЯЖЕННОСТИ ПИРСОНА Четырехклеточная таблица представляет собой таблицу сопряжения, потому что оба ее входа содержат альтернативные признаки. При сравнении частот один вход имеет альтернативный признак, а другой — альтернативные выборки. %2-критерий и G-критерий могут показать наличие взаимозависимости, но ничего не говорят о ее степени. Мерой степени взаимозависимости, когда имеется надежная зависимость, сопряжение между двумя альтернативными признаками, служит коэффициент сопряженности Пирсона. Он получается для четырех- и многоклеточных таблиц на основании значения %2 по формуле D.43) Максимальное значение коэффициента сопряженности для четы- рехклеточных таблиц равно 0,7071 и получается при полном сопряжении, когда поля b и с пустые. Квадратная многоклеточная таблица с незаполненными диагональными полями от «левого нижнего» до «правого верхнего» имеет 344
максимальный коэффициент сопряженности, определяемый выражением где г — число строк (столбцов) для четырехклеточной таблицы, равное 2, т. е. D.44) , равD.45) В разд. 6.2.2. приводятся дополнительные соображения. Примечание Определение точного значения коэффициентов корреляции, разработанных Пирсоном (см. гл. 5) для четырехклеточных таблиц, чрезвычайно громоздко; простой и достаточно точный способ оценки четырехклеточной корреляции с помощью двух диаграмм предложил Клемм [Klemm, 1964]. #4.6.7. ТОЧНЫЙ КРИТЕРИЙ ФИШЕРА ДЛЯ СРАВНЕНИЯ ВЕРОЯТНОСТЕЙ, ЛЕЖАЩИХ В ОСНОВЕ ДВУХ БИНОМИАЛЬНЫХ РАСПРЕДЕЛЕНИЙ (ПРИ МАЛЫХ ОБЪЕМАХ ВЫБОРОК) При слабо заполненных четырехклеточных таблицах (см. с. 319 — 320) исходят из поля с наименьшей частотой и записывают при постоянных суммах по строкам и столбцам все четырехклеточные таблицы, в которых соответствующее поле заполнено еще слабее. В совокупности всех этих таблиц поля с наблюдаемой или еще меньшей частотой имеют вероятность Р. Иначе говоря, если общие суммы таблицы принять заданными и определить вероятность того, что имеет место наблюдаемое заполнение таблицы или еще менее вероятное чисто случайное заполнение,, то эта вероятность Р равна сумме членов гипергеометрического распределения р = (a + c)\ л! Zi at\ bt\ ct\ dt\ Индекс i означает, что для каждой таблицы рассчитывается выражение, стоящее под знаком суммы, и затем эти выражения суммируются. Подобным образом или с помощью рекуррентного соотношения получены таблицы значимости (например, [Dokumenta Geigy, 1968]). Особенно подробные таблицы до п = 100 даны [Finney, Latscha, Ben- net, Hsu, 1963] с дополнением [Bennet, Horst, 1966]. Вероятность может при этом непосредственно считываться с таблицы. К сожалению, отсутствуют таблицы для объемов 31 ^п^ 100 на 5%-ных и 1%-ных уровнях при двустороннем критерии. Пример Из исходной табл. 95 мы получили две таблицы с более крайними распределениями. Вероятность того, что в основной таблице будет данное распределение, равна 10I-14!.12!.12! 1 Р = 24! 2!-8!.10!.4! 345
Таблица 95 2 8 10 4 12 12 10 14 24 1 9 11 3 12 12 10 14 24 0 10 12 2 12 12 10 14 24 Общая вероятность для наблюдаемого и двух сформированных распределений равна 10!-14!-12!-12! /1.1. 1 р = 24! 2!-8!-10!-4! П-ЭМП-З! 01 -101 -12!-12! ; )¦ Р = 0,018 (односторонний критерий, табл. 32, с. 157). Для симметричного гипергеометрического распределения при двустороннем критерии вероятность удваивается; в нашем случае Р = 0,036. Вспомогательные приемы для практики 1. Рекуррентная формула Быстрее расчеты производятся с помощью рекуррентной формулы [Feldman, KHnger, 1963] Если вышеприведенные таблицы обозначить через 1, 2, 3, то для основной табл. 95а получаем: для табл. 956: и для табл. 95в: 24!.2!-8!-10!-4! 2-4 = 0,016659; 9-11 3 1012 Р1=О,О8О8.0,016659-0,001346 = 0,02500,001346 = 0,000034. Итого: Р = Рг + Р2 + Р3 = 0,0167 + 0,0013 + 0,0000 = 0,018. 2. Таблицы Таблицы Финни (Finney) для одностороннего критерия опираются на следующую схему: Таблица 96 Таблица 97 а Л—а b B—b г N—r А В N 10 4 2 8 12 12 14 10 24 346
где Л >В иа>6 или (А — А) > (В — Ь). В последнем случае обозначают А — а через а\ В — Ъ через b, a остаточные два поля таблицы называют разностями. Наш пример после требуемого переобозначения четырех частот на с. 68 таблицы для вероятности ошибки 5% при Р = 0,018 дает точное значение вероятности того, что 6^2. Большую помощь могут принести упомянутые в разд. 1.6.3 таблицы гипергеометрического распределения Либермана и Оуэна (Lieberman, Owen). 3. Биномиальные коэффициенты Задачи такого рода до п = 20 легко решаются с помощью табл. 31 (с. 156): Р -= \-*—V ю j I 1 \ и / V о Д 12 ) = 0ДI8(Lж Биномиальные коэффициенты для больших значений п B0 ^ B4\ 12j = 2704156, достаточно точно определяются по табл. 32 (с. 157). Быстрый критерий предложен в [Ott, Free, 1969]. Особенно полезные таблицы и номограммы имеются также в [Patnaik, 1948] и [Bennett, Hsu, 1960]. 4.7. ПРОВЕРКА СЛУЧАЙНОСТИ ПОСЛЕДОВАТЕЛЬНОСТИ АЛЬТЕРНАТИВНЫХ ДАННЫХ ИЛИ ИЗМЕРЕНИЙ 4.7.1. РАЗБРОС ПОСЛЕДОВАТЕЛЬНЫХ РАЗНОСТЕЙ Простой критерий на тренд [Neumann, 1941. (см. также [Moore, 1955]) на основе вариации последовательных по времени выборочных значений хъ х2, ..., **, ..., хп% которые принадлежат к нормально рас- пределенной генеральной совокупности, базируется на обычном образом определенных дисперсии и среднем квадрате (п — 1) последовательных значений разностей, разбросе последовательных разностей (средний квадрат последовательных разностей А2): Д2 = [(*,_ х2Г + (*« - *зJ + (*з - х,J +... + (xt + •¦. + (*n-i-*„)"]/(л-1), D.48) A^Sta —*l+1)V(/i-l). Если последовательные значения независимы, то справедливо А2 ~ 2 s2 или A2/s2 ~ 2. Если имеется тренд, то А2 < 2 s2, так как соседние значения ближе друг к другу, чем отдаленные, т. е. A2/s2 < 2. Нуль-гипотезе: последовательные значения независимы, противостоит альтернативная гипотеза: имеется тренд. Эта гипотеза принимается, если отношение 2 (xt —lcJ D.49) 347
ниже или достигает критических границ из табл. 98. Пусть, например, дан ряд 2, 3, 5, 6, с 2 (xt — л:J = 10 и 2 (Xi - xi+1)* = B-3J + C-5J + E-6J = 6, т. е. A2/s2 = 6/10 = 0,60 < 0,626— и нуль-гипотеза на 1%-ном уровне отклоняется. Для больших объемов выборки можно использовать приближенные границы для нормального распределения, выражаемые формулами D50) где для уровней 5, 1 и 0,1 % критическое значение г соответственно равно 1,645, 2,326 и 3,090. Например, для п = 200 получаем 5%-ную границу D.50, 4.50а) 2 —2-1,645.]/ 22tzl -1,77, V B00-1). B00+1) 200+7 4.7.2. ИТЕРАЦИОННЫЙ КРИТЕРИЙ ДЛЯ ПРОВЕРКИ ГИПОТЕЗЫ О ТОМ, ЧТО ПОСЛЕДОВАТЕЛЬНОСТЬ АЛЬТЕРНАТИВНЫХ ДАННЫХ ИЛИ ИЗМЕРЕНИЙ ЯВЛЯЕТСЯ СЛУЧАЙНОЙ Итерационный критерий так же, как и оба следующих критерия (разд. 4.7.3 и 4.8.), не зависит от вида распределения. Он служит для проверки независимости, случайного расположения выборочных значений. Одна итерация (опыт) — последовательность идентичных символов, перед или за которыми следуют другие символы. Так, последователь- \Y/ W/ W/ 7 XV7 XY7 7 7 л ность (бросание монеты); ' .'—; ^; '3 ; -^ образует (г = 4) итерации (п = 8). Итерации получают не только из альтернативных данных, но и из измерений, которые группируются относительно своей медианы в группы выше и ниже среднего значения. Малое значением при заданном п указывает на гнездовой характер одинаковых наблюдений, большое г — на регулярное изменение. Нуль-гипотезе (Но): последовательность случайная, т. е. представляет собой случайную выборку, — при двустороннем критерии противостоит альтернативная гипотеза (На)'- выборка не случайная, т. е. выборочные значения не независимы друг от друга. При одностороннем критерии гипотезе Но противостоит гипотеза Нл\'- «имеется гнездовой эффект», или Наъ- «имеется регулярное изменение». Для проверки гипотезы используют критические границы гнияш = ги и гверх = га 348
Табл] 1 ц а 98. Критические границы для отношения квадрата вариации п 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 0,1% 0,5898 0,4161 0,3634 0,3695 0,4036 0,4420 0,4816 0,5197 0,5557 0,5898 0,6223 0,6532 0,6826 0,7104 0,7368 0,7617 0,7852 0,8073 0,8283 0,8481 0,8668 0,8846 0,9017 0,9182 0,9341 0,9496 0,9645 0,9789 0,9925 [ последовательных разностей 1% 0,6256 0,5379 0,5615 0,6140 0,6628 0,7088 0,7518 0г7915 0,8280 0,8618 0,8931 0,9221 0,9491 0,9743 0,9979 1,0199 1,0406 1,0601 1,0785 1,0958 1,1122 1,1278 1,1426 1,1567 1,1702 1,1830 1,1951 1,2067 1,2177 5% 0,7805 0,8204 0,8902 0,9359 0.9825 1,0244 1,0623 1,0965 1,1276 1,1558 1,1816 1,2053 1,2272 1,2473 1,2660 1,2834 1,2996 ,3148 ,3290 ,3425 ,3552 ,3671 ,3785 ,3892 ,3994 ,4091 ,4183 1|4270 1,4354 п 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 оо к дисперсии 0,1% 1,0055 1,0180 1,0300 1,0416 1,0529 1,0639 1,0746 1,0850 1,0950 1,1048 1,1142 1,1233 1,1320 1,1404 1,1484 ,1561 ,1635 ,1705 ,1774 ,1843 ,1910 ,1976 ,2041 ,2104 ,2166 1,2227 1,2288 1,2349 2,0000 1% 2 1,2283 1,2386 1,2485 1,2581 1,2673 1,2763 1,2850 1,2934 1,3017 1,3096 1,3172 1,3246 1,3317 1,3387 1,3453 1,3515 ,3573 ,3629 ,3683 ,3738 ,3792 ,3846 ,3899 ,3949 ,3999 ,4048 ,4096 ,4144 ,0000 5% 1,4434 1,4511 1,4585 1,4656 1,4726 1,4793 1,4858 1,4921 1,4982 1,5041 1,5098 1,5154 1,5206 1,5257 1,5305 ,5351 ,5395 ,5437 ,5477 ,5518 ,5557 ,5596 ,5634 ,5670 ,5707 ,5743 ,5779 ,5814 2,0000 Источник: Hart В. I. Significance levels for the ratio of the mean square successive difference to the variance. Ann. Math. Statist., 13, 1942, 445—447. (табл. 99, с. 350) или для больших п (т. е. пх или л2>20) аппроксимацию D.51) (см. табл. 14, с. 68 или табл. 43, с. 204). I r—\ir\ z =z' ог -/¦ 2гц п2 Bгц п2—и) ^ D.51) Двусторонний критерий: для ru<.r<:r0 Но сохраняется; Но отвергается, когда г^ги или 2>-гдвуст. Односторонний критерий: Яо должна быть отвергнута против „А19 когда -^г"или г>годност. Дальнейшие указания можно найти в работах [Stevens, 1939], [Bateman, 1948], [Kruskal, 1952], [Levene, 1952], [Wallis, 1952], [Ludwig, 1956], [Olmstead, 1958], [Dunn, 1969]. Итерационный критерий может служить также для проверки нуль- гипотезы: две выборки примерно равного объема принадлежат одной 349
Таблица 99. Критические значения дли итерационного критерий Р—0,01 Нижние 0,5%-ные границы гн 05о/о 5 2 6 2 2 2 7 2 3 2 2 8 3 3 2 2 9 3 3 2 2 4 10 3 3 2 3 5 5 11 3423 556 12 34235666 13 34235667 14 442366777 15 4433677788 16 45336778899 17 45337788899 10 18 4 5 3 4 7 7 8 8 9 9 10 10 11 19 4 5 3 4 7 8 8 9 9 10 10 10 11 11 20 4 5 3 4 7 8 8 9 9 10 10 11 И 12 12 Верхние 0,5%-ные границы гв 005% 5 11 6 12 7 13 13 8 13 14 15 9 15 15 16 10 15 16 17 17 11 15 16 17 18 19 12 17 18 19 19 20 13 17 18 19 20 21 21 14 17 18 19 20 21 22 23 15 19 20 21 22 22 23 24 16 19 20 21 22 23 24 24 25 17 19 20 22 22 23 24 25 26 26 18 21 22 23 24 25 25 26 27 27 19 21 22 23 24 25 26 27 27 28 29 20 21 22 23 24 25 26 27 28 29 29 30 Л1 6 7 8 9 10 И 12 13 14 15 16 17 18 19 20 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Таблица 99 (продолжение) Р=0,05 Нижние 2,5%-ные границы rH 2 5o/o 9 Верхние 2,5%-ные границы гв 25О/о Нижние 2,5%-ные границы ru 9 -в/ 5 9 10 6 о о о о Н.^,0/0 2233 6 9 10 11 7 2 2 3 3 3 7 И 12 13 8 2 3 3 3 4 4 8 И 12 13 14 9 2 3 3 4 4 5 5 9 13 14 14 15 Ю 2 3 3 4 5 5 5 6 Ю 13 14 15 16 16 И 2 3 4 4 5 5 6 6 7 ц 13 14 15 16 17 17 12 2 2 3 4 4 5 6 6 7 7 7 12 13 14 16 16 17 18 19 13 2 2 3 4 5 5 6 6 7 7 8 8 13 15 16 17 18 19 19 20 14 2 2 3 4 5 5 6 7 7 8 8 9 9 14 15 16 17 18 19 20 20 21 15 2 3 3 4 5 6 6 7 7 8 8 9 9 10 15 15 16 18 18 19 20 21 22 22 16 2 3 4 4 5 6 6 7 8 8 9 9 10 10 11 16 17 18 19 20 21 21 22 23 23 17 2 3 4 4 5 6 7 7 8 9 9 10 10 11 И 11 17 17 18 19 20 21 22 23 23 24 25 18 2 3 4 5 5 6 7 8 8 9 9 10 10 11 И 12 12 18 17 18 19 20 21 22 23 24 25 25 26 19 2 3 4 5 6 6 7 8 8 9 10 10 И И 12 12 13 13 19 17 18 20 21 22 23 23 24 25 26 26 27 20 2 3 4 5 6 6 7 8 9 9 10 10 11 12 12 13 13 13 14 20 17 18 20 21 22 23 24 25.25 26 27 27 28 п 2 3 4 5 6 7 S 9 10 И 12 13 14 15 16 17 18 19 20 "*/ 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 8Л
Таблица 99 (продолжение) Р=0,Ю 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2 2 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 3 3 3 3 4 4 4 4 4 5 5 5 5 5 5 5 3 4 4 4 5 5 5 5 5 6 6 6 6 6 6 4 4 5 5 5 6 6 6 6 6 7 7 7 7 5 5 6 6 6 6 7 7 7 7 8 8 8 6 6 6 7 7 7 8 8 8 8 8 '9 6 7 7 8 8 8 8 9 9 9 9 Нижние 5%-ные 7 8 8 8 9 9 9 10 10 10 8 9 9 9 10 10 10 10 11 9 9 10 10 10 11 11 11 10 10 11 11 11 12 12 11 11 11 12 12 12 границы 11 12 12 13 13 12 13 13 13 Гв. 5% 13 14 14 14 14 15 ni / / 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 п2 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 У 8 9 9 9 4 9 10 10 11 11 И 5 11 11 12 12 12 13 13 13 13 6 12 13 13 13 14 14 14 14 15 15 15 15 15 15 7 13 14 14 15 15 15 16 16 16 16 16 16 17 8 14 15 15 16 16 17 17 17 17 18 18 18 9 Верхние 16 16 17 17 17 18 18 18 19 19 19 10 17 17 18 18 19 19 19 20 20 20 11 5%-ные 18 18 19 19 20 20 21 21 21 12 19 20 20 21 21 21 22 22 13 20 21 21 22 22 23 23 14 границы г 21 22 22 23 23 24 15 23 23 24 24 25 16 24 24 25 25 17 н. 5% 25 25 26 18 26 27 27 19 20
Таблица 99 п 21 22 23 24 25 26 27 28 29 > 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Р=0,Ю 16-28 17—29 17—31 18—32 19—33 20—34 21—35 22—36 23—37 24—38 25-39 25—41 26—42 27-43 28—44 29—45 30-46 31—47 32—48 33-49 34—50 35—51 35—53 36-54 37—55 38-56 39—57 40—58 41—59 42—60 43-61 44—62 45-63 45—65 46—66 47—67 48-68 49—69 50—70 51—71 (продолжение) />=0,05 15—29 16-30 16-32 17—33 18-34 19-35 20—36 21—37 22—38 22—40 23-41 24—42 25-43 26—44 27—45 28-46 29—47 30—48 30-50 31—51 32—52 33—53 34—54 35-55 36—56 37-57 38-58 38-60 39-61 40-62 41—63 42—64 43—65 44—66 45—67 46—68 47—69 47—71 48—72 49—73 Я=0,02 14-30 14—32 15—33 16—34 17—35 18-36 19—37 19—39 20—40 21—41 22—42 23—43 24—44 24—46 25-47 26—48 27—49 28—50 29—51 30—52 31—53 31—54 32—56 33—57 34-58 35-59 36-60 37-61 38—62 38—64 39—65 40—66 41—67 42-68 43—69 44-70 45—71 46—72 46—74 47—75 Р=0,01 13—31 14—32 14—34 15—35 16—36 17—37 18—38 18—40 19—41 20—42 21-43 22-44 23—45 23—47 24—48 25—49 26—50 27-51 28—52 29-53 29-55 30—56 31—57 32—58 33—59 34—60 35-61 36—63 36—64 37—65 38-66 39—67 40—68 41—69 42—70 42—72 43-73 44—74 45-75 46—76 п 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 Р=0,10 52-72 53—73 54-74 55—75 56—76 57—77 58—78 58-80 59—81 60-82 61-83 62—84 63-85 64-86 65—87 66-88 67—89 68—90 69—91 70-92 71—93 71—95 72-96 73—97 74-98 75-99 76-100 77—101 78—102 79-103 80—104 81-105 82—106 83—107 84-108 85—109 86-110 87—111 87—113 88—114 Р=0,05 50—74 51—75 52-76 53—77 54—78 55—79 56-80 57-81 58—82 58—84 59—85 60—86 61—87 62—88 63—89 64—90 65-91 66—92 67—93 68—94 69—95 69—97 70-98 71—99 72—100 73—101 74—102 75—103 76-104 77—105 78—106 79—107 80—108 81—109 82—110 82-112 83-113 84—114 85-115 86-116 Р=0,02 48—76 49—77 50—78 51-79 52-80 53—81 54—82 54—84 55—85 56—86 57—87 58—88 59—89 60-90 61—91 62-92 63-93 64-94 64—96 65—97 66-98 67—99 68-100 69—101 70-102 71—103 72—104 73—105 74-106 74-108 75—109 76—110 77—111 78-112 79—113 80—114 81—115 82—116 83—117 84—118 Я=0,01 47—77 48-78 49—79 49-81 50-82 51—83 52-84 53—85 54-86 55—87 56-88 57—89 57—91 58-92 59-93 60—94 61-95 62—96 63-97 64—98 65-99 66—100 66—102 67—103 68—104 69—105 70-106 71—107 72—108 73—109 74—110 75-111 75—113 76-114 77-115 78-116 79-117 80-118 81-И9 82—120 12 Зак. 930 353
и той же генеральной совокупности {пх + п2 наблюдений упорядочиваются по величине; при г меньшем, чем критическое значение, нуль- гипотеза отклоняется). Примеры 1. Проверка результатов измерений на неслучайность (а =0,10). Последовательно получены следующие 11 наблюдений: 18, 17, 18, 19, 20, 19, 19, 21, 18, 21, 22, большие и равные (G) или меньшие (/С), чем медиана"* = 19. Последовательность KKKGGGGGKGG при пг = 4 (К), п2 = 7 (G) и7" = 4 на 10%-ном уровне согласуется с нуль-гипотезой о случайности (табл. 99; Р = 0,10 гн;5% = 3 и г > гн;5% или 3 = ГН;5о/о < Г < Гв;5о/О = 9). 2. Проверка наблюдений на отсутствие гнездового эффекта (а — 0,05), т. е. проверка Но против На\ на 5%-ном уровне по 5%-ным границам табл. 99 или по стандартному нормальному распределению. Получены случайные выборки объемом пх = 20 и п2 = 20, для которых г = 15. Так как, согласно табл. 99, гн;б% = 15 и при г ^ гн;5% нуль-гипотеза отклоняется, то гипотеза о гнездовом эффекте может быть принята. По формуле D.51) г=|40A5—1)—2-20-20 |/У[2-20-20 B.20-20—40)]/D0 — 1) = 1,922, и так как согласно табл. 43 (с. 204Jодн,;5%=1,645и приг >годност.;в% нуль-гипотеза отклоняется, т. е. мы пришли к такому же результату. 4.7.3. ФАЗО-ЧАСТОТНЫЙ КРИТЕРИЙ ВАЛЛИСА И МУРА Этот критерий позволяет отличать отклонения ряда измерений хъ x2i ..., Хи •.•> хп (п> 12) от чисто случайной последовательности. Индексы 1, 2, ..., *', ..., п указывают на временную последовательность. Если рассматриваемая последовательность имеет случайный характер, то знаки разностей (*i+1 — xt) образуют случайную картину (нуль- гипотеза). Альтернативная гипотеза: последовательность плюсов и минусов значимо отличается от случайной последовательности. Рассматриваемый критерий можно трактовать как итерационный критерий знаков разностей. Последовательность одинаковых знаков Валлис и Мур [Wailis, Moore, 1941] назвали «фазой». Критерий основан на частоте плюсовых и минусовых фаз. Если обозначить общее число фаз через А, причем начальная и конечная фазы опускаются, то в предположении случайности ряда статистика Z = -0,5 ==- D.52а) 16/1—29 90 распределена нормально. 354
При п > 30 поправка на непрерывность может быть опущейа й 2/г~7 h— D.52) 16n—29 90 Пример Дана следующая последовательность из 22 значений. Таблица Измеренные значения Знаки № фазы 00 5 6 2 1 3 2 5 6 4 3 3 7 4 8 9 7 5 5347356789 6 7 Для h = 7 получаем: 7— 2-22—7 — 0,5 16-22— 29 90 4,83 1,89 - 2,56 > 1,96. Результат значим на 5%-ном уровне; нуль-гипотеза отклоняется. 4.8. ПРОВЕРКА ВРЕМЕННОГО РЯДА НА ТРЕНД: ЗНАКОВЫЙ КРИТЕРИЙ ТРЕНДА КОКСА И СТЮАРТА Для проверки временного ряда (см. [Bihn, 1967], [Harris, 1967], [Jenkins, 1968], [Jenkins—Watts, 1968] и соответствующие главы в [Suits, 1963] или [Yamane, 1967]) на тренд п значений ряда делят на три группы, так что первая и последняя содержат одинаковое число значений п1 = п/3. Средняя треть при объеме выборки, равном п (который не делится на три), уменьшается на одно или два значения. Далее, каждое наблюдение первой трети ряда сравнивается с соответствующим наблюдением последней трети ряда, и фиксируется знак «плюс» при возрастающем тренде, «минус» — при убывающем тренде в зависимости от знака разности [Сох, Stuart, 1955]. Если из суммы знаков «плюс» или «минус» S вычесть ожидаемое значение п/6, то эта величина распределена нормально со стандартным отклонением Vn/12, т. е. Т/я/12 12* D.53) 355
или ripto малых объемах (п < 30) с поправкой Уп/12 В зависимости от критерия (односторонний или двусторонний) Критические значения равны: г = 1,64 и z = 1,96 для а = 5%; г = 2,33 и 2 = 2,58 для а == = 1% (см. табл. 43, с. 204). Если мы обозначим число разностей п+, то статистика данного критерия в точности равна статистике знакового критерия с п+ наблюдениями, не равными нулю. Пример Воспользуемся данными предыдущего примера. Так как 22 не делится на 3, образуем обе трети, как если бы п было равно 24. Таблица 101 Значения последней трети Значения первой трети Знаки разностей 4 5 — 7 6 3 2 + 5 3 + 6 5 + 7 6 + 8 4 + 9 3 + Мы получили 7 положительных знаков из 8. Проверка на возрастающий тренд дает z = ~ °'5 2 83 2)83 =2,10. 1/22/12 ~~ 1,35 Значению z = 2,10 при двустороннем критерии соответствует, согласно табл. 13, вероятность Р ~ 0,0357. Возрастающий тренд на 5%-ном уровне установлен. Примечания 1. Если в ряду измерений, начиная с некоторого времени, скачком меняется среднее значение, то разность [Cochran, 1954] средних значений хг— х2, соответствующих первым пг и последующим п2 наблюдениям, проверяется по статистике ?2 _ п1-П2 . (*i—хъ) D.54) (с одной степенью свободы), где п = пх + /г2, х — общее среднее значение всех измерений. Различие между двумя сечениями во времени может проверяться по одностороннему критерию, если имеется предположение о направлении изменения; в противном случае предпочтительнее двусторонний критерий (см. также с. 412 и 494). 2. Важные частные аспекты анализа тренда даны B[6ebelein, 1951], [Weich- selberger, 1964], [BredenKampf, 1968], [Sards, 1968], [Jesdinsky, 1969], [Bogartz, 1968], [Box, Jenkins, 1970] и [Rehse, 1970].
ГЛАВА 5. МЕРЫ ЗАВИСИМОСТИ: КОРРЕЛЯЦИЯ И РЕГРЕССИЯ ф 5.1. ПРЕДВАРИТЕЛЬНЫЕ ЗАМЕЧАНИЯ И ОБЗОР Во многих ситуациях желательно узнать что-либо о зависимости между двумя признаками индивидуума, материала, продукта или процесса. В отдельных случаях на основании теоретических соображений может быть установлена взаимная зависимость двух признаков. Тогда проблема состоит в том, чтобы определить вид и степень этой взаимосвязи. Прежде всего пары точек (xt, уг) наносят на координатную сетку* Из этого получают общее предварительное представление о рассеянии и форме облака точек. 1. Изменяется длина и вес кусков проволоки различной длины (материал и сечение одинаковы). Точки образуют прямую. С ростом длины в равной же степени растет и вес: равные длины имеют одинаковый вес и наоборот. Вес (у) куска проволоки есть функция ее длины (х). Между х и у имеется функциональная зависимость. При этом безразлично, какая переменная задается, а какая определяется. Так, например, площадь круга F — функция от радиуса г и наоборот (F = яг2 или г == у Fin). Каждому радиусу соответствует вполне определенная площадь и наоборот. 2. Если имеются ошибки измерения, то определенной длине соответствует не всегда один и тот же вес. Результатом является облако точек с отчетливо выраженным трендом (см., например, рис. 39), как правило, с ростом длины увеличивается и вес. Прямая, проведенная «на глаз» через облако точек, позволяет определить: 1) какое значение у можно ожидать при заданном хи2) какое х следует ожидать при заданном у. Вместо функциональной зависимости здесь имеется связь с большей или меньшей свободой, которую мы назовем стохастической зависимостью. 3. В таких областях, как биология и социология, к ошибкам наблюдения и измерения добавляются, как правило, большие естественные изменения объектов исследования. В модели с проволокой это означало бы: не один и тот же материал и различные сечения. Облако 357
Точек становится более размытым и, Возможно, при этом отсутствует явно выраженный тренд. г. > **• Линейная репрессия и Положительная ,, Отрицательная Идеальная 1 ноапряяиип * кюппрляиия У^йшнниионольн корреляция т-положительн шоОь корреляци я ^ еру ниц иона ль пая зависимость , r-отрицательн дробь Рис. 39. Коэффициент корреляции п определяет степень взаимозависимости между выборочными значениями случайных переменных X и У. Средний рисунок верхнего ряда показывает ?/-образ- иую взаимозависимость, которая может быть описана параболой. При стохастической зависимости (см. также гл. 4, с. 319, 347, 348— 355) различают корреляцию (существует ли взаимосвязь между х и у? Как сильна она?) и регрессию (какая зависимость между хну? Можно ли оценить у по х?). Вначале дадим обобщающий обзор. I. Корреляционный анализ Корреляционный анализ изучает на основании выборки стохастическую зависимость между случайными переменными. Оцениваются мера зависимости и доверительные интервалы и проверяются гипотезы. Важной мерой зависимости является коэффициент корреляции Бравэ (Bravais) и Пирсона (Pearson). Для коэффициентов корреляции р двух случайных переменных х и у справедливо: 1) — 1<р< +1; 2) при р = ± 1 имеется функциональная зависимость, все точки лежат на прямой (см. II. 7);' 3) еслир = 0, то х и у называют некоррелированными (независимые случайные переменные некоррелированы; две случайные переменные тем сильнее коррелированы, чем ближе значение | р | к 1); 4) для двумерной нормально распределенной случайной переменной (бинормальная генеральная совокупность) из равенства р = О следует стохастическая независимость х и у. Двумерное нормальное распределение (см. рис. 47 нас. 363) может быть представлено графически колоколообразной пространственной 358
поверхностью (р ж О, п ->- оо ), которая характеризуется значением р и четырьмя другими параметрами \аХУ \iyy ох, оу. Сечение плоскостью, параллельной плоскости XOY при р = 0 и ох = оу, образует окружность, а при охф о у — эллипс, сужающийся при р ->• 1. Параметр р оценивается с помощью выборочного коэффициента корреляции г (с. 376); г для случайной переменной, распределенной не по нормальному закону, с примерно линейной регрессией (см. II, 2) является мерой стохастической зависимости. Различают: 1) коэффициент корреляции (с. 376); 2) частный коэффициент корреляции (с. 417); 3) множественный коэффициент корреляции (с. 418); 4) коэффициент корреляции рангов по Спирмэну (с. 368—372); 5) квадрантный коэффициент (с. 372) и угловой критерий (с. 374). Оба они позволяют проверить наличие корреляции, причем без расчетов, только с помощью анализа «облака точек», а для углового критерия решающими являются «далеко вне» лежащие точки. Нас. 365 приведены некоторые замечания во избежание неправильной интерпретации результатов корреляционного анализа. О коэффициентах сопряженности мы будем говорить в ближайшей главе (с. 422 — 425). II. Регрессионный анализ 1. На основании регрессионного анализа наблюдаемое облако точек аппроксимируется уравнением регрессии. 2. Если предполагается уравнение прямой E.1) E.1) зависимая входная переменная переменная где (зависимая) случайная переменная у (предикатор) называется зависимой переменной, точно заданная (независимая) переменная х (рег- рессор) называется входной переменной, то говорят о линейной регрессии (см. с. 362). Если у и х — двумерная нормально распределенная случайная переменная, то уравнение E.1)) может быть записано в виде (у— \луI °у = Р (*— 1*>хУ<*х или у = \ьу + р (оу/ах) (х— iix). 3. Параметры (например, а и |3 в E.1)) оцениваются по выборочным значениям: в большинстве случаев на основе так называемых нормальных уравнений метода наименьших квадратов, реже — с помощью метода максимального правдоподобия. 4. Оценивание и проверка параметров изложены на с. 377—391, причем часто задаются только пары данных (хг, #*)• Так как, согласно II, 2, переменная х задается точно, а у является случайной переменной, то для каждого х считывают несколько значений у (образуя каждый раз у) и исследуют, как меняется зависимая переменная в среднем (Уг) при изменении входной переменной (регрессия всегда «зависимость в среднем», см. также с. 398 — 402). 359
5. Зачастую невозможно задать значение х точно (ошибки измерения, наблюдения). Тогда и входная и зависимая переменные содержат ошибки, что вызывает необходимость в применении специальных методов (с. 364— 365). 6. Наряду с простой линейной регрессией различают нелинейную (curvilinear) регрессию (с. 408— 414) и множественную регрессию — при нескольких входных переменных (с. 416). 7. Корреляция и регрессия: если обе переменные представляют собой двумерную нормально распределенную случайную переменную, то существует 2 прямые регрессии (с. 362,377). Одна определяет*/ (зависимая переменная) от х, другая — х от у (зависимая переменная х) (с. 361 — 363 и, например, с. 387—389). Обе прямые регрессии: у = у в уравнении (у — y)/sy = г (х —~x)/sx или у = */ + r (sy/sx) (х — х) х = х в уравнении (л; — x)/sx = г (у — y)lsy или х = х + г (sx/sy) (у — у) пересекаются в центре тяжести (х, у) и образуют «ножницы» (см. рис. 46); чем они уже, тем сильнее стохастическая зависимость. При |р| = 1 (или \г\ = 1) обе прямые регрессии совпадают, т. е, имеется функциональная зависимость. Поэтому р есть мера линейной взаимозависимости между х и у. При р = 0 обе прямые регрессии перпендикулярны друг другу и параллельны координатным осям (стохастическая зависимость) (см. рис. 45). Цель регрессионного анализа заключается в том, чтобы на основании эмпирической функции yt (xt) — графического представления среднего значения ft как функции хг — найти функциональное соотношение между у и х, которое позволяет для произвольно заданного значения х оценить значение зависимой переменной у. Если имеются только пары значений (хи уд, то это соотношение Ух (хг)у т. е. уг как функция от хи в простейшем случае представляет собой уравнение прямой (рис. 40). УрпВнение прямой: -2 -1 Рис. 40. Прямая #= 5 6 Рис. 41. Уравнение прямой. зао
Параметрами прямой регрессии при задании ее уравнения в общем виде у = а + Ьх (рис. 41) являются значения а и Ь: а представляет собой отрезок, отсекаемый прямой регрессии на оси у\ Ь определяет изменение у при изменении х на единицу и называется постоянной направления, наклона или коэффициентом регрессии. Если коэффициент регрессии отрицателен, это означает, что при возрастании х среднее значение у убывает (рис. 42). Для оценивания параметров прямой регрессии, точнее, линии регрессии «у от х», мы используем двойной индекс «ух», записывая: у = = аух + Ъух х. Для оценивания аух или а и Ьух исходят из принципа наилучшего приближения прямой к определенным из эксперимента значениям у. Сумма квадратов вертикальных отклонений (d) (рис. 43) экспериментальных значений у от оцениваемой прямой должна быть меньше аналогичной величины для любой другой прямой. По этому «методу наименьших квадратов» можно определить оба коэффициента аи Ьух при заданных значениях х и у. Если по облаку точек (как, например, на рис. 39 слева внизу) для заданных или для произвольных значений независимой переменной у необходимо оценить значения зависимой переменной х (например, зависимость периода беременности от длины тела новорожденного — т. е. нужно оценить параметры аху или а' и Ьху линии регрессии х от у (рис. 44) х = о! -+- Ьху у), то минимизируется сумма квадратов горизонтальных отклонений {df). Иногда трудно решить, какое уравнение регрессии более пригодно. Это, естественно, зависит от того, что заранее задано х или у. Для ученого каждое уравнение означает только определенную взаимозависимость и зачастую неважно, какая из переменных независимая, а какая зависимая. В большинстве случаев ошибки измерения малы, корреляция отчетлива и разница между линиями регрессии пренебрежимо мала. Рис. 42. Коэффициент регрессии Ь определяет, возрастают ли значения у с возрастанием х (Ь положителен) или убывают (Ь отрицателен). Ъ<0 Ь>0 Если облако точек на рис. 39 (слева внизу) уплотнить до прямой — идеальная функциональная зависимость (см' рис. 39, справа внизу) — то обе прямые регрессии совпадают (рис. 45): х = аху + Ьху у = а' + Ьху уу E.2) У = <*Ух + Ьух х, E.3) 361
- Коэффициент корреляции при этом равен 1. С увеличением г угол между прямыми регрессии уменьшается (рис. 46). Следует также заметить, что коэффициент корреляции равен геометрическому среднему из обоих коэффициентов регрессии: \г\ = УьухЬху. E.4) Еще одна формула подчеркивает тесную связь между коэффициентами корреляции и регрессии W = rf-. E.5) Так как стандартные отклонения sy и sx положительны, из E.5) следует, что г и b имеют одинаковые знаки. Если обе переменные имеют одинаковый разброс, так что sx = sy, то коэффициенты корреляции и регрессии одинаковы. Линдер [binder, 1960] назвал величину г2 = В E.6) Линия регрессии у по к: у=3+0,5х при этой приводится Id2 к минимуму Предположения: /) х - независимая, наблюдаемая без ошибок переменная 2) у- зависимая, наблюдаемая с ошибкой , случайная х переменная __ v Линия регрессии х по у. х=1,5+о,5у при этом приводится к минимуму предположения: 1) х - зависима/?, измеряемая с ошибкой случайная переменная 2) у - независимая, наблюдаемая без ошибок переменная Рис. 43 и 44. Две линии регрессии: взаимозамена зависимой и независимой переменных. Оценка у при заданных ^-значениях не обратна оценке х по ^-значениям: если мы оцениваем с помощью линии регрессии х по у, то минимизируем сумму квадратов вертикалей d2\ если мы оцениваем с помощью линии регрессии х по у, то минимизируем сумму квадратов горизонталей (dJ. мерой определенности (множественный коэффициент детерминации). Чем меньше рассеяние наблюдаемых пар значений относительно прямой регрессии, чем больше точки примыкают к прямой, тем точнее она определена. Рассеяние точек относительно прямой регрессии пред- Независимость 7 г А 'У -0 Зависимость сильная полная г=1 Рис. 45. С возрастанием зависимости или корреляции обе прямые регрессии у~а+Ьухх и х=а'+ЬХуУ сливаются. 362
ставляет собой определенную часть общего рассеяния у. Если значение В велико, то это означает, что точки концентрируются около прямой регрессии. Рассеяние точек относительно прямой регрессии может служить мерой точности, с которой определена прямая, и может использоваться также как мера зависимости обоих рядов значений х и у. Если г2 = = В = 0,92 = 0.81, то можно 81% общего рассеяния объяснить изменением линейной регрессии при изменении х. Если в каждом элементе случайной выборки определены признаки х и у, то ошибки измерения должны быть пренебрежимо малы по сравнению с различием между частными значениями х и у. Классическим примером является связь между ростом и весом у мужчин. Обе величины представляют случайные переменные. Рис. 47 дает идеализированную поверхность частот распределения такого рода. Здесь имеются две линии регрессии: одна для оценки у по х и другая — для оценки х по у. Здесь выборочный коэффициент корреляции играет роль меры связи между х и у в генеральной совокупности. Если из генеральной совокупности взята не случайная выборка, т. е. только определенные элементы генеральной совокупности (скажем, цсе мужчины ростом 129,5—130,5 см, 139,5—140,5 см и т. д.) и изучается их вес, то нельзя: 1) рассчитать коэффициент корреляции, 2) опре- Линия регрессии хпоу. Линия регрессии у лох: Среднее быборочное значение Рис. 46. Взаимозависимость между корреляцией и регрессией: абсолютное значение коэффициента корреляции можно рассматривать как меру для угла между обеими линиями регрессии. Рис. 47. Идеально симметричная поверхность частот («нормальная») с отсеченными экстремальными областями: усеченное двумерное нормальное распределение. делить линию регрессии для оценки х по у\ можно только вычислить линию регрессии для оценки у по х: У = Ьухх. Подобная ситуация бывает в тех случаях, когда результаты, полученные на основании изучения определенных элементов выборки, распространяются на промежуточные, неизученные значения х и у, т. е. когда имеет место так называемый «Vorauslese» (прогноз). 363
Если проверяют корреляцию веса супругов, то обычно обнаруживается слабая положительная взаимозависимость. Наибольшая и наиболее надежная корреляция имеет место при сравнении роста супругов @,3 ? г ? 0,4). Из других признаков следует упомянуть подобие Mundpartie (Р<0,01; [Knussmann, 1965]). Стандартные методы оценки коэффициента корреляции и прямой регрессии изложены в разд. 5.4 (с. 376— 390). Ниже будут приведены методы Бартлета и Керриша (Bartlett, Kerrich) для быстрой оценки прямой регрессии в случае, когда ошибки содержатся в х и в у (см. [Tukey, 1951], [Acton, 1959], [Madansky, 1959], [Carlson, 1966]). 1. Метод Бартлета По методу Бартлета (Bartlett, 1949] для определения наклона прямой у = а + Ьх общее число п точек х делят на три непересекающиеся как можно более равные группы, причем первая и третья из них должны содержать одинаковое число элементов к, близкое к п/3. Тогда коэффициент регрессии равен: ?=iLziLf E.7) где у3у х3 — средние значения у и х третьей группы, уъ хг — средние значения у и х первой группы. Значение а вычисляется по формуле а=~у—Ъ1с, E.8) где Ти у — средние значения х и у по всем п точкам. Если расстояние между соседними значениями х постоянно, то этот метод имеет исключительно высокую эффективность. В [Gibson, Jo- wet t, 1957] утверждается, что соотношение объемов трех групп должно быть равным примерно 1:2:1. Однако соотношение групп 1:1:1 ненамного хуже: при ^-распределении и прямоугольном распределении оптимально именно это соотношение, в то время как соотношение 1:2:1 следует предпочесть при /-распределении, асимметричном и нормальном распределениях. Для контроля можно пользоваться простой оценкой Ъ ~ 2#/2*. Если прямая не проходит через ноль, то параметры а и b можно оценить по нижним 30% и верхним 30% значениям [Cureton, 1966]: E.10) Пример Оценка прямой регрессии, когда обе переменные (х, у) содержат ошибки измерения: сравнение двух методов измерения, между которыми предполагается линейная взаимозависимостьj[cm. табл. 102). Сглаживающая прямая проходит через точку (х, у) со значениями х = 66,48 и "г/ = 86,03. Коэффициент регрессии оцениваем по средним 364
Таблица Выборка (Ко) 1 2 3 4 5 6 7 8 9 10 102 Метод I (*) 38,2 43,3 47,1 47,9 55,6 64,0 72,8 78,9 100,7 116,3 Метод II (У) 54,1 62,0 64,5 66,6 75,7 83,3 91,8 100,6 123,4 138,3 значениям первой и последней третей обоих рядов по формуле E.7): g_ ~Уз-У1 ^ 120,767-60,200 __ t Q861 хз—хг 98,633—42,867 Значение а, согласно E.8) получаем при использовании общих средних а =~у — Ьх = 86,03—1,0861 • 66,48 = 13,826. Прямая регрессии описывается уравнением у = 13,833 + 1,0861 х. В качестве упражнения следует порекомендовать выполнить это задание по Куртону (Cureton) E.9, 5.10). Расчет доверительного эллипса для оцениваемых параметров можно найти в оригинальной работе [Bartlett, 1949] (см. [Mandel и Linnig, 1957]). 2. Метод Керриша Если обе переменные содержат ошибки (исключая случай, когда хг и yt — положительны) и облако точек прилегает к прямой, проходящей через начало координат (у = Ьх), можно для оценивания параметра b воспользоваться следующим элегантным методом Керриша [Кег- rich, 1966]. Для п независимых пар значений (xiy yt) образуют их разности dt = lg yt — lg xi9 среднее значение d и его стандартное отклонение: Так как любое соотношение вида уг1хг представляет собой оценку параметра ft, то любое значение dt является оценкой lg b. Подходящей оценкой lg b является d, в особенности в тех случаях, когда значения xt и yt имеют малые коэффициенты вариации и когда s5 мало по сравнению с d. Предполагается, что значения lg уг и lg xt распределены хотя бы по приближенно нормальному закону. 95%-ный доверительный интервал для р равен: lg b ± Sj tn^2\ о.об/У^. E.12) Пример Дано п = 16 пар значений (сглаживающая прямая проходит через ноль!); d = 9,55911—10 - lg b и s^ = 0,00555, т. е. /U;o,o5 = 2,145 и s-d • /я_ 2; o.os/Vn = 0,00555 • 2,145/УТб = 0,00272. 95%-ный доверительный интервал для lg b равен 9,55911—10 ± ± 0,00272; оценка для р равна b = 0,362 и доверительный интервал 0,360 < р < 0,365, 365
# 5.2. ТИПЫ КОРРЕЛЯЦИОННЫХ ВЗАИМОЗАВИСИМОСТЕЙ О статистической взаимозависимости говорят, если нуль-гипотеза «взаимозависимости нет» отклоняется. Существо и причины найденной статистической взаимозависимости лежат вне статистических методов. Если надежно обнаруживается взаимозависимость, то нужно понимать, что наличие функциональной зависимости (например, увеличение в Швеции количества аистов и новорожденных в определенный промежуток времени) ничего не говорит о причинной взаимозависимости. Можно обнаружить положительную корреляцию между дозами лекарств и смертностью больных, так как при очень серьезных заболеваниях смертность увеличивается не из-за больших доз медикаментов, а вопреки им. Корреляция может быть обусловлена непосредственной причинной зависимостью между х и у, общей зависимостью от третьей величины, неоднородностью материала или быть чисто формальной. Причинная зависимость существует, например, между талантом и успехом, между дозой и действием лекарства, между временем работы и стоимостью произведенной продукции. Примеры совместной корреляции дают зависимость между длиной правой и левой рук, или между ростом и весом, или между уменьшением числа гнезд аистов в Восточной Пруссии и уменьшением числа новорожденных — причиной является растущая индустриализация. Причиной корреляции вследствие неоднородности является материал, относящийся к различным областям координатной плоскости» Если на это не обращать должного внимания, то разница в положении облаков точек может иметь следствием эффект корреляции, полностью отличающийся от корреляционного соотношения внутри этих облаков точек. Содержание гемоглобина в крови и размеры кровяных шариков не показывают корреляции ни у новорожденных, ни у мужчин, ни у женщин. Значения коэффициента корреляции равны соответственно 0,06, — 0,03 и + 0,07. Если статистический материал объединить, то коэффициент корреляции получается равным + 0,75. Если, например, х и у дополняют друг друга до 100%, то между ними имеется отрицательная корреляция, например белки и жиры в продуктах питания и т. д. Обычно такую взаимозависимость'Ъбозна- чают термином «кажущаяся корреляция», однако его лучше избегать, так как для процентных содержаний двух переменных эта корреляция не кажущаяся, а фактическая. В ряду беспричинных корреляций имеется еще формальная корреляция. При анализе значимости корреляции Коллер [Koller, 1955, 1963] разработал правила, которые позволяют лучше определить истинную корреляцию за счет исключения других возможных взаимозависимостей. Для определения формальной корреляции и других возможных корреляций можно воспользоваться следующей схемой. 366
Формальная корреляция i i да нет Корреляция вследствие неоднородности I I да нет i Совместная корреляция I I да нет Причинная корреляция Опознание причинной корреляции осуществляется путем исключения других возможностей. Из-за возможной путаницы типов эта схема на практике применяется всегда в таком виде, как она представлена здесь. Зачастую не доходят до причинной корреляции, а останавливаются ранее, в силу того, что этот тип корреляции не может быть в рассматриваемом случае отклонен. Значение коэффициента корреля» ции при этом, как правило, не играет роли. Примечание. Корреляция между временными рядами Временные ряды (литературу см. в разд. 4.8) показывают, как правило, тренд, возрастание или убывание. Если определить взаимосвязь двух возрастающих рядов, например число жителей, производство энергии, индекс цен и число транспортных несчастных случаев, или два убывающих ряда, например смертность среди новорожденных и число работающих в сельском хозяйстве, то получится положительная корреляция, которая может быть весьма значительной (совместная корреляция), хотя по существу зачастую совсем не значима. Применяя дополнительную контрольную переменную с одинаковым трендом, можно временную корреляцию исключить перед проверкой на взаимозависимость. Если начальная корреляция (например, рост болезней и рост потребления деликатесов) не очень сильно отличаются от контрольной корреляции (например, производства телевизоров) или если при вычислении частной корреляции (см. разд. 5.8) с учетом контрольной переменной начальная корреляция уменьшается, то совместная корреляция может быть исключена. 5.3. НЕПАРАМЕТРИЧЕСКИЕ МЕРЫ ЗАВИСИМОСТИ Если проверяется наличие корреляции между двумя рядами измеренных значений, то неявно подразумевается наличие бинормальной генеральной совокупности с параметром р, оцениваемым с помощью г; это предположение нередко частично или полностью не выполняется. В таких случаях используют обычно без каких-либо преобразований и с значительной экономией времени коэффициент ранговой корреляции Спирмэна {rs)\ проверка при этом дает достаточно точный результат в случае малого объема выборки и при ее нормальном законе распределения; кроме того, ослабляется влияние выбросов, которые могут сильно изменять значение коэффициента корреляции (г). Другим преимуществом является независимость от системы мер, так как ранговый коэффициент корреляции, в противоположность обычному коэффициенту корреляции, не изменяет своего значения, когда при неизменной последовательности вместо значений х применить монотонную функцию F (х). Для больших выборок из бинормального рас- 367
пределения с достаточно малым коэффициентом корреляции (параметр корреляции | р | < 0,25) применение rs приводит к тем же результатам, что и применение г в выборке, содержащей только 0,91-/г наблюдений (п должно быть достаточно велико). Коэффициент ранговой корреляции использует только 91% наблюдений. В^виду небольших потерь в точности при значительной экономии времени rs может служить для быстрой предварительной оценки обычного коэффициента корреляции. Если имеется нормальное распределение, то оценка значения | р | несколько завышается. С увеличением объема выборки rs стремится не к р (как г), а к ps- Разница между р и ps всегда меньше, чем 0>018 (см. [Walter, 1963]). Значительные преимущества имеет применение коэффициента rs при нелинейной монотонной регрессии: например, когда между признаками имеется логарифмическая или экспоненциальная зависимость и когда при увеличении одной переменной другая в среднем или непрерывно возрастает либо непрерывно падает. Применение коэффициента г в качестве меры корреляции требует преобразования переменных, при котором взаимозависимость становится линейной, поэтому использование коэффициента rs здесь приводит к значительной экономии времени. Очень удобна также развитая на основании углового критерия медианная, или квадрантная, корреляция по KeHyro(Quenouille), пригодная для быстрой ориентации. При нормальном распределении можно коэффициент квадрантной корреляции (/•$) принять для оценки обычного коэффициента корреляции р. Правда, критерий tq в этом случае недостаточно строгий, так как он охватывает только 41% всех наблюдений. Подобно коэффициенту ранговой корреляции, коэффициент квадрантной корреляции имеет преимущества: он позволяет проводить надежную проверку при любой функции распределения, уменьшать влияние выбросов и является независимым от системы мер. • 5.3.1. КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЭНА Если нужно определить взаимозависимость между рядами, распределенными не по нормальному закону, т. е. двумерная выборка (xif yt) относится к произвольному непрерывному распределению, то можно зависимость между у их установить с помощью коэффициента ранговой корреляции Спирмэна rs: Для вычисления коэффициента ранговой корреляции (справедливо — 1 ^ rs ^ 1) оба ряда преобразуются с помощью рангов (см, разд. 3.9); образуются разности D для п пар рангов, они возводятся в квадрат и суммируются; значение суммы 2D2 используется в приведенной выше формуле. Равным значениям (так называемым связям — англ. ties) соответствует среднее ранговое число. Если два ряда рангов равны, 368
разности равны нулю и\г5 = 1. Если ряды рангов обратны, то rs = = — 1. Этот критерий Позволяет тем самым ответить на вопрос о знаке имеющейся корреляций. Значимость коэффициента rs для п ^ 30 определяется по табл. 103, которая содержит критические значения (г|) для 6 значений уровня значимости при одностороннем критерии. Наблюдаемое значение rs значимо, если абсолютное значение этого критерия равно табличному значению или больше него. Таблица 103. Значимость коэффициента \ п 4 5 6 7 8 9 10 И 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 манговой корреляции Спирмэна г s Уровень значимости а 0,001 — 0,9643 0,9286 0,9000 0,8667 0,8455 0,8182 0,7912 0,7670 0,7464 0,7265 0,7083 0,6904 0,6737 0,6586 0,6455 0,6318 0,6186 0,6070 0,5962 0,5856 0,5757 0,5660 0,5567 0,5479 0 ,005 _ 0,9429 0,8929 0,8571 0,8167 0,7818 0,7545 0 7273 0^978 0,6747 0,6536 0,6324 0,6152 0,597Й " 0,5825 0,5684 0,5545 0,5426 0,5306 0,5200 0,5100 0,5002 0,4915 0,4828 0,4744 0,4665 0,010 0,9000 0,8857 0,8571 0,8095 0,7667 0,7333 0,7000 0,6713 0,6429 0,6220 0,6000 0,5824 0,5637 0,5480 0,5333 0,5203 0,5078 0,4963 0,4852 0,4748 0,4654 0,4564 0,4481 0,4401 0,4320 0,4251 0,025 _ 0,9000 0,8286 0,7450 0,6905 0,6833 0,6364 0,6091 0,5804 0,5549 0,5341 0,5179 0,5000 0,4853 0,4716 0,4579 0,4451 0,4351 0,4241 0,4150 0,4061 0,3977 0,3894 0,3822 0,3749 0,3685 0,3620 0,050 0,8000 0,8000 0,7714 0,6786 0,5952 0,5833 0,5515 0,5273 0,4965 0,4780 0,4593 0,4429 0,4265 0,4118 0,3994 0,3895 0,3789 0,3688 0f3597 0,3518 0,3435 0,3362 0,3299 0,3236 0,3175 0,3113 0,3059 0,100 0,8000 0,7000 0,6000 0,5357 0,4762. 0,4667 0,4424 0,4182 0,3986 0,3791 0,3626 0,3500 0,3382 0,3260 0,3148 0,3070 0,2977 0,2909 0,2829 0,2767 0,2704 0,2646 0,2588 0,2540 0,2490 0,2443 0,2400 Источник: Glasser G. Т. and Winter R. F. Critical values of rank correlation for testing the hypothesis of independence. Biometrika, 48, 1961, 444— 448, Table 3, p. 447. Если нужно проверить, значимо ли отличается корреляция от нуля, знак rs при этом не играет роли, и уровень значимости должен быть удвоен (двусторонний критерий с Яо: ps = 0 и ffA: ps Ф 0). При п > 30 значимость rs можно с достаточной точностью проверять на основании стандартного нормального распределения = гс —1. E.14)
Если, например, для п = 30 получен^ значение rs = 0,3061, то 0,3061 • V30—1 = 1,648 и на 5%-ном Уровне имеет место значимая положительная корреляция (см. rs = 0,3061 > 0,3059 = г| из табл. 103). Для наблюдений ху у в табл/107 нужно (см. табл. 107а) гипотезу Но: ps = 0 при двустороннем7критерии признать значимой на 5%-ном уровне: ^T)= °'723 < °'745=r*s п = 7, ао,о25; одност = ao.os; двуст); корреляции нет (Р > 0,05). Замечания по поводу коэффициентов ps и р 1. /-критерий для Но : ps == 0 по сравнению с /-критерием для Яо: р = 0 (с. 391), при выполнении всех условий для проверки этих гипотез (бинормальная генеральная совокупность), имеет асимптотическую эффективность 9/л2, или 91,2%. 2. По сравнению с г при очень больших п и бинормальной генеральной совокупности с параметром р = 0 значение rs оценивается с асимптотической эффективностью 9/л2, или 91,2%. 3. При увеличении п и бинормальной случайной переменной значение 2 sin [g rs) асимптотически равно г. Поэтому для п ^ 30 можно наряду с rs задавать и г. Так, для rs = 0,840 и я/6 == 0,5236, получаем г = 2 sin @,5236 • 0,840) = 2 sin 0,4398 - 2 • 0,426 = 0,852. Пример Табл. 104 показывает, как 10 студентов, расположенных в алфавитном порядке, успевают на практикумах и семинарах — в обоих случаях оценки распределены асимметрично (в таблице приведены ранги). Таблица 104 Практикум Семинар 7 8 6 4 3 5 8 9 2 1 10 7 4 3 1 2 5 6 9 10 Нуль-гипотеза: между рядами нет положительной корреляции, они независимы. Определим разности рангов, их квадраты и сумму. Таблица 104а Разности рангов D2 — 1 1 2 4 -2 4 — 1 1 I 1 3 9 1 1 —1 1 —1 1 —1 1 S 0 24 370
Проверка: сумма значений D должна быть равна нулю. Мы получили: Ё^ = 6J4_ = ЮA021) Коэффициент ранговой корреляции, рассчитанный по выборке объемом п = 10, согласно табл. 103, значим на 1%-ном уровне @,8545 > > 0,7333). Между обоими видами успеваемости есть взаимозависимость (Р< 0,001). Для пар значений при п > 10 случайность определенного значения rs можно установить по статистике =1". E-15) распределенной по Стьюденту с (п — 2) степенями свободы. Для нашего примера имеем: t = 0,8545- 1/ 10"~2 = 4,653, V 1_0,85452 4,653 > 2,90 = /в; о,о1 — тот же самый результат. Следует подчеркнуть, что E.14) и E.15), в противоположность значениям табл. 103, дают только приближенные значения; выражение E.15) имеет лучшую точность. Ранговая корреляцияпо Спирмэну при наличии связей Если в ряду значений часто встречаются связи (равные значения), то целесообразно применять статистику (см. [Kendall, 1962], [Yule, Kendall, 1965]) S» B (tiZ n\ (T ' "* • ' V • / где tx> (штрих при х означает, что это ранги)—число членов в последовательных группах (с равными рангами) х'-ряда, ty— число членов в последовательных группах (с равными рангами) у'-ряда: вычисляется число членов с одинаковыми значениями в первой группе, возводится в третью степень и из полученного значения вычитается первая степень. Полученные таким образом значения для всех групп суммируются и суммы образуют значения 7V и Ту>. Пример Проверка зависимости между успеваемостью в математике и в изучении древних языков по 8 ученикам (S) на основании оценок по математике (М) и латинскому языку (L) (а = 0,05; R — ранги). 371
s L M Rl Rm D D 1 2 1 2 —1 1 В 2 4 3 7 4 16 G 2 1 3 1 2 4 2 3 3 4 —1 1 F 3 4 5,5 -1,5 2,25 E 3 3 5,5 4 1,5 2,25 и 4 4 7,5 0,5 0,25 С 4 3 7,5 4 3,5 12,25 SD=0 = — [C3-3) + B3—2) + B3—2)] = 18, [33 rs = 1 _6-39/(83—8) — A8 + 24) =0,506. 's, в 6. 39 Без учета наличия связей: rs = 1 — щ^ж = °>536 @,536 > > 0,506) корреляция завышается. Так как 0,506 < 0,595, то на основании заданных школьных отметок нуль-гипотеза не отклоняется (Р > 0,05). Коэффициент ранговой корреляции Спирмэна [Spearman, 1910] целесообразно применять в следующих случаях: 1. Когда необходимо быстро получить приближенную оценку коэффициента корреляции, а точный расчет очень громоздок. 2. Когда нужно перепроверить согласование решений двух судей относительно рангового упорядочения объектов, например, на конкурсе красоты. С помощью этого критерия можно также проверять измененные способности (сравнение выбранного упорядочения предметов со стандартным упорядочением). Примером может служить расположение детьми кубиков по величине. 3. Когда имеется подозрение на монотонный тренд: проверяют на значимость коэффициент корреляции между п значениями рангов ряда измерения и рядом натуральных чисел от 1 до /г. Сложнее, чем rs, вычисляется коэффициент ранговой корреляции т, предложенный Грейнером [Greiner, 1909], Эшером [Esscher, 1924] и Кендэлом [Kendall, 1938]. Гриффин [Griffin, 1957] описал графический способ оценки т. Простой способ расчета т предложили Либерзон [Lieberson, 1961], Стилсон и Кэмпбелл [Stilson, Campbell, 1962]. Обсуждение преимуществ т по сравнению с г и rs можно найти в [Schaeffer, Levitt, 1956]. 5.3.2. КВАДРАНТНАЯ КОРРЕЛЯЦИЯ Этот упрощенный критерий [Blomqvist, 1950, 1951] позволяет проверить, имеется ли зависимость между двумя признаками х и у, заданными в виде рядов измеренных значений. Вначале пары значений 372
(*и Уд отмечают в сис*еме координат, которая делится значениями медиан х и # на 4 квадранта, так что каждая половина содержит точно одинаковое число пар значений. Если имеется нечетное число пар наблюдений, то горизонтальная медиана должна проходить через одну из точек, которая, таким образом, исключается. Взаимозависимость параметров существует, если число пар значений в отдельных квадрантах достигает границ, указанных в табл. 105 или выходит за их пределы. Если выборки относятся к двумерному нормальному распределению, то этот критерий имеет асимптотическую эффективность по отно- Таблица 105. Нижние и квадрантной i п 8-9' 10—11 12—13 14-15 16—17 18-19 20-21 22—23 24-25 26—27 28—29 30-31 32-33 34-35 36-37 38—39 40-41 42-43 44—45 46—47 48-49 50-51 52—53 54—55 56—57 58—59 60-61 62—63 64—65 66—67 68—69 70—71 72—73 корреляции верхние критические значения для определения Критическое число точек нижнее 5% 0 0 0 1 1 1 2 2 3 3 3 4 4 5 5 6 6 6 7 7 8 8 8 9 9 10 10 11 11 12 12 12 13 1% 0 0 0 0 1 1 2 2 2 3 3 3 4 4 5 5 5 6 6 7 7 7 8 8 9 9 9 10 10 11 11 12 5% 4 5 6 6 7 8 8 9 9 10 11 11 12 12 13 13 14 15 15 16 16 17 18 18 19 19 20 20 21 21 22 23 23 1% 5 6 7 8 8 9 9 10 И 11 12 13 13 14 14 15 16 16 17 17 18 19 19 20 20 21 22 22 23 23 24 24 п 74-75 76—77 78-79 80—81 82—83 84-85 86—87 88-89 90—91 92-93 94-95 96-97 98—99 100—101 110—111 120—121 130—131 140—141 150—151 160—161 170-171 180—181 200-201 220—221 240-241 260—261 280—281 300-301 320—321 340-341 360-361 380—381 400-401 верхнее 5% 13 14 14 15 15 16 16 16 17 17 18 18 19 19 21 24 26 28 31 33 35 37 42 47 51 56 61 66 70 75 80 84 89 1% 12 12 13 13 14 14 15 15 15 16 16 17 17 18 20 22 24 26 29 31 33 35 40 44 49 54 58 63 67 72 77 81 86 5% 24 24 25 25 26 26 27 28 28 29 29 30 30 31 34 36 39 42 44 47 50 53 58 63 69 74 79 84 90 95 100 106 111 1% 25 26 26 27 27 28 28 29 30 30 31 31 32 32 35 38 41 44 46 49 52 55 60 66 71 76 82 87 93 98 103 109 114 Источник: Quenouille M. H. Rapid Statistical Calculations, Griffin, London, 1959, Table 6. 373
шению к обычному коэффициенту корреляции B/яJ = 0,405 (подробнее об этом см. в [Konijn, 1956] и [Elandt, 1962]. Пример 28 пар наблюдений (рис. 48) распределены таким образом, что достигаются границы в табл. 105. На 1%-ном уровне устанавливается наличие отрицательной корреляции. Рис. 48. Квадрантная корреляция [Q u е- п о и i 11 е М. Н. Rapid Statistical Calculations, Griffin, London, 1959, p. 29]. - Это по существу четырехклеточный критерий. Другой, менее элегантный вариант: медианный критерий на независимость, при котором пары разделяются в зависимости от того, больше или меньше значения х я у, чем соответствующие медианы: Число значений у <У >У Число значений х <* а с >* Ь d Анализ четырехклеточной таблицы осуществляется аналогично изложенному в разд. 4.6.7 или 4.6.1 (см. также с. 279— 280). 5.3.3. УГЛОВОЙ КРИТЕРИЙ ОЛМСТЕДА И ТЬЮКИ Этот критерий требует обычно больше информации, чем квадрантный критерий корреляции, Он особенно пригоден для определения корреляции, которая основана на парах экстремальных значений [Olm- stead, Tukey, 1947]. 374
Статистика этого важного простейшего критерия на независимость (асимптотический эффект около 25%) — сумма 5 из 4 «сумм квадратов» (см. ниже пункты 1—3). При | 5 | ^ Sa предполагается корреляция, знак которой определяется знаком S. 1. Вначале п пар наблюдений (xit yt), как и в рассмотренном квадрантном критерии, наносятся в виде точек на плоскость и затем делятся горизонтальной и вертикальной медианными линиями на одинаковые группы. 2. Точки в правом верхнем и левом нижнем квадрантах следует считать положительными, а остальные — отрицательными. 3. Начиная с правой стороны диаграммы, перемещают ординату в направлении точки пересечения медианных линий с одновременным подсчетом точек и считают до тех пор, пока не встретится точка на другой стороне горизонтальной медианной линии. Сумме подсчитанных точек присваивается знак соответствующего квадранта. Аналогичный счет проводится в остальных квадрантах. а 0,10 9 0,05 11 0,02 13 0,01 14-15 0,005 15—17 0,002 17—19 0,001 18—21 1) При а ^ 0,01 для малых п берется большая, для больших п — меньшая величина. X Х X X -8 \\ х | X ' X 1 t Iх * 1 X X j. х 1 1 1 1 j I 1 1 1 1 ¦X ч 1 1 *~x ^~x J i 1 X X it •i-да x 1 1 X X v Рис. 49. Угловой критерий Олмстеда и Тьюки (источник см. в подписи к рис. 48). 2) При | S | ^ 2 п — 6 нужно критерий отбросить. 375
Пример 28 пар наблюдений на рис. 49 дают сумму (— 8) + (— 10) + + (— 11) + ( — 6) = — 35; имеется отчетливая отрицательная корреляция. Если обозначить абсолютное значение полученной суммы через к, то при больших объемах выборки вероятность оценивается по формуле W+W + 16M + 208 0- E.17) 5.4. СПОСОБЫ ОЦЕНИВАНИЯ # 5.4.1. ОЦЕНИВАНИЕ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ Коэффициент корреляции оценивается с помощью правой части выражения E.18) (при малых п иногда предпочитают выражение слева). r= У2 (,-;,. е (,,-й E 18) При малом объеме выборки п значение г несколько ниже, чем параметр р. Лучшая оценка р получается по формуле E.18а) [Olkin, Pratt, 1 УОо j & i^j <518а> Так, например: для п = 10 и г = 0,5: г* = 0,527, для п = 10 и г = 0,9: г* = 0,912, для п = 30 и г = 0,5: г* = 0,507, для п = 30 и г = 0,9: г* = 0,903. Обычно объем выборки не слишком мал и поправку E.18а) не учитывают. Примечание. Точечно-бисериальная корреляция! Если один из признаков имеет альтернативное распределение,то вместоE.18) используют E.186). г Зависимость между непрерывным и альтернативно распределенным признаками оценивается точечно-бисериальным коэффициентом корреляции (п носителей признаков группируются в альтернативные группы пх и /г2; в каждой определяются значения xt обозначаемые xlt x2, и соответствующее стандартное отклонение s): E.186) 376
Проверка значимости производится по табл. 113 или по формулам E.38, 5.38а, б). Значение гръ может служить оценкой р, особенно когда \rpb\ < 1; при гръ > 1 принимают р = 1; при Гъь < — 1 р == — 1. Подробнее см. [Tate, 1954, 1955], [Prince, Tate, 1966], [Abbas, 1967], а также [Meyer — Bahlburg, 1969]. • 5.4.2. ОЦЕНИВАНИЕ ПРЯМОЙ РЕГРЕССИИ Всегда нужно различать следующие две модели регрессионного анализа: Модель I. Зависимая переменная у—случайная переменная; значения входной переменной х заданы точно, формула E.3). Модель II. Как переменная у, так и переменная х—случайные переменные. Здесь возможны две регрессии, определяющие у по х ил: и у E.3) и E.2). Значения а и коэффициенты регрессии оцениваются с помощью следующих соотношений: х, E.3) ь ^ E19) аУх=*у-Ьух*х ; E.20) п E.2) а„=2х-Ь*в*у. E.22) П аух и аху могут быть определены непосредственно по формулам: E2 . E-20а) a V*W)-mV*y)% E.22a) однако по формулам E.20) и E.22) расчет производится быстрее. Если п— велико или задано много пар значений xt и у%у то E.19) и E.21) заменяют следующими выражениями: E.19а) E.21а) 377 Ку = '^ n n n
Пример 1 Таблица 106 X 2 4 6 12 у 5 3 7 15 ху 10 12 42 64 2л# 4 16 36 56 2*2 25 9 49 83 Расчет прямой регрессии и коэффициента корреляции по данным табл. 106: -B*)B*/)_ 3-64—12-15_ 1 ~~ 3-56—122, ~~Т' Zy—byx2x 15—A/2). 12 Q Vx n 3 Оценка регрессии у по х: = 3+1/2х; ^п2ху—(Ъх)(Щ= 3 64—1215^ 3-83 —152 12—A/2) 15 == ^ ^ р. Оценка регрессии х по у: х - 3/2 + 1/2 у. Коэффициент корреляции, согласно E.18), равен: /К>'Жт 64——-12-15 3 . = 0,5; (г* по E.18а) можно рассчитывать лишь при n ^ 4). 378
Пример 2 Таблица 107 Таблица 10?а X 13 17 10 17 20 11 15 103 У 12 17 11 13 16 14 15 98 169 289 100 289 400 121 225 1593 144 289 121 169 256 196 225 1400 ху 156 289 ПО 221 320 154 225 1475 Пример на с. 370 Pai X 3 5,5 1 5,5 2 4 У 2 7 1 3 6 4 5 D 1 -1,5 0 2,5 9 1 0 1 2,25 0 6,25 1 4 1 15,50 Значение а определяем теперь по E.20а): ^_ Bу) Bх*)—B*) Bху) а коэффициент регрессии по E.19): _ Bj/) B*2)--B.x) Bху) 98-1593 — 103» 1475 __ - ух~~~ m2jc2—B^J ~~ 7-1593—1032 ~* ' ь Ух Прямая регрессия (у по х): У = ^ 7.1475-103.98 7-1593 —ЮЗ2 = 7,73 + 0,426^. y--7,73+0A2Gx _i 1 14 10 12 Ш 16 18 20 Рис. 50. Прямые регрессии из примера 2. Можно эту задачу решить элегантнее и быстрее: вначале определяется Ьух по заданному соотношению, затем значения хну, которые подставляются в уравнение аух^-Ь^х. E.23) 379
При х = i~ - 14,714 иЦ= 14, aj/3c = 14—0,426 • 14,714 = 7,729. Для прямой регрессии х по у> согласно E.22а) и E.21), получаем! ЮЗ.1400—98.1475 7-1400—982 7-1475—103-98 •=-1,786; 1 1?Q 7.1400—982 х = ахУ-\-Ьхуу, или jc=—1,79+1,179у. Быстрее можно вычислить — особенно при многозначных х и у — с использованием преобразованных значений х и у фух и $ху остаются без изменений). Таблица (=*-15) —2 2 —5 2 5 —4 0 —2 L08 (=4-14) 2 3 -3 —1 2 0 1 *0 4 4 25 4 25 16 0 78 У* 4 . 9 9 1 4 0 1 28 х-у 4 6 15 —2 10 0 0 33 ь ОРУ) =7-33-(-2).@)^0426 S*J 7-78 —(—2J _ 7-33 —(~2)-0 _ ~~ 7-28—О2 "" Так как х = ^ = 14,714 и j/ = у = 14, уравнения регрессии имеют вид Ьух(х—х), т. е. у = у—ЬУхх + Ьухх или E.2а) у = 14—0,426 • 14,714 + byx x у = 7,73 + 0,426* х—х =Ьху(у—у)> т. е. x = x xyy, или 380
* = 14,tl—1,179 • 14 + bxy |/, x = —1,79+ 1,179 y. Положение прямой регрессии в системе координат определено этими уравнениями. Коэффициент корреляции оценивается по коэффициентам регрессии E.4), E.18а): г = Vbyx-bxy = ]/0,426.1,179 = 0,709 и г* =0,753. # 5.4.3. ОЦЕНИВАНИЕ СТАНДАРТНЫХ ОТКЛОНЕНИЙ Стандартные отклонения sx и sy определяются как суммы квадратов отклонений переменных хну. Напомним (см. гл. 3): Qx = 2 (х—~xf = I>x2— = 2 {y-yf = 2r/2-( Каждое наблюдение для двухфакторного распределения представляет собой пару значений (х9 у). Произведение отклонений от соответствующих средних значений является мерой степени взаимосвязанности наблюдений: Среднее произведение отклонений 2(х-${у-у) Qxv _ _„. является оценкой sxy, так называемой ковариации аху. Расчет суммы произведений отклонений, коротко Qxy, облегчается применением следующих формул: E.25а) E.256) E.25) IV Выражение E.25) наиболее удобно для вычислений. С помощью Qxy можно определить коэффициент корреляции г, а также оба коэффициента регрессии: " ¦=, E.26) 381
Стандартное отклонение для у при условии, что х принимает определенное значение, равно ,-а-Ьг,^,- E2Q) Символ Sy.x — стандартное отклонение значений при заданных х — читается как «sy точка х». Числитель под корнем представляет собой сумму квадратов отклонений наблюдаемых значений у от соответствующих значений по уравнению регрессии. Эта сумма делится на (п — 2), а не на (п — 1), так как по наблюдаемым данным оцениваются два параметра а и Ьух. Значение sy%x может быть получено, если для каждого значения х определить на основании уравнения прямой регрессии соответствующее значение у, квадраты отдельных разностей (У — УJ просуммировать, разделить на объем выборки без двух и из полученного выражения извлечь квадратный корень. Быстрее стандартное отклонение моокно получить по формуле . E.29a) Так как sy.x есть мера ошибки, которая получается при оценке или предсказании у по заданным ху это стандартное отклонение называется также стандартной ошибкой оценивания или стандартной ошибкой предсказания. Две линии, параллельные линии регрессии и отстоящие на расстоянии 2 sy.Xi образуют полосу, содержащую около 95% всех наблюдений. Если обозначить стандартное отклонение а через sa, стандартное отклонение коэффициента регрессии Ьух = Ь через sb, то получим: Контроль для sa и sb: i/^. E.306) sb Квадрат стандартной ошибки оценивания называется остаточной дисперсией: остаточная дисперсия sl.x — рассеяние относительно прямой регрессии — это дисперсия у после исключения влияния рассеяния х. 382
sl« = (sl-blxsl) -5=1 =S|(l-r2)-^. E.31) fl—Z ft Z При больших объемах выборки справедливо: sy.x~syVT=r2; E.32) вадаг*х/Г=Л E.33) Пример Рассмотрим последний пример, где п — 7, 2х = 103, 2г/ = 98, 2 = 1593, 2#2 = 1400, 2ху = 1475. Вначале вычислим: Q^ = 1593— A03J/7 = 77,429, Qy = 1400 — (98J/7 = 28, Qxy = 1475 — 103 • 98/7 = 33. Затем, согласно E.26) и E.18а), г = -Ящ=^ 33 =0,709 и г* = 0,753. VQxQy 1/77,429-28 Стандартные отклонения Qx и Qv переменных х и у равны: Далее определяем стандартную ошибку предсказания по формуле E.29а): s y *°-*»-/"»~» = it670. у 5 Затем находим стандартные отклонения коэффициентов а и ft: s. =1,670-1/ — + =^2,862; а»« У 7 77,429 1,670 ^ o,19O J/ 7 |/ я Проверка: Формулы для проверки Для контроля за правильностью вычислений используют следующие соотношения: 383
1) 2 (х + yf = 2x2 + 2*/2 + 2Ъху\ . E.34) 2) 2(* + ^—1 [2(* + у)р = <гж + (гУ + ЭДяу; E.35) ^J ,-„-. n2— F.00) Пример Проверим результаты примера 2 (с. 379) и определим с помощью табл. 109 суммы 2 (х + у) и 2 (х + уJ. Известно, что 2 х2 = 1593, 2*/2 = 1400 и 2ху = 1475. Если вычисления верны, то, согласно E.34), 5 943 = 1 593 + 1 400 + 2 • 1 475 = 5 943. Теперь для контроля сумм Таблица 109 квадратов отклонений Qx = = 77,429, Qy = 28 и Q^ = 33 используем уравнение E.35): 5 943—A/7) • 2012 = = 171,429 = 77,429 + 28 + + 2-33. Для последней проверки нужно по уравнению регрессии у = 7,729 + 0,426 х для 7 заданных х-значений вы- юз числить оценки значений у. Таблица ПО X 13 17 10 17 20 11 15 у 12 17 11 13 16 14 15 х+у 25 34 21 30 36 25 30 (х+У)* 625 1156 441 900 1296 625 900 201 X 13 17 10 17 20 11 15 у 12 17 11 13 16 14 15 у 13,267 14,971 11,989 14,971 16,249 12,415 14,119 у-у -1,267 2,029 —0,989 — 1,971 —0,249 1,585 0,881 +0,019 (у-уJ 1,6053 4,1168 0,9781 3,8848 0,0620 2,5122 0,7762 13,9354 Полученное для sy.x значение 1,67 подставляем в E.36): 5 943 1,672 = 2,79 = 13,9354 384
5.4.4. ОЦЕНИВАНИЕ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ И ПРЯМОЙ РЕГРЕССИИ ПО КОРРЕЛЯЦИОННОЙ ТАБЛИЦЕ Если классифицируются коробки конфет по длине основания или люди по росту и весу, то имеются налицо пары случайных переменных, так что возникает вопрос о возможной корреляции между признаками. При расчете коэффициента г предполагается, что данные относятся к двумерному нормальному распределению. Обычно удобно представить двумерное распределение частот с определенной комбинацией признаков в виде корреляционной таблицы с ^-столбцами и /-строками. Для каждого из двух признаков нужно выбрать постоянную ширину класса Ь. Далее, значение Ь не должно быть слишком большим, так как это обычно приводит к занижению значения г. Среднее значение класса, как обычно, обозначим xt или уг. На основании исходных списков составляется точечная диаграмма (рис. 51) с пронумерованными классами (столбцы и строки). Каждое поле таблицы содержит определенное число точек; два противоположных угла таблицы обычно остаются незаполненными или слабо заполненными. Схема расчета регрессии и корреляции 1-й шаг: вычисление величин !ct ~у, Qx, Qyt Qxy на основании сумм 2*, 2д9 2*2, 2 у2, Лху и значения я. Проверка вычислений: —± {2 х=— 2*, у=— 2*/, п п ft - ft — 2-й шаг: вычисление величин Qy.x, byx, ayx, r, sx, sy, sxy, sy.x, Qx i / %-x - и - л f Qy Sy-X a,,x = y—byXx, sy= у n_l , sbyx=--y—, VOxTy ' XV~ n-\ Проверка вычислений: 13 Зак. 930 385
sf, „ = ¦ Схема проверки регрессии на основании дисперсионного анализа Причина Регрессия Остаток Итого SAQ (QxyJ/Qx Qy-(QXyJ/Qx Qxy Число степеней свободы V 1 л—2 л— 1 MQ (SAQ/v) — MQR <^perp./MQocT.>F(U_2,a) F Если MQperp./MQOCT. = /7>/7A, „_2, а), то нуль-гипотеза Яо (Р отклоняется. Подробнее об этом см. гл. 7. Признак II 5 4 3 2 1 1 •• 1 2 • •• ••• • 2 3 • ••• ••• • 3 4 •••• • •••• ••• •••• • 4 5 •••• ••• •••• • • 5 6 • •• 6 5 4 3 2 1 Признак I Рис. 51. Точечная диаграмма двумерного распределения. Число точек поля в клетке, образованной i-u столбцом (признак I) и /-й строкой (признак II), обозначается как Пц. Тогда суммы по строке = СУММЫ ПО СТОЛбцу = 386
k I и, естественно, п = При ширине классов 6Х и 6^, наибольших классах: л:а— по строке я уь — по столбцу, при -t,, и где ViKWj — целые числа, коэффициент корреляции равен: % S :• E.37) Таблица 111. Корреляционная таблица Признак I 1 ё \ Кла ; 1 ] \ ее № 1 Класс № У У У '1 7 1 Сумма по столбцу 1 хх ... -а - ' у - пг. • • • i i %. . . П/у • • • Пц • * • rtt. ... j 41 nkl Ч- Суммы по строке п п п 1 •/ 1 п Пример Рассчитайте коэффициент г для длины и ширины 50 коробок конфет (табл. 112; xt и t/j — средние значения классов). Вначале определяются vt и wj (в нашем случае ха = 24 и #ь = 18): 12—24 " 4 21 — 18 : 16—24 — —Z И Т. Д.; , 18 — 18 . = 1, —-—=0 и т. д., 13* 287
далее определяются суммы по строкам и по столбцам и четыре суммы произведений. Для расчета суммы 22 niptwj образуем маленькую вспомогательную таблицу: рассчитаем произведения vtwj и п^, перемножим их на значения 18 18 0 4 12 6 +22 1 0 3 2 +4 0 0 0 0 +о 7 0 —1 +6 2 0 +2 8 0 6 14 24 52 i I Согласно E.37), получаем 50-52—(—9) (—15) = 0,6872. У[50.79—(—9J] [5071—(—15J] Мы могли бы, естественно, рассчитать г с помощью сумм E.18): 2^.^ = 2-12+7-16+ ...+3-32= 1164; i . + 3-322 = 28336; 2 п./ Vi- 3-9 + 5-12+. ..+ 14-21 = 855; .+ 14.212= 15219; 32-B- 16.(9 + 3.12 + 2-15+ 18) + ...+ = 20496. г = 20496 — — • 1164-855 ои 1/ [28336—---116421 [ 15219—j- 855^1 = 0,6872. Если одна из исследуемых величин может рассматриваться как переменная, независимая от другой, то необходимо корреляционный анализ дополнить регрессионным анализом. При этом определяют оба средних значения, стандартные отклонения, остаточные дисперсии и прямые регрессии, а также другие интересующие величины (см. также схему на с. 386, а также с. 401 — 402) (bx nby — ширины классов): .388
Таблица 112. Основания 50 коробок измерены в см у. 21 18 15 12 9 xi \ „ \ ' Л 1 0 \ —2 —3 Сумма /-го столбца 12 —3 2 2 -6 18 16 —2 1 2 3 1 7 —14 28 20 —1 1 3 3 1 8 -8 8 24 0 5 7 4 1 17 0 0 с конфетами; 28 1 7 5 1 13 13 13 32 2 1 2 3 6 12 размеры Xi и у г Сумма /-Й строки п'\ 14 18 10 5 3 50 п п . w. 14 0 — 10 -10 —9 -15 а *7 14 0 10 20 27 71 —9 79 2rt/.i;2. ( 9) +^„=^4-^-+ 24 = 23,28; 50 50 18= 17,10; / 50 (s^J = s^(l—r2) -^—- = 3,462A—0.68722)-— =6,4497; n—2 48 (sx.y)* = si A -r2) -5=1 = 4,9762( 1 -0,68722) — = 13,3398; n—2 48 bvx = r ^- = 0,6872 S Sx 6 = г ^- = 0,6872 -^1 = 0,9883; 3,460 4,976 4,97 3,460 = 0,47^8; 389
аУх = У—&у**= 17,10-0,4778-23,28 = 5,977; axy = x—bxyy = 23,28 — 0,9883-17,10 = 6,380, т. е. у = 5,977 + 0,478л;, х = 6,380 + 0,988г/. • 5.4.5. ДОВЕРИТЕЛЬНЫЕ ГРАНИЦЫ ДЛЯ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ 95%-ный доверительный интервал для р определяется по рис. 52 как расстояние между точками пересечения вертикали, соответствующей значению г, с кривыми, соответствующими значению п. Если доверительный интервал не включает значение р = 0, то можно говорить о наличии корреляции (р Ф 0). Доверительные границы для больших п определяют с помощью E.41). -1,0 -0,9 -0.8 -0.7-0,6 -0.5 -ОЛ -Q3 -0.2 -0,1 О +0,1 +0,2 +0.3 +0,4 +0.5 +0.6 +0.7 +0,8 +0,9 +10 -!t0-Q.9-0,8-0,7-Of-0,5-0.4-ЦЗ-0.2-0J 0 +0.1 +0,2 +0.3+0,4 +05+0,6+0,7+0,8*0,3+1,0 Коэффициент корреляции быдорки г Рис 52. Доверительные границы для коэффициента корреляции: 95%-ный доверительный интервал для р; числа на кривых означают объем выборки TD a v i d F. N. Tables of the Ordinates and Probability Integral of the^Distr - button of the Correlation Coefficient in Small Samples, The Bwmetnka Office, London, 1938]. 390
Примеры 1. Рассмотрим пример с г = 0,5 и п = 3. Определяем ординаты пересечения вертикали г = 0,5 с кривыми, соответствующими п = 3, и получаем: рх ~ — 0,91, р2 ^ + 0,98. Доверительный интервал слишком большой (— 0,91 < р < + 0,98) и по существу не несет никакой информации о коэффициенте корреляции. 2. Для г = 0,68 и п = 50 получаем 0,50 ^ р <1 0,80, что соответствует утверждению о наличии корреляции. 5.5. КРИТЕРИИ ф 5.5.1. ПРОВЕРКА НАЛИЧИЯ КОРРЕЛЯЦИИ, А ТАКЖЕ НЕКОТОРЫЕ СРАВНЕНИЯ Наличие корреляции, т. е. гипотеза о том, может ли выборочный коэффициент корреляции иметь случайные отклонения от нуля при генеральной совокупности с параметром р = 0, проверяется по Р. А. Фишеру на основании /-распределения с (п — 2) степенями свободы (с. 130-131). E.38) При t^ tn-2\ а гипотеза Яо : р = 0 отклоняется (см. I D), с. 358)« Еще проще проверка, если использовать табл. 113 (с. 392). Примечания 1. Нуль-гипотеза р = 0 может быть отклонена также на основании F-pac- пределения с помощью статистик: Р = ^, E.38а) vi=l, v2 = n—2, Vj=v2=n—2 [Kymn, 1968]. E.386) 2. Сравнение с заданным значением р возможно провести с помощью ста- тистики: v=n—2 [Samiuddin, 1970]. E.39) 391
Таблица 113. Проверка коэффициента корреляции на значимость (относительно нуля) Число ст. .свободы 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 50 60 70 80 90 100 120 150 200 250 300 350 400 500 700 1000 1500 2000 Двусторонний критерий 5% 0,9969 0,9500 0,8783 0,811 0,754 0,707 0,666 0,632 0,602 0,576 0,553 0,532 0,514 0,497 0,482 0,468 0,456 0,444 0,433 0,423 0,413 0,404 0,396 0,388 0,381 0,374 0,367 0,361 0,355 0,349 0,325 0,304 0,273 0,250 0,232 0,217 0,205 0,195 0,178 0,159 i 0,138 0,124 0,113 0,105 0,0978 0,0875 0,0740 0,0619 0,0505 0,0438 1% А* 0,9900 0,9587 0,917 0,875 0,834 0,798 0,765 0,735 0,708 0,684 0,661 0,641 0,623 0,606 0,590 0,575 0,561 0,549 0,537 0,526 0,515 0,505 0,496 0,487 0,478 0,470 0,463 0,456 0,449 0,418 0,393 0,354 0,325 0,302 0,283 0,267 0,254 0,232 0,208 0,181 0,162 0,148 0,137 0,128 0,115 0,0972 0,0813 0,0664 0,0575 0,1% Я* 0,9990 0,9911 0,974 0,951 0,925 0,898 0,872 0,847 0,823 0,801 0,780 0,760 0,742 0,725 0,708 0,693 0,679 0t665 0,652 0,640 0,629 •0,618 0,607 0,597 0,588 0,579 0,570 0,562 0,554 0,519 0,490 0,443 0,408 0,380 0,357 0,338 0,321 0,294 0,263 0\230 0,206 0,188 0,175 0,164 0,146 0,124 0,104 0,0847 0,0734 Односторонний критерий 5% 0,9877 0,9000 0,805 0,729 0,669 0,621 0,582 0,549 0,521 0,497 0,476 0,457 0,441 0,426 0,412 0,400 0,389 0,378 0,369 0,360 0,352 0,344 0,337 0,330 0,323 0,317 0,311 0,306 0,301 0,296 0,275 0,257 0,231 0,211 0,195 0,183 0,173 0,164 0,150 0,134 0,116 0,104 0,095 0,0878 0,0822 0,0735 0,0621 0,0520 0,0424 0,0368 1% 0,9995 0,9800 0,934 0,882 0,833 0,789 0,750 0,715 0,685 0,658 0,634 0,612 0,592 0,574 0,558 0,543 0,529 0,516 0,503 0,492 0,482 0,472 0,462 0,453 0,445 0,437 0,430 0,423 0,416 0,409 0,381 0,358 0,322 0,295 0,274 0,257 0,242 0,230 0,210 0,189 0,164 0,146 0,134 0,124 0,116 0,104 0,0878 0,0735 0,0600 0,0519 0,1% С* 0,9980 0,986 0,963 0,935 0,905 0,875 0,847 0,820 0,795 0,772 0,750 0,730 0,711 0,694 0,678 0,662 0,648 0,635 0,622 0,610 0,599 0,588 0,578 0,568 0,559 0,550 0,541 0,533 0,526 0,492 0,463 ' 0,419 0,385 0,358 0,336 0,318 0,302 0,277 0,249 0,216 0,194 0,177 0,164 0,154 0,138 0,116 0#0975 0,0795 0,0689 Л* = 0,999877 В* =0,99999877 С* = 0,9999951 .392
3. Два коэффициента корреляции г± и г2, оцененные по одной и той же выборке (с признаками Л, В, С) (гг = г АВ, г2 = гБС, г12 = гАС), могут быть проверены по [Hotteling, 1940]: 4. Номограммы для определения и суждения о коэффициентах корреляций и регрессии даны в [Friedrich, 1970] (см. также [Ludwig, 1965]), Примеры 1. Пусть а = 0,01;/- = 0,47. Согласно табл. 113, необходимо иметь, по крайней мере, 29 наблюдений (= v + 2), чтобы можно было сделать вывод о зависимости переменных. 2. Если по 27 наблюдениям получено г = 0,50, то при а-0,1 нуль-гипотеза (р = 0) должна быть отклонена, так как 0,50 больше, чем табличное значение @,487). Если коэффициент корреляции значимо отличается от нуля, то его распределение тем сильнее отличается от нормального распределения, чем меньше число наблюдений п и чем больше его абсолютное значение. Распределение коэффициента корреляции может быть приближенно приведено к нормальному с помощью z-преобразования Р. А, Фишера: z=l/2 * In -узг* ^ 1»1513 • lg -узг со стандартным отклонением S- = 2 При этом интервал — 1 <! г ^ +1 переходит в •— оо < z < <; + оо , Это ^-преобразование (г — гиперболический тангенс от г, г = tgh z и z = tgh r) не следует смешивать со стандартной нормальной переменной. Указанное преобразование применяют только при п > 10. При п < 50 Хотеллинг [Hotelling,# 1953] рекомендует вместо zvi s-z использовать zh и s±H: В примерах мы эти поправки не учитывали. Пересчет г вги обратно можно проводить с помощью табл. 114: в первом столбце таблицы стоят значения z (с одним десятичным знаком, второй десятичный знак определяется по строке сверху). Примеч. к табл, 113. Нуль-гипотеза (q=0) отклоняется в пользу альтернативной гипотезы (двусторонний критерий q#0; односторонний критерий q>0 или Q<0), если значение |г| при выбранном критерии, вероятности ошибки и имеющемся числе степеней свободы (v—л—2) равно или больше, чем табличное значение (в этом случае оба коэффициента регрессии руж и р*у отличны от нуля). Односторонний критерий можно применять только тогда, когда предварительно определен знак коэффициента корреляции. Таблица заменяет формулу E.38): например, значение г=0,25 при у**60 (я= = 62) значимо отличается от нуля на 5%-ном уровне. 393
1 1+г Таблица 114. Пересчет коэффициента корреляции z =—In 0,00 0,01 0,0? 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 ,0 ,1 ,2 ,30 ,4 ,5 ,60 ,7 0,0000 0,0997 0,1974 0,2913 0,3800 0,4621 0,5370 0,6044 0,6640 0,7163 0,7616 0,8005 0,8337 ,8617 0,8854 0,9051 ,9217 0,9354 0,94681 2,00 ,2 0 ,30 0,95624 0 ,96403 0 0,97045 0 ,97574 0 ,98010 0 0,98367 0 0,98661 2, 2,4 2,5 2,60;98903 0 2,70,99101 2, " 2, ,8 0 ,9 0 0 ,99263 0 ,99396 0 ,0100 ,1096 ,2070 ,3004 ,3885 ,4699 ,5441 ,6107 ,6696 ,7211 ,7658 ,8041 ,8367 ,8643 ,8875 ,9069 ,9232 ,9366 ,94783 О ,95709 0 ,96473 О ,97103 0 ,97622 О ,98049 0 ,98399 О ,98688 0 ,98924 0 ,99118 0 ,99278 О ,99408 О 0200 1194 2165 3095 3969 4777 5511 6169 6751 7259 7699 8076 8397 8668 9087 9246 9379 94884 95792 96541 97159 97668 98087 98431 98714 98945 0,0300 0,1293 0,2260 0,3185 0,4053 0,4854 0,5580 0,6231 0,6805 0,7306 0,7739 0,8110 0,8426 0,8692 0,8917 0,9104 0,9261 0,9391 0,94983 0 0,95873 0 0,96609 0 0,97215 0,97714 0,98124 ,0400 ,1391 ,2355 ,3275 ,4136 ,4930 ,5649 ,6291 ,6858 ,7352 ,7779 ,8144 ,8455 ,8717 ,8937 ,9121 ,9275 ,9402 ,95080 ,95953 ,96675 0,97269 0,97759 О О О О О О О О О О О О О О О О О О О О О 0,97323 О, ,0500 ,1489 ,2449 ,3364 ,4219 ,5005 ,5717 ,6351 ,6911 ,7398 ,7818 ,8178 ,8483 ,8741 ,8957 ,9138 ,9289 ,9414 ,95175 0 ,96032 0 ,96739 0 ,0599 , 1586 ,2543 ,3452 4301 5080 ,5784 ,6411 ,6963 ,7443 ,7857 ,8210 ,8511 ,8764 ,8977 ,9154 ,9302 ,9425 ,95268 0 ,96109 0 0,98462 0 0,98739 0 0,98966 0 991360,99153 0 99292 0,99306 0 0,98161 1,98492 99420 0,99431 ,97803 0 ,98197 0 ,98522 0 ; 98764 0,98788 О ,99007 0 ,99186 0 ,99333 0 ,99454 0 1,98987 ,99170 0 ,99320 0 ,99443 О ,96803 0 ,97375" ,97846 ,98233 ,98551 ,98812 ,99026 ,99202 ,99346 ,99464 0,0699 0,1684 0,2636 0,3540 0,4382 0,5154 0,5850 0,6469 0,7014 0,7487 0,7895 0,8243 0,8538 0,8787 0,8996 0,9170 0,9316 0,9436 ,95359 0 ,96185 0 ,96865 0 0,97426 0 0,97888 0,98267 0,98579 0,98835 0,99045 0,99218 0,99359 0,99475 0,0798 0,1781 0,2729 0,3627 0,4462 0,5227 0,5915 0,6527 0,7064 0,7531 0,7932 0,8275 0,8565 0,8810 0,9015 0,9186 0,9329 0,9447 1,95449 О О О О О О О О О О О О О О О О О О О (,'96259 0 1,96926 0 О О О О О О О 9 О 1,97477 0,97929 0,98301 0,98607 0,98858 0,99064 0,99233 0,99372 0,99485 ,0898 ,1877 ,2821 ,3714 ,4542 ,5299 ,5980 ,6584 ,7114 ,7574 ,7969 ,8306 ,8591 ,8832 ,9033 ,9201 ,9341 ,9458 ,95537 ,96331 ,96986 ,97526 ,97970 ,98335 ,98635 ,98881 ,99083 ,99248 ,99384 ,99495 0,0 0,1 33 44 0,2 » 99933 0,99945 0,99955 0,4 99505 0,99595 0,99668 0,99728 0,99777 ,99970 0,3 9971 0,99963 0 0,5 0,99818 0 0,99975 0,6 ,99851 0,99980 0,7 0,8 99878 0,99900 99983 0,99986 0,9 0,99918 0,99989 Источник: Fisher R. A. and Yates F. Statistical Tables for Biological, Agricultural and Medical Research, Oliver and Boyd Ltd., Edinburgh, 1963, p. 63. Преобразование малых значений г @ < г < 0,20) в г — tgh r достаточно точно выполняется по формуле г= г + (г^/З) (например, для* =0,10 г = 0,10). Значения z для г = 0,00 @,01) 0,99 дает следующая таблица (для г = 1 z — оо ): 394
30 о, 0,1 0 " о 0,4 0 0 о, 0,8 0,9 о,со 0,01 0 0,00000 0,01000 0 0,10034 0,11045 0 2 0,20273 0,21317 0 ,30952 0,32055 0;33165 0,42365 0,435610 5 0,549310,56273 0 6 0,69315 0,70892 0 70 0,02 ,69315 0 ,86730 0,88718 1,09861 1,47222 ,12703 ,52752 ,72501 0,03 ,02000 0,03001 ), 12058 О ,22366 0 1,13074 ,44769 0,45990 ,57634 0,59015 0,74142 0,9076410,92873 ,15682 ,58903 ,18814 ,65839 0,04 ,23419 0,24477 0,25541 0,34283 0 0,05 0,06 0,04002 0,05004 0,06007 0,07011 0,140930,151140,161390 0,26611 ' ,37682 0 ,35409 0,36544 0 ,47223 0,48470 0,49731 ,60416|0,G1838 0 ~ ' '" ,79281 ,99622 ,29334 w,7581710,77530 0 0,95048 0,97296 0 1,22117 1,73805 1,25615 1,83178 1 1,94591 0,07 0,08 ,17167 0 27686 0 ,38842 О ,51007 0 ,63283 0,64752 0 ,81074 0 ,02033 1 ,33308 1 ,09230 2 ,08017 0 ,18198 0 ),82911 ,04537 ,37577 0,09 ,09024 ,19234 28768 0,29857 40060 0,41180 52298 0,53606 66246 0,67767 0,84796 1,07143 1,42193 297562,64665 Значимость коэффициента корреляции может проверяться также с помощью выражения (см. табл. 113) j7 г E.40) 95%-ный доверительный интервал для р задается выражением 2 ± 1.960S; E.41) С помощью табл. 114 мы можем полученные верхние и нижние значения z снова преобразовать в значения величины г. Тогда неизвестный коэффициент корреляции генеральной совокупности с заданной статистической достоверностью находится внутри интервала, определяемого обоими значениями величины г. Пример На с. 388 для 50 пар наблюдений нами был определен коэффициент корреляции г = 0,6872 ~ 0,687. Значимо ли этот коэффициент отличается от нуля? При v = 48 этот коэффициент, согласно табл. 113, значимо отличается от нуля. Мы хотим еще определить и 95%-ный доверительный интервал. Из табл. 114 получаем z = 0,842 и далее z = zVn — 3 = = 0,842 • У47 = 5,772. Этому значению z соответствует Р < 0,001. 95%-ный доверительный интервал получается в виде = 0,146 И Z ± 1,96-0,146 = 2 ±0,286 0,556 <г< 1,128 0,505 < р < 0,810. 395
5.5.2. ДРУГИЕ ПРИМЕНЕНИЯ ^-ПРЕОБРАЗОВАНИЯ 1* Проверка разности между оцененным коэффициентом корреляции гх и гипотетическим или теоретическим значением параметра р осуществляется на основании стандартной нормальной переменной г по формуле г = \^—2\Ущ^З. E.42) Если произведение меньше, чем граница значимости (табл. 14, с. 68), то можно предположить, что рг = р (см. также с. 391, примечание 2). 2, Сравнение двух оцененных коэффициентов корреляции г1 и г2 производится по формуле E.43) , _3 н2—3 Если отношение меньше, чем граница значимости, то можно предположить, что параметры р1э р2 равны (рх = р2). Оценивание совместного коэффициента корреляции г осуществляется с помощью величины z,* равной __~^ [E-44) при =.• E.45) Значимость 7 может проверяться с помощью величины г, которая выражается формулой -6. E.46) Примеры К Дано: гг = 0,3; пх = 40; р = 0,4. Можно ли считать, что рх = х= р (S = 95%)? Согласно E.42), имеем г = ( 10,3095 — 0,42361) /40—3 - 0,694 < 1,96. а Так как произведение меньше границы значимости, нуль-гипотеза рх s= p не отклоняется. 2. Дано: гх = 0,6; пх = 28 и г2 = 0,8; п2 = 23* Можно ли считать, что рх = р2 (S = 95%)? Согласно E.43), имеем ;_ 10,6932—1,0986) _. 28—3+23—1 396
Так как отношение меньше границы значимости, нуль-гипотеза Pi *= Р2 не отклоняется. Определим 95%-ный доверительный интервал для р: ^17,330+29,972==;() 28+23—6 3 z = 0,8734 ±1,96-0,1491, z=0,8734 ±0,2922, 0,5812 <р< 1,1656, 0,5235 < р < 0,8223. 3. Сравнение нескольких независимых оценок коэффициентов корреляции, Пусть даны k оценок гъ г2, ,.., ги ».., rk, определенные по выборкам объемов /ij, n2, ..., пи ,.., nk. Проверка однородности коэффициентов корреляции (нуль-гипотеза: Pi = р2 = •- ==Рг = ••• ==Ра = Р» где р — чисто гипотетическое значение) осуществляется с помощью статистики Х2=2(^-3)(г,-2J, E.47) при k степенях свободы. Когда статистика меньше, чем граница значимости %2 (если, например, k = 4, то при S = 95% граница равна значению Хо.об; 4 = =9,49), тогда отклонения коэффициентов корреляции от теоретического значения р имеют случайный характер и нуль-гипотеза не отклоняется, Если гипотетическое значение неизвестно, то оно оценивается с помощью выражения E,48) Соответствующее стандартное отклонение равно E.49) ' l/y л—з ' V i=i 397
Проверка нуль-гипотезы рг = р2 = ... = pk = р осуществляется тогда с помощью статистики Х2 = S (я*—3)(z—гI E.50) с (Л— 1) степенями свободы. Если статистика меньше, чем граница значимости, нуль-гипотеза не отклоняется и оценивается средний коэффициент корреляции г. Доверительные границы для общего коэффициента корреляции, т. е. для параметра р, получают обычным путем с помощью величины г и ее стандартного отклонения s° 5-95%: z°±l,960s2o, E.51) = 99%: z± 2,576s- E.52) Далее верхняя и нижняя границы для z преобразуются в соответствующие значения величины г. Пример Таблица 115 п 0,60 0,70 0,80 6,6932 0,8673 1,0986 п1 28 33 23 25 30 20 2i\fli—о) = /О 17,330 26,019 21,972 65,321 • 1 о 0,1777 0,0036 0,2277 • о 0,03158 0,00001 0,05185 or**** 0,7895 0,0003 1,0370 X* = 1,8268 Так как %2 = 1»8 значительно меньше, чем %2; o,os = 5,99, средний коэффициент корреляции можно оценить по формуле 65,321 75 = 0,702; so = 1/1/75 = 0,115; z± 1,96.0,115 = 2 + 0,2254. 95%-ный доверительный интервал для z: 0,6455 < z < 1,0963. 95%-ный доверительный интервал для р : 0,5686 < р < 0,7992. Далее можно снова сравнить две оценки г1 и г2 или сравнить оценку /*! с гипотетическим коэффициентом корреляции р. ф 5.5.3. ПРОВЕРКА ЛИНЕЙНОСТИ РЕГРЕССИИ Проверка нуль-гипотезы: регрессия линейна — возможна тогда, когда общее число значений у больше, чем число k значений х: каждому значению х% из k значений х соответствует nt значений у (когда облако 393
точек отчетливо показывает линейность или нелинейность, можно рассматриваемый критерий не применять). При наличии линейной регрессии групповые средние значения должны лежать примерно на прямой, т. е. их отклонение от прямой регрессии не должно быть слишком большим по отношению к отклонениям значений в группе от их среднего значения. Если отношение Отклонение средних значений от прямой регрессии Отклонение значений у от групповых средних т. е. статистика 1 k—2 ;± г 2 ni(yi- =\ k ni _ E.53) с v1 = k — 2, v2 = n — k степенями свободы достигает или превосходит границу значимости, то гипотезу о линейности нужно отбросить. Нелинейная регрессия рассматривается в разд. 5.6. Суммы в E.53) являются составляющими общего рассеяния значений ytj относительно прямой регрессии S 2 Пример Дана табл. 116: п = 8, имеется k = 4 группы наблюдений. Таблица 116 E-54) УП /=1 1 1 2 2 5 2 3 3 3 9 4 1 13 5 6 2 Проверить линейность при 5%-ном уровне значимости. Вначале оценим прямую регрессию и вычислим для четырех значений xt соответствующие значения yiu Суммы, необходимые для вычисления статистики E.53), следует взять из табл. 117 и 117а. х = • 26 8 399
2 / = l/ 2 /=i S 2 n = 496-52"/8=:158, =104-26^/8=19,5, n = 222—52-26/8 = 63, /=1 / \/=1/=1 Ух Qx 158 ' ' аух = у—byjc = 3,25—0,335-6,5 = 1,07, у =1,07 + 0,335л;. Значение Лстатистики здесь равно 1 4—2 •0,0533 1 - = 0,064. 8—4 •1,67 Так как F = 0,064 < 6,94 = F B; 4; 0,05), то гипотеза о линейности сохраняется. Таблица Х1 1 5 9 13 117 уи 1-2 2;3;3 4 5; 6 ni 2 3 1 2 1 1, 2, 4, 5, п 50 00 50 1 2 4 5 У, 41 ,75 ,09 .43 I'" 0 0 0 0 ,09 08 ,09 ,07 V 0 0 0 0 ,0081 ,0064 ,0081 ,0049 0 0 0 0 ,0162 ,0192 ,0081 ,0098 0,0533 Таблица 117а Х1 1 5 9 13 ! 2 4 5 •2 ;3;3 ;б 1,50 2,67 4,00 5,50 1 у1Гу 0,5; 0,5 0,67; 0,33; 0 0,5; 0,5 •1 0,33 0 0 0 0 с, .25; 0 ,45; 0 ,25; 0 ,25 ,11; 0,11 ,25 7" 0 0 0 0 ,50 ,67 .50 / / 400
Проверка линейности регрессии, оцененной по корреляционной таблице Если данные представлены в виде корреляционной таблицы, то обычно используется другая форма критерия линейности. Исходным при этом является так называемое корреляционное отношение у к ху записываемое Еуху которое характеризует степень отклонения частот по столбцам от средних значений по столбцам: \>Егух>г\ E.55) При линейной регрессии корреляционное отношение и коэффициент корреляции примерно равны друг другу. Чем больше отклонение средних значений по столбцам от прямой, тем больше разность между Еух и г. Эту разность между статистиками можно использовать для проверки гипотезы линейности. Отношение D2) [-*~А E.56) , = n—k, где k — число столбцов, подчиняется /^-распределению с vx = k ¦— 2 и v2 = n — k степенями свободы. Значимое /^-отношение соответствует значимому отклонению от линейности. Квадрат корреляционного отношения оценивается по формуле ?!, = !=?. E.57) Вычисление Slf 52, R иллюстрируется следующим примером. Образуем в табл. 112 для каждого хг суммы вида 2п^ wj, т. е. {2 (—3)}> {1(-3) +3 (-2) + 2 (- 1) +1 @)}, {1 (- 2)+3(-1) + 3@) + 1 A)Ь { 1 (— 2) + 4 (_ 1) + 7 @) + 5 A)}, {1(—1) + 5@) + 7A)}, {2 @) + 1 A)}. Разделим квадраты этих сумм на соответствующие значения nt и просуммируем по всем i. В итоге получим Si: (^ (-Ш! (^ Ь^^ 1 27 817 13 3 S2 имеется в табл. 112 как ^tijw] = 71. R можно вычислить по известным значениям 2 n.jWj и п: R = (Sn#/ Wjfln = (—15J/50 - 4,5. Теперь вычисляем Е%х по формуле E.57): i^ 4044745== 71-4,5 401
и статистику F по формуле E.56): 1 @,541—0,472) = 1,653. Так как F = 1,653 < 2,55 = F D; 54; 0,05), у нас нет оснований отвергнуть гипотезу о линейности. Предпосылки регрессионного анализа Итак, мы обсудили проверку важной предпосылки регрессионного анализа. Другие предположения или предпосылки следовало бы также коротко отметить, так как при обсуждении критериев мы предполагали, что они хотя бы приближенно выполнены. Одновременно с существованием линейной регрессии совокупность выходных или преобразованных данных значения независимой случайной переменной хг при заданных точно значениях зависимой переменной уг должны быть нормально распределены и иметь равную остаточную дисперсию о^.*. Эта однородность остаточной дисперсии называется гомоскедастичностью. Малые отклонения от гомоскедастичности и от нормальности могут не приниматься во внимание. Подробнее об этом следует смотреть в специальной литературе. Для практической работы важны следующие положения: 1. Данные действительно принадлежат генеральной совокупности, о которой выше шла речь. 2. Не существует других переменных, которые как-либо определяют зависимость между х и у. Когда проверка показывает значимое отклонение от линейности, наиболее целесообразно добиться линейности преобразованием переменных. При обсуждении дисперсионного анализа мы подробнее остановимся на этой проблеме. Если с помощью преобразования не удается добиться линейности, то вместо линейной функции можно рассмотреть функцию второго порядка от наблюдаемых значений (см. разд. 5.6). ф 5.5.4. ПРОВЕРКА ЗНАЧИМОСТИ КОЭФФИЦИЕНТА РЕГРЕССИИ Если проведенная выше проверка не дает оснований сомневаться в линейности регрессии, то осуществляется проверка значимости коэффициента регрессии: проверяется нуль-гипотеза Но : $ух = 0, т. е. проверяется, отличается ли статистически значимо оценка коэффициента регрессии от нуля. Граница значимости устанавливается на основании распределения Стыодента t = lhA E.58) S с (п — 2) степенями свободы. Если статистика больше, чем граница значимости или равна ей, то $ух значимо отличается от нуля (см. с. 385 и 392). 402
Пример Дано: byx = 0,426; s Ьух = 0,190; n = 80; 5 = 95%, т. е. /78=0.05=1,99, Параметр $ух значимо отличается от нуля (Р < 0,05). Если рассчитать коэффициент корреляции г, то при р = 0 и $ух фху) = 0. 5.5.5. ПРОВЕРКА СОГЛАСИЯ МЕЖДУ ОЦЕНЕННЫМ И ГИПОТЕТИЧЕСКИМ КОЭФФИЦИЕНТАМИ РЕГРЕССИИ Для проверки согласия оценки коэффициента регрессии Ьух с теоретическим значением $ух используется тот факт, что статистика $ЪУХ имеет /-распределение с (п — 2) степенями свободы: f = t ^Уде— Руас | #t/"^ j _. 1 ^j/дс— Руде I Sx_ yn 2 = 1 ^Удс— Рузе I /5 59) syJsx к УГ^-Т2 *8у'у *ьух Пример Дано: byx = 0,426; $ух = 0,5; s6yx = 0,190; л - 80; S = 95%, т. е. *78; 0,05 = 1,99; Не имеется никаких оснований для отклонения нуль-гипотезы (Р > 0,05). 5.5.6. ПРОВЕРКА СОГЛАСИЯ МЕЖДУ ОЦЕНЕННЫМ И ГИПОТЕТИЧЕСКИМ ЗНАЧЕНИЯМИ а Для проверки нуль-гипотезы: аух сопоставимо с аух, используется статистика E.60) с (п — 2) степенями свободы. Пример Дано: аух = 7,729; а^,, = 15,292; sfl = 2,862; п = 80; 5 = 95%, Т. е. /78; 0,05 = 1,99. f=,7,729-15,292,= 2,862 Значения аух и а^х отличаются значимо и, следовательно, значимо отличаются прямые регрессии (Р < 0,05). 403
5.5.7. ДОВЕРИТЕЛЬНЫЕ ГРАНИЦЫ ДЛЯ КОЭФФИЦИЕНТА РЕГРЕССИИ, ДЛЯ СВОБОДНОГО ЧЛЕНА И ОСТАТОЧНОЙ ДИСПЕРСИИ Доверительные интервалы для коэффициента регрессии и для свободного члена определяются выражениями E.61) и E.62) при (п — 2) степенях свободы для t: byx±tsbyx и ayx±t-sayx. E.61; 5.62) Примеры на 95% -ные доверительные интервалы (ДИ) Дано: Ьух = 0,426; sbyx = 0,190; п = 80; S = 95%, т. е. ^78; 0,05= 1,99, 1,99-0,19 = 0,378, byx±tsbyx = 0A26± 0,378, 95%-ный ДЯ: 0,048 < рул < 0,804, Дано: аух = 7,729; sayx = 2,862; л = 80; 5 = 95%, т. е. ^78; 0,05 = 1,99, 1,99-2,862 = 5,695, ayx±tsayx = 7,729 ±5,695, 95%-ный ДЯ: 2,034 <аух< 13,424, При больших значениях п можно границы ^-распределения заменить границами нормального распределения. Доверительный интервал для остаточной дисперсии о%.х определяется следующим выражением: sl х(п—2) л(п— 2; а/2) А(я—2; 1— а/2) Пример Дано: а}., = 0,138; п = 80; 5 = 95%; Х?8; 0.025 = 104,31; Х78; 0.975 =55,47. 95%-ный ДИ: ^^[013878 E-63) 104,31 * 55,47 ' 0,103 <ol.x< 0,194. # 5.5.8. СРАВНЕНИЕ ДВУХ КОЭФФИЦИЕНТОВ РЕГРЕССИИ Два коэффициента регрессии Ьг и 62 можно сравнить с помощью статистики: l6M E.64) ^..х.("»-2) Г 1 1 1 -4 LQx, «*. J 404
с (пх + п2 — 4) степенями свободы (нуль-гипотеза: $г = ($2), Предполагается, что выборки {пъ п2) из генеральных совокупностей независимы и имеют равные остаточные дисперсии (о^. */=<**,•*,)• Примеры Дано: п1==40, 5*^ = 0,14; QXl= 163; ^ = 0,40; n2=50, *$,.,,=* = 0,16; Q^2= 104; 6а = 0,31. Нуль-гипотеза: рх = |32. а) односторонний критерий (а = 0,05), альтернативная гипотеза! Pi > Р2; б) двусторонний критерий (а = 0,05), альтернативная гипотеза: Pi Ф ?,. f= [0,40—0,31 | = j g5 0,14D0—2L-0,16E0—2) 40+50-4 /J_ _1\ \163+104J а)Таккак?== 1,85 > 1,66 = ^8б; о,о5; одностор, нуль-гипотеза на 5%-HdM уровне отклоняется. б) Так как ?= 1,85 < 1,99 = f86; o.os; двустор, нуль-гипотеза не от- - клоняется. В случае неравных остаточных дисперсий, т. е. когда «i — 2; л2 — 2; 0,Ю)> LE.65) сравнение проводится приближенно по статистике E.66) объемы обеих выборок должны быть не меньше 20, Если объем выборки меньше, то можно распределение статистики аппроксимировать ^-распределением с v степенями свободы: A-е при с = 1—2 /г2-~2 v находится между (пг — 2) и (пх + п2 — 4) (см. [Potthoff, 1965])* Несколько коэффициентов регрессии сравниваются с помощью ковариационного анализа (см. [Duncan, 1970]). 405
ф 5.5.9. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ ДЛЯ ПРЯМОЙ РЕГРЕССИИ Каждая заданная прямая регрессии при изменении ~у смещается параллельно самой себе вверх или вниз. Если изменяется коэффициент регрессии Ъ, то прямая поворачивается вокруг точки ~{х~у) (см. рис. 53). Определим вначале два стандартных отклонения. 1. Стандартное отклонение для среднего значения у в точке х: Qx E.68) Влияние изменчивости b Влияние изменчивости у Рис. 53. Доверительная область для линейной регрессии. Рис. 54. Схема доверительной области с зависимым от х разбросом Вх для линейной регрессии. 2. Стандартное отклонение для индивидуального значения у, в точке х: Доверительные интервалы для: 1) всей прямой регресии E.69) E.70) E.71) y±t{n-2)Sg.. E.72) Эти интервалы справедливы только для области измерений. Они отображаются гиперболами, зависящими от х. Рис. 54 показывает возрастание статистической ненадежности при удалении от средней точки 406 2) среднего значения наблюдения в точке х y±t(n-2)Sg\ 3) индивидуального наблюдения у в точке х
прямой регрессии. Доверительный интервал E.70) — наибольший из трех, а E.71) — наименьший. Пример Вернемся снова кт1ростому примеру на с. 379, выберем 4 значения х, для которых необходимо определить соответствующие доверительные интервалы (S = 95%, т. е. F{2; 5; 0,025) = 8,43). Значения х должны лежать внутри области измерений и находиться на равных интервалах друг от друга. В табл. 118 эти четыре значения х помещены в 1-м столбце, их отклонения от среднего значения (х = 14,714) — в следующем столбце. Третий столбец содержит значения у, рассчитанные для выбранных значений х на основании уравнения у = 7,729 + 0,426 х. Отклонения значений х от среднего х возводятся в квадрат, делятся на Qx = 77,429, суммируются с — = j и заносятся в четвертый столбец. Квадратный корень из этого промежуточного результата E столбец) умножается на V2F • sy.x = V2 • 8,43 • 1,67 = 6,857 и образует соответствующие значения Вх (см. у ± Вх, где Вх = V2 F{2, л-2> X s-). Таблица 118 X 12 14 16 18 х—х (лг = 14,714) -2,714 -0,714 1,286 3,286 У 12, 13, 14, 15, 84 69 54 40 г п ОООО (Х-ХJ 2380 1494 1642 2823 , / 1 (Х-ХJ У п+ Qx 0,488 0,387 0,405 0,531 3 2 2 3 ВХ ,35 ,65 ,78 ,64 Если соединить полученные верхние и нижние точки доверительных интервалов кривыми, то получим 95%-ную доверительную полосу для всей прямой регрессии. Если необходимо больше точек, то нужно обратить внимание на то, что на основании симметрии четыре значения Вх представляют собой практически восемь значений Вх и поэтому необходимо определить только недостающие значения уш. Например, Вх имеет одно и то же значение при х = 14, т. е. (х— 0,714), и при х = 15,428, т. е. (х + 0,714). При более точных вычислениях целесообразно значения столбца 4 задавать с точностью 6 знаков! Таблица 119 а- 9 И 11 11 *. ,49 ,04 ,76 ,76 16 16 17 19 +вх ,19 ,34 ,32 ,07 407
Да лее мы определим два других доверительных интервала (^5; cos *= 2,57) для точки к = 16, для чего в первую очередь нужно вычислить 5д>=1б по формуле E.71) и J3*=i6 по формуле E.72): Формула E.70) E.71) E.72) Сокращенная запись &х = const — ZSy'X I/ г -*../-!¦¦ -2,67.1,67 l/-f У±В' A6—14,714J т *=const В1в= 1,738 ~ 1,74. 77,429 95%-ный доверительный интервал для оценки среднего значения для величины у при х = 16 равен 14,54 ± 1,74; граничные значения интервала: 12,80 и 16,28, R' 0^7 1fi7l /i ¦ 1 , A6-14,714J . В16 = 2,57-1,67 у 1+_ + __—_f ~4,63. 95%-ный доверительный интервал для оценки величины у при х = 16 равен 14,54 ± 4,63; граничные значения этого интервала: 9,91 и 19,17. Этот интервал для отдельного значения значительно больше, чем интервал для среднего. 95%-ный доверительный интервал относительно прямой регрессии при п > 30 может быть с хорошей точностыо оценен по формуле у = (а ± D) + Ьху где D = /Л_2; o.os $у.х* 5.6. НЕЛИНЕЙНАЯ РЕГРЕССИЯ Во многих случаях графическое представление данных показывает, что интересующая нас зависимость не может быть описана прямой линией. Очень часто достаточно точным для описания фактической взаимозависимости является уравнение второго порядка. Мы снова воспользуемся методом наименьших квадратов. Общий вид уравнения второго порядка: у = а + Ьх + сх2. E.73) Постоянные а, Ь и с для искомой функции второго порядка получают из следующих нормальных уравнений: I an + Ы,х + с2*2 = 2у, E.74а, б, в) II aZx + bZxt + cZxb^Zxy, 111 aZx2 + b2xz + с!хй = 2x2 у. 408
Рассмотрим для иллюстрации простой пример. Пример Таблица 120 X 1 2 3 -4 5 15 у 4 1 3 5 6 19 ху 4 2 9 20 30 65 1 4 9 16 25 55 4 4 27 80 150 265 1 8 27 64 125 225 X* 1 16 81 256 625 979 Значения сумм подставляем в нормальные уравнения: I 5а + 156 + 55с = 19 II 15а + 556 +255с = 65 III 55а + 2256 + 979с = 265 Вначале из I и II, а также из II и III уравнений исключаем величину а: 5а+156 + 55с=19 -3 15а+ 556 +225с = 65 15а+ 456+165с = 57 15а+ 556 +225с = 65 IV 106 +60с = 8 15а+ 556 +225с = 65 -11 55а+ 2256 +979с = 265 -3 165а+ 6056 +2475с = 715 165а+ 6756 +2937с = 795 V 706 +462с = 80 Из IV и V уравнений исключаем величину 6 и определяем с: 706 +462с = 80 106+ 60с= 8 -7 706 +462с = 80 706 +420с = 56 42с = 24 24 12 = —= —= — ( = 0,571). 42 21 7У ' ' 409
Подставляя значение с в IV уравнение, получаем Ь: 106 + 60с = 8, 8, 706 + 240 = 56, -240 =_J81=__92_ 70 70 35 V ' Подставляя значения Ь и с в I уравнение, получаем а: 50+15 -(-1г)+55(тН9' 5fl+ 19 35 7-5 35-5а—15-92 + 55-20= 19-35, 175а —1380+1100 = 665, 175а—280 = 665, Проверка. Подставляем полученные значения в нормальное уравнение. 5 • 5,400—15 ¦ 2,629 + 55 • 0,571 = 27,000—39,435 + 31,405 = = 18,970 ~ 19,0. Уравнение второго порядка имеет вид: у = — —— * + —*2 а 5,400—2,629л: + 0,5714дга. 35 35 7 Таблица 121 (с. 411) показывает качество согласования. Уравнение второго порядка преобразовано таким образом, чтобы все три постоянные имели общий знаменатель 35. Колебания (у — у) значительны, особенно в минимуме. Иногда лучшее согласование достигается с помощью уравнения у — а + Ьх + сУх (см. табл. 124). Если имеется подозрение, что описываемая зависимость представляет собой экспоненту вида у = аЪ\ E.75) то применяется логарифмирование lg У = lg а + х • lg Ь\ E.75а) соответствующие нормальные уравнения имеют вид: I n-lga + Bx).lg6 = 21gy; II (Zx)-lga + Bx*)-lgb=Z(x-lgy). 410
Таблица 121 X 1 2 3 4 5 у 4 1 3 5 6 19 189 92 4 У 35 35 7 189/35-92/35.1+20/35-1 189/35-92/35.2 + 20/35-4 189/35—92/35-3 + 20/35.9 189/35—92/35-4 + 20/35-16 189/35-92/35-5 + 20/35-25 -X* 117 ~" 35 85 - 35 93 - 35 141 ~ 35 229 ~ 35 = 3 = 2 = 2 = 4 = 6 19, ,34 ,43 ,66 ,03 ,54 00 у— у 0,66 -1,43 0,34 0,97 —0,54 0,00 Так как используемая здесь экспоненциальная функция обычно дает несколько искаженные оценки величин а и Ь, обычно лучше E.75) заменять уравнением у = abx + d и оценивать величины а, Ъ и d по [Hiorns, 1965]. Пример Таблица 122 X 1 2 3 4 5 15 у 3 7 12 26 51 99 te у 0,4771 0,8451 1,0792 1,4150 1,7076 5,5240 x\gy 0,4771 1,6902 3,2376 5,6600 8,5380 19,6029 1 4 9 16 25 55 Значения сумм подставляем в уравнения: •3 = 19,6029 15 lg a +45 lg b =16,5720 551gb=19,6029 10 lg 6 = 3,0309 lg 6 = 0,30309 411
подставляем в I уравнение 5 lg a+ 15-0,30309 = 5,5240, 5 lg a + 4,54635 = 5,5240, 5 lg a = 0,9776, lg а = 0,19554. Соответствующие значения антилогарифмов равны: а = 1,569; Ь = 2,009. Экспоненциальное уравнение для оценивания величины у с помощью химеет вид: у= 1,569. 2,009*. Табл X 1 2 3 4 5 ица у 3 7 12 26 51 99 123 0, 0, 0, 0, 0, 1955 + 1 1955 + 2 1955 + 3 1955 + 4 1955 + 5 1 • 0 • 0 • 0 .0 • 0 eli ,3031 ,3031 ,3031 ,3031 ,3031 = 0 = 0 = 1 = 1 = 1 ,4986 ,8017 ,1048 ,4079 ,7110 у 3,15 6,33 12,73 25,58 51,40 99,19 Табл. 124 дает нормальные уравнения для различных видов функциональных уравнений. Примечание Сравнение одной эмпирической кривой с другой, полученной после некоторого вмешательства в процесс (в обоих случаях имеются для заданных значений х^ например, последовательности дней, средние значения уХъ и #2i)> часто встречается в научных исследованиях. no[Qebelein, Ruhenstroth — Bauer, 1952] это сравнение может проводиться на основании суммы квадратов отклонений для п дней: E.77) 2 (Fii- Вначале рассматриваются наблюдения первых двух дней, потом первых трех, первых четырех и т. д. Само собой разумеется, проверка может быть произведена для любого интервала, скажем, от 5-го до 12-го дня. Этот способ позволяет проверить, не вызваны ли отклонения случайными факторами. Как изменяется ход процесса, можно выявить, проверяя арифметические средние оклонений для нескольких дней. Оценивание арифметического среднего с помощью разностей средних значений для первых п дней при не слиш* 412
Таблица 124. Нормальные уравнения для функциональных уравнений Функциональные уравнения у в а + Ьх \gy — a + bx у = a*tjx или с наиболее важных Нормальные уравнения а*п -f- 62* = aZx + 62л;2 = lg* + 62 (lg*J = Iga2*+lg62*2 = = 2(*^) s Ыу 1(х-Ыу) '< = 2^ = 2(#«lg*) = 2 ilgxAgy) у = a + bx + ex2 a-n dZ'x* + ЬЪх* + clx* = 2 a-n a2 /F + 62 или lg aZx 2 ( 2 (x*. lg */) ком малых /г основано на стандартной нормальной переменной г (двусторонний критерий): п E.78) VJJ) Оба способа предполагают независимые нормально распределенные генеральные совокупности со стандартными отклонениями ог и а2 (см. также с. 494, при* мечание 5). На рис, 55—58 представлены некоторые нелинейные функции. 413
bx+cx2 a 1 1 10 10 b +1 +1 •1 -1 с +0,05 -0,05 +0,05 -0,05 i) J 2 3 A Рис. 55. Виды кривых I. О 4 8 12 Рис. 56. Виды кривых П. Рис. 57. Виды кривых III. Рис. 58. Виды кривых IV. 5.7. НЕКОТОРЫЕ ЛИНЕАРИЗИРУЮЩИЕ ПРЕОБРАЗОВАНИЯ Когда вид нелинейной зависимости между двумя переменными известен, тогда часто можно с помощью преобразования одной или обеих переменных получить линейную зависимость, прямую линию. Рассмотренное выше уравнение у = аЬх мы логарифмировали: lg У = \g a + х \g b. Это уравнение прямой линии с постоянной (свободным членом) lg а и коэффициентом регрессии lg b. Если расчет проводится не с помощью нормальных уравнений, то отдельные этапы следующие: 1) все значения у преобразуются в значения lg у (у = lg y)\ 2) прямая регрессии у4 = а + Ь'х оценивается обычным порядком; 3) с помощью антилогарифмов а = lg а и b' = lg Ь получают искомые константы а и Ь исходного уравнения у = abx. Рекомендуем провести эти вычисления на числовом материале последнего примера. Следующая таблица показывает некоторые зависимости у от ху которые легко могут быть линеаризованы: в таблице указаны необходимые преобразования и формулы для перехода от параметров прямой линии 414
Таблица 125 Форма исходной зависимости X а b + х t _ ах b + x tf~ X J a-hbx у = abx y = axb у = aebx y = aex n — известно Преобразование менных */* = У 1 У 1 У X У lg У Чу \пу In у У 1 и оценка Л • all. Ц ;— ?1 "Т~ С пере- 1 X X 1 л: л: X л; 1 •*• Выражения личин а а b а b а а lSa Ыа In а In a а для ве- и b 1 а 1 а lg^ b b b Источник. Natrella M. G. Experimental Statistics, National Bureau of Standards Handbook, 91, US Governement Printing Office, Washington, 1963, p. 5—31. к постоянным исходного соотношения. Весьма полный обзор дан в [Hoerl, 1954]. Рассмотренные линеаризирующие преобразования могут быть применены также для того, чтобы чисто эмпирически определить вид зависимости. Воспользуйтесь для этой цели формулами табл. 125. 1. Нанесите значения у против значений l/х в обычной системе координат. Если точки лягут на прямую линию, то справедливо соотношение у = а + ~. X 2. Нанесите значения My против значений х в обычной системе координат. Если точки лягут на прямую линию, то справедливо соотношение у = а 415
3. Нанесите на простую логарифмическую бумагу (полулогарифмическая сетка, экспоненциальная бумага) х (арифметический масштаб) против у (логарифмический масштаб). Если точки лягут на прямую линию, то справедливо соотношение у = abx или у = аеЬх. 4. Нанесите на двойную логарифмическую бумагу (логарифмическая сетка, степенная бумага) у против х. Если точки лягут на прямую, то справедливо соотношение у — ахь. Бумага, координатная сетка которой нанесена не равномерно, как на миллиметровке (равномерно, эквидистантно, линейно), а по некоторой функциональной зависимости (функциональная шкала), называется функциональной бумагой (см. библиографию, разд. 7). Наряду с экспоненциальной и степенной бумагой, имеются еще и другие, которые помогают линеаризировать сложные нелинейные функциональные зависимости. Следует еще упомянуть синусную бумагу, у которой одна ось имеет равномерный масштаб, а другая — «синусный» масштаб. Функция вида ах + b sin у + с = О отображается на ней в виде прямой линии , ах' + Ьу* + с = О (л/ = х ех\ у' = (sin у) еу при ех =* еу = 1). Экспоненциальная бумага важна при изучении радиоактивного и химического распада, для анализа развития многих живых организмов. В теоретической биологии и в физике известную роль играют степенные законы и поэтому там находит применение степенная бумага. • 5.8. ЧАСТНАЯ И МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИЯ И РЕГРЕССИЯ Предварительное замечание. На основании статистического корреляционного анализа весьма большого материала медицинских исследований пришли к выводу, что целый ряд чрезвычайно наглядных сосудистых изменений — как варикозные узлы, геморрой, расширение кожных вен и т. п. — часто отчетливо коррелированы друг с другом и могут рассматриваться как выражение общей наследственной дисплазии венозных стенок (Venenwanddysplasie). Вагнер [Wagner, 1955] смог показать, что все эти объединенные в так называемый «Status vari- cosus» изменения больше проявляются с возрастом и поэтому зависимость между признаками обманчива и носит случайный характер. Если с помощью «частной корреляции» исключить влияние возраста, то признаки, объединенные в Status varicosus, будут иметь не большую взаимозависимость, чем каждый из них с сединой. Обычно мы должны считать, что корреляция между двумя определенными переменными определяется другой переменной. Если мы рассматриваем зависимость от более чем двух случайных переменных, 416
то предполагаем, что наблюдаемая выборка относится к нормальной многомерной генеральной совокупности. В качестве меры взаимозависимости между любыми двумя случайными переменными в этом случае может использоваться частная корреляция. Она выражает степень зависимости между двумя переменными при постоянных значениях остальных переменных. Если имеется линейная корреляция х> у и г и rxyy rxz и ryz — три парных коэффициента корреляции, то rxyz есть частный коэффициент корреляции между х и у при постоянном г: г ГхУ—rxz'ryz E.79) Частная корреляция выявляет зависимые переменные (по меньшей мере две) из независимых переменных. Точка в индексе rXVmZ отделяет две первые независимые переменные х и у от независимой переменной z. Когда вместо букв х, у, z используются числа 1, 2, 3, частная корреляция между хг и х2 при постоянном х3 равна: г12.з = '^"/"j^W E.79а) и при циклической перестановке цифр Пз 2 = rn-ri»Ti» E.796) V(l-r?2)(l-rl3) 1 Номограммы для определения частных коэффициентов корреляции даны в [Koller, 1953, 1969], а также в [Lees, Lord, 1962]. Расчет частных корреляций может внести ясность относительно взаимного влияния переменных при их неочевидной взаимозависимости. Если, например, корреляция между хг и х2 основана только на общем влиянии х3, то r123 ^ 0. Может случиться и так, что корреляция лишь поможет исключить мешающие переменные. Если имеются не три, а четыре переменные, то коэффициент частной корреляции между хг и х2 при исключении влияния х3 и х4 вычисляется по формуле ___ Г12.4"~Г13.4<Г23.4 Г12.3~Г14.3<Г24.3 /г oqv 1)A1) ' Частный коэффициент корреляции проверяется на значимость так же, как и обычный коэффициент корреляции. Следует, однако, обратить внимание на то, что число степеней свободы при исключении каждой переменной уменьшается на единицу. Если исключается только одна переменная, то число степеней свободы равно п — 2—1 — п — 3. Вычисление частных коэффициентов корреляции обычно дает возмож- 14 Зак. 93Q 417
ность элиминировать искажающее влияние тех факторов, которые в опыте или плохо контролируются или вообще не контролируются. Прежде чем мы рассмотрим пример, следует отметить возможность сведения большого числа зависимых переменных, характеризующих изучаемый объект, к небольшому числу независимых переменных (факторов) за счет объединения сильно коррелированных между собой признаков. Подробнее о факторном анализе см. [Uberla, 1968], а также литературу, рекомендованную к гл. 5 (конец списка). Пример В Айове и Небраске была обстоятельно обследована выборка из 142 пожилых женщин ([Swanson P. P., Leverton R., Gram М. R., Roberts H., Pesek I., Journal of Gerontology 10 A955) 41, цитирован в Snedecor G. W., Statistical Methods, 5. ed., Ames, 1959, p. 4301). Три переменные— возраст (Л), давление крови (В) и содержание холестерина в крови (С) имели следующие коэффициенты корреляции tab = 0,3332, гАС = 0,5029, гВс = 0,2495. Поскольку давление крови может быть связано с отложением холестерина на стенках сосудов, нам показалось интересным более детально изучить этот вопрос. Так как величины В и С увеличиваются с возрастом, возникает вопрос, можно ли отнести слабую связь лишь за счет возраста или же при каком-то возрасте существует более тесная связь. Влияние возраста исключается вычислением г вел (см. E.79)): ГВС~~ТАВ%ГАС ГВС.А = Гу 0,2495—0,3332-0,5029 Для 142—3 = 139 степеней свободы эта корреляция на 5% -ном уровне не значима. Если возникает вопрос, каким образом зависит случайная переменная хг одновременно от случайных переменных х2 и хв, то мы можем рассмотреть объект с одной выходной и двумя входными переменными; зависимость эта определяется множественным коэффициентом корреляции i?b23- Этот коэффициент множественной корреляции задается выражением г Множественная корреляция определяет связь выходной переменной (так называемой зависимой переменной) с по меньшей мере двумя входными переменными (так называемыми независимыми переменными). Точка в обозначении Rlt23 отделяет выходную переменную от двух входных переменных. Аналогичные формулы справедливы для #2лз и #з.12- Значения множественных коэффициентов корреляции лежат всегда между 0 и 1 (в [Lord, 1955] дана номограмма для определения /?1#2Э). Квадрат 418
множественного коэффициента корреляции называется множественный коэффициентом детерминации В = R2 (модель II, см. с. 377). Значение В = 1 означает, что выходная переменная точно определяется значениями входных переменных на основании множественной линейной функции регрессии (например, у = а + Ьххг + Ь2х2). Наряду с #Ь ? ?A! E.82) следует привести соотношения 1-R123 = A -г?2) A -г? з.2); E.83) 1 -Я1.234 = A ~Г\2) A -Г?8.2) A —Г!4.23). E-84) Частные коэффициенты корреляции второго порядка определяются выражениями 14.2 — Г13-2Г34.2 __ Г14.3—0.2.3 Г24.3 . 14.23- _ ги.9—1"и.згы.з '12.34 = /С QC\ E.87) Нуль-гипотеза, согласно которой параметр, соответствующий равен нулю (против: > 0) проверяется на основании /^критерия: E<88) (^ — число случайных переменных; и — число входных переменных, ранее названных независимыми переменными). Часто нужно знать, что более значимо — 7?х с большим числом входных переменных иг или R2 с меньшим числом «2. Соответствующий F-критерий: vx = ых—u2,v2 = n—ux— 1. В тех случаях, когда л — мало, ak — относительно велико, нужно R2 заменить несмещенной оценкой UR2: L E.90) u^1A#). Простейшая множественная линейная регрессия (Три случайные переменные: 2 входных [*lf x2], 1 выходная [у]) Ьл = {QyXi Qx-Qyxt QXx хг)[С С - QXl QXi-(QXl ,J2. 14* 419
(Символ Q см. в D.6), QXlX2 = 2хгх2—^Bхг)Bх2), с. 385).Проверка: XlXa = QyXi и bxQXt n Проверка значимости регрессии (Но : рх = р2 = 0) и тем самым значимости отличия параметра, соответствующего Б, от нуля: F = D/(Qy — D)y v1 = 2, v2 = n — 2—L Можно также проверить, значительно ли улучшается оценка у по хг при введении х2: Подробнее о множественном регрессионном анализе см. [Draper, Smith, 1966, есть русский перевод], [Enderlein, 1967], [Weber, 1967/68], IValiaho, 1969], [Bliss, 1970], [Enderlein, 1970] и другую литературу в конце списка к гл. 5. Упрощенный по [Bartlett, 1949], весьма содержательный множественный «трехгрупповой» регрессионный анализ описан в [Wendy Gibson, Jowett, 1957]. Коул [Cole, 1959] дал элементарную расчетную схему дяя читателей, не владеющих статистикой. На других методах, связанных с регрессионным анализом, мы, к сожалению, не можем подробно останавливаться, например, ортогональные полиномы [Bancroft, 1968], [Emerson, 1968]; изящное сглаживание полиномами высокого порядка [Robson, 1959], в особенности когда значения х расположены на одинаковых интервалах друг от друга (по таблицам [Anderson, Hauseman, 1942], [Pearson, Hartley, 1958] или [Fisher, Yates, 1963]); дискриминантный анализ, задачей которого является упорядочить с заданной статистической надежностью различные генеральные совокупности, соответствующие наблюдениям, с помощью дискриминантных или разделяющих функций в возможно более правильные генеральные совокупности (см. [Erna Weber, 1967], [Lubischew, 1962], [binder, 1963], [Radhakrishna, 1964], [Porebski, 1966], [Cornfield, 1967]). Для тренд-анализа (см. с. 355 и 367) рекомендуется монография [Gregg, Hossel, Richardson, 1964], а также таблицы [Cowden, Rucker, 1965] (см. также [Roos, 1955], [Solzer, 1958], [Brown, 1962], [Ferguson, 1965] и [Hiorns, 1965]). Многомерные статистические способы На рис. 51 и в табл. 112 представлены двумерные выборочные распределения. Если мы будем измерять, например, вес и рост студентов из общежития, то получим распределение этого типа. Если мы сопоставим им также и возраст, то получим трехмерное выборочное распре- 420
деление. Анализ таких и более сложных n-мерных распределений^ когда для ряда объектов измеряется и одновременно оценивается несколько переменных, образует раздел многомерного анализа (multi- variate analysis). Иными словами, многомерный анализ занимается построением математических моделей с большим числом зависимых переменных. При этом осуществляется оценивание параметров и определяется взаимосвязь между ними. Эти способы имеют важное значение при анализе сложных систем и вследствие большого объема вычислений обяз ательно требуют применения больших электронных вычислительных машин. Описание ведется на языке матричной алгебры (см., например, [Dietrich, Stahl, 1968]). По этому разделу см., например, [Rao, 1964], [Seal, 1964], [Miller, 1966], [Morrison, 1967], [Saxena, Surend- ran, 1967], [Dempster, 1968], [Krishnaiah, 1966, 1969], [Cooley, Lonhes, 1971] и [Puri,Sen, 1971]. 421
ГЛАВА 6, АНАЛИЗ МНОГОКЛЕТОЧНЫХ ТАБЛИЦ СОПРЯЖЕННОСТИ ПРИЗНАКОВ Информационное содержание статистической частоты невелико. Несмотря на это анализ четырехклеточных таблиц, простейших таблиц с двумя входами или таблиц сопряженности признаков представляет определенный интерес. Мы можем проверить их на независимость, корреляцию и симметрию. В данной главе будут описаны эти и другие процедуры проверки таблиц сопряженности признаков, в которых каждый из признаков имеет не одну альтернативу, или 2 возможности для классификации, а несколько. Например, водители автомашин могут сравниваться по возрасту и по числу несчастных случаев — 0, 1, 2, больше 2. Другие пары для сравнения, которые приводят к многоклеточным таблицам: например, школьное образование и доходы, конституция тела супругов и супружеское счастье партнеров. Точно так же, как одна выборка, разделенная по двум признакам, может быть проверена на независимость, ряд выборок с двумя или большим числом признаков может быть проверен на однородность. Проверка многоклеточных таблиц на тренд дает возможность оценить вклад линейной регрессии в общее рассеяние. Сравнение многоклеточных таблиц относительно их коэффициентов регрессии дополняет сравнение относительно степени взаимозависимости на основе скорректированных коэффициентов сопряженности. Ниже излагается применение информационной статистики для проверки многоклеточных таблиц на независимость или однородность и отмечается значение информационного анализа для таблиц с тремя и большим числом входов. 6.1. СРАВНЕНИЕ НЕСКОЛЬКИХ ВЫБОРОК АЛЬТЕРНАТИВНЫХ ДАННЫХ ф 6.1.1. k-2-КЛЕТОЧНЫЙ у -КРИТЕРИЙ БРАНДТА И СНЕДЕКОРА С помощью четырехклеточного х2-критерия две выборки альтернативных данных могут быть проверены на принадлежность одной генеральной совокупности, представленной четырьмя суммами (по столбцам и по строкам). Если мы теперь будем сравнивать друг с другом несколько, скажем k выборок альтернативных данных,— в этом случае 422
возможен, естественно, только двусторонний критерий, то получим в качестве исходной схемы k • 2-таблицу следующего вида (табл. 126). При этом предполагается, что х меньше, чем (п — х). При нуль-гипотезе: все выборки принадлежат генеральной совокупности с соотношением частот х : (п — х), мы ожидаем, что в Ь2 клетках таблицы распределение частот будет пропорциональным суммам по строкам и столбцам. Итак, на основании k • 2-клеточного %2- критерия проверяется, имеют ли Таблица 126 Выборка или 2-й признак 1 2 / к Признак + х2 Xj xk X «I- я,- п,- nk- п- -Хг -х2 -Xj -хк -X S п± п2 nJ ч п относительные частоты в k классах неслучайные отклонения от средней частоты, вычисленной для всех k классов. Для отклонения или подтверждения нуль-гипотезы об однородности k выборок служит х2-критерий (Карл Пирсон, 1857—1936). Мы применим формулу, предложенную Брандтом и Снедекором (Brandt, Snedecor): F.1) х(п— х) с (k — 1) степенями свободы. В этой формуле (см. табл. 126): п — объем всех выборок, п7- — объем отдельной /-й выборки, х — общее число выборочных элементов с признаком « + », Xj — частота признака « + » в /-й выборке. Здесь еще раз следует обратить внимание на разницу между имеющимся табличным %2-значешем и вычисленной по формуле статистикой %2. Только при больших п и правильной гипотезе Но они согласуются друг с другом. При не слишком слабо заполненных клетках приближение также вполне достаточно. В качестве меры заполнения &-2-клеточной таблицы служат ожидаемые в предположении однородности частоты. Они вычисляются как отношения произведения сумм по столбцу и строке к объему объединенной выборки (см. табл. 126: ожидаемая частота Е для клетки Xj равна Е (xj) = rij x/ri). Для небольших таблиц (k < 5) все ожидаемые частоты должны быть не меньше 2; если имеется по меньшей мере 4 степени свободы (k ^ 5), тогда все ожидаемые частоты должны быть >, 1 [Lewontin, Felsenstein, 1965]. Если эти требования не удовлетворяются, то таблицу нужно упростить объединением мало заполненных клеток, и лишь тогда допустим расчет статистики формулам. по вышеприведенной или другим 423
Примечания 1. Как альтернативу k . 2-клеточному %2-критерию Райян [Ryan, 1960] предлагает для множественного сравнения k относительных частот простой способ из дисперсионного анализа. 2. Если при сравнении относительных частот или нескольких средних значений для k • 2-клеточных таблиц можно нуль-гипотезе: равенство параметров, противопоставить альтернативную гипотезу: параметры образуют определенную ранговую последовательность, то можно применять весьма эффективный односторонний критерий Бартоломью [Bartholomew, 1959]. Альтернативная гипотеза, соответствующая двустороннему критерию, тогда имела бы вид: задана ранговая последовательность возрастающих или убывающих параметров. 3. Если необходимо провести анализ слабо заполненной таблицы типа 3 • 2 , то используют таблицы, рассчитанные Беннетом и Накамурой [Bennett, Nakamura, 1963, см. также 1964] (для п± = п2 = п* < 20 и 0,05 > а > > 0,001). Пример Задача: сравнение двух форм лечения. План эксперимента: имеется всего 80 больных, одна группа из 40 больных получает стандартную дозу определенного нового средства; другая группа из 40 больных получает лечение в соответствии с симптомами (лечение проявлений болезни, но не их причин). Результаты лечения разделены на три класса: быстрое выздоровление, медленное выздоровление, смерть (табл. 127). Таблица 127 Успех лечения Выздоровление за х недель Выздоровление за (х + у) недель Смерть Итого Лечение по симптомам 14 18 8 40 специфическое (стандартная доза) 22 16 2 40 Итого 36 34 10 80 Нуль-гипотеза: результаты обеих форм лечения одинаковы. Альтернативная гипотеза: результаты обеих форм лечения не одинаковы. Уровень зависимости: а = 0,05 (двусторонний). Выбор критерия: рассматривается k • 2-клеточный х2"кРитеРий (см. ожидаемые частоты в последней строке табл. 127:% = 8; nk— 80 Оценка: 40-40 AIL 36 34 10/ 80 J = 5,495. 424
Таблица 128 (см. табл. 127) Успех лечения (расчет по х2) Выздоровление за х недель: наблюдалось В ожидалось Е отклонение В — Е (отклонениеJ (В — ЕJ * Е Выздоровление за х + у недель: наблюдалось В ожидалось Е отклонение В — Е (отклонениеJ (Я — ?J л В Смерть: наблюдалось В ожидалось Е отклонение В — Е (отклонениеJ (В — Е)* Итого: В = Е Сумма 5С2; Лечение специфическое по симптомам 14 18,00 —4,00 16,00 0,8889 18 17,00 1,00 1,00 0,0588 8 5,00 3,00 9,00 1,8000 40 2,7477 стандартная доза 22 18,00 4,00 16,00 0,8889 16 17,00 —1,00 1,00 0,0588 2 5,00 . —3,00 9,00 1,8000 40 2,7477 Итого 36 36 0,0 11,7778 34 34 0,0 0,1176 10 10 0,0 3,6000 80 Х2 = 5,4954 Решение: так как %2 = 5,495 < 5,99 = %|; о,о5, двустор, нуль-гипотеза сохраняется. Интерпретация: на основании имеющихся выборок с вероятностью ошибки в 5% разница между обеими формами лечения не значима; однако рекомендуется продолжение исследования и повторение этого анализа на выборках большего объема. Этот результат мог бы быть получен с помощью обычной формулы D.13) для х2-статистики, причем в предположении нуль-гипотезы об однородности ожидаемые частоты вычисляются, что уже отмечалось выше, как отношение произведения сумм по столбцу и по строке к общему объему всех выборок. Так, например, в табл. 127 и 128 слева сверху наблюдаемая частота В = 14, соответствующая ожидаемая частота Е = —^г- = -х = 18. Если для каждой клетки k • 2-таблицы образо- вать отношение * ~1 ' и просуммировать k • 2 отдельных отношений, то получим значение %2* Этот процесс может быть и более громоздким, но при этом необходимо знать составляющие отдельных клеток в общем значении %2 и вы- 425
яснить решающее значение различной смертности (табл. 128). Так как обе группы больных включают по 40 человек, то части %2 попарно равны. Особо следует еще отметить, что каждое слагаемое входит в величину х2 в виде отношения к ожидаемой частоте Е: большое отклонение В — Е при большом значении Е влияет примерно так же, как и малое отклонение при малом Еч 5-25)^^ C-!)* Например: 25 6.1.2. СРАВНЕНИЕ ДВУХ НЕЗАВИСИМЫХ ЭМПИРИЧЕСКИХ РАСПРЕДЕЛЕНИЙ ЧАСТОТ ПО БРАНДТУ—СНЕДЕКОРУ Проверяется, относятся ли две независимые выборки частот к одной и той же генеральной совокупности. Эта проверка однородности двух выборок осуществляется по формуле F.1) Брандта—Снедекора. Пример Необходимо сравнить два ряда: В\ и Вц со статистической достоверностью S = 99%. Таблица 129 Категория 1 2 3 4 5 6 7 8 2 Частоты в, 60 52 30 31 10 12 пг = 200 щ в„ 48 50 36 20 15 10 IV г = 187 2 108 102 66 51 25 22 13 я = 387 3872 л 200-187 Так как это значение %2 значительно меньше, чем Хб; o,oi = = 16,81, нуль-гипотеза: обе выборки относятся к одной генеральной совокупности — не отклоняется. 6.1.3. РАЗЛОЖЕНИЕ ЧИСЛА СТЕПЕНЕЙ СВОБОДЫ ДЛЯ k'2-КЛЕТОЧНОЙ ТАБЛИЦЫ В k • 2-клеточной таблице частоты определяются в соответствии со следующей расширенной по отношению к табл. 126 схемой (табл. 130). 426
Таблица Выборка 1 2 / k Итого 130 Признак + хх х2 Xj х\ X Tin tli fife n - -Xj — 4 -* Итого «1 n2 ?/ 4 n «Процент успеха» Pj = Xiftli p2 = x2fn2 Pj = xj/nI Pk = *klnk = x'/n Она допускает непосредственное сравнение процента успеха — доли признака « + » в каждой выборке — во всех выборках. Формула для %2-статистики Брандта — Снедекора имеет вид: k 2 pd-p) F.1а) с (k — 1) степенями свободы. Здесь х — общее число выборочных элементов с признаком « + »; Xj — частота элементов с признаком плюс в /-й выборке; р — отношение х к п; доля признака « + » в объединенной выборке. Таблица 131 Компоненты х3 Разница между значениями Рг- для двух подгрупп выборок с пг и п2 наблюдениями (п = пх + п2) Вариация внутри значений р для первых / рядов Вариация внутри значений р в последних ik— j) рядах Общее значение у} Число степеней свободы 1 У-1 427
При нуль-гипотезе: все выборки принадлежат генеральным совокупностям с я = const, с оценкой р = х/п, мы ожидаем для всех выборок распределения частот, соответствующего этому соотношению. Эта формула справедлива для проверки на однородность не только всех ^-выборок, но также и любых двух (v = 1) или нескольких, скажем, / (v = / — 1) выборок, рассматриваемых как подгруппа в группе из k выборок. Таким образом удается (k — 1) степеней свободы разложить на составляющие {1 + (/—1)+ (?—/_ 1) =Л—1}. (табл.131) Иными словами, общее значение %2 разлагается на части. Тем самым дается критерий для проверки изменения уровней р внутри последовательности выборок альтернативных данных. Рассмотрим простой пример (табл. 132). X2 (общее отклонение значений pt от р) = 15,300—38,0,380 0,38-0,620 : 3,650; X — отклонение между средними значениями р подгрупп выборок пх ( = № 1 Пример -3) и п2 ( = № 4 + 5). Таблица 132 № 1 2 3 4 5 2 */ 10 8 9 5 6 38 пГх1 10 12 11 15 14 62 п! 20 20 20 20 20 100 РГх./п. 0,500 0,400 0,450 0,250 0,300 V/ 5,000 3,200 4,050 1,250 1,800 15,300 38/100 = 0,380 Таблиц № 1+2+3 4+5 2 а 133 Подгруппа пх 14 п 27 11 38 п1 60 40 100 ргр 0,450 0,275 12,150 3,025 15,175 428
Указание: р для пг — арифметическое среднее трех процентов успеха @,500 + 0,400 + 0,450)/3 = 0,450; аналогично вычисляется р для п2. -а - 15,175—38 0,380 0,380—0,620 12,250—27-0,450 0,45 0,55 X вариация между значениями р для пг и /г2 = 3,120; X2 вариация между значениями р внутри пх = = 0,404; -« 3,050—11-0,275 X2 вариации между значениями р внутри п2 = п 275 0 725 = = 0,125. Эти составляющие объединены в табл. 134. Таблица 134 Составляющие разброса Разница между значениями р для подгрупп выборок щ (=№ 1—3) и п2 (=№ 4+5) Вариация между значениями р внутри пг Вариация между значениями р внутри п2 Общее отклонение значений р от р в п = Пу\-пг у? 3,120 0,404 0,125 3,649 Число степеней свободы 1 2 1 4 Уровень значимости 0,05<р<0,10 0,80 <р< 0,90 0,70<р<0,80 0,40<р<0,50 Как показывает пример, иногда удается из неоднородного выборочного материала выделить однородные элементы: основная компонента X2 относится к разности между средними процентами успеха подгрупп выборок пх и п2 (р = 0,450 против р = 0,275). При заданной вероятности ошибки а = 0,05 нуль-гипотеза пПх = = Пп2 была сохранена. Если бы перед получением данных (табл. 132) имелось обоснованное предположение о «направлении» ожидаемого отличия, то можно было бы для этих компонент применить односторонний критерий. Значение X2 = 3,120 было бы тогда значимо на 5%-ном уровне и нуль-гипотеза должна была бы быть отклонена в пользу альтернативной гипотезы пП1 > Лп2. На этом примере можно было бы продемонстрировать и другое разложение. Обычная формулировка не рассматривается, так как принцип разложения таблицы на независимые компоненты каждая с одной степенью свободы совсем прост. Табл. 132а составлена несколько иначе, чем табл. 132. 429
Таблица 132а Тип I II Z А 10 10 20 в 8 12 20 с 9 11 20 D 5 15 20 Е 6 14 20 S 38 62 100 Мы рассмотрим теперь четырехклеточные таблицы, получившиеся извлечением из первой четырехклеточной таблицы частных сумм, пользуясь также формулой, подобной D.35). Вначале мы сравним однородность выборок А и В (принимая во внимание I и II) с учетом общего объема выборки и применим для этого символ А X В. Для этого мы образуем разность «диагональных произведений», возведем их в квадрат и умножим на квадрат суммы всех частот ( = 100 в табл. 132а). Знаменатель состоит из произведения 5 сомножителей: двух сумм по строкам I и II, двух сумм по столбцам А и В и суммы по столбцам А и В, взятой в скобки: Ах В: j*= Ц»(НМ»-в.иу Л 38-62.20.20.B0+20) Однородность (А + В) суммы столбцов А и В по сравнению с С (мы применим символ (А + В) X С) определяется аналогично НЮЧ(Ю+8Н1-9.A0+12)}' V ' Л 38-62.B0+20)-20.D0+20) подобным образом определяем: (A + B + QXD: fr- 100ЧA0+в+9Н5-5-(Ю+12+П)}» =2546? ' Л 38-62-B0+20+20) 20 F0+20) (A + B + C + D)XE: -а=10°ЧО0+8+9+5).14-6A0+12+П + 15)}* = V 7 Л 38-62.B0+20+20+20). 20(80+20) = 0,6792. Объединим полученные результаты (табл. 135). Таблица 135. х2-таблица для 5X2 клеток Разброс A) ЛХВ B) (А + В)ХС C) (A + B + QXD D) {A + B + C + D)XE Итого Число степеней свободы 1 1 1 1 4 0,4244 0,0000 2,5467 0,6791 3,6502 р Не значимо Не значимо <0,15 Не значимо Не значимо 430
Сумма четырех значений х2 равна 3,650 (см. табл. 134). Характеристическая разница между\«парами выборок» A), B), C) и D) не может быть выявлена. Особое положение D в соотношении частот I/II видно из третьей строки табл. 135. Для проверки однородности других интересующих нас «пар выборок» можно, естественно, в таблице переставить столбцы. ф 6.1.4. ПРОВЕРКА &2-КЛЕТОЧНОЙ ТАБЛИЦЫ НА ТРЕНД: ВКЛАД ЛИНЕЙНОЙ РЕГРЕССИИ В ОБЩУЮ ВАРИАЦИЮ Если рассматривать в табл. 127 возрастающий эффект лечения группы пациентов со специфическим лечением — значения pj 2/10, 16/34, 22/36 (см. табл. 136),—то, как и следовало ожидать, обнаруживается возрастание значений pj. Если увеличение относительных частот имеет закономерный характер, то применяется проверка на линейную регрессию. Величину х2 тогда можно разделить на две части: первая соответствует линейно возрастающим частотам, а остающаяся часть соответствует разностям между наблюдаемыми частотами и частотами, линейно возрастающими согласно теоретическим предположениям. Таким образом можно часть, относящуюся к прямой регрессии (с одной степенью свободы), отделить от части, которая определяется отклонениями относительно этой прямой. Эта часть вычисляется как разность между %2 и Хрегр- Для случая k • 2-клеточной таблицы У. Кокрен [Cochran, 1954] предложил простой способ вычисления компоненты линейной регрессии. Остаточной компоненте соответствуют (k — 2) степени свободы. Вначале нужно «естественную» ранговую последовательность k признаков, в нашем случае — эффекта лечений, заменить цифровой последовательностью, «точечными значениями (баллами)». Для этого обычно служат цифры, симметричные относительно нуля, например — 2, — 1,0, 1,2 или—4, — 2, 0, 2, 4, так как при этом упрощаются вычисления; эти «баллы» должны быть установлены перед получением данных. Интервалы между точками не должны быть обязательно равными! В ряду — 2, — 1, 0, 3, 6 последние две категории на основании принята блица 136 2. (ОЧКИ) io± */ 22 16 2 14 18 8 40 ni 36 34 10 „ = 80 'ГУ, 0.611 0,471 0,200 22 0 2 20 V/ 36 0 — 10 26 36 0 10 46 р = */n = 40/80 = 0,50 431
той шкалы свойств характеризуются болщты весом. Например, в табл. 136 мы можем применить последовательности — 2, 0, 1 или — 3, 0, 1, чтобы подчеркнуть принципиальную разницу между смертью и медленным выздоровлением и между медленным и быстрым выздоровлением. Значение %2 для линейной регрессии по Кокрену [Cochran, 1954] (см. также [Bennett, Hsu, 1962]) определяется следующей формулой: Y2 =« Лрегр F.2) с одной степенью свободы. Можно также найти оценку b = a, где и проверить гипотезу Но : р = 0 на основании стандартной нормальной переменной z (табл. 43, с. 204) по статистике г = \b\/sb npnsb= — У р (I —p)/S2- Обратите внимание на то, что сумма точечных значений (баллов) здесь не должна быть равна нулю. Пример Если мы применим формулу F.2) для значений табл. 136, то получим для линейной регрессии Хрегр — 0,50.0,50 46-— = 5,220 > 3,84 = x?j 0,05- Эта величина на 5%-ном уровне значима. В примере на с. 424 для х2 = 5,495 и 2 степеней свободы гипотеза об однородности при вероятности ошибки а = 0,05 не была отклонена. Таблица 137 Источник разброса Линейная регрессия Отклонения от регрессии Итого 5,220 0,275 5,495 Число степеней свободы 1 1 2 Уровень значимости 0,01<Р<0,0,5 Р = 0,60 0,05<Р<0,10 Табл. 137 показывает решающую роль линейной регрессии в общем разбросе, которая уже заметна в столбце значений pj (табл. 136) и которая привела к проявлению превосходства специфического лечения. 432
6.2. АНАЛИЗ ТАБЛИЦ СОПРЯЖЕННОСТИ ПРИЗНАКОВ ТИПА гхс ф 6.2.1. ПРОВЕРКА НЕЗАВИСИМОСТИ ИЛИ ОДНОРОДНОСТИ Расширение простейшей четырехклеточной таблицы с двумя входами приводит к общему случаю г • с-таблицы, многоклеточной таблицы, или таблицы сопряженности признаков, имеющей г строк и с столбцов. Два признака с г или с различными проявлениями представляются в виде г • с различных клеток или комбинаций (табл. 138). Таблица 138. Схема для двусторонней классификации: один из двух рядов признаков может рассматриваться как ряд выборок ^\,^^ 2 Признак ^s"Ss>>v^^ (с столбцов) 1. Признак "^--^^ (ч строк) ^^\^ 1 2 г Суммы по" столбцам 1 пп Пп п., 2 - / - «22 — «2/ «/'2 — «Г/ С «1С «2С п. Суммы по строкам «1. «2. «/. «г. Из некоторого распределения взята случайная выборка объема п. Каждый элемент этой выборки классифицируется по двум различным дискретным признакам. Необходимо проверить гипотезу на независимость: признак I не оказывает влияния на признак II. Иными словами, надо проверить, зависит ли распределение одного признака от распределения другого, или имеется ли пропорциональность между распределением частот и суммами по столбцам и строкам. Здесь следует заметить, что сравнение на однородность г различных выборок с объемами п^, я2#, ..., niti..., nTt из г различных дискретных распределений приводит к такому же критерию. Поэтому применяется одинаковая статистика как для проверки таблицы сопряженности признаков на независимость, так и для проверки того, что выборки принадлежат одной и той же генеральной совокупности. Это хорошо, так как во многих постановках задач бывает неясно, какая трактовка ближе к истине. Статистика выражается формулой J F.3) 433
Таблица 24 76 69 27 196 139 7 38 32 9 86 7 70 82 55 214 38 184 183 91 496 с (г — i) (с — 1) степенями сбб- боды. Здесь п — объем объединенной выборки; Пц — число в клетке на пересечении i-й строки и /-го столбца; щщ — сумма чисел в 1-й строке; rij — сумма чисел в /-м столбце; nimnj — произведение сумм по t'-й строке и по /-му столбцу. Ожидаемые согласно нуль-гипотезе частоты вычисляются по формуле щпщ}1п. При справедливости нуль-гипотезы о независимости или однородности и при достаточно большом п статистика %2 распределена как табличная %2 с (г — 1) (с — 1) степенями свободы. Это есть число клеток, для которых частоты могут выбираться свободно при заданных значениях сумм по столбцам и строкам. Числа в оставшихся клетках могут быть определены вычитанием. Критерий может применяться, когда все ожидаемые частоты j> 1. Если эти числа меньше, то таблица упрощается за счет объединения слабо заполненных клеток. При этом следует обратить внимание на то, что должна применяться наиболее объективная схема, чтобы этот произвол в объединении клеток не влиял на конечный результат. Метод анализа весьма слабо заполненных таблиц сопряженности признаков, которые обычно независимы или однородны, предложен в работе [Nass , 1959]. Процедура вычисления По F.3) или лучше по F.3а) вычисляется статистика -1 F.3а) с (г — 1) (с — 1) степенями свободы (см. табл. 138), т. е. вначале квадраты частот делятся на соответствующие суммы по столбцам, затем отношения суммируются по столбцам и полученные суммы делятся на соответствующие суммы по строкам. Эти отношения суммируются по строкам, из них вычитается единица и после умножения результата на объем объединенной выборки получается значение %2. Примеры 1. См. табл. 139. v = D—1) C—1) = 6. 1 183 .38 ^ 196 86 214 j 184 V 196 F92 322 822 \ 1 / 272 92 196 ~86~ 14/ 91~* [ 196 "86 72 = 24,932. 86 214 214 Так как 24,93 > 16,81 = %1; о,оь то для данной таблицы нуль-гипотеза об однородности должна быть отклонена. 2. Задача: сравнение трех форм лечения. 434
План эксперимента', ^имеются три группы по 40 больных. Две группы были сравнены на с. 424; третья группа получает специфическое лечение с удвоенной нормальной дозой. Нуль-гипотеза, альтернативная гипотеза и уровень значимости: соответственно такие же, как в примере на с. 424. Выбор критерия: рассматривается многоклеточный %2-критерий. Таблица 140 Успех лечения Вылечилось за х недель Вылечилось за (х-\-у) недель Умерло Итого Лечение по симптомам 14 18 8 40 специфическое нормальная доза 22 16 2 40 удвоенная доза 32 8 0 40 И того 68 42 10 120 Оценка: Решение: так как 21,58 > 9,49 = %!; o,os» то нуль-гипотеза отклоняется. Интерпретация: взаимозависимость между успехом лечения и особенно специфическим лечением с двойной дозой проявляется надежно. Эта форма лечения превосходит обе другие формы. Задача может быть решена значительно быстрее с помощью специальной формулы для k * 3-клеточной таблицы с тремя равными объемами выборок (пг = п2 = ns): х2=У ——- У- ,'—"—— F-4) с 2 (k — 1) степенями свободы. 3. Табл. 141 имеет иной, более удобный для нас вид, чем табл. 140. Таблица 141 г 1 2 3 2 14 22 32 68 18 16 8 42 8 2 0 10 Б 40 40 40 120 435
/ = 1: A4—22J + A4—32J + B2—32J = 82 + 182 + 102 = 488; / = 2: A8—16J + A8—8J + A6—8J = 2а + 102 + 82 = 168; / = 3: (8—2J + (8—ОJ + B—ОJ = б2 + 82 + 22 = 104; /=1: -^- = 7,176; / = 2: -^- = 4,000; / = 3: -1^-= 10,400; %г = 7,176 + 4,000+ 10,400 =21,576. Для альтернативных данных при равных объемах выборок (пх = = пй) формула F.4) упрощается: ^^I F.4а) с (k — 1) степенями свободы. Для двух верхних строк (г = 1, г = 2) табл. 141 получаем: -> = A4-22)' A8-16)» (8-2)' ^ 18+16 Л 14+22 ^ 18+16 8+2 В качестве упражнения сформируйте таблицы типа k • 2 или k • 3 (числа заполнения > 1) и вычислите %2 по F.1) и F.4а), либо по F.3), или F.3а) и F.4). Квадратные таблицы (например, табл. 141) при полной зависимости приводят к значению = Мг-1), F.5 например, 20 о о 20 20 20 20 20 40 Некоторые дополнительные указания 1. Для проверки многоклеточных таблиц на однородность или независимость или вообще на пропорциональность был предложен ряд методов. В разделе 6.2.5 рассматриваются экономные вычислительные методы. На практике целесообразно, а для начинающего просто необходимо для контроля применять другие изложенные методы, основанные на статистике %2, особенно когда с этим не связаны слишком большие вычисления. И если только нужно анализировать очень большие таблицы, то перепроверку можно проводить на простых, или упрощенных, таблицах. 2. Если в процессе анализа многоклеточных таблиц нуль-гипотеза отклоняется в пользу альтернативной гипотезы о зависимости или неоднородности, то в некоторых случаях представляет интерес выявить причины значимости. Для этого повторяют проверку на таблице, уменьшенной на соответствующую строку или столбец. Другую возможность проверки интересующей нас частной гипотезы представляет выбор четырех симметрично расположенных клеток/ по две клетки в строке и в столбце, и проверка гипотезы с помощью четырехклеточного критерия. Однако такой прием нужно рассматривать как «экспериментирование», 436
и результат может служить лишь исходной точкой для дальнейших исследований. Истинное значение может быть получено лишь в том случае, когда соответствующая частная гипотеза была выдвинута перед получением данных. Здесь следует добавить еще одно указание. Если обнаруживается зависимость, то нужно понимать, что наличие функциональной взаимозависимости ничего не говорит о причинной зависимости. Эта связь может быть вызвана непрямыми зависимостями. 3. Любая таблица сопряженности общего типа г • с может быть разложена на (г — 1) (с — /) независимых компонент с одной степенью свободы каждая (см. [Kastenbaum, 1960], [Castellan, 1965], а также [Bresnahan, Shapiro, 1966]. В символах табл. 138, например для 3 • 3-таблицы с 4 степенями свободы, получаются следующие 4 компоненты: О) х- B) X* П {П2- (П.2 Пц — П.г Пи)—/li. (П.2 П21 — ПЛ /Z22)}2 Ъ П2. П.! П.2 л2 {л23 ~п13 (п21+п22)}2 1. л2. л.3 C) ха= —Л81 л3. D) Х2 = Л {Л33 (Лц + П12 + П21 + Л 22) — (Л; F,6а) F.66) (б.бв) (б.бг) Рассмотрим табл. 140 с категориями: Л, Б, С; I; II; III (см. табл. 140а). Здесь возможны 4 следующих сравнения: 1) Сравнение I против II относительно А против В (в символах: I X II -~ А X В); 2) Сравнение I против II относительно {А + В) против С (IX II -f- {А + В) X С); 3) Сравнение (I + II) против III относительно А против В ({I + II} X X III ~ А X В). 4) Сравнение {I + Ш против III относительно {А + В] против С ({I + 11} X III -т- {А + В) X С) (см. ниже). Таблица 140а Тип I II III Б А 14 18 8 40 в 22 16 2 40 с 32 8 0 40 2 68 42 10 120 * %2= 120{42-D0-14—40-22)—68-D0-18—40-16)}2 68- 42- 40- 40. F8+42). D0+40) 1202 {8.A4+22)—32-A8+16) }2 Х2~ 68-42- 40.F8+42). D0+40) = = 1,0637§ 437
1202{2-A4+18)—8- B2+16)}2 C) %2~~ 10-40-40.F8+42).D0+40) == 120@.A4+22+18+16)—C2+8).(8+2) }2 (д\ v2 = -— ¦ —— = 5 4545 V ' Л 10-40-F8+42).D0+40) Таблица 142. %2 -таблица, разложение %2 -значения 3-3-таблицы (табл. 140а) на компоненты с одной степенью свободы Независимость A) 1ХИ+ЛХВ B) 1хП+{Л + Я}хС C) {1+И}хШ-Ь4х? D) {1+И}хШ+{Л+Б}хС Итого Число степеней свободы 1 1 1 1 4 1,0637 9,1673 5,8909 5,4545 21,5764 р Не значимо <0>01 <0,05 <0,05 <0,001 Если нужно проверить другие частные сравнения, то строки или столбцы (или и те, и другие) меняют местами. Дальнейшие указания по анализу таблиц сопряженности признаков можно найти в следующих основных работах: [Gart, 1964J, [Winckler, 1964], [Caussinus, 1965], [Meng, Chapman, 1966], [Bhapkar, 1968], [Bhapkar, Koch, 1968], [Chapman, Nam, 1968], [Hamdan, 1968], [Jesdinsky, 1968], [Ku, Kullback, 1968], [Mos- teller, 1968], [Bishop, 1969], [Goodman, 1969, 1970, 1971], [Ireland, Ku, Kullback, 1969], [Altham, 1970], [Fienberg, 1970], [Odoroff, 1970]. 6.2.2. ПРОВЕРКА СТЕПЕНИ ВЗАИМОЗАВИСИМОСТИ МЕЖДУ ПРИЗНАКАМИ, РАСПРЕДЕЛЕННЫМИ НА ДВЕ КАТЕГОРИИ. СРАВНЕНИЕ НЕСКОЛЬКИХ ТАБЛИЦ СОПРЯЖЕННОСТИ ПРИЗНАКОВ ОТНОСИТЕЛЬНО СТЕПЕНИ ВЗАИМОЗАВИСИМОСТИ НА ОСНОВЕ СКОРРЕКТИРОВАННЫХ КОЭФФИЦИЕНТОВ СОПРЯЖЕННОСТИ ПАВЛИКА (PAWLIK) Ха-значение таблицы ничего не говорит о степени взаимозависимости между двумя признаками классификации. Это несложно установить, так как %2-значение пропорционально общему числу наблюдений при заданном соотношении частот в таблице. Для многоклеточной таблицы, когда наличие взаимозависимости надежно установлено, в качестве меры степени взаимозависимости используется коэффициент сопряженности Пирсона (см. также с. 344): СС- F.7) Эта мера корреляции при полной независимости равна нулю. При полной зависимости обеих качественных переменных ССУ однако, равен не 1, а меньшему значению, которое зависит от числа клеток 438
в таблице сопряженности признаков. Следовательно, различные СС-значения могут сравниваться только между собой, когда они вычисляются для одинаковых таблиц сопряженности признаков. Этот недостаток СС компенсируется тем, что для каждого возможного вида таблицы известен наибольший коэффициент сопряженности ССтаХу так что найденное СС-значение может быть выражено относительно СС Значение ССтах определяется Т а б л и ira 2 3 4 5 6 7 8 9 10 143 ССтах 0,7071 0,8165 0,8660 0,8944 0,9129 0,9258 0,9354 0,9428 0,9487 1 Ту:— 1,4142 1,2247 1,1547 1,1181 1,0954 1,0801 1,0691 1,0607 1,0541 ^•''-'mftv как значение, которое получается при определенном расположении клеток таблицы и в случае полной связи переменных. Для квадратной таблицы (число строк равно числу столбцов, т. е. г = с) Кендэл (Kendall) показал, что значение ССтах зависит только от числа классов г, и равно: F.8) Максимальный коэффициент сопряженности для неквадратных таблиц согласно [Pawlik, 1959] задается также формулой F.8), причем обозначения нужно выбирать такими, чтобы было г<С с Для того чтобы можно было сравнивать значения СС, вычисленные для различных по размерам таблиц, рекомендуется их выражать в процентах по отношению к CCm3iX. Скорректированный коэффициент сопряженности CCKOpv имеет вид: ^^ СС j~~ рр СС ,д QV 1UU ИЛИ CCKOrm— -— . (O.yj Его значение лежит между 0 и 100% или между 0 и 1 и не зависит от размеров таблицы! Для облегчения вычислений ССкорр в табл. 143 приведены значения ССх» вычисленные согласно F.8) для г от 2 до 10, и значения т^—» на которые должен умножаться нескорректированный коэффициент СС. Пример Таблица 144 Таблица Тип таблицы ЗС2 СС К0РР 139 140 3-4 3-3 496 120 24,932 20,844 0,21877 0,38470 0,26793 0,47114
Сравнение степени взаимозависимости между табл. 139 и 140 показывает (табл. 144), что взаимосвязи между признаками табл. 140 значительно отчетливее, чем между признаками табл. 139; несколько более высокое %2-значение для этой таблицы вызвано без сомнения тем, что объем выборки здесь примерно в 4 раза больше. 6.2.3. ПРОВЕРКА НА ТРЕНД: ВКЛАД ЛИНЕЙНОЙ РЕГРЕССИИ В ОБЩУЮ ВАРИАЦИЮ. СРАВНЕНИЕ КОЭФФИЦИЕНТОВ РЕГРЕССИИ, СООТВЕТСТВУЮЩИХ МНОГОКЛЕТОЧНЫМ ТАБЛИЦАМ Если на основании значимого значения %2 установлена зависимость распределения качественных признаков одного ряда от распределения второго ряда, то можно далее определить, является ли рост частот регулярным] иначе говоря, возрастают ли частоты линейно в зависимости от ряда признаков или этот тренд имеет более сложную природу. Значение %2 тогда может быть, как это уже было показано для k • 2- таблицы, разложено на две составляющие: первая соответствует линейно возрастающим частотам и имеет одну степень свободы, вторая соответствует отклонениям наблюдаемых частот от частот, линейно возрастающих согласно теоретическим предположениям. Эта составляющая также вычисляется как разность между %2 и Хрегр- Ставя в соответствие точечные значения (баллы) всем значениям х и у, можно перевести оба признака г • с-таблицы в наиболее простую систему координат. После этого перевода данных в количественную форму («квантификации») таблица проверяется на корреляцию обеих переменных. Практически согласно Йейтсу [Yates, 1948] проверяется регрессия одной переменной относительно другой: определяется коэффициент регрессии Ьух (или Ьху), соответствующая дисперсия V (Ьух) или V (Ьху) и проверяется значимость линейной регрессии по статистике = (ух) == я ( ху) с одной степенью свободы. F.10) У {Ь) V (ьху) Коэффициент регрессии у по х определяется по формуле byx=--I>xy/Zx2 (обратите внимание на абзац ниже F.126)!), F.11а) а х по у птгформуле b Z FМб) Дисперсии обоих коэффициентов регрессии в предположении справедливости нуль-гипотезы равны: V ibyx) = Л. = -^— , V (Ьху) = JL = — . F.12а,б) В обоих уравнениях значения х и у представляют собой отклонения соответствующих переменных от средних значений, s% — оценка дисперсии у, si — оценка дисперсии х. Для вычисления выражений F.10/6.126) необходимы три распределения частот — переменных х9 у и (# — у): по ним получают суммы 2#2, 2у2 и 2 (х — уJ. 440
Пример Рассмотрим табл. 140. После введения соответствующих значений баллов для категорий обоих признаков (табл. 145) вычисляются произведения сумм по строкам и столбцам и соответствующих значений баллов, а также произведения этих сумм и квадратов их значений. Суммы таких произведений равны (см. символы табл. 138): Используя эти суммы произведений, определяют значения и 2#2 по формулам " == 78 — — = 49,967, 120 ".^80 —=80. 120 2/ij Таблица 145 X у баллы 1 0 — 1 «./ n.jx ntjx2 —1 14 18 8 40 —40 40 0 22 16 2 40 0 0 l 32 8 0 40 40 40 nL 68 42 10 120 0 80 лЛ У 68 0 — 10 58 68 0 10 78 Для вычисления суммы 2 (х — уJ составляется соответствующее распределение частот (табл. 146). Второй столбец этой таблицы содержит «диагональные суммы» табл. 145, которые нужно определять, двигаясь снизу слева в направлении вверх направо. Таким образом получается 14; 18 + 22 = 40; 8 + 16 + 32 = 56; 2 + 8 - 10 и 0. Таблица 146 х-у 0—1=-1—0 I—1=0—0 = — 1—(—1) I—0=0—(—I) 1-(-1) = —I = 0 =1 9 ^диаг 14 40 56 10 0 "диаг <х-У) —28 —40 0 10 0 лдиаг (х У)* 56 40 0 10 0 Итого 120 —58 106 Столбец 1 содержит разности (х — у) для всех клеток табл. 145, которые «объединяются» по диагонали, так как эти значения (х — у) 441
идентичны: например, для всех клеток диагонали слева снизу вверх направо, т. е. для клеток с числами 8, 16, 32, для разности (х — у) получают значение нуль, для клетки «8» слева внизу: х = — 1, # = — 1, я — у = — 1 — -(-1)- -1 + 1=0; для клетки «16», середина таблицы: # = 0, у = 0, х—у = 0—0 = 0; для клетки «32» справа вверху х = 1, у = 1, х — у = 1—1 = 0 т. е. х — у = 0 справедливо для 8 + 16 + 32 = 56 и т. д. Из сумм произведений получаем: 2 (x-yf = 2«диаг (s-yy- = 106-- (~~58J =77,967. 120 Далее, согласно F.10, 6.11а, 6.12а), получаем: .?_ ___ ((80+49,967—77,967)/2-80J V(byx) ~~ 2 = : 20,293, 49,967/ A20-80) ИЛИ, ПО F.10, 6.116, 6.126), ~2 _ (ЬхуJ _ ((80+49,967--77,967)/2-49,967J __, Х ~ У(Ьху) ~~ 80/A20-49,967) ~' Значимость обоих коэффициентов регрессии (%?; o,ooi = 10,828) может определяться также с помощью стандартной нормальной переменной: z= b/Wffi, F.13) 0,325000 VV(bxy) V 0,013342 = 4,505, = 4,505. Значимость здесь статистически надежна (го,оо1 = 3,290). Если мы объединим результаты в таблицу (табл. 147), то окажется, что отклонения чисел табл. 145 от пропорциональности почти полностью обусловлены наличием линейной регрессии; лечение двойной дозой приводит к отчетливому росту эффекта лечения. Если это утверждение и кажется тривиальным, то не нужно забывать, что оно было получено лишь на основании табл. 147 (для Р много меньше чем 0,001 записывают Р << 0,001). Таблица 147 Причины разброса Линейная регрессия Отклонения от регрессии Общий разброс X2 20,293 0,551 20,844 Число степеней свободы 1 3 4 Уровень значимости Р«0,001 0,90<Р< 0,95 Р< 0,001 442
Если имеется необходимость сравнить линии регрессий, соответствующие разным таблицам, то по F.14) проверяют, значимо ли отличаются коэффициенты регрессии [Fairfield Smith, 1957]. ~ Ifti-M^ F14) VV(bi) + V(a) Значимость отклонения устанавливается по стандартному нормальному распределению. Пример Предположим, что числа в табл. 140 и 145 были определены для людей одного пола, возраста и т. д., и в нашем распоряжении имеются результаты опыта, полученные на другой возрастной группе: Ьг = 0,325, 62 = 0,079, V (Ьх) = 0,00521, V (Ь2) = 0,00250. Тогда z = _Q>325-Q>079 = 2,80 (Р = 0,0051), и нуль-гипотеза Уо,ОО521+0,00250 о равенстве коэффициентов регрессии должна быть отклонена на 1%-ном уровне. 6.2.4. ПРОВЕРКА КВАДРАТНЫХ ТАБЛИЦ НА СИММЕТРИЮ Критерий Макнимара (McNemar) дает возможность проверить симметричность 2 • 2-таблицы относительно своей диагонали. Аналогичный критерий на симметричность г • r-таблицы предложен Боуке- ром [Bowker, 1948]. Этот критерий проверяет нуль-гипотезу: клетки, симметричные относительно главной диагонали — диагонали с наибольшими числами, имеют равные частоты. Мы ожидаем, что где Ви — наблюдаемая частота в клетке на пересечении i'-й строки и /-го столбца; Bji — наблюдаемая частота в клетке на пересечении /-й строки и i-го столбца. Для проверки нуль-гипотезы вычисляется статистика с г (г — 1)/2 степенями свободы. Суммируются квадраты всех разностей симметрично расположенных чисел для i > /, разделенных на сумму этих чисел (г (г — 1)/2 членов). Если не более чем 1/5 из всех г • г клеток имеют ожидаемые частоты Е <С 3, то проверка по %сим может проводиться без всяких сомнений [Ireland, Ku, Kullback, 1969]. 443
Простой числовой пример (см. табл. 148) иллюстрирует процедуру вычисления статистики %сим^ Пример Таблица 148 0 4 12 8 24 10 2 4 4 20 16 10 3 1 30 15 4 6 1 26 41 20 25 14 100 Так как @ + 2 + 3 + 1) меньше чем (8 + 4 + 10 + 15), то главная диагональ проходит снизу слева вверх направо у2 -A2 /сим — -4J 12+4 @-1J 0+1 A0-6J 10+6 15,2. 4+1 A6 —4J 16 + 4 В таблице 4 строки и 4 столбца, следовательно, имеется 4 • D — 1)/2 = 6 степеней свободы. Соответствующее значение %o,os равно 12,59; нуль-гипотеза симметрии отклоняется с вероятностью ошибки 5%. Сравнения потливости рук и ног, остроты зрения левого и правого глаз, образования или хобби супругов представляют собой типичные примеры задачи на симметрию. Любая квадратная таблица, проверяемая на симметричность, может привести к интересным результатам: так, табл. 140 показывает отчетливую асимметрию [%?им = = A8 — 2J j_ A4 — ОJ _^ B2 "" 18+2 = 33,333 > 16,266 = г 14 + 0 ' 22 + 8 = Хз; o.ool J; она обусловлена резким уменьшением смертности и медленного выздоровления при простой и особенно при двойной дозе. ф 6.2.5. ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИОННОЙ СТАТИСТИКИ ДЛЯ ПРОВЕРКИ МНОГОКЛЕТОЧНЫХ ТАБЛИЦ НА НЕЗАВИСИМОСТЬ И ОДНОРОДНОСТЬ. ИНФОРМАЦИОННЫЙ АНАЛИЗ ТАБЛИЦ С ТРЕМЯ И ЧЕТЫРЬМЯ ВХОДАМИ ПО КУЛЬБАКУ (KULLBACK) Современные методы, основанные на аппроксимации 5С2-статистики соотношением правдоподобия и информационной статистикой, чрезвычайно удобны, когда имеются необходимые вспомогательные таблицы (табл. 85). Слабо заполненные большие таблицы сопряженности признаков, а также таблицы с тремя и четырьмя входами практически могут быть проанализированы только с помощью информационной статистики (minimum discrimination information statistic) 2/ B/—идентична G-статистике, описанной на с. 323). 444
14 18 8 40 22 16 2 40 32 8 0 40 68 42 10 120 Информационная статистика основана Таблица 149 на мере информации, предложенной Куль- баком и Лейблером [Kullback, Leibler, 1951] в виде меры расходимости (дивергенции) между генеральными совокупностями [Gabriel, 1966]. Она вводится и применяется для ряда статистических задач в книге [Kullback, 1959]. Вычисление информационной статистики 2/ для таблицы с двумя входами осуществляется по следующей формуле (см. табл. 138 и применяемые в ней символы): 21 =[ 2 2 2пи\ппи+ 2п1пп) — ) F.16) или 2/ = (сумма I) — (сумма II). Сумма I: для каждого значения пцл т. е. для каждого числа в клетке многоклеточной таблицы, считывается соответствующее значение из табл. 85. Табличные значения суммируются. К этой же сумме прибавляется значение из таблицы, соответствующее объему объединенной выборки. Сумма II: для каждой суммы по строкам и столбцам определяются соответствующие табличные значения и затем суммируются. Разность обеих сумм дает значения 2/; значок «л» над / указывает на то, что речь идет об «оценке» на основании наблюдений. Статистика 2/ при выполнении нуль-гипотезы о независимости или однородности асимптотически распределена как %2 с (г — 1) (с — 1) степенями свободы. При не очень слабо заполненной таблице (k • 2 или г • с) аппроксимация %2-статистики информационной статистикой вполне удовлетворительна. Если одна или несколько клеток не заполнены, рекомендуется применять поправку, предложенную Ку [Ки, 1963]: для каждого нуля отнимать от величины 21 единицу. При вычислении 21 необходимо определить (г + I) (с + 1) табличных значений. Это может представлять собой при больших таблицах известную проверку. Пример (см. табл. 149). Мы используем числа табл. 140 (см. с. 435). 73,894 136,006— 221,807 _, 573,853 1-я строка 313,964— 46,052 _ суммы по строкам 445
104,053 88,723- 33,271 _ 33,271 " 2,773- 0,000 _ 295,110 2-я строка 295,110— 295,110 _ суммы по столбцам 3-я строка 1819,199 = сумма II Проверка: мы определили C + 1) C + 1)= = 16 табличных значений 1148,998 /г= 120 1842,796 = сумма I 1842,796" 1819,199 23,597 1,100. —(с учетом одного нуля) 2/=22,597 Полученное значение несколько больше, чем соответствующее Х2-значение B1,576), однако это не окажет никакого влияния на решение задачи, так как величина %l; o.ooi = 18,467 заметно меньше обоих значений. Другие задачи, которые также изящно могут решаться с помощью информационной статистики, — это проверка двух распределений частотна однородность (см. разд. 6.1.2, а также4.3.1) и проверка совпадения эмпирического распределения с равномерным распределением (см. разд. 4.3.2). При сравнении двух распределений частот следует применять критерий проверки однородности таблицы с двумя входами, случай k • 2-клеток. Для примера на с. 426 было получено значение 2/ = 5,7635 против %2 = 5,734. Для таблиц такого размера почти всегда получается, что значение 2? несколько больше, чем %2. Проверка на равенство распределений Пример С 1000 часов на фирме произведено считывание времени. Класс 1 включает все часы, которые показывают от Г° до I59, соответственно установлены границы и других классов. Распределение частот приведено в табл. 150 при k = 12, п = 1000. Таблица Класс Частота 150 1 81 2 95 3 86 4 98 5 90 6 73 7 70 8 77 9 82. 10 84 11 87 12 77 п = 1000 446
Проверяется нуль-гипотеза (равномерное распределение) на 5%-ном уровне 2/= 25 2f|lnff—2n\nn + 2n\nk, v = k—l. F.16a) 2/ - [2 • 81 In 81 + ...] — 2 • 1 000 In 1 000 + 2 A 000 In 12). Примечание. Последнего члена 2 A000 In 12) в таблице нет, поэтому его нужно вычислить непосредственно. Требуемая точность — один знак после запятой, поэтому остальные значения следует округлять аналогично. Если нет таблиц натуральных логарифмов, то In 12 определяется по формуле In а = 2,302585 • lg a, т. е. In 12 = 2,30258 ¦ 1,07918 = 2,484898 сх 2,48490 и 2 • 1000 • 2,48490 = = 4969,80. 2/ = [711,9 + ... + 668,9] — 13815,5 + 4969,8 = 9,4; 2/ = 9,4 < 19,68 = x?i; 0,05. Следовательно, нет никаких оснований отклонять нуль-гипотезу о равномерном распределении. Особое значение статистики 2/ основано на том, что Кульбак [Kullback, 1959] (см. также [Kullback, 1962]) показал возможность разложить информационную статистику для таблиц с тремя и большим числом входов на аддитивные компоненты (т. е. составляющие с определенным числом степеней свободы), которые могут быть проверены отдельно и затем просуммированы. Эти компоненты относятся к независимости частей, условной независимости и взаимодействию. Уже при простой 3 • 3 • 3-таблице (куб сопряженности признаков) могут проверяться вместе 16 гипотез. Подобный анализ называется информационным анализом и может рассматриваться как непараметрический дисперсионный анализ.
ГЛАВА 7. МЕТОДЫ ДИСПЕРСИОННОГО АНАЛИЗА • 7.1. ПРЕДВАРИТЕЛЬНЫЕ ЗАМЕЧАНИЯ И ОБЗОР В гл. 2 мы упоминали о методологии поверхности отклика как о стратегии эксперимента для улучшения качества чего бы то ни было. Значительная часть этой специальной теории оптимального планирования эксперимента основана на регрессионном анализе и на так называемом дисперсионном анализе, который был разработан Р. А. Фишером A890 — 1962) для планирования и анализа экспериментов, в особенности полевых опытов, и который позволяет отличить существенные факторы от несущественных. Особую роль в этом различении играет сравнение средних значений. Дисперсионный анализ, как и /-критерий, предполагает нормальное распределение и равенство дисперсий. Поэтому мы хотим сначала рассмотреть методы, использующие F-критерий для проверки равенства или однородности нескольких дисперсий. Если дисперсии нескольких выборок равны, то можно сравнивать и средние значения. Это простейшая форма дисперсионного анализа. Для надежного определения влияния нескольких существенных факторов необходимо, чтобы наблюдаемые значения были получены из специальным образом поставленного опыта (см. разд. 7.7). Дисперсионный анализ служит для количественного исследования влияния входных переменных (факторов, см. с. 479) на результат опыта. О необходимом объеме выборки можно прочесть в работах, рекомендованных на с. 494 (примечание 3). «Быстрые» критерии дисперсионного анализа изложены на с. 494 — 499. Независимые выборку с необязательно равными дисперсиями (см. с. 248—251), но с приближенно одинаковыми видами распределений могут сравниваться по Я-критерию (с. 281—283) или по очень простому ранговому критерию (например, в [Sachs, 1970]). При независимых выборках с примерно одинаковыми типами распределений может применяться критерий Фридмана (Friedman) с соответствующими множественными сравнениями (с. 499—507). 7.2. ПРОВЕРКА РАВЕНСТВА НЕСКОЛЬКИХ ДИСПЕРСИЙ Предполагается, что случайные выборки из нормально распределенных генеральных совокупностей независимы. 443
Таблица 151. Распределение Fm&x по Хартли для проверки нескольких дисперсий на однородность V X 2 3 4 5 6 7 8 9 10 12 15 20 30 60 оо 2 39,0 15,4 9,60 7,15 5,82 4,99 4,43 4,03 3,72 3,28 2,86 2,46 2,07 1,67 1,00 3 87,5 27,8 15,5 10,8 8,38 6,94 6,00 5,34 4,85 4,16 3,54 2,95 2,40 1,85 1,00 4 142 39,2 20,6 13,7 10,4 8,44 7,18 6,31 5,67 4,79 4,01 3,29 2,61 1,96 1,00 5 202 50,7 25,2 16,3 12,1 9,70 8,12 7,11 6,34 5,30 4,37 3,54 2,78 2,04 1,00 сс = 6 266 62,0 29,5 18,7 13,7 10,8 9,03 7,80 6,92 5,72 4,68 3,76 2,91 2,11 1,00 0,05 7 333 72,9 33,6 20,8 15,0 11,8 9,78 8,41 7,42 6,09 4,95 3,94 3,02 2,17 1,00 8 403 83,5 37,5 22,9 16,3 12,7 10,5 8,95 7,87 6,42 5,19 4,10 3,12 2,22 1,00 9 475 93,9 41,1 24,7 17,5 13,5 11,1 9,45 8,28 6,72 5,40 4,24 3,21 2,26 1,00 10 550 104 44,6 26,5 18,6 14,3 11,7 9,91 8,66 7,00 5,59 4,37 3,29 2,30 1,00 11 626 114 48,0 28,2 19,7 15,1 12,2 10,3 9,01 7,25 5,77 4,49 3,36 2,33 1,00 12 704 124 51,4 29,9 20,7 15,8 12,7 10,7 9,34 7,48 5,93 4,59 3,39 2,36 1,00 а = 0,01 X 2 3 4 5 6 7 8 9 10 12 15 20 30 60 оо 2 199 47,5 23,2 14,9 11,1 8,89 7,50 6,54 5,85 4,91 4,07 3,32 2,63 1,96 1,00 3 448 85 37 22 15,5 12,1 9,9 8,5 7,4 6,1 4,9 3,8 3,0 2,2 1,0 4 729 120 49 28 19,1 14,5 11,7 9,9 8,6 6,9 5,5 4,3 3[3 2,3 1,0 5 1036 151 59 33 22 16,5 13,2 11,1 9,6 7,6 6,0 - 4,6 3,4 2,4 6 1362 184 69 38 25 18,4 14,5 12,1 10,4 8,2 6,4 4,9 3,6 2,4 1,0 7 1705 21F) 79 42' 27 20 15,8 13,1 11,1 8,7 6,7 5,1 3,7 2,5 1,0 8 2063 24(9) 89 46 30 22 16,9 13,9 11,8 9,1 7,1 5,3 3,8 2,5 i!o 9 2432 28A) 97 50 32 23 17,9 147 12,4 9,5 7,3 5,5 3,9 2,6 1,0 10 2813 31@) 106 54 34 24 18,9 15,3 12,9 9,9 7,5 5,6 4,0 2^6 1,0 И 3204 33G) 113 57 36 26 19,8 16,0 13,4 10,2 7,8 5,8 4,1 2,7 1,0 12 3605 36A) 120 60 37 27 21 16,6 13,9 10,6 8,0 5,9 4,2 2,7 1,0 Источник: Pearson E. S., Hartley H. О. Biometrika Tables for Statisticians, vol. 1, Bnd ed.), Cambridge, 1958, table 31. Цифры, стоящие в скобках (для v=3; 7^k^ 12) ненадежны, например, значение /чпах для v=3; k~l примерно равно 216. 15 Зак. 930 449
7.2.1. ПРОВЕРКА РАВЕНСТВА НЕСКОЛЬКИХ ДИСПЕРСИЙ ДЛЯ ВЫБОРОК РАВНОГО ОБЪЕМА ПО ХАРТЛИ Относительно простой критерий для проверки нуль-гипотезы о равенстве или однородности дисперсий af = g\ = ... = о} = ... == о% = = а2 был предложен Хартли (Hartley). При условии равенства объемов групп (п) эту гипотезу можно проверить с помощью статистики ? наибольшая дисперсия п п ^тах — • \**ч наименьшя дисперсия Выборочное распределение статистики Fmax приведено в табл. 151. Параметрами распределения служат число групп к и число степеней свободы каждой групповой дисперсии v = п — 1. Если Fmax при заданной статистической надежности превосходит табличные значения, то гипотеза о равенстве или однородности дисперсий отклоняется и принимается альтернативная гипотеза о* Ф о2 для определенного i ([Hartley, 1950]). Пример Проверьте однородность следующих трех выборок объемом п = 8 каждая; s\ = 6,21; s| = 1,12; si = 4,34 (а = 0,05). -ML -5;54< 6,94 = ^max {для fe = 3f v = n—1=7 и а=0,05}. 1,12 На основании имеющихся выборок со статистической надежностью S = 95% нуль-гипотеза об однородности дисперсий не отклоняется. «Быстрый» критерий, основанный на отношении наибольшего и наименьшего размахов, предложен Лесли и Брауном [Leslie, Brown, 1966]. Верхние критические границы для четырех уровней значимости можно найти в работе этих авторов. 7.2.2. ПРОВЕРКА РАВЕНСТВА НЕСКОЛЬКИХ ДИСПЕРСИЙ ВЫБОРОК РАВНОГО ОБЪЕМА ПО КОКРЕНУ Когда одна из выборочных дисперсий (Smax) значительно больше, чем остальные (или когда k > 12), предпочитают этот критерий [Cochran, 19411 со статистикой Суждение о Gmax осуществляется с помощью табл. 152: если Gmax больше, чем табличное значение для заданных k, v = n — 1 и выбранного уровня значимости, где п — объем отдельной выборки, то нуль- гипотеза о равенстве дисперсий отвергается и принимается альтернативная гипотеза: o^ax Ф а2. 450
s & о 8 s «3 15* 0*0*0* S3?* «_ ^^r~< O< 21 ооо ооо ооо ОО- о*о*о 2SS COOiC О О) Ю ?J22 5222 Z!oo oo ооо ооо ооо ооо ооо > трсо >co см ооо oo*o* <NOi SSI ooo ^-« »-H G5 o*o*o* ooo 28 S3 ооо сГоо CO V - Ш1 5 CO ( CNC Si ооо ооо 000 t»- «o ^ 0*0*0* oo oo ««*• 5 coco o*o*o* 4 l>- С эсос -^oo s? ooo 1Я. o*o*o 2co^ 00^ IO^ o*o*o* 18 OOO 0*0*0* OO COt> O^ CO lO S^2 О00Ю CO Ю-* ooo ooo ооо COCO Ю o*o*o* o*o*o* 5CNCN s5§ CO <N О ~-«ooo <NON ^н ^н О ooo ooo ооо ооо 2gc CO<N ( ооо ооо OOO o*o*o* IS! ooo со e* ЮСО o*o*o 1 *-4 00 S2[ ооо ooo cocoes o*o*o* o*o*o* со *-• oo CO CO o*o*o 8K{ ооо ооо со co^co o*o*o* o*o*o* is^ i§ ооо ооо o*o*o* S! o*o*o* ОЮС0 со со со o*o*o* CO COO ooo ooo o*o*o CO O^ 00 O5 t^lC ooo O> CO 00 o*o*o* t^-t^co - ico ?S5 rt* OOl со ю < 3&? • CO O5 5SS ooo ooo ooo oo ^* o*o*o SsSoS >3ю ооо ooo o*o*o* О} СО t"*" CO COCN ^t4 CO CO IO00S со о lo «8 ooo ооо ооо Q) O5 C7^ o*o*o* o*oo Si О О5" ^o с Tt< t- С ooo ^* C7> CO CO^C^CN^ o*o*o* COO) юсо t^ ооа>о 451
CD O Ю О I CM СО tF Oi Oi •rt* CM CM см см ~^ о"©*©* о ~-*co OOO OOO г- со t^- CO Ю Ю Г*- Ю ^ CM O) 00 OOO CO iii OOO OOO OOO o*o~o~ OOO CM CM CM S3 0*^0*0 О СО CD CO Tf CO oo СОЮ ООО-н CO О) Ю OOO OOO ^ <N CN t* —< О 00 CD Ю o~o~o~ 00 00 CM t>- ^ ^ CO со i>-co CO О GO CO CO CM OOO OOO OOO OOO CO IN t CM О Oi 00 ^ 00 OOt^lD fcs= О ^ О5 Ю^ CO CM C^ Ю CM О ^ ЮСМ (Л со со см ю "^co coo ^ LO —< CD CM CM —« CO t^- 00 О Ю С7) ^ —4 00 O OOO OOO OOO OOO CM CO CD CO OO OOO OOO CM t>~ см oo S со со — ^rcojp CO Oj t4— o^o'o* too см OJ t"- t^ o>^ ю ЮЮСО OOO о^ол OOO CD tO CM 00СО>-* loco см о oo i>- о ю о см со oo CD Ю Ю oo см oo см oooo 38^ n< «^ со o'o'o" c-co oo O^ CD CM CM —-и —« OOO CN C75 О 00 83 o> oo t-. o"o"o" 5 CM CD CD Ю Ю O5C0 CD COCO CM OOO OOO OOO C75LO CD 00 оЪо О CO CO Ю CM tJ* O>^ CD O5 Gi 00 CD CD^ см r- oo ЮСМЮ i—11^. CO СОЮЮ юсо NO( — СМЮ 00 'Ф О) CM CM ^ OOO OOO ^ Q5 f- Ю со h- o O5 COCO слсо ь- O5 Oi CO О С7> СХ ^ 00 C см t C 001 _. CM -Ф O> ю ь-1^ OOO ooV Is-CM О CM CD О ** со см^ 452
Пример Пусть имеются следующие 5 дисперсий: s| = 26; si = 51; s§ = 40; si = 24 я si = 28; причем каждая из них основана на 9 степенях свободы. Проверку следует провести на 5%-ном уровне. Тогда С1 26+51 + 40+24+26 Для а = 0,05, k = 5, v = 9 табличное значение равно 0,4241. Так как 0,302 < 0,4241, можно в равенстве имеющихся дисперсий не сомневаться (Р > 0,05). Очень похожий критерий, основанный, однако, на размахе отдельных выборок, был описан в [Bliss, Cochran, Tukey, 19561, примеры и верхние 5%-ные границы можно найти в этой же работе. В большинстве случаев критерии Хартли и Кокрена приводят к одинаковым решениям. Так как критерий Кокрена использует больше информации, он, вообще говоря, несколько более чувствителен. Если числа наблюдений в отдельных группах почти равны, можно использовать или критерий Кокрена, причем объем наибольшей группы определяет число степеней свободы для табл. 152, или, и в особенности при большом различии в объемах групп, критерий Бартлета [Bart- lett). 9 7.2.3. ПРОВЕРКА РАВЕНСТВА НЕСКОЛЬКИХ ДИСПЕРСИЯ РАВНЫХ ИЛИ РАЗЛИЧНЫХ ВЫБОРОК ПО БАРТЛЕТУ Нуль-гипотеза — однородность нескольких дисперсий — может быть проверена по Бартлету [Bartlett, 19371 при наличии данных, распределение которых весьма близко к нормальному. Критерий Бартлета представляет собой комбинацию чувствительного критерия на нормальность, точнее на «хвостатость» («longtailedness») распределения, с менее чувствительным критерием на равенство дисперсий. - L V где g= "',. » +1; G.3) s2 = —- с (k—1) степенями свободы. Здесь: k v = п — k — общее число степеней свободы = 2 v*» п — объем объединенной выборки, k — число групп; каждая группа должна включать 453
не менее 5 наблюдений, & — оценка взвешенн ой дисперсии, vt — число степеней свободы в i-й группе (равно п% — 1), s? — оценка дисперсии 1-й группы. При не слишком малых значениях vt практически с равно единице, т. е. значение с надо вычислять только тогда, когда ожидается, что значение в прямоугольных скобках лежит на границе значимости. Если имеется k выборок равного объема п09 причем яо> 5, то формула упрощается: ?• —j-1*2,3026ft(п,- 1)Jig«•—?- 2lgs?Jl, где G.4) с (А — 1) степенями свободы. Если оценка з? больше, чем табличное критическое значение для заданной статистической надежности или равна ему, то нуль-гипотеза о\ = al = ... = о} ... а% =s а2 отклоняется (альтернативная гипотеза erf Ф а2 для фиксированного О- В [Harsaae, 1969] даны точные критические границы, которые дополняют табл. 32 «Biometrika Tables» [Pearson, Hartley, 1960, p. 204, 205]. Пример Дано: три выборки объемом пг~ 9, /г2 = 6ияз = 5с дисперсиями, приведенными в табл. 153. Проверить равенство дисперсий на 5%-ном уровне. Таблица 153 1 2 3 8,00 4,67 4,00 8 5 4 17 64,00 23,35 16,00 103,35 lgs* 0,9031 0,6693 0,6021 v.lgs* 7,2248 3,3465 2,4084 12,9797 ^^-= 6,079, Igs2 = 0,7838; Xa=—12,3026-A7* 0,7838—12,9797)] =—-0,794. 454
Так как xi; 0,05 = 5, 99 значительно больше, чем 0,794, нуль- гипотеза не отклоняется. С учетом с Г 1 , J. JL1 JL с = ±2 * U—11 +1 = 1,086 3C-1) т получается X2 = 0,794/1,086 ^ 0,731. Если нужно проверить на равенство много дисперсий, то можно применить предложенную Хартли модификацию критерия Бартлета (см. [Bartlett, 1962]). Так как критерий Бартлета очень чувствителен к отлонениям от нормальности [Box, 1953], [Box, Andersen, 19551), то в сомнительных случаях лучше метод, предложенный в [Levenel (см. с. 243). Множественные сравнения нескольких дисперсий можно изящно провести по [David, 19561. 7.3. ДИСПЕРСИОННЫЙ АНАЛИЗ С ОДНОСТОРОННЕЙ КЛАССИФИКАЦИЕЙ 7.3.1. СРАВНЕНИЕ НЕСКОЛЬКИХ СРЕДНИХ В ДИСПЕРСИОННОМ АНАЛИЗЕ Сравнение двух средних значений нормально распределенных генеральных совокупностей (разд. 3.6) может быть распространено на произвольное число средних значений. Пусть даны k выборок объемом п% каждая с общим числом элементов п, т. е. 2 1=1 Каждая группа (выборка) принадлежит нормально распределенной генеральной совокупности. Генеральные совокупности имеют равные, но неизвестные дисперсии. Выборочные значения имеют два индекса: xtj — /-e значение i-ймвыборки (I < i ^ k\ 1 < / < nt): Среднее значение группы xt: *"* G'5) Обшре среднее х: х=т 2 2 *«st 2 я1*1- G-6) п 455
или, проще, 2 2 **'- G-7) Для «дисперсионного анализа» с односторонней классификацией важно, что сумма квадратов отклонений (SAQ или Q) выборочных значений относительно общего среднего («Q общее») может разлагаться на две части: 1) SAQ отдельных значений относительно групповых средних, называемое «Si4Q внутри групп» («Q внутри») и 2) SAQ групповых средних относительно общего среднего, называемое «SAQ между группами» («Q между»), т. е. Увнутри ' ч?между -^.J + 2^(^г.—^J G.8) с (п — 1) = (л — k) + (k — 1) степенями свободы. G.9). Отношение Q/v (где v — соответствующее Q число степеней свободы) называется в дисперсионном анализе средним квадратом (MQ). Если все группы принадлежат одной и той же генеральной совокупности, то дисперсии, т. е. средние квадраты, 1 ^i "¦* — и. 1_ л — I должны быть примерно равны, т. е. если отношение Мфмешду к MQBHyTPH больше критического значения /^распределения для v± = k—1, v2 = п — k и заданного а, то среди групп имеются такие, которые имеют различные средние значения [лг. Нуль-гипотеза отклоняется на основании статистики 1 p^lnLz G.12) 456
или G.13) если F>Fik-_Un_k;a>: G.14) В этом случае по меньшей мере два средних \it отличаются друг от друга, т. е. для некоторого i подтверждается альтернативная гипотеза Если Мфмежду < ^Свнутри» то нуль-гипотеза может не отклоняться, и G.6) и G.11) — оценки для \i и для а2 с п — k степенями свободы. Мфмешду называют также «ошибкой выборки», a MQ «ошибкой опыта». Техника вычислений Статистика G.13) вычисляется по G.15): [Смежду] при п наблюдениях из k выборочных групп. A = 2 (результаты наблюденийJ = 2 ХЬ> В — S (гРУпповая суммаJ __ Х^ xj2. ,- .с\ объем группы ^f щ При л:^ = 2 хи. тг (сумма всех наблюденийK число всех наблюдений п п Для проверки <20бщ вычисляется «в обход» Собщ = ГЗмежду! + [«внутри! = W - К] + 1А - В] G.16) и «в лоб» Примеры 1. Группы выборок неравного объема п% приведены в табл. 154. Согласно G.15), J Г/ Ю2 16а 18^ \ 442 1 3—1 [у 2 + 4 + 3 J" 9 J 9—3 457
Таблица 154 Выборочные группы 1 2 3 4 XL п< [Xi 1 3 7 10 2 5 2 4 2 7 3 16 4 4 3 8 4 6 18 3 6 ,..=44 ¦[6,89] ?30] = 0,689. Проверка G.16, 7.17): 16,89] + 130] = 36,89, (За + 7я + 4* + 2* + 7а + За + 82 + 42 + б2) — 442/9 = 36,89. Так как F — 0,689 < 5,14 = FB; 6;"o,os), то нет оснований для отклонения нуль-гипотезы: все три средних значения принадлежат одной и той же генеральной совокупности с G.6) # = B«5 + 4х X 4 + 3 • 6)/9 = 4,89 и G.11) s8 == 30 при 6степенях свободы. 2. Группы выборок равного объема (nt = const) приведены в табл. 155. —о = 3,60. Проверка: [8] -f-1101 = 18, (б2 + у* + - + 53 + 82) — 722/12 = 18. Так как F =а 3,60 < 4,26 =* FB: 9; o.es), J_o для отклонения нуль- гипотезы о равенстве трех средних значений (х = 6, s2 = 10 с 9 степенями свободы) нет оснований (Р > 0,05). 453
Таблица 155 1 2 3 4 хи т ~Xi Выборочные группы ; 1 6 7 6 5 24 4 6 2 5 6 4 5 20 4 5 3 7 8 5 8 28 4 7 „=12 Вычисления с округленными значениями Иногда измеренные значения целесообразно несколько упростить ([Wartmann, 1959]). Тогда наименьшее наблюдаемое значение приравнивается нулю, а область до максимального значения разбивается примерно на 50 равных частей, которым приписываются последовательно целые числа, и дальнейшей обработке подвергаются только полученные таким образом целые значения. Можно, конечно, также по округленным значениям грубо оценить общее среднее значение, а остальные значения умножить на соответствующий] коэффициент, чтобы получились числа, лежащие в интервале—50, + 50%Если размах меньше 50, то все числа умножают на 10 и рассматривают полученные десятки. Эти линейные преобразования не изменяют статистику Добавления 1. Оценка стандартного отклонения по размаху. Если можно предположить, что выборка объема п взята из приближенно нормально распределенной генеральной совокупности, то по размаху R можно оценить стандартное отклонение. G.18) Множитель \ldn для заданного я находится по табл. 156. Как правило, п > 12. В этих случаях целесообразно выборку с помощью случайной процедуры разделить на k групп по 8 или во всяком'случае по 64-10 элементов; дл_я каждой группы объемом п определить значение R и вычислить средний размах R: GЛ9) Стандартное отклонение, определяемое в этом случае по формуле: о — л\\Чип; 7.20) («внутри выборки»), основано на эффективном числе степеней свободы/указанном в правой части табл. 156. Для п > 5 и k > 1 всегда v < k (n —J). ПоряХок 459
3внутри — значений sa и М<2ВНутри должен быть согласован (см. табл. 155 с R = B + + 2 + 3)/3 = 2,33; s = 2,33-0,486 = 1,13; ? = 1,28 против Л1<3в = 10/9= МО- Таблица 156. Коэффициенты для оценки стандартного отклонения генеральной совокупности по выборочному размаху Объем выборки или группы л 2 3 4 5 6 7 8 9 10 11 12 Коэффициент шп 0,8862 0,5908 0,4857 0,4299 0,3946 0,3698 0,3512 0,3367 0,3249 0,3152 0,3069 Эффективное число 1 1 2 3 4 5 5 6 7 8 9 10 свободы v степеней цля k групп объема 7 9 11 12 14 15 11 14 16 18 21 23 15 18 21 24 27 30 п 18 23 27 30 34 38 Источник: Patnaik P. В. The use of mean range as an estimator of variance in statistical tests, Biometrica, 37, 78—87, 1950. 2. О помощью табл. 156 можно провести упр о щенный дисперсионный анализ Мы здесь не будем на этом останавливаться и укажем на критерий Линка и Уоллеса (Link, Wallace), который также основан на размахе, однако, благодаря табл. 177, существенно экономнее (разд. 7.5.1) (см. также графический метод Отта fOtt, 1967]). 3, Доверительный интервал для размаха можно оценить с помощью табл. 157 Предположим, что несколько выборочных групп объемом п = 6 относятся хотя бы приближенно к нормальному распределению. Средний размах равен 3, 4 единицы. Оценка стандартного отклонения тогда, согласно G.20), равна 3,4 X X 0,3946 = 1,34. Если принять объем выборки равным п — 4, то для 90%-ного доверительного интервала, согласно табл. 157, получаем коэффициенты 0,760 и 3,633 и границы 1,34*0,760 = 1,02 и 1,34-3,633 = 4,87. Предположим, что дана нормально распределенная генеральная совокупность с а= 1,34; тогда этот интервал (для случайной выборки объемом п = 4) равен точно 90%-ному доверительному интервалу. Оценка стандартного отклонения для среднего размаха s- осуществляется яо формуле: G.21) где vn — коэффициент из табл. 157, \ldn — коэффициент й~з табл. 156, R — средний размах, k — число выборочных групп объемом л, по которым вычислялся размах. 460
Таблица 157. Коэффициенты для оценки доверительного интервала для размаха: произведение стандартного отклонения, оцененного по табл. 156, и коэффициента, заданного для тех же самых объема выборки и степени надежности, определяет нижнюю и верхнюю границы и тем самым доверительный интервал для размаха выборки данного объема. Последний столбец содержит коэффициент vn для оценки стандартного отклонения среднего размаха. Подробнее см. текст. п 2 3 4 5 6 7 8 9 10 11 12 1%-ные нижняя 0,018 0,191 0,434 0,665 0,870 1,048 1,205 1,343 1,467 1,578 1,679 границы верхняя 3,643 4,120 4,403 4,603 4,757 4,882 4,987 5,078 5,157 5,227 5,290 5%-ные нижняя 0,089 0,431 0,760 1,030 1,253 1,440 1,600 1,740 1,863 [,973 2,071 границы верхняя 2,772 3,314 3,633 3,858 4,030 4,170 4,286 4,387 4,474 4,552 4,622 Коэффициент vn 0,853 0,888 0,880 0,864 0,848 0,833 0,820 0,808 0,797 0,787 0,778 Источник: Pearson E. S. The probability integral of the range in samples of n observations from a normal distribution. I. Foreword and tables, Biometrica, 32, 1941/42, 301—308, p. 308, table 2, right part. Были приняты во внимание скорректированные значения из Harter H. L., Clemm D. S., Guthrie E. H. The Probability Integrals of the Range and of the Studentized Range. Vol. I. Wright Air Development Center Technical Report, 58—484, 1959. Например, для k = 5, n = 6, R = 7, (\ldn) = 0,3946 и vn = 0,848. 0,848-0,39462- 7 = 0,413. Замечания о коэффициентах \ldn и vn: для выборок объемом п из нормально распределенной генеральной совокупности со стандартным отклонением or значение dn равно среднему значению, a vn — стандартному отклонению стандартизированного размаха w = R/a. • 7.3.2. ЗАКЛЮЧЕНИЯ О ЛИНЕЙНЫХ КОНТРАСТАХ ПО ШЕФФЕ (SCHEFFE) Если наш дисперсионный анализ приводит к выводу о значимом различии, то представляет интерес определить, какие параметры из Mi> Мг> •••! М-г» •••» Ма лучше и какие две группы А и В параметров со средними значениями \ьА и \iB отличаются друг от друга. Если, например, имеются оценки пяти параметров: jilf |x2, |л,з, |л4, \i5, то можно наряду с другими сравнить следующие средние значения: Уг:\1х = |х2 = \хА с fx3 = fx4 = fx5 = iiB\ 461
= [iA с щ = цз = ц4 = ja5 = Н С f*B=-?-(f* Сравнения такого рода записываются в виде: Ух' \ (Hi + Щ) —J" У г- V-i — (l^a +1*8 +1*4 + и называются линейными контрастами. Они представляют собой линейные функции от k средних значений [it G.22), которые определяются через k известных постоянных си удовлетворяющих условиям G.23): 2С«1*|' 2С* = О- G.22,7.23) Эти сг = константы для __ 1 . __ примера с4 = сь = равны: 1 з ; JL . 2 1 ~ 3 1__ 3 1 3 K,:Cll; са Сз с4 с6=J; 1 4 4 4 4 4 Если 1ХА Хв] > V(k-1)F(ft_1: n_ft!a, G.24) при / )fe Г" ^-t G.24a) внутри» то параметры, которые лежат в основе контрастов, различаются [Scheffe, 1953]. Если нужно сравнить только два из k значений, скажем, |лз и (лб, то (например, при k = 6) сг = с2 = с4 = с6 == 0 и Но : |лз = (х6 отклоняется, когда G.25) 462
В случае неодинаковых групп образуют взвешенные линейные контрасты, например, для Vx: Л1+Л2 оценка получается по: Пример Таблица 158 i 1 2 3 4 5 xi 10 9 14 13 14 10 8 12 11 7 I 10 10 10 10 10 II 15 5 15 10 5 Средние значения, согласно Xn\ — 2ttn = 50 Согласно G.15), для равных (I) и неравных (II) объемов выборок получаем: р _ 10 [A0—12J + (9 —12J + A4—12J + A3—12 *~ 9.48/E0—5) A5A0—12,1J + 5(9 —12,1J+15A4 — 12,1J+ЮA3 —12, = +5A4-12,1J)/E-1) A0-14+8.4+12-14 + 11-9+7.4)/E0—5) ^I4,69. 10,38 Так как 5,73 и 4,69 >• 3,77 = .FD; 45; 0,01), то мы проверим = Ш < 1*3 = ^4 = h> согласно G.24, 7.24а), для чего образуем: для I 463
[2410 10/ З2\ю 10 lo для II i- ~ I \Xa—XB = 15-10+5-9 1514+Ю13 + 5 ~~ 15+5 15 + 10+5 +6) и получаем для I для II = 4,21. 4,66, 0,894 ' 0,931 Поскольку FD; 45; o.oi) = 3,77 и ]/E — 1) • 3,77 = 3,88, в обоих случаях разница значима (I : 4,66 > 3,88; II : 4,21 >3,88). Дополнение к сравнению многих средних значений Формула G.49) на с. 488 для определенных задач практичнее, чем формула G.24а) (v?BH = п — k). Согласно Вильямсу [Williams, 1970J, рабочие затраты уменьшаются при данном варианте дисперсионного анализа и не слишком малом k потому, что (а) для наименьшего п (ttmin) вычисляется наибольшая незначимая разность D/, Нижн и (б) для наибольшего п (птах)— наименьшая значимая разность Dit верхн- Затем требуется определить Di G.49) только для той разности, которая лежит между Р/, нижн и D/, Верхн- Вычисляют: DIt шжн = YW/nmin и D/, верхн = VW/nmgiX, где W = 2 sB2H (k — 1) F{k-U n-k-, a). Дополнение. Образование однородных групп средних значений на основании модифицированного LSD-критерия. Если по /^-критерию Но (\it = |x) может быть отклонена, то упорядочивают k средних значений выборочных групп равного объема (ni = const; п = ^/ti) по величине (хг ^ хг ^ хъ ...) и проверяют, больше ли разность А между соседними средними значениями, чем наименьшая значимая разность (least significant difference, LSD): LSD = /я«Л; a l/ — Sb2h= l/ — sIHF(i;n-ft; a) . G.26) V rti V n% 461
Для неравных объемов выборок (nt ^konst, n = 2 ni) nanb G.27) При А <; LSD или А(а> ь) ^ LSD(a, ъ) нет оснований для отклонения нуль-гипотезы Яо (равенство соседних средних значений); средние значения подчеркивают тогда общей линией. Пример л, = 8; ? = 6; &= 10,38; v =48—6 = 42. /42; 0,05 = 2,018, FiX. 42; 0,05) = 4,07, LSD = = 2,0181/ -1.10,38 = 3,25, или LSD = = 1/ —-10,38.4,07 = 3,25. 8 х\ = 26,8 J2 = 26,3 73 = 25,2 *4 = 19,8 хъ = 14,3 дгв = 11,8 А _ 0,5 1.1 5,4 5,5 2,5 На 5%-ном уровне можно выделить три области: хг х2 х3 л:4 х5 х6. [Применение G.27) при пх = 7; м2 = 9 (остальные неизменные) дает: LSDA>2) = 2,018 /10,38 • 0,254 = 3,28, или У 10,38 • 0,254 . 4,07 = = 3,28; АA>2) = 0,5 < 3,28 = LSDA>2), т. е. Яо: \ix = |x2 на 5%-ном уровне не отклоняется.} В случае равных объемов выборок (пг) можно группы из трех и более средних значений подвергнуть дополнительному исследованию по Тьюки [Tukey, 1949]. Для этого_вычисляют в каждой группе среднее х, наибольшее отклонение d = \ хг — х \ внутри группы и проверяют, превосходит ли значение dYrtilsl^ значение в табл. 26 (см. с. 111). В этом случае образуют новую группу (без xt) и повторяют процедуру до тех пор, пока каждая группа будет включать в себя не больше трех средних значений. Упомянутая таблица находится нас. 185—186 «Biometrika Tables» [Pearson, Hartley, 1966], (n — число средних значений в группе, v — число степеней свободы, соответствующее s|H). Если этой таблицы нет под рукой, то для групп вычисляют статистику: 3 средних значения > 3 средних значений. 3@,25+l/v) :_ 3@,25+l/v) 465
v — число степеней свободы, соответствующее $1Н, п' — число средних значений в группе. Приг< 1,96 = zofo5 группу можно считать однородной. Другие границы стандартного нормального распределения см. в табл. 14 (с. 68) и 43 (с. 204). При г > za нужно х% выделить и образовать новую группу средних, для которой снова вычислить значения d и z. ф 7.3.3. ПРЕОБРАЗОВАНИЯ .'\ ' j Измеренные значения Асимметричные распределения, выборки с неоднородными дисперсиями и частотами должны быть преобразованы в нормально распределенные значения с однородными дисперсиями перед проведением дисперсионного анализа. Если мы, например, сравниваем размахи четырех ^выборок (табл. 159), то получим: 9,00—5,00 = 7,00; j/9—]/5 = 3-2,236 = 0,764; lg 9 — lg 5 = 0,954 - 0,699 = 0,255; -g q- = 0,2 — 0,111 = 0,089; аналогичным образом заполняется остальная часть таблицы. Таблица 159 Выборки 1 2 3 4 Крайние значения 5,00 И 9,00 0,20 и 0,30 1,10 и 1,30 4,00 и 12,00 Размахи выборок Исходные значения 4,00 0,10 0,20 8,00 Квадратные корни 0,764 0,100 0,091 1,464 Логарифмы (основание Ю) " 0,255 0,176 0,072 0,477 Обратные значения 0,089 1,667 0,140 0,168 Неоднородность размаха выборок несколько уменьшается преобразованием «извлечение квадратного корня», еще более — логарифмическим преобразованием. Преобразование «обратные значения» — слишком сильное, оно весьма увеличивает очень маленькие размахи. Вариация логарифмов не показывает такой неоднородности, которую можно ожидать от случайного процесса. Если далее предположить, что стандартное отклонение пропорционально размаху, то логарифмическое преобразование в данном случае выглядит вполне пригодным. Среднее положение между логарифмическим и преобразованием в обратные значения занимает преобразование, основанное на обратных значениях квадратных корней A/"^*). Применительно к нашим четырем выборкам мы получаем: -=—-р=. = 0,114 и далее 0,410; 0,076; 466
0,211, т. е. еще лучшую однородность. Правда, разница по отношению к значениям логарифмического преобразования невелика, так что в данном случае, с учетом, наконец, удобства, предпочтение стоит отдать логарифмическому преобразованию. Асимметричное распределение с одной вершиной часто приводится к нормальному распределению преобразованием х* = lg (х ± я), постоянную а (на с. 105 обозначена F) можно просто определить по [Lehmann, 1970]. Сосчитанные значения Если проводится подсчет9 например, числа Кейме (Keime) на единицу объема молока, то возможны значения 0, 1, 2, 3 и т. д. В этом случае получается требуемая однородность, если вместо 0, 1, 2, 3 ... используют преобразованные значения 0,61 1,17 1,54 1,84... При логарифмическом преобразовании частот также стоит предпочесть lg (х + 3/8), а не lg x. При этом избавляются от логарифма нуля, который, как известно, не определен. Для преобразования частот типа квадратного корня по Фриману и Тьюки [Freeman, Tukey, 1950] (распределение Пуассона) — 0 ^ х <! 50 после преобразования g= Yx + Vх + * переходит в 1,00 ^Ig^ 14,21. Мостеллер и Ютц IMosteller, Youtz, 1961] составили таблицы, которые содержат также квадрат преобразованной величины. Их работа содержит еще подробную таблицу тригонометрических преобразований (см. с. 247 и 248) для биномиально распределенных относительных частот (пг — const и имеет не слишком малое значение), которые можно не применять, если все значения лежат между 30 и 70%, так как при этом (я » 0,5) биномиальное распределение хорошо аппроксимируется нормальным. Тригонометрическое преобразование служит также для нормализации смещенного вправо распределения, для которого применяется также степенное преобразование (хг = хп)\ п = 1,5 при умеренном и п = 2 — при выраженном правом смещении. Форма распределения частот, как правило, указывает на пригодное преобразование (см. fKnese, Thews, I960]), которое затем следует проверить с помощью вероятностной бумаги. При сравнении двух или более групп нужно выбрать такое преобразование, которое приемлемо для всех групп. Ранги Для дисперсионного анализа рангов нормально распределенной переменной случайной выборки применяется нормальное преобразование рангов, табулированное Фишером и Йейтсом [Fisher, Yates, 1963, табл. XX]. При известном объеме выборки для каждого ранга считывае1ся соответствующий нормальный ранг. Применения этого преобразования даны в [Heite, Under, 1962], а также в [Burghausen, 1964]. Подробные таблицы даны в [Teichroew, 1956] и [Harter, 19613. 467
Преобразования значений, измеренных в процентах, частот и данных со шкал приборов для достижения нормальности и равенства дисперсий. Руководящий принцип — пропорциональность параметров друг другу.. Данные Значения 0%—100% Частоты и показания приборов о« = Л|1A-ц) a2 = fyi a = k\i Подходящие преобразования Тригонометрическое преобразование: x' — arcsin у р . Для значений между 30 и 70% можно это преобразование не применять (см. с. 467) Извлечение квадратного корня: х'=ух . 1. В особенности для абсолютных частот относительно редких событий 2. При малых абсолютных частотах, включая нуль: х'=Ух+ЪА Логарифмическое преобразование: x'=\gx 1. Также x'=\g(x±a), см. с. 104—107 2. Для измеренных значений между 0 и 1: *'=lg(*+l) Обратное преобразование: х'=\/х В особенности для многих зависящих от времени переменных Если выбор подходящего преобразования затруднен, то проверяют с помощью диаграммы (на глаз), имеется ли в различных подгруппах рядов измерений известная пропорциональность между дисперсиями или стандартными отклонениями и средними значениями и выбирают по существу и формально адекватное преобразование. Замечания к этому разделу содержит дополнение 2 на с. 491, 494. 7.4. ДИСПЕРСИОННЫЙ АНАЛИЗ С ДВУСТОРОННЕЙ И ТРЕХСТОРОННЕЙ КЛАССИФИКАЦИЕЙ • 7.4.1. ДИСПЕРСИОННЫЙ АНАЛИЗ ДЛЯ ТРЕХСТОРОННЕЙ КЛАССИФИКАЦИИ ПРИ lab НАБЛЮДЕНИЯХ Когда данные надо классифицировать с нескольких точек зрения, очень удобно применять двойные или многократные индексы. При этом первый индекс обозначает строку, второй—столбец, третий—слой (блок, подгруппу или глубину). Так, x251 соответствует наблюдаемому значению трехмерного распределения частот во второй строке, пятом столбце и первом слое. В общем виде xtjk соответствует наблюдению, которое находится в i-й строке, /-м столбце и k-м слое (рис. 59, с. 47Q). Схема трехмерной (трехсторонней) классификации, где i меняется от i = 1 до / = а групп классификации по признаку А9 j — от / = 1 до / = Ь групп классификации по признаку В и двух групп класси- 468
фикации по признаку С, выглядит следующим образом (точка соответствует текущему индексу A, 2 до а или 1,2 до 6, или 1 и 2): Таблица 160 Nv в A >^ Аг A, Ai Aa 2 *ш #112 #211 X212 xtl2 xail xal2 s,. в, ... #121 • • • #122 ... #221 . . • #222 • . • xi2l . . . #/22 • • • #022 • « • s... . . . Bl ¦ 1 /1 • • 1 /2 • • X2jl • • #2/2 « • *tfi ¦ . xij2 . • xaj2 » Bb . xlbl • *1&2 . #2bl . #2&2 . *ibl . xib2 . . xab2 . s.b. Si.. St.. Si Sa.. s Здесь S/.. означает сумму всех значений i-ik строки, 5./. • - /-го столбца, S..i — первой подгруппы и 5..2 — второй подгруппы; S — сумма всех наблюдений (т. е. S = S ... = 222;^ [при k « 1,2]). ' ; * Дисперсионный анализ для трехсторонней классификации при 2 аЬ наблюдениях Пусть в опытах наблюдаются три фактора А, В, С одновременно с уровнями а, Ь, с (с = 2) : А19..., Ла, Blf..., Бь, Съ С2 (см. табл. 160 и 162). Эти уровни выбираются систематически, корректируются и имеют особое значение (модель 1,см. с. 482). Для каждой возможной комбинации (А и Bj, Ck) имеется наблюдение xijk. Уравнение модели имеет вид G.28) взаимодействия Ошибка опыта эффект слоя эф фект столбца эффект строки общее среднее значение наблюдаемое значение at — отклонения средних по строке от общего среднего до, эффект г-го уровня фактора A (i = 1, 2, ..., а); Р7- — отклонения средних по 469
столбцу от jx, эффект /-го уровня фактора В (/ = 1, 2, ..., b)\ yh — отклонения «двойного значения» от у>\ эффект й-го уровня фактора С (k = 1,2) (например, k = 1 —наблюдаемое значение в 1-м опыте в момент времени tx; k = 2 — наблюдаемое значение во 2-м опыте в момент времени t2), см. ниже. Эффекты взаимодействия имеются тогда, когда сумма отдельных эффектов не равна общему эффекту, т. е. действия не независимы и, следовательно, неаддитивны; сумме отдельных эффектов соответствует или ослабленный или усиленный общий эффект. (оф) ц — эффект взаимодействия между i-м уровнем фактора А и /-м уровнем фактора I *-U,3,2) или: Строи 4 Столбцов 3 Слое62 Строки СЛОи Столбцы Рис. 59. Геометрическая интерпретация трехсторонней классификации: числа упорядочены для трехстороннего анализа по строкам, столбцам и слоям. В (i = 1, 2, ..., а\ j = 1, 2, ..., b)\ (ay)ik — эффект взаимодействия между |-м уровнем фактора А и &-м уровнем фактора С (i = 1, 2, ..., а; k = 1,2); (Pv)jfe — эффект взаимодействия между/-м уровнем фактора В и &-м уровнем фактора С (j = 1, 2, ..., Ь\ k = 1,2). Ошибки опыта &цк будем считать независимыми и нормально распределенными с нулевым средним и дисперсией а2 для всех /, /, k. Другие предположения: наблюдения принадлежат случайным выборкам, из, по крайней мере, приближенно нормально распределенных генеральных совокупностей с примерно равными дисперсиями; для выборочных переменных предполагается разложимость вида G.28). В этой модели аи р;-, yk, (a^)^-, (ay)ik, ($y)jh — неизвестные постоянные, которые представляют собой систематические составляющие в противовес случайной составляющей еш. На основании ошибки опыта eijk проверяется гипотеза о систематических составляющих. В соответствии с проверяемыми гипотезами справедливы следующие ограничивающие условия: S *г = О, S Р; = О, S yk = 0 G.29-7.33) 2Р всех h Hi(ay)ik^Q ДЛЯ всех fe» i 470
= B 2 2 = 0 Для всех i, 2(а?)гь = 0 Для всех *» S(PY)rt = O для всех k, S(Py)a = O для всех /. G-34-7.37) У л Тогда для параметров имеются следующие оценки: G.38) = V*.. — i^, (ap)^ = ри. — ji/.. — (г./. + (Г. G.39) G.42) Я ? h^ + ?. G.40) G.43) k / А + ^ G.41) G.44) Могут быть проверены следующие нуль-гипотезы: НА : at == 0 для всех i, НАВ : (ap)f7- = 0 для всех /, /, Нв : Р; = 0 для всех /, #лс : (ат)«л = 0 для всех t, *t ^с • Ук = 0 Для обоих &, Я,вс : (Рт)л ^ ° Аля всех /» *• Или словами: //^4 : Для фактора А нет эффекта строки, или о^ = 0 для всех i уровней; по альтернативной гипотезе не все о^ равны нулю, т. е. по меньшей мере одна «! Ф 0; Нв: аналогично для эффекта столбца; Нс: аналогично для эффекта слоя (уи = 0) для обоих слоев, альтернативная гипотеза: не все уь равны нулю; Ндв, НАС> Нвс: для взаимодействий — нет взаимодействия. Альтернативная гипотеза: по меньшей мере одно (ар);; или (ay)ift» или (PVift) не равно нулю. Для проверки этих гипотез нужны соответствующие дисперсии. Напомним, что дисперсией мы называем здесь средний квадрат (MQ), среднюю вариацию, отнесенную на степень свободы. ^ Вариация Сумма квадратов отклонений Средний квадрат=-~ ; = ; = Число степеней свободы Число степеней свободы =:-5-=MQ. G.45) Мы оценивали ее как отношение суммы квадратов отклонений Q к числу степеней свободы v = п — 1: п—\ я—1 причем Q = 2*2 — BлсJ/п определяется вычитанием остаточного члена из суммы квадратов. Для трехсторонней классификации при 2 • а • Ь наблюдениях это корректирующее значение равно -^ 52. Суммы квадратов отклонений и соответствующие числа степеней свободы следует брать из табл. 161. MQ шести эффектов проверяются по ^-критерию по отношению к MQ ошибки эксперимента, равной о2, 471
Таблица 161. Дисперсионный анализ для трехсторонней классификации при 2ab наблюдениях Источники вариации Между уровнями фактора А Между уровнями фактора В Между уровнями фактора С Взаимодействие АВ Взаимодействие АС Сумма квадратов отклонений Q 1 VI 1 г= 1 on 1 V- ' - ч° 2а ZJ °-Л 2а& ° ^ ab Zj °-fe 2o6 1 а 6 а 1 «Г-Ч »-Ч 1 V" П / J Г>\ \i \1 С2 ,. - Л' С2 2а ZJ °-/. "^ 2а6 а 2 а q (ло=-j- 2 2 sl* - ~w 2s?.. - Число степеней свободы ,.-.-1 ^-1-1-1 v^C=(«-l)B-l) Средний квадрат MQ MQ5- — MQC- — момл Q(AB) VAB MQ(AC)- Q(i4C) F MQA A MQV Fb MQV p MQC C MQV a . MQ(AB) FABi~- MQV p MQ(AC) AL MQV
Продолжение Источники вариации Взаимодействие ВС Ошибка эксперимента V Общая вариация G Сумма квадратов отклонений Q ' 1 2 1 db j?j "k 2#6 QY vi vi vi 2 L- V^ Ys2 Y ^ S2 i i k i j i к _ _L Y V S2 4- 1 V S2 4- —— V S2- 4- a Zj Zj -ik ^ 2b Zj *•• ^ 2a Zj •/• 1 vi o. ! 2& Zj ••& 2o6 /г a b 2 Чиело степеней свободы VBC=(b— 0B—!) =(a—1)(Ь—1)B—1) VG= п "" Средний квадрат AfQ MQ(BC)=-^ F MQ(BC)
Эти гипотезы Нх с соответствующими средними квадратами MQX рассчитываются как отношения соответствующих сумм квадратов отклонений QX к числу степеней свободы vx (см. табл. 161) и среднему квадрату ошибки эксперимента MQV = QVhv = а2 отвергаются, если v,;«. G.46) QV где vx *= v,., v2 = (а — 1) F — 1). Далее можно найти следующие оценки: G.38) G.39) G-40) G-42) средний эффект по строке: о2етр=^-, G.39а) а средний эффект по столбцу: ас2Толб=-^- G.40а) о и средний эффект по слою: Для иллюстрации рассмотрим простой числовой пример (табл. 162). Табл. 162 (или табл. 163) содержит округленные значения выхода химической реакции. Пусть Лх_4 — уровни концентрации; В±^3 — уровни температуры, Сг и С2 — отметки времени, при которых проводились опыты. Табл. 163а, б, в — вспомогательные. 474
Таблица 162 Таблица 163 (ijk) \. в А ^\ Аг Д. д. 2 в, 6 5 5 4 6 6 8 7 47 *2 6 4 5 5 7 7 6 5 45 вз 7 6 ел ел 4 4 5 2 38 2 34 29 34 33 130 с ч\ в А ^ч. 2 6 5 6 8 25 в2 6 5 7 6 24 Вз 7 5 4 5 21 Bi 5 4 6 7 22 С2 в2 4 5 7 5 21 в3 6 5 4 2 17 2 34 29 34 33 130 Таблица 163а (ij) Таблица 1636 (ik) Таблица 163в (jk) V \ Л а] а] А, 2 11 9 12 15 47 в2 10 10 14 11 45 *з 13 10 8 7 38 2 34 29 34 33 130 V \ А Ал а\ А а\ 2 19 15 17 19 70 С2 15 14 17 14 60 S 34 29 34 33 130 V \ * \ в2 в\ 2 Ci 25 24 21 70 с2 22 21 17 60 2 47 45 38 130 = 704,167, Согласно табл. 161, определим в первую очередь остаточный член B#J//г для всех сумм квадратов отклонений: 1 S2_ 1302 = 16900 2ab 2-4-3 24 и затем остальные суммы (табл. 164). Таблица 164 C42 + 292 + 342 + 332)/6 = 707,000 D72 + 452 + 382)/8 = 709,750 G02+ 602)/12 = 708,333 (И2+Ю2+ . . .+72)/2 = 735,000 A92+152+ . . . +142)/3 = 714,000 B52 + 222+ . . . +172)/4 = 714,000 . . . +52 + 22 = 744,000 475
QA=— C42 + 292 + 342-j~332)—704,167 = 2,833, 2 QB = — D72 + 452 + 382)—704,167 = 5,583, QC=— G02 + 602)—704,167 = 4,166, 4-3 -(lla+102+132 + 92 + ... + 72)—- 2 2*3 ( = —A92+152+152+142+172+172+192+142)- 706,167=22,417 (см. табл. A63а) A92+152+1 О L_ C42 + 292 + 342 + ЗЗ2) — G02 + 602) + 704,167 = 2,834 2-3 4-3 (см. табл. 1636) Q(BC) = — B52 + 222 + 242 + 212 + 212+172) — х 4 2-4 ХD72 + 452 + 382) — G02 + 602)+704,167=0,084 (см. табл. 163в) 4-3 Qy=F2+6+272+52+-+72+52+22)---(ll2+102+...+72)—-A92 + 2 3 ... + 142)—— B52 + 222+ ... + 172) C4+ 29 + + 342 + ЗЗ2) + -1- D73 + 452 + 382) + — G02 + 602) — 2-4 4-3 — 704,167=1,916, QG = F2 + б2 +72 + 5Ч-...+72 + 52 + 22) — 704,167 = 39, 833. Эти результаты сведены в табл. 165, в которой также содержится итог проверки гипотез по формуле G.46). Нуль-гипотезы: Pi = Р3 = Рз = 0, Yi = Y2 = 0, (ар)„ = ... = (офL3 = 0 отклоняются на 5%-ном уровне по выражениям: Fc = 0319 = I3>°6 > 5>" = Fl x 6; °'°5 ' 476
4 О, Таблица 165. Дисперсионный анализ табл. 163 (по табл. 161) Источник вариации Фактор А Фактор В Фактор С Взаимодействие АВ Взаимодействие АС Взаимодействие ВС Ошибка эксперимента Общая вариация G Сумма квадратов отклонений QA = 2,833 QB = 5,583 QC = 4,166 Q(AB) = 22,417 Q(AC) = 2,834 Q(BC) = 0,084 QV= 1,916 QG = 39,833 V 4—1=3 3—1=2 1 6 3 2 6 23 MQ 0,944 2,792 4,166 3,736 0,948 0,042 * F0,05 2,96<4,76 8,75>5,14 13,06>5,99 11,71>4,28 2,97<4,76 0,13<5,14 0,319 = MQV = o2 Соответствующие оценки для J3;-, yk, (ap)^ приведены в табл. 166. Средний эффект по столбцу и средний эффект по строке: 0,46>+0,21»+(-0,67)« „- = ~ == U,ZOO, о 0,422 + (—0,42J -0,176. Дисперсионный анализ для двусторонней классификации при 2 ab наблюдениях Без учета фактора С мы имели бы модель Хиь = 0 + а, + р, + (ар)„ + гт, G.47) (где Yft, («7)ift, (Pv)ift включены в ошибку эксперимента), с тремя ограничениями: 2 «*« /=1 = 0; 2 ;=1 2 2 «= 1 /= 1 G,48) и соответствующими нуль-гипотезами (см. табл. 167). Ошибка эксперимента содержит теперь вариацию по С, АС и ВС, т. е. QV из табл. 167 = QC + Q (ЛС) + Q (ВС) + QF из табл. 161 и только взаимодействие Л В значимо на 5% -ном уровне (см. табл. 167а; QV рассчитывается по табл. 165: QV = 4,166 + 2,834 + 0,084 + + 1,916). Дисперсионный анализ для трехсторонней классификации при 2 ab наблюдениях значительно упрощается (модель 7.28; табл. 161) при условии пренебрежения обоими менее важными взаимодействиями (табл. 168 с ограничениями 2а* = 2Pj = 2?& == 22 (аР)о* = °) 477
Таблица 166. Оценки: обратите внимание на то, что сумма соответствующих друг другу оценок (например а*) равна нулю. Наибольшие положительные взаимодействия, наибольшие наблюдаемые значения показывают клетки i4i?s(af))isM i44#i(apLi; наибольшие отрицательные взаимодействия показывают клетки А3В3(аР)зз и А4Вз(сфLз. 130 5 417 •*- 2-4.3 ~5'417 «1 = Й -,42 = 0,25 «2= ~ -5,42= -0,59 aj—Ox = 0,25 «4= Ц -5,42=0,08 ^1= Й -5-42 = 0'46 $*= fi -5,42 = 0,21 38 ^8= 2^ ~5.42=-°.67 Yi=j| -5,42 = 0,42 60 Y2= ^7з -5>42==-°>42 (ар)и = ^ («P)l2= -? 13 (<*)ia = -^ («PJi = -| (аРJ2= ^ («РJз= ~ 12 («Р)з1= ^ 14 («Р)з2= -^ («Р)зз= -^ («РL1= ^ 11 (аРL2=  (аРLз= \ ii 2-3 34 ~2.3 34 ^2-3 29 "~2-3 29 "3 29 "-3 34 ~~2.3 34 "~2.3 34 "~2-3 33 "-3 33 "-3 ~~2.3 47 "-4 45 "-4 2-4 47 "-4 45 ^.4 2:4 47 "~2-4 45 "-4 38 "~2.4 47 ~2.4 45 2.4 38 .4 + 5,42= -0,63 + 5,42= —0,87 + 5,42=1,50 + 5,42= —0,79 + 5,42= —0,04 + 5,42 = 0,84 + 5,42 = -0,13 + 5,42 = 1,12 + 5,42= —1,00 + 5,42=1,54 + 5,42= -0,21 + 5,42= —1,33 и действием фактора С [табл. 168а с G.48)], причем для табл. 161 и 168 имеются два так называемых рандомизированных блока (см. с. 512) Сх и С2 (моменты времени tx и /2)> где упорядочение пополнения каждой клетки AtBj осуществляется внутри каждого блока по случайному принципу. Для табл. 168а A67, 167а) имеет место так называемая полностью рандомизированная классификация по двум факторам с повторением. В основе нашего примера, судя по постановке вопроса и по данным, лежит модель с постоянными эффектами, наибольший интерес представляет выбор уровней факторов! 478
Таблица 167. Двухфакторный дисперсионный анализ с взаимодействием Источник вариации фактор А Фактор В Взаимодействие ЛВ Ошибка эксперимен- наУ Итого Сумма квадратов отклонений Q QA QB Q(AB) QV QG Число степеней свободы о (а 1) (Ь 1) ab 2ab — \ Средний квадрат MQ ab Таблица 167а. Дисперсионный анализ для Источник вариации Фактор А Фактор В Взаимодействие ЛВ Ошибка эксперимента V Итого Сумма квадратов отклонений 2,833 5,583 22,417 9,000 39,833 табл. 162 V 3 2 6 12 23 (по табл. MQ 0,944 2,792 3,736 0,750 167) 1,26< 3,49 3,72 < 3,89 4,98 > 3,00 Эксперименты планируются с целью оценки влияния определенных входных переменных факторов на выходную переменную (отклик). Эти входные переменные принято называть «факторами». Мы под этим понимаем как однократно изменяющиеся различные способы, методы, так и значения уровней входной переменной, например температуры. Часто подлежащие испытанию факторы могут рассматриваться на всех уровнях (например, самки и самцы животных), а иногда достаточно рассмотрения только части возможных уровней. В последнем случае мы различаем: 1) систематический выбор, например, сознательно выбираемые сорта, удобрения, время и плотность посева или уровни давления, температуры, времени, концентрации химического вещества; 2) случайный выбор, например, почва, место и год, подопытные животные или другие объекты эксперимента, которые выбираются как случайная выборка из предполагаемой генеральной совокупности. Согласно [Eisenhart, 1947], в дисперсионном анализе различают две модели. 479
ос, Таблица 168. Дисперсионный анализ для трехсторонней классификации при 2 аЬ наблюдениях. ° Модель: xijk = \i + at + fo + yk + (ар)// + гцк Источник вариации Сумма квадратов отклонений Число степеней свободы MQ Между уровнями фактора А Между уровнями фактора В Между уровнями фактора С Взаимодействие ЛВ Ошибка эксперимента V Общая вариация G 1 2ab 1 Q (ЛВ) = QG- (QA + QB + QC + QV) i j k i i k vA = a - vc == 2 — 1 = 1 QA QB QC Q(AB) MQV = QV vG = 2a6 — MQV MQB Fab: MQC MQV MQ(AB) MQV
s S Таблица 168а. Дисперсионный анализ для трехсторонней классификации при 2 аЬ наблюдениях. Модель: хцк = ц + а/ + pj + (оф),7 + e//fe Источник вариации Сумма квадратов отклонений Число степеней свободы MQ Между уровнями фактора Л Между уровням фактора В Взаимодействие АВ Ошибка эксперимента V Общая вариация G — 26 Ъ bi~ ~ -S2 Q (ЛВ) = QG - (Q^ + QB + QV) lib i / 1 i i k мдл = r = (a_l)F—1) >—I)=a6 QB MQ(^B) = ?« = ^ = MQ(AB) MQV ov MQV = ^— = o2 v - 2ab
Таблица 169. Модель «fixed» Вариация V 3 2 6 12 MQ 0,94 2,79 3,74 0,75 Критерий 0,05 А В 2 79 3,74 0,75 = 4,99 > 3,00 Модель I с систематическими компонентами или фиксированными эффектами, называемая моделью с постоянными эффектами «fixed» (тип I): лечение, лекарства, уровни факторов, сорта, подопытные животные, машины сознательно выбираются и включаются в эксперимент, потому что непосредственно они и их средние эффекты и значения представляют практический интерес (например, средства опрыскивания Л, В и С). Сравнение средних значений стоит здесь на первом плане! Модель II с случайными эффектами или случайными компонентами, называемая моделью «random» (случайная, тип II): методы, объекты исследования представляют собой случайные выборки из генеральной совокупности, о которой необходимо получить желаемую информацию. Здесь интересует влияние отдельных факторов на общую изменчивость, общий разброс, оцениваются компоненты дисперсии и доверительные интервалы и проверяются гипотезы о компонентах дисперсии («чистый дисперсионный анализ»). Простые расчетные примеры можно найти, в частности, в [Ahrens, 1967]. Фиксированные эффекты обозначаются греческими буквами, случайные — латинскими. Средние квадраты (MQ) можно проверять по отношению к MQ ошибки эксперимента только в модели «fixed». В модели «random» нужно MQ эффектов по строкам и столбцам проверять относительно MQ взаимодействия, а последнюю — относительно MQ ошибки эксперимента. Подробнее об этом см. [Binder, 1955], [Hartley, 1955], [Wilk, Kempthorne, 1955], [Harter, 1957], [Le Roy, 1957, 1963] и [Federer, 1961]. Вернемся снова к нашему примеру (табл. 170). Может также случиться, что для уровней одного фактора применяется гипотеза «fixed», а для уровней других факторов—гипотеза «random» (модель «mixed», или тип III). Предположим, что уровни фактора А являются случайными, а фактора В — фиксированными, тогда в противоположность описанной выше модели для нашего примера получается (табл. 171) случайный эффект по строке. 482
Таблица 170. Модель «random» . Эта модель менее пригодна для примера. Вариация Л В V V 3 2 6 12 MQ 0,94 2,79 3,74 0,75 Критерий 1 Г F 0,944 2,79 Fw^ 3,74/0,75 - ^0,05 5<5,14 4,99 > 3,00 Анализ смешанных моделей достаточно сложен (см. [Wilk, Kempthorne, 1955], [Scheffe, 1959], [Searle, Henderson, 1961], [Hays, 1963], [Bancroft, 1964], [Holland, 1965], [Blischke, 1966], [Eisen, 1966], [Endler, 1966], [Cunningham, 1968], [Koch, Sen, 1968], [Harvey, 1970]). Таблица 171. Модель «mixed» Вариация MQ Критерий г0,05 Л В AB = V 3 2 6 12 0,94 2,79 3,74 0,75 0,75 2,79 3,74 3,74 0,75 = 0,75<5,14 = 4,99 > 3,00 • 7.4.2. МНОЖЕСТВЕННЫЕ СРАВНЕНИЯ ПО ШЕФФЕ И ПО СТЬЮДЕНТУ — НЬЮМЕНУ — КЁИЛЬСУ (STUDENT — NEWMAN — KEULS) Если имеются k средних значений (средние значения по строке или по столбцу), то можно провести (k — 1) сравнений, например, для ^ = 4, k — 1 =3 так называемых множественных сравнений: *4 — *i\ х* — *2i *4 — *8- Если при этом будет превзойдена критическая разность, то нуль-гипотеза о том, что оба средних значения Hi и \ij относятся к одной и той же генеральной совокупности, должна быть отброшена. 16* 483
о I СО К ч о Н 484 о ст> 00 - to ю '-* О 00 ю со х- ,56 S 3 00 S 00 ю сч сч 1О <м СО со ю со В со СО S 8 S СО О5 to о» ю о ю О5 5,40 3,12 4 о 7,08 4 2,82 3 98 3 СО СЧ 969 - ,77 со ю со ze* СО со ел 2 ю СО ю со ю § О5 СО 8 СО 2 СО 3,03 сч 1,74 1 188*0 8 СТ) 00 085 СО СЧ ,24 ,98 о 00 о CD СО О СЧ ю о 8 О ю о ю О5 CD СЧ О5 со О5 оо о> 98*8 8,48 8,04 1 7,50 6,82 CD Ю 501 со ,23 О5 СО О5 ,03 О5 ,91 00 00 s 00 сч ю оо со* 00 cn! 00 8 00 S3 S 7,35 7,05 6,71 1 63*9 5,76 о ю 926 со сч 00 сч 00 ,03 оо СО О5 §3 **¦ **- 8 55 с^ S СО О оо со 89*9 6,33 6,03 5,67 33*9 8 635 со О5 ю 19' со со сч S сч О5 СО О5 со ю со со О5 со SS СО 6,12 5,90 5,63 1 5,30 4,90 со ,460 СО СО ,10 ,02 О5 СО ю 00 со со со со СО в СО со со 8 СО со СО 8 СО 38*9 19*9 5,3б| 5,06 4,68 СО ,344 со ,87 СО о 00 со ,73 СО ю со СО 57 СО 00 со 8 СО 8 СО 00 со 8 СО 8 ю ю 09*9 5,40 ь 4,89 4,53 S со сч СО 00 СО со оо ю СО to со 3- со СО со со 00 сч со О5 со § СО 00 to to ? ю CD ю ю 5,43 5,24 30*9 4,76 4,41 с2 со ,199 со CD СО о СО со СО сч со CD СО "—• СО 8 СО S ю S3 ю сч ю S ю СО ю 5,30 5,12 4,91 4,65 4,33 §§ со ю со о со со со сч со о сч со СО со со о СО 00 CD ю CD ю 00 ю ю СО ю О5 ю Й to 03*9 5,03 4,82 1 4,57 4,26 ,82 1 со ,113 со сч СО ю со О5 о СО S со с? ю 00 00 ю оо ю f: ю СО ю 5 ю О5 со ю & to 5,12 4,95 4,75 1 4,51 4,20 ь- СО ,081 СО сч СО 8 СО 8 Ю СО О5 ю СО со ю О5 ю ?: ю 8 Ю со ю ю СО ю 8 ю 2 ю 30'S 4,88 4.69 4,45 4,15 « СО ,055 СО со 8 со & to О5 ю ю О0 to О5 ю ю со ю ю ю со ю СО СО ю CN ю со ю 4,99 4,83 4,64 4,41 4,11 о со ,033 со CD ю 8 ю ю 00 ю S ю 72 ю СО ю ю ю CD to § ю со ю to § ю 4,94 4,78 4,59 4,37 4,08 со со 014 со 8 ю S ю CD ю со CO 8 ю CD ю сч ю ю ю 8 Ю 8 Ю to to 8 Ю 4,90 4,74 4,56 4,33 4,05 .65 CO ,998 СЧ CO 00 to CD Ю s Ю CO Ю CO to s Ю IN. Ю CD CO Ю CO to СЧ Ю ^^ Ю 8 -* 4,86 4,70 4,52 4,30 4,02 8 CO ,984 СЧ Ю 2 w 8 Ю Ю to о Ю to Ю CO Ю СЧ Ю J^ Ю о Ю 8 4,82 4,67 4,49 1 4,28 4,00 s CO CD СЧ 00 Ю Ю s " Ю CD ~ Ю to 3 Ю CO ю CD CO Ю CO Ю S3 to Ю о Ю 4,79 4,65 4,47 4,25 | 3,98 o> Ю CO ,960 <N O5
lO " 8 1С s 1С 55 1С 49 1С 1С CO CO 1С 8 1С 5,20 Zl 1С 10*9 4.90 4.77 394 я 8 CO s CO i CN g Ю CM CO 1С 1С CM 1С 1С 1С 3' 1С CD CO 1С 1С CM 1С 5,17 80' 1С 4,98 4,87 4,74 S CO CN СЛ CO CO 1С CO a CN CN S Ю СЛ 1С 1С 1С 1С 1С CO 1С Ю о CO 1С CO 1С 91*9 ,05 1С 4,96 4,85 4,72 S & CO СЛ CO J§ CO со CO CN CN О CO Ю Ю 1С CN 1С 1С 1С % 1С CO 1С CN Ю О CM 1С 5,12 ,03 1С 4,94 884 4.70 CO 1С CO 00 СЛ со CO СЛ Ю Ю Ю 1С 1С 1С 1С 00 со 1С со 1С a 1С 00 1С 5,10 о 1С 4,92 4,81 4,68 4,54 4,37 s CO s CO CO СЛ СМ ~н ел ел c\ 1 CM CO Tt« CM CM 15 Ю CM 1С 1С oo 1С CM 1С CO CO 1С CO 1С S3 1С CO ю 5,08 ,99 4,90 4.79 4,66 CN 1С 4,36 CO s CO CM 1С CO CC a CN Ю Ю о Ю 1С CD 1С о «a* 1С CO 1С a 1С CM 1С 2! 1С 5,06 ,97 4,89 8Z4 4,65 5 CO §8 CO 1С CO ё cr CN 1С CC CN CN s Ю 00 1С CO 1С oo CO 1С CN CO 1С CM 1С СЛ Ю CN 1С 5,04 ,96 4,87 4,76 4,63 S 3 CO oo CO CO CN s CN Ю 1С CO 1С CM 1С CD CO 1С CO 1С CM 1С 00 1С Zl 1С 80*9 ,94 4,86 4,75 4,62 4,48 CM CO CM CO 00 CO g CO oo CN см о Ю 1С 1С CO Ю 8 1С CO CN 1С CO 1С СЛ о 1С 5,01 3 4,84 4,73 CO CO 1С 00 CO CO ,892 CM СЛ CM Ю 1С s 1С CO со 1С CM Ю CN 1С Ю 1С 8 1С 00*9 ,92 4,82 4.72 S CO 8 О 1С 00 CO СЛ CO 1 CN 1С 1С со 1С CN CO 1С CN 1С О CM ю Th 1С о 1С 4,99 ,91 38* t 4,71 4,59 4,45 a s S3 CO 00 884 CN CO lO Ю о LO CO 1С о CO Ю CM 1С СЛ 1С CO 1С CO о 1С 4,98 ,89 4,81 4,70 4,58 4,44 g § S3 CO 00 CO 881 CM 3 Ю CO 1С CO 1С СЛ CM 1С CM 1С ^* Ю *-* 1С о 1С 4,97 со oo 4,80 694 Й CM 00 о CN oo CO 5* CO oo CM CM Ю CO 1С Ю. oo CN Ю CN CM 1С CO 1С СЭ 1С CO о 1С 4,96 ,87 4,79 4,68 4,56 CO CM 4,07 CN oo со CO 874 CN CO rt< со со Ю CO 1С CO Ю CM 1С CN Ю 1С 1С СЛ о 1С § 1С 964 ,86\ 4,78 4,67 Ю Ю CM CO CM о 00 CO CO CO oo CM о 1С & 1С CO LO CO CM 1С CM Ю rh 1С § 1С о 1С 4,94 ,85 $ 8 8 00 CO 5? со 1 CN CC cc CO Ю со 1С о CO 1С Ю CN 1С СЛ 1С 1С § 1С о о ю 4,93 .84 4,76 1С CO 4,54 8 8 со 1С со i CM CO 00 со 1С со ю CN 1С CN ю 00 ю со 1С 1С о о 1С 4,92 ,84 4,75 4,64 S о см S 8 со ю СО 898 см ОС ее Jo LO со ю 00 ю со см ю 1С см ю со о 1С СЛ 4,92 ,83 4,75 4,64 894 4,40 4,24 1,04 ел со со 861 см СЛ СО СО со 1С со ю см LO см см 1С со 1С 1С S ю 4,90 S3 4,73 4,63 см ю •<* СЛ СО а о со со 00 см О) ю см 1С ю ю 1С о 1С S 1С СЛ см ел 4,85 R 69' * 4,58 !S S СЛ § со со со 841 см s см ю а 1С 1С 1С о 1С о о ю СЛ Th 00 оо 4,81 Е 4,65 4,55 4,44 со СО 00 ГО со о СО 829 см 8 СО ю о 1С о ю 8 1С ю СЛ <* о СЛ со оо ,64 4,56 4,47 4,36 4,24 о см со S со со СО со 800 см 120 о 1С СЛ с? оо г оо со 4,62 ,55 4,47 4,39 4,29 4,03 3,86 S СО со со 772 см 8 485
о о СО X ч \о Н 486 8 ел оо to ю rf CO s - о СЛ 00 CO / о 8 CM °я СЛ CM § CO CM oo. 00 CM о Sm 00 CM CM 266, о 260 CM 253, CO 245 о 237 CM 227, 00 215, CM 202, CO 185 CO 164, о ,025 К СЛ 1С со S СО 3 8 о о СО СО $? S3 00 со со со со со 8 8 $ СО и 8 СЛ см Й СЛ СМ см см 9,02 ,0361 1 21 см СЛ 8 СЛ см со СЛ & СЛ 00 00 см 1С оо см см 00 3 со СО СЛ СО со см CD СО 2 ю CN 21 со 0,62 ,2601 1 00 со 21 3 § 21 СЛ со 73 со со 1С со см со со g со 00 см fe см см см ё - о S о CD СЛ СЛ СЛ см 00 ,511 СО СО СЛ 00 8 см 3 о о 00 о о СЛ СЛ Jo СЛ см СО СЛ СЛ 00 оо 00 6,98 ,702 1С 1С S о со о см СО о о 8 о 3 СЛ 00 СЛ СЛ оо СЛ 8 СЛ о СЛ г— оо 00 3 00 см со 00 СЛ СО 1С г- 6,33 ,2431 1С со сЗ СЛ S СЛ ^§ СЛ со СЛ CN СЛ см СЛ 8 СЛ СО оо 00 00 00 So 00 оо СЛ со о 3 СО см СЛ 1С ,9491 § СЛ СЛ 00 ОО оо 8 00 8 оо S 00 41 00 со 00 оо 00 8 00 00 ls" СО г- СО СЛ СО СО CD to 5,64 ,745 00 Е5 оо СЛ 00 5 00 СО со 00 S3 оо со 00 S 00 СЛ оо S ф со СО СЛ со 8 СО 1С со СО СО СЛ 1С 5,43 ,596 СЛ со см оо 1С 00 оо о оо СЛ СЛ СЛ 00 S СЛ |> см t" о ts- So со is CD CD 21 CO Is- 1С 6,27 ,482 о 1С СЛ ^ оо 00 t- 00 СО СО 1С |ч- cu t- CD со ю см с" со СЛ СО S СО со СО оо со сЗ СО СЛ 1С см СО 1С 5,15 ,3921 — CD CD s CM 1С CD CO CM о IS- s CD 00 CD So CO 1С CO CM CO CO о CD 3 1С 1С 5,05 058* CM s IS- 8 CM СЛ о |ч- о о СЛ со 79 со со CD со 1С СО & СО СЛ СО 8 1С 1С о 1С 4,96 ,2601 со со со «>" см IS- о см Is- СО |>- с§ IS» CD СЛ СО й CD СО CD CD 1С CD СО CN CO s CD 00 oo 1С to 1С CO 1С 4,89 ,210 8 IS- 21 ts. 8 is. со СЛ CD 00 CO CO CD CO s CO CO CO CO CD CD СЛ 1С g 1С s 1С 1С CM 1С oo CO 1С 1С 8 § to 8 CD 8 CD s CO CO CO CO Ю CO CD CD со CD CM CM со § CO СЛ 1С CM IS- 1С СЛ ¦o СЛ 1С 4,79 ,1311 CO 8 8 CD oo со 00 CD R CO CD CO fe CD CO 00 CO CO CM CO Ю CO о CO 00 1С CD CD 1С CO 1С 21 1С 4,74 660 СЛ CD СЛ CD oo CD СЛ t^- CD R CO 1С CD CD oo 1С CD Ю CD CO со CD CD о CD СЛ 1С ft 1С о CD 1С 00 CO 1С о Ю *-. .071 00 3 со oo CO 78 CO CD 8 CD S CD Ю CD CD CD CM CD 21 CO О CD 3 1С 1С ig 1С CO 1С о 1С CD ,045 СЛ
а CD CO CO 8 CD 591 CO CO 1С CD CO CO 8 CO 2 CD 8 CD CD CO oS 1С s 1С E 1С .29 1С 20' 1С 4,64 ,024 8 CO CO CD 8 CO CD 1С CO CO 1С CO CO CD CO CD CM CO CD CO CD cS CO 8? 1С in 8 1С 5? 1С .26 1С ,99 4,61 004 ? CO 8 CO S CO a CD oo CO CO 8 CO Si CO 2 CO о CO s CD §8 1С CD 1С S 1С 1С ,22 1С ,96 4,58 986 CO CM CM <g CO о CO CO 8 CO CD CO CO CO CO CO 8 CO S3 CO Ю CO CD О CO $ 1С 3 1С 8 Ю ю 1С § 1С ,20 1С ,93 4,56 970 CO CO CO 8 CO S CO со 8 CD Я CO см CO CD CO ^м CO 8 CO 1С 00 1С 8 1С s 1С 1С f- IC ,91 4,55 955 CO я 1С CO 1С CO •SS CD CO CO CM CO CM CO 1С CO о CD 8 1С 8 1С ? 1С 8 1С E 1С Tf" CO 1С ,15 1С ,89 4,52 942 CO 8 58 CO $ CO CO CD CM CO CO CM CO CD CO CM CO 3 CO CD 1С 8 1С Ю 1С CO CO 1С 1С CO 1С CM 1С ,87 4.50 I CO CM s CO CO о CO 3 CO 00 CM CO CM CM CO CD CO CD о CO о CO 3 1С S3 1С CM 1С s 1С $ 1С 8 in 01* 1С .85 4.49 00 CD CO s? CO CM CO со CD CO CO 1С CM CO CD CO CO s CO 3 1С 3 1С § 1С ? 1С s 1С 1С CM 1С 80' 1С S3 4,47 908 CO 8 CO CO CO я со CD CM CO S3 CO b- CO о со 8 CO 8 in S5 1С ? 1С S3. 1С 8 1С 1С CM 1С zo' 1С .82 4,46 I CO 8 CO 8 со CO CD CM CD 8 CO CO § CO о CD a 1С oo 1С CD 1С 8 1С 1С 1С 1С CM 1С 90f 1С ,80 4,45 688 CO 8 ss CO 3 CO 8 CO CM CO 00 CO CM CD s CO s 1С CD 1С CO oo 1С ¦>. 1С 8 1С Ю 1С So 1С §5 1С ,03 1С CD 4,44 s CO 55 CO со CO CD CM CO CM CO CO CO 8 CO CO о CO o> 1С CD 00 1С oo 1С 1С 3 1С g 1С co 1С CM 1С 20* 1С ,78 4,43 CO S3 CO ¦0 3 CO 8 CO CM CO CD CO со CD о CO © CO IS 1С ff- 00 1С CD 1С о 1С 8 1С 9 1С 8 1С CD 1С о 1С ,76 Ю *D 30 :o CO со CO CM CD CM CM CO CO CO 8 CO CD CD 1С 8 in 8 1С 1С CO 1С s 1С is 1С CO 1С 00 1С 66' sz' 4,41 i :o :o CO CM CO 8 со 1С CO о CO cS CO oo CD 1С CD 1С 00 1С 8 1С S3 in s 1С 1С 8 1С CD 1С ,98 s 4,41 298 CO < Ю < CO 8 CD S3 CO 00 CO CO CO CO CM о СО 8 1С 8 1С CM 00 1С г 1С Ш 1С Ю 1С 1С 1С CO 1С 1С 1С ,97 .73 i ¦o -D ¦o CO CM CO CM (N CD CD CM CO о CO 8 CO CD 1С SB 1С 00 1С 1С со 1С Ю 1С 1С 8 1С 1С CO CD <* CD r ro o. ГО < CM CO 8 CO s CD CO CD $ 1С 3 1С S3 1С г 1С 1С CM CD 1С CM 1С 1С Ю CD CM 1С со 1С 1С CD .72 00 CO Ю :o 30  S3 CO 00 CO CO CO s CO о CO CD 1С CD 1С 8 1С ? 1С 1С CO Ю E 1С 1С 00 CM 1С CM 1С ,94 s 1 ro CD ¦o CN CO CD CO CM CO о CD 3 CD 3 1С 3 in S3 1С ? 1С 3 1С s 1С о 1С 1С 1С <N 1С 1С s .70 4,37 825 CO 9 8 CD 3 CD о CO CD 1С CD 1С 00 1С г 1С s 1С S3 1С CD 1С 1С E 1С 1С 8 1С CD 1С о 1С 8 ,64 о. < 50 ГО < о СО CD 1С S? 1С 00 1С 3 1С 00 1С ? 1С СО 1С S 1С со 1С 1С 1С 8 1С см 1С со 1С CD CD •* S3 s м < О ( ^. ¦о < В! §8 1С S 1С к 1С ю s 1С СО 1С ю 1С S 1С 1С оо 1С со 1С см 1С см ю о 1С оо ,50 п г "О < % S9* 1С со 1С 1С 1С 1С 1С ? 1С 1С 1С 1С со 1С §5 1С S3 ю со 1С § in О) §8 ? •* S см "О 8 487
1. По Шеффе [Scheffe, 1963] для одинаковых и неодинаковых выборочных групп выражение для критической разности имеет вид: -i:v. ;«,, G.49) SBH где siH — средний квадрат ошибки эксперимента, niy ttj — объемы выборок сравниваемых средних значений, vs2 — число степеней свободы для slH. II. По [Student, 1927], [Newman, 1939] и [Keuls, 1952] для равных выборочных групп объема п: G.50) где q — множитель из табл. 172 для 5 — 95% или S = 99% в зависимости от А — числа средних значений в рассматриваемой области (для аг4 — х2 имеем k = 3) и от *шсла степеней свободы v2, относящегося к MQV = slH. Таблица для S = 90% дана в [Pachares, 1959K Способ Тьюки: значение Dn, основанное на q при k общем числе средних значений, согласно Тьюки (см. например, [Scheffe, 1953]), пригодно для проверки любых средних значений хг — xj или любых ^вух групп средних значений, например (хг + х2 + хъ)/3 —(х4 + хъ)/2. Пример г = 4,750; ^2 = 5,625; ^ = 5,875; п = 8; s^H==0, а = 0,05; Зс3—^х= 1,125; х3—л:2 = Di=V0,75(l/8+l/8).2-3,89= 1,208; для ? = = 1,154; (для k = 2: Dn= 3, = 0,943). Так как разности меньше, чем критические границы D\ и Dn, нуль- гипотеза \лг = jx2 = \i3 = ^ не отклоняется. При сравнении одинаковых выборочных групп применяется DUi при неодинаковых—Di. Dn — чувствительнее, избирательнее, D\ — грубее и особенно пригодна тогда, когда имеется подозрение о неравенстве дисперсий. Для множественного сравнения (см., например, [Seeger, 1966]) с контрольной группой или со стандартным вариантом [Dunnett, 1955, 1965] был предложен метод, таблицы и указания к которому можно найти в работах автора. В разд. 7.5.2 мы рассмотрим соответствующий критерий. Специальная литература приведена в конце списка к гл. 7.
ф 7.4.3. ДВУСТОРОННИЙ ДИСПЕРСИОННЫЙ АНАЛИЗ ПРИ ОДНОМ НАБЛЮДЕНИИ НА КЛЕТКУ ТАБЛИЦЫ. МОДЕЛЬ БЕЗ ВЗАИМОДЕЙСТВИЯ Если известно, что взаимодействия нет, то достаточно одного наблюдения на клетку таблицы. Соответствующая схема включает в себя г строк и с столбцов (табл. 173). Таблица 173 Nv в A N^ 1 2 < r 2 l x\\ xn x'n 2 S.t ¦ :: ?! : - ir, ¦ ¦ . с '•'•% • • л: ic ¦¦*« -s.c I1' Sj. s, s Соответствующая модель имеет вид: Наблюдаемое общее , эффект значение эффект , эффект ошибка среднее строки столбца эксперимента = И- + а* + Pi + е*; G.51) Будем считать ошибки эксперимента гц независимыми и нормально распределенными с нулевым средним значением и дисперсией о2 для всех i и /. Схема дисперсионного анализа представлена в табл. 174. Таблица 174. Дисперсионный анализ для двусторонней классификации: одно наблюдение в классе, взаимодействия нет Источник вариации Между г строками Между с столбцами Остаток, или ошибка эксперимента Общая вариация Сумма квадратов отклонений 2j с г-с -~Чг /«1 У82' S2 о Ъ Г г-С -Ъе /-1 Qe-Qr-Qc = QocT. Число степеней свободы Г—1 С—1 (с-1)(г-1) гс—\ Средний квадрат r—l Qc с 1 Qoct. 489
Вариабельность наблюдаемых значений в этой таблице обусловлена тремя факторами, которые действуют одновременно и независимо друг от друга: эффектом строки, эффектом столбца и ошибкой эксперимента. 1. Проверяются обе гипотезы: Я01: эффект строки равен нулю; однородность по строкам. Я02: эффект столбца равен нулю; однородность по столбцам. Обе нуль-гипотезы независимы друг от друга. 2. Выбор уровня значимости: а = 0,05. 3. Заключение: при обычных предположениях (см. с. 470—471) Я01 отклоняется, если F> F(r_D; (r-i)-(c-1); o.os; #02 отклоняется, если F > F(c_1); (г_1Г(с_1); 0|05. Пример Пример на двухфакторный дисперсионный анализ: 1 наблюдение в классе, без взаимодействия. Мы рассмотрим прежний пример, в котором объединим парные наблюдения (см. табл. 175). Таблица 175 \. В А ^ч^ Ах А Вх 11 9 12 15 47 в2 10 10 14 11 45 Вз 13 10 8 7 38 34 29 34 33 130 Ход расчета. Общая сумма квадратов отклонений: 61,667. Сумма квадратов отклонений по строкам: JU г-с 3 3 3 3 12 Сумма квадратов отклонений по столбцам: —^= 11,167 /=i (см. табл. 176). Результат: обе нуль-гипотезы принимаются (Р > 0,05). 490
Таблица 176 Источник вариации Между строками Между столбцами Остаток, или ошибка эксперимента Общая вариация Сумма квадратов отклонений 5,667 11,167 44,833 61,667 V 4-1=3 3-1=2 D-1 )Х ХC-1)=6 4.3—1 = 11 Средний квадрат 1,889 5,583 7,472 F F0,05 0,253<4,76 0,747<5,14 Эти выводы объясняются тем, что остаточная дисперсия вследствие большой дисперсии взаимодействия сильно завышена — указание на наличие нелинейного эффекта. Мы может говорить также о регрессионном эффекте (см. соответственные значения первого и третьего столбцов!). На этом мы еще остановимся ниже (см. дополнение 2). Дополнения 1. Подробнее о двухфакторном дисперсионном анализе см. источники в конце списка литературы (а также на с. 530 и 531). Там описаны также значительно более сложные модели (трех- и четырехфакторный дисперсионный анализ). Классификация с двумя входами при неодинаковом наполнении клеток рассмотрена в [Kramer, 1955], [Rasch, I960] и [Bancroft, 1968]. 2. Критерий на неаддитивность Манделл (Mandel). Среди предпосылок дисперсионного анализа первая и наиболее важная роль принадлежит требованию аддитивности. Нелинейные, или, как говорят также, неаддитивные, эффекты обычно проявляются как взаимодействия. При многомерном, т. е. по более чем двум факторам (включая эффекты повторения), дисперсионном анализе можно, как мы видели, легко отделить неаддитивные эффекты от действия случайных ошибок. В случае двумерного дисперсионного анализа с одним наблюдением в классе по Манделю [Mandel, 1961] можно обнаружить неаддитивные эффекты и разложить их на две компоненты. Первую из них, которой соответствует одна степень свободы, можно определить как рассеяние, обусловленное регрессией, а вторую, с (г — 2) степенями свободы, — как рассеяние относительно этой регрессии. Мандель применил для этих двух частей названия «сходящаяся» (concurrence) и «не сходящаяся» (поп-concurrence). Известный критерий Тьюки [Tukey, 1949] для проверки «ошибки аддитивности» включает в себя только первую, регрессионную компоненту. Вайлинг [Weiling, 1963] указал на возможность удобного определения неаддитивных эффектов по Манделю. Интересующийся читатель может прочесть об этом в работе Вайлин- га, где этот способ иллюстрируется примером. Проверку на неаддитивность следует рекомендовать, особенно в случае двухфакторного дисперсионного анализа, поскольку, как на с. 477, устанавливается весьма слабая значимость и остается подозрение о наличии неаддитивных эффектов. При этих условиях остаточная дисперсия, выполняющая роль статистики, слишком сильно завышается, так как она включает в себя, наряду с собственно ошибкой эксперимента, также и действие нелинейных эффектов. Тем самым эта проверка одновременно дает неверную информацию о действительной величине случайной ошибки. 491
(ONCOO Г4- 00 CO CO CO<NCNC4 I, о в 11 } O"i ^^ ^Э CO *¦** I.O CO CO ^^ O^ ^ "^ Ю Ю Ю CO CO 00 О Ю О О'—' 5! li 0) >> яг o >"tf«Tt<LOCOCDini>-00t— —< J.CCKOcDNSQOOCOr "" a50 —'СП H ) »-н 1—• 1— <N CO 58. ^-«^н — OOOOOOO ^ tN oq *» to со со со со cot>-1— c^ooi coco'~« oo 492
о ю о S 00 СО ю со с* - о О> 00 со ю со CN „ооооооооооооооооооооо OC^COr^cOrHcXJC^^CNI^C^h-CNt^-C^h-C^CDOJCD ооооооооооооооооооооо ооооооооооооооооооооо OOC^OOt-^h^t^-t^OOOOO^OO»—•»—<(NC000Tt4rfO)'^1 ооооооооооооооооооооо ооооооооооооооооооооо ооооооооооооооооооооо ооооооооооооооооооооо ооооооооооооооооооооо ооооооооооооо о.о о о о о о о oSSSsssssssssscDfesssfc*; ?§SSc2^t2^t2SS?2SSSSS3oSSSSo —ооооооооооооооооооо— SSSc?SS^SSfeS§So1Sg?SfeS§2 ^,^-,ооооооооооооооооо^-< y—t qc\ СЭ CI5 О) О) О) ^Э ^5 ^Э ^Э ^5 СЭ С5 ^5 т~н *~* *~ *~* С4! 00 00 VO СО CSi СМ О^ СЧ О^ CM CM CM CN СМ СО СО СО СО СО СО 1-О ^О o1^?cm^2oo2ZI!S2!222Scmc5cmcoooSoo CMCO^fLO^Dl><000H'-HCMCO'5t4LO^Dt^000>000 о о ооо ооооо Ю<Х> 00 CM CD S- со rt* rf h- ЬО h~ О) СО h- Td Xr- CT> ^ CO оо —• — см OOOCDgCD о —1»— см см ^-4^-. ^-.СМСО &SoS28 —¦ 1—" СМ СМ СО см см со юсо CM CO ^ CD О) ооооо Ю2§§8 493
Поэтому» когда возможно, следует проводить дисперсионный анализ хотя бы с одним повторением! Критерий Манделя дает информацию о том, стоит ли рекомендовать преобразование, какое преобразование пригодно и почему. Введение в чрезвычайно интересную область преобразования (см. с. 466) дано Гриммом (Grimm, 1960] и Линертом [Lienert, 1962] (см. также [Tukey, 1957] и [Taylor, 1961]. Долби (Dolby, 1963] предложил оригинальный упрощенный способ; он позволяет выбрать наиболее приемлемое преобразование. На особом значении преобразований при кли- нико-терапевтических исследованиях подробно останавливается Мартин [Martin, 1966]. 3. Если перед проведением дисперсионного анализа можно сделать обоснованные предположения о порядке величин дисперсий или об ожидаемом различии средних, то с помощью таблиц [Bechhofer, 1954], [Bratcher, 1970], [Kasten- baum, 1970] можно оценить необходимые объемы выборок. Интересны, также, например, следующие применения: простой дисперсионный анализ при нескольких выборках с п элементами в каждой и однородными дисперсиями определенной величины; в этом случае таблицы позволяют с заданной доверительной вероятностью ответить на вопрос о наименьшей еще устанавливаемой разности средних значений. 4. Сравнение двух подобных независимых экспериментов относительно их чувствительности удобно проводить по [Bradley, Schumann, 1957]. Предполагается, что в обоих экспериментах как число Л-, так и число ^-классификаций согласовано (модель: дисперсионный анализ для двухфакторной классификации при одном наблюдении на класс, без взаимодействий). Подробнее см. оригинальные работы, которые содержат расчетные схемы, примеры и важные таблицы. 5. Дисперсионный анализ временных рядов (см. также с. 356 и 412), так называемых временных кривых (иерархические планы экспериментов), изложен в [Roller, 1955] и [Winne, 1965/1967]. 7.5. «БЫСТРЫЕ» КРИТЕРИИ ДИСПЕРСИОННОГО АНАЛИЗА 7.5.1. «БЫСТРЫЙ» КРИТЕРИЙ ДИСПЕРСИОННОГО АНАЛИЗА И МНОЖЕСТВЕННЫЕ СРАВНЕНИЯ СРЕДНИХ ЗНАЧЕНИЙ ПО ЛИНКУ И УОЛЛЕСУ Предполагается, по крайней мере, приближенно нормальное распределение, равенство дисперсий и равные объемы п отдельных выборочных групп ([Link, Wallace, 1952], см. также [Kurtz, 1962]). Этот «быстрый» критерий может применяться также щш классификации с двумя входами с одним наблюдением на клетку. Необходимы k размахов Rt отдельных групп и размах средних значений R{x.y Нуль-гипотеза: |хх = |ха = — = |л{ = = ixfe отвергается в пользу альтернативной гипотезы: не все \it равны, если *> К. G.52) Критическое значение К при заданных п, k и а = 0,05 или а = = 0,01 определяется по табл. 177. Множественные сравнения средних значений при разнице средних D значимы на заданном уровне, если G.53) п 494
Примеры 1. Пусть даны три ряда измерений со следующими значениями (см. табл. 178). nRTxt) ^ 8G,750—4,625) = I>Ri 7+6+4 ~~ Так как 1,47 > 1,18=/С(8; з; о.обь нуль-гипотеза М-л = М-в = [Ас отклоняется. Дисперсионный анализ приводит к тому же самому решению; F = 6,05 > 3,47= FBf2i; о,о5). При 3125 К1 1,18-17 01 = Таблица 178 ,01 хс*л = 3,00 8 нуль-гипотеза: |ыл=|Ыс и fiB= -= fxc также может быть отклонена; так как 1сА —~хв = 0,125< <2,51, справедливо: \iA= \у,вф jic. xt Ri А 3 5 2 4 8 4 3 9 4,750 7 Б 4 4 3 8 7 4 2 5 4,625 6 с 6 7 8 6 7 9 10 9 7,750 4 2. Дано: 4 выборки по 10 наблюдений в каждой (табл. 179). Таблица 179 *3 ч Xi 2 1 1 x2 1 4 1 4 10-2 12 =1,67>1,22=*(Ш;4;001). 1,22-12 10 = 1,46. 495
«Треугольник» разностей средних значений показывает: #4 — хг = = 2 > 1,46, т. е. частная гипотеза \лх = jx4 со статистической надежностью 99% должна быть отвергнута. 7.5.2. МНОЖЕСТВЕННЫЕ СРАВНЕНИЯ НЕЗАВИСИМЫХ ВЫБОРОК ПО НЕМЕНИ ч Если имеется несколько выборочных групп, отличающихся методами применяемого к ним лечения или обслуживания, и нужно эти группы или эти методы сравнить друг с другом и проверить на возможное различие, то для этой цели может быть применен «быстрый» ранговый критерий, предложенный Немени [Nemenyi, 1963], для приближенно нормально распределенных данных. Непараметрические множественные сравнения предложены Коновером [Conover, 1968]. Два других способа приведены мной в книге [Sachs, 1970]. Критерий более подробно: имеется k групп наблюдений с п элементами в каждой. Упорядочиваются по рангам п • k значений, наименьшее наблюдение получает ранг 1, наибольшее — ранг п • к. Равным значениям присваивается средний ранг. Если просуммировать ранги Таблица 180. Критические разности D для односторонней классификации: сравнение всех возможных пар обработок по Немени; Р==0,10 (критерий двусторонний) п 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 2,9 7,6 13,8 20,9 29,0 37,9 47,6 58,0 69,1 80,8 93,1 105,9 119,3 133,2 147,6 162,5 177,9 193,7 210,0 226,7 243,8 261,3 279,2 297,5 316,2 6=4 4,2 11,2 20,2 30,9 42,9 56,1 70,5 86,0 102,4 119,8 138,0 157,1 177,0 197,7 219,1 241,3 264,2 287,7 311,9 336,7 362,2 388,2 414,9 442,2 470,0 5,5 14,9 , 26,9 41,2 57,2 75,0 94,3 115,0 137,0 160,3 184,8 210,4 237,1 264,8 293,6 323,3 353,9 385,5 417,9 451,2 485,4 520,4 556,1 592,7 630,0 6,8 18,7 33,9 51,8 72,1 94,5 118,8 145,0 172,8 202,2 233,1 265,4 299,1 334,1 370,4 407,9 446,6 486,5 527,5 569,5 612,6 656,8 702,0 748,1 795,3 k=7 8,2 22,5 40,9 62,6 87,3 114,4 144,0 175,7 209,4 245,1 282,6 321,8 362,7 405,1 449,2 494,7 541,6 590,0 639,7 690,7 743,0 796,6 851,4 907,4 964,6 9,6 26,5 48,1 73,8 102,8 134,8 169,6 207,0 246,8 288,9 333,1 379,3 427,6 477,7 529,6 583,3 638,7 695,7 754,3 814,5 876,2 939,4 1004,1 1070,2 1137,6 11,1 30,5 55,5 85,1 118,6 155,6 195,8 239,0 284,9 333,5 384,6 438,0 493,7 551,6 611,6 673,6 737,6 803,4 871,2 940,7 1012,0 1085,0 1159,7 1236,0 1314,0 6=10 12,5 34,5 63,0 96,5 134,6 222,3 271,4 323,6 378,8 436,8 497,5 560,8 626,6 694,8 765,2 837,9 912,8 989,7 068,8 1149,8 1232,7 1317,6 1404,3 1492,9 Источник: Wilcoxon F., Wilcox P. A. Some Rapid Approximate Statistical Procedures, Lederle Laboratories, Pearl River, New York, 1964, pp. 29—31. 496
Та бл п 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 ица 180 (продолжение): 3,3 8>8 15,7 23,9 33,1 43,3 54,4 66,3 78,9 92,3 106,3 120,9 136,2 152,1 168,6 185,6 203,1 221,2 239,8 258,8 278,4 298,4 318,9 339,8 361,1 4,7 12,6 22,7 34,6 48,1 62,9 79,1 96,4 114,8 134,3 154,8 176,2 198,5 221,7 245,7 270,6 296,2 322,6 349,7 377,6 406,1 435,3 465,2 495,8 527,0 6,1 16,5 29,9 45,6 63,5 83,2 104,6 127,6 152,0 177,8 205,0 233,4 263,0 293,8 325,7 358,6 392,6 427,6 463,6 500,5 538,4 577,2 616,9 657,4 698,8 Р-0,05 ( ?=6 7,5 20,5 37,3 57,0 79,3 104,0 130,8 159,6 190,2 222,6 256,6 292,2 329,3 367,8 407,8 449,1 491,7 535,5 580,6 626,9 674,4 723,0 772,7 823,5 875,4 критерий двусторонний) 9,0 24,7 44,8 68,6 95,5 125,3 157,6 192,4 229,3 268,4 309,4 352,4 397,1 443,6 491,9 541,7 593,1 646,1 700,5 756,4 813,7 872,3 932,4 993,7 - 1056,3 10,5 28,9 52,5 80,4 112,0 147,0 184,9 225,7 269,1 315,0 363,2 413,6 466,2 520,8 577,4 635,9 696,3 758,5 822,4 888,1 955,4 1024,3 1094,8 1166,8 1240,4 12,0 33,1 60,3 92,4 128,8 169,1 212,8 259,7 309,6 362,4 417,9 476,0 536,5 599,4 664,6 732,0 801,5 873,1 946,7 1022,3 1099,8 1179,1 1260,3 1343,2 1427,9 13,5 37,4 68,2 104,6 145,8 191,4 240,9 294,1 350,6 410,5 473,3 539,1 607,7 679,0 752,8 829,2 907,9 989,0 1072,4 1158,1 1245,9 1335,7 1427,7 1521,7 1617,6 отдельных групп и образовать все возможные абсолютные значения разностей этих сумм, то их можно проверить на основании критического значения D. Если вычисленная разность равна критическому значению из табл. 180 для данного значения п и выбранного уровня значимости или больше него, то между обоими методами действительно имеется разница. Если разность меньше, то можно не сомневаться в равенстве обеих групп. Пример подробнее пояснит сказанное. 49
Таблица 180 (продолжение) Р=0,01 (критерий двусторонний) п 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 4 10 19 29 41 53 67 82 98 114 132 150 169 189 209 230, 252, 275, 298, 321, 346, 371, 396, 422, 449, =3 ,1 ,9 ,5 ,7 ,2 ,9 6 ,4 ,1 \\ 4 4 1 6 7 5 0 1 8 1 0 4 4 0 5 15 27 41 58 76 95 116 139 162 187 213 240 268 297 327 359 391 423, 457 492, 527; 563, 600, 638, - ,7 ,3 ,5 ,9 ,2 ,3 ,8 ,8 ,2 ,8 ,6 5 6 7 8 9 0 0 8 6 2 6 8 9 7 7,3 19,7 35,7 54,5 75,8 99,3 124,4 152,2 181,4 212,2 244,6 278,5 313,8 350,5 388,5 427,9 468,4 510,2 553,1 597,2 642,4 688,7 736,0 784,4 833,8 *- 8 24 44 67 93 122 154 188 224 262 302 344 388 434 481, 530, 580, 632, 685, б ,9 ,3 ,0 ,3 ,6 ,8 4 ,4 ,5 J 9 9 7 2 3 1 3 1 4 740 ,Ю 796, 853, 912, 972, ЮЗЗ, 0 4 1 1 3 ?=7 10,5 28,9 52,5 80,3 111,9 146,7 184,6 225,2 268,5 314,2 362,2 412,5 464,9 519,4 575,8 634,2 694,4 756,4 820,1 885,5 952,6 1021,3 1091,5 1163,4 1236,7 12 33 61 93 130 171 215 262 313 366 422 481 542 606 671 740 810 882, 957, 1033, ПИ! 1191, 1273, 1357, 1443, ,2 ,6 ,1 ,6 ,4 ,0 ,2 ,6 ,1 ,5 ,6 2 4 0 9 0 2 6 0 3 6 8 8 6 2 13 38 69 107 149 195 246 300 358 419 483 551 621 693 769 847, 927, 1010, 1095, 1183, 1273, 1364, 1458, 1554, 1652, ,9 ,3 ,8 ,0 ,1 ,7 ,3 ,6 ,4 ,5 ,7 ,0 0 8 3 3 8 6 8 3 0 8 8 8 8 15 43 78 120 168 220 277 339 404 473 545 621 700 782 867 955 1046 1140 1236, 1334, 1436, 1539, 1645, 1754, 1864, 0 ,6 ,1 ,6 ,6 ,1 ,6 ,7 ,0 ,2 ,1 ,6 ,4 ,5 ,6 5 0 2 9 0 7 7 0 6 Пример В предварительном эксперименте 20 крыс были распределены на 4 группы кормления. Вес после 70 дней приведен в табл. 181, справа от значения веса указан соответствующий ранг и отмечены суммы по столбцам. Абсолютные значения разностей сумм рангов по столбцам (табл. 182) затем сравниваются с критической разностью D для п = 5 и k = 4 на 10% -ном уровне значимости. Таблица 182 Та 203 184 169 216 209 б л и да I 12 7 1/2 4 17 15 55 1/2 181 п 213 246 184 7 282 190 70 16 18 1/2 20 9 1/2 ш 171 208 260 193 160 5 14 19 10 3 51 IV 207 152 176 200 145 13 2 6 11 1 33 ¦¦( III 55"Т") 7о4~) E1) ПG0 1/2) 15 ШE1) 19-4- IV 22 37 C3) 1 2 1 2 18 498
Другие табличные значения D для k > 10 и п = 1 A) 20 при не- обходимости можно вычислить по формуле D = W ]/n (nk) X 1(+ 1)/12, где DF интерполируется по табл. 23 из работы [Pearson, Hartley, 1966, p. 178 — 183]. Проверим, например, значение 144,0 (табл. 180; Р = 0,10; п = k = 7): для п = 7 и Р' = 0,90 имеем IF = = 3,8085; 3,80851/7G-7)-G-7+ 1)/12 = 143,978. Табличное значение в нашем случае равно D = 42,9. Поскольку оно ни одной разностью не достигается, нет оснований для отклонения нуль-гипотезы о равенстве средних. При большом объеме выборки различие между группами II и IV было бы статистически значимо. 7.6. РАНГОВЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ ДЛЯ НЕСКОЛЬКИХ СВЯЗАННЫХ ВЫБОРОК ф 7.6.1. КРИТЕРИЙ ФРИДМАНА: ДВОЙНОЕ РАЗЛОЖЕНИЕ С ОДНИМ НАБЛЮДЕНИЕМ НА КЛЕТКУ ТАБЛИЦЫ В разд. 3.9.5 мы рассматривали непараметрическое сравнение нескольких независимых выборок. Для параметрического сравнения нескольких зависимых выборок измеренных значений относительно положений их центров имеется разработанный в [Friedman, 1937] ранговый метод — двухфакторный дисперсионный анализ рангов. Исследуются п индивидуумов, выборочных групп или блоков (см. разд. 7.7) при k вариантах условий. Если объединенная выборка по одному из контрольных признаков может коррелировать с исследуемым признаком и разделена на группы по k элементов в каждой, то нужно обратить внимание на то, чтобы индивидуумы одного блока были хорошо согласованы по отношению к контрольному признаку. Тогда k индивидуумов каждого блока распределяются случайным образом по k условиям. При гипотезе о том, что различные условия не оказывают влияния на распределение,значений измерении, ранги п индивидуумов или блоков распределяются случайным Образом по k условиям. Если в предположении верности нуль-гипотезы сформировать ранговые суммы для каждого их k условий, то они либо не отличаются друг от друга, либо их отличия носят случайный характер. Если отдельные условия оказывают систематическое влияние, то k столбцов будут иметь различные ранговые суммы. Для проверки нуль-гипотезы: k столбцов относятся к одной генеральной совокупности — Фридман предложил статистику %%: где п — число строк: индивидуумы, повторения, выборочные группы, блоки; k — число столбцов: условия, обработки, сорта, факторы; 499
k 2 R\ — сумма квадратов рангов по столбцам для сравниваемых факторов или условий. Статистика хд при не слишком малых выборках распределена как X2 с (k — 1) степенями свободы, и решение принимается, следовательно, на основании таблицы х2-критерия. Точные значения предельных вероятностей для 3 -Ь 4 условий и малых выборок содержатся в табл. 183. Так, для ? = 3ил = 8на 1 %-ном уровне значимости имеем Хя = 9,0 (таблица содержит только отдельные значения %%). Для равных измерений (средних рангов) данные табл. 183 не вполне точны. Если желательно знать, имеется ли отчетливая разница между исследуемыми индивидуумами или группами, то производят упорядочение по рангам внутри отдельных столбцов и суммируют ранги по строкам. При вычислениях символы k и п в формуле G.54), естественно, нужно поменять местами. Критерий Фридмана подобен jp-критерию на однородность. Он проверяет, равны ли средние по столбцам или могут быть получены рассматриваемые выборки из одной и той же генеральной совокупности. Какие именно условия приводят к значимым различиям поэтому критерию, установить нельзя. Раинах [Reinach, 1965] разложил %% на различные ортогональные компоненты. Этот метод более подробно: 1. Значения наблюдений заносятся в таблицу с двумя входами; по горизонтали: k условий, по вертикали: п индивидуумов, выборочных групп или повторений. 2. Значения в каждой строке упорядочиваются по рангам; каждая строка имеет ранги от 1 до /г. 3. Для каждого столбца определяются суммы рангов Rt (для i-ro столбца). Проверка: ^ 2 G.55) i = 1 4. Вычисляется значение %% по формуле G.54). 5. Принимается решение на основании сравнения значения xi? с табличным значением (табл. 183, см. также [Michaelis, 1971] или по таблице х2 с. 134). Пример Сравнивается на 5%-ном уровне эффективность четырех (k = 4) пенициллиновых проб методом диффузионных пластин [Weber E. Grundrip der Biologischen Statistik, 5 Aufl., Jena, 1964, S. 113]. Эксперимент проводится на трех (г = 3) пластинах из агара. Из пластинки агара диаметром 9 см, с Б-микробом (Heubazillus) отбираются 4 маленьких диска диаметром примерно 0,4 см, куда вносится одинаковое количество каждого вида раствора пенициллина, так что на каждой пластинке размещаются все пробы. 500
О> СЛ 4^ 4^ Go О О О О О 4 СТ> О -4 СЛ Ю-vJOO СЛ 00 оо ооо~ —to < О >— СО СЛ->4 4^ --J О С •— --J СО 4*> СЛ 00 СЛ --1 < оо ел to со Ъэ со© Vj 4^ Э СП СЛ-'ОЭ SCOO^Ol ^tO400J4Ca — CO >—©©сососооооооо ) C5 *Ч tOCO "о со"со"о"соо"оо "со'оо"© оооооосоосооосоо ©©©©оо©©©© Сэ CD СЭ С5 '~~' tO СЛ ""-J 4й» 00 Оь-СЛООЮЮЮЮЮ^ 5 •— Ю СО 00 СЛ >— - ЭЮ^Ю4^ otoo-4 Vj Voo*>io->jVoVo Vj ослослслслослослслслсл С^ ^^ С*) С^ CZ5 ^^ С^ cl^ d^* C5 С^ ^^^ ^""* СО СО ^-* 41»' 00 © СО ' >—OCO00000005C75 О5СЛ 4^ Ф» ^ ^^^ ^2* С^ <**7^ f*^ (*^ ООО*-*1—'>— 00С?5ООС0 *> со —о J •—' сл оо оэ о со soco оооо "о**— "со'сд toco аяо 00 4*. н- ОО СО CD C5 4^ СО ООО ОО "о"о"о"»—"ю О 4>* CJ5 tO-v| 4^ tOCO СЛ СО СТ> О 00 --1 О> СЛ rfs». СО О О О О >—' |~* о to со со to оо 00 4^ СО СО 4^ tO j СЛ
Удобны следующие варианты: критические границы для критерия Фридмана. k \,. а п Чч 3 4 5 6 7 8 9 3 0,10 _ 6.0 6,2 5,3 5,4 5,2 5,5 0,05 6,0 6,5 6,4 6,5 6,5 6,3 6,2 0,01 8,0 8,0 8.4 9,0 8,8 9,0 8,7 4 0,10 6,6 6,3 0,05 7,4 7,8 0,01 9,0 9,5 1) А=3, п>9 -г 2) k=4, n>4 %R с 3) k>4, п>2 приближенное •х,2-РаспРеделе* ние с k— I степенями свободы Источник: Friedman M. The use of ranks to avoid the assumption of normality implicit in the analysis of variance, J. Amer. Statist. Ass. 32, 675—701, 1937. Раствор пенициллина диффундирует в слой агара и тормозит рост В-микроба. Это выражается в образовании отчетливой зоны действия. Диаметр зоны торможения является мерой концентрации раствора пенициллина. Распределение выборок экспериментального материала по пробам пенициллина — случайное. Спрашивается, имеется ли различие в диаметрах зон торможения; возможное влияние агара должно учитываться. Размеры зон торможения в мм даны.в табл. 184. Таблица 184 Пластина 1 2 3 Растворы 1 27 27 25 2 23 23 21 пенициллина 3 26 25 26 4 21 21 20 Табли Номер пластинки 1 2 3 2 ца 185. Ранги Растворы пенициллина 1 4 4 3 11 2 2 2 2 6 3 3 3 4 10 4 1 1 1 3 30 Если значение хк равно или превышает табличное значение для данных k, n и а, то не все k столбцов относятся к общей генеральной совокупности. Значения рангов по строкам даны в табл. 185. Проверка сумм рангов по столбцам: V р _ nk(k+l) __ 3.D+1).4 .л ZxRi 2 2 ==30' 502
Согласно табл. 183, этому значению %% для А = 4ип = 3 соответствует вероятность ошибки Р = 0,017, поэтому нуль-гипотеза об одинаковом действии четырех растворов пенициллина должна быть на 5%- ном уровне отклонена. Если хотят проверить, имеется ли разница между пластинами агара, то нужно упорядочить ранги по столбцам и образовать суммы по строкам (табл. 186). Таблица 186 2 2 1 >5 ,5 2 2 1 ,5 ,5 2,5 2,5 2,5 1,5 1 10 8 5 24 ,5 ,5 ,0 Проверка: kn(n+l) _ 4-3.4 ————————— ^— 2 2 Для k = 3, п = 4 и х% < 6,0 в табл. 183 считываем: Р > 0,10, так что нуль-гипотеза сохраняется. Значительно более простая формула, которая также основана на ^-распределении, предложена в [Page, 1963]. ~2 6 < E G.56) где Е = 2Rt/k представляет собой усредненную сумму рангов. Для нашего примера получаем: k 4 —7, —7,5J + C—7,5J> 6{3, 30 ,52+2,52 + 4,52} 30 -8,2. Как показал Фридман, значение %% для п индивидуумов и двух условий (k = 2) связано с коэффициентом ранговой корреляции Спир- мэна rs (см. разд. 5.3.1) следующим соотношением: G.57) 503
или rs^-Щ 1. G.57а) П—1 Следовательно, по значению %% можно определять меру различия между двумя рядами измерений. Дополнения 1. Если нужно вынести суждение о степени согласования нескольких ранжированных рядов, полученных как оценки нескольких экспериментов или преобразованием измеренных значений — обычный прием объективирования неколичественных биологических признаков, то для этой цели может быть применен критерий Фридмана. Если мы попросим трех человек (л = 3) оценить с помощью рангов относительные достоинства четырех кинозвезд (& = 4), то можем получить, например, табл. 185 (с результатом, согласования «нет» [а = 0,05]). 2. Если несколько видов продукции, скажем, сыра, копирки или табака, нужно сравнить на основании субъективных оценок, то применяется методика парных сравнений'* несколько различных видов продукта, например сорта Л, В, С, D, группируются в пары (А — В, А — С, А — D, В — С, В — D, С —- D) и затем попарно сравниваются. Подробнее см. [David, 1963] (см. также [Trawin- ski, 1965] и [Linhart, 1966]). Пример парного сравнения на основе предложенного Шеффе [Scheffe, 1952] метода дисперсионного анализа дан в [Fleckenstein Mary, 1958]. Он подробно анализируется в [Starks, David, 1961] на основе других критериев. Простой способ, соответствующие вспомогательные таблицы и пример изложены в [Terry, 1952] (см. также [Bose, 1956], [Jackson, Fleckenstein, 1957], [Vessereau, 1956], [Rao, Kupper, 1967] и [Imberty, 1968]). ф 7.6.2. МНОЖЕСТВЕННЫЕ СРАВНЕНИЯ НЕЗАВИСИМЫХ ВЫБОРОК ПО УИЛКОКСОНУ И УИЛКОКС Критерий Фридмана представляет собой двухфакторный дисперсионный анализ рангов; соответствующие множественные сравнения предложены Уилкоксоном и Уилкокс [Wilcoxon, Wilcox, 1964]. Этот критерий (см. табл. 187) подобен критерию, предложенному Немени. Значения для k ^ 15 даны в [McDonald, Thompson, 1967] и приведены в книге [Sachs, 1970]. ) Сравнения более подробно. Сравниваются k условий (видов обработки) с п повторениями для каждого условия. Каждому условию сопоставляется ранг от 1 до k, так что в результате получается п рядов рангов. Ранги отдельных выборок суммируются; их разности сравниваются со значением критической разности из табл. 187. Если табличное значение меньше, чем вычисленные разности, или равно им, то условия, лежащие в основе сравнения, относятся к различным генеральным совокупностям. Если вычисленная разность меньше, чем табличное значение D, то отличие следует рассматривать как случайное. Другие значения D для &> 10 и п = 1AJ0 можно рассчитать по формуле D = W Ynk (* + 1)/12, где значение W получается из табл. 23 [Pearson, Hartley, 1966, p. 178—183], например D = 42,8 (табл. 187; Р = == 0,05; п = k = 10), для п = 10 и Р' = 0,95 получается W = -4,4445 и 4,4745/10.10A0+1)/12 = 42,840, 504
Таблица 187. Критические разности для классификации с двумя входами: сравнение всех возможных пар условий. Р=0,10 (критерий двусторонний) п 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 ?=3 2,9 4,1 5,0 5,8 6,5 7,1 7,7 8,2 8,7 9,2 9,6 10,1 10,5 10,9 11,2 11,6 12,0 12,3 12,6 13,0 13,3 13,6 13,9 14,2 145 4,2 5,9 7,2 8,4 9,4 10,2 Н,1 11,8 12,5 13,2 13,9 14,5 15,1 15,7 16,2 16,7 17,2 17,7 18,2 18 7 19,2 19,6 20,1 20,5 20,9 Д?=5 5,5 7,8 9,5 11,0 12,3 13,5 14,5 15,6 16,5 17,4 18,2 19,0 19,8 20,6 21,3 22,0 22,7 23,3 24,0 24,6 25,2 25,8 26,4 26,9 27,5 /г=6 6,8 9,7 11,9 13,7 15,3 16,8 18,1 19,4 20,5 21 7 22,7 23,7 24,7 25,6 26,5 27,4 28,2 29,1 29,9 30,6 31 4 32,1 32,8 33,6 34,2 k=7 8,2 11,6 14,2 16,5 18,4 20,2 21,8 23,3 24,7 26,0 27,3 28,5 29,7 30,8 31,9 32,9 33,9 34,9 35,9 36,9 37,7 38,6 39,5 40,3 41,1 9,6 13,6 16,7 19,3 21 ]5 23,6 25,5 27,2 28,9 30,4 31 9 33,4 34,7 36,0 37,3 38,5 39,7 40,9 42,0 43,1 44,1 45,2 46,2 47,2 48,1 11,1 15,6 19,1 22,1 24,7 27,1 29,3 31,3 33,2 35,0 36,7 38,3 39,9 41,4 42,8 44,2 45,6 46,9 48,2 49,4 50,7 51,9 53,0 54,2 55,3 12,5 17,7 21,7 25,0 28,0 30,6 33,1 35,4 37,3 39,5 41,5 43,3 45,1 46,8 48,4 50,0 51,5 53,0 54,5 55,9 57,3 58,6 60,0 61,2 62,5 Источник: Wilcoxon F., Wilcox P. A. Some Rapid Approximate Statistical Procedures, Lederle Laboratories, Pearl River, New York, 1964, pp. 36—38. Таблица 187 (продолжение) Р=0,05 (критерий двусторонний) n I 2 3 4 5 6 7 8 9 10 11 12 13 14 *=3 3,3 4,7 5,7 6,6 7,4 8,1 8,8 9,4 9,9 10,5 11 0 11,5 11,9 12,4 /г = 4 4,7 6,6 8,1 9,4 10,5 11,5 12,4 13,3 14,1 14,8 15,6 16,2 16,9 17,5 6,1 8,6 10,6 12,2 13,6 14,9 16,1 17,3 18,3 19,3 20,2 21,1 22,0 22,8 7,5 10,7 13,1 15,1 16,9 18,5 19,9 21,3 22,6 23,8 25,0 26,1 27,2 28,2 k=7 9,0 12,7 15,6 18,0 20,1 22,1 23,9 25,5 27,0 28,5 29,9 31,2 32,5 33,7 ?=8 10,5 14,8 18,2 21,0 23,5 25,7 27,8 29,7 31,5 33,2 34,8 36,4 37,9 39,3 ?=9 12,0 17,0 20,a 24,0 86,9 29,4 31,8 34,0 36,0 38,0 39,8 41,6 43,3 45,0 fc=10 13,5 19,2 23,5 27,1 30,3 33,2 35,8 38,3 40,6 42,8 44,9 46,9 48,8 50,7 505
Продолжение п 15 16 17 18 19 20 21 22 23 24 25 k=3 12,8 13,3 13,7 14,1 14,4 14,8 15,2 15,5 15,9 16,2 16,6 18,2 18,8 19,3 19,9 20,4 21,0 21,5 22,0 22,5 23,0 23,5 23,6 24,4 25,2 25,9 26,6 27,3 28,0 28,6 29,3 29,9 30,5 29,2 30,2 31,1 32,0 32,9 33,7 34,6 35,4 36,2 36,9 37,7 fc=7 34,9 36,0 37! 1 38,2 39,3 40,3 413 42,3 43,2 44,1 45,0 *=8 40,7 42,0 43,3 44,5 45,8 47,0 48,1 49,2 50,3 51,4 52,5 6=9 46,5 48 1 49,5 51,0 52,4 53,7 55,1 56,4 57,6 58,9 60,1 6=10 52,5 54,2 55,9 57,5 59,0 60,6 62,1 63,5 65,0 66,4 67,7 Табл n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 ица 187 (продолжение) 4,1 5,8 7,1 8,2 9,2 юл 10,9 И .7 12,4 13,0 13,7 143 149 15,4 16,0 16,5 17,0 17,5 18,0 18,4 18,9 19,3 19,8 20,2 20,6 5,7 8,0 9,8 11,4 12,7 13,9 15,0 16,1 17,1 18,0 18,9 19,7 20,5 21,3 22,0 22,7 23,4 24,1 24,8 25,4 26,0 26,7 27,3 27,8 28,4 ?=5 7,3 10,3 12,6 14,6 16,3 17,8 19,3 20,6 21,8 23,0 24,1 25,2 26,2 27,2 28,2 29,1 30,0 30,9 31 > 32,5 33,4 34,1 34,9 35,7 36,4 Р=0,01 (критерий двусторонний) k=6 8,9 12,6 15,4 17,8 19,9 21,8 23,5 25,2 26,7 28,1 29,5 30,8 32,1 33,3 34,5 35,6 36,7 37,8 38,8 39,8 40,9 41,7 42,7 43,6 44,5 10,5 14,9 18,3 21,1 23,6 25,8 27,9 29,8 31,6 33,4 35,0 36,5 38,0 39,5 40,8 42,2 43,5 44,7 46,0 47,2 48,3 49,5 50,6 51,7 52,7 ?=8 12,2 17,3 21,2 24,4 27,3 29,9 32,3 34,6 36,6 38,6 40,5 42,3 44,0 45,7 47|3 48,9 50,4 51,8 53,2 54,6 56,0 57,3 58,6 59,8 61,1 13,9 19,7 24,1 27,8 31,1 34,1 36,8 39,3 41,7 44,0 46,1 48,2 50,1 52,0 53,9 55,6 57,3 59,0 60,6 62,2 63,7 65,2 66,7 68,1 69,5 ?=10 15,6 22,1 27,0 31,2 34,9 38,2 41,3 44,2 46,8 49,4 51,8 54,1 56,3 58,4 60,5 62,5 64,4 66,2 68,1 69,8 71,6 73,2 74,9 76,5 78,1 Пример (Источник WilcoxonF., Wilcox P. A. Some Approximate Statistical Procedures, Lederle Laboratories, New York, 1964, pp. И, 12). Шесть человек получают 6 различных мочегонных средств каждый (А -т- F), через два часа после приема лекарства проверяется содержа- 506
Таблица 188 Пациенты 1 2 3 4 5 6 А 3,88 5,64 5,76 4,25 5,91 4,33 1 1 2 1 2 1 8 в 30,58 30,14 16,92 23,19 26,74 10,91 5 3 3 4 5 3 23 с 25,24 33,52 25,45 18,85 20,45 26,67 3 6 4 3 3 6 25 D 4,44 7,94 4,04 4,40 4,23 4,36 2 2 1 2 1 2 10 Е 29,41 30,72 32,92 28,23 23,35 12,00 • 4 4 5 6 4 4 27 F 38,87 33,12 39,15 28,06 38,23 26,65 6 5 6 5 6 5 33 ние натрия. Спрашивается, какое из лекарств отличается от других (по содержанию натрия в моче). Данные измерений приведены в табл. 188, справа указаны ранги, внизу — суммы рангов по столбцам. Абсолютные значения разностей приведены в табл. 189. Таблица 189 Л 8 D 10 В 23 С 25 Е 27 D 10 2 в 23 15 13 с 25 17 15 2 Е 27 19* 17 4 2 F 33 25** 23** 10 8 6 Критическая разность для ? = 6ия = 6на 5%-ном уровне равна 18,5 (см. табл. 187), на 1%-ном уровне—21,8. На 5%-ном уровне значимые разности отмечены звездочкой, на 1%-ном уровне — двумя звездочками. Итак, можно констатировать, что препарат F с вероятностью ошибки Р < 0,01 отличается от препаратов А и D. Препарат Е отличается на 5%-ном уровне от препарата А; другие разности на 5%-ном уровне незначимы. • 7.7. ПРИНЦИПЫ ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА При планировании эксперимента, согласно [Koller, 1964], выступают два взаимно противоположных принципа: принцип сравнимости и принцип обобщаемости. Два опыта, в которых необходимо сравнить два вида обработки (лечения), взаимно сравнимы, если они отличаются только видами лечения, а со всех остальных точек зрения согласованы. Согласование касается следующих условий эксперимента и причин вариации: 507
1) методы наблюдения и измерения, 2) условия проведения эксперимента, 3) индивидуальные особенности объектов эксперимента, 4) особенности времени, места эксперимента, человеческие особенности. Сравнимость отдельных экспериментов почти возможна, хотя только для одной группы экспериментов. Если должны сравниваться группы экспериментов, то у них должны быть одинаковые распределения источников вариации. Если, например, для достижения хорошей сравнимости используются только молодые самцы определенного веса и т. п., из одного помета, то этим обеспечивается надежная сравнимость, но утрачивается общность, для которой нужно было бы сохранение в опытах старых животных, или самок, или подобных же самцов, но из другого помета. Такой ряд экспериментов имел бы некоторую, хотя и слабую, основу для индукции (см. также с. 195 — 201 и 284). Обобщение означает изучение и описание таких коллективов и их распределений признаков, для которых имеющиеся значения наблюдений могут рассматриваться как репрезентативные выборки. Лишь рассмотрение таких неоднородных коллективов с различными подопытными животными (возраст, пол, наследственность, предрасположенность), различным временем эксперимента (время дня, время года, метеоусловия), при различном оборудовании, различных экспериментаторах и т. п. может привести к выводу, насколько независимы результаты от этих вариаций и мешающих факторов, т. е. провести соот- ветстующее обобщение. Сравнимость и обобщаемость для эксперимента противоположны; если сравнимость требует однородного материала, обобщаемость, напротив, — неоднородного материала для получения широкого, индуктивного базиса: сравнение требует повторяющегося коллектива, обобщение — неоднородного, изменяющегося коллективах Оба принципа должны взаимно учитываться при планировании эксперимента. Сравнение различных методов особенно благоприятно на одном и том же животном. При этом сравнимость оптимальна, а неоднородность коллектива особей может быть произвольно широкой. Полный обзор методов планирования эксперимента дан в [Herzberg, Сох, 1969]. Основные принципы планирования эксперимента: 1. Повторение (дублирование) опытов (replication): позволяет оценить ошибку эксперимента и одновременно приводит к ее уменьшению. 2. Рандомизация (randomisation, случайное распределение): позволяет получить несмещенную оценку интересующих исследователя эффектов путем исключения известных и неизвестных систематических ошибок, в особенности тренда, который обусловлен факторами времени и пространства, и обеспечить одновременно независимость результатов эксперимента. Рандомизацию следует проводить с помощью таблицы случайных чисел. 3. Разбиение на блоки (blockdivision, planned grouping): увеличивает точность внутриблочного сравнения. 508
Идею случайного распределения методов по объектам эксперимента, коротко называемую рандомизацией (принадлежит Р. А. Фишеру), можно рассматривать как основу любого планирования эксперимента. Благодаря этому получают: а) правдоподобную оценку интересующего эффекта, б) правдоподобную оценку ошибки эксперимента и в) улучшенную нормальность данных. Тем самым разрушаются нежелаемые и неизвестные корреляционные связи, ошибки эксперимента становятся некоррелированными и независимыми, что позволяет применять стандартные критерии значимости. Если объекты эксперимента весьма различны, то выделение интересующего эффекта затруднено этой неоднородностью материала. В таких случаях рекомендуется создание подгрупп из подобных объектов — однородные экспериментальные блоки, совокупность которых образует полную экспериментальную группу. Внутри блоков условия эксперимента по объектам распределяются по случайному принципу. Примерами таких блоков' являются эксперименты над одними и теми же пациентами или животными, однояйцевыми близнецами или парными органами, животными одного помета или из одной клетки, или из одного рода, участки поля в сельскохозяйственных экспериментах и другие группы, которые представляют собой естественные или искусственные блоки. В один блок объединяются те эксперименты, которые согласованы по особо важному источнику вариации, а от блока к блоку имеется разница именно по этому фактору (источнику). Отдельные блоки всегда должны иметь равный объем. Сравнения, важные для целей эксперимента, должны по возможности проводиться внутри блоков. Исключение мешающих факторов осуществляется: 1. При известных измеримых количественно, мешающих факторах — с помощью ковариационного анализа, когда факторы классификации и входные переменные (изменяющиеся синхронно, как, например, вес или давление крови в начале эксперимента) линейно действуют на выходную переменную. Он служит для исключения влияния мешающих факторов на эксперимент при дисперсионном анализе и для изучения регрессионных соотношений в классифицируемом материале ([Enderlein, 1967], см. также [Li, 1964], [Harte, 1965], [Lienert, 1965], [Peng, 1967], [Quade, 1967], [Rutherford, Stewart, 1967], [Bancroft, 1968], [Evans, Anastasio, 1968], [Reisch, Webster, 1969], [Sprott, 1970]). 2. При известных, но неизмеримых мешающих факторах — образованием блоков (групп опытов, возможно более согласованных по мешающему фактору); проведением эксперимента при специальных условиях. 3. При неизвестных мешающих факторах — с помощью случайного распределения объектов эксперимента по методам и условиям эксперимента; может быть целесообразным учет так называемых вспомогательных признаков (возраст, пол, начальный вес и т. п.). 509
В противоположность абсолютному эксперименту (например, определению такой постоянной, как скорость света), подавляющее большинство экспериментов относится к категории сравнительных: мы сравниваем, например, урожай, который получается при определенных условиях (качество семян, удобрения и т. п.). Значения для сравнения или имеются как заданные значения, или должны определяться в контрольном эксперименте. Сравнительные эксперименты—процессы, протекающие при различных условиях или «обработках», по течению которых сопоставляются результаты, или процессы, в которых устанавливаются частные эффекты, «влияния» условий—имеют следующие цели: (а) проверить, существует ли эффект и (б) измерить величину этого эффекта, причем, по возможности, избежать ошибок 1-го и 2-го рода, т. е. не увидеть «несуществующие» и не «проглядеть» действительные эффекты в анализируемом материале. Кроме того, нужно установить значение наименьшего значимого эффекта. Действительными эффекты можно считать только тогда, когда можно надежно установить, что (а) ни неоднородность объектов эксперимента (например, различие почвы в примере с урожаем), ни (б) случайные влияния сами по себе не могут привести к такому эффекту. Современное планирование эксперимента {experimental design) отличается от классического или традиционного подхода тем, что всегда исследуются одновременно по меньшей мере 2 фактора. Раньше, когда нужно было проанализировать действие нескольких факторов, они проверялись последовательно друг за другом, причем проверялся сразу только один из факторов на нескольких уровнях. Можно показать, что этот способ не только неэффективен, но способен привести к неверным результатам. Оптимальная область работы обычным способом может быть вообще не найдена. Кроме того, классические методы не позволяют определить взаимодействия факторов. Принцип современного статистического планирования эксперимента состоит в следующем: так ввести факторы и измерить их эффекты и взаимодействия, а также чувствительность этих эффектов, чтобы сравнить их друг с другом и по возможности ограничить влияние случайных вариаций (см. с. 216). Дополнения. Простые планы экспериментов 1. Разбиение экспериментов на блоки со случайным распределением методов по объектам эксперимента. Экспериментальный материал распределяется по возможно более однородным блокам. Каждый блок содержит по меньшей мере столько единиц, сколько необходимо проверить факторов (методов обработки, способов)— полностью рандомизированные блоки, или целое число единиц, кратное этому числу. Факторы распределяются среди подобных объектов каждого блока с помощью случайной процедуры (таблицы случайных чисел). Повторение экспериментов с различными блоками увеличивает точность сравнения факторов. Для дисперсионного анализа этих связанных выборок применяется модель двухфакторной классификации без взаимодействия. Вместо названий «строка» и «столбец» здесь применяются «блок » и «фактор». Следует подчеркнуть, что образование блоков точно так же, как и образование парных наблюдений, только тогда имеет смысл, когда рассеяние между объектами эксперимента отчетливо больше, чем между парами или блоками; связанные выборки (парные наблюдения, блоки) имеют меньшее число степеней свободы, чем соответствующие независимые, выборки. Если имеется отчетливая разница в рассеянии в упомянутом выше смысле, то выигрыш в точности за счет 510
Источник вариации II Источник вариации I А в с в с А С А В образования связанных выборок больше, чем потери в точности за счет уменьшения числа степеней свободы. Если число элементов в блоке меньше, чем число испытываемых факторов, то говорят о неполных рандомизированных блоках. Они используются часто тогда, когда естественным образом сформированные блоки включают в себя меньшее число элементов, например, при сравнении пар близнецов, лево- правом сравнении, при временных или технических ограничениях на проведение параллельных опытов в один и тот же день и т. п. 2. Латинский квадрат В го время как при образовании блоков исключается один источник вариации, план эксперимента, называемый латинским квадратом, служит для исключения двух источников вариации. Часто оказывается, что экспериментальное поле отчетливо различается по качеству почвы в двух направлениях. С помощью удачного деления удается исключить влияние этой разницы по направлениям* Если нужно проверить k факторов (например, искусственные удобрения А и В и контроль С), то нужно № опытов и, тем самым, k2 (9) объектов эксперимента (участков, делянок). Простой латинский квадрат при двух источниках вариации I и II имеет, например, такой вид: Каждый фактор содержится в каждой строке и каждом столбце точно один раз. Обычно применяют квадраты при k > 5, так как в меньших квадратах мало степеней свободы для определения ошибки эксперимента. При k — 5 имеются 12 соответствующих планов, которые, естественно, применяются не только в сельском хозяйстве, но и везде, где объекты эксперимента могут рандомизированно группироваться по двум направлениям или признакам; эти планы можно найти в таблицах [Fisher, Yates, 1963]. При использовании греко-латинских квадратов осуществляется рандомизация по трем направлениям (подробнее см. в [Jaech, 1969]). 3. Факторные эксперименты Если нужно сравнить п факторов на двух, трех или k уровнях одновременно, то используют планы со сравнением комбинаций, так называемые 2Л-, 3"-, &я-планы, или эксперименты (см. [Plackett, Burman, 1946], [Baker, 1957], [Daniel, 1959], [Winer, 1962], [Addelman, 1963, 1969], [Li, 1964], [Cooper, 1967]). 4. Иерархические планы экспериментов 1 При иерархической классификации имеются выборочные группы п выборочных подгрупп, например первого "и второго рода (улицы, дома и жители). Здесь говорят о «гнездовой модели» (nested designs): все уровни одного фактора встречаются вместе всегда только с одним уровнем другого фактора (см. [Gates, Shiue, 1962], [Qower, 1962], [Bancroft, 1964], [Eisen, 1966], [Ahrens, 1967], [Kussmaul, Anderson, 1967], [Tietjen, Moore, 1968]). В конце списка литературы читатель найдет некоторые учебники по планированию эксперимента. Особое внимание следует обратить на следующие: [Scheffe, 1959], [Winer, 1962)], [Davies, 1963], [Johnson, Leone, 1964], [С. С. Li, 1964], [J. С. R. Li, 1964], [Kendall, Stuart, 1966], [Peng, 1967] и [Bancroft, 1968]. См. также работы, названные на с. 217 и 421, а также обзор [Herzberg, Сох, 1969]. Творческий процесс в науке начинается с понимания незнания и заканчивается развитием теории. Важной частью является формулирование и проверка гипотез. Следует по возможности формулировать несколько проверяемых и отвергаемых гипотез, достаточно, чтобы их отклонение вследствие наблюдений или экспериментов не создавало трудностей. Для этого исследователь должен рассматривать объект изучения с возможно большего числа сторон, а не обращать все усилия, весь интерес и особенно все эмоции на любимую гипотезу. 611
Таблица 190. Важнейшие планы экспериментов для проверки значимого различия между различными уровнями одного фактора или нескольких факторов План эксперимента Принцип Примечания 1. Полная рандомизация 2. Рандомизированные блоки 3. Латинские квадраты 4. Факторные эксперименты 5. Дробные факторные эксперименты Уровни одного фактора распределяются по объектам эксперимента по случайному принципу Возможно объединение подобных объектов в блоки, каждому из которых соответствуют уровни одного фактора План эксперимента для к факторов состоит из kz объектов, которые (по два признака на каждом из k уровней) так располагаются но строкам и столбцам квадрата, что каждый фактор в каждой строке и каждом столбце содержится точно один раз Опыты с произвольным числом факторов, которые проверяются на любом числе уровней каждый. Эксперимент, который проверяет, например, четыре фактора на трех уровнях, требует 34 = 81 комбинацию Из всех комбинаций факторного эксперимента отбирается только часть, необходимая для анализа главных факторов и наиболее важных взаимодействий Число опытов может изменяться от уровня к уровню; план мало чувствителен в отношении обнаружения значимых эффектов Число опытов может изменяться от уровня к уровню; чувствительнее, чем полностью рандомизированный план Совместное изучение двух или нескольких факторов! Предполагается, что факторы действуют независимо друг от друга (без взаимодействия) Точный эксперимент: наряду с главными факторами учитываются все взаимодействия; если проверяются все комбинации факторов и уровней, то эксперимент может превратиться в громоздкий и неудобный; кроме того, требуется более однородный материал, чем при других планах Экономные эксперименты. По сравнению с факторным экспериментом больше ошибка эксперимента и не так точна оценка главных факторов; кроме того, могут быть не замечены некоторые возможные взаимодействия
Решение научных проблем 1. Формулирование проблемы. Зачастую целесообразно расчленение общей проблемы на частные проблемы и постановка таких вопросов: а) почему возникла эта проблема? б) наметить в общих чертах исходную ситуацию с помощью вопросов: что? как? где? когда? сколько? что неизвестно? что предполагается? в) тип проблемы: сравнение? отыскание оптимальных условий? значимость отличия? зависимость между переменными? 2. Проверка всех источников информации. Главным образом поиски литературы по уже решенным подобным проблемам и обобщение этой литературы. 3. Выбор стратегии. а) Разработка модели, соответствующей проблеме. Число переменных, которые необходимо принимать во внимание. Введение упрощающих предположений. Проверка возможности дальнейшего упрощения модели с помощью преобразования, например, исследование на морских свинках вместо исследования на людях. б) Разработка методов исследования. Метод должен обеспечивать получение измерений (например, частот), свободных от систематических ошибок. с) Разработка статистической модели. План статистического анализа. Отчетливое формулирование модели, предположений, сделанных при построении модели, пар гипотез, а также риска I и, когда возможно, риска II. 4. Проверка стратегии. На основе предварительного рассмотрения и предварительных опытов перепроверка методов исследования и совместимости значений наблюдения со статистической моделью. 5. Окончательное установление и реализация стратегии. На основе пунктов 3 и 4: а) окончательно установить все важные моменты, например, методы исследования, объекты эксперимента, признаки и входные переменные, проверки, основы для заключений; обратить внимание на нуль-эффект, на исключение неконтролируемых переменных; объем выборки или число повторений, учитывая расходы на рабочую силу, приборы, материалы, время и т. д., во избежание больших потерь оставить тактический резерв, объем общей программы; окончательно сформулировать модель статистического анализа; подготовить специальные бланки для фиксации и анализа данных; б) провести исследования по возможности без изменений. Обработка данных и проверка гипотез. 6. Выводы и заключения а) Результат: проверка расчетов, представление результатов в форме таблиц и (или) графическое представление; б) Интерпретация. Указания об убедительности, практическом значении, перепроверяемости и области применения исследования. Критически оценить результаты проверки гипотез с учетом сделанных предположений и, когда это возможно и имеет смысл, сравнить с вы- 17 Зак. 930 513
водами других авторов. Требуется ли повторение исследования с менее упрощающими предположениями, с лучшими моделями, новой техникой и т. п.? Появились ли новые, полученные на основании данных, гипотезы, которые должны быть перепроверены в новых исследованиях? в) Отчет. Описание всей программы: пункты 1-^6 6, Пять дат в истории теории вероятностей и статистики 1654. Шевалье де Мере (de Mere) спросил Блеза Паскаля A623 — 1662), почему выгодно держать пари при игре в кости на появление шестерки в 4 бросаниях, но не выгодно, при игре в 2 кости, на появление двойной шестерки в 24 бросаниях. Об этом Паскаль написал Пьеру де Ферма A601 — 1665): обе вероятности равны соответственно 0,518 и 0,491. Вопрос об утверждениях, которые на основе полученных результатов игры позволяют судить о вероятностных закономерностях, лежащих в основе этой игры, т. е. вопрос о вероятности правильности моделей или гипотез, исследовал Томас Байес A702—1761). 1713—1718. Появление учебников теории вероятностей Якоба Бернулли A654—1705) «Ars Conjectandi» (opus posthumum, 1713) с понятиями стохастики, биномиального распределения и закона больших чисел и Абрахама де Муавра A667— 1754) «The Doctrine of Chances» A718) с предельным переходом от биномиального к нормальному распределению. 1812. Пьер Симон де Лаплас A749— 1827) — «Theorie Analyti- que des Probabilites», — первый обобщающий обзор теории вероятностей. 1901. Основание журнала «Biometrica» — точки кристаллизации англо-саксонской школы статистики Карла Пирсона A857— 1936), которому вместе с Рональдом Эймлером Фишером A890— 1962) обязаны своим появлением планирование эксперимента, дисперсионный анализ (в 1935 г. появилась книга «The Design of Experiments») и большое число статистических методов, которые в тридцатых годах Джерси Нейман и Эгон Пирсон дополнили доверительными интервалами и общей теорией проверки статистических гипотез. После аксиоматизации теории вероятностей A933) Андрей Николаевич Колмогоров с другими русскими математиками построил теорию стохастических процессов. 1950. Появление «Statistical Decision Functions» Абрахама Вальда A902— 1950), в которой приведены разработанные во время второй мировой войны рекомендации для поведения в неизвестных ситуациях (последовательный анализ можно понимать как стохастический процесс, получаемый в виде частного случая статистической теории решений). Статистические выводы понимаются как проблемы принятия решений. О будущем статистики писали Тьюки A962), Кендэл A968) и Уотте A968).
ЗАДАЧИ И УПРАЖНЕНИЯ К ГЛАВЕ 1 Теория вероятностей 1. Игральная кость брошена дважды. Чему равна вероятность того, что сумма будет равна 7 или 11? 2. Три орудия производят по одному выстрелу с вероятностью попадания, соответственно равной 0,1; 0,2 и 0,3. Чему равна общая вероятность попадания? 3. Соотношение полов среди новорожденных (мальчики/девочки), согласно многолетним наблюдениям 514 : 486. Появление светлых волос имеет относительную частоту 0,15. Чему равна относительная частота рождения светловолосых мальчиков? 4. Чему равна вероятность появления хотя бы одного результата, равного 6, при четырех бросаниях игральной кости? 5. При скольких бросаниях игральной кости следует ожидать хотя бы одного появления цифры 6 с вероятностью 50%? 6. Чему равна вероятность при бросании монеты получить подряд 5, 6, 7, 10 выпадений герба? Среднее значение и стандартное отклонение 7. Оцените среднее значение и стандартное отклонение распределения частот: х I 5 6 7 8 9 10 11 12 13 14 15 16 п | 10 9 94 318 253 153 92 40 26 4 0 1 8. Оцените среднее значение и стандартное отклонение по следующим 45 значениям: 40 66 69 80 88 43 64 69 82 90 43 64 69 82 90 46 66 71 82 91 46 66 75 82 91 46 67 75 82 92 54 67 76 83 95 56 68 76 84 102 59 68 78 86 127 17* 515
а) непосредственно; б) используя распределение на классы: от 40 до 44, от 45 до 59 и т. д.; в) от 40 до 49, от 50 до 59 и т. д. 9. Оцените медиану, среднее значение, стандартное отклонение, асимметрию 11 и эксцесс по выборочному распределению: 62, 49, 63, 80, 48, 67, 53, 70, 57, 55, 39, 60, 65, 56, 61, 37, 63, 58, 37, 74, 53, 27, 94, 61, 46, 63, 62, 58, 75, 69, 47, 71, 38, 61, 74, 62, 58, 64, 76, 56, 67, 45, 41, 38, 35, 40. 10. Постройте распределение частот и оцените среднее значение, медиану, моду, первый и третий квартиль, первый и девятый дециль, стандартное отклонение, асимметрию I -f- III, а также эксцесс: F-распределение 11. Дано F = 3,84 при числе степеней свободы, равном vx = 4 и v2 = =8. Найдите вероятность ошибки, соответствующую этому ^-значению. Биномиальные коэффициенты 12. Предположим, что 8 инсектицидов проверяются парами по своему действию на мушек. Сколько должно быть проведено опытов? 13. От определенной болезни умирает в среднем 10% пациентов. Чему равна вероятность того, что из 5 заболевших этой болезнью а) все выздоровеют, б) умрут точно трое, в) по меньшей мере трое умрут? 14. Чему равна вероятность того, что 5 наугад вынутых из колоды E2 карты) карт будут все иметь масть бубны? 15. Игральная кость брошена 12 раз. Чему равна вероятность того, что цифра 4 появится точно два раза? 16. Семинар посещают 13 суденток и 18 студентов. Сколько существует вариантов выбора комитета, состоящего из 2 студенток и 3 студентов? Биномиальное распределение 17. Чему равна вероятность пятикратного выпадания герба при 10 бросаниях монеты? 18. Вероятность прожить текущий год для тридцатилетних равна 0,99. Чему равна вероятность того, что из 10 тридцатилетних 9 проживут текущий год? 19. Чему равна вероятность того, что при 100 бросаниях игральной кости точно 25 раз появится цифра 6? 20. Двадцать дней недели выбраны по случайному принципу. Чему равна вероятность того, что 5 из них выпадут на определенный день недели, скажем, на воскресенье? 516 Границы классов 72,0-73,9 74,0—75,9 76,0-77,9 78,0—79,9 80,0-81,9 82,0—83,9 84,0—85,9 86,0-87,9 88,0—89,9 Итого Частота 7 31 42 54 33 24 22 8 4 225
21 • Предположим, что потоплены в среднем 33% участвующих в войне кораблей. Чему равна вероятность того, что из 6 кораблей а) точно 4, б) по меньшей мере 4 останутся непотопленными? 22. Монета брошена 100 раз. Чему равна вероятность того, что точно 50 раз выпадет герб? (Используйте формулу Стирлинга.) 23. Урна содержит 2 белых и 3 черных шара. Чему равна вероятность того, что из 50 вынутых с возвратом шаров окажется точно 20 белых? (Используйте формулу Стирлинга.) Распределение Пуассона 24. Голодная лягушка ловит в среднем 3 мухи в час* Чему равна вероятность того, что за час не будет поймано ни одной мухи? 25. Предположим, что вероятность поразить цель в каждом выстреле равна 0,002. Чему равна вероятность точно 5 попаданий, если всего произведено п = 1000 выстрелов? 26. Пусть вероятность появления брака на предприятии составляет р = 0,005. В ящик упаковано 200 изделий определенного типа. Чему равна вероятность того, что в ящике находится ровно 4 бракованных изделия? 27. В универсальном магазине очень редко спрашивают определенный вид товара, например, в среднем только 5 раз за неделю. Чему равна вероятность того, что в определенную неделю его спросят k раз? 28. Предположим, что 5% всех учащихся носят очки. Чему равна вероятность того, что в классе из 30 учеников не будет ни одного, будут 1, 2, 3 ученика, носящих очки? X ГЛАВЕ 2 На основании рисунков 33 -~ 37 составьте задачи и решите их, К ГЛАВЕ 3 К С помощью случайной процедуры из нормально распределенной генеральной совокупности отобрана выборка из 16 элементов с х = 41,5 ns = 2,795. , Имеются ли основания для отклонения нуль-гипотезы о том, что среднее значение генеральной совокупности равно 43 (а = 0,05)? 2. Проверьте с помощью ^-критерия равенство дисперсий выборок Л и В на 5%-ном уровне: А: В: 2 2 ,33 ,08 4 1 ,64 ,72 3 0 ,59 ,71 3 1 ,45 ,65 3 2 ,64 ,56 3 3 ,00 ,27 3 1 ,41 ,21 2 1 ,03 ,58 2 2 ,80 ,13 3 2 ,04 ,92 3. Проверьте на 5%-ном уровне равенство средних положений (Яо) двух независимых выборок А и В: а) с помощью «быстрого» критерия Тьюки и б) с помощью {/-критерия. А: В: 2 2 ,33 .08 4 1 ,64 ,72 3 0 ,59 Л 3 1 ,45 ,65 3 2 ,64 ,56 3 3 ,00 ,27 3 1 ,41 ,21 2 1 ,03 ,58 2 2 ,80 ,13 3,04 2,92 517
К ГЛАВЕ 4 I. Два снотворных А и В проверялись на одних и тех же больных, страдающих бессонницей (Стьюдент, 1908). При этом получились значения продолжительности сна в часах: Больные Л В Разность 1 1, 0, 1, 9 7 2 2 0 1 2 ,8 ,6 ,4 3 1 1 ,1 ,2 ,3 4 0 —1 1 ,1 ,2 ,3 5 —0 —0 0 ,1 ,1 ,0 6 4, з, 1, 4 4 0 7 5, 3, 1, 5 7 8 8 1, о, о, 6 8 8 9 4, 0, 4, 6 0 6 3 2 1 ю ,4 ,0 ,4 Имеется ли между А и В разница на 1 %-ном уровне? Сформулируйте нуль-гипотезу и проверьте ее а) по ^-критерию для разностей пар и б) по максимум-критерию. 2. Проверьте равенство средних положений (#0) двух независимых выборок А и В на 5%-ном уровне по следующим критериям для разностей пар: а) ^-критерию, б) критерию Уилкоксона, в) максимум-критерию: № А В 1 34 47 2 48 57 3 33 28 4 37 37 5 4 18 6 36 48 7 35 38 8 43 36 9 33 42 3. Грегор Мендель в своих опытах с горохом получил 315 круглых желтых, 108 круглых зеленых, 101 продолговатую желтую и 32 продолговатые зеленые горошины. Согласуются ли эти числа с теорией, по которой эти 4 частоты находятся в соотношении 9 : 3 : 3 : 1 (S = 95%)? 4. Представляет ли следующее распределение частот случайную выборку из пуассоновской генеральной совокупности с параметром Я = 10,44? Проверьте согласование на 5%-ном уровне с помощью %2-критерия. 1 Число событий 2 Наблюдаемые частоты 0 0 1 5 2 14 3 24 4 57 5 111 6 197 7 278 8 378 9 418 1 2 10 461 11 433 12 413 13 358 14 219 15 145 16 109 17 57 18 43 19 16 20 7 21 8 22 3 518
5. Пусть частоты четырехклеточной таблицы равны: а = 140, Ъ = 60, с = 85, d = 90. Проверьте независимость на 0,1 %-ном уровне, 6. Пусть частоты четырехклеточной таблицы равны: а = 605, Ь = 135, с = 195, d = 65. Проверьте независимость на 5%-ном уровне. 7. Пусть частоты четырехклеточной таблицы равны: а — 620, Ъ = 380, с = 550, d = 450. Проверьте независимость на 1%-ном уровне. К ГЛАВЕ 5 1. Проверьте значимость г = 0,5 на 5%-ном уровне (п = 16). 2. Чему должно быть равно г, чтобы быть значимым на 5%-ном уровне при п = 16? 3. Оцените прямую регрессии и коэффициент корреляции для следующих пар значений: X У 22 10 24 20 26 20 26 24 27 22 27 24 28 27 28' 24 29 21 30 25 30 29 30 32 31 27 32 27 33 30 34 27 35 30 35 31 36 30 37 32 Отличается ли значимо от нуля коэффициент корреляции на 0,1%- ном уровне? 4. Пусть дано следующее двумерное распределение частот: У \ 52 57 62 67 72 77 82 87 Итого 42 3 9 10 4 26 47 9 26 38 20 4 97 52 19 37 74 59 30 . 7 226 57 4 25 45 96 54 18 2 244 62 6 19 54 74 31 5 189 67 6 23 43 50 13 2 137 72 7 9 19 15 5 55 77 5 8 8 21 82. 3 2 5 Итого 35 103 192 263 214 130 46 17 1000 Оцените коэффициент корреляции, стандартные отклонения sXj sy> sxy> прямую регрессии у от х и корреляционное отношение» Проверьте корреляцию и линейность регрессии (а = 0,05). 5. Коэффициент корреляции, вычисленный на основании 19 пар наблюдений, равен 0,65. а) Может ли эта выборка принадлежать генеральной совокупности с параметром р = 0,35 (а = 0,05)?
б) Оцените на основании выборки 95-ный доверительный интервал для р. в) Могут ли две выборки по 19 наблюдений каждая принадлежать к одной генеральной совокупности, если рассчитанный коэффициент корреляции равен г = 0,30 (а = 0,05)? 6. Аппроксимируйте значения X У 0 125 функцией вида у ~ abx. 7. Аппроксимируйте X У 273 29,4 1 209 2 340 3 561 4 924 значения 283 33 функцией вида у — abx. 8. Аппроксимируйте X У ,3 288 i 35,2 293 37,2 5 1525 313 1 333 45,8 55 значения 19 3 58 7 114 13,2 140 17,9 .2 353 65,6 181 24,5 6 2512 373 77,3 229 33 функцией вида у = abx. 9. Аппроксимируйте следующие значения параболой второго порядка X У 7,5 1,9 10 4,5 12,5 10,1 15 17,6 17,5 27,8 20 40,8 22,5 56,9 10. Аппроксимируйте следующие значения параболой второго порядка: X У 1,0 1,1 1,5 1,3 2.0 1,6 2.5 2,3 3.0 2.7 3,5 3,4 4,0 4,1 620
11. Аппроксимируйте значения X У 1273 29,4 283 33,3 288 35,2 293 37,2 313 45,8 333 55,2 353 65,6 373 77,3 функциями вида у = abx и у = а + Ьх + сх2. К ГЛАВЕ 6 U Проверьте 2 • 6-клетрчную таблицу 13 2 10 4 10 9 5 8 7 14 0 7 на однородность (а = 0,01). 2. Проверьте на независимость и симметричность таблицу сопряженности признаков на 1%-ном уровне. 102 128 161 41 38 28 57 36 11 3. Проверьте однородность этой таблицы на 5%-ном уровне. 23 20 22 26 5 13 20 26 12 10 17 29 4. Проверьте, могут ли два выборочных распределения I и II принадлежать одной и той же генеральной совокупности (S — 95%)• Примените а) формулу Брандта ¦— Снедекора для проверки'оддарод- ности двух выборок и б) информационную статистику 2/ для проверки однородности k • 2-клеточной таблицы с двумя входами, 521
Категория 1 2 3 4 5 6 7 8 9 10 11 12 Итого Частоты I 160 137 106 74 35 29 28 29 19 6 8 13 644 П 150 142 125 89 39 30 35 41 22 11 11 4 699 Итого 310 279 231 163 74 59 63 70 41 17 19 17 1343 К ГЛАВЕ 7 1. Проверьте на 5%-ном уровне однородность следующих трех дисперсий: s\ = 76,84 (пА = 45), s% = 58,57 (пв = 82), sh = = 79,64 (пс = 14). 2. Проверьте три независимые выборки Л, В, С на равенство средних значений (а =0,05) а) с помощью дисперсионного анализа, б) с помощью Я-критерия А: 40 34 84 46 47 60 В: 59 92 117 86 60 67 95 40 98 108 С: 92 93 40 100 92 3. Дано: N. в А >ч Лг А2 Ав А, Аь 2 Вг 9,5 9,6 12,4 11,5 13,7 56,7 в2 11,5 12,0 12,5 14,0 14,2 64,2 ?з 11,0 11,1 11,4 12,3 14,3 60,1 в* 12,0 10,8 13,2 14,0 14,6 64,6 Въ 9,3 9,7 10,4 9,5 12,0 50,9 В6 11,5 11,4 13,1 14,0 13,2 63,2 2 64,8 64,6 73,0 75,3 82,0 359,7 Проверьте возможные эффекты по столбцам и по строкам на 1 % - ном уровне. - 522
4. Три метода анализа сравнивались на 10 пробах* Проверьте с помощью критерия Фридмана а) «равенство» методов (а = 0,001), б) «равенство» проб (а = 0,05). Проба 1 2 3 4 5 6 7 8 9 10 Метод анализа А 15 22 44 75 34 15 66 56 39 30 в 18 25 43 80 33 16 64 57 40 34 С 9 20 25 58 31 11 45 40 27 21
ОТВЕТЫ И РЕШЕНИЯ К ГЛАВЕ 1 Теория вероятностей 1. Сумма 7 может быть получена шестью различными способами, сумма 11 — только двумя, следовательно: Р=—+ — = —= 0,222. 36 36 9 2. Общая вероятность попадания равна примерно 50%. Р (А + В + С) = Р (А) + Р (В) + Р (С) — Р {АВ) — Р (АС) — — Р (ВС) + Р (ABC) Р (А + В + С) = 0,1 + 0,2 + 0,3 — 0,02 — 0,03 — 0,06 + 0,006 = = 0,496. 3. Р = 0,514 . 0,15 = 0,0771. Следует ожидать, что примерно 8% всех новорожденных будут мальчиками-блондинами . 4. 1 — E/6L = 0,5177. В длинной серии бросаний игральной кости следует ожидать, что примерно 52% всех случаев будут иметь этот результат, lg2 5. Р ^(i-Y^l/2; n- lg V6/ l Ig6— «4. 185 0,7782-0,6990| 6. Вероятности равны: A/2M, A/2N, A/2O, A/2I0 или, округленно: 0,031, 0,016, 0,008, 0,001. Среднее значение и стандартное отклонение 7. * = 9,015 s= 1,543 8* а: х = 73,2 s = 17,3 ~ б: х = 73,2 s = 17,5 в: х = 73,2 s = 18,0 С увеличением размера класса возрастает и стандартное отклонение (см. поправку Шеппарда). 9, Статистики Грубые оценки ?= 59,5 1с ~ 56,3 Асимметрия II = — 0,214 х = 57,3 s = 14,1 Эксцесс = 0,250 s = 13,6 524
10. х = 79,608 Асимметрия I = — 2,07 • s = 3,675 Асимметрия II = 0,163 x = 79,15 Асимметрия III = 0,117 Qi - 76,82 DZX = 74,95 Эксцесс = 0,263 Q3 = 82,10 DZ9 = 84,99 Мода = 78,68 F-распределение ( 2 \ 1/3 * / 2 \ 11. ?= ' +9'8 ^ f 4 ' 9'ii-= 1,894, т. e. Pz =0,0291 9 о w .3 842/З 1 ?_ 9-8 ' 9-4 и, следовательно, P ^ 0,058. Для vx = 4 и v2 = 8, Точная 5%-ная граница равна 3,8378. Биномиальные коэффициенты 12. р = 8Са=-^ =±1=28. 8 2 6!-2! 2 13. а) Р = 0,905 = 0,59049. б) 5С3 = 5!/C! • 2!) = 5 • 4/2 • 1 = 10, Р = 10 • 0,902 • 0,Ю3 = 0,00810. R\ С — 1 А- Г1 — S* Р = 0,00810 + 0,00045 + 0,00001 = 0,00856. ,4. р_ ^1зСЁ_= isb^Ti^i = jsj^bio^=_зз_ = 0>0004952 Ъ2С& 8!-5!-52! 52- 51-50.49.48 66640 Р ~ 0,0005, или 1/2000. 15. Для выбора двух из 12 объектов имеется 12С2 = 121/A01 • 2!)= = 12 * 11/B • 1) возможностей. Вероятность получить две четверки и десять не четверок равна A/6J . E/6I0 = 510/612: Вероятность появления точно двух четверок при 12 бросаниях равна: Р= 2-1.6" б11 В длинной серии по 12 бросаний игральной кости следует ожидать, что примерно в 30% всех серий будет содержаться точно по две четверки. 16. Ответ равен произведению возможнрстей выбрать представителей обоих полов, т. е. P = x3Cal8C3=-^-.-i^ = iHg., »•"•" =13.18.17.16=- 13 2 18 3 И| 2, 15, 3| 2 j 3 2 j = 63648. 525
17 Р = С ( 1 )Ъ( 1 У*— 10! * = 10>9>8'7<6 * = 10 5\ 2 J V 2 У 5!-5! #210 ~ 5-4.3.2.1 ' 1024 ""' 252 1024 р = 0,2461. В длинной серии по 10 бросаний примерно в 25% случаев следует ожидать этого события. 18. Р = 10С9 . 0,999 • 0,01х = 10 • 0,9135 . 0,01 = 0,09135. /100\ / 1\25/5\75 19. Р = ^J у-) y-J = 0,0098, В длинной серии бросаний игральной кости этого события следует ожидать примерно в 1 % всех случаев. 20. Р(Х =5) д-»ЦА\цШ'в»-ГС-Ц-'"в^= 0,0914. V ' 15!-Б! V 7 ) \ 7 ) 5-4-3.21 7»« 21. а) /) = 6С4-0,674-0,ЗЗа= 15-0,2015.0,1089 = 0,3292 б) Р = 2 вС4'0,67^0,336-^= 0,3292 +6-0,1350-0,33 + + 0,0905 = 0,6870. 94 Р Г /2\2О/Зуо 501 ( 2 \20 / 3 \зо По формуле Стирлинга: р_ 1/2я50.505°.е-5°.2020. У5.5060-Ю5о.220-Ззо _ уе ==003g4 Распределение Пуассона 25. X = п • р = 1000 • 0,002 = 2, P = i!^±. = -*?! =0.0361. jcI 51 26. Я, = п - р = 200 » 0,005 = 1, л;! 4! 24 27. Р(^5) = ^1. 526
28. Я = л-р = 30-0,05=1,5, Р = ^Ц^ Ни одного: Р= 1'5°'g~1'5 =0,2231 Один: Р = 1'51^~''5 = 0,3346. Двое: Р = 1'5а'е~1'5 = 0,2509. 2! Трое: Р= 1'53е'5 =0,1254. 3! К ГЛАВЕ 3 1. Да: ?=И^^З|_.У1б = 2,15>Лб; o.ie =2,13. Z, 7 Уэ *.>--4—^-М*<Л...м. = 3,18. 3. а) Г = 10 > 7; Яо отклоняется на 5%-ном уровне, б) ?/= 12 < ?/ю; ю; 0,05 = 27; Яо также отклоняется. К ГЛАВЕ 4 1. a)If = 4,06 > /9; о,о1 = 3,25. Нуль-гипотеза — одинаковая эффективность снотворных А и В — отклоняется; необходимо принять гипотезу о том, что А эффективнее, чем В. б) Решение такое же, как ива). 2. a) t = 2,03 < г8; о,о5 = 2,31. . б) Rp = 7> R8; o.io = 6. в) Разница значима лишь на 10% -ном уровне, поэтому во всех трех случаях #0 принимается. 3. Да:х2 = 0,47 <xl; о,о5 = 7,815. 4. Нет: ? =л43,43 > х!о;о,о5 = 31,4. 5. Так как %2 = 17,86 > х?; 0,001 = 10,83, гипотеза о независимости отклоняется. 6. Так как %2 = 5,49 > xf; 0.05 = 3,84, гипотеза о независимости отклоняется. 7« Так как %2 = 10,09 > xf;. 0,01 = 6,635, гипотеза о независимости отклоняется. К ГЛАВЕ 5 1. ?=2,16>fu; 0,05 = 2,14, F = 4,67 >FU 14; 0.05 = 4,60. 527
2. г». J?z?=4,60; r= 0,497. 3. у = 0,886л: — 0,57, х = 0,825 *у + 8,55, г = 0,855, t = 6,98 >/18;O,ooi = 3,92. 4. г = 0,6805, = 7,880; sy = 7,595; s^ = 40,725, , - 0,4705 ~ 0,47; Eyx = 0,686. OPP = 860,5 > Fi; 998; 0,05 — Fi; oo; 0,05 == 3,84. Коэффициент корреляции весьма значимо отличается от нуля. ^лин = 2»005 < F7; 991; 0,05 ^ F7; oo; 0,05 = 2,01, ТЭК КЗК ^?; шоо; 0,05 = 2,02, можно отклонение от линейности на 5%-ном уровне признать незначимым. 5. a) z = 1,639 < 1,96, да. б) 0,278 < р < 0,852. в) г = 1,159 < 1,96; да. 6. у = 125 • 1,649*. 7. у = 44,603 • 1,049*. 8. у = 0,119 • ^.°3. 9. у = 0,2093 х2 — 2,633* + 10. Ю. у = 0,778 + 0,557л: + 0,1857 х2. U. у = 44,603 • 1,049*, у = 0,0014725 х2 — 0,474 х + 49,548. К ГЛАВЕ 6 1. Так как %2 = 20,7082 (или 2/корр = 23,4935) больше, чем Хб; о,о1 = 15,086, гипотеза об однородности отклоняется. 2. Так как %|ез = 48,8 > xl; o,oi = 13,3, гипотеза о независимости должна быть отклонена. Так как х?им = 135, 97>х1; oPoi = 11,345, гипотеза о симметрии также должна быть отклонена. 3. Так как %2 = 10,88 < %l; o,os = 12,59, гипотеза об однородности сохраняется. 4. а)з?= 11,12, б) 2/= 11,39. В обоих случаях значение %ii; o.os = 19,675 не достигается, поэтому нет оснований для отклонения гипотезы об однородности. К ГЛАВЕ 7 1. х2 = 1»33 < xi; oto5 = 5,99 (с еще не учтено). Дальнейшие расчеты можно не проводить; Яо сохраняется. 528
2. a) F = 4,197 > F2- i8; 0.05 = 3,55. 6) H = 6,423 > xSs o,o5 = 5,99. 3. Разброс Между А i-мк Между В i-ми Ошибка эксперимента Общий разброс Сумма квадратов отклонений 36,41 28,55 9,53 74,49 Число степеней свободы 4 5 20 29 Средний квадрат 9,102 5,710 0,476 * Чох 19,12>4,43 12,00>4,10 Следует рекомендовать множественное сравнение средних значений по строкам и по столбцам на 1 %-ном уровне по Шеффё и по Стьюден- ту — Нейману—Кёильсу (ср. ?>/, ср. по стр. =1,80 и ?>/, ср. по столб. = = 1,84). 4.а) %% = 15,8 > %%. о,оо1 = 13,82. б) x! = 26,0>Xg; o.oi = 21,67.
БИБЛИОГРАФИЯ 1. Некоторые учебники для дальнейшего чтения Menges G. Grundrifi der Statistik. 3. Bande (Westdeutscher Verlag, Bd. 1: 352 S.). Koln und Opladen, 1968. Morgenstern D. Einfuhrung in die Wahrscheinlichkeitsrechnung und Mathe- matische Statistik. 2. Aufl. (Springer, 249 S.). Berlin, Heidelberg, New York, 1968. Stange K. Angewandte Statistik. Teil I: Eindimensionale Probleme. Teil II. Mehr- dimensionale Probleme. (Springer, 592 und 505 S.). Berlin, Heidelberg, New York, 1970, 1971. Waerden B. L. van der. Mathematische Statistik. 3. Aufl. (Springer, 360 S.). Berlin, Heidelberg, New York, 1971. Русск. перев. с изд. 1957 г.: Ван дер В а р- д е н Б. Л. Математическая статистика. М., ИЛ, 1960. Weber Erna. Grundrifi der Biologischen Statistik. Anwendungen der mathemati- schen Statistik in Naturwissenschaft und Technik. 6. neubearb. Aufl. (Fischer; 674 S.). Stuttgart, 1967. В liss С I. Statistics in Biology. Vol. 1—3 (McGraw-Hill; Vol. 1, 2, pp. 558, 639). New York, 1967, 1970. С h о u Y.-L. Statistical Analysis with Business and Economic Applications (Holt, Rinehart and Winston, p. 794). New York, 1969. Cohen J. Statistical Power Analysis for the Behavioral Sciences (Academic Press, pp. 416). New York, 1969. D a g n e 1 i e P. Theorie et Methodes Statistiques. Applications Agronomiques. Vol. 1, 2 (Duculot; pp. 378, 451). Gembloux, Belgien, 1969, 1970. Dixon W. J. and F. J. M a s sey Jr. Introduction to Statistical Analysis. 3rd ed. (McGraw-Hill, pp. 638). New York, 1969. E i s e n M. Introduction to Mathematical Probability Theory (Prentice-Hall; pp. 496). Englewood Cliffs N. J. 1969. Feller W. An Introduction to Probability Theory and Its Applications. Vol. 1, 3rd ed., Vol. 2, 2nd ed. (Wiley, pp. 496 and 688). New York, 1968 and 1971. 2-е русск. изд.: Ф е л л е р В. Введение в теорию вероятностей и ее приложения. Т. 1. М., «Мир», 1967. Русск. перев. с изд. 1966 г.: Феллер В. Введение в теорию вероятностей и ее приложения. Т. 2. М., «Мир», 1967. Johnson N. L. and S. Kotz Distributions in Statistics. Discrete Distributions (Houghton Mifflin, pp. 328). Boston, 1969 A971/72 erscheinen Continuous Univa- riate Distributions, I und II). Johnson N. L. and F. C. Leone. Statistics and Experimental Design in Engineering and the Physical Sciences. Vol. I and II (Wiley, pp. 523 and 399). New York, 1964. Keeping E. S. Introduction to Statistical Inference (Van Nostrand, pp. 451). Princeton N. J., 1962. Kendall M. G. and A. Stuart. The Advanced Theory of Statistics. Vol. 1, 3rd ed., Vol. 2, 2nd ed., Vol. 3 (Griffin, pp. 439, 690, 552). London, 1969, 1967, 1966. Кендалл М., Стьюарт А. Теория распределения. М., «Наука», 1966. Кендалл М., Стьюарт А. Статистические выводы и связи. М., «Наука», 1973. Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. М., «Наука», 1976. 530
Krishnaiah P. R. (Ed.) Multivariate Analysis and Multivariate Analysis II (Academic Press; pp. 592 and 696). New York and London, 1966 and 1969. Lindgren B. W. Statistical Theory. 2nd ed. (Macmillan and Collier-Macmillan, pp. 521). New York and London, 1968. Mendenhall W. Introduction to Linear Models and the Design and Analysis of Experiments (Wadsworth Publ. Сотр., pp. 465). Belmont Calif, 1968. Мог an P. An Introduction To Probability Theory (Clarendon Press; pp. 542). Oxford, 1968. Ostle B. Statistics in Research. 2nd ed. (Iowa Univ. Press, pp. 585). Ames, Iowa, 1963. Puri M. L. Nonparametric Techniques in Statistical Inference. Proc. 1. Internat. Sump. Nonparametric Techniques, Indiana University June 1969 (University Press, pp. 623). Cambridge, 1970. Rahman N. A. A Course in Theoretical Statistics (Griffin; pp. 542). London, 1968. R а о С. R. Linear Statistical Inference and Its Applications (Wiley, pp. 522). New York, 1965. P а о С. Р. Линейные статистические методы и их применения. М., «Наука», 1968. Schlaifer R. Analysis of Decisions under Uncertainty (McGraw-Hill; pp. 729). New York, 1969. Snedecor G. W. and Cochran W. G. Statistical Methods (Iowa State Univ. Press., pp. 593). Ames Iowa, 1967. S о k a 1 R. R. and R о h 1 f F. J. Biometry. The Principles and Practice of Statistics in Biological Research (Freeman; pp. 776). San Francisco, 1969. Rohlf F. J. and Sokal R. R.: Statistical Tables (Freeman; pp. 253). San Fran- Cisco, 1969. Walsh J. E. Handbook of Nonparametric Statistics, I, II, III (Van Nostrand, pp. 549, 686, 747). Princeton N. J., 1962, 1965, 1968. Wilks S. S. Mathematical Statistics. Bnd Printing with Corrections) (Wiley, pp. 644). New York, 1963. Русск. перев. с 1-го изд.: Уилкс С* Математическая статистика. М., «Наука», 1967. Yamane T. Statistics; An Introductory Analysis. Problems. 2nd. ed. (Harper and Row; pp. 919 and 122). New York, 1967. Отметим, что этот выбор субъективен и должен рассматриваться читателем исключительно как краткая справка. Специальная литература указана в разделе 8. Дополнение: Сборники формул с численными примерами Sachs L. Statistische Methoden. Ein Soforthelfer. (Springer, 103 S.). Berlin, Heidelberg, New York, 1970. S t a n g e K. und H e n n i n g H.-J. Formeln und Tabellen der mathematischen Statistik. 2. vollig neu bearb. Aufl. (des Buches von Graf, Henning und Stange; Springer, 362 S.) Berlin-Heidelberg-New York, 1966. Lambe C. G. Statistical Methods and Formulae. Mit einem Tafelanhang von G. R. Braithwaite and С О. D. Titus: Lanchester Short Statistical Tables (English Universities Press, pp. 164 and 17). London, 1967. Moore P. G. and Edwards D. E. Standard Statistical Calculations (Pitman, pp. 115). London, 1965. 2. Важнейшие таблицы Documenta Geigy Wissenschaftliche Tabellen. 7. Aufl. (Geigy AG, S. 9—199). Basel, 1968. К о 11 e r S. Neue graphische Tafeln zur Beurteilung statistischer Zahlen. 4. neu- bearb. Aufl. d. Graph. Tafeln (Dr. Steinkopff, 167 S.). Darmstadt, 1969. Wetzel W., Johnk M.-D. und Naeve P. Statistische Tabellen (de Gruyter, 168 S.). Berlin, 1967. Abramowitz M. and Stegun Irene A. (Eds.) Handbook of Mathematical Functions with Formulas, Graphs and Mathematical Tables (National Bureau of Standards Applied Mathematics Series 55, U.S. Government Printing Office; p. 1046). Washington, 1964 (auf weitere Tafeln wird hingewiesen) G. printing, with corrections, Dover, N. Y., 1968). 531
Beyer W. H. (ed.) CRC Handbook of Tables for Probability and Statistics (The Chemical Rubber Co., p. 502). Cleveland, Ohio, 1966 Bnd ed., p. 642, 1968). Fisher R. A. and Yates F. Statistical Tables for Biological, Agricultural and Medical Research. 6th ed. (Oliver and Boyd, p. 146). Edinburgh and London, 1963. Harter H. L. Order Statistics and their Use in Testing and Estimation. Vol. 1: Tests Based on Range and Studentized Range of Samples from a Normal Population. Vol. 2: Estimates Based on Order Statistics of Samples from Various Po* pulations (ARL, USAF; U.S. Government Printing Office; pp. 761 and 805). Washington, 1970. HarterH. L. andOwenD. B. (Eds.) Selected Tables in Mthematical Statistics. Vol. I (Markham, pp. 405). Chicago, 1970. Owen D. B. Handbook of Statistical Tables. (Addison-Wesley, p. 580). Reading, Mass. 1962. (Errata: Mathematics of Computation 18, 87; Mathematical Reviews 28, 4608). Оуэн Д. Б. Сборник статистических таблиц. М., ВЦ АН СССР, 1966. Pearson E. S. and Hartley H. О. (Eds.) Biometrika Tables for Statisticians. Vol. I, 3rd ed. (Univ. Press, pp. 264). Cambridge, 1966. Pillai К. С S. Statistical Tables for Tests of Multivariate Hypotheses (The Statistical Center, University of the Philippines, p. 46). Manila, 1960. R а о С R., M i t r a S. K. and M a 11 h a i A. (Eds.) Formulae and Tables for Statistical Work (Statistical Publishing Society, p. 234). Calcutta, 1966 (auf weitere Tafeln wird hingewiesen). В разделе 5.1. на с. 534 названы еще некоторые источники математико-стати- стических таблиц. 3. Словари и адресные книги l.VEB Deutscher Landwirtschaftsverlag Berlin, H. G. Zschommler (Hrsg.): Bio- metrisches Worterbuch. Erlauterndes biometrisches Worterbuch in 2 Banden (VEB Deutscher Landwirtschaftsverlag, insges. 1047 S.). Berlin, 1968. Содержание: 1. Enzyklopadische Erlauterungen B712 Stichworter; 795 S.). 2. Fremdsprachige Register (franzosisch, eglisch, polnisch, ungarisch, tschechisch, russisch; 240 S.), 3. Empfehlungen fur eine einheitliche Symbolik (9 S.). 2. M u 11 e r P. H. (Hrsg.) Lexikon, Wahrscheinlichkeitsrechnung und mathemati- sche Statistik. (Akademie-Vlg, 278 S.). Berlin, 1970. 3. К e n d a 11 M. G. and BucklandA. A Dictionary of Statistical Terms. 2nd ed. (Oliver and Boyd, pp. 575). Edinburgh and London 1960 (u. a. mit einem deutsch-englischen und einem englisch-deutschen Worterverzeichnis) Crd ed. 1971). 4.Freund J. E. and Williams F. Dictionary/Outline of Basic Statistics (McGraw-Hill, p. 195). New York, 1966. 5.Morice E. et Bertrand M. Dictionnaire de statistique (Dunod, p. 208). Paris, 1968. Адреса авторов большинства цитированных литературных источников, как и других статистиков, можно отыскать в следующих адресных книгах: l.Mathematik. Institute, Lehrstuhle, Professoren, Dozenten mit Anschriften sowie Fernsprechanschlussen. In Verbindung mit der Deutsche Mathematiker-Vereini- gung herausgegeben vom Mathematischen Forschungsinstiv.ut Oberwolfach, 762 Oberwolfach-Walke, Lorenzenhof, 1968. 2. World Directory of Mathematicians 1970. International Mathematical Union. (Almqvist and Wiksell, p. 400). Stockholm, 1970. 3. The Biometric Society, 1971 Membership Directory. Edited by L. A. Nelson, Rebecca H. Cohen and A. J. Barr, Institute of Statistics, Raleigh, N. C, USA. 4. Directory of Statisticians 1970. American Statistical Association, 806, 15th Street, N. W., Washington (D. C. 20005), 1971. 5. Who Is Publishing In Science. International Directory of Research and Development Scientists, Institute for Scientific Information, 325 Chestnut Str., Philadelphia, Pennsylvania 19106, USA, 1971. 6. World Who's Who in Science. A Biographical Dictionary of Notable Scientists from Antiquity to the Present Edited by A. G. Debus (Marquis Who's Who, pp. 1850). Chicago, 1968. 532
7. Turkevich J. and Turkevich Ludmilla B. Prominent Scientists of Continental Europe (Elsevier, pp. 204). Amsterdam, 1968. 8. Williams T. I. (Ed., assisted by Sonia Withers): A Biographical Dictionary of Scientists (Black, p. 592). London, 1969. 9. Harvey A. P. Directory of Scientific Directories. A World Guide to Scientific Directories Including Medicine, Agriculture, Engineering, Manufacturing and Industrial Directories. (Hodgson, p. 272). Guernsey, Channel Islands, 1969. 4. Библиотеки программ Некоторые данные для грубой ориентировки читателей. В случае надобности следует обращаться в вычислительные центры, имеющиеся в каждом университетском городе. 4.1. Журналы 1. Журнал „The British Journal of Mathematical and Statistical Psychology", herausgegeben von der British Psychological Society, London, enthalt regelmafiig (z. B. 20 ifMay 1967], 125—128) 300—500 Worter umfassende Kurzfassungen wichtiger Computer-Programme (Program Abstracts of standard mathematical , or statistical operations) mit den Abschmtten: description; computer (s), language (s) and configuration; data format or input, options and output; computing times; availability and reference(s). 2. Eine entsprechende Serie in den Programm-Sprachen Fortran IV, Algol 60 und PL/1 bringt die Zeitschrift „Applied Statistics" (z. B. 17 A968), 175—199) (vgl. auch 16 A967), 87—151). 3. Programmoteca in der Zeitschrift „Applicazioni bio-mediche del calcolo elettroni- co" (Universita di Milano) (z. B. 2 A967), 23—26, 87—96, 145—156, 210—224). 4. Computer Procedures: Multivariate Analysis, in „Review of Educational Research" (z. B. 36 A966) 613—617 (E. M. Cramer and R. D. Bock)). 5. Statistical Algorithms, in: Statistical Theory and Method Abstracts. Beginnend mit Vol. 10, S. IX und X, 1969. ?. Computer Programs in Biomedicine. (c Jan. 1970); Uppsala University Data Center. (Editors: W. Schneider u. G. Pettersson), North Holland Publ. Co., Amsterdam. 7. International Computer Programs, Inc., 2511 East, 46th Street, Indianopoiis, Ind. 46205, USA, gibt einen Informationsdienst uber Computerprogramme heraus. 8. Computer Programs, in Journal of Quality Technology (z. B. 3 '[Jan. 1971], 38—41). $. Computer Programs in Science and Technology, (c Juli 1971). Science Associates/International, Inc., New York 10010, USA. 4.2. Книги 3L Dixon W. J. (Ed.) BMD Biomedical Computer Programs. 1967 Revision supervised by L. Engelmann. (University of California Press, pp. 600) Berkeley and Los Angeles 1967 (Programs in Fortran IV) (Auskunfte und Literaturhinweise: BMD Programs Coordinator, Health Sci. Сотр. Facility, AV—111 Health Sci. Bldg., Univ. of Calif., Los Angeles, Calif. 90024) X-Series Suppl. (Univ. of Calif. Press, pp. 260). Berkeley. 2. Hem merle. W. J. Statistical Computations on a Digital Computer (Blais-dell, pp. 230). Waitham, Mass, and London, 1967 (in Fortran). 3. H о р е К. Methods of Multivariate Analysis with Handbook of Multivariate Methods programmed in Atlas Autocode (Univ. of London Press, pp. 288). London, 1968. 4. Omnitab Programming System for Statistical and Numerical Analysis (auch fur IBM 360—50 und —65 sowie Univac 1108): J. Hilsenrath u. Mitarb. (National Bureau of Standards Handbook No. 101, 1966; reissued with corrections January 1968); vgl. D. Jowett and R. L. Chamberlain, Biometrics 24 A968) 723—725. 5. R a 1 s t о n A. und W i 1 f H. S. Mathematische Methoden fur Digitalrechner. Ubers. v. B. Trmrig; mit 25 Algol-Programmen von H. Luttermann (Oldenbourg, 522 S.). Munchen—Wien, 1967 (insbes. Teil V, Statistik, S. 344/94). 533
4.3. Вычислительные центры l.Clyde D. J., Cramer E. M. and S her in R. J. Multivariate Statistical Programs (Fortran IV, IBM 1401 and 7040) (pp. 61) Biometric Laboratory, University of Miami, Coral Gables, Florida 33124, September, 1966. 2. Computer Programs in Statistical Analysis. Cosmic-Library, Barrow Hall (T), University of Georgia, Athens, Georgia 30601. 3. Cooper B. E. Statistical Fortran Programs (IBM 7030, 7090; ICT-Atlas) ACL/R2 Atlas Computer Laboratory (erhaltlich uber das H. M. Stationary Office, London). 4. Mathematischer Beratungs- und Programmierdienst, Rechenzentrum Rhein-Ruhr, Dortmund, Kleppingstr. 26. 5. Psychiatry Leeds University Standard (P. L. U. S.) System of Programs (fur KDF-9): M. Hamilton, R. J. McGuire and M. J. Goodman, Computing Dept. and Dept. of Psychiatry, Univ. Leeds, 15 Hyde Terrace, Leeds 2. 6. The Statistical Advisory Service, Institute of Computer Science, 43 Gordon Square, London WC 1. 7. Консультации даются также в немецком вычислительном центре. 5. Библиографии и рефераты 5.1. Математико-статистические таблицы Источник специальных математико-статистических таблиц: Greenwood J. A. and Hartley Н. О. Guide to Tables in Mathematical Statistics (University Press, p. 1014). Princeton, N. J., 1962. Обзор математических таблиц содержится в источниках: 1.F 1 etcher A., Miller J. С. P.. Ro se nh a ed L. and Comrie L, J. An Index of Mathematical Tables. 2nd ed. Vol. I and II (Blackwell; p. 608, p. 386). Oxford, 1962. 2. L e b e d e v A. V. and Fedorova R. M. (English edition prepared from the Russian by Fry, D. G.). A Guide to Mathematical Tables. Supplement No. 1 by N. M. Buronova (D. G. Fry, p. 190) (Pergamon Press, p. 586). Oxford, 1960 (z. Zt. ,[1971] keine weiteren Supplemente angekundigt). Лебедев А. В., Федорова Р. М. Справочник по математическим таблицам. М., АН СССР. 1956. 3. S с h u 11 e К.: Index mathematischer Tafelwerke und Tabellen aus alien Gebieten der Naturwissenschaften, 2. verb, und erw. Aufl. (Oldenbourg, 239 S.). Munchen und Wien, 1966. 4. Mathematical Tables and other Aids to Computation, published by the National Academy of Sciences (National Research Council, Baltimore, Md., 1 [1947] — 13 [1959]) bzw. Mathematics of Computations, published by the American Mathematical Society (Providence, R. I., 14 [I960] —25 [1971]). Важнейшие таблицы находятся также в: 1. Applied Mathematics Series. U.S. Govt. Printing Office bzw. National Bureau of Standards, U.S. Department of Commerce, Washington. 2. New Statistical Tables. Biometrika Office, University College, London. 3. Tracts for Computers. Cambridge University Press, London. 5.2. В журналах 1. Revue de Tinstitut de statistique (La Haye), Review of the international statistical institute (The Hague) (z. B. 34 [1966], 93—110). 2. Allgemeines Statistisches Archiv (z. B. 54 i[1970], 337—350). 3. Deming Lola S. und Mitarb.: Selected Bibliography of Literature, 1930 to 1957: in "Journal of Research of the National Bureau of Standards": I. Correlation and Regression Theory: 64B A960), 55—68. II. Time Series: 64B A960), 69—76. III. Limit Theorems: 64B A960), 175—192. IV. Markov Chains and Stochastic Processes: 65В A961), 61—93. V. Frequency Functions, Moments and Graduation: 66B A962), 15—28. 534
VI. Theory of Estimation and Testing of Hypotheses, Sampling Distribution and Theory of Sample Surveys: 66B A962), 109—151. Supplement, 1958—1960: 67B A963), 91—133; см. также: Haight F. A.: Index to the distributions of mathematical statistics 65B A961), 23—60. 4. Специальные библиографии для: инженеров: British Technology Index, published by The Library Association, London (z. B. 7 [June 1968], 122+123) und Technische Zuverlassig- keit in Einzeldarstellungen (seit 1964; Hrsg. A. Etzrodt; Oldenbourg, Munchen-Wien; z. B. Heft 10, Dezember 1967, S. 87—98); медиков: Analytical Chemistry (z. B. 40 ([1968], 376R-380R) sowie Journal of Industrial and Engineering Chemistry (z. B. 59 TFebr. 1967], 71-76); психологов: Index Medicus (siehe unter „Biometry", „Statistics" und „Biological Assay") Psychological Abstracts und Annual Review of Psychology (z. B. 19 [1968], 417—436) sowie Review of Educational Research (z. B. 36 i[1966], 604—617); биологов: Biological Abstracts (siehe unter Mathematical Biology and Statistical Methods); историков: Den Historiker werden die Artikelfolgen in Biometrika (z. B. 55 ([1968], 249+250) und The American Statistician (z. B. 25 [Febr. 1970], 25—28) sowie die weiter unten erwahnte Bibliographie von Lancaster A968, vgl. S. 1—29) interessieren. 5.3. Книги 1.Lancaster H. Bibliography of Statistical Bibliographies (Oliver and Boyd, pp. 103). Edinburgh and London, 1968 (mit den Hauptteilen: personal bibliographies, pp. 1—29, und subject bibliographies, pp. 31—65, sowie dem subject umi dem author index) (vgl.: a second list, Rev. Int. Stat. Inst. 37 [1969], 57—67, third list 38 ,[1970], 258—267, fourth list 39 i[1971], 64—73) sowie Problems in the bibliography of statistics. With discussion. J. Roy. Statist. Soc. A 133 A970), 409—441, 450—462 und Gani J.: On coping with new information in probability and statistics. With discussion. J. Roy. Statist. Soc. A 133 A970), 442—462 sowie Rubin E.: Developments in statistical bibliography, 1968—69. The American Statistician 24 (April 1970), 33+34. 2. В u с k 1 a n d W. R. and F о х R. A. Bibliography of Basis Texts and Monographs on Statistical Methods 1945—1960. 2nd ed. (Oliver and Boyd; pp. 297). Edinburgh and London, 1963. 3. К e n d a 11 M. G. and D о i g A. G. Bibliography of Statistical Literature, 3 vol. (Oliver and Boyd, pp. 356/190/297). Edinburgh and London, 1962/68 A) Pre-1940, With Supplements to B) and C), 1968; B) 1940—49, 1965; C) 1950—58, 1962. Diese Bibliographie (leider nur nach Autorennamen, jede Arbeit eines Bandes ist durch eine vierstellige Zahl charakterisiert, insgesamt sind 34082 Arbeiten erfafit) wird seit 1959 durch die Statistical Theory and Method Abstracts (Primarordnung nach 12 Sachgebieten mit jeweils 10—12 Unterbegriffen; jahrlich werden etwa 1000 bis 1200 Arbeiten referiert!) fortgefuhrt, die vom International Statistical Institute, 2 Oostduinlaan, Den Haag, Holland, herausgegeben werden. 4. Kellerer H. Bibliographie der seit 1928 in Buchform erschienenen deutsch- sprachigen Veroffentlichungen tiber theoretische Statistik und einige ihrer An- wendungsgebiete (Deutsche Statistische Gesellschaft, 143 S.) (Nr. 7a). Wiesbaden, 1969. Следует упомянуть специальные библиографии: М е n g e s G. (und Leiner, В.) (Hrsg.) Bibliographie zur statistischen Entscheb dungstheorie 1950—1967 (Westdeutscher Verlag. 41 S.). Koln und Opladen, 1968. P a t i 1 G. P., J о s h i S. W. and R а о С. R. A Dictionary and Bibliography of Discrete Distributions (Oliver and Boyd, pp. 268). Edinburgh, 1968. Sills D. L. (Ed.) International Encyclopedia of the Social Sciences. Vol 1—17 (Macmillan, pp. 550—600 [per Volume]). New York, 1968. 535
Библиографию по основам статистики дает L. J. Savage. Reading suggestions for foundations of statistics. The American Statistician 24 (Oct. 1970),. 23—27. Упомянем также: PritchardA. Statistical Bibliography. An Interim Bibliography. (North-Western Polytechnic, School of Librarianship, p. 69). London, 1969. Новейшие работы из 7 журналов за период вплоть до 1969 г. содержатся б-: Joiner В. L, Laubscher N. F., Brown Eleanor S. and Levy В. An Author and Permuted Title Index to Selected Statistical Journals (Nat. Bur. Stds. Special Publ. 321, U.S. Government Printing Office, p. 510). Washington, Sept., 1970. Полезна также: P ember t on J. E. How to Find out in Mathematics. 2nd ed. (Pergamon; p. 200). Oxford, 1970. 5.4. Реферативные журналы 1. Statistical Theory and Method Abstracts. International Statistical Institute, Oliver and Boyd, Tweeddale Court, 14 High Street, Edinburgh 1 (vgl. weiter oben). 2. International Journal of Abstracts on Statistical Methods in Industry. International Statistical Institute. Oliver and Boyd, Tweeddale Court, 14 High Street • Edinburgh 1. 3. Quality Control and Applied Statistics. Executive Sciences Institute, Whippany,, N. J., Interscience Publ. Inc., 250 Fifth Avenue, New York, N. Y., USA. Наряду с этим следует иметь в виду математические реферативные издания: Zentralblatt fur Mathematik, Mathematical Reviews und Bulletin Signaletique Ma- thematiques (последнее полезно не только из-за адресов авторов). 5.5. Доклады конгрессов Bulletin de Tlnstitut International de Statistique. Den Haag. Proceedings of the Berkeley Symposium on Mathematical Statistics and Probability:, Berkeley, California. 6. Некоторые журналы Allgemeines Statistisches Archiv, Organ der Deutschen Statistischen Gesellschaft, Wiesbaden, Rheinstrafie 35/37. Applied Statistics, A Journal of the Royal Statistical Society, Oliver and Boyd Ltd.,. London, 39A Welbeck Street. Biometrics, Journal of the Biometric Society, Department of Biostatistics, School of Public Health, University of North Carolina, Chapel Hill, N. С 27514, USA. Biometrics Business Office: P O. Box 5962, Raleigh, N. C. 27607, USA. Biometrika, The Biometrika Office, University College London, Gower Street, London W.C.1. Biometrische Zeitschrift, zugleich Organ der deutschen Region der internationalen? Biometrischen Gesellschaft. Institut fur Medizinische Statistik (und Dokumenta- tion) der Universitat Tubingen, Neue Aula. Industrial Quality Control, American Society for Quality Control, 161 West Wisconsin Avenue, Milwaukee 3, Wisconsin, USA. Bis Dezember 1967. Fortgesetzt durcb „Quality Progress" (monatlich ab Januar 1968) und „Journal of Quality Techno- legy" (Vierteljahresschrift ab 1969). Journal of Multivariate Analysis. Editor: P. R. Krishnaiah, ARL, Wright-Patterson AFB, Ohio 45433, USA (Academic Press). Beginn, 1971. Journal of the American Statistical Association, 810 18th St., N. W. Washington 6„ D. €., USA. Journal of Multivariate Analysis. Editor: P. R. Krishnaiah, ARL, Wright-Patterson gical), London, 21 Bentinck Street, London W. 1. Metrika, Internationale Zeitschrift fur theoretische und angewandte Statistik, hervor- gegangen aus den Zeitschriften: Mitteilungsblatt fur mathematische Statistik und Statistische Vierteljahresschrift. Institut fur Statistik and der Universitat Wieo, Wiea I, Universitatsstrafie 7, Osterreich. 536
Psychometrika, A Journal devoted to the Development of Psychology as a Quantitative Rational Science. Journal of the Psychometric Society, Department of Psychology, Purdue University, Lafayette, Indiana, USA. IRevue de l'lnstitut International de Statistique, Review of the International Statistical Institute. Permanent Office of the Institute, 2 Oostduinlaan, The Hague, Netherlands. Technometrics, A Journal of Statistics for the Physical, Chemical and Engineering Sciences; gemeinsam von der „American Society for Quality Control" und der „American Statistical Association" herausgegeben. P. О. В. 587 Benjamin Franklin Station, Washington 6, D. C, USA. The Annals of Mathematical Statistics, Institute of Mathematical Statistics, Stanford University, Calif., USA. Начинающие и совершенствующие свои знания могут получить много полезных сведений из трудов ежегодной технической конференции Американского общества по контролю качества (Annual Technical Conference Transactions of American Society for Quality Control), а также из журнала „Journal of Quality Technology" (прежде: „Industrial Quality Control"). Такие сведения подчас далеко выходят fca рамки проблемы контроля качества и включают общие вопросы статистики. Интересные статьи такого типа содержатся также в журнале „Die Zeitschrift Qualitatkontrolle", а с июля 1969 — „Qualitat und Zuverlassigkeit", который является органом немецкого кружка по статистическому контролю качества при комитете по экономике (Frankfurt). Благодаря успехам в издательском деле с 1964 г. увеличился выпуск монографий, что способствовало дальнейшему внедрению статистики. Следует рекомендовать особенно также обзор Tukey, который содержит список из 65 журналов, ориентированных на статистику и/или теорию вероятностей. В настоящее время рекомендации по единой терминологии в статистике разрабатывают комитеты по нормалям в Германии и США: DIN 55302, Blatt I und 2: Haufigkeitsverteilung, Mittelwert und Streuung. Entwurf Dezember 1963, Ausgabe Januar 1967 (Beuth-Vertrieb GmbH., Berlin 30 und Koln). Halperin M> (Chairman of the COPSS Committee on Symbols and Notation), Hartley H. O. and H о e 1 P. G. Recommended Standards for Statistical Symbols and Notation. The American Statistican 19 (June 1965), 12—14. 7. Источник вспомогательных средств Вероятностная бумага: Schleicher und Schull, Einbeck/Hannover; Schafers Feinpapiere, Plauen (Sa.), Bergstrafie 4; Rudolf Haufe Verlag, Freiburg i. Br.; Keuffel und Esser-Paragon GmbH., 2 Hamburg 22, Osterbekstrafie 43; Codex Book Company, Norwood, Mass., 74 Broadway, USA; Technical and Engineering Aids for Management. 104 Belsore Avenue, Lowell, Mass., USA. Статистические рабочие листки, контрольные карты, перфокарты и другие вспомогательные материалы: Arinc Research Corp., Washington 6, D. С, 1700 К Street, USA; Beuth-Vertrieb, 1 Berlin 30, Burggrafenstrafie 4—7 (Koln u. Frankfurt/M.); Lochkarten-Werk Schlitz, Haensel und Co. KG., Schlitz/Hessen; Arnold D. Moskowitz, Defense Industrial Supply Center, Philadelphia, Penns., Dyna-Slide Co., Chicago 5, 111., 600 S. Michigan Ave., USA; Recorder Charts Ltd., P. O. Box 774, Clyde Vale, London S. E. 23, England; Technical and Engineering Aids for Management. 104 Belrose Avenue, Lovell, Mass., USA; Howell Enterprizes, Ltd, 4140 West 63rd Street, Los Angeles, Cal. 90043, USA. 537
8. Литература к отдельным главам Введение и глава 1 Ackoff R. L. Scientific Method: Optimizing Applied Research Decisions. New York, 1962. A g e n о M. and F г о n t a 1 i C. Analysis of frequency distribution curves in over- lapping Gaussians. Nature 198 A963), 1294—1295. A i t с h i s о n J. and Brown J. A. C. The Lognormal Distribution. Cambridge, 1957. A11 u i s i E. A. Tables of binary logarithms, uncertainty functions, and binary log functions. Percept. Motor Skills 20 A965), 1005—1012. Anderson O. Probleme der statistischen Methodenlehre in den Sozialwissen- schaften, 4. Aufl. (Physica-Vlg., 358 S.). Wurzburg, 1963, Kapitel IV, Baade F. Dynamische Weltwirtschaft (List, 503 S.) Munchen 1969 (vgl. auch: Weltweiter Wohlstand. Stalling, 224 S., Oldenburg u. Hamburg 1970). В а с h i R. Graphical Rational Patterns. A New Approach to Graphical Presentation of Statistics, 1968. Barnard G. A. The Bayesian controversy in statistical inference. J. Institute Actuaries 93 A967), 229—269. Bartko J. J. A) Notes approximating the negative binomial. Technometrics 8 A966), 345—350 B) Letter to the Editor. Technometrics 9 A967), 347+348 (siehe auch S. 498). Bernard G. Optimale Strategien unter Ungewifiheit. Statistische Hefte 9 A968), 82—100. В e r t i n J. Semiology Graphique. Les Diagrammes — Les Reseau — Les Cartes (Gautier Villars, p. 431). Paris, 1967. BhattacharyaC. G. A simple method of resolution of a distribution into Gaussian components. Biometrics 23 A967), 115—135. Binder F. A) Die log-normale Haufigkeitsverteilung. Radex-Rundschau (Raden- theim, Karnten) 1962, Heft 2, S. 89—105. B) Die einseitig und beiderseitig beg- renzte lognormale Haufigkeitswerteilung. Radex-Rundschau (Radentheim, Karnten) 1963, Heft 3, S. 471—485. Bliss С I. A) Fitting the negative binomial distribution to biological data. Biometrics 9 A953), 176—196 and 199—200. B) The analysis of insect counts as negative binomial distributions. With discussion. Proc. Tenth Internat. Congr. Entomology 1956, 2 A958), 1015—1032. В 1 у t h C. R. and Hutchinson D. W. Table of Neyman-shortest unbiased confidence intervals for the binomial parameter. Biometrika 47 A960), 381—391. В о 1 с h R. W. More on unbiased estimation of the standard deviation. The American Statistician 22 (June 1968), 27. В о 11 s R. R. „Extreme value" methods simplified. Agric. Econom. Research 9 A957), 88—95. В oy d W. С A nomogram for chi-square. J. Amer. Statist. Assoc. 60 A965), 344^ 346 (vgl. 61 Ц966] 1246). Bradley J. V. Distribution-Free Statistical Tests. (Prentice-Hall; p. 388) Eng- lewood Cliffs, N. J. 1968, pp. 56/62. Bright J. R. (Ed.) Technological Forecasting for Industry and Government, Methods and Applications. (Prentice-Hall Int., p. 484). London, 1969. Bruckmann G. Schatzung von Wahlresultaten aus Teilergebnissen. (Arbeiten aus dem Institut fur Hohere Studien und Wissenschaftliche Forschung, Wien) (Physica-Vlg., 148 S.). Wien und Wurzburg, 1966. BruggerR. M. A note on unbiased estimation of the standard deviation. The American Statistician 23 (October 1969), 32. Buhlmann H., Loeffel H. und Nievergelt E. Einfuhrung in die Theorie und Praxis der Entscheidung bei Unsicherheit. Heft 1 der von M. Beckmann und H. P. Kunzi herausgegebenen Reihe: Lecture Notes in Operations Research and Mathematical Economics. Berlin-Heidelberg-New York 1967 A22 S) B Aufl. 1969, 125 S.). ' V Bunge M. Scientific Research. L The Search for System. II. The Search for Truth. Berlin, Heidelberg 1967. 538
В unt L. Das Testen einer Hypothese. Der Mathematikunterricht 8 A962), 90—108. С a 1 о t G. Signicatif ou non signicatif? Reflezions a propos de la theorie et de la pratique des tests statistiques. Revue de Statistique Appliquee 15 (No. 1, 1967), 7—69 (siehe auch 16 .[No. 3, 1968], 99—111). С e t г о n M. J. Technological Forecasting: A Practical Approach. (Gordon and Breach, p. 448). New York, 1969. Chernoff H. and Moses L. E. Elementary Decision Theory. New York, 1959. Чернов Г., Мозес Л. Е. Элементарная теория статистических решений. М., «Сов. радио», 1962. С h i s s о m В. S. Interpretation of the kurtosis statistic. The American Statistician 24 (Oct. 1970), 19—22. Clancey V. J. Statistical methods in chemical analysis. Nature 159 A947), 339—340. С 1 e a r у Т. A. and Linn R. L. Error of measurement and the power of a statistical test. Brit. J. Math. Statist. Psychol. 22 A969), 49—55. Cochran W. G. Note on an approximate formula for the significance levels of z. Ann. Math. Statist. 11 A940), 93—95. Cohen A. C. jr. A) On the solution of estimating equations for truncated and censored samples from normal populations. Biometrika 44 A957), 225—236. B) Simplified estimators for the normal distribution when samples are singly censored or truncated. Technometrics 1 A959), 217—237. C) Tables for maximum likelihood estimates: singly truncated and singly censored samples. Technometrics 3 A961), 535—541. Cohen J. Statistical Power Analysis for the Behavioral Sciences. (Academic Press, p. 416). New York, 1969. Cornfield J. A) Bayes theorem. Rev. Internat. Statist. Inst. 35 A967), 34—49. B) The Bayesian outlook and its application. With discussion. Biometrics 25 A969), 617—642 and 643—657. Cox D. R. A) Some simple approximate tests for Poisson variates. Biometrika 40 A953), 354—360. B) Some problems connected with statistical inference. Ann. Math. Statist. 29 A958), 357—372. С г a i g I. On the elementary treatment of index numbers. Applied Statistics 18 A969), 141—152. Grow E. L. and Gardner R. S. Confidence intervals for the expectation of a Poisson variable. Biometrika 46 A959), 441—453. Crowe W. R. Index Numbers, Theory and Applications. London, 1965. Daeves K. und Beckel A. GroBzahl-Methodik und Haufigkeits-Analyse, 2. Aufl. Weinheim/Bergstr. 1958. D'Agostino R. B. Linear estimation of the «normal distribution standard deviation. The American Statistician 24 (June 1970), 14+15. D a 1 e n i u s T. The mode — a neglected statistical parameter. J. Roy. Statist. Soc. A 128 A965), 110—117. D a r 1 i n g t о n R. B. Is kurtosis really "peakedness"? The American Statistician 24 (April 1970), 19—22 (vgl. auch 24 [Dec. 1970], 41). DavidFlorence N. Games, Gods and Cambling. New York, 1963. D а у N. E. Estimating the components of a mixture of normal distributions. Biometrika 56 A969), 463—474 (vgl. auch Technometrics 12 [1970], 823—833). Defense Systems Department, General Electric Company: Tables of the Individual and Cumulative Terms of Poisson Distribution. Princeton, N. J., 1962. D e L u г у D. B. and Chung J. H. Confidence Limits for the Hypergeometric Distribution. Toronto, 1950. Dickinson G. С Statistical Mapping and the Presentation of Statistics. (E. Arnold, p. 160). London, 1963. Dietz K. Epidemics and rumours: a survey. J. Roy. Statist. Soc. A 130 A967), 505-528. Documenta Geigy: Wissenschaftliche Tabellen. F. u.) 7. AufL, Basel A960 u.) 1968, S. 85—103, 107, 108, 128. Doodson A. T. Relation of the mode, median and mean in frequency curves. Biometrika 11 A917), 425—429. 539
D u b e y S. D. Graphical tests for discrete distributions. The American Statistician 20 (June 1966), 23 + 24. Edwards W. and T v e r s к у A. (Eds.) Decision Making: Selected Readings, (Penguin UPS8, pp. 413). Harmondsworth, Middlesex, 1967. Eiderton W. P. and Johnson N. L. Systems of Frequency Curves. (Cam* bridge University Press, pp. 214). Cambridge, 1969. Faulkner E. J. О new look at the probability of coincidence of birthdays in a? group. Mathematical Gazette 53 A969), 407—409 (vgl. auch 55 [1971], 70—72). Federighi E. C. Extended tables of the percentage points of Student's ^-distribution. J. Amer. Statist. Assoc. 54 A959), 683—688. Fenner G. Das GenauigkeitsmaB von Summen, Produkten und Quotienten der Beobachtungsreihen. Die Naturwissenschaften 19 A931), 310. Ferris C. D., Grubbs F. E. and Weaver C. L/Operating characteristics for the common statistical tests of significance. Ann. Math. Statist. 17 A946), 178—197. FinucanH. M. A note on kurtosis. J. Roy. Statist. Soc, Ser. В 26 A964)„ 111 + 112, p. 112. Fish M. Wahrscheinlichkeitsrechnung und mathematische Statistik. Dbers. a. d. Poln. Berlin, 1965, S. 196-203. \ Fishburn P. С A) Decision and Value Theory. New York, 1964. B) Decision under uncertainty: an introductory exposition. Industrial Engineering 17 (July 1966), 341—353. В сб.: Статистические измерения качественных характеристик. М., «Статистика», 1972, перевод гл. 4 данной книги: Фишберн П. К. Измерение относительных ценностей. Fisher R. А. A) The negative binomial distribution. Ann. Eugenics 11 A941),. 182—187. B) Theory of statistical estimation. Proc. Cambr. Phil. Soc. 22 A925), 700—725. C) Note on the efficient fitting of the negative binomial. Biometrics ? A953), 197—200. D) The Design of Experiments. 7th ed. Ast ed. 1935). Edinburgh, 1960, Chapter II. Flechtheim O. K. Futurologie. Der Kampf urn die Zukunft. (Vlg. Wissenschaft u. Politik, 432 S.). Koln, 1970. Freeman M. F. and Tukey J. W. Transformations related to the angular and the square root. Ann. Math. Statist. 21 A950), 607—611. Freudenberg K. Grundrifi der medizinischen Statistik. Stuttgart, 1962. Freudenthal H. und Steiner H.-G.: Aus der Geschichte der Wahrscheinlich- keitstheorie und der mathematischen Statistik. In H. Behnke, G. Bertram und R. Sauer (Herausgeb.): Grundzuge der Mathematik. Bd. IV: Praktische Metho- den und Anwendungen der Mathematik. Gottingen 1966, Kapitel 3, S. 149—195,, vgl. S. 168. G a d d u m J. Lognormal distribution. Nature 156 A945), 463—466. Garland L. H. Studies on the accuracy of diagnostic procedures. Amer. J. Roentg. 82 A959), 25—38 (insbesondere S. 28). Gebelein H. A) Logarithmische Normalverteilungen und ihre Anwendungen. Mitteilungsblatt f. math. Statistik 2 A950), 155—170. B) Einige Bemerkungen; und Erganzungen zum graphischen Verfahren von Mosteller und Tukey. MitteL- lungsbl. math. Stat. 5 A953), 125—142. Gebhardt F. (I) On the effect of stragglers on the risk of some mean estimators in small samples. Ann. Math. Statist. 37 A966), 441—450. B) Some numerical comparisons of several approximation to the binomial distribution. J. Amen Statist. Assoc. 64 A969), 1638—1646 (vgl. auch 66 [197L], 189—191). Gehan E. A. Note on the "Birthday Problem". The American Statistician 22 (April 1968), 28. GeppertMaria-Pia: Die Bedeutung statistischer Methoden fur die Beurteilung- biologischer Vorgange und medizinischer Erkenntnisse. Klin. Monatsblatter L Augenheilkunde 133 A958), 1—14. Gini C. Logic in statistics. Metron 19 A958), 1—77. G lick N. Hijacking planes to Cuba: an up-dated version of the birthday problem. The American Statistician 24 (Febr. 1970), 41—44. G о о d I. J. How random are random numbers? The American Statistician 23 (October 1969), 42—45. 540
Graui E. H. und Franke H. W. Die unbewaltigte Zukunit. (Kindler; 301 S.), Munchen, 1970. GreenbergB.G. Why randomize? Biometrics 7 A951), 309—322. Gridgeman N. T. The lady tasting tea, and allied topics. J. Amer. Statist. As- soc. 54 A959), 776—783. Grimm H. A) Tafeln der negativen Binomialverteilung. Biometrische Zeitschr. 4 A962), 239—262. B) Tafeln der Neyman-Verteilung Тур A. Biometrische Zeitschr. 6 A964), 10—23. C) Graphical methods for the determination of type and parameters of some discrete distributions. In G. P. Patil (Ed.): Random Counts in Scientific Work. Vol. I: Random Gounts in Models and Structures. (Pennsylvania State University Press, p. 268) University Park and London 1970, p. 193—206, Groot M. H. de Optimal Statistical Decisions. (McGraw-Hill, p. 489). New York, 1970. Гроот М. Де. Оптимальные статистические решения. М., «Мир», 1974. G umbel E. J. A) Probability Tables for the Analysis of Extreme-Value Data. National Bureau of Standards, Appl. Mathem. Ser. 22, Washington D. C, July 1953. B) Statistics of Extremes. New York, 1958. C) Technische Anwendungen der statistischen Theorie der Extremwerte. Schweiz. Arch, angew. Wissenschaft Tech- nik 30 A964), 33—47. Гумбель Э. Статистика экстремальных значений. М «Мир», 1965. Gurland J. Some applications of the negative binomial and other contagious distributions. Amer. J. Public Health 49 A959), 1388—1399. Gutterman H. E. An upper bound for the sample standard deviation. Techno- metrics 4 A962), 134+135. Haight F. A. A) Index to the distributions of mathematical statistics. J. Res. Nat Bur. Stds. 65 В A961), 23—60. B) Handbook of the Poisson Distribution. New York, 1967. H a 1 d A. A) Statistical Tables and Formulas. New York 1952, pp. 47—59. B) Statistical Theory with Engineering Applications. New York, 1960, Chapter 7. Хальд А. Математическая статистика с техническими приложениями. М., Ил 1956. Н а 11 A. D. A Methodology for Systems Engineering. Princeton, N. J. 1962. Холл А. Методология для системных исследований. М., «Сов. радио», 1975. Hanson W. R. Estimating the number of animals: a rapid method for unidentified individuals. Science 162 A968), 675 + 676. Harris D. A method of separating.two superimposed normal distributions using arithmetic probability paper. J. Animal Ecol. 37 A968), 315—319. Harter H. L. A) A new table of percentage points of the chisquare distribution Biometrika 51 A964), 231—239. B) The use of order statistics in estimation* Operations Research 16 A968), 783—798. Harvard University, Computation Laboratory:* Tables of the Cumulative Binomial Probability Distribution; Annals of the Computation Laboratory of Harvard University, Cambridge, Mass. 1955. Helmer O. (u. G 0 r d 0 n T.) Bericht tiber eine Langfrist-Vorhersage fur die Welt der nachsten ftinf Jahrzehnte. (Mosaik Vlg., 112 S.) Hamburg, 1967. Hemelrijk J. Back to the Laplace definition. Statistica Neerlandica 22 A968) 13—21. ;* Henning H.-J. und Wartmann R.: Auswertung sparlicher Versuchsdaten im Wahrscheinlichkeitsnetz. Arztl. Forschung 12 A958), 60—66. H e r d a n G. A) The relation between the dictionary distribution and the occurrence distribution of word length an its importance for the study of quantitative linguistics. Biometrika 45 A958), 222—228. B) The Advanced Theory of Language as Choice and Chance. Berlin-Heidelberg-New York, 1966, pp. 201—206. Heyde J. E. Technik des wissenschaftlichen Arbeitens. Mit einem erganzenden Beitrag: Dokumentation von H. Siegel. 10. durchges. Aufl. (Kiepert, 230 S.). Berlin, 1970. H о d g e s J. L. Jr and L e h m a n n E. L. A compact table for power of the t-test -Ann. Math. Statist. 39 A968), 1629—1637. Horowitz I. An Introduction to Quantitative Business Analysis. New York, Ho tell ing H. The statistical method and the philosophy of science. The American Statistician 12 (December 1958), 9—14. 541
Huddleston H. F. Use of order statistics in estimating standard deviations. Agric. Econom. Research 8 A956), 95—99. I h m P. Subjektivistische Interpretation des Konfidenzschlusses. Biometr. Zeitschr. 8 A966), 165—169. Jenkins T. N. A short method and tables for the calculation of the average and standard deviation of logarithmic distributions. Ann. Math. Statist. 3 A932), 45—55 (Errata 78). Johnson E. E. Nomograph for binomial and Poisson significance tests. Industrial Quality Control 15 (March 1959), 22+24. Jolly G. M. Estimates of population parameters from multiple recapture data with both death and dilution — deterministic model. Biometrika 50 A963), 113— 126. J о w e 11 G. H. The relationship between the binomial and F distributions. The Statistician 13 A963), 55-57. Jungk R. (Hrsg.) Menschen im Jahre 2000. Eine Ubersicht tiber mogliche Zu- kunfte. (Umschau Vlg, 320 S.). Frankfurt/M. 1969. К a h n H. und W i e n e r A. J. Ihr werdet es erleben. (F. Mojden, 430 S.) Wien- Munchen-Zurich, 1968. Kendall M. G. Model Building and Its Problems. (Hafner ,p. 165). New York, 1968. К i n g A. C. and Read С. В. Pathways to Probability. History of the Mathematics of Certainty and Chance (Holt, Rinehart and Winston, pp. 139). New York, 1963. Kitagawa T. Tables of Poisson Distribution. (Baifukan). Tokyo, 1952. Kliemann H. Anleitungen zum wissenschaftlichen Arbeiten. Eine Einfuhrung in die Praxis. 7 Aufl. (H. Steinberg u. M. Schutze, Hrsg.), (Rombach, 190 S.). Freiburg, 1970. Kolmogoroff A. N. Grundbegriffe der Wahrscheinlichkeitsrechnung. Berlin, 1933. Колмогоров А. Н. Основные понятия теории вероятностей. Изд. 2. М., «Наука», 1974. Kramer G. Entscheidungsproblem, Entscheidungskriterien bei volliger Unge- wifiheit und Chernoffsches Axiomensystem. Metrika 11 A966), 15—38 (vgl. Tab. 1, S. 22 u. 23). Krober W. Kunst und Technik der geistigen Arbeit. 6. neubearb. Aufl. (Quelle und Meyer, 202 S.). Heidelberg, 1969. Lancaster H. O. The Chi-Squared Distribution (Wiley, pp. 356). New York, 1969. Larson H. R. A nomograph of the cumulative binomial distribution. Industrial Quality Control 23 (Dec. 1966), 270—278. L a u b s с h er N. F. Interpolation in F-tables. The American Statistician 19 (February 1965), 28+40. Lehmann E. L. Significance level and power. Ann. Math. Statist. 29 A958), 1167-1176. Lehmann H. Der Rechenstab und seine Verwendung. 2. Aufl. (Pfalz Vlg., 231 S.). Basel, 1966. Lesky Erna Ignaz Philipp Semmelweis und die Wiener medizinische Schule. Osterr. Akad. Wissensch., Philos.-histor. Kl. 245 A964), 3. Abhandlung (93 S.). Lieberman G. J. and Owen D. B. Tables of the Hypergeometric Probability Distribution. Stanford, Calif. 1961. Liebscher Klaudia Die Abhangigkeit der Gutefunktion des F-Jestes von den Freiheitsgra'den. In Operationsforschung und mathematische Statistik I (Akade- mie-Verlag, 151 S). Berlin, 1968, S. 121—136. Liebscher U. Anwendung eines neuartigen Wahrscheinlichkeitsnetzes. Zschr f. wirtschaftl. Fertigung 59 A964), 507—510. Lienert G. A.: Die zufallskritische Beurteilung psychologischer Variablen mittels verteilungsfreier Schnelltests. Psycholog. Beitrage 7 A962), 183—217. Lockwood A. Diagrams. A Survey of Graphs, Maps, Charts and Diagrams for the Graphic Designer (Studio Vista; pp. 144). London, 1969. Lubin A. Statistics. Annual Review of Psychology 13 A962), 345—370. Luce R. D. and Raiffa H. Games and Decisions. New York, 1957, Chapter 13. 542
Л ь ю с Р., Р а й ф а Г. Игры и решения. М., ИЛ., 1961. MacMahon P. A. Combinatory Analysis. New York, 1960 (reprinted; originally published 1915/1916). MahalanobisP. С A method of fractile graphical analisys. Econometrica 28 A960), 325—351. Mallows C. L. Generalizations of Tchebycheff s inequalities. With discussion. J. Roy. Statist. Soc, Ser. В 18 A956), 139—176. Manly B. F. J. and P a r r M. J. A new method of estimating population sizer survivorship, and birth rate from capture-recapture data. Trans. Soc. Br. Ent. 18 A968), 81—89 (vgl auch Manly: Biometrika 56 [1969], 407—410). Maritz J. S. Empirical Bayes Methods. (Methuen, pp. 192). London, 1970. Martin L. Les processus de poisson et leurs applications en biologie. Biometrie- Praximetrie 3 A962), 55—82. M a r t i n о J. P. The precision of Delphi estimates. Technol. Forecastg. (USA) 1 A970), 293—299. Matthijssen C. and Goldzieher J. W. Precision and reliability in liquid scintillation counting. Analyt. Biochem. 10 A965), 401—408. McHale J. The Future of the future (Braziller, p. 322). New York, 1969. McLaughlin D. H. and T u к е у J. W. The Variance of Means of Symmetrically Trimmed Samples from Normal Populations and its Estimation from such Trimmed Samples. Techn. Report No. 32, Statist. Techn. Res. Group, Princeton University, July 1961. McNemar O. Psychological Statistics, 3rd ed. New York, 1962, p. 69. Miller J. C. P. (Ed.) Table of Binomial Coefficients. Royal Soc. Math. Tables Vol. Ill, Cambridge (University Press), 1954. Molenaar W. Approximations to the Poisson, Binomial, and Hypergeometric Distribution Functions. (Mathematisch Centrum, p. 160). Amsterdam, 1970. Molina E. C. Poisson's Exponential Binomial Limit. (Van Nostrand). New York, 1945. Montgomery D. C. An introduction to short-term forecasting. J. Industrial Engineering 19 A968), 500—504. Мог ice E. Puissance de quelques tests classiques effectif d'echantillon pour des risques a, p fixes. Revue de Statiscique Appliquee 16 (No. 1, 1968), 77—126. Morris W. T. The Analysis of Management Decisions. (Irwin) Homewood, 111. 1964. Moses L. E. and О а к f о r d R. V. Tables of Random Permutations. (Allen and Unwin, p. 233). London, 1963. Moshman J. Critical values of the log-normal distribution. J. Amer. Statist. Assoc. 48 A953), 600—605. MostellerF. On some useful "inefficient" statistics. Ann. Math. Statist. 17 A946), 377—408. Mosteller F. and Tukey J. W. The uses and usefulness of binomial probability paper. J. Amer. Statist. Assoc. 44 A949), 174—212. Mudgett B. Index Numbers. New York, 1951. National Bureau of Standards: Tables of the Binomial Probability Distribution. Applied Math. Series No. 6, Washington, 1950. N a u s J. I. An extension of the birthday problem. The American Statistician 22 (Febr. 1968), 227—29. N e 1 s о n W. The truncated normal distribution. — with applications to component sorting. Industrial Quality Control 24 A967), 261—271. Nelson W. С and David H. A. The logarithmic distribution: a review. Virginia J. Science 18 A967), 95—102. Net to E. (Brun V. und Skolem Th.) Lehrbuch der Combinatorik, 2. erw. Aufl. (Chelsea). New York, 1927. Neumann von J. Zur Theorie der Gesellschaftsspiele. Math. Ann. 100 A928),. 295-320. NeymanJ. (l)Ona new class of "contagious" distributions, applicable in entomology and bacteriology. Ann. Math. Statist. 10 A939), 35—57. B) Basic ideas and some recent results of the theory of testing statistical hypotheses. J. Roy. Statist. Soc. 105 A942), 292—327. C) First Course in Probability and Statistics. New York, 1950, Chapter V: Elements of the Theory of Testing Statistical Hypo- 543
theses; Part 5-2-2: Problem of the Lady tasting tea. D) Lectures and Conferences on Mathematical Statistics and Probability, 2nd rev. and enlarged ed., Washington, 1952. Нейман Ю. Вводный курс теории вероятностей и математической статистики. М., «Наука», 1968. N е у m a n J. and P e a r s о n E. S. A) On the use and interpretation of certain test criteria for purposes of statistical inference. Part I and II. Biometrika 20A A928), 175—240 and 263—294. B) On the problem of the most efficient type of statistical hypotheses. Philosophical Transactions of the Royal Society A 231 A933), 289—337. . Noether G. E. Use of the range instead of the standard deviation. J. Amer. Statist. Assoc. 50 A955), 1040—1055. Nothnagel K. Em graphisches Verfahren zur Zerlegung von Mischverteilun- gen. Qualitatskontrolle 13 A968), 21—24. О r d J. K. Graphical methods for a class of discrete distributions. J. Roy. Statist. Soc. A 130 A967), 232—238. Osinski von R. Computing standard deviation the easy way. Quality Assurance 2 (April 1963), 26—30. OwenD.B. Handbook of Statistical Tables. London, 1962. Оуэн Д. Б. Сборник статистических таблиц. М., ВЦ АН СССР, 1966. Pachares J. Table of confidence limits for the binomial distribution. J. Amer. Statist. Assoc. 55 A960), 521—533. Paradine С G. The probability distribution of y2. Mathematical Gazette 50 A966), 8-18. Parks G. M. Extreme value statistics in time study. Industrial Engineering 16 (Nov.—Dec. 1965), 351—355. Parratt L. G. Probability and Experimental Errors in Science. London, 1961. P a u 1 s о n E. An approximate normalization of the analysis of variance distribution. Ann. Math. Statist. 13 A942), 233—235. Pearson E. S. and Tukey J. W. Approximate means and standard deviation based on distances between percentage points of frequency curves. Biometrika 52 A965), 533—546. PfanzaglJ. A) Verteilungsunabhangige statistische Methoden. Zschr. angew. Math. Mech. 42 A962), T71—T77. B) Allgemeine Methodenlehre der Statistik, Bd. I, II (S. 63) (Sammlung Goschen). Berlin, 1964, 1966. Pitman E. J. G. A) Lecture Notes on Nonparametric Statistics. Columbia University. New York, 1949. B) Statistics and science. J. Amer. Statist. Assoc. 52 A957), 322—330. Plackett R. L. Random permutations. J. Roy. Statist. Soc. В 30 A968), 517—534. P о 1 a k F. L. Prognostics. (Elsevier, pp. 450). Amsterdam, 1970. Popper K. R. A) Science: problems, aims, responsibilities. Fed. Proc. 22 A963), 961—972. B) Logik dej: Forschung, 2. erw. Aufl., Tubingen, 1966. P r a 11 J. W., R a i f f а Й. and S с h 1 a i f e r R. The foundations of decision under uncertainty: an elementary exposition. J. Amer. Statist. Assoc. 59 A964), 353—375. PrescottP. A simple method of estimating dispersion from normal samples. Applied Statistics 17 A968), 70—74. Preston E. J. A graphical method for the analysis of statitsical distributions into two normal components. Biometrika 40 A953), 460—464. Price de D. J. S. A) Science Since Babylon. New Haven, Connecticut 1961. B) Little Science, Big Science. New York, 1963. C) Research on Research. In Arm, D. L. (Ed.), Journeys in Science: Small Steps — Great Strides. The University of New Mexico Press, Albuquerque 1967. D) Measuring the size of science. Русск. перев. — см. сб.: Наука о науке. М., «Прогресс», 1966; Д. Прайс. Малая наука, Большая наука. Q u a n d t R. E. Old and new methods of estimation and the Pareto distribution. Metrika 10 A966), 55--82. Raiffa H. and Schlaifer R.: Applied Statistical Decision Theory. Division of Research, Harvard Business School, Boston, Mass. 1961. Райфа Г., Шлай- ф е р Р. Прикладная теория статистических решений. М., «Статистика», в печати. Rao S. R. and Chakravarti I. M. Some small sample tests of significance for a Poisson distribution. Biometrics 12 A956), 264—282. 544
Rasch D.: Zur Problematik statistischer Schluflweisen. Wiss. Z. Humboidt-Univ. Berlin, Math.-Nat. R. 18 A969) B), 371—383. R i с к e r W E. The concept of confidence or fiducial limits applied to the Poisson frequency. J. Amer. Statist. Assoc. 32 A937), 349—356. R i d e r P R The distribution of the quotient of ranges in samples from a rectangular population. J. Amer. Statist. Assoc. 46 A951), 502—507. Rigas D. A. A nomogram for radioactivity counting statistics. International Journal of Applied Radiation and Isotopes 19 A968), 453—457. Riordan J. A) An Introduction to Combinatorial Analysis. New York, 1958. B) Combinatorial Identities. (Wiley, p. 256). New York, 1968. Риордан Дж. Введение в комбинаторный анализ. М., ИЛ, 1963. Roberts H. V. Informative stopping rules and inferences about population size. J. Amer. Statist. Assoc. 62 A967), 763—775. Robson D. S. Mark-Recapture Methods of Population Estimation. In N. L. Johnson and H. Smith, Jr. (Eds.): New Developments in Survey Sampling. (Wiley-Interscience, pp. 732). New York, 1969, pp. 120—146. Rohrberg A. Die Anwendung der Wahrscheinlichkeits- und Haufigkeitsnetze. Herausgegeben von Schleicher und Schull, Einbeck/Han. 1958. R о m i g H. G. 50—100 Binomial Tables. (Wiley). New York, 1953. R u s с h E. und D e i x 1 e r A. Praktische und theoretische Gesichtspunkte fur die Wahl des Zentralwertes als statistische Kenngrofie fur die Lage eires Verteilungs- zentrums. Qualitatskontrolle 7 A962), 128—134. S a a t у L. Seven more years of queues: a lament and a bibliography. Naval Res. Logist. Quart. 13 A966), 447—476. Sachs L. Statistische Methoden. Ein Soforthelfer. (Springer, 103 S.). Berlin, Heidelberg, New York, 1970, S. 12—18. S a r h a n A. E. and Greenberg B. G. (Eds ) Contributions to Order Statistics. New York, 1962. Введение в теорию порядковых статистик. М., «Статистика», 1970. S a r n d a 1 С. Information from Censored Samples. Stockholm, 1962. Savage I. R. Probability inequalities of the Tchebycheff type. J. Res. Nat. Bur. Stds. 65B A961), 211—222. Schindowski E. und S с h п r z O. Das Binomialpapier. Fertigungstechnik 7 A957), 465—468. S с h m i 11 S. A. Measuring Uncertainty. An Elementary Introduction to Bayesian Statistics. (Addison-Wesley; p. 400). Reading,,Mass. 1969. Schneeweiss H. Entscheidungskriterien bei Risiko. Berlin—Heidelberg, 1967. S с h 6 n W.: Schaubildtechnik. Die Moglichkeiten bildlicher Darstellung von Zahlen» und Sachbeziehungen (Poeschel; 371 S.). Stuttgart, 1969. Smirnov N. V. (Ed.) Tables for the Distribution and Density Functions of t-Dis- tribution. London, Oxford, 1961. Большев Л. Н., Смирнов Н. В. Таблицы математической статистики. М., «Наука», 1965. Smith J. H. Some properties of the median as an average. The American Statistician 12 (October 1958), 24, 25, 41. S n у d e r R. M. Measuring Business Changes. New York, 1955. S о u t h w о о d T. R. E. Ecological Methods with Particular Reference to the Study of Insect Populations. (Methuen, p. 391). London, 1966. Spear Mary E. Practical Charting Techniques. (McGraw-Hill, p. 394). New York, 1969. S t a n g e K. Eine Verallgemeinerung des zeichnerischen Verfahrens zum Testen von Hypothesen im Wurzelnetz (Mosteller-Tukey-Netz) auf drei Dimensionen. Qualitatskontrolle 10 A965), 45—52. Stegmuller W. Der Begriff des Naturgesetzes. Studium Generale 19 A966), Steinbuch K. (Tagungsleiter): SYSTEMS 69. Internationales Symposium uber Zukunftsfragen (in Munchen). (Deutsche Verlags-Anstalt, 301 S.). Stutgart, 1970. S ten der R. Der moderne Rechenstab. 9. verb. Aufl. (Salle, 119 S.). Hamburg, 1967. Entsprechende Lehrbucher in englischer Sprache sind bei Dover, New York, erschienen. Stephenson С. Е. Letter to the editor. The American Statistician 24 (April 1970), 37+38. 18 Зак. 930 545
Stevens S. S. On the theory of scales of measurement. Science 103 A946), 677—680. Student: The probable error of a mean. Biometrika 6 A908), 1—25. Sturges H. A. The choice of a class interval. J. Amer. Statist. Assoc. 21 A926), 65+66. Szameitat K. and Deininger R. Some remarks on the problem of errors in statistical results. Bull. Int. Statist. Inst. 42, I A969), 66—91. TeichroewD. A history of distribution sampling prior to the era of the computer and its relevance to simulation. J. Amer. Statist. Assoc. 60 A965), 27—49. Theil H. A) Optimal Decision Rules for Government and Industry. Amsterdam 1964. B) Applied Economic Forecasting. (Vol. 4 of Studies in Mathematical and Managerial Economics; North-Holland Publ. Co., p. 474). Amsterdam, 1966. Тейл Г. Экономический прогноз и принятие решений. М.,„«Статистика,», 1971; Тейл Г. Прикладное экономическое прогнозирование. М-, «Прогресс», 1970. Т h б n i H. A table for estimating the mean of a lognormal distribution. J. Amer. Statist. Assoc. 64 A969), 632—636. Corrigenda 65 A970), 1011—1012. Thorndike Frances: Applications of Poisson's probability summation. Bell System Techn. J. 5 A926), 604—624. Troughton F. The rule of seventy. Mathematical Gazette 52 A968), 52+53, Tukey J. W. A) Some sampling simplified. J. Amer Statist. Assoc. 45 A950), 501—519. B) Unsolved problems of experimental statistics. J. Amer. Statist. Assoc. 49 A954), 706—731. C) Conclusions vs. decisions. Technometrics 2 (I960), 423—433. D) A survey of sampling from contaminated distributions. In I. Olkir? and others (Eds.): Contributions to Probability and Statistics. Essays in Honor of Harold Hotelling, pp. 448—485, Stanford 1960. E) The future of data analysis. Ann. Math. Statist. 33 A962), 1—67; and M с La u g h 1 i n D. H. Less vulnerable confidence and significance procedures for location based on an single sample: Trimming/Winsorization I. Sankhya Ser. A 25 A963), 331—352. V a h 1 e H. und Tews G. Wahrscheinlichkeiten einer %2-VerteiIung. Biometrische Zeitschr. 11 A969), 175—202. Wacholder K. Die Vartabilitat des Lebendigen. Die Naturwissenschaften 3$ A952), 177—184 und 195—198. . Waerden B. L. van der. Der Begriff Wahrscheinlichkeit. Studium Generale 4 A951), 65—68; S. 67 linke Spalte. Wagle B. Some techniques of short-term sales forecasting. The Statistician 16 A966), 253—273. VVald A. Statistical Decision Functions. New York, 1950. См. в сб.: Позиционные игры. М., «Наука», 1967: Вальд А. Статистические решающие функции. Walker H. M. Staiistische Methoden fur Psychologen und Padagogen. Berlin, 1954. W a 11 i s W. A. und R о b e г t s H. V. Methoden der Statistik, 2. Aufl., Freiburg/Br. 1962. Walter E. A) Rezension des Buches „Verteilungsfreie Methoden in der Biostati- stik" von G. Lienert. Biometrische Zeitschr. 6 A964), 61+62. B) Personliche Mitteilung, 1966. Wasserman P. and Si lander F. S. Decision-Making: An Annotated Bibliography Supplement, 1958—1963. Lthaca, N. Y., 1964. Weber Erna. Grundrifi der Biologischen Statistik. 6. neubearb. Aufl. Stuttgart, 1967, S. 139—144. Weibull W. Fatigue Testing and Analysis of Results. New York, 1961. Вен- булл В. Усталостные испытания и анализ их результатов. М., «Машиностроение», 1964. Weichselberger К. Uber ein graphisches Verfahren zur Trennung von Misch- verteilungen und zur Indentifikation kupierter Normalverteilungen bei groflem Stichprobenumfang. Metrika 4 A961), 178—229/ Weinberg F. Grundlagen der Wahrscheinlichkeitsrechnung und Statistik sowie Anwendungen im Operations Research. (Springer, 339 S.). Berlin-Heidelberg- New York, 1968, S. 142—155 und 157. Weintraub S. Tables of the Cumulative Binomial Probability Distribution for Small Values of p. (The Free Press of Glencoe, Collier-Macmillan). London, 1963. Weiss L. Statistical Decision Theory. New York, 1961. 546
Weiss L. L. A) A nomogram based on the theory of extreme values for determining values for various return periods. Monthly Weather Rev. 83 A955), 69—71. B) A nomogram for log-normal frequency analysis. Trans. Amer. Geophys. Union 38 A957), 33—37. W e 11 n i t z K. Kombinatorik, 4. Aufl., Braunschweig, 1965. W e s t e r g a a r d H. Contributions to the History of Statistics. (P. S. King and Son, p. 280). London, 1932. W i 1 h e 1 m К. Н. Graphische Darstellung in Leitung und Organisation. 2. Aufl. (Vlg. Die Wirtschaft, 200 S.). Berlin, 1971. Williams С. В. A) A note on the statistical analysis of sentence length as a criterion of literary style. Biomelrika 31 A940), 356—361. B) Patterns in the Balance of Nature. New York, 1964. Williamson E. and В ret her ton M. H. Tables of the Negative Binomial Distribution. London, 1963. Wii-son E. B. and Hilferty M. M. The distribution of chi-square. Proc. Nat. Acad. Sci. 17 A931), 684—688 (vgi. auch Pachares, J.: Letter to the Editor. The American Statistician 22 [Oct. 1968], 50). Wold H. O. A. Time as the realm of forecasting. Annals of the New York Academy of Sciences 138 A967), 525—560. Y a mane T. Statistics. An Introductory Analysis. Chapter 8, pp. 168—226. New York, 1964. Zacek H A) Graphisches Rechnen auf normalem Wahrscheinlichkeitspapier. Experientia 20 A964), 1—5. B) Graphisches Rechnen auf normalem Wahrscheinlichkeitspapier. Experientia 20 A964), 413—414. C) Eine Moglichkeit zur gra- phischen Berechnung des Standardfehlers bzw. Konfidenzintervalls eines Mittel- wertes von Versuchsergebrassen. Arzneimittelforschung 14 A964), 1326—1328. D) Zum projektiv-verzerrten Wahrscheinlichkcitsnetz nach Liebscher und Fischer Qualitatskontrolle 13 A968), 142—146. Zahlen J. P. Dber die Grundlagen der Theorie der parametrischen Hypothesen- tests. Statisiische Hefte 7 A966), 148—174. Zarkovich S. S. Quality of Statistical Data (FAO, UN; p. 395). Rome, 1966 Z i n g e r A. On interpolation in tables of the F-distribution. Applied Statistics 13 A964), 51—53. Случайные процессы: Bailey N. Т. J. The Elements of Stochastic Processes with Applications to the Natural Sciences. New York, 1964. Bartholomew D. J. Stochastische Modelle fur soziale Vorgange. (Dbers a d Engl. v. D. Pfaffenzeller) (Oldenbourg, 348 S.). Wien, 1970. Bartlett M. S. A) An Introduction to Stochastic Processes. Cambridge 1955. B) Stochastic Population Models. London, 1960. C) Essays on Probability and Statistics. London, 1962. Бартлетт М. Введение в теорию случайных Процессов. М., ИЛ, 1958. В h a r u с h a-R e i d A. T. Elements of the Theory of Markov Processes and their Applications. New York, 1960. Баруча-Рид А. Т. Элементы теории марковских процессов и их приложения. М., «Наука», 1969. BillingsleyP. (I) Statistical Methods in Markov chains Ann Math Statist 32 A961), 12—40. B) Statistical Inference for Markov Processes. Chicago, 1961. Биллингслей П. Эргодическая теория и информация. М., «Мир», 1969. Chiang С. L. Introduction to Stochastic Processes in Biostatistics (Wilev p. 312). New York, 1968. Cox D. R. and Lewis P. A. D.: The Statistical Analysis of Series of Events. London, 1966. К о kc Д., Льюис П. Статистический анализ последовательностей событий. М., «Мир», 1969. and Miller H. D. The Theory of Stochastic Processes. London, 1965. and Smith W. L. Queues. London, 1961. Кокс Д. Р, Смит В. Л. Теория очередей. М., «Мир», 1966. 'Cramer H. Model building with the aid of stochastic processes. Technometrics 6 A964), 133—159. 18* 547
Cramer H. and Leadbetter M. R. Stationary and Related Stochastic Processes: Sample Function Properties and Their Applications. (Wiley, p. 348). New York and London, 1967. Крамер Г., Лидбеттер М. Стационарные случайные процессы. М., «Мир», 1969. D e m i n g L. S. Selected bibliography of statistical literature: supplement, 1958— 1960. J. Res. Nat. Bur. Standards 67B A963), 91—133 (pp. 99—120). Doig A. A bibliography on the theory of queues. Biometrika 44 A957), 490—514. Feller W. An Introduction to Probability Theory and Its Applications. Vol. 1, 2nd ed. New York, 1957; Vol. 2. New York, 1966. 2-е русск. изд.: Феллер В. Введение в теорию вероятностей и ее приложения. Т. 1. М., «Мир», 1967. Русск. перев. с изд. 1966: Феллер В. Введение в теорию вероятностей и ее приложения. Т. 2. М., «Мир», 1967. i Ferschl F. Zufallsabhangige Wirtschaftsprozesse. Grundlagen und Anwendmi- gen der Wartesysteme. Wurzburg, 1964. F i s z M. Wahrscheinlichkeitsrechnung und mathematische Statistik. 3. Auf I. Berlin, 1965, Kapitel 7 und 8. Gold R. Z. Tests auxiliary to %2 tests in a Markov chain. Ann. Math. Statist. 34 A963), 56—74. Gordon P. Theorie des Chaines de Markov Finies et Ses Applications. Paris, 1965. G u r 1 a n d J. (Ed.) Stochastic Models in Medicine and Biology. Madison (University of Wisconsin), 1964. Howard R. A. (ubersetzt und bearbeitet von H. P. Ktinzi und P. Kail) Dynami- sche Programmierung und Markov-Prozesse. Zurich, 1965. Ховард Р. А. Динамическое программирование и марковские процессы. М., «Сов. радио», 1964. К а г 1 i n S. A First Course in Stochastic Processes. New York and London, 1966, С. Карлин. Основы теории случайных процессов. М., «Мир», 1971. К em en у J. G. and Snell J. L. Finite Markov Chains. Princeton, N. J. 1960. Кемени Джон Дж., С не л л Дж. Лори. Конечные цепи Маркова. М„ «Наука», 1970. and К n a p p A. W. Denumerable Markov Chains. Princeton, N. J. 1966. Kullback S., Kupperman M. and Кu H. H. Tests for contingency tables and Markov chains. Technometrics 4 A962), 573—608. L a h г e s H. Einfuhrung in die diskreten Markoff-Prozesse und ihre Anwendung. Braunschweig, 1964. L e e A. M. Applied Queueing Theory. London, 1966. Parzen E. A) Modern Probability Theory and Its Applications. New York, 1960. B) Stochastic Processes. San Francisco, 1962. P r a b h u N. U. A) Stochastic Processes. Basic Theory and Its Applications. New York, 1965. B) Queues and Inventories: a Study of Their Basic Stochastic Processes. New York, 1965. S a a t у Т. L. Elements of Queueing Theory. New York, 1961. С а а т и Т. Элементы теории массового обслуживания и ее приложения. М., «Сов. радио», 1965. Schneeweiss H. Zur Theorie der Warteschlangen. Zeitschr. f. handelswissen- schaftl. Forschg. 12 A960), 471—507. Takacs L. A) Introduction to the Theory of Queues. Oxford Univ. Press 1962. B) Stochastische Prozesse. Munchen, 1966. C) Combinatorial Methods of Stochastic Processes (Wiley, p. 262). New York, 1967. Такач Л. Комбинаторные методы в теории случайных процессов. М., «Мир», 1971. Wold H. О. A. The I.S.I. Bibliography on Time Series and Stochastic Processes. London, 1965. Z a h 1 S. A Markov process model for follow-up studies. Human Biology 27 A955), 90—120. Методы, свободные от распределений: Bradley J. V. Distribution-Free Statistical Tests. (Prentice-Hall; p. 388). Eng- lewood Cliffs, N. J., 1968. Conover W. J. Practical Nonparametric Statistics. (Wiley; p. 480). London, D a vi d H. A. Order Statistics (Wiley, p. 288). New York, 1970. 548
Ha jek J. and Sidak Z. Theory of Rank Tests (Academic Press, p. 297). New York and London, 1967. Гаек Я., Шидак 3. Теория ранговых критериев. М., «Наука», 1971. К г a f t С. Н. and E e d e n Constance von. A Nonparametric Introduction to Statistics. (Macmillan, p. 304). New York, 1968. Lienert G. A. Verteilungsfreie Methoden in der Biostatistik. 2. neubearb. Aufl. (A. Hain, Meisenheim am Glan) soil 1971 erscheinen. Milton R. C. Rank Order Probabilities. Two-Sample Normal Shift Alternatives. (Wiley, p. 320). New York, 1970. No ether G. E. Elements of Nonparametric Statistics. (Wiley, p. 104). New York, 1967. Puri M. L. Nonparametric Techniques in Statistical Inference. Proc. 1. Internat. Symp. Nonparametric Techniques, Indiana University, June 1969 (University Press, p. 623). Cambridge, 1970. Puri M. L. and S e n P. K. Nonparametric Methods in Multivariate Analysis. (Wiley, p. 450). London, 1971. R у t z C. Ausgewahlte parameterfreie Prufverfahren im 2- und k-Stichproben-Fall Metrika 12 A967), 189—204 und 13 A968), 17—71. Savage I. R. Bibliography of Nonparametric Statistics (Harvard University Press, p. 284). Cambridge, Mass. 1962. Walsh J. E. Handbook of Nonparametric Statistics. Vol. I—III (Van Nostrand, pp. 549, 686, 747). Princeton, N. J., 1962, 1965, 1968. Глава 2 Медицинская статистика: Adam J. Einfuhrung in die medizinische Statistik, 2. uberarb Aufl (VEB Vie Volk und Gesundheit, 268 S.). Berlin, 1966, S. 84—146. Anscombe F. J. and В а г г о n B. A. Treatment of outliers in samples of size three. J. Res. Nat. Bur. Stds. 70B A966), 141—147. Armitage P. Recent developments in medical statistics. Rev Intern Statist. Inst. 34 A966), 27—42. Barnard G. A. Control charts and stochastic processes, j ROy Statist Soc Ser. В 21 A959), 239—257. ' ' BarnettR. N. A scheme for the comparison of quantitative methods Amer J Clin. Path. 43 A965), 562—569. Benjamin B. Demographic Analysis. (Allen and Unwin* p 160) London 1968. ' В i s s e 11 A. F. Cusum techniques for quality control (with discussion) Applied Statistics 18 A969), 1—30. Bogue D. J. Principles of Demography (Wiley, p. 917). New York, 1969. Burr I. W. The effect of non-normality on constants for x and R charts Industrial Quality Control 23 (May 1967) 563—569. Castleman B. and McNeely, Betty U. (Eds.) Normal laboratory values New Engl. J. Med. 283 A970), 1276—1285. С h u n D. Interlaboratory tests — short cuts. Annu. Tech. Conf Trans Amer Soc Qual. Contr. 20 A966), 147—151. ' CochranW. G. A) The planning of observational studies of human populations With discussion. J. Roy. Statist. Soc, Ser. A 128 A965), 234—265 B) Errors of measurement in statistics. Technometrics 10 A968), 637—666. Cox P. R. Demography. 4th ed'. (University Press, p. 470). Cambridge, 1970. Dobben de Bruyn C. S. van. Cumulative Sum Tests, Theorv and Practice (Griffin, p. 82). London, 1968. Documenta Geigy A) Placebos und Schmerz. In „Schmerz" S 3 u 4 1965 B) Wissenschaftliche Tabelien, 6. Aufl., Basel 1960, 7. Aufl., Basel 1968. ' D о r f m a n R. The detection of defective members of large copulations Ann • Math. Staiist. 14 A943), 436—440. Duncan A. J. Quality Control and Industrial Statistics. 3rd ed., Homewood, 111. Eilers R. J. (Chairman) Total quality control for the medical laboratory A4 papers). Amer. J. clin. Path. 54 A970), 435—530. 18в Зак. 930 549
Eisenha rt Ch. Realistic evaluation of the precision and accuracy of instrument calibration systems. J. Res. Nat. Bur. Stds. С 67 A963), 161—187. E 1 v e b а с к L i 1 a R., G u i 11 i e r C. L. and К e a t i n g F. R. Health, normality, and the e;host of Gauss. J. Amer. Med. Ass. 211 A970), 69—75. Elvebac к Lila R. and Taylor W. F. Statistical methods of estimating per* centiles. Ann, N. Y. Acad. Sci. 161 A969), 538-548. E w a n W. D. When and how to use cu-sum charts. Technometrics 5 A963), 1—22. and Kemp K. W. Sampling inspection of continuous processes with no autocorrelation between successive results. Biometrika 47 (I960), 363—380. Feinstei n A. R- Clinical biostatistics I—IX. Clin. Pharmacol. Therap. 11 A970), 135—148 282—292, 432—441, 595—610, 755—771, 898—914; 12 A971), 134—150, 167—191*, 544—558. Flaskamper P. Bevolkerungsstatistik (R. Meiner; 496 S.). Hamburg, 1962. Freuden berg K. Grundrifi der medizinischen Statistik. Stuttgart, 1962. Gabriels R. A general method for calculating the detection limit in chemical analysis. Analytical Chemistry 42 A970), 1434. G i 1 b e r t J P. and M о s t e 11 e r F. Recognizing the maximum of a sequence. J Amer. Statist. Assoc. 61 A966), 35—73. Griesser G A) Symptomenstatistik. Method. Inform. Med. 4 A965), 79—82. B) Heilkunde und Statistik — Mensch und Zahl. Med. Welt 16 A965), 2015— 2022 C) Zur Methodik der wissenschaftlichen Arbeit in der Allgemeinmedizin. Med. Welt 18 A967), 2801-2807. Hill G. B. The statistical analysis of clinical trials. Brit. J. Anaesth. 39, A967), 294—310. Hinkelm ann K. Statistische Modelle und Versuchsplane in der Medizin. Method. Inform. Med. 6 A967), 116—124. H о f f e r A and Osmond H. Double blind clinical trials. Journal of Neuropsy- chiatry 2 \l961), 221-227. J e 11 i n e к Е M. Clinical tests on comparative effectiveness of analgesic drugs. Biometrics 2 A946), 87-91. Johnson N. L. and Leone F. С Statistics and Experimental Design in Engineering and the Physical Sciences, Vol. I, pp. 320—339. New York, 1964. Jonge H. de. Inleiding tot le Medische Statistiek. Delen I en II, 2e Druk (Neder- lands Instituut voor Praeventieve Geneeskunde, 832 S.) Leiden 1963/64. К a i s ег Н Zur Definition der Nachweisgrenze, der Garantiegrenze und der dabei benutzten Begriffe. Z. analyt. Chem. 216 A966), 80—94. Kemp К W. A) The average run length of the cumulative sum chart when a V-mask is used. J. Roy. Statist. Soc, Ser. В 23 A961), 149—153. B) The use of cumulative sums for sampling inspection schemes. Applied Statistics 11 A962), 16—31. C) A simple procedure for determining upper and lower limits for the average sample run length of a cumulative sum scheme. J. Roy. Statist. Soc. В 29 A967), 263—265. Ко Her S. A) De Aufgaben der Statistik und Dokumentation in der Medizin. Dtsch. med. Wschr. 88 A963), 1917—1924. B) Einfuhrung in die Methoden der atiologischen Forschung — Statistik und Dokumentation. Method. Inform. Med. 2 A963), 1—13. C) Syslematik der statistischen Schlufifehler. Method. Inform. Med. 3 A964), 113—117. D) Problems in defining normal values. Bibliotheca Haematologica 21 A965), 125—128. E) Mathematisch-statistische Grundlagen der Diagnostik. Klin. Wschr. 45 A967), 1065—1072. Kramer К. Н. Use of mean deviation in the analysis of interlaboratory tests. Technometrics 9 A967), 149-153. Lange H.-J. Syntropie von Krankheiten. Method Inform. Med. 4 A965), 141— 145 (vgl. auch Internist 11 [1970], 216-222). Lasagna L. Controlled trials: nuisance or necessity. Method. Inform. Med. 1 A962), 79—82. Mainland D. A) Use and misuse of statistics in medical publications. Clinical Pharmacology and Therapeutics 1 A960), 411—422. B) The clinical trial — some difficulties and suggestions. J. Chronic Diseases 11 A960), 484—496. C) Experiences in the development of multiclinic trials. J. New Drugs 1 A961), 197— 205. D) Elementary Medical Statistics. '2nd ed., Philadelphia and London 1963. E) "We wish to hire a medical statistician. Have you any advice to offer?" 550
J Amer Med. Assoc. 193 A965), 289—293. F) Notes from a Laboratory of Medical Statistics. New York University, Medical Center, 1959—1966, Notes 1—145. G) Notes on Biometry in Medical Research. New York University Medical Center, July 1967 — October 1968. (8) Statistical ward rounds 1—6. Clinical Pharmacology and Therapeutics (z. B. 8 [1967], 874—883). Mandel J. The Statistical Analysis of Experimental Data. (Interscience-Wiley, p. 410). New York, 1964, Chapter 14. M a n d e 1 J. and L a s h о f T. W. The interlaboratory evaluation of testing methods. Amer. Soc. for Testing Materials Bulletin No. 239 (July 1959), 53—61. Mandel J. and Steihler R. D. Sensitivity — a criterion for the comparison of methods of test. J. Res. Nat. Bur. Stds. 53 (Sept. 1954), 155—159. Mar it z J. S. and Munro A. H. On the use of the generalised extreme-value distribution in estimating extreme percentiles. Biometrics 23 A967), 79—103. Martini P. A) Methodenlehre der therapeutisch-klinischen Forschung. 3. Aufl., Berlin 1953 D. Aufl. siehe Martini-Oberhoffer-Welte). B) Die unwissentliche Versuchsanordnung und der sogenannte doppelte BHndyersuch. Dtscn. med. Wschr. 82 A957), 597—602. C) Grundsatzliches zur therapeutisch-klinischen Versuchsplanung. Method. Inform. Med. 1 A962), 1—5. , Oberhoffer G. und Welte E. Methodenlehre der therapeutisch-klinischen Forschung. 4. neubearb. Aufl. (Springer, 495 S.). Berlin—Heidelberg—New York, 1968. M с F a r r e n E. F., L i s h к a T. R. J. and Parker J. H. Criterion for judging acceptability of analytical methods. Analytical Chemistry 42 A970), 358—365. Neumann G. J. The determination of normal ranges. Clinical Chemistry 14 A968), 979—988. О 1 d h a m P. D. Measurement in Medicine. The Interpretation of Numerical Data (English Universities Press, p. 216), 1968. Page E. S. A) Cumulative sum charts. Technometrics 3 A961), 1—9. B1 Controlling the standard deviation by cusums and warning lines. Technometrics 5 A963), 307—315. ParkhouseJ. Placebo reactor. Nature 199 A963), 308. P f 1 a n z M. Versuchspersonen und Kontrollgruppen — psychologische und epide- miologische Gesichtspunkte. Med. Welt 19 A968), 682—688. Pipberger H. V. und Freis E. D. Automatische Analyse kardiologischer Ana- log-Daten mittels elektronischer Rechenmaschihen. Med. Dok. 4 A960), 58—6]. Reed A. H. (Letter to the Editor) Multitest screening and ninety-five per cent limits. Amer. J. Clin. Pathol. 54 A970), 774—776. Richterich R. und Colombo J. P. Ultramikromethoden im klinischen La- bora torium. II. Die Bestimmung der Zuverlassigkeit von Laboratoriumsmethoden. Klin. Wschr. 40 A962), 529—533. Roos J. B. The limit of detection of analytical methods. Analyst. 87 A962), 832. Rumke Ch'r. L. Uber die Gefahr falscher Schlufierfahrungen aus Krankehblatt- daten (Berkson's Fallacy). Method. Inform. Med. 9 A970), 249—254. Sachs L. A) Statistische Methoden in der Medizin. Klin. Wschr. 46 A968), 969—975. B) Fehlerforschung in der Medizin: Zum systematischen Fehler. MS wird vorbereitet. Schindel L. E. A) Placebo in theory and practice. Antibiotica et Chemothe- rapia, Advances 10 A962), 398—430. B) Die Bedeutung des Placebos fur die klinisch-therapeutische Forschung. Arzneim.-Forschg. 15 A965), 936—940. C) Placebo und Placeboeffekte in Klinik und Forschung. Arzneim.-Forschg. 17 A967), 892-918. в i л Schneiderman M. A. The proper size of a clinical trial: "Grandma's Stru- del" method. J. New Drugs 4 A964), 3—11. S о b e 1 M. and G г о 11 P. A. Group testing to eliminate efficiently all defectives in a binomial sample. Bell System Technical Journal 38 A959), 1179—1252. S v о b о d a V. und G e r b a t s с h R. Zur Definition von Grenzwerten fur das Nachweisvermogen. Z. analyt. Chem. 242 A968), 1—12. Szameitat K. Was kostet die Gesundheit? Zahlen und kritische Aspekte. Off. Gesundh.-Wesen 32 A970), 672—690. Taylor H. M. The economic design of cumulative sum control charts. Technometrics 10 A968), 479—488. 18b* 551
Tonks D. В. Quality control systems in clinical chemistry laboratories. Potsgra- duate Medicine 34 A963), A-58—A-70. Vessereau A. Ef ficacite et gestion des cartes de controle. Revue Statistique Applique 28, 1 A970), 21-^64. Wagner G. Versuchsplanung in der Fehlerforschung. Method. Inform. Med. 3 A964), 117—127. Williams G. Z., Harris E. K-, Cot love E.; Young D. S., Stein M. R., Kanofsky P. and S h а к a r j i G. Biological and analytic components oi variation in long-term studies of serum constituents in normal subjects. I, II, III. Clinical Chemistry 16 A970), 1016—1032. W i 11 к e T. A. A note on contaminated samples of size three. J. Res. Nat. Bur. Stds. 70B A966), 149—151. Wilson A. L. The precision and limit of detection of analytical methods. Analyst 86 A961), 72—74. Winkler W. (J) Von der Demographie zur Demometrie. Metrika 6 A963), 187— 198. B) Demometrie. (Duncker und Humblot, 447 S.). Berlin—Munchen, 1969. Woodward R. H. and Goldsmith P. L. Cumulative Sum Techniques. (I.C.I. Monograph No. 3). Edinburgh, 1964. Woodwards. С Three sigma revisited. Arch. Path. 85 A968), 246—249. You den W. J. A) Graphical diagnosis of interlaboratory test results. Industrial Quality Control 15 (May 1959), 1—5. B) The sample, the procedure, and the laboratory. Anal. Chem. 13 (December 1960), 23 A—37 A. C) Accuracy of analytical procedures. J. Assoc. Offic. Agricult. Chemists 45 A962), 169—173. D) Systematic errors in physical constants. Technometrics 4 A962), 111—123. E) The collaborative test. J. Assoc. Affic. Agricult. Chemists 46 A963), 55—62. F) Ranking laboratories by round-robin tests. Materials Research and Standards 3 {January 1963), 9—13. G) Statistical Techniques for Collaborative Tests. (Association of Official Analytical Chemists, pp. 60). Washington, 1967. Z а с е к H. Eine Moglichkeit zum Aufbau von Kontrollkarten fur halbquantitative Merkmale. Qualitatskontrolle 13 A968), 102—105. Последовательный анализ: Ailing D. W. Closed sequential tests for binomial probabilities. Biometrika 53 A966), 73—84. ArmitageP. A) Sequential methods in clinical trials. Amer. J. Public Health 48 A958), 1395—1402. B) Sequential Medical Trials. Oxford 1960. C) Sequential analysis in medicine. Statistica Neerlandica 15 A961), 73—82. D) Some developments in the theory and practice of sequential medical trials. In Proc. Fifth Berkeley Symp. Mathem. Statist. Probab., Univ. of Calif. 1965/66. Univ. of Calii. Press, Berkeley and Los Angeles 1967, Vol. 4: Biology and Problems of Health, pp. 791—804 (s. auch S. 805—829). Beightler C. S. and S h a m b 1 i n J. E. Sequential process control. Industrial Engineering 16 (March—April 1965), 101—108. Bertram G. Sequenzanalyse fur zwei Alternativfolgen. Zschr. Angew. Math. Mechanik40 A960), 185—189. В illewicz W. Z. A) Matched pairs in sequential trials for significance of a difference between proportions. Biometrics 12 A956), 283—300. B) Some practical problems in a sequential medical trial. Bull. Intern. Statist. Inst. 36 A958), 165-171. В i oss I. D. J. A) Sequential medical plans. Biometrics 8 A952), 188—205. B) Sequential clinical trials. J. Chronic Diseases 8 A958), 349—365. С h i 11 о n N. W., F e r t i g J. W. and К u t s с h e r A. H. Studies in the design and analysis of dental experiments. III. Sequential analysis (double dichotomy). J. Dental Research 40 A961), 331—340. С о 1 e L. M. C. A closed sequential test design for toleration experiments. E-cology 43 A962), 749—753. Da vies O. L. Design and Analysis of Industrial Experiments. London 1956, Chapter 3. Fertig J. W, Chi It on N. W. and Varma A. O. Studies in the design of dental experiments. 9—11. Sequential analysis. J. Oral Therapeutics and Pharmacol. 1 A964), 45—56, 175—182, 2 A965), 44-51. 552
Freeman H. Sequential analysis of statistical data: Applications. Columbia University Press. New York, 1957. F u 1 g г a f f G. Sequentielle statistische Prufverfahren in der Pharmakologie. Arz- neim.-Forschg. 15 A965), 382—387. Greb D J. Sequential Sampling plans. Industrial Quality Control 19 (May 1963), 24—28, 47+48. Jackson J. E. Bibliography on sequential analysis. J. Amer. Statist. Assoc. 55 A960), 561—580. Johnson N. L. Sequential analysis: a survey. J. Roy. Statist. Soc. A 124 A961), 372—411. Lienert G. A. und S arris V. A) Eine sequentielle Modifikation eines nicht- parametrischen Trendtests. Biometrische Zeitschr. 10 A967), 133—147. B) Testing monotonicity of dosage-effect relationship by Mosteller's test and its sequential modification. Method. Inform. Med. 7 A968), 236—239. Li tch field J. T. Sequential analysis, screening and serendipity. J. Med. Pharm. Chem. 2 A960), 469—492. M a 1 у V. Sequenzprobleme mit mehreren Entscheidungen und Sequenzschatzung. I und II. Biometr. Zeitschr. 2 A960), 45—64 und 3 A961), 149—177 (vgl. auch 5 11963], 24—31 und 8 [1966], 162—178). S а с h s V. Die Sequenzanalyse als statistische Prufmethode im Rahmen medizini- scher experimenteller, insbesondere klinischer Untersuchungen. Arztl. Forschg. 14 A962), 331—345. SchneidermanM. A. A family of closed sequential procedures. Biometrika 49 A962), 41—56. — and Ar mit age P. Closed sequential t-tests. Biometrika 49 A962), 359—366 (vgl. auch 41—56). Corrections 56 A969), 457. S p i с е г С. С Some new closed sequential designs for clinical trials. Biometrics 18 A962), 203—211. Vogel W. Sequentielle Versuchsplane. Metrika 4 A961), 140—157 (vgl. auch Un- ternehmensforschung 8 if 1964], 65—74). Wa 1 d A. Sequential Analysis. New York, 1947. Вальд А. Последовательный анализ. М., Физматгиз, 1960. Weber Erna. Grundrifi der Biologischen Statistik. 6. Aufl. (G. Fischer, 674 S.). Stuttgart, 1967, S. 395—482. Wet her ill G. B. A) Sequential estimation of quantal response curves. With discussion. J. Roy. Statist. Soc, Ser. В 25 A963), 1—48. B) Sequential Methods in Statistics. London, 1966. W i n n e D. Die sequentiellen statistischen Verfahren in der Medizin. Arzneim.- Forschg. 15 A965), 1088—1091. Wohlzogen F. X. und W о h 1 z о g e n-B ukovics E. Sequentielle Parame- terschatzung bei biologischen Alles-oder-Nichts-Reaktionen. Biometr. Zeitschr. 8 A966), 84—120. Биологические испытания: A r m i t a g e P. and Allen Irene. Methods of estimating the LD 50 in quantal response data. J. Hygiene 48 A950), 298—322. A s h f о r d J. R. An approach to the analysis of data for semiquantal responses in biological assay. Biometrics 15 A959), 573—581. Axtell Lilian M. Computing survival rates for chronic disease patients. A simple procedure. J. Amer. Med. Assoc. 186 A963), 1125—1128. Behrens B. und Schlosser Lucie. Beitrag zur Bestimmung der LD50 und der Berechnung ihrer Fehlerbreite. Arch. exp. Path. u. Pharm. 230 A957), 5$—72. Bennett В. М. Use of distribution-free methods in bioassay. Biometr. Zeitschr. H A969), 92—104. Bliss С I. A) The Statistics of Bioassay. New York, 1952. B) Statistics in Biology. Vol. 3. New York, 1972. Borth R., Diczfalusy E. und Heinrichs H. D. Grundlagen der statistischen Auswertung biologischer Bestimmungen. Arch. Gynak. 188 A957), 497—538 (vgl. auch Borth et al.: Acta endocr. 60 )fl960], 216—220). Brock N. und Schneider B. Pharmakologische Charakterisierung von Arznei- mitteln mit Hilfe des Therapeutischen Index. Arzneim.-Forschg. 11 A961), 1—7. 553
Bross L. Estimates of the LD50: A Critique. Biometrics 6 A950), 413—423. Brown B. W. Some properties of the Spearman estimator in bioassay. Biometrb ka 48 A961), 293—302. Brown B. W. Jr. Planning a quantal assay of potency. Biometrics 22 A966), 322—329. Buckland W. R. Statistical Assessment of the life Characteristic: A Bibliographic Guide. New York, 1964. Burn J. Biologische Auswertungsmethoden. 2. Aufl. Berlin, 1953. С a v a 11 i-S f о r z a L. Grundbegriffe der Biometrie. (Bearb. v. R. J. Lorenz; G. Fischer, 209 S.). Stuttgart, 1964 B. Aufl. 1969). Cochran W. G. and Davis M. The Robbins-Monro method for estimating the median lethal dose. J. Roy. Statist. Soc, Ser. В 27 A965), 28—44. Cornfield J. and Mantel N. Some new aspects of the application of maximum likelihood to the calculation of the dosage response curve. J. Amer. Statist. Assoc. 45 A950), 181—209. —, G о r d on T. and Smith W. W. Quantal response curves for experimentally uncontrolled variables. Bull. Intern. Statist. Inst. 38 A961), 97—115. Cox C. P. Statistical analysis of log-dose response bioassay experiments with experiments with unequal dose ratios for the standard and unknown preparations. J. Pharmaceut. Sci. 56 A967), 359—364. Cox C. P. and Ruhl Donna J. Simplified computation of confidence intervals for relative potencies using Fiellers theorem. J. Pharmaceutical Sci. 55 A966), 368—379. Das M. N. and К u 1 к а г n i G. A. Incomplete block designs for bio-assays. Biometrics 22 A966), 706—729. D i x о n W. J. The up-and-down method for small samples. J. Amer. Statist. Assoc. 60 A965), 967—978. — and Mood A. M. A method for obtaining and analyzing sensitivity data. J. Amer. Statist. Assoc. 43 A948), 109—126. Emmens С W. Statistical Methods, in R. I. Dorfman (Ed.): Methods in Hormone Research, Vol. II. Bioassay, Chapter I, pp. 3—56. New York, 1962. Fink H. und H u nd G. Probitanalyse mittels programmgesteuerter Rechenanla- gen. Arzneim.-Forschg. 15 A965), 624—630. —, H u n d G. und M e у s i n g D. Vergleich biologischer Wirkungen mitteis pro- grammierter Probitanalyse. Method. Inform. Med. 5 A966), 19—25. Finney D. J. A) Probit Analysis. 2nd ed. London 1952, 3rd ed. (Cambridge Univ. Press, p. 334), Cambridge and London 1971. B) Statistical Method in Biological Assay. 2nd ed. London, 1964. G a d d u m J. H. A) Simplified mathematics for bioassay. J. Pharmacy a. Pharmacology 6 A953), 345—358. B) Bioassay and mathematics. Pharmacol. Rev. 5 A953), 87—134. G о 1 u b A. and G r u b b s F. E. Analysis of sensitivity experiments when the levels of stimulus cannot be controlled. J. Amer. Statist. Assoc. 51 A956), 257—265. International Symposium on Biological Assay Methods. (Red.: R. H. Regamey) (Karger. p. 262) Basel. New York, 1969. К а г b e r G. Ein Beitrag zur kollektiven Behandlung pharmakologischer Reihenver- suche. Archiv fur experimented Path, und Pharmakologie 162 A931), 480—483. Kaufmann H. Ein einfaches Verfahren zur Auswertung von Dberlebenskurven bei todlich verlaufenden Erkrankungen. Strahlentherapie 130 A966), 509—527. К i m b a 11 A. W., В u г n e 11 W. T. Jr. and D о h e г t у D. G. Chemical protection against ionizing radiaton. I. Sampling methods for screening compounds in radiation protection studies with mice. Radiation Research 7 A957), 1—12. King E. P. A statistical design for drug screening. Biometrics 19 A963), 429—440. La z a r Ph. Les essais biologiques. Revue de Statistique Appliquee 16 (No. 3, 1968), 5-1-35. L i t с h f i e 1 d jr. J. T. and Wilcoxon F. A simplified method of evaluating dose-effect experiments. J. Pharmacol. Exptl. Therap. 96 A949), 99—113. M с А г t h u r J. W. and С о 11 о n T. (Eds.). Statistics in Endocrinology. Proc. Conf., Dedham, Mass., Dec. 1967. (MIT Press, p. 476) Cambridge, Mass. 1970. О b e r z i 11 W. Mikrobiologische Analytik. Grundlagen der quantitativen Erfassung von Umwelteinwirkungen auf Mikroorganismen. (Carl, 519 S.). Nurnberg, 1967. 554
dechnowitz A. F. Ein graphisches Verfahren zur Bestimmung von Mittel- wert und Streuung aus Dosis-Wirkungs-Kurven. Arch. exp. Veterinarmed. 12 A958), 696—701. P e t г u s z P., D i с z f a 1 u s у E. and F i n n e у D. J. Bioimmunoassay of gonado- trophins. Acta endocrinologica 67 A971), 40—62. Schneider B. Probitmodell und Logitmodell in ihrer Bedeutung fur die experi- mentelle Prufung von Arzneimitteln. Antibiot. et Chemother. 12 A964), 271—286. Stammberger A. Dber ein nomographisches Verfahren zur Losung der Prob- leme des Bio-Assay. Biometr. Zeitschr. 12 A970), 35—53 (vgl. auch S. 351—361). Ther L. Grundlagen der experimentellen Arzneimittelforschung. (Wiss. Verlags- ges., 439 S.) Stuttgart 1965, S. 74—112. Warner В. Т. Method of graphical analysis of 2+2 and 3-ЬЗ biological assays with graded responses. J. Pharm. Pharmacol. 16 A964), 220—233. Weil C. S Tables for convenient calculation of median-effective dose (LD50 or ED50) and instructions in their use. Biometrics 8 A952), 249—263. Техническая статистика: Abbott W. H. Probability Charts. St. Petersburg (P. O. Box 8455). Florida, 1960. Amstadter B. L. Reliability Mathematics. (McGraw-Hill, p. 320). New York, 1970. В a i n L. J. and T h о m a n D. R. Some tests of hypotheses concerning the three- parameter Weibull distribution. J. Amer. Statist. Assoc. 63 A968), 852-860. В a r 1 о w R. E. and ProschanF. Mathematical Theory of Reliability. New York, 1965. Bazovsky I. Reliability: Theory and Practice. Englewood Cliffs, N. J., 1961. Beightler C. S. and S h a m b 1 i n J. E. Sequential process control. Industrial Engineering 16 (March—April 1965), 101—108. Berrettoni J. N. Practical applications of the Weibull distribution. ASQC Con- vention (Cincinnati, Ohio, USA) Transactions 1962, pp. 303—323. В i n g h a m R. S. Jr. EVOP for systematic process improvement. Industrial Quality Control 20 (Sept. 1963), 17—23. В о w k e r A. H. and Lieberman G. P. Engineering Statistics. Englewood Cliffs, N. J. 1961. В ox G. E. P. A) Multi-factor designs of fir-st order. Biometrika 39 A952), 49—57. B) The exploration and exploitation of response surfaces: some general considerations and examples. Biometrics 10 A954), 16—60. C) Evolutionary operation:' a method for increasing industrial productivity. Applied Statistics 6 A957), 3—23. D) A simple system of evolutionary operation subject to empirical feedback. Univ. of Wisconsin. Dept. of Statistics, Technical Report No. 40, October 1964 bzw. Tech- nometrics 8 A966), 19—26. — and Draper N. R. A) A basis for the selection of a response surface design. J. Amer. Statist. Assoc. 54 A959), 622—654. B) Evolutionary Operation. A Statistical Method for Process. Improvement (Wiley, pp. 237). New York, 1969. — and Hunter J. S. A) Multifactor experimental designs for exploring response surfaces. Ann. Math. Statist. 28 A957), 195—241. B) Experimental designs for the exploration and exploitation of response surfaces. In V. Chew (Ed.), Experimental Designs in Industry, New York 1958, pp. 138—190. C) Condensed calculations for evolutionary operations programs. Technometrics 1 A959), 77—95. D) A useful method for model-building. Technometrics 4 A962), 301—318. — and L u с a s H. L. Design of experiments in non-linear situations. Biometrika 46 A959), 77—90. — and W i 1 s о п К. В. On the experimental attainment of optimum conditions. J. Roy. Statist. Soc, Ser. В 13 A951), 1—45. — and Youle P. V. The exploration and exploitation of response surfaces: an example of the link between the fitted surface and the basic mechanism of the system. Biometrics 11 A955), 287—323. В rooks S. H. A comparison of maximum seeking methods. Operations Research 7 '— and M i с k e у М. R. Optimum estimation of gradient direction in steepest ascent experiments. Biometrics 17 A961), 48—56. В u r d i с k D. S. and N а у 1 о г Т. Н. Response surface methods in economics. Rev. 555
Internat. Statist. Inst. 37 A969), 18—35. Ней лор Т. и др. Машинные имитационные эксперименты с моделями экономических систем. М., «Мир», 1975. С о h e n А. С. jr. Maximum likelihood estimation in the Weibull distribution based on complete and on censored samples. Technometrics 7 A965), 579—588. D'A g о s t i n о R. B. Linear estimation of the Weibull parameters. Technometrics 13 A971), 171—182. Da vies O. L. Design and Analysis of Industrial Experiments, London, 1956, Chapter 11. Dean B. V. and Marks E. S. Optimal design of optimization experiments. Operations Research 13 A965), 647—673. Dombrowski E. Normen und verwandte Unterlagen auf dem Zuverlassigkeits* gebeit. Technische Zuverlassigkeit in Einzeldarstellungen. Oldenbourg, Munchen, Dezember 1966, Heft 8, S. 67—85. D r n a s Т. М. Methods of estimating reliability. Industrial Quality Control 23 A966), 118—122. Dubey S. D. A) On some statistical inferences for Weibull laws. Naval Res. Lo- gist. Quart. 13 A966), 227—251. B) Normal and Weibull distribution. Naval Res. Logist. Quart. 14 A967), 69—79. C) Some simple estimators- for the shape parameter of the Weibull laws. Naval Res. Logist. Quart. 14 A967),489—512. D) Some percentile estimators for Weibull parameters. Technometrics 9 A967), 119—129. E) On some permissible estimators of the location parameter of the Weibull and certain other distributions. Technometrics 9 A967), 293—307. Duckworth W. T. Statistical Techniques in Technological Research: An Aid to Research Productivity. (Methuen, p. 303). London, 1968. Duncan A. J. Quality Control and Industrial Statistics. Homewood, 111. 1959, Chapter 37. Eagle E. L. Reliability sequential testing. Industrial Quality Control 20 (May 1964), 48—52. E i 1 о n E. Tafeln und Tabellen fur Wirtschaft und Industrie. Munchen, 1964. E n r i с k N. L. Einfache statistische Verfahren der Zuverlassigkeitssicherung. Technische Zuverlassigkeit in Einzeldarstellungen. Oldenbourg, Munchen, Juni 1966, Heft 7, S. 45—80. F e r r e 11 E. B. Control charts for log-normal universes. Industrial Quality Control 15 (August 1958), 4—6. F i s с h e r F. EinfluB der Wahl des Ausfallkriteriums auf die Verteilung der Lebens- dauer bei Benutzung der Weibull-Verteilung. Qualitat und Zuverlassigkeit 15 A970), 33—37. Freudenthal H. M. and G u m b e 1 E. J. On the statistical interpretation of fatigue tests. Proc. Roy. Soc, Ser. A 216 A953), 309—332. Gnedenko B. W. В e 1 j a j e w J. K. und S о 1 о w j e w A. D. Mathematische Methoden der Zuverlassigkeitstheorie I. (Math. Lehrb. u. Monogr., Bd. XXI) (Aka- demie-Vlg., 222 S.). Berlin, 1968. Гнеденко Б. В., Беляев Ю. К., Соловьев А. Д. Математические методы в теории надежности. М., «Наука», 1965. G о 1 d m a n A. S. and Slattery Т. В. Maintainability. A Mayor Element of System Effectiveness. New York, 1964. Goode H. P. and К а о J. H. K. A) Sampling procedures and tables for life and reliability testing based on the Weibull distribution (hazard rate criterion) Proc. 8, natl. Symp. Reliab. Quality Contr. 1962, 37—58. B) Weibull tables for bio-assaying and fatigue testing. Dept. of Industrial and Engineering Adm., Techn. Report No. 8, Cornell Univ. Ithaca, N. Y., September 1962. Gottfried P. and Roberts H. R. Some pitfalls of the Weibull distribution. Ninth Symp. on Reliability and Quality Control, pp. 372—379, San Francisco, Calif. (Jan. 1963). GrynaF. M. jr., McAfee N. J., Rуesоn C. M. and Zwer 1 ing S. Reliability Training Text. (Institute of Radio Engineers). New York, 1960. Hahne G. Statistische Qualitatskontrolle — neue Gerate fur ihre Durchfuhrung. Qualitatskontrolle 3 (Marz 1966). 29—31. H a r t e г H. L. and D u b e у S. D. Theory and tables for tests of hypotheses conser- ning the mean and the variance of a Weibull population. ARL Tech. Rep. No. 67-0059 (Aerospace Research Laboratories, pp. 393), Wright-Patterson Air Force Base, Ohio, 1967. 556
Heinhold J. und Gaede K.-W. Ingenieur-Statistik. 2. Aufl., (Oldenbourg, 346 S.) Munchen-Wien, 1968. H i 11 W. J. and Hunter W. G. A review of response surface methodology: a literature survey. Technometrics 8 A966), 571—590. H i 11 i e г F. S. Small sample probability limits for the range chart. J. Amer. Statist. Assoc. 62 A967), 1488—1493 (siehe 63, 1549). Hohndorf K. Zuverlassigkeiten in der Luftfahrttechnik. VDI-Zeitschrift 110 A968), 521—523. Honeychurch J. Lambda and the question of confidence. Microelectronics Reliability 4 A965), 123—130. Hunter W. G. and Kittrel J. R. Evolutionary operation: a review. Techno* metrics 8 A966), 389—397. IresonW.G. (Ed.) Reliability Handbook. New York, 1966. J о h n s jr. M. V. and L i e b e r m a n G. J. An exact asymptotically efficient confidence bound for reliability in the case of the Weibull distribution. Technometrics 8 A966), 135—175. Johnson L. G. Theory and Technique of Variation Research. (Elsevier, p. 105). Amsterdam, 1964. К a be D. G. Testing outliers from an exponential population. Metrika 15 A970), 15—18 (vgl. auch J. Likes: 11 i[1966], 46—54). Kanno A. (freie deutsche Bearb. v. E. Rusch). Zuverlassigkeit von Nachrichtenge- raten. Technische Zuverlassigkeit in Einzeldarstellungen. Oldenbourg, Munchen, Juli 1967, Heft 9, S. 68—92. К а о J. H. K. A graphical estimation of mixed parameters in life testing electron tubes. Technometrics 1 A959), 389—407. Kenworthy I. C. Some examples of simplex evolutionary operation in the paper industry. Applied Statistics 16 A967), 211—224. Kiefer J. C. Optimum experimental designs. J. Roy. Statist. Soc, Ser. В 21 A959), 272—319. Knowler L. A., Ho we 11 J. M., Gold В. К., Coleman E. P., Moan О. В. and Knowler W. C. Quality Control by Statistical Methods. (McGraw-Hill, p. 139). New York, 1969. Kumar S. and P a t e 1 H. I. A test for the comparison of two exponential distributions. Technometrics 13 A971), 183—189. Lieblein J. and Zelen M. Statistical"investigation of the fatigue life of deep- groove ball bearings. J. Res. Nat. Bur. Stds. 57 (Nov. 1956), 273—319. L i p о w M. Some recently developed methods for reliability demonstration using small numbers of tests. TRW Systems. Report No. 66-4002. 1—48, Redondo Beach, Calif., May 1966. Lloyd D. K. and L i p о w M. Reliability: Management, Methods, and Mathematics. Englewood Cliffs, N. J., 1962. Ллойд Д. К., Лип о в М. Надежность. Организация исследования, методы, математический аппарат. М., «Сов. радио», 1964. Lowe С. W. Industrial Statistics. Vol. 2. (Business Books Ltd., p. 294). London, 1970. Chapter 12. Mann Nancy R. A) Tables of obtaining the best linear invariant estimates of parameters of the Weibull distribution. Technometrics 9 A967), 629—645. B) Point and interval estimation procedures for the two-parameter Weibull and extreme-value distribution. Technometrics 10 A968), 231—256. McCall J. J. Maintenance policies for stochastically failing equipment: a survey. Management Science 11 A965), 493—524. Morice E. A) Quelques modeles mathematiques de duree de vie. Revue de Stati- stique Appliquee 14 A966), No. 1, 45—126. B) Quelques problemes d'estimation 'relatifs a la loi de Weibull. Revue de Statistique Appliquee 16 A968), No. 3, M о r r i s о n J. The lognormal distribution in quality control. Applied Statistics 7 A958), 160—172. Mуhre J. M. and Saunders S. C. Comparison of two methods of obtaining approximate confidence intervals for system reliability. Technometrics 10 A968), 557
N el son L. S. A) Tables for a precedence life test. Technometrics 5 A963), 491—- 499. B) Weibull probability paper. Industrial Quality Control 23 A967), 452—455. N e 1 s о n W. A statistical test for equality of two availabilities. Technometrics 10 A968), 594—596 (siehe auch S. 883 und 884). О e h m e F. Ein Spezialrechenschieber zum Auswerten von Stichprobentests und zur Analyse der Systemzuverlassigkeit. Technische Zuverlassigkeit in Einzeldar- stellungen. Oldenbourg, Munchen, Juni, 1966, Heft 7, S. 81—84. Ostle B. Industry use of statistical test design. Industrial Quality Control 24 (July 1967), 24—34. Pearson E. S. Comments on the assumption of normality involved in the use of some simple statistical techniques. Rev. beige Statist. Rech. operat. 9 A969), Nr. 4, 2—18. P e n g К. С The Design and Analysis of Scientific Experiments. (Addison-Wesley, pp. 252). Reading, Mass. 1967, Chapter 8. Pieruschka E. Principles of Reliability. Englewood Cliffs, N. J. 1962. P 1 a i t A. The Weibull distribution — with tables. Industrial Quality Control 19 (Nov. 1962), 17—26. Prairie R. R. Probit analysis as a technique for estimating the reliability of a simple system. Technometrics 9 A967), 197—203. Q u г e i s h i A. S., N a b a v i a n K. J. and A1 a n e n J. D. Sampling inspection plans for discriminatmg between two Weibull processes. Technometrics 7 A965), 589—601. R a v e n i s J. V. J. Estimating Weibull-distribution parameters. Electro-Technology, March 1964, 46—54. R i с e W. B. Control Charts in Factory Management, 3rd ed. New York, 1955. Roberts N. H. Mathematical Methods in Reliability Engineering. New York, 1964. Sandier G. H. System Reliability Engineering. Englewood Cliffs, N. J., 1963. Сандлер Дж. Техника надежности систем. М., «Наука», 1966. Schindowski E. und Schtirz О. Statistische Qualitatskontrolle. 3. uberarb. Aufl., Berlin, 1966. Шиндовский Э., Шюрц О. Статистические методы контроля производства. М., Госстандарта дат, 1969. S с h m i d R. С. Einige einfache Hilfsmittele bei Zuverlassigkeitsuberlegungen. Technische Zuverlassigkeit in Einzeldarstellungen. Oldenbourg, Munchen, Dezem- ber 1965, Heft 6, S. 88—100. Shooman M. L. Probabilistic Reliability: An Engineering Approach (McGraw- Hill, p. 524). New York, 1968. Simonds T. A. MTBF confidence limits. Industrial Quality Control 20 (Dec. 1963), 21—27. Smirnow N. W. und D u n i n-B arkowski I. W. Mathematische Statistik in der Technik. Neu bearb. v. W. Richter (VEB Dtsch. Vlg. d. Wissensch., 479 S.). Berlin, 1969. Смирнов Н. В., Дуни н-Б арковский И. В. Курс теории вероятностей и математической статистики для технических приложений. М., "• «Наука», 1965. Stange К. A) Ermittlung der Abgangslinie fur wirtschaftliche und technische Gesamtheiten. Mitteilungsbl. Mathem. Statistik 7 A955), 113—151. B) Stichpro- benplane fur messende Prufung: Aufstellung und Handhabung mit Hilfe des dop- pelten Wahrscheinlichkeitsnetzes. Deutsche Arbeitsgemeinschaft fur statistische Qualitatskontrolle beim Ausschufi fur wirtschaftliche Fertigung. (ASQ/AWF), Beuth-Vertrieb, Berlin, 1962. C) Optimalprobleme in der Statistik. Ablauf- und Planungsforschung (Operational Research) 5 A964), 171—190. D) Die Berech- nung wirtschaftlicher Plane fur messende Prufung. Metrika 8 A964), 48—82. E) Statistische Verfahren irn Betrieb zur Uberwachung, Prufung und Verbesse- rung der Qualitat. Allgem. Statist. Arch. 49 A965), 14—46. F) Eine Verallgemei- nerung des zeichnerischen Verfahrens zum Testen von Hypothesen im Wurzelnetz (Mosteller-Tukey-Netz) auf drei Dimensionen. Qualitatskontrolle 10 A965), 45— 52. G) Die zeichnerische Ermittlung von Folgeplanen fur messende Prufung bei bekannter Varianz der Fertigung. Biometrische Zeitschr. 8 A966), 55—74. (8) Ein Naherungsverfahren zur Berechnung optimaler Plane fur messende Prufung bei bekannten Kosten und bekannter Verteilung der Schlechtanteile in den vorgelegten 558
Liefermengen. Metrika 10 A966), 92—136. (9) Die Wirksamkeit von Kontrollkarten. 1. Die x- und jc-Karle. Qualitatskontrolle 11 A966), 129—137. A0) Die Wirksamkeit von Kontrollkarten. П.-Die s- und R-Karte zur Uberwachung der Fertigungs- streuung. Qualitatskontrolle 12 A967), 13—20 (vgl. auch 73—75). A1) Die Bestimmung von Toleranzgrenzen mit Hilfe statistischer Uberlegungen. Quaiitats- kontrolle 14 A969), 57—63. A2) Folgeplane fur messende Priifung bei bekannter Varianz der Fertigung und einem nach oben und unten abgegrenzten Toleranzbe- reich fur die Merkmalwerte. Biometrische Zeitschr. 11 A969), 1—24. — und Henning H.-J. Formeln und Tabellen der mathematischen Statistik. 2. bearb. Aufl., Berlin, 1966, S. 189—220. Steinecke V. Statistische Auswertungen von Storungen an elektrischen Anla- gen. Stahl und Eisen 77 A957), 100—103. S t 6 r m e r H. Mathematische Theorie der Zuverlassigkeit. Einfiihrung und Anwen- dung. (Oldenbourg; 329 S.). Munchen-Wien, 1970. T h о m a n D. R. and Bain L. J. Two sample tests in the Weibull distribution. Technometrics 11 A969),.805—815. T h о m a n D. R., В a i n 1 J. and A n 11 e С. Е. Inferences on the parameters of the Weibull distribution. Technometrics 11 A969), 445—460. . Uhlmann W. Kostenoptimale Prufplane. Tabellen, Praxis und Theorie eines Ver- fahrens der statistischen Qualitatskontrolle. (Physica-Vlg., 129 S.). Wurzburg- Wien, 1969. Watson G. S. and Leadbetter M. R. Hazard analysis. I. Biornetrika 51 A964), 175—184. Weibull W. A)A statistical distribution function of wide applicability. J. Applied Mechanics 18 A951), 293—297. B) Fatigue Testing and Analysis of Results. Oxford, 1961. Вейбулл У. Усталостные испытания и анализ их результатов. М., «Машиностроение», 1964. Wilde D. J. Optimum Seeking Methods. Englewood Cliffs, N. J. 1964. Уайлд Д. Дж. Методы поиска экстремума. М., «Наука», 1967. Wucherer H. Zur Memessung von wirtschaftlich-optimalen Attribut-Stichpro- benplanen. Qualitatskontrolle 10 (Nov. 1965), 113—119. Zaludova Agnes H. Problemes de duree de vie. Applications a Tindustrie automobile A). Revue de Statistique Appliquee 13 A965), No. 4, 75—98. Zelen M. (Ed.). Statistical Theory of Reliability. Madison (Univ. of Wise). 1963. Линейное программирование и исследование операций: Becker A. M. und М а г с h a I M. Netzplantechnik und elektronische Datenver- arbeitung. VDI-Zeitschrift 109 A967), 1161—1168 und 1222—1227. Beer S. Decision and Control. 2 Vols. (Wiley, p. 576). London, 1966. Brusberg H. Der Entwicklungstandt der Unternehmentforschung mit beson- derer Beriicksichtigung der Bundesrepublik Deutschland. Wiesbaden, 1965. С о 11 a t z L. und W e 11 e r 1 i n g W. Optimierungsaufgaben. Berlin-Heidelberg, 1966. Dantzig G. B. (ubersetzt u. bearb. von A. Jaeger). Lineare Programmierung und Erweiterungen. Berlin-Heidelberg, 1966. Данциг Дж. Линейное программирование, его применения и обобщения. М., «Прогресс», 1966. Fabrycky W. J. and Torgersen P. E. Operations Economy: Industrial Applications of Operations Research. Englewood Cliffs, N. J. 1966, Chapter 16. FaureR., Boss I.-P. und L e G a r f I A. Grundkurs der Unternehmensforschung. Munchen, 1962. F 1 a g 1 e С D., H u g g i n s W. H. and R о у R. H. (Eds.): Operations Research and Systems Engineering. Baltimore, 1960. G a s s S. I. Linear Programming. Methods and Applications. 3rd ed. (McGraw- Hill, p. 325). New York, 1969. Face С. Линейное программирование. М., Физ- матгиз, 1961. Harnes A. and Cooper W. W. Management Models and Industrial Applications of Linear Programming. New York, 1961. Henn R. (Hrsg.). Operations Research-Verfahren I—U (A. Hain) Meisenheim am Glan 1963—1968. Henn R. und Kunzi H. P. Einfuhrung in die Unternehmensforschung I, II. 559
(Heidelb. Taschenb. Nr. 38 und 39, Springer; 154 und 201 S.). Berlin-Heidelberg- New York, 1968. Hertz D. B. (Ed.). Progress in Operations Research II. New York, 1964. H i 11 i e r F. S. and Lieberman G. J. Introduction to Operations Research. (Holden-Day, p. 639) San Francisco, 1967. J о к s с h H. C. Lineares Programmieren. Tubingen, 1962. К ii n z i H. P. und О e 111 i W. Nichtlineare Optimierung. Neuere Verfahren. Bib- liographie. (Lecture Notes Nr. 16) (Springer, 180 S.). Berlin-Heidelberg-New York, 1969. Moore P. G. A survey of operational research. J. Roy. Statist. Soc. A 129 A966), 399—447. PhilipsonC. A review of the collective theory of risk. Skand. Aktuarietidskr. 51 A968), 45—68 und 117—133 (vgl. auch H. Buhlmann: 174—177). Sasieni M., Jaspan A. and Friedman L. (ubersetzt von H. P. Kunzi): Methoden und Probleme der Unternehmensforschung, Operations Research. Wuv/.- burg, 1962. Schneeweifi H. Okonometrie. (Physica-Vlg., 340 S.). Wurzburg-Wien, 1971. Shuchman A. (Ed.) Scientific Decision Making in Business. New York, 1963. S toller D. S. Operations Research: Process and Strategy. Univ. of Calif. Press, Berkeley, 1965. T h e i 1 H., В о о t J. C. G. and К 1 о е к Т. Operations Research and Quantitative Economics, an Elementary Introduction. New York, 1965. Thumb N. Grundlagen und Praxis der Netzplantechnik. (Moderne Industrie, 483 S.) Munchen 1968 (PERT, S. 175—243). Weinberg F. Grundlagen der Wahrscheinlichkeitsrechnung und Statistik sowie Anwendungen im Operations Research. (Springer, 352 S.). Berlin-Heidelberg- New York, 1968. W e i n e r t H. Bibliographie uber Optimierungsprobleme unter Ungewifiheit. In: Operationsforschung und Mathematische Statistik I (Hrsg. O. Bunke) Akademie- Verlag, Berlin, 1968, S. 137—151. Теория игр и игровые планы: Bauknecht К. Panzersimulationsmodell „Kompafi". Industrielle Organisation 36 A967), 62—70. Burger E. Einfuhrung in die Theorie der Spiele. 2. durchges. Aufl., Berlin, 1966. Charnes A. and Cooper W. W. Management Models and Industrial Applications of Linear Programming. Vol. I, II. New York; 1961. Dresher M. Games of Strategy: Theory and Applications. Englewood Cliffs, N. J. 1961. Дрешер М. Стратегические игры. Теория и приложение. М., «Сов. радио», 1964. S hap ley L. S. and Tucker A. W. (Eds.). Advances in Game Theory. Princeton (Univ. Press), N. J. 1964. E с k 1 e г A. R. A survey of coverage problems associated with point and area targets. Technometrics 11 A969), 561—589. Edwards W. The theory of dicision making. Psychological Bulletin 51 A954), 380—417 (vgl. auch Psychol. Rev. 69 i[1962], 109). Fain W. W., Fain J. B. and Karr H. W/ A tactical warfare simulation program. Naval Res. Logist. Quart. 13 A966), 413—436. HorvathW. J. A statistical model for the duration of wars and strikes. Behavioral Science 13 A968), 18—28. Isaacs R. Differential Games. A Mathematical Theory with Applications to Warfare and Pursuit, Control and Optimization. New York, 1965. P. Айзеке. Дифференциальные игры. М., «Мир», 1967. KemenyiJ. G., SchleiferA. jr., S n e 11 J. L. und ThompsonG. L. Mathematik fur die Wirtschaftspraxis. Dbersetzt von H.-J. Zimmermann. Berlin 1966, S. 410—475. Имеется русск. перев. родственной книги: Кемени Дж., Снелл Дж., Томпсон Дж. Введение в конечную математику. М., «Наука», 1У6о. L u с е R. D. and R a i f f a H. Games and Decisions. New York, 1957. Льюс Р., P а й ф а Г. Игры и решения. М., ЛЛ, 1,961. 560
Morgenstern O. Spieltheorie und Wirtschaftswissenschaft. Wien, Munchen, 1963. Neumann J. von. Zur Theorie der Gesellschaftsspiele. Math. Annalen 100 A928), 295—320. — und Morgenstern O. (Theory of Games and Economic Behavior. Princeton 1944, 3rd ed. 1953) Spieltheorie und wirtschaftliches Verhalten. Deutsch heraus- gegeben von F. Sommer, Wurzburg, 1961. Нейман Дж. фон, Морген- штерн О. Теория игр и экономическое поведение. М., «Наука», 1970. Owen G. Game Theory. (Saunders, pp. 228). Philadelphia, 1968. Оуэн Г. Теория игр. М., «Мир», 1971. Rapoport A. and Orwant С. Experimental games: a review. Behavioral Science 7 A962), 1—37 (vgl. auch 38—80). R i 1 e у V. and Young R. P. Bibliography on War Gaming. (Johns Hopkins Univ. Press, pp. 94) Baltimore, 1957. R о h n W. E. Fuhrungsentscheidungen im Unternehmensplanspiel. Essen, 1964. Shubik M. (Hrsg.). Spieltheorie und Sozialwissenschaften. Dbersetzt von Elisabeth Selten. Hamburg, 1965. V a j d a S. Theorie der Spiele und Linearprogrammierung. Berlin, 1966. Vogelsang R. Die mathematische Theorie der Spiele. Bonn, 1963. Williams J. D. The Compleat Strategyst Rev. ed., London, 1966. Вильяме Дж. Совершенный стратег или букварь по теории стратегических игр. Wilson A. (Dbers. aus dem Engl. von W. Hock). Strategie und moderne Fuhrung (List, 240 S.) Mtinchen, 1969. Young J. P. A Survey of Historical Development in War Games. Operations Research Office. (The Johns Hopkins Univ.) Bethesda, Md. August 1959. Методы Монте-Карло и вычисления на ЭВМ: A d I e r H., Elektronische Analogrechner. 2. (iberarb. u. erw. Aufl., (Dt. Vlg. d. Wissenschaften, 450 S.). Berlin, 1967. Ameling W. Aufbau und Wirkungsweise elektronischer Analogrechner. Braunschweig, 1963. Anke K-, Kaltenecker H. und О e t k e r R. Prozefirechner. Wirkungsweise und Einsatz. (Oldenbourg, 602 S.). Munchen und Wien, 1970. Anke K. und Sartorius H. Industrielle Automatisierung mit Prozefirechnern. Elektrotechnische Zeitschrift A 89 A968), 540—544. Barney G. C. and Hambury J. H. The components of hybrid computation. Computer Bulletin 14 A970), 31—36. Be key G. A. Hybrid Computation. (Wiley, pp. 464). New York, 1969. Bottger R. Die Leitsungsfahigkeit von Simulationsverfahren bei der Behand- lung von Strafienverkehrsproblemen. Ablauf und Planungsforschung 8 A967), 355—369. Buslenko N. P. und Schreider J. A. Monte-Carlo-Methode und ihre Ver- wirklichung mit elektronischen Digitalrechnern. Leipzig, 1964. Бусленко Н. П., Ш р е й д е р Ю. А. Метод статистических испытаний (Монте-Карло) и его реализация ьа ЦВМ. М., Физматгиз, 1961. Chambers J. M. Computers in statistical research. Simulation and computer- aided mathematics. Technometrics 12 A970), 1—15. Chorafas D. N Systems and Simulation. New York, 1965. Хорафас Д. Н. Системы и моделирование. М., «Мир», 1967. С о n w а у R. W. Some tactical problems in simulation. Management Science 10 (Oct. 1963), 47—61. Ehrenfeld S. and В е n-T u v i a S. The efficiency of statistical simulation procedures. Technometrics 4 A962), 257—275. E i 1 о n S. und D e z i e 1 D. P. The ,use of an analogue computer in some operational research problems. Operations Research Quarterly 16 A965), 341—365. Elektrotechnische Zeitschrift (ETZ), Ausgabe A 89 A968). Heft 19/20 vom 13. Sept. (insbes. S. 530—559). Fernbach S. and T a u b A. H. (Eds.). Computers and their Role in the Physical Sciences. (Gordon and Breach, p. 638). London, 1970. Fif er S. Analogue Computation. Vol. 1—4. New York, 1963. 561
Forrester J. W. Industrial Dynamics. New York, 1961. Форрестер Дж. Промышленная динамика. М., «Прогресс», 1971. Giloi W. A) Simulation und Analyse stochastischer Vorgange. Munchen 1967. B) Digital- und Analogrechner. VDI-Zeitschrift 110 A968), 677—684. — und Lauber R. Analogrechnen. Berlin, Heidelberg, 1963. G о r e n f 1 о R. Dber Pseudozufallszahlengeneratoren und ihre statistischen Eigen- schaften. Biometrische Zeitschr. 7 A965), 90—93: Guetzkow H. (Ed.). Simulation in Social Sciences: Readings. Englewood Cliffs, N. J, 1962. Hammersley J. M. and Handscomb D. C. Monte Carlo Methods. London, 1964. Harling J. Simulations techniques — a review. Operations Research 6 A958), 307—319. JamesM. L., Smith G. M. and W о 1 f о r d J. C. Analog Computer Simulation of Engineering Systems. New York, 1966. Jansson B. Random Number Generators. Stockholm, 1966. J e s s e n E. Probleme der Groftrechenanlagen. Elektrotechnische Zeitschrift A 89 A968), 544—547. Kalex E. und Mann D. (bearb. v. F. Brzoska). Wirkungsweise, Programmierung und Anwendung von Analogrechnern. Dresden, 1966. К a r p 1 u s W. J. Analog Simulation. New York, 1958. — and S о г о k a W. J. Analog Methods, Computation and Simulation. New York, 1959. К1 e r e r M. and К о г n G. A. (Eds.). Digital Computer User's Handbook. (McGraw- • Hill, p. 922). New York, 1967. К о x h о 11 R. Die Simulation — ein Hilfsmittel der Unternehmensforschung. Munchen und Wien, 1967. Lehmann F. Allgemeiner Bericht fiber Monte-Carlo-Methoden. Bla. Dtsch. Ges. Versich.-math. 8 A967), 431—456. Martin F. F. Computer Modeling and Simulation. (Wiley, pp. 331); New York, 1968. Мартин Ф. Моделирование на вычислительных машинах. М., «Сов. радио», 1972. Meyer H. A. (Ed.). Symposium on Monte-Carlo-Methods. New York, 1956. M i z e J. H. and С о x J. G. Essentials of Simulation. (Prentice-Hall International, p. 234). London, 1968. Morgenthaler G. W. The Theory and Application of Simulation in Operations Research. In Ackoff R. L. (Ed.). Progress in Operations Research I. New York, 1961, Chapter 9. Namneck P. Vergieich von Zufallszahlen-Generatoren. Elektronische Rechenan- lagen 8 A966), 28—32. N а у 1 о r Th. H., В a 1 i n t f у J. L., В u r d i с k D. S. ^nd ChuK. Computer Simulation Techniques. New York, 1966. N а у 1 о r Th. H., В u r d i с k D. S. and S a s s e r W. E. Computer simulation expe- rinments with economic systems: the problem of experimental design. J. Amer. Statist. Assoc. 62 A967), 1315—1337. Ней лор Т. и др. Машинные имитационные эксперименты с моделями экономических систем. М., «Мир», 1975. Rechenberg P. Grundzuge digitaler Rechenautomaten. Munchen, 1964. Richards R. К. Electronic Digital Systems. New York, 1966. R б p k e H. und R i e m a n n J. Analogcomputer in Chemie und Biologie. (Springer, 184 S.). Berlin, Heidelberg, New York, 1968. Rogers A. E. and Connolly T. W. Analog Computation in Engineering Design. New York, 1960. Schreider Y. A. (Ed.). Method of Statistical Testing (Monte Carlo Method). Amsterdam, 1964. Schreiter D. Simulationsmodelle als Bestandteile von Systemen der elektroni- schen Datenverarbeitung. Rechentechnik/Datenverarbeitung 4 (Marz 1967), 25—29. Seyfert H. Analog- und Prozefirechner. Interkama 1968. VDI-Zeitschrift 110 A968), 1515—1517. S h u b i k M. Bibliography on simulation, gaming, artificial intelligence and applied topics. J. Amer. Statist. Assoc. 55 A960), 736—751. S i p p 1 C. J. Computer Dictionary and Handbook. Indianapolis, 1966. 562
Smith J. U. M. Computer Simulation Models. (Griffin, pp. 112). London, 1968. Steinbuch K. (Hrsg.). Taschenbuch der Nachrichtenverarbeitung. 2. uberarb. Aufl., Berlin-Gottingen-Heidelberg, 1967. Tocher K. D. A) The Art of Simulation. London, 1963. B) Review of simulation languages. Operations Research Quarterly 16 A965), 189—217. Van der Laan P. and Oosterhoff J. Monte Carlo estimation of the powers of the distribution-free two-sample lesis of Wilcoxon, van der Waerden and Terry and comparison of these powers. Statistica Ncerlandica 19 A965), 265—275. Wilkins B. R. Analogue and Iterative Methods in Computation, Simulation and Control (Chapman and Hall; p. 276). London, 1970. W i n к 1 e r H. Elektronische Analogieanlagen. Berlin, 1961. Глава 3 Ailing D. W. Early decision in the Wilcoxon two-sample test. J. Amer. Statist, Assoc. 58 A963), 713—720. Anscombe F. J. Rejection of outliers. Technometrics 2 A960), 123—166. В a n e r j i S. K. Approximate confidence interval for linear functions of means of к populations when the population variances are not equal. Sankhya 22 (I960), 357+358. Bauer R. K. Der „Median-Quartile-Test": Ein Verfahren zur nichtparametrischen Prufung zweier unabhangiger Stichproben auf unspezifizierte Verteilungsunter- schiede. Metrika 5 A962), 1—16. Behrens W.-V. Ein Beitrag zur Fehlerberechnung bei wenigen Beobachtungen. Xandwirtschaftliche Jahrbucher 68 A929), 807—837. В e 1 s о n I. and N а к a n о К. Using single-sided non-parametric tolerance limits and percentiles. Industrial Quality Control 21 (May 1965), 566—569. Bhapkar V. P. and Deshpande J. V. Some nonparametric tests for mufti- sample problems. Technometrics 10 A968), 578—585. Birnbaum Z. W. and H a 11 R. A. Small sample distribution for multisample statistics of the Smirnov type. Ann. Math. Stat. 31 A960), 710—720. Bliss C. I. Statistics in Biology. Vol. 1 (Mc.Graw-Hill, p. 558). New York, 1967, p. 218—220. В о w к e r A. H. and Lieberman G. J. Engineering Statistics. (Prentice-Hall) Englewood Cliffs, N. J. 1959. Box G. E. P. Non-normality and tests on variances. Biometrika 40 A953). 318—335. — and Andersen S. L. Permutation theory in the derivation of robust criteria and the study of departures from assumption. With discussion. J. Roy. Statist Soc, Ser. В 17 A955), 1—34. В о у d W. С. A nomogramm for the "Studenf'-Fisher t test. J. Amer. Statist Assoc. 64 A969), 1664—1667. В r a d 1 e у J. V. Distribution-Free Statistical Tests. (Prentice-Hall, pp. 388) Englewood Cliffs, N. J. 1968, p. 118—122. Bradley R. A., M a r t i n D. C. and Wilcoxon F. Sequential rank-tests I. Monte Carlo studies of the two-sample procedure. Technometrics 7 A965), 463— 483. — S. D. Merchant and Wilcoxon F. Sequential rank tests II. Modified two-sample procedures. Technometrics 8 A966), 615—623. Breny H. L'etat actuel du probleme de Behrens-Fisher. Trabajos Estadist. 6 A955), 111—131. Burrows G. L. A) Statistical tolerance limits — what are they? Applied Statistics 12 A963), 133—144. B) One-sided normal tolerance factors. New tables and extended use of tables. Mimeograph, Knolls Atomic Power Lab., General Electric Company, USA, 1964. CacoullosT. A relation between t and ^-distributions. J. Amer. Statist. Assoc. 60 A965), 528—531. С a dwell J. H. A) Approximating to the distributions of measures of dispersion by a power of chi-square. Biometrika 40 A953), 336—346. B) The statistical treatment of mean deviation. Biometrika 41 A954), 12—18. 563
С h а с к о V. J. Testing homogeneity against ordered alternatives. Ann. Math. Sta» tist. 34 A963), 945—956. С h u n D. On an extreme rank sum test with early decision. J. Amer. Statist. As- soc. 60 A965), 859—863. Cochran W. G. A) Some consequences when the assumptions for the analysis of variance are not satisfied. Biometrics 3 A947), 22—38. B) Modern methods in the sampling of human populations. Amer. J. Publ. Health 41 A951), 647—653. C) Query 12, Testing two correlated variances. Technometrics 7 A965), 447—449. — Mosteller F. and Tuкеу J. W. Principles of sampling. J. Amer. Statist. Assoc. 49 A954), 13—35. Cohen J. Statistical Power Analysis for the Behavioral Sciences. (Academic Press, p. 416). New York, 1969. Conover W. J. Two ^-sample slippage tests. J. Amer. Statist. Assoc. 63 A968), 614—626. Croarkin Mary C. Graphs for determining the power of Student's t-test J. Res. Nat. Bur. Stand. 66 В A962), 59—70 (vgl. Errata: Mathematics of Computation 17 A963), 83 [334]). D'A g о s t i n о R. B. Simple compact portable test of normality: Geary's test revisited. Psychol. Bull. 74 A970), 138—140. Danziger L. and Davis S. A. Tables of distribution-free tolerance limits. Ann. Math. Statist. 35 A964), 1361—1365. Darling D. A. The Kolmogorov-Smirnov, Cramer-von Mises tests. Ann. Math, Statist. 28 A957), 823—838. Davies O. L. The Design and Analysis of Industrial Experiments. London, 1956, p. 614. Dietze Doris. Мог more than two. Perceptual and Motor Skills 25 A967), 589—602. Dixon W. J. A) Analysis of extreme values. Ann. Math. Statist. 21 A950), 488— 506. B) Processing data for outliers. Biometrics 9 A953), 74—89. C) Rejection of Observations. In Sarhan, A. E., and Greenberg, B. G. (Eds.): Contributions to Order Statistics. New York, 1962, p. 299—342. Русс, перев. в «Введение в теорию порядковых статистик». М., «Статистика», 1970; Диксон У. Отбраковка сомнительных наблюдений. Dixon W. J. and Tukey J. W. Approximate behavior of the distribution of Winsorized t (trimming/Winsorization 2). Techometrics 10 A968), 83—98. Dwyer P. S. Computational formulas for t2. The Amer. Statistician 12 (June 1958), 18+19. E d i n g t о n E. S. The assumption of homogeneity of variance for the f-test and nonparametric tests. Journal of Psychology 59 A965), 177—179. Faulkenberry G. D. and Daly J. C. Sample size for tolerance limits on a normal distribution. Technometrics 12 A970), 813—821. Fisher R. A. A) The comparison of samples with possibly unequal variances. Ann. Eugen. 9 A939), 174—180. B) The asymptotic approach to Behrens's integral, with further tables for the d test of significance. Ann. Eugen. 11 A941), 141—172. Fisher R. A. and Yates F. Statistical Tables for Biological, Agricultural and Medical Research, 6th ed., London, 1963. Gart J. J. A median test with sequential application. Biometrika 50 A963), 55—62/ Geary R. С A) Moments of the ratio of the mean deviation to the standard deviation for normal samples. Biometrika 28 A936), 295—305 (vgl. auch 27, 310/32 und 34, 209/42). B) Tests de la normalite Ann. Inst. Poincare 15 A956), 35—65. G i b b о n s J. D. On the power of two-sample rank tests on the equality of two distribution functions. J. Roy. Statist. Soc. В 26 A964), 293—304. GjeddebaekN. F. A) Contribution to the study of grouped observations. IV. Some comments on simple estimates. Biometrics 15 A959), 433—439. B) Contribution to the study of grouped observations. VI. Skandinavisk Aktuarietidskrift 45 A961), 55—73. G 1 a s s er G. J. A distribution-free test of independence with a sample of paired observations. J. Amer. Statist. Assoc. 57 A962), 116—133. Granger C. W. J. and N e a v e H. R. A quick test for slippage. Rev. Inst. Internal. Statist. 36 A968), 309—312. 564
G г а у b i 11 F. A. and С о n n e 11 T. L. Sample size required to estimate the ratio of variances with bounded relative error. J. Amer. Statist. Assoc. 58 A963), 1044— 1047. GuentherW С Determination of sample size for distribution-free tolerance limits. The American Statistician 24 (Febr. 1970), 44—46. G u r 1 a n d J. and McCullough R. S. Testing equality of means after a preliminary test of equality of variances. Biometrika 49 A962), 403—417. H a g a T. A two-sample rank test on location. Annals of the Institute of Statistical Mathematics 11 A960), B11—219). Hahn G. J. Factors for calculating two-sided prediction intervals for samples from a normal distribution. J. Amer. Statist. Assoc. 64 A969), 878—888 (und 65 |[197G], 1668—1676). H a 1 p e r i n M. Extension of the Wilcoxon-Mann-Whitney test to samples censored at the same fixed point. J. Amer. Statist. Assoc. 55 (I960), 125—138. Harmann A. J. Wilks' tolerance limit sample sizes. Sankhya A 29 A967), 215—218. H а г t e r H. L. Percentage points of the ratio of two ranges and power of the associated test. Biometrika 50 A963), 187—194. Herrey ErnaM. J. Confidence intervals based on the mean absolute deviation of a normal sample. J. Amer. Statist. Assoc. 60 A965), 257—269 (vgl. auch 66 ifl971], 187+188). Hodges J. L. Jr. and LehmannE. L. A) The efficiency of some nonparamet- ric competitors of the /-test. Ann. Math. Statist. 27 A956), 324—335. B) A compact table for power of the /-test. Ann. Math. Statist. 39 A968), 1629—1637. H о t e 11 i n g H. The behavior of some standard statistical tests under nonstandard conditions. Fourth Berkeley Symp. Math. Statist. Probab. Proc. (Univ. of Calif. Press.) Berkeley and Los Angeles, 1961, Vol. 1, p. 319—359. H u b b s C. L. and Hubbs C. An improved graphical analysis and comparison of series of samples. Systematic Zoology 2 A953), 49—56 and 92. Iglewicz В., Myers R. H. and Howe R. B. On the percentage points of the sample coefficient of variation. Biometrika 55 A968), 580+581. Jacobson J. E. The Wilcoxon two-sample statistic: tables and bibliography. J. Amer. Statist. Assoc. 58 A963), 1086—1103. Johnson N. L. and Welch B. L. Applications of the noncentral /-distribution. Biometrika 31 A940), 362—389. К i m P. J. On the exact and approximate sampling distribution of the two sample Kolmogorov-Smirnov criterion Dmn, m^n. J. Amer. Statist. Assoc. 64 A969), 1625—1637. Kolmogoroff A. N. Sulla determinazione empirica di una legge di distribuzio- ne, Giornale Istituto Italiano Attuari 4 A933), 83-^91. Koopfmans L. H., Owen D. B. and Rosenblatt J. I. Confidence intervals for the coefficient of variation for the normal and log normal distributions. Biometrika 51 A964), 25—32. Krishnan M. Series representations of the doubly noncentral /-distribution. 'J. Amer. Statist. Assoc. 63 A968), 1004—1012. KruskalW. H. A nonparamentric test for the several sampling problem. Ann. Math. Statist. 23 A952), 525—540. К r u s к a 1 W. H. and W a 11 i s W. A. Use of ranks in one-criterion variance analysis. J. Amer. Statist. Assoc. 47 A952), 583—621 und 48 A953), 907—911. Krutchkoff F. G. The correct use of the sample mean absolute deviation in confidence intervals for a normal variate. Technometrics 8 A966), 663—674 (sowie ein Report des Virginia Polytechnic Institute). Kuhlmeyer M. Die nichtzentrale /-Verteilung. Grundlagen und Anwendungen mit Beispielen. Lect. Notes Op. Res., Vol. 31 (Springer, 106 S.). Berlin, Heidelberg, New York, 1970 (Druckfehlerliste kostenlos beim Autor erhaltlich). L a a n P. van der. Simple distribution-free confidence intervals for a difference in location. Philips Res. Repts. Suppl. 1970, No. 5, p. 158. Levene H. Robust tests for equality of variances. In.I. Olkin and others (Eds.): Contributions to Probability and Statistics. Essays in Honor of Harold Hotelling, pp. 278—292. Stanford, I960. 565
Lieberman G. J. Tables for one-sided statistical tolerance limits. Industrial Quality Control 14 (Apr. 1958), 7—9. Lienert G. A. und Schulz H. Zum Nachweis von Behandlungswirkungen bei heterogenen Patientenstichproben. Arztliche Forschung 21 A967), 448—455. Likes J. Sample size for the estimation of means of normal populations. Biometrics 23 A967), 846—849. LindgrenB.W. Statistical Theory. New York, 1960, p. 401. L i n n i к Y. V. Latest investigation on Behrens-Fisher-problem. Sankhya 28 A A966), 15—24. Lord E. A) The use of range in place of standard deviation in the /-test. Biomet- rika 34 A947), 41—67. B) Power of the modified /-test (и-test) based on range. Biometrika 37 A950), 64—77. Ma се А. Е. Sample-Size Determination. New York, 1964. MacKinnon W. J. Table for both the sign test and distribution-free confidence intervals of the median for sample sizes to 1,000. J. Amer. Statist. Assoc. 59 A964), 935—956. Mann H. B. and Whitney D. R. On a test of whether one of two random variables is stochastically larger than the other. Ann. Math. Statist. 18 A947), 50-60. Marks E. S. Selective sampling in psychological research. Psychol. Bull. 44 A947), 267—275. M a s sey F. J. Jr. A) The distribution of the maximum deviation between two sample cumulative step functions. Ann. Math. Statist. 22 A951), 125—128. B) Distribution table for the deviation between two sample cumulatives. Ann. Math. Statist. 23 A952), 435—441. McCullough R. S., G u r 1 a nd J. and Rosenberg L. Small sample behaviour of certain tests of the hypothesis of equal means under variance heterogeneity. Biometrika 47 A960), 345—353. M с H u g h R. B. Confidence interval inference and sample size determination. The American Statistician 15 (April 1961), 14—17. M с N e m a r Q. Psychological Statistics, 3rd ed. New York, 1962. Mehta J. S. On the Behrens-Fischer problem. Biometrika 57 A970), 649—655. M eye r-B a h 1 b u r g H. F. L. A nonparametric test for relative spread in k unpaired samples. Melrika 15 A970), 23—29. Miller L. H. Table of percentage points of Kolmogorov statistics. J. Amer. Statist. Assoc. 51 A956), 113—115. M i 11 о n R. C. An extended table of critical values for the Mann-Whitney (Wilco- xon) two-sample statistic. J. Amer. Statist. Assoc. 59 A964), 925—934. M i t г a S. K. Tables for tolerance limits for a normal population based on sample mean and range or .mean range. J. Amer. Statist. Assoc. 52 A957), 88—94. M о о d A. M. On the asymptotic efficiency of certain nonparametric two sample tests. Ann. Math. Stat. 25 A954), 514—522. Moore P. G. The two sample /-test based on range. Biometrika 44 A957), 482— 489. M о s t e 11 e r F. A k-sample slippage test for an extreme population. Ann. Math. Stat. 19 A948), 58—65 (vgl. auch 21 [1950], 120—123). N e a v e H. R. A development of Tukeys quick test of location. J. Amer. Statist. Assoc. 61 A966), 949—964. N e a v e H. R. and G r a n g e r C. W. J. A Monte Carlo study comparing various two-sample tests for differences in mean. Technometrics 10 A968), 509—522. Nelson L. S. Nomograph for two-sided distribution-free tolerance intervals. Industrial Quality Control 19 (June 1963), 11—13. Neyman J. First Course in Probability and Statistics. New York, 1950. H e й- м а н Ю. Вводный курс теории вероятностей и математической статистики. М., «Наука», 1968. Owen D. В. A) Factors for one-sided tolerance limits and for variables sampling plans. Sandia Corporation, Monograph 607, Albuquerque, New Mexico, March 1963 B) The power of Students /-test. J. Amer. Statist. Assoc. 60 A965), 320—333 and 1251. C) A survey of propeities and applications of the noncentral /-distribution. Technometrics 10 A968), 445—478. 566
P a t n a i к Р. В. The noncentral chi-square and F distribution and their applications. Biometrika 36 A949), 202-232. Pearson E. S. and Stephens M. A. The ratio of range to standard deviation in the same normal sample. Biometrika 51 A964), 484—487. P e n f i e 1 d D. A. and McSweeney Maryellen. The normal scores test for the two-sample problem. Psychological Bull. 69 A968), 183—191. Peters C. A. F. Dber die Bestimmung des wahrscheinlichen Fehlers einer Beo- bachtung aus den Abweichungen der Beobachtungen von ihrem arithmetischen Mittel. Astronomische Nachrichten 44 A856), 30+31. P i e r s о n R. H. Confidence interval lengths for small numbers of replicates. U.S. Naval Ordnance Test Station. China Lake, Calif. 1963. P i 11 a i К. С S. and Buenaventura A. R. Upper percentage points of a substitute F-ratio using ranges. Biometrika 48 A961), 195+196. Potthoff R. F. Use of the Wilcoxon statisticjor a generalized Behrens-Fischer problem. Ann. Math. Stat. 34 A963), 1596—1599. Pratt J. W. Robustness of some procedures for the two-sample location problem. J. Amer. Statist. Assoc. 59 A964), 665—680 Potthoff R. F. Use of the Wilcoxon statistic for a generalized Behrens-Fischer J. Arner. Statist. Assoc. 59 A964), 665—680. Quesenberry C. P. and David H. A. Some tests for outliers. Biometrika 48 A961), 379—390. R a a t z U. Eine Modifikation des White-Tests bei grofien Stichproben. Biometri- sche Zeitschr. 8 A966), 42—54. Reiter S. Estimates of bounded relative error for the ratio of variances of normal distributions. J. Amer. Statist. Assoc. 51 A956), 481—488. Rosenbaum S. A) Tables for a nonparametric test of dispersion. Ann. Math. Statist. 24 A953), 663—668. B) Tables for a nonparametric test .of location. Ann. Math. Statist. 25 A954), 146—150. R у t z C. Ausgewahlte parameterfreie Prufverfahren im 2- und &-Stichproben-Fall. Metrika 12 A967), 189—204 und 13 A968), 17—71. Sachs L. Statistische Methoden. Ein Soforthelfer. (Springer, 103 S.). Berlin, Heidelberg, New York, 1970, S. 52—54 und 94—96. SandeliusS. A graphical version of TykeV's confidence interval for slippage. Technometrics 10 A968), 193+194. Sarhan A. E. and Greenberg B. G. (Eds.). Contributions to Order Statistics. New York, 1962. «Введение в теорию порядковых статистик». М., «Статистика», 1970. S a w J. G. A non-parametric comparison of two samples one of which is censored. Biometrika 53 A966), 599—602. S с h e f f ё Н. Practical solutions of the Behrens-Fisher problem. J. Amer. Statist. Assoc. 65 A970), 1501—1508. S с h e f f ё H. and T u k e у J. W. Another Beta-Function Approximation. Memorandum Report 28, Statistical Research Group, Princeton University 1949. Schmidt \V. Statistische Datenanalyse. Vereinfachte neuere Verfahren. Angew. Bot. 36 A962), 63-85. Shorack G. R. Testing and estimating rations of scale parameters. J. Amer. Statist. Assoc. 64 A969), 999—1013. S i e g e 1 S. Nonparametric Statistics for the Behavioral Sciences. New York, 1956, p. 278. S i e g e 1 S. and T u k e у J. W. A nonparametric sum of ranks procedure for relative spread in unpaired samples. J. Amer. Statist. Assoc. 55 A960), 429—445. Smirnoff N. W. A) On the estimation of the discrepancy between empirical curves of distribution for two independent samples. Bull. Universite Moskcv Ser Internet., Sect Л 2. B) A939), 3—8. B) Tables for estimating the goodness of fit of empirical distributions. Ann. Math. Statist. 19 A948), 279—281 Смирно в H. В. Бюлл. Моск. ун-та А2 B) A939), 3—8. Stammberger A. Uber einige Nomogramme zur Statistik. (Fertigungstechnik . und Betrieb 16 [1966], 260—263), oder Wiss. Z. Humboldt-Univ. Berlin Math- Nat. R. 16 A967), 86—93. S u k h a t m e P. V. On Fisher and Behrens's test of significance for the difference in means of two normal samples. Sankhya 4 A938), 39—48. 567
SzameitatK. und К о 11 er S. Dber den Umfang und die Genauigkeit von Stich- proben. Wirtschaft u. Statistik 10 NF A958), 10—16. — und K.-A. S chaffer. A) Fehlerhaftes Ausgangsmaterial in der Statistik und seine Konsequenzen fur die Anwendung des Stichprobenverfahrens. Allgemein. Statist. Arch. 48 A964), 1—22. B) Kosten und Wirtschaftlichkeit von Stichproben- statistiken. Allgem. Statist. Arch. 48 A964), 123—146. T h 6 n i H. P. Die nomographische Losung des "Mests. Biometrische Zeitschr. 5 A963), 31—50. T h о m p s о n jr. W. A. and E n d r i s s J. The required sample size when esimating variances. The American Statistician 15 (June 1961), 22+23. Thompson W. A. and Wi 11 ке Т. A. On an extreme rank sum test for outliers. Biometrika 50 A963), 375—383. Tiku M. L. Tables of the power of the F-test. J. Amer. Statist. Assoc. 62 A967), 525—539 (siehe 63, 1551). T r i с к e 11 W. H., W e 1 с h B. L. and J a m e s G. S. Further critical values for the two-means problem. Biometrika 43 A956), 203—205. Tukey J. W. A) A quick, compact, two-sample test to Duckworth's specifications. Technometrics 1 A959), 31—48. B) A survey of sampling from contaminated distributions. In I. Olkin and others (Eds.): Contributions to Probability and Statistics. Essays in Honor of Harold Hotelling. pp. 448—485, Stanford 1960. C) The future of data analysis. Ann. Math. Statist. 33 A962), 1—67, 812. Waerden B. L. van der. Mathematische Statistik. 2. Aufl., Berlin-Heidelberg* New York, 1965, S. 285/95, 334/5, 348/9. Русск. перев. с изд. 1957 г. Ван дер В а р д е н Б. Л. Математическая статистика. М., ИЛ, 1960. Walter E. Dber einige nichtparametrische Testverfahren. Mitteilungsbl. Mathem Statist. 3 A951), 31—44 und 73—92. W e i 1 e r H. A significance test for simultaneous quantal and quantitative responses. Technometrics 6 A964), 273—285. Weiling F. Die Mendelschen Eibversuche in biometrischer Sicht. Biometrische Zeitschr. 7 A965), 230—262, S. 240. W e i r J. B. de V. Significance of the difference between two means when the population variances may be unequal. Nature 187 A960), 438. Weissberg A. and Betty G. H. Tables of tolerance-limit factors for normal distributions. Technometrics 2 A960), 483—500. Welch B. L. A) The significance of the difference between two means when the population variances are unequal. Biometrika 29 A937), 350—361. B) The generalization of "Student's" problem when several different population variances are involved. Biometrika 34 A947), 28—35. W e n g e r A. Nomographische Darstellung statistischer Prufverfahren. Mitt. Verei- nig. Schweizer. Versicherungsmathematiker 63 A963), 125—153. Wilcoxon F. Individual comparisons by ranking methods. Biometrics 1 A945), 80—83. — К a 11 i S. K. and Wilcox Roberta A. Critical Values and Probability Levels for the Wilcoxon Rank Sum Test and the Wicoxon Signed Rank Test. Lederle Laboratories, Division Amer. Cyanamid Company, Pearl River, New York, August 1963. — Rhodes L. J. and Bradley R. A. Two sequential two-sample grouped rank tests with applications to screening experiments. Biometrics 19 A963), 58—84 (vgl. auch 20J1964], 892). — and Wilcox Roberta A. Some Rapid Approximate Statistical Procedures. Lederle Laboratories, Pearl River, New York, 1964. Wilks S. S. A) Determination of sample sizes for setting tolerance limits. Ann, Math. Statist. 12 A941), 91—96 B) Statistical prediction with special reference to the problem of tolerance limits. Ann. Math. Statist. 13 A942), 400—409. Winne D. A) Zur Auswertung von Versuchsergebnissen: Der Nachweis der Dber- einstimmung zweier Versuchsreihen. Arzneim.-Forschg. 13 A963), 1001—1006 B) Zur Planung von Versuchen: Wieviel Versuchseinheiten? Arzneim.-Forschg. 18 A968), 1611—1618. ZacekH. Eine Moglichkeit zur graphischen Berechnung des Standardfehlers bzw. Konfidenzintervalls eines Mittelwertes von Versuchsergebnissen. Arzneim.- Forschg. 14 A964), 1326—1328. 568
Учебники по выборочным методам: BloemenaA. R. Sampling from a Graph. Amsterdam, 1964. В i 11 e t e r E. P. Grundlagen der reprasentativen Statistik. Stichprobentheorie und Versuchsplanung. (Springer, 160 S.) Wien und New York, 1971. Cochran W. G. Sampling Techniques. 2nd ed., New York, 1963 (Dbersetzung erscheint 1971 bei de Gruyter). Кокрен У. Методы выборочных исследований. М., «Статистика», 1976. Con way Freda. Sampling: An Introduction for Social Scientists. (G. Allen and Unwin, p. 154). London, 1967. D e m i n g W. E. Sampling Design in Business Research. London, 1960. D e s a b i e J. Theorie et Pratique des Sondages. Paris, 1966. Raj D. Sampling Theory. (McGraw-Hill, p. 225). New York, 1968. И a n s e n M. H., H u r w i t z W. N. and M a d о w W. G. Sample Survey Methods and Theory. Vol. 1. Methods and Applications. New York, 1953. К e 11 e r e r H. Theorie und Technik des Stichprobenverfahrens. Einzelschriften d. Dtsch. Statist. Ges. Nr. 5, 3. Aufl. Munchen, 1963. К i s h L. Survey Sampling. New York, 1965. Menges G. Stichproben aus endlichen Gesamtheiten. Theorie und Technik. Frankfurt/Main, 1959. Murthy M. N. Sampling Theory and Methods. (Statistical Publ. Soc., p. 684). Calcutta, 1967. Namias J. Handbook of Selected Sample Surveys in the Federal Government. With Annotated Bibliography, 1960—1968 (St. John's University Press; p. 300). New York, 1969. P a r t e n.Mildred. Surveys, Polls, and Samples: Practical Procedures (Harper and Brothers, p. 624). New York, 1969 (Bibliography p. 537/602). Sampford M. R. An Introduction to Sampling Theory with Applications to Agriculture. London, 1962. S 1 о n i,m M. Sampling in a Nutshell. New York, 1960. Statistisches Bundesamt Wiesbaden (Herausgeber): Stichproben in der amtlichen Statistik. Stuttgart, 1960. S t u a r t A. Basic Ideas of Scientific Sampling. London, 1962. Sukhatme B. V. Sampling Theory of Surveys With Applications. New Delhi (Indien) and Ames (Iowa, USA), 1954. United Nations. A short Manual on Sampling. Vol. I. Elements of Sample Survey Theory. Studies in Methods Ser. F No. 9. New York, 1960. Yamane T. Elementary Sampling Theory. (Prentice-Hall, pp. 405). Englewood Cliffs, N. J. 1967. Zarkovich S. S. Sampling Methods and Censuses (Fao, UN, p. 213). Rome, 1965. Глава 4 Adler F. Yates correction and the statisticians. 3. Amer. Statist. Assoc. 46 A951), 490—501 (vgl. auch 47 [1952], 303). В a t e m a n G. On the power function of the longest run as a test for randomness in a sequence of alternatives. Biometrika 35 A948), 97—112 (vgl auch 34, 335/9- 44, 168/78; 45, 253/6; 48, 461/5). Bennett В. М. Tests of hypotheses concerning matched samples. J. Roy Statist. Soc. В 29 A967), 468—474. — and Horst C. Supplement to Tables for Testing Significance in a 2X2 Contingency Table. New York, 1966. — and H s u P. On the power function of the exact test for the 2X2 contingency table. Biometrika 47 A960), 393—397. * — and Under wood R. E. On McNemar's test for the 2X2 table and its power function. Biometrics 26 A970), 339—343. Bennett C. A. Application of tests for randomness: Ind. Eng. Chem. 43 A95П 2063-2067. ;' — and Franklin N. L. Statistical Analysis in Chemistry and the Chemical Industry. New York, 1954, p. 678, 685. 19 Зак. 930 569
Berchtold W. Die Irrtumswahrscheinlichkeiten des x2-Kriteriums fur Versuchszahlen. Z. angew. Math. Mech. 49 A969), 634—636. В i h n W. R. Wandlungen in der statistischen Zeitreihenanalyse und deren Bedeu- tung fur die okonomische Forschung. Jahrb. Nationalok. Statistik 180 A967)b 132—146 (vgl. auch Parzen 1967 und Nullau 1968). В i 11 e w i с z W. Z. The efficiency of matched samples: an empirical investigation. Biometrics 21 A965), 623—644. Birnbaum Z. W. Numerical tabulation of the distribution of Kolmogorov's statistic for finite sample size. J. Amer. Statist. Assoc. 47 A952), 425—441. BogartzR. S. A least squares method for fitting intercepting line segments to a set of data points. Psychol. Bull. 70 A968), 749—755 (vgl. auch 75 [1971], 2-94—296). В о x G E. P. and J e n к i n s G. M. Time Series Analysis, Forecasting and Control (Holden-Day, p. 500). San Francisco, 1970. Бокс Дж., Д женки не Г. Анализ временных рядов. Прогноз и управление. Вып. 1, 2. М., «Мир», 1974. Brayer E. F. Calculating the standard error of a proportion. Applied Statistics 6 A957), 67+68. Bradley J. V. A survey of sign tests based on the binomial distribution. J. Qua!. Technol. 1 A969), 89—101. Bredenkamp J. F-Tests zur Prufung von Trends und Trendunterschieden. Z. exper. angew. Psychologie 15 A968), 239—272. В г о s s I. D. J. Taking a covariable into account. J. Amer. Statist. Assoc. 59 A964), 725—736. С 1 о p p e г С J. and Pearson E. S. The use of confidence or fiducial limits illustrated in the case of the binomial. Biometrika 26 A934), 404—413. CochranW. G. A) The comparison of percentages in matched samples. Biometrika 37 A950), 256—266. B) The x2-test of goodness of fit. Ann. Math. Statist. 23 A952), 315—345. C) Some methods for strengthening the common chi- square tests. Biometrics 10 A954), 417—451. С о x D. R. and Stuart A. Quick sign tests for trend in location and dispersion Biometrika 42 A955), 80—95. Crow E. L. Confidence intervals for a proportion. Biometrika 43 A956), 423—435 Croxton F. E. and С о w d e n D. J. Applied General Statistics. 2nd ed. (Prentice-Hall). New York, 1955. С sorgo M. and Guttman I. On the empty cell test. Technometrics 4 A962), 235—247. Cureton E. E. The normal approximation to the signed-rank sampling distribution when zero differences are present. J. Amer. Statist. Assoc. 62 A967), 1068+ 1069. Darling D. A. The Kolmogorov-Smirnov, Cramer-von Mises tests. Ann. Math Statist. 28 A957), 823—838. D a v i d F. N. Two combinatorial tests of whether a sample has come from a given population. Biometrika 37 A950), 97—110. D a v i d H. A., H a r 11 e у H. O. and P e a r s о n E. S. The distribution of the ratio, in a single normal sample, of range to standard deviation. Biometrika 41 A954), 482-493. Davis H. T. The Analysis of Economic Time Series. San Antonio, Texas, 1963. Dixon W. J. and Mood A. M. The statistical sign test. J. Amer. Statist. Assoc 41 A946), 557—566. Documenta Giegy. Wissenschaftliche Tabellen, 7. Aufl., Basel 1968, S. 85—103 und 109—123. Duckworth W. E. and W у a 11 J. K. Rapid statistical techniques for operations research workers. Oper. Res. Quarterly 9 A958), 218—233. D u n n J. E. A compounded multiple runs distribution. J. Amer. Statist. Assoc. 64 A969), 1415—1423. E i s e n h a r t C, H a s t а у M. W. and W a 11 i s W. A. Techniques of Statistical Analysis. New York, 1947. F e 1 d m a n S. E. and К1 i n g e г Е. Short cut calculation of the Fisher-Yates "exact test". Psychometrika 28 A963), 289—291. Finney D. J., Latscha R., Bennett В. М. and Hsu P. Tables for Testing Significance in a 2X2 Contingency Table. Cambridge, 1963, 570
G a r t J. J. An exact test for comparing matched proportions in crossover designs. Biometrika 56 A969), 75—80. Gebelein H. Anwendung gleitender Durchschnitte zur Herausarbeitung von Trendlinien und Haufigkeitsverteilungen. Mitteilungsblatt f. math. Statistik 3 A951), 45—68. Gebhardt F. Verteilung und Signifikanzschranken des 3. und 4. Stichproben- momentes bei normalverteilten Variablen. Biometrische Zeitschr, 8 A966), 219—241. Gildemeister M. und B. L. Van der Waerden. Die Zulassigkeit des X2-Kriteriums fur kleine Versuchszahlen. Ber. Verh. Sachs. Akad. Wiss. Leipzig, Math.-Nat. Kl. 95 A944), 145—150. GlasserG. J. A distribution-free test of independence with a sample of paired observations. J. Amer. Statist. Assoc. 57 A962), 116—133. Good I. J. Significance tests in parallel and in series. J. Amer. Statist. Assoc. 53 A958), 799—813. Grizzle J. E. Continuity correction in the x2-test for 2X2 tables, The American Statistician 21 (Oct. 1967), 28—32 (sowie 23»[April 1969], 35). Harris B. (Ed.). Spectral Analysis of Time Series (Wiley, p. 319). New York, 1967. H о r b а с h L. Die Anwendung von Standardisierungsverfahren bei der Auswertung . therapeutischer Vergleichsreihen. Arzneimittelforschung 17 A967), 1279—1288. Jenkins G. M. Spectral Analysis and Its Applications (Holden-Day, pp. 520) San Francisco, 1968. — and W a 11 s D. E. Spectrum Analysis and Its Applications (Holden-Day, p. 350). San Francisco, 1968. Дженкинс Г., Ватте Д. Спектральный анализ и его приложения. М., «Мир», ьып. 1, 2, 1971, 1972. Jesdinsky H. J. Orthogonale Kontraste zur Priifung von Trends. Biometrische Zeitschrift 11 A969), 252—264. К i n с a i d W. M. The combination of tests based on discrete distributions. J. Amer. Statist. Assoc. 57 A962), 10—19. К1 e m m P. G. Neue Diagramme fur die Berechnung von Vierfelderkorrelationen. Biometrische Zeitschr. 6 A964), 103—109. Kolmogorov A. Confidence limits for an unknown distribution function. Ann. Math. Statist. 12 A941), 461—463. KruskalW. H. A nonparametric test for the several sample problem. Ann. Math. Statist. 23 A952), 525—540. Kullback S., KuppermanM. and Кu H. H. An application of information theory to the analysis of contingency tables, with a table of 2n In n, n= 1A) 10 000. J. Res. Nat. Bur. Stds. В 66 A962), 217—243. L e R о у H. L. Ein einfacher x2-Test fur den Simultanvergleich der inneren Struk» tur von zwei analogen 2X2 — Haufigkeitstabellen mit freien Kolonnen- und Zei- lentotalen. Schweizer. landw. Forschg. 1 A962), 451—454. L e v e n e H. On the power function of tests of randomness based on runs up and down. Ann. Math. Statist. 23 A952), 34—56. Li J. С R. Statistical Inference. Vol. I (Edwards Brothers, pp. 658). Ann Arbor, Mich. 1964, p. 466. Lienert G. A. A) Verteilungsfreie Methoden in der Biostatistik. Meisenheim am Glan, 1962, S. 99—102. B) Die zufallskritische Beurteilung psychologischer Variablen mittels verteilungsfreier Schnelltests. Psychol. Beitrage 7 (I962)» 183—215. L i 11 i e f о r s H. W. A) On the Kolmogorov-Smirnov test for normality with mean and variance unknown. J. Amer. Statist. Assoc. 62 A967), 399—402. Corrigenda 64 A969), 1702. B) On the Kolmogorov-Smirnov test for the exponential distribution with mean unknown. J. Amer. Statist. Assoc. 64 A969), 387—389. Ludwig O. Dber die stochastische Theorie der Merkmalsiterationen. Mittei- lungsbl. math. Statistik 8 A956), 49—82. MacKinnon W. J. Table for both the sign test and distribution-free confidence intervals of the median for sample sizes to 1,000. J. Amer. Statist. Assoc. 59 A964), 935-956. Marascuilo L. A. and McSweeney Maryellen. Nonparametric post hoc comparisons for trend. Psychological Bulletin 67 A967), 401—412. M a s s e у j r F. J. The Kolmogorov-Smirnov test for goodness of fit. J. Amer. Statist. Assoc. 46 A951), 68—78. 19* 571
Maxwell A. E. Comparing the classification of subjects by two independent judges. Brit. J. Psychiatry 116 A970), 651—655. McCornack R. L. Extended tables of the Wilcoxon matched pair signed rank statistic. J. Amer. Statist. Assoc. 60 A965), 864—871. McNemar Q. Note on sampling error of the differences between correlated proportions or percentages. Psychometrika 12 A947), 153+154. M i 11 er L. H. Table of percentage points of Kolmogorov statistics. J. Amer. Statist. Assoc. 51 A956), 111—121. Moore P. G. The properties of the mean square successive difference in samples from various populations. J. Amer. Statist. Assoc. 50 A955), 434—456. Neumann J. von, Kent R. H., В e 11 i n s о n H. B. and Hart B. I. The mean square successive difference. Ann. Math. Statist. 12 A941), 153—162. Nicholson W. L. Occupancy probability distribution critical points. Biomet- rika 48 A961), 175—180. N u 11 a u B. Verfahren zur Zeitreihenanalyse. Vierteljahreshefte zur Wirtschaftsfor- schung, Berlin, 1968, 1, 58—82. Olmstead P. S. Runs determined in a sample by an arbitrary cut. Bell Syst. Techn. J. 37 A958), 55—82. О 11 R. L. and F r e e S. M. A short-cut rule for a one-sided test of hypothesis for qualitative data. Technometrics 11 A969), 197—200. P a r z e n E. The role of spectral analysis in time series analysis. Rev. Int. Statist. Inst. 35 A967), 125—141 (vgl. auch das bei Holden-Day, San Francisco, Calif. 1969 erschienene Werk des Autors: Empirical Time Series Analysis). P a t n a i к Р. В. The power function of the test for- the difference between two proportions in a 2X2 table. Biometrika 35 A948), 157—175. Paulson E. and W a 11 i s W. A. Planning and analyzing experiments for comparing two percentages. In Eisenhart, Ch., M. W. Hastay and W. A. Wallis (Eds.)» Selected Techniques of Statistical Analysis, McGraw-Hill. New York and London, 1947, Chapter, 7. Pearson E. S. Table of percentage points of ]/&i and b2 in normal samples; a rounding off. Biometrika 52 A965), 282—285. Pearson E. S. and Hartley H. O. Biometrika Tables for Statisticians. Vol. I, 3rd ed., Cambridge, 1966. Pearson E. S. and Stephens M. A. The ratio of range to standard deviation in the same normal sample. Biometrika 51 A964), 484—487. Plackett R. L. The continuity correction in 2x2 tables. Biometrika 51 A964), 327—337. Quandt R. E. A) Statistical discrimination among alternative hypotheses and some economic regularities. J. Regional Sci. 5 A964), 1—23. B) Old and new methods of estimation and the Pareto distribution. Metrika 10 A966), 55—82. Radhakrishna S. Combination of results from several 2X2 contingency tables. Biometrics 21 A965), 86—98. Rao C. R. Linear Statistical Inference and Its Applications. New York, 1965, p. 337—342. PaoC. P. Линейные статистические методы и их применения. М., «Наука», 1968. Rehse E. Zur Analyse biologischer Zeitreihen. Elektromedizin 15 A970), 167— 180. R u n у о n R. P. and H a b e r A. Fundamentals of Behavioral Statistics. (Addison- Wesley, pp. 304) Reading, Mass. 1967, p. 258. Sachs L. Der Vergleich zweier Prozentsatze — Unabhangigkeitstests fur Mehrfel- dertafeln. Biometrische Zeitschr. 7 A965), 55—60. Sandier J. A test of the significance of the difference between the means of correlated measures, based on a simplification of Student's t. Brit. J. Psychol. 46 A955), 225+226. S a r г i s V. Nichtparametrische Trendanalysen in der klinisch-psychologischen Forschung. Z. exper. angew. Psychologie 15 A968), 291—316. Seeger P. Variance analysis of complete designs: Some practical aspects. (Alm- qvist and Wiksell, p. 225). Uppsala 1966, pp. 166—190. Seeger P. and Gabrielsson A. Applicability of the Cochran Q test and the F test for statistical analysis of dichotomous data for dependent samples. Psychol. Bull. 69 A968), 269—277. 572
Shapiro S. S. and Wilk M. B. A) An analysis of variance test for normality (complete samples). Biometrika 52 A965), 591—611. B) Approximations for the null distribution of the W statistic. Technometrics 10 A968), 861—866 (vgl. auch Statistica Neerlandica 22 [1968], 241—248). Shapiro S. S., W i 1 к M. B. and С h e n H. J. A comparative study of various tests for normality. J. Amer. Statist. Assoc. 63 A968), 1343—1372. S i e g e 1 S. Nonparametric Statistics for the Behavioral Sciences. New York, 1956, p. 161—166. S 1 а к t e r M. J.: A comparison of the Pearson chi-square and Kolmogorov good- ness-of-fit tests with respect to validity. J. Amer. Statist. Assoc. 60 A965), 854— 858; Corrigenda: 61 A966), 1249. S m i r n о v N. Tables for estimating the goodness of fit of empirical distributions. Ann. Math. Statist. 19 A948), 279—281. S t a nge K. und Henning H.-J. Formeln und Tabellen der mathematischen Statistik. 2. neu bearb. Aufl. Berlin, 1966. Stephens M. A. Use of the Kolmogorov-Smirnov, Cramer-Von Mises and related statistics without extesive tables. J. Roy. Statist. Soc. В 32 A970), 115—122. Stevens W. L. A) Distribution of groups in a sequence of alternatives. Ann. Eugenics 9 A939), 10—17. B) Accuracy of mutation rates. J. Genetics 43 A942), 301—307. Suits D. B. Statistics: An Introduction to Quantitative Economic Research. Chicago, 111. 1963, Chapter 4. Swed Frieda S. and Eisenhart C. Tables for testing randomness of grouping in a sequence of alternatives. Ann. Math. Statist. 14 A943), 83—86. T a t e M. W. and Brown Sara M. Note on the Cochran Q-test. J. Amer. Statist. Assoc. 65 A970), 155—160 (vgl. auch Biometrics 21 [1965], 1008—1010). Thomson G. W. Bounds for the ratio of range to standard deviation. Biometrika 42 A955), 268+269. Thurstone L. L. The edge-marking method of analyzing data. J. Amer. Statist. Assoc. 43 A948), 451—462. Tukey J. W. and McLaughlin D. H. Less vulnerable confidence and significance procedures for location based on a single sample: Trimming/Winsorization. Sankhya Ser. A 25 A963), 331—352. Ury H. K. A note on taking a covariable into account. J. Amer. Statist. Assoc. 61 A966), 490—495. VessereauA. Sur les conditions duplication du criterium y2 de Pearson. Bull. Inst. Int. Statistique 36 C) A958), 87—101. WaerdenB. L. vander. Mathematische Statistik. (Springer, 360 S.). Berlin und Heidelberg 1965, S. 224/226. Русск. перев. с изд. 1957 г. Ван дер В а р- ден Б. Л. Математическая статистика. М., ИЛ, 1960. W а 11 i s W. A. Rough-and-ready statistical tests. Industrial Quality Control 8 A952 E), 35—40. — and M о о r e G. H. A significance test for time series analysis. J. Amer. Statist. Assoc. 36 A941), 401—409. Walter E. A) Uber einige nichtparametrisrche Tcstverfahren. I, II. Mitteilungsbl. Mathemat. Statistik 3 A951), 31—44, 73—92. B) x2-Test zur Prufung der Sym- metrie bezuglich Null. Mitteilungsbl. Mathemat. Statistik 6 A954), 92—104. C) Einige einfache nichtparametrische uberall wirksame Tests zur Prufung det Zweistichprobenhypothese mit paarigen Beobachtungen. Metrika 1 A958), 81—88. Weichselberger K. Uber eine Theorie der gleitenden Durchschnitte und ver- schiedene Anwendungen dieser Theorie. Metrika 8 A964), 185—230. Wilcoxon F., Katti S. K. and Wilcox Poberta A. Critical Values and Probability Levels for the Wilcoxon Rank Sum Test and the Wilcoxon Signed Rank Test. Lederle Laboratories, Division Amer. Cyanamid Company, Fearl River, New York, August 1963. — and Wilcox Roberta A. Some Rapid Approximate Statistical Procedures. Lederle Laboratories, Pear} River. New York, 1964. W i 1 k M. B. and Shapiro S. S. The joint assessment of normality of several independent samples. Technometrics 10 A968), 825—839. Woo If B. The log likelihood ratio test (the G-test). Methods and tables for tests' of heterogeneity in contingency tables. Ann. Human Genetics 21 A957), 397—409. 573
Yamane T. Statistics: An Introductory Analysis. 2nd ed. (Harper and Row, pp. 919). New York, 1967, p. 330—367, 845—873. Глава 5 Abbas S. Serial correlation coefficient. Bull. Inst. Statist. Res. Tr. 1 A967), 65—76. Acton F. S. Analysis of Straight-Line Data. New York, 1959. Anderson R. L. and Houseman E. E. Tables of Orthogonal Polynomial Values Extended to N = 104. Res. Bull. 297, Agricultural Experiment Station, Ames, Iowa 1942 (Reprinted March 1963). A n d e r s о n T. W. An Introduction to Multivariate Statistical Analysis. New York, 1958. Андерсон Т. Введение в многомерный статистический анализ. М., Физ- матгиз, 1963. Bancroft Т. A. Topics in Intermediate Statistical Methods. (Iowa State Univ. Press), Ames, Iowa, 1968. Bartholomew D. J. A test of homogeneity for ordered alternatives. Biometrika 46 A959), 36—48. Bartlett M. S. Fitting a straight line when both variables are subject to error. Biometrics 5 A949), 207—212. Barton D. E. and С a s 1 e у D. J. A quick estimate of the regression coefficient. Biometrika 45 A958), 431—435. Berkson J. Are there two regressions? J. Amer. Statist. Assoc. 45 A950), 164— 180. Binder A. Considerations of the place of assumptions in correlational analysis American Psychologist 14 A959), 504—510. Bliss С I. Statistics in Biology. Vol. 2 (McGraw-Hill; p. 639). New York, 1970. BlomqvistN. (l)Ona measure of dependence between two random variables. Ann. Math. Statist. 21 A950), 593—601. B) Some tests based on dichotomization. Ann. Math. Statist. 22 A951), 362—371. Brown R. G. Smoothing, Forecasting and Prediction of Discrete Time Series. Englewood Cliffs, N. J. 1962. Carlson F. D., S о b e 1 E. and Watson G. S. Linear relationships between variables affected by errors. Biometrics 22 A966), 252—267. С о h e n J. A coefficient of agreement for nominal scales. Educational and Psychological Measurement 20 A960), 37—46. С о 1 e L a M. С On simplified computations. The American Statistician 13 (February 1959), 20. Cooley W. W. and Lohnes P. R. Multivariate Data Analysis (Wiley, p. 400). London, 1971. Cornfield J. Discriminant functions. Rev. Internat. Statist. Inst. 35 A967), 142—153 (vgl. auch J. Amer. Statist. Assoc. 63 [1968]), 1399—1412). С о w d e n D. J. and R u с k e r N. L. Tables for Fitting an Exponential Trend by the Method of Least Squares. Techn. Paper 6, University of North Carolina, Chapel Hill 1965. CowdenD. M. A procedure for computing regression coefficients. J. Amer. Statist. Assoc. 53 A958), 144—150. Cramer E. M. and Bock R. D. Multivariate Analysis. Review of Educational Research 36 A966), 604—617. Cureton E. E. Quick fits for the lines y=bx and y=a-\-bx when errors of observation are present in both variables. The American Statistician 20 (June 1966), 49. Dempster A. P. Elements Continuous Multivariate Analysis. (Addison-Wesley, pp. 400) Reading, Mass. 1968. Dietrich G. und S t a h 1 H. Matrizen und Deterfainanten und ihre Anwendung in Techtnik und Okonomie. 2. Aufl. (Fachbuchverlag, 422 S.). Leipzig, 1968 C. Aufl. 1970). Draper N. R. and Smith H. Applied Regression Analysis. New York, 1966. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. М., «Статисти- ' ка», 1973. Dubois P. H. Multivariate Correlational Analysis. New York, 1957. 574
D u n с a n D. B. Multiple comparison methods for comparing regression coefficients. Biometrics 26 A970), 141—143 (vgl. auch Brown, 143+144). EhrenbergA. S. C. Bivariate regression is useless. Applied Statistics 12 A963), 161—179. Elandt Regina C. Exact and approximate power function of the non-parametric test of tendency. Ann. Math. Statist. 33 A962), 471—481. Emerson Ph. L. Numerical construction of orthogonal polynomials for a general recurrence formula. Biometrics 24 A968), 695—701. Enderlein G. Die Schatzung des Produktmoment-Korrelationsparameters mit- tels Rangkorrelation. Biometrische Zeitschr. 3 (Г961), 199—212. EsscherF. On a method of determining correlation from the ranks of the varia- tes. Scandinavisk Aktuarietidskrift 7 A924), 201—219. Ezekiel M. and Fox K. A. Methods of Correlation and Regression Analysis, 3rd ed. New York, 1959. ЕзекиелМ., Фокс К. Методы анализа корреляций и регрессий. М., «Статистика», 1966. F е 1 s E. Inharente Fehler in linearen Regressionsgleichungen und Schranken dafur. Ifo-Studien 8 A962), 5—18. Ferguson G. A. Nonparametric Trend Analysis. Montreal, 1965. Fisher R. A. Statistical Methods for Research Workers, 12th ed. Edinburgh, 1954, p. 197—204. Фишер Р. А. Статистические методы для исследователей. М., Госстатиздат, 1958. Friedrich H. Nomographische Bestimmung und Beurteilung von Regressions- und Korrelationskoeffizienten. Biometrische Zeitschr. 12 A970), 163—187. Geary R. C. Non-linear functional relationships between two variables when one is controlled. J. Amer. Statist. Assoc. 48 A953), 94—103. G e b e 1 e i n H. und Ruhenstrot h-B a u e r G. Dber den statistischen Vergleich einer Normalkurve und einer Prufkurve. Die Naturwissenschaften 39 A952), 457—461. Gibson Wendy M. and J о w e 11 G. H. "Three-group" regression analysis. Part I. Simple regression analysis. Part II. Multiple regression analysis. Applied Statistics 6 A957), 114—122 and 189—197. G 1 a s s e r G. J. and W i n t er R. F. Critical values of the coefficient of rank correlation for testing the hypothesis of independence. Biometrika 48 A961), 444—448. Goldfeld S. M. and Quandt R. E. Some tests for homoscedasticity. J. Amer. Statist. Assoc. 60 A965), 539—547. Gregg I. V., H о s s el С H. and R i с h a r d s о n J. T. Mathematical Trend Curves — An Aid to Forecasting. (I. C. I. Monograph No. 1), Edinburgh, 1964. G r e i n e r R. Dber das Fehlersystem der KollektivmaBlehre. Zschr. f. Mathematik u. Physik 57 A909), 121—158, 225—260, 337—373. Griffin H. D. Graphic calculation of Kendall's tau coefficient. Educ. Psychol. Msmt. 17 A957), 281—285. G u e s t P. G. Numerical Methods of Curve Fitting. London, 1961. Heald M. A. Least squares made easy. Amer. J. Phys. 37 A969), 655—662. Hiorns R. W. The Fitting of Growth and Allied Curves of the Asymptotic Regression Type by Stevens's Method. Tracts for Computers No. 28. Cambridge Univ. Press, 1965. Hoerl jr. A. E. Fitting Curves to Data. In H. H. Perry (Ed.): Chemical Business Handbook, London, 1954, 20—55/20—77. HotellingH. A) The selection of variates for use in prediction with some comments on the general problem of nuisance parameters. Ann. Math. Statist. 11 A940), 271—283. B) New light on the correlation coefficient and its transforms. J. Roy. Statist. Soc. В 15 A953), 193—232. Kendall M. G. A) A new measure of rank correlation. Biometrika 30 A938), 81—93. B) A Course in Multivariate Analysis. London, 1957. C) Rank Correlation Methods, 3rd ed. London, 1962, p. 38—41. D) Ronald Aylmer Fisher, 1890— 1962. Biometrika 50 A963), 1—15. Русск. перев. с 4-го изд. 1970 г. Кен дел М. Ранговые корреляции. М., «Статистика», 1975, Kerrich J. E. Fitting the line y=ax when errors of observation are present in both variables. The American Statistician 20 (February 1966), 24. Knussmann R. Das Partnerleitbild des Menschen in vergleichend-biologischer Sicht. Studium Generale 18 A965), 38—49. 575
К о 11 e r S. A) Statistische Auswertung der Versuchsergebnisse. In Hoppe-Sey- ler/Thierfelder's Handb. d. physiologisch- und pathologisch-chemischen Analyse, 10. AufL, Bd. II, S. 931—1036. Berlin-Gottingen-Heidelberg, 1955, S. 1002—1004. B) Typlsierung korrelativer Zusammenhange. Metrika 6 A963), 65—75. C) Sy- stematik der statistischen Schlufifehler. Method. Inform. Med. 3 A964), 113—117. D) Graphische Tafeln zur Beurteilung statistischer Zahlen. 3. Aufl., Darmstadt, 1953 D. Aufl. 1969). К о n i j n H. S. On the power of certain tests for independence in bivariate populations. Ann. Math. Statist. 27 A956), 300—323. Kramer С Y. and Jensen D. R. Fundamentals of multivariate analysis. Part I—IV. Journal of Quality Technology 1 A969), 120—133, 189^204, 264—276 and 2 A970), 32—40. Krishnaiah P. R. (Ed.). Multivariate Analysis and Multivariate Analysis II (Academic Press* p. 592 and 696). New York and London, 1966 and 1969. Kymn К. О. The distribution of the sample correlation coefficient under the null hypothesis. Econometrica 36 A968), 187—189. Lees Ruth W. and Lord F. M. A) Nomograph for computing partial correlation coefficients. J. Amer. Statist. Assoc. 56 A961), 995—99.7. B) Corrigenda 57 A962), 917+918. Li J. C. R. Statistical Inference, Vol. II: The Multiple Regression and its Ramifications. Ann Arbor. Michigan, 1964. Lieberson S. Non-graphic computation of Kendall's tau. The American Statistician 15 (October 1961), 20+21. Linder A. A) Statistische Methoden fur Naturwissenschaftler, Mediziner und Ingenieure. 3. Aufl., Basel 1960, S. 172. B) Anschauliche Deutung und Begrundung des Trennverfahrens. Method. Inform. Med. 2 A963), 30—33. C) Trennverfahren bei qualitativen Merkmalen. Metrika 6 A963), 76—83. L i n d 1 ey D. V. A) Regression lines and flhe linear functional relationship. J. Roy. Statist. Soc. 9 A947), 217—244. B) Estimation of a functional relationship. Bio- metrika 40 A953), 48—49. Lingoes J. C. The multivariate analysis of qualitative data. Multivariate Behavioral Research 3 A968), 61—94. Lord F. M. Nomograph for computing multiple correlation coefficients. J. Amer. Statist. Assoc. 50 A955), 1073—1077. L u b i s с h e w A. A. On the use of discriminatory functions in taxonomy. With editorial note and author's note Biometrics 18 A962), 455—477. Ludwig R. Nomogramm zur Prufung des Produkt-Moment-Korrelationskoeffi- zienten r. Biometrische Zeitschr. 7 A965), 94—95. M a d a n s k у A. The fitting of straight lines when both variables are subject to error. J. Amer. Statist. Assoc. 54 A959), 173—205. M a n d e 1 J. A) Fitting a straight line to certain types of cumulative data. J. Amer. Statist. Assoc. 52 A957), 552—566. B) Estimation of weighting factors in linear regression and analysis of variance. Technometrics 6 A964), 1—25. — and L i n n i n g F. J. Study of accuracy in chemical analysis using linear calibration curves. Analyt. Chem. 29 A957), 743—749. M e у e r-B a h 1 b u г g H. F. L. Spearmans rho als punktbiserialer Korrelations- koeffizient. Biometrische Zeitschr. 11 A969), 60—66. Miller R. G. Simultaneous Statistical Inference. (McGraw-Hill, p. 272), New York 1966 (Chapter 5, p. 189—210). Morrison D. F. Multivariate Statistical Methods (McGraw-Hill, p. 338). New York, London, 1967. О 1 k i n I. and P r a 11 J. W. Unbiased estimation of certain correlation coefficients. Ann. Math. Statist. 29 A958), 201—211. О 1 m s t e a d P. S. and T u k e у J. W. A corner test of association. Ann. Math. Statist. 18 A947), 495—513. О s 11 e B. Statistics in Research: Basic Concepts and Techniques for Research Workers. 2nd cd., Ames, Jov/a, 1963, Chapters 8 and 9. Pfanzagl J. Uber die Parallelitat von Zeitreihen Metrika 6 A963), 100—113. Plackett R. L. Principles of Regression Analysis. Oxford, 1960. Porebski O. R. A) On the interrelated nature of the multivariate statistics used in discriminatory analysis. Brit. J. Math. Stat. Psychol. 19 A966), 197—214 576
B) Discriminatory and canonical analysis of technical college data. Brit. J. Math. Stat. Psychol. 19 A966), 213—236. P о 11 h о f f R. F. Some Scheffe-type tests for some Behrens-Fisher type regression problems. J. Amer. Statist. Assoc. 60 A965), 1163—1190. Prince B. M. and Tate R. F. The accuracy of maximum likelihood estimates oi correlation for a biserial-model. Psychometrika 31 A966), 85—92. QuenouilleM. H. Rapid Statistical Calculations. London, 1959. Radhakrishna S. Discrimination analysis in medicine. The Statistician 14 A964), 147—167. Rao С R. A) Advanced Statistical Methods in Biometric Research. New York, 1952. B) Multivariate analysis: an indispensable aid in applied research (with an 81 reference bibliography). Sankhya 22 A960), 317—338. C) The use and interpretation of principal component analysis in applied research. Sankhya A 26 A964), 329—358. D) Linear Statistical Inference and Its Applications. New York, 1965. Pao С. Р. Линейные статистические методы и их применения. М., «Наука», 1968. R a s с h D. Die Faktorenanalyse und ihre Anwendung in der Tierzucht. Biometri- sche Zeitschr. 4 A962), 16—39. Robson D. S. A simple method for constructing orthogonal polynomials when the independent variable is unequally spaced. Biometrics 15 A959), 187—191. Roos C. F. Survey of economic forecasting techniques. Econometrica 23 A955), 363—395. Roy S. N. Some Aspects of Multivariate Analysis. New York and Calcutta, 1957. S a 1 z e r H. E., Richards Ch. H. and A r s h a m I s a b e 11 e. Table for the Solution of Cubic Equations. New York, 1958. SamiuddinM. On a test for an assigned value of correlation in a bivariate normal distribution. Biometrika 57 A970), 461—464. Saxena H. C. and Surendran P. U. Statistical Inference (Chand, p. 396). Delhi, Bombay, Calcutta, 1967 (Chapter 6, 258—342). Schaeffer M. S. and Levitt E. E. Concerning Kendall's tau, a nonparametric correlation coefficient. Psychol. Bull. 53 A956), 338—346. Seal H. Multivariate Statistical Analysis for Biologists. London, 1964. Spearman С A) The proof and measurement of association between two things. Amer. J. Psychol. 15 A904), 72—101. B) The method "of right and wrong cases" ("constant stimuli") without Gauss' formulae, brit. J. Psychol. 2 A908), 227—242. Stamniberger A. Ein Nomogramm zur Beurteilung von Korrelationskoeffizien ten. Biometrische Zeitschr. 10 A968), 80—83. S t i 1 s о n D. W. and Campbell V. N. A note on calculating tau and average tau and on the sampling distribution of average tau with a criterion ranking. J. Amer. Statist. Assoc. 57 A962), 567—571. Student. Probable error of a correlation coefficient. Biometrika 6 A908),302—310. Tate R. F. A) Correlation between a discrete and a continuous variable. Point* biserial correlation. Ann. Math. Statist. 25 A954), 603—607. B) The theory of correlation between two continuous variables when one is dichotomized. Biometrika 42 A955), 205—216. C) Applications of correlation models for biserial data. J. Amer. Statist. Assoc. 50 A955), 1078—1095. D) Conditionalnormal regression models. J. Amer. Statist. Assoc. 61 A966), 477—489. Thoni H. Die nomographische Bestimmung des logarithmischen Durchschnittes von Versuchsdaten und die graphische Ermittlung von Regressionswerten. Expe- rientia 19 A963), 1—4. Tukey J. W. Components in regression. Biometrics 7 A951), 33—70. Waerden B. L. van der. Mathematische Statistik. 2. Aufl., (Springer, 360 S.), Berlin, 1965, S. 324. Wagner G. Zur Methodik des Vergleichs altersabhangiger Dermatosen. (Zugleich korrelationsstatistische Kritik am sogenannten „Status varicosus"), Zschr. menschl. Vererb.-Konstit.-Lehre 53 A955), 57—84. Walter E. Rangkorrelation und Quadrantenkorrelation. Zuchter Sonderh. 6, Die Fruhdiagnose in der Zuchtung und Zuchtungsforschung II A963), 7—11. Weber Erna. Grundrifi der biologischen Statistik. 6. neubearb. Aufl. (Fischer, 674 S.). Stuttgart, 1967, S. 523-551. 577
W i 111 a m s E. J. Regression Analysis. New York, 1959. Y u 1 e G. U. and Kendall M. G. Introduction to the Theory of Statistics. Lori- don, 1965, p. 264—266. Юл. Дж. Э, КендзлМ. Теория статистики. М., Гос- статиздат, 1960. Факторный анализ: Adam J. und E n k e H. Zur Anwendung der Faktorenanalyse ais Trennverfah- ren. Biometr. Zeitschr. 12 A970), 395—411. Browne M. W. A comparison of factor analytic techniques. Psychometrika 33 A968), 267—334. Cattell R. B. (Ed.). Handbook of Multivariate Experimental Psychology (Rand McNally, pp. 959), Chicago, 1966 (Chapters 6, 8, 10—12 and 15). С о r b a 11 i s M. C. and T r a u b R. E. Longitudinal factor analysis. Psychometrika 35 A970), 79—98. Derflinger G. Neue Iterationsmethoden in der Faktorenanalyse. Biometrische Zeitschr. 10 A968), 58—75. G о 11 о b H. F. A statistical model which combines features of factor analytic and analysis of variance techniques. Psychometrika 33 A968), 73—115. Harder T. Elementare mathematische Modelle in der Markt- und Meinungsfor- schung (Oldenbourg, 189 S.). Munchen und Wien, 1966. Кар. 3. Наг man H. H. Modern Factor Analysis. 2nd rev. ed. (Univ. of Chicago, p. 474). Chicago, 1967. Харман Г. Современный факторный анализ. М., «Статистика», 1972. JoreskogK. G. A general approach to confirmatory maximum likelihood factor analysis. Psychometrika 34 A969), 183—202 (vgl. auch Psychol. Bull. 75 '[1971], 416—423). L i e n e r t G. A. und О r 1 i k P. Prinzipien und Rechentechniken der Faktorenanalyse. Probleme und Ergebnisse der Psychologie 25 A968), 11—62. McDonald R. P. Three common factor models for groups of variables. Psychometrika 35 A970), 111—128. P a w 1 i k K. Dimensionen des Verhaltens. Eine Einfuhrung in die Methodik und die Ergebnisse faktorenanalytischer psychologischer Forschung. (Huber, 561 S.), Bern-Stuttgart 1968. R i с h t e r P. Anwendungen der Faktorenanalyse auf okonomische Daten. Allgem " Statist. Archiv 52 A968), 125—152. S h e t h J. N. Using factor analysis to estimate parameters. J. Amer. Statist. Assoc. 64 A969), 808—822. Dberla K. Faktorenanalyse. Eine systematische Einfuhrung in Theorie und Praxis fur Psychologen, Mediziner, Wirtschafts- und Sozialwissenschaftler. (Spritf* ger, 399 S.), Berlin-Heidelberg-New York, 1968 (vgl. insbes. S. 355—363) B. verb Aufl. 1971). Множественный регрессионный анализ: Abt К. On the identification of the significant independent variables in linear models. Metrika 12 A967), 1—15, 81—96. Anscombe F. J. Topics in the investigation of linear relations fitted by the method of least squares. With discussion. J. Roy. Statist. Soc. В 29 A967), 1—52. В e a 1 e E. M. L. Note on procedures for variable selection in multiple regression. Technometrics 12 A970), 909—914. В e a 1 e E. M. L., К e n d a 11 M. G. and M a n n D. W. The discarding of variables in multivariate analysis. Biometrika 54 A967), 357—366. В liss С I. Statistics in Biology. Vol. 2. (McGraw-Hill, pp. 639), New York, 1970, Chapter 18. Cochran W. G. Some effects of errors of measurement on multiple correlation. J. Amer. Statist. Assoc. 65 A970), 22—34. Darlington R. B. Multiple regression in psychological research and practice. Psychological Bulletin 69 A968), 161—182 (vgl. auch 75 ([1971], 430+431). Draper N. R. and Smith H. Applied Regression Analysis. (Wiley, pp. 407), New York, 1966. H. Дрейпер, Г. Смит. Прикладной регрессионный анализ. М., «Статистика», 1973. 578
Dubois P. H. Multivariate Correlational Analysis. (Harper and Brothers, pp.202), New York, 1957. Enderiein G. Kriterien zur Wahl des Modellansatzes in der Regressionsanalyse mit dem Ziel der optimalen Vorhersage. Biometr. Zeitschr. 12 A970), 285—308. Enderiein G., Reiher W. und Trommer R. Mehrfache lineare Regression, polynomial Regression und Nichtlinearitatstests. In: Regressionsanalyse und ihre Anwendungen in der Agrarwissenschaft. Vortrage des 2. Biometrischen Seminars der Deutschen Akademie der Landwirtschaftswissenschaften zu Berlin im Marz 1965. Tagungsberichte Nr. 87, Berlin 1967, S. 49—78. Folks J. L. and Antle С. Е. Straight line confidence regions for linear models. J. Amer Statist. Assoc. 62 A967), 1365—1374. Goldberger A. S. Topics in Regression Analysis. (Macmillan, pp. 144), New York, 1968. G г а у b i 11 F. A. and Bow den D. C. Linear segment confidence bands for simple linear models. J. Amer. Statist. Assoc. 62 A967), 403—408. H a h n G. J. and Shapiro S. S. The use and misuse of multiple regression. Industrial Quality Control 23 A966), 184—189. Hamaker H. C. On multiple regression analysis. Statistica Neerlandica 16 A962), 31—56. Herne H. How to cook relationships. The Statistician 17 A967), 357—370. HerzbergP. A. The Parameters of Cross-Validation. Psychometrika Monograph Supplement (Nr. 16) 34 (June 1969), 1—70. Hinchen J. D. Multiple regression with unbalanced data. J. Qual. Technol. 2 A970), 1, 22—29. H о с к i n g R. R. and Leslie R. N. Selection of the best subset in regression analysis. Technometrics 9 A967), 531—540 (siehe 10 [1968], 432—433). Huang D. S. Regression and Econometric Methods. (Wiley, pp. 274), New York, 1970. LaMotte L. R. and Hocking R. R. Computational efficiency in the selection of regression variables. Technometrics 12 A970), 83—93. Madansky A. The fitting of straight lines when both variables are subject to error. J. Amer. Statist. Assoc. 54 A959), 173—205. Robinson E. A. Applied Regression Analysis. (Holden-Day, pp. 250), San Francisco, 1969. R u t e m i 11 er H. C. and Bowers D. A. Estimation in a heteroscedastic regres- sion model. J. Amer. Statist. Assoc. 63 A968), 552—557. Schatzoff M., T s а о R. and Fienberg S. Efficient calculation of all possible regressions. Technometrics 10 A968), 769—779. Seber G. A. F. The Linear Hypothesis. A General Theory (No. 19 of Griffin's Statistical Monographs and Courses, Ch. Griffin, p. 120). London, 1966. ' S m i 11 i e K. W. An Introduction to Regression and Correlation (Academic Press, p. 168). New York, 1966. T h e i 1 H. The analysis of disturbances in regression analysis. J. Amer. Statist. Assoc. 60 A965), 1067—1079. — and N a g a r A. L. Testing the independence of regressive disturbances. J. Amer. Statist. Assoc. 56 A961), 793—806. Tor o-V izcarrondo C. and W a 11 а с е Т. D. A test of the mean square error criterion for restrictions in linear regression. J. Amer. Statist. Assoc. 63 A968), 558-572. U 1 m о J. Problemes et programmes de regression. Revue de Statistique Appliquee 19 A971), No. 1, 27—39. V a 1 i a h о H. A synthetic approach to stepwise regression analysis. Commentatio- nes Physico-Mathematicae 34 A969), 91—131 >[erganzt durch 41 A971), 9—18 und 63—72]. Weber E. Biometrische Bearbeitung multipler Regressionen unter besonderer Be- rucksichtigung der Auswahl, der Transformation und der Linearkombination von Variablen. Statistische Hefte 8 A967), 228—251 und 9 A968), 13—33. Wiezorke B. Auswahlverfahren in der Regressionsanalyse. Metrika 12 A967), 68-79. Wiorkowski J. J. Estimation of the proportion of the variance explained by regression, when the number of parameteis in the model may depend on the sample size. Technometrics 12 A970), 915—919. 579
Глава 6 Allison H. E. Computational forms for chi-square. The American Statistician 18 (February 1964), 17+18. A 11 h a m Patricia M. E. The measurement of association of rows and columns for an r-s contingency table. J. Roy. Statist. Soc. В 32 A970), 63—73. Armitage P. Tests for linear trends in proportions and frequencies. Biometrics 11 A955), 375—386. Bartholomew D. J. A test of homogeneity for ordered alternatives. I and II Biometrika 46 A959), 36—48 and 328—335. Bennett B. H and H s u P. Sampling studies on a test against trend in binomial data. Metrika 5 A962), 96—104. — and E. Nakamura. A) Tables for testing significance in a 2X3 contingency table. Technometrics 5 A9C3), 501—511. B) The power function of the exact test for the 2X3 contingency table,-Technometrics 6 A964), 439—458. Berg Dorothy, Ley ton M. and Maloney C. J. Exact contingency table calculations. Ninth Conf. Design Exper. in Army Research Development and Testing A965), (N. I. H., Bethesda Md.). В h a p к a r V. P. On the analysis of contingency tables with a quantitative res- ponce. Biometrics 24 A968), 329—338. — and Koch G. G. (i) Hypotheses of "no interaction" in multidimensional contingency tables. Technometrics 10 A968), 107—123. B) On the hypotheses oi "no interaction" in contingency tables. Biometrics 24 A968), 567—594. Bishop Yvonne M. M. Full contingency tables, logits, and split contingency tables. Biometrics 25 A969), 383—399. В о w к e r A. H. A test for symmetry in contingency tables. J Amer. Statist. Assoc. 43 A948), 572—574. Bresnahan J. L. and S h a p i г о М. M. A general equation and technique for the exact partitioning of chi-square contingency tables. Psychol. Bull. 66 A966), 252—262. С a s t e 11 a n jr. N. J. On the partitioning of contingency tables. Psychol. Bull. 64 A965), 330—338. Caussinus H. Contribution a l'analyse statistique des tableaux de correlation. Ann. Fac. Sci. Univ. Toulouse, Math., 4. Ser., 29 A965), 77—183. Chapman D. G. and Nam J. Asymptotic power of chi square tests for linear trends in proportions. Biometrics 24 A968), 315—327. CochranW. G. Some methods of strengthening the common %2 tests, Biometrics 10 A954), 417—451. Cole L. C. The measurement of partial interspecific association. Ecology 38 A957), 226—233 (vgl. auch 30 [1949], 411—424). Eberhard K. FM — Ein Mafi fur die Qualitat einer Vorhersage aufgrund einer mehrklassigen Variablen in einer &-2-Felder-Tafel. Z. exp. angew. Psychol. 17 A970), 592-^599. Fairfield Smith H. On comparing contingency tables. The Philippine Statistician 6 A957), 71—81. FienbergS. E. A) The analysis of multidimensional contingency tables. Ecology 51 A970), 419—433. B) An iterative procedure for estimation in contingency tables. Ann. Math. Statist. 41 A970), 907—917. Gabriel K. R. Simultaneous test procedures for multiple comparisons on categorical data. J. Amer. Statist. Assoc. 61 A966), 1080—1096. G a r t J. J. Alternative analyses of contingency tables. Mimeographed Paper No. 367 from the Dept. of Biostatistics, The Johns Hopkins University, Baltimore, Md. (Invited paper at the annual meeting of the USA in Chicago, December 1964). Goodman L. A. A) On methods for comparing contingency tables. J. Roy. Statist. Soc, Ser. A 126 A963), 94—108. B) Simple methods for analyzing three- factor interaction in contingency tables: J. Amer. Statist. Assoc. 59 A964), 319— 352. C) On partitioning %2 and detecting partial association in three-way contin- gensy tables. J. Roy. Statist. Soc. В 31 A969), 486—498. D) The multivariate analysis of qualitative data: interactions among multiple classifications. J. Amer. 580
Statist. Assoc. 65 A970), 226—256. E) The analysis of multidimensional contingency tables. Stepwise procedures and direct estimation methods for building models for multiple classifications. Technometrics 13 A971), 33—61. H a m d a n M. A. Optimum choice of classes for contingency tables. J. Amer. Statist. Assoc. 63 A968), 291—297. I r e 1 a nd С. Т., К u H. H. and К u 11 b а с к S. Symmetry and marginal homogeneity of an r-r contingency table. J. Amer. Statist. Assoc. 64 A969), 1323—1341. Ireland C. T. and К u 11 b а с к S. Minimum discrimination information estimation. Biometrics 24 A968), 707—713 Jesdinsky H. J. Einige x2-Tests zur Hypothesenprufung bei Kontingenztafeln Method. Inform. Med. 7 A968), 187—200. К a s t e n b a u m M. A. A note on the additive partitioning of chi-square in contingency tables. Biometrics 16 A960), 416—422. Kincaid W. M. The combination of 2Xm contingency tables. Biometrics 18 A962), 224—228. К u H. H. A note on contingency tables involving zero frequencies and the 21 test Technometrics 5 A963), 398—400. К u H. H. and К u 11 b а с к S. Interaction in multidimensional contingency tables: an information theoretic approach. J. Res. Nat. Bur. Stds. 72 В A968), 159—199 (vgl. J. Amer. Statist. Assoc. 66 i[19711, 55—64). К u 11 b а с к S. Information Theory and Statistics. New York, 1959. КульбакС. Теория информации и статистика. М., «Наука», 1967. — К u H. H. Interaction in multi-dimensional contingency tables. (Abstract) Ann Math. Statist. 38 A967), 297. — KuppermanM., KuH. H. A) An application of information theory to the analysis of contingency tables, with a table of 2n In n, n=*l AI0,000. J. Res. Nat. Bur. Stds. В 66 A962), 217—243. B) Tests for contingency tables and Markov- chains. Technometrics 4 A962), 573—608. — Leibler R. A. On information and sufficiency. Ann. Math. Statist. 22 A951), 79-86. KuppermanM. On comparing two observed frequency counts. Applied Statistics 9 A960), 37—40. L a n с a s t er H. O. The exact partition of %2 and its application to the problem of the pooling of small expectations. Biometrika 37 A950), 268—270. Leslie P. H. The calculation of %2 for an r*c contingency table. Biometrics 7 A951), 283—286. Lewis B. N. On the analysis of interaction in multi-dimensional contingency tables. J. Roy. Statist. Sdc, Ser. A 125 A962), 88—117. Lewontin R. С and Felsenstein J. The robustness of homogeneity test in 2Xn tables. Biometrics 21 A965), 19—33. L i e n e r t G. A. Die zufallskritische Beurteilung psychologischer Variablen mittels verteilungsfreier Schnelltests. Psycholog. Beitrage 7 A962), 183—215. Lindley D. V. The Bayesian analysis of contingency tables. Ann. Math. Statist. 35 A964), 1622—1643. Mantel N. Chi-square tests with one degree of freedom; extensions of the Man- tel-Haenszel procedure. J. Amer. Statist. Assoc. 58 A963), 690—700. — Haenszel W. Statistical aspects of the analysis of data from retrospective studies of disease. J. Natl. Cancer Institute 22 A959), 719—748. M a x w e 11 A. E. Analysing Qualitative Data. London, 1961. Meng R- C. and Chapman D. G. The power of Chi-square tests for contingency tables J. Amer. Statist. Assoc. 61 A966), 965—975. M о s t e 11 er F. Association and estimation in contingency tables. J. Amer. Statist. Assoc. 63 A968), 1—28. N a s s С A. G. The %2 test for small expectations in contingency tables with special reference to accidents and absenteeism. Biometrika 46 A959), 365—385. NatrellaMaryG. A note on the computation of chi-square. The American Statistician 13 (February 1959), 20+21. OdoroffC. L. A comparison of minimum logit chi-square estimation and maximum likelihood estimation in 2X2x2 and 3X2X2 contingency tables: tests for interaction. J. Amer. Statist. Assoc. 65 A970), 1617—1631. 581
P a w 1 i к К. Der maximale Kontingenzkoeffizient im Falle nichtquadratischer Kon- tingenztafeln. Metrika 2 A959), 150—166. Ryan T. Significance tests for multiple comparison of proportions, variances and other statistics. Psychological Bull. 57 A960), 318—328. Sachs L. A) Der Vergleich zweier Prozentsatze — Unabhangigkeitstests fur Mehrfeldertafeln. Biometrische Zeitschr. 7 A965), 55—60. B) Der Vergleich zweier .Prozentsatze und die Analyse von Mehrfeldertafeln auf Unabfyangigkeit oder Homo- genitat und Symmetrie mit Hilfe der Informationsstatistik 21. Method. Inform. Med. 4 A965), 42—45. S а к о d a J. M. and Cohen В. Н. Exact probabilities for contingency tables using binomial coefficients. Psychometrika 22 A957), 83—86. SomersR. H. A new asymmetric measure of association for ordinal variables. Amer. Sociol. Rev. 27 A962), 799—811. Winckler K. Anwendung des x2-Tests auf endliche Gesamtheiten. Ifo-Studien 10 A964), 87—104. Woo If B. The log likelihood ratio test (the G-Test). Methods and tables for tests of heterogeneity in contingency tables. Ann. Human Genetics'21 A957), 397— 409. Y a t es F. The analysis of contingency tables with groupings based on quantitative characters. Biometrika 35 A948), 176—181. Глава 7 AddelmanS. A) Techniques for constructing fractional replicate plans. J. Amer Statist. Assoc. 58 A963), 45—71. B) Sequences of two -level fractional factorial plans. Technometrics 11 A969), 477—509 (vgl. auch ?)avies-Hay, Biometrics 6 [1950], 233—249). Ahrens H. Varianzanalyse (WTB, Akademie-Vlg., 198 S.). Berlin, 1967. Anscombe F. J. The transformation of Poisson, binomial and negative-binomial data. Biometrika 35 A948), 246—254. Tukey J. W. The examination and analysis of residuals. Technometrics 5 A963), 141—159. Baker A. G. Analysis and presentation of the results of factorial experiments. Applied Statistics 6 A957), 45—55. Bancroft T. A. A) Analysis and inference for incompletely specified models involving the use of preliminary test(s) of significance. Biometrics 20 A964), 427—442. B) Topics in Intermediate Statistical Methods. Vol. I. (Iowa State University Press; pp. 129) Ames, Iowa, 1968, Chapters 1 and 6. Barnett V. D. Large sample tables of percentage points for Hartley's correction to Bartlett's criterion for testing the homogeneity of a set of variances. Biometrika 49 A962), 487—494. Bartholomew D. J. Ordered tests in the analysis of variance. Biometrika 48 A961), 325—332. Bartlett M. S. A) Properties of sufficiency and statistical tests. Proc. Roy Soc. A 160 A937), 268—282. B) Some examples of statistical methods of research in agriculture and applied biology. J. Roy. Statist. Soc. Suppl. 4 A937), 137— 170. C) The use of transformations. Biometrics 3 A947), 39—52. BechhoferR. E. A single-sample multiple decision procedure for ranking means of normal populations with known variances. Ann. Math. Statist. 25 A954), 16—39. B4 n d e r A. The choice of an error term in analysis of variance designs. Psychometrika 20 A955), 29—50. В 1 i s с h к e W. R. Variances of estimates of variance components in a three-way classification. Biometrics 22 A966), 553—565. В 1 i s s C. I., С о с h r a n W. G. and T u к е у J. W. A rejection criterion based upon the range. Biometrika 43 A956), 418—422. В о s e R. C. Paired comparison designs for testing concordance between judges. Biometrika 43 A956), 113—121. Box G. E. P. A) Non-normality and. tests on variances. Biometrika 40 A953), 318—335. B) The exploration and exploitation of response surfaces. Biometrics 10 A954), 16—60. C) Evolutionary operation: a method for increasing industrial productivity. Applied Statistics 2 A957), 3—23. 582
v_ Andersen S. L. Permutation theory in the derivation of robust criteria and the study of departures from assumption. With discussion. J. Roy. Statist. Soc, Ser. В 17 A955), 1—34. -CoxD. R. An analysis of transformations. J. Roy, Statist. Soc, Ser. В 26 A964), 211—252. — Draper N. R. A basis for the selection of a response surface design. J. Amer. Statist. Assoc. 54 A959), 622—654. >— Hunter J. S. Condensed calculations for evolutionary operation programs. Technometrics 1 A959), 77—95. — W i 1 s о п К. В. On the experimental attainment of optimum conditions. J. Roy. Statist. Soc, Ser. В 13 A951). 1—45. Bradley R. A. and Schumann D. E. W. The comparison of the sensitivities of similar experiments: applications. Biometrics 13 A957), 496—510. В г a t с h e r T. L, MoranM. A. and Z i m m e r W. Y. Tables of sample sizes in the analysis of variance. J. Qual. Technol. 2 A970), 156—164. В г e j с h a V. Der Rangkonkordanzkoeffizient als geeigneter Test fur die Bewer- tung von Gewichtszunahme und Futterverbrauch bei Huhnern (Broilers). Biomet- rische Zeitschr. 7 A965), 145—150. krownlee K. A. The principles of experimental design. Industrial Quality Control 13 (February 1957), 12—20. Burghausen R. Statistische Auswerhug von Vegetationsbeobachtungen in Feldversuchen. Abh. Deutsch. Akad. Wissensch. Berlin, KL Mathem. 1964, Nr. 4, S. 43—48. CochranW. G. A) The distribution of the largest of a set of estimated variances as a fraction of their total. Ann. Eugen. (Lond.) 11 (Ш41), 47—61. B) Some consequences when assumptions for the analysis of variance are not satisfied. Biometrics 3 A947), 22—38. C) Testing a linear relation among variances. Biometrics 7 A951), 17—32. D) Analysis of covariance: its nature and use. Biometrics 13 A957), 261—281. E) The Design of Experiments. In Flagle, С D., Hug- gins, W. H., and Roy, R. H. (Eds.): Operations Research and Systems Engineering, pp. 508—553. Baltimore 1960. Conover W. J. Two k-sample slippage tests. J. Amer. Statist. Assoc. 63 A968), 614—626. Cooper В. Е. A unifying computational method for the analysis of complete factorial experiments. Communications of the ACM 10 (Jan. 1967), 27—34. Cunningham E. P. An iterative procedure for estimating fixed effects and variance components in mixed model situations. Biometrics 24 A968), 13—25. Daniel C. Use of half-normal plots in interpreting factorial two-level experiments. Technometrics 4 A959), 311—341. David H. A. A) Further applications of range to the analysis of variance. Bio- metrika 38 A951), 393—409. B) The ranking of variances in normal populations. J. Amer. Statist. Assoc. 51 A956), 621—626. C) The Method of Paired Comparisons. London, 1963. — Hartley H. O., Pearson E. S. The distribution of the ratio, in a single normal sample, of range to standard deviation. Biometrika 41 A954), 482—493. D о 1 b у J. L. A quick method for choosing a transformation. Technometrics 5 A963). 317—325. В изд. «Статистика» готовится перевод: Г. Дэвид «Метод парных сравнений» A978 г.). D u с k w о г th W. E. and W у a 11 J. К. Rapid statistical techniques for operations research workers. Oper. Res. Quarterly 9 A958), 218—233. Duncan D. B. A) Multiple range and multiple F tests. Biometrics 11 A955), 1—42 (vgl. auch fur n^konst. Kramer 12 ![1956], 307/310), (vgl. auch Technometrics 11 [1969], 321/329). B) Multiple range tests for correlated and heterosce- dastic means. Biometrics 13 A957), 164—176. C) A Bayesian approach to multiple comparisons. Technometrics 7 A965), 171—222. Dunn Olive J. A) Confidence intervals for the means of dependent, normally distributed variables. J. Amer. Statist. Assoc. 54 A959), 613—621. B) Multiple comparisons among means. J. Amer. Statist. Assoc. 56 A961), 52—64. Dunnett C. W. A multiple comparison procedure for comparing several treatments with a control. J. Amer. Statist. Assoc. 50 A955), 1096—1121. E i s e n E. J. The quasi-F test for an unnested fixed factor in an unbalanced hierar- chal design with a mixed model. Biometrics 22 A966), 937—942. 583
Eisenhart C. The assumptions underlying the analysis of variance. Biometrics 3 A947), 1—21. Enderlein G. Die Kovarianzanalyse. In: Regressionsanalyse und ihre Anwen- dungen in der Agrarwissenschaft. Vortrage des 2. Biometrischen Seminars der Deutschen Akademie der Landwirtschaftswissenschaften zu Berlin, im Marz 1965. Tagungsberichte Nr. 87, Berlin, 1967, S. 101—132. E n d 1 e г N. S. Estimating variance components from mean squares for random and mixed effects analysis of variance models. Perceptual and Motor Skills 22 A966), 559—570 (siehe auch die von Whimbey et al. 25 if 1967], 668). E v a n s S. H. and AnastasioE. J. Misuse of analysis of covariance when treatment effect and covariate are confounded. Psychol. Bull. 69 A968), 225—234 (vgl. auch 75 [1971], 220—222). Federer W. T. Experimental error rates. Proc. Amer. Soc. Hort. Sci. 78 A961), 605—615. Fisher R. A. and Yates F. Statistical Tables for Biological, Agricultural and Medical Research. 6th ed. London, 1963. Fleckenstein Mary, Freund R. A. and Jackson J. E. A paired comparison test of typewriter carbon papers. Tappi 41 A958), 128—130. Freeman M. F., T ti к е у J. W. Transformations related to the anguiar and the square root. Ann. Math. Statist. 21 A950), 607—611. Friedman M. A) The use of ranks to avoid the assumption of normality implicit in the analysis of variance. J. Amer. Statist. Assoc. 32 A937), 675—701. B) A comparison of alternative tests of significance for the problem of m rankings. Ann. Math. Statist. 11 A940), 86-92. Gabriel K. R. Analysis of variance of proportions with unequal frequencies. J. Amer. Statist. Assoc. 58 A963), 1133—1157. Gates Ch. E. and S h i u e Ch.-J. The analysis of variance of the s-stage hierar- chal classification. Biometrics 18 A962), 529—536. Ghosh M. N. and S h a r m a D. Power of Tukey test for non-additivity. J. Roy. Statist. Soc. В 25 A963), 213—219. Gnanadesikan R. Multivariate statistical methods for analysis of experimental data. Industrial Quality Control 19 (March 1963), 22—26. G о w e r J. C. Variance component estimation for unbalanced hierarchical classifications. Biometrics 18 A962), 537^-542. Green B. F. jr and Tukey J. W. Complex analyses of variance: general problems. Psychometrika 25 (I960), 127—152. • Grimm H. Transformation von Zufallsvariablen. Biometrische Zeitschr. 2 A960), 164—182. Hamaker H. С Experimental design in industry. Biometrics 11 A955), 257— 286. HarsaaeE. On the computation and use of a table of percentage points of Bart- lett's M. Biometrika 56 A969), 273—281. Harte, Cornelia: Anwendung der Covarianzanalyse beim Vergleich von Reg- ressionskoeffizienten. Biometrische Zeitschr. 7 A965), 151—164. H ar ter H. L.: A) Error rates and sample sizes for range tests in multiple comparisons. Biometrics 13 A957), 511—536. B) Tables of range and Studentized range Ann. Math. Statist. 31 (I960); 1122—1147. C) Expected values of normal order statistics. Biometrika 48 A961), 151—165. H a r 11 ey H. O.: A) The use of range in analysis of variance. Biometrika 37 A950), 271—280. B) The maximum F-ratio as a short cut test for heterogeneity of variance. Biometrika 37 A950), 308— 312. C) Some recent developments in the ana- lysis of variance. Comm. Pure and Applied Math. 8 A955), 47—72. — Pearson E. S.: Moments constants for the distribution of range in normal samples. I. Foreword and tables. Biometrika 38 A951), 463+464. Harvey W. R. Estimation of variance and covariance components in the mixed model. Biometrics 26 A970), 485—504. Hays W. L. Statistics for Psychologists. (Holt, Rinehart and Winston, p. 719), New York, 1963, p. 439—455. H e i t e H.-J. und binder A. Dber die Planung und Auswertung einer rechts- links-Behandlung bei dermato-therapeutischen Untersuchungen. Dermatologica 125 A962), 65—80. 584
Herzbeig Agnes M. and Cox D. R. Recent work on the design of experiments: a bibliography and a review. J. Roy. Statist. Soc. A 132 A969), 29—67. Holland D. A. Sampling errors in an orchard survey involving unequal numbers of orchards of distinct type. Biometrics 21 A965), 55—62. Imberty M. Esthetique experimental: la methode de comparison par paires ap- pliquee a l'etude de Torganisation perceptive de la phrase musicale chez l'enfant Revue de Statistique Appliquee 16, No. 2 A968), 25—63. Jackson J. E. and Fleckenstein Mary. An evaluation of some statistical techniques used in the analysis of paired comparison data. Biometrics 13 A957), 51—64. J aech J. L. The latin square. J. Qual. Technol. 1 A969), 242—255. Kastenbaum M. A., Hoel D. G. and Bowman К. О. A) Sample size requirements: one-way analysis of variance. Biometrika 57 A970), 421—430 B) Sample size requirements: randomized block designs. Biometrika 57 A970), 573—577. Kempthorne V. The randomization theory of experimental inference. J. Amer Statist. Assoc. 50 A955), 946—967. — and В а г с 1 а у W. D. The partition of error in randomized blocks. J. Amer. Sta tist. Assoc. 48 A953), 610—614. К e n d a 11 M. G. On the future of statistics — a second look. J. Roy. Statist. Soc A 131 A968), 182—294. К e u 1 s M. The use of the Studentized range in connection with an analysis oi variance. Euphytica 1 A952), 112—122. Kiefer J. C. Optimum experimental designs. J. Roy. Statist. Soc, Ser. В 21 A959), 272—319. К n e s e K. H. und Thews G. Zur Beurteilung graphisch formulierter Haufigkeits- verteilungen bei biologischen Objekten. Biometrische Zeitschr. 2 A960), 183—193 К о с h G. G. A general approach to the estimation of variance components. Tech- nometrics 9 A967), 93—118 (siehe 10, 551—558). - Sen K. P. Some aspects of the statistical analysis of the "mixed model". Biometrics 24 A968), 27—48. Ко Her S. A) Statistische Auswertung der Versuchsergebnisse. In Hoppe-Sey- ler/Thierfelder's Handb. d. physiologisch* und pathologisch-chemischen Analyse, 10. Aufl, Bd. II, S. 931—1036. Beriin-Gottingen-Heidelberg, 1955, S. 1011—1016 B) Statistische Auswertungsmethoden. In H. M. Rauen (Hrsg.), Biochemischcs Taschenbuch, II. Teil, S. 959—1046, Berlin-Gottingen-Heidelberg-New York, 1964, Kramer С Y. On the analysis of variance of a two-way classification with une- 1 qual sub-class numbers. Biometrics 11 A955), 441—452. К u r t z T. E., L i n к R. F., T u к е у J. W. and W a 11 а с e D. L. A) Short-cut multiple comparisons for balanced single and double classifications: Part 1, Results. ' Technometrics 7 A965), 95—161. B) Short-cut multiple comparisons for balanced single and double classifications: Part 2. Derivations and approximations. Biometrika 52 A965), 485—498. Kussmaul K. and Anderson R. L. Estimation of variance components in two-stage nested designs with composite samples. Technometrics 9 A967), 373—389. L e h m a n n W. Einige Probleme der varianzanalytischen Auswertung von Einzel- pflanzenergebnissen. Biometrische Zeitschr. 12 A970), 54—61. LemmerH. H., S t о к e r D. J. and ReinachS. G. A distribution-free analysis of variance technique for block designs. S. Afr. Statist. J. 2 A968), 9—32. LeRoy H. L. A) Wie finde ich den richtigen F-Test? Mitteilungsbl. f. math. Sta- tistik 9 A957), 182—195. B) Testverhaltnisse bei der doppelten Streuungszerle- gung (Zweiwegklassifikation). Schweiz. Landw. Forschg. 2 A963), 329—340. C) Testverhaltnisse beim a-b-c- und a-fr-c-d-Faktorenversuch. Schweiz. Landw. Forschg. 3 A964), 223—234. D) Vereinfachte Regel zur Bestimmung des korrek- ten F-Tests beim Faktorenversuch. Schweiz. Landw. Forschg. 4 A965), 277—283. Leslie R. T. and Brown В. М. Use of range in testing heterogeneity of variance. Biometrika 53 A966), 221—227. Li С. С Introduction to Experimental Statistics. (McGraw-Hill, pp. 460), New York, 1964, pp. 258—334. Li J. C. R. Statistical Inference I. (Edwards Brothers, pp. 658), Ann Arbor, Mich. 1964, Chapter 19. 585
L i e n e r t G. A. Ober die Anwendung von Variablen-Transformationen in der Psychologic Biometrische Zeitschr. 4 A962), 145—181. - Huber H., Hinkelmann K. Methode zur Analyse quantitativer Verlauf* skriterien. Biometrische Zeitschr. 7 A965), 184—193. Linhart H. A) Approximate test for m rankings. Biometrika 47 A960), 476— 480. B) Streuungszerlegung fur Paar-Vergleiche. Metrika 10 A966), 16—38. Link R. F. and W a 11 a ce D. L. Some Short Cuts to Allowances. Princeton University, "March 1952. M a n d e 1 J. Non-additivity in two-way analysis of variance. J. Amer. Statist. As- soc. 56 A961), 878—888. Martin L. Transformations of variables in clinical-therapeutical research. Me* thod. Inform. Med 1 A962), 1938—1950. McDonald B. J. and Thompson W. A. jr. Rank sum multiple comparisons in one- and two-way classifications. Biometrika 54 A967), 487—495. Michaelis J. Schwellenwerte des Friedman-Tests. Biometr. Zeitschr. 13 A971), 118—129. M о s t e 11 e r F. and Y о u t z С Tables of the Freeman-Tukey transformations for the binomial and Poisson distributions. Biometrika 48 A961), 433—440. N e m e n у i P. Distribution-Free Multiple Comparisons. New York, State University, Downstate Medical Center, 1963. Newman D. The distribution of the range in samples from normal population, expressed in terms of an independent estimate of standard deviation. Biometrika 31 A939), 20—30. Ott E. R. Analysis of means — a graphical procedure. Industrial Quality Control 24 (August 1967), 101—109. Overall J. E. and Dalai S. N. Design of experiments to maximize power relative to cost. Psychol. Bull. 64 A965), 339—350. Pachares J. Table of the upper 10% points of the .Studentized range. Biometrika 46 A959), 461—466. Page E. B. Ordered hypotheses for multiple treatments: A significance test for linear ranks. J. Amer. Statist. Assoc. 58 A963), 216—230. Pearson E. S. The probability integral of the range in samples of n observations from a normal population. Biometrika 32 A941/42), 301—308. — Stephens M. A. The ratio of range to standard deviation in the same normal sample. Biometrika 51 A964), 484—487. Peng К. С The Design and Analysis of Scientific Experiments. (Addison-Wesley, pp. 252). Reading, Mass. 1967, Chapter 10. Plackett R. L. Models in the analysis of variance. J. Roy. Statist. Soc. В 22 A960), 195—217. Plackett R. L. and В u r m a n J. P. The design of optimum multifactorial experiments. Biometrika 33 A946), 305—325. Quade D. Rank analysis of covariance. J. Amer. Statist. Assoc. 62 A967), 1187— 1200. R а о P. V. and К u p p e r L. L. Ties in paired-comparison experiments: a generalization of the Bradley-Terry model. J. Amer. Statist. Assoc. 62 A967), 194—204 (siehe 63, 1550). R a s с h D. Probleme der Varianzanalyse bei ungleicher Klassenbesetzung. Biometrische Zeitschr. 2 A960), 194—203. ReinachS. G. A nonparametric analysis for a multi-way classification with one element per cell. South Africa J. Agric. Sci. (Pretoria) 8 A965), 941—960 (siehe auch Lemmer, Stoker und Reinach). Reisch J. S. and Webster J. T. The power of a test in covariance analysis. Biometrics 25 A969), 701—714. Rives M. Sur l'analyse de la variance. I. Emploi de transformations. Ann. Inst. nat. Rech. agronom., Ser. В 3 A960), 309—331. Rutherford A. A. and Stewart D. A. The use of subsidiary information in the improvement of the precision of experimental estimation. Record of Agricultural Research 16, Part 1 A967), 19—24. Ryan T. A. A) Multiple comparisons in psychological research. Psychol. Bull. 56 A959), 26—47. B) Comments on orthogonal components. Psychol. Bull. 56 A959),
Sachs L. Statistische Methoden. Ein Soforthelfer. (Springer, 103 S.), Berlin, Heidelberg, New York, 1970, S. 94—97. Schef f ё Н. A) An analysis of variance for paired comparisons. J. Amer. Statist. Assoc 47 A952), 381—400. B) A method for judging all contrasts in the analysis of variance. Biometrika 40 A953), 87—104, Corrections 56 A969), 229. C) The Analysis of Variance (Wiley, p. 477). New York, 1959, Chapters 6 and 8. D) Multiple testing versus multiple estimation. Improper confidence sets. Estimation of derictions and rations. Ann. Math. Statist. 41 A970), 1—29. Ш е ф ф е Г. Дисперсионный анализ. М., Физматгиз, 1963. S e a r 1 е S. R. and Henderson С. R. Computing procedures for estimating components of variance in the two-way classification, mixed model. Biometrics 17 A961), 607—616. Seeger P. Variance analysis of complete designs: Some practical aspects (Alm- qvist and Wiksell, p. 225). Uppsala, 1966, p. 111—160. S i о t a n i M. Internal estimation for linear combinations of means. J. Amer. Statist. Assoc. 59 A964), 1141—1164 (vgl. auch 60 [1965], 573—583). Snedecor G. W. . Statistical Methods, 5. ed. Ames (Iowa) 1959. Снеде- к о р Дж. У. Статистические методы в применении к исследованиям в сельском хозяйстве и биологии. М., Сельхозиздат, 1961. S n е 11 Е. J. A scaling procedure for ordered categorical data. Biometrics 20 A964), 592—607. S p j 01 v о 11 E. A mixed model in the analysis of variance. Optimal properties. Skand. Aktuarietidskr. 49 A966), 1—38. Sprott D. A. Note on Evans and Anastasio on the analysis of. covariance. Psy- chol. Bull. 73 A970), 303—306 (vgl. 69 {1968], 225—234). Starks T. H. and David H. A. Significance tests for paired-comparison experiments. Biometrika 48 A961), 95—108. Student. Errors of routine analysis. Biometrika 19 A927), 151—164. Taylor L. R. Aggregation, variance and the mean. Nature 189 A961), 723—735 (vgl. auch Biometrika 49 [1962], 557—559). Teichroew D. Tables of expected values of order statistics and products oi order statistics for samples of size twenty and less form the normal distribution. Ann. Math. Statist. 27 A956), 410—426. * Terry M. E., Bradley R. A. and Davis L. L. New designs and techniques for organoleptic testing. Food Technology 6 A952), 250—254. T i e t j e n G. L. and M о о r e R. H. On testing significance of components of variance in the unbalanced nested analysis of variance. Biometrics 24 A968), 423— 429. Tocher K. D. The design and analysis of block experiments. Discussion. J. Rov. Statist. Soc. В 14 A952), 45—100. T r a w i n s k i В. J. An exact probability distribution over sample spaces of paired comparisons. Biometrics 21 A965), 986—1000. Tukey J. W. A) Comparing individual means in the analysis of variance. Biometrics 5 A949), 99—114. B) One degree of freedom for non-additivity. Biometrics 5 A949), 232—242 (vgl. 10 [1954], 562—568), (vgl. auch Ghosh und Sharma 1963). C) Some selected quick and easy methods of statistical analysis. Trans. N. Y. Acad. Sciences (II) 16 A953), 88—97. D) Answer to query 113. Biometrics 11 A955), 111—113. E) On the comparative anatomy of transformations. Ann. Math. Statist. 28 A957), 602—632. F) The future of data analysis. Ann. Math, Statist. 33 A962), 1—67. Vessereau A. Les methodes statistiques appliquees au test des caracteres orga- noleptiques. Revue de Statistique Appliquee 13 A965, No. 3), 7—38. Wartmann R. Rechnen mit gerundeten bzw. verschlusselten Zahlen, insbeson- dere bei Varianzanalyse. Biometrische Zeitschr. 1 A959), 190—202. Watts D. G. (Ed.). The Future of Statistics (Proc. Conf. Madison, Wise, June 1967; Academic Press, p. 315). New York, 1968. W e i 1 i n g F. Weitere Hinweise zur Prtifung der Additivitat bei Streuungszerle- gungen (Varianzanalysen). Der Zuchter 33 A963), 74—77. Wilcoxon F. and Wilcox Roberta A. Some Rapid Approximate Statistical Procedures. Lederle Laboratories, Pearl River. New York, 1964. 587
W i 1 к М. В. and Kempthorne O. Fixed, mixed, and random models. J. Amer. Statist. Assoc. 50 A955), 1144—1167. Williams J. D. (Letter) Quick calculations of critical differences for Scheffe's test for unequal sample sizes. The American Statistician 24 (April 1970), 38+39. Wine R. L. Statistics for Scientists and Engineers. (Prentice-Hall; pp. 671), Eng- lewood Cliffs, N. J. 1964. Winer В J. Statistical Principles in Experimental Design/ (McGraw-Hill, pp. 672), New York, 1962, p. 140—455. W i n n e D. Zur Auswertung von Versuchsergebnissen: Die Priif ung, ob Kurven sich in ihrem Verlauf unterscheiden. Naunyn-Schmiedebergs Arch. exp. Path. Phar- rnak. 250 A965), 383—396 und 256 A967), 319—321. Z e 1 e n M. and Connor W. S. Multi-factor experiments. Industrial Quality Control 15 (March 1959), 14—17. Множественные сравнения: Bancroft Т. A. Topics in Intermediate Statistical Methods. Vol. I. (Iowa State University Press; pp. 129). Ames, Iowa 1968, Chapter 8. Bechhofer R. E. Multiple comparisons with a control for multiply-classified variances of normal populations. Technometrics 10 A968), 715—718 (sowie 693—714). Conover W. J. Two k-sample slippage tests. J. Amer. Statist. Assoc. 63 A968), 614—626. CrouseC. F. A multiple comparison of rank procedure for a one-way analysis of variance. S. Afr. Statist. J. 3 A969), 35—48. Duncan D. B. A Bayesian approach to multiple comparisons. Technometrics 7 A965), 171—222. Dunn Olive J. A) Confidence intervals for the means of dependent, normally distributed variables. J. Amer. Statist. Assoc. 54 A959), 613—621. B) Multiple comparisons among means. J. Amer. Statist. Assoc. 56 A961), 52—64. C) Multiple comparisons using rank sums. Technometrics 6 A964), 241—252. — M a s s e у jr. F. J. Estimating of multiple contrasts using t-distributions J. Amer. Statist. Assoc. 60 A965), 573—583. DunnettC. W. A)A multiple comparison procedure for comparing several treatments with a control. J. Amer. Statist. Assoc. 50 A955), 1096—1121. B) New tables for multiple comparisons with a control. Biometrics 20 A964), 482—491. C) Multiple comparison tests. Biometrics 26 A970), 139—141. Gabriel K. R. A) A procedure for testing the homogeneity of all sets of means in analysis of variance. Biometrics 20 A964), 458—477. B) Simultaneous test procedures for multiple comparisons on categorical data. J. Amer. Statist. Assoc. 61 A966), 1081—1096. Games P. A. Inverse relation between"the risks of type I and type II errors and suggestions for the unequal n case in multiple comparisons. Psychol. Bull. 75 A971), 97—102 (vgl. auch 71 ,[1969], 43—54). Hollander M. An asymptotically distribution-free multiple comparison procedure treatments vs. control. Ann. Math. Statist. 37 A966), 735—738. Keuls M. The use of the studentized range in connection with an analysis of variance. Euphytica 1 A952), 112—122. Kramer C. Y. Extension of multiple range tests to group correlated adjusted means. Biometrics 13 A957), 13—18. Kurtz T. E., Link R. F., T u к е у J. W., Wallace D. L. Short-cut multiple comparisons for balanced single and double classifications: Part 1, Results. Technometrics 7 A965), 95—161. — Link R. F., Tukey J. W. and Wallace D. L. Short-cut multiple comparisons for balanced single and double classifications: Part 2. Derivations and approximations. Biometrika 52 A965), 485—498. LeClerg E. L. Mean separation by the functional analysis of variance and multiple comparisons. Plant Ind. Stn., Agric. Res. Serv., U.S. Dept. Agric, Report ARS-20-3, Beltsville, Md., May 1957. L e 11 о u с h J. Quelques aspects du probleme des comparisons multiples. Revue de Statistique Appliquee 14 A966), No. 1, 25—31. Link R. F. On the ratio of two ranges. Ann. Math. Statist. 21 A950), 112—116 — Wallace D. L. Some Short Cuts to Allowances. Princeton University, March 1952, 588
MarascuiloL. A. Large-sample multiple comparisons. Psychol. Bull. 65 A966), 280—290 (vgl. auch J. Cohen, 67 ,[1967], 199—201). McDonald B. J. and Thompson W. A. Jr. Rank sum multiple comparisons in one- and two-way classifications. Biometrika 54 A967), 487—497. Miller R. G. Simultaneous Statistical Inference. (McGraw-Hill, pp. 272), New York, 1966 (Chapter 2, p. 37—109). Morrison D. F. Multivariate Statistical Methods (McGraw-Hill, p. 338). New York, 1967. Nemenyi P. Distribution-Free Multiple Comparisons. New York, State University of New York, Downstate Medical Center, 1963. Newman D. The distribution of range in samples from a normal population, expressed in terms of an independent estimate of standard deviation. Biometrika 31 A939), 20—30. P e t r i n о v i с h L. F. and H a r d у с к С. D. Error rates for multiple comparison methods. Some evidence concerning the frequency of erroneous conclusions. Psychol. Bull. 71 A969), 43—54 (vgl. auch 75 [1971], 97—102). Rhyne A. L. and Steel R. G. D. A multiple comparisons sign test: all pairs o\ treatments. Biometrics 23 A967), 539—549. Rhyne jr. A. L. and Steel R. G. D. Tables for a treatment versus control multiple comparisons sign test. Technometrics 7 A965), 293—306. Ryan T. A. Significance tests for multiple comparison of proportions, variances and other statictics. Psychol. Bull. 57 A960), 318—328. ScheffeH. A method for judging all contrasts in the analysis of variance. Bio- metrika 40 A953), 87—104, Corrections 56 A969), 229. S i о t a n i M. Interval estimation for linear combinations of means. J. Amer. Statist. Assoc. 59 A964), 1141—1164. S 1 i v к a J. A one-sided nonparametric multiple comparison control percentile test: treatment versus control. Biometrika 57 A970), 431—438. Steel R. G. D. A) A multiple comparison rank sum test: treatment versus control. Biometrics 15 A959), 560—572. B) A rank sum test for comparing all pairs of treatments. Technometrics 2 A960), 197—208. C) Answer to Query: Error rates in multiple comparisons. Biometrics 17» A961), 326—328. D) Some rank sum multiple comparisons tests. Biometrics 17 A961), 539—552. Student. Errors of routine analysis. Biometrika 19 A927), 151—164. T h 6 n i H. A nomogram for testing multiple comparisons. Biometrische Zeitschr. 10 A968), 219—221. Tobach E., Smith M., Rose G. and Richter D. A table for making rank sum multiple paired comparisons. Technometrics 9 A967), 561—567. Планирование эксперимента: Bancroft Т. A. Topics in Intermediate Statistical Methods (Iowa State Univ. Press) Ames, Iowa, 1968. Brownlee K. A. Statistical Theory and Methodology in Science and Engineering (Wiley, p. 570). New York, 1960. В изд. «Наука» готовится перевод. Chew V. (Ed.). Experimental Designs in Industry. New York, 1958. Cochran W. G. and Cox Gertrude M. Experimental Designs, 2nd ed. New York, 1962. Da vies O. L. (Ed.). Design and Analysis of Industrial Experiments, 3rd ed. New York, 1963. DugueD. etGiraultM. Analyse de Variance et Plans d'Experience. Paris, 1959. Federer W. T. Experimental Design. New York, 1963. Fisher R. A. The Design of Experiments. Edinburgh, 1935 Gth ed. 1960) Hall M. jr. Combinatorial Theory. (Blaisdell, p. 310). Waltham, Mass. 1967. X о л л М. Комбинаторика. М., «Мир», 1970. Hedayat A. Book Review. Books on experimental design. (Gibt eine Liste mit 43 Buchern). Biometrics 26 A970), 590—593. Herzberg Agnes H. and Cox D. R. Recent work on the design of experiments: a bibliography and a review. J. Roy. Statist. Soc. 132 A A969), 29—67. H i с k s C. R. Fundamental Concepts in the Design of Experiments. New York, 1964 Хикс Ч. Основные принципы планирования эксперимента. М., «Мир», 1967. 589
Johnson N. L. and Leone F. C. Statistics and Experimental Design in Engineering and the Physical Sciences. Vol. II. New York, 1964. Kempthorne O. The Design and Analysis of Experiments, 2nd ed. New York, 1960. К e n d all M. G. and Stuart A. The Advanced Theory of Statistics. Vol. 3, Design and Analysis, and Time Series. London, 1966, Chapters 35—38. Кендал л M., Стьюарт А. Многомерный статистический анализ и временные ряды. М., «Наука», 1976. К i r k R. E. Experimental Design. Procedures for the Behavioral Sciences. (Brooks- Coole; pp. 577), Belmont, Calif. 1968. Li С. С Introduction to Experimental Statistics. New York, 1964. Li J. C. R. Statistical Inference. Vol. I, II., Ann Arbor, Mich. 1964. L i n d e r A. Planen und Auswerten von Versuchen. 3. erw. Aufl. " (Birkhauser, 344 S.), Basel und Stuttgart, 1969. Mendenhall W. Introduction to Linear Models and the Design and Analysis of Experiments (Wadsworth Publ. Сотр., pp. 465), Belmont, Calif. 1968. Myers J. L. Fundamentals of Experimental Design (Allyn and Bacon, p. 407). Boston, 1966. Peng К. С. The Design and Analysis of Scientific Experiments. Reading, Mass. 1967. Scheffe H. The Analysis of Variance. New York, 1959. Шеффе Г. Дисперсионный анализ. М., Физматгиз, 1963. Winer В. J. Statistical Principles in Experimental Design. London, 1962.
- образное, треугольное и рабномерное распределения Распределение коэффициента корреляции Бета - распределение Гамма - распределение Распределение Стьюдента ^—I F - распределение ( Экспоненциальное распределение Стандартное нормальное распределение Биномиальное распределение хи-кдадрат- распределение Гипергеоме три чес кое распределение Распределение Пуассона Центральная предельная теорема Если имеется последовательность из л независимых случайных переменных Хг с одной и той же функцией распределения* п со средним \i и дисперсией а2, то случайная переменная zn— SXt-—щ1п тем ближе к нормальному распределению, чем больше п. _ *=1 Из этого также следует: среднее значение X* нескольких случайных переменных (с одинаковыми средними и дисперсия*- ми) асимптотически нормально при произвольных распределениях Хи т. е. с увеличением объема выборки аппроксимация1 нормальных распределений улучшается. Это справедливо также и для многих других функций от выборки.
Основные статистические критерии По информационной емкости исходные данные обычно разделяют на три ступени: 1 — частоты, 2 — ранговые числаг (например, школьные отметки), 3 —измеряемые значения (имеющие шкалу с постоянными интервалами). Исходя из информационного содержания данных и постановки вопроса формируются соответствующие статистические критерии Критерии, пригодные для данных с более низким информационным содержанием, расположены в верхней части таблицы; они пригодны для более информативных данных. Так, например, зависимые выборки измеряемых значений могут быть проверены на равенство с помощью критерия знаков. Критерий Колмогорова — Смирнова, строго говоря, может применяться также и для ранговых чисел. Данные Критерии 1 выборка 2 выборки независимые более чем 2 выборки независимые Частоты Ранги Изме- дискретные распределения распределения Пуассона, биномиальные, гипергеометри ческие, Х2-критерий согласия, 27-критерий согласия критерий Фишера, 9С2критерий, G- критерий, коэффициент сопряженности, 'Последовательные планы распределены не но нормальному закону итерационные критерии критерий Зигеля—Тью- ки, Мостеллер-крите- рий. критерий Тьюки, медианный критерий, {/.-критерий критерий Колмогорова- Смирнова, критерий Кокса-Стюарта критерей Колмогорова- Смирнова приближенно - нормальное распределение, например, после преобразования разностное распределение, вероятностная бумага, критерий Шапиро—Уилка, ^-критерий, ^-критерий, критерии на выбросы критерий Левене, критерий Пиллаи — Буэна- вентуры. F-критерий, критерий Лорда, ^-критерий критерии знаков максимум - критерий, критерий Уил- коксона, квадрантная корреляция, угловой критерий, ранговая корреляция Спирмэна /-критерий, корреляция моментов, линейная регрессия Х2-критерии, 21-кри терий, коэффициент сопряженности медианные критерии Я-критерий критерий Левене, критерий Кокрена — Хартли — Бартлета, критерий Линка Уоллеса, сравнение по Немени, дисперсионный анализ, критерий Стьюдента— Ньюмена — Кёильса Q-критерий критерий Фридмана, множественное сравнение по Уилкоксону и Уилкокс дисперсионный анализ, критерий Шеффе, критерий Стьюдента — Ньюмена — Кёильса,' ковариационный анализ, частная корреляция, множественная корреляция, множественная регрессия, дискриминантный анализ
В таблице приведены стандартные методы статистики; проверяются, например: 1. Случайность последовательности альтернативных данных или измеренных значений: итерационный критерий, разностный знаковый итерационный критерий, тренд-критерий Кокса — Стюарта, последовательное разностное рассеяние. 2. Тип распределения, согласованность эмпирического и теоретического распределений, так называемый критерий согласия: %2-критерий, критерий Колмогорова — Смирнова; в частности, для проверки а) логарифмически нормального распределения — логарифмическая вероятностная бумага, б) нормального распределения — вероятностная бумага или критерий Шапиро — Уилка. 3. Равенство двух или нескольких независимых генеральных совокупностей: а) рассеяние двух или нескольких независимых выборок: критерий Зигеля — Тьюки, критерий Пиллаи — Буэнавентуры, /^-критерий, Левене-критерий, критерий Кокрена, критерий Хартли, критерий Бартлета, б) средние положения: медианы или средние значения двух или нескольких независимых выборок: медианный критерий, критерий Мостеллера, критерий Тьюки, (/-критерий Уилкоксона,*Манна и Уитни, критерий Лорда, /-критерий, расширенные медианные критерии, Я-критерий Краскела и Валлиса, критерий Линка — Уоллеса, сравнение по Немени, дисперсионный анализ, критерий Шеф- фе, критерий Стьюдента — Ньюмена — Кёильса. 4. Равенство двух или нескольких независимых переменных совокупностей: критерии знаков, максимум-критерий, критерий Уилкоксона, Лкритерий, Q-критерий, критерий Фридмана, сравнение по Уилкоксону — Уилкоксу, дисперсионный анализ. 5. Зависимость или независимость двух признаков: а) четырех- и многоклеточные таблицы: критерий Фишера, %2-критерий совместно с критерием Макиимара, G-критерий, 2/-критерий, коэффициент сопряженности ^ б) ряды ранговых чисел или измерений: квадрантная корреляция, угловой критерий, ранговая корреляция Спирмэна, корреляция моментов, линейная регрессия.
СОДЕРЖАНИЕ Предисловие 5 Введение 7 Введение в статистику 9 0. Предварительные замечания 12 0.1. Математические сокращения 12 0.2. Вычисления 12 0.3. Вспомогательные средства для вычислений 27 0.4. Округления 30 0.5. Расчеты с приближенными числами 31 0.6. Приближенные формулы для вычислений с малыми значениями 32 0.7. Относительные числа 34 0.8. Графическое изображение 35 Глава 1. Статистические методы решения задач 37 ?1.1. Что такое статистика? Статистика и научный метод 37 1.2. Элементы вероятностных расчетов 39 ф 1.2.1. Статистическая вероятность 39 ф1.2.2. Теорема сложения вероятностей 41 ф1.2.3 Теорема умножения вероятностей для независимых событий: условная вероятность и независимость 44 1.2.4. Теорема Байеса 48 ф 1.2.5.* Случайные переменные •. 50 1.2.6 Функция распределения и функция вероятности 51 1.3. Подход к нормальному распределению 53 #1.3.1. Генеральная совокупность и выборка 53 #1.3.2. Получение случайных выборок 56 ч/ф1.3.3. Частное распределение . . . 60 01.3.4. Нормальная кривая и нормальное распределение 63 ф1.3.5. Отклонения от нормального распределения 70 Ф1.3.6. Характеристики распределения с одним пиком (унимодального) 71 1.3.6.1. Оценка параметров 71 1.3.6.2. Арифметическое среднее и стандартное отклонение . . 72 1.3.6.3. Оценивание среднего значения и стандартного отклонения при малом объеме выборки 73 1.3.6.4. Оценивание среднего значения и стандартного отклонения по выборкам большого объема: отдельные значения сгруппированы в классы 76 1.3.6.5. Взвешенное арифметическое среднее, взвешенное стандартное отклонение и арифметическое среднее с весами .... 79 1.3.6.6. Коэффициент вариации 80 1.3.6.7. Примеры на нормальное распределение 81 Ф1.3.7. Вероятностная бумага 84 1.3.8. Другие параметры, характеризующие одномерное распределение частот 86 1.3.8.1. Геометрическое среднее 87 1.3.8.2. Гармоническое среднее 89 1.3.8.3. Медиана и мода 91 1.3.8.4. Стандартная ошибка арифметического среднего и медианы 94 594
1.6 : 1.3.8.5. Размах 95 1.3.8.6. Интердецильный размах 97 1.3.8.7. Асимметрия и эксцесс . . 98 1.3.9. Логарифмически-нормальное распределение 104 1.4. Подход к статистическим критериям 108 1.4.1. Статистическая надежность 108 1.4.2. Нуль-гипотеза и альтернативная гипотеза ПО 1.4.3. Риск I и риск II 113 1.4.4. Уровень значимости и гипотезы устанавливаются по возможности перед получением данных 115 1.4.5. Статистический критерий 116 1.4.6. Односторонние и двусторонние критерии 119 1.4.7. Мощность критерия 120 1.4.8. Непараметрические методы 124 1.4.9. Принципы статистических решений 127 1.5. Три важных распределения выборочных статистик 129 1.5.1. Распределение Стьюдента 129 1.5.2. ^-распределение 136 1.5.3. F-распределение 150 Дискретные распределения 153 И.6.1. Биномиальный коэффициент . . . . 153 J1.6.2. Биномиальное распределение 159 1.6.3. Гипергеометрическое распределение 167 ~I.6.4. Распределение Пуассона 170 И.6.5. Номограмма торндайк 177 J1.6.6. Сравнения средних значений при распределении Пуассона . 180 1.6.7. Индекс рассеяния 182 1.6.8. Мультиномиальные коэффициенты 184 1.6.9. Мультиномиальное распределение 185 Глава 2. Применение статистических методов в медицине и технике . . 187 2.1. Статистические методы в медицине 187 2.1.1. Обзор исходных материалов * 188 2.1.2. Надежность лабораторных методов 188 2.1.3. Заболевание как предмет эксперимента и массовое явление . . 193 2.1.4. Статистика причин болезней: ретроспективные и перспективные сравнительные ряды 193 2.1.5. Терапевтические сравнения 196 2.1.6. Объем выборки для клинического эксперимента 201 2.2. Последовательные планы 205 2.3. Оценка биологически активных веществ на основании альтернативных кривых «доза — эффект» 209 2.4. Статистические методы в технике 214 2.4.1. Контроль качества в промышленном производстве 214 2.4.1.1. Контрольные карты 214 2.4.1.2. Приемочные испытания 215 2.4.1.3. Улучшение качества 216 2.4.2. Срок службы и надежность технических изделий 217 2.5. Исследование операций 222 2.5.1. Линейное программирование 222 2.5.2. Теория игр и игры на моделях 223 2.5.3. Метод Монте-Карло и имитационное моделирование 224 Глава 3. Сравнение независимых выборок измеренных значений . . . 228 фЗ.1. Доверительный интервал для среднего значения и медианы . . 229 фЗ.1.1. Доверительный интервал для среднего значения 229 3.1.2. Оценка объема выборки 231 3.1.3. Среднее абсолютное отклонение 233 3.1.4. Доверительный интервал для медианы 236 фЗ.2. Сравнение эмпирического среднего значения со средним значением генеральной совокупности 236 фЗ.З. Сравнение эмпирической дисперсии с генеральной 239 595
3.4. Доверительный интервал дли дйспер сии и коэффициента вариации 240 #3.5. Сравнение двух выборочных дисперсий из нормальных совокупностей 241 #3.6, Сравнение двух выборочных средних из нормальных совокупностей 245 3.7. Упрощенные критерии, предполагающие приближенно нормальное распределение 253 3.7.1. Сравнение рассеяний двух малых выборок по Пиллаи (Pillai) и Буэнавентуре 253 3.7.2. Сравнение средних значений двух малых выборок по Лорду 254 3.7.3. Сравнение средних значений нескольких выборок равного объема по Диксону 255 3.8. Проблема выбросов и допустимые (толерантные) границы . . . 256 3.9. Непараметрические методы для сравнения независимых выборок 261 3.9.1. Ранговый критерий рассеяния Зигеля и Тьюки 264 3.9.2. Сравнение двух независимых выборок; упрощенный критерий Тыоки 266 3.9.3. Сравнение двух независимых выборок по Колмогорову и Смирнову 268 #3.9.4. Сравнение двух независимых выборок: {/-критерий Уилкок- сона, Манна и Уитни 270 #3.9.5. Сравнение нескольких независимых выборок: Я-критерий Краскела — Валлиса 281 Глава 4. Другие критерии 284 #4.1. Уменьшение выборочной ошибки посредством повторных выборок: парное сравнение 284 4.2. Сравнение двух связанных (зависимых) выборок 285 #4.2.1. Проверка связанных выборок с помощью ^-критерия . . 286 4.2.1.1. Проверка значимости среднего значения разности пар . . 286 4.2.1.2. Проверка равенства двух связанных дисперсий .... 287 #4.2.2. Критерий Уилкоксона для разностей пар 288 4.2.3. Максимум-критерий для разностей пар 290 4.2.4. Критерий знаков Диксона и Муда 291 #4.3. Проверка распределений по 5С2-кРитерию согласия 295 #4.3.1. Сравнение наблюдаемых частот с заданным расщеплением . 296 #4.3.2. Сравнение эмпирического распределения с равномерным распределением 296 #4.3.3. Сравнение эмпирического распределения с нормальным распределением 297 4.3.4. Сравнение эмпирического распределения с распределением Пуассона 300 4.4. Критерий согласия Колмогорова — Смирнова 301 4.5. Частоты событий 304 #4.5.1. Доверительные границы наблюдаемой частоты при биномиально распределенной генеральной совокупности. Сравнение относительной частоты с параметром генеральной совокупности 304 #4.5.2. Быстрая оценка доверительных границ наблюдаемой относительной частоты по Клопперу и Пирсону 310 #4.5.3. Оценка минимального объема выборки 311 4.5.4. Доверительный интервал для редких событий 313 4.5.5. Сравнение двух частот; проверка гипотезы о том, находятся ли они в определенном соотношении 318 4.6. Анализ таблиц 2x2 318 #4.6.1. Сравнение двух процентов — анализ таблиц 2X2 318 4.6.2. Быстрые критерии для определения отличия соотношения частот от заданных значений 337 4.6.3. Модифицированный критерий знаков Макнимара 338 4.6.4. Свойства аддитивности у? 341 4.6.5. Комбинация таблиц 2x2 342 4.6.6. Коэффициенты сопряженности Пирсона 344 596
04.6.7. Точный критерий Фишера для сравнения вероятностей, лежй- щих в основе двух биномиальных распределений (при малых объемах выборок) 345 4.7. Проверка случайности последовательности альтернативных данных или измерений 347 4.7.1. Разброс последовательных разностей 347 4.7.2. Итерационный критерий для проверки гипотезы о том, что последовательность альтернативных данных или измерений является случайной 348 4.7.3. Фазо-частотный критерий Валлиса и Мура 354 4.8. Проверка временного ряда на тренд: знаковый критерий тренда Кокса и Стюарта 355 Глава 5. Мера зависимости: корреляция и регрессия 357 05.1. Предварительные замечания и обзор 357 05.2. Типы корреляционных взаимозависимостей 366 5.3. Непараметрические меры зависимости 367 05.3.1. Коэффициент ранговой корреляции Спирмэна 368 05.3.2. Квадрантная корреляция 372 05.3.3. Угловой критерий ,Олмстеда и Тьюки 374 5.4. Способы оценивания 376 05.4.1. Оценивание коэффициента корреляции 376 05.4.2. Оценивание прямой регрессии 377 05.4.3. Оценивание стандартных отклонений 381 5.4.4. Оценивание коэффициента корреляции и прямой регрессии по корреляционной таблице 385 05.4.5. Доверительные границы для коэффициента корреляции . . 390 5.5. Критерии 391 05.5.1. Проверка наличия корреляции, а также некоторые сравнения 391 5.5.2. Другие применения z-преобразования 396 05.5.3. Проверка линейности регрессии 398 05.5.4. Проверка значимости коэффициента регрессии 402 5.5.5. Проверка согласия между оцененным и гипотетическим коэффициентами регрессии ". 403 5.5.6. Проверка согласия между оцененным и гипотетическим значениями а 403 5.5.7. Доверительные границы для коэффициента регрессии, для свободного члена и остаточной дисперсии 404 05.5.8. Сравнение двух коэффициентов регрессии . . • 404 05.5.9. Доверительные интервалы для прямой регрессии 406 5.6. Нелинейная регрессия 408 5.7. Некоторые линеаризирующие преобразования 414 05.8. Частная и множественная корреляция и регрессия 416 Глава 6. Анализ многоклеточных таблиц сопряженности признаков . . . 422 6.1. Сравнение нескольких выборок альтернативных данных .... 422 06.1.1. k • 2-клеточный %2-критерий Брандта и Снедекора . . . 422 6.1.2. Сравнение двух независимых эмпирических распределений частот по Брандту — Снедекору 426 6.1.3. Разложение числа степеней свободы для к • 2-клеточной таблицы 426 06.1.4. Проверка k • 2-клеточной таблицы на тренд: вклад линейной регрессии в общую вариацию 431 6.2. Анализ таблиц сопряженности признаков типа г х с 433 06.2.1. Проверка независимости или однородности 433 6.2.2. Проверка степени взаимозависимости между признаками, распределенными на две категории. Сравнение нескольких таблиц сопряженности признаков относительно степени взаимозависимости на основе скорректированных коэффициентов сопряженности Павлика 438 6.2.3. Проверка на тренд: вклад линейной регрессии в общую вариацию. Сравнение коэффициентов регрессии, соответствующих многоклеточным таблицам 440 597
6.2.4. Йроверка квадратных таблиц на симметрию: 443 фб.2.5. Использование информационной статистики для проверки многоклеточных таблиц на независимость и однородность. Информационный анализ таблиц с тремя и четырьмя входами по Кульбаку 444 Глава 7. Методы дисперсионного анализа 448 ф7.1. Предварительные замечания и обзор 448 7.2. Проверка равенства нескольких дисперсий 448 Ц7.2.1. Проверка равенства нескольких дисперсий для выборок равного объема по Хартли 450 7.2.2. Проверка равенства нескольких дисперсий выборок равного объема по Кокрену 450 ф7.2.3. Проверка равенства нескольких дисперсий равных или различных выборок по Бартлету 453 7.3. Дисперсионный анализ с односторонней классификацией .... 455 ф7.3.1. Сравнение нескольких средних в дисперсионном анализе . 455 ф7.3.2. Заключения о линейных контрастах по Шеффе 461 ф7.3.3. Преобразования 466 7.4. Дисперсионный анализ с двусторонней и трехсторонней классификацией 468 07.4.1. Дисперсионный анализ для трехсторонней классификации при наблюдениях 468 ф7.4.2. Множественные сравнения по Шеффе и по Стьюденту Ньюмену—Кёильсу >. . 483 ф7.4.3. Двусторонний дисперсионный анализ при одном наблюдении на клетку таблицы. Модель без взаимодействия . . . -. 489 7.5. «Быстрые» критерии дисперсионного анализа 494 7.5.1. «Быстрый» критерий дисперсионного анализа и множественные сравнения средних значений по Линку и Уоллесу 494 7.5.2. Множественные сравнения независимых выборок по Немени . 496 7.6* Ранговый дисперсионный анализ для нескольких связанных выборок 499 07.6.1. Критерий Фридмана: двойное разложение с одним наблюдением на клетку таблицы 499 фУ.6.2. Множественные сравнения независимых выборок по Уилкок- сону и Уилкокс 504 ф7.7. Принципы планирования эксперимента 507 Задачи и упражнения 515 Ответы и решения 524 Библиография 530
Закс Л. 320 Статистическое оценивание. Пер. с нем. В. Н. Варыги- на. Под ред. Ю. П. Адлера, В. Г. Горского. М., «Статистика», 1976. 598 с. с ил. (Зарубеж. стат. исследования). Книга охватывает все известные методы статистического оценивания, нашедшие практическое применение. Дает определение математической статистики, формулирует основные ее задачи, приводит главные понятия и законы, на которых она базируется, рассматривает символику и основные математические операции. Описывает различные статистические методы получения статистических оценок и методы проверки и иллюстрирует примерами их применение. Прикладной характер книги и четкое построение делают ее интересной широкому кругу экономистов и статистиков, преподавателям вузов, научным работникам, аспирантам. , 10805М46 П5.-7в 517.8 008@1)-76 ¦ Второй индекс 10803.
ЛОТ АР ЗА КС Статистическое оценивание Редактор К. М. Чижевская Мл. редактор Степанченко О. б. Техк. редактор В. А. Чуракова Корректоры Я. Б. Островский, С. С Писаревская, А. Т. Сидорова Худ. редактор Т. В. Стихно Сдано в набор 23/1 1976 г. Подписано к печати 26/Х 1976 г. Формат бумаги 60X907ie. Бумага № 3. Объем 37,5 печ. л. Уч -изд. л 41,52 Усл. п. л. 37,5 Тираж 9 000 экз. (Темат. план 1976 г. № 115) Заказ № 930. Цена 2 р. 70 к Издательство «Статистика», Москва, ул. Кирова, 39, Московская типография № 4 Союзполиграфпрома при Государственном комитете Совета Министров СССР по делам издательств, полиграфии и книжной торговли Москва, И-41, Б. Переяславская, 46.