Text
                    Е.А.Дмитриев
Математическая
статистика
в почвоведении


Е. А. ДМИТРИЕВ МАТЕМАТИЧЕСКАЯ СТАТИСТИКА В ПОЧВОВЕДЕНИИ Научный редактор доктор физ.-мат. наук Ю. Н. Благовещенский Рекомендовано Государственным комитетом Российской Федерации по высшему образованию в качестве учебника для студентов высших учебных заведений, обучающихся по направлению "Почвоведение" Издательство Московского университета 1995
ББК 22.172 Д53 УДК 631.4:519.240 Рецензенты: кафедра математической статистики факультета вычислительной математики и кибернетики МГУ (заведующий кафедрой академик РАН Ю. В. Прохоров); доктор физико-математичеких наук Л. Д. Мешалкин Федеральная целевая программа книгоиздания России Дмитриев Е. А. Д53 Математическая статистика в почвоведении: Учебник. - М.: Изд-во МГУ, 1995.- 320 с: ил. ISBN 5-211-02930-5 В учебнике даются основные понятия теории вероятностей и математической статистики, описывается техника нахождения статистических оценок и различные методы статистического анализа результатов экспериментальных исследований, включая дисперсионный, корреляционный, регрессионный. Особое внимание уделяется методологии использования статистики и' интерпретации результатов анализа на примерах из почвоведения и агрохимии. Рассмотрена техника вычислений. В Приложении даны справочные статистические таблицы. Для студентов почвоведов и агрохимиков. _ 1602090000D309000000)-05(> пе ww *~ J\ — 11 — 95 bbKzz.l/i 077@2)-95 ISBN 5-211-02930-5 © Дмитриев Е.А., 1995
Памяти Николая Александровича Плохинского посвящается ПРЕДИСЛОВИЕ Со времени выхода из печати пособия "Математическая статистика в почвоведении" A972) многое изменилось и в самом почвоведении, и в использовании почвоведами математических методов, и в техническом оснащении вычислительных работ. Это не могло не вызвать необходимости радикальной перестройки изложения курса, особенно с учетом того, что широкое использование калькуляторов и ЭВМ привело к известному разрыву между технической возможностью проведения статистических расчетов, с одной стороны, и явно недостаточным пониманием необходимости и допустимости самих вычислений, умением грамотно интерпретировать полученные результаты - с другой, По этой причине в настоящем учебнике наряду с изложением основ математической статистики и теории вероятностей и описанием методов статистического анализа и техники вычислений особое внимание уделено методологии использования статистических методов в почвоведении. Автор постарался учесть все пожелания и замечания, высказанные как в отношении ранее опубликованного пособия, так и по программе курса "Математические методы в почвоведении с основами вычислительной техники" и рукописи настоящего учебника, написанного согласно этой программе. Автор искренне признателен проф. В.В. Налимову и сотрудникам бывшей лаборатории статистических методов МГУ B.C. Дуженко, А.П. Кириенко, Н.Г. Микешиной и Е.Г. Угер, оказавшим неоценимую помощь на самом трудном адаптационном этапе внедрения методов математической статистики в область почвоведения, проф. И.А. Крупенникову и канд. биол. наук Т.Б. Махлину за рецензию на ранее опубликованное пособие, зав. кафедрой почвоведения Иркутского университета А.Г. Сазонову, рецензировавшему программу курса. Автор весьма признателен рецензентам настоящего учебника доктору физ.-мат. наук Л.Д. Мешалкину, а также кандидатам физ.-мат. наук А.Д. Кузьмину и В.И. Пагуровой и другим сотрудникам кафедры математической статистики факультета вычислительной математики и кибернетики МГУ, руководимой академиком Ю.В. Прохоровым, проявившим интерес к этой книге и сделавшим немало замечаний, которые автор в меру своих сил и возможностей постарался учесть. Особую признательность автор хотел бы выразить доктору физ.-мат. наук Ю.Н. Благовещенскому, взявшему на себя труд научного редактирования учебника, и кандидату биол. наук В.П. Самсоновой за постоянное внимание, помощь и неизменно
ВВЕДЕНИЕ Существуют определенные доводы, показывающие, что статистические соображения в метеорологии можно отбросить, лишь вообще отказавшись от любых исследований... Положение дел в метеорологии является типичным для всех тех наук, которые лишь недавно стали рассматриваться как точные и стали использовать количественные методы. Н. Винер Математизация почвоведения, интенсивно идущая последние 30 - 40 лет и несомненно являющаяся естественным результатом развития, с одной стороны, самого почвоведения, а с другой - математики и вычислительной техники, была предугадана гением В.В. Докучаева, связавшего превращение созданной им науки в точную с возможностью, в частности, преодоления тех трудностей, которые возникают в связи с необходимостью иметь дело с переменными величинами, трудно поддающимися "цифровому обозначению" (Докучаев, 1886). К мысли о статистической природе свойств почв почвоведы пришли давно и по крайней мере до того, как статистические методы анализа данных нашли применение в исследовании почв. Отражением этих представлений, например, явилась дискуссия по целесообразности использования смешанных образцов, развернувшаяся на страницах журнала "Почвоведение" еще в 1901 г. По-видимому, первые опыты по использованию статистических методов в почвоведении относятся к 20-м гг. текущего столетия (Чириков, Малюгин, 1926; Качинский, 1926, 1927; Астапов, 1928; Соколов, 1929; Изюмов, 1930 и др.), чему немало способствовало появление литературы по математической статистике прикладного характера (Голубев, 1920; Сапегин, 1922; Филиппченко, 1926; Поморский, 1927 и др.). И хотя до конца 50-х - начала 60-х гг. статистические методы использовались очень скромно, в этот период появляется ряд работ весьма ярких и не потерявших своего значения до настоящего времени (Сердобольский, 1937, 1952; Филиппова, Сердобольский, 1937; Важенин и др., 1959, 1961; и др.). Интенсивное внедрение статистических методов в почвоведение, особенно начиная с 60-х гг., было инициировано и подготовлено работами по прикладной 5
доброжелательную критику. Автор не может не поблагодарить широкий круг почвоведов за ту помощь, которую они оказали, иногда сами того не ведая, в написании учебника, в разработке методологических вопросов, подборе примеров и их интерпретации. В 1988 г. скончался проф. Н.А. Плохинский, живое слово которого сыграло в научной жизни автора весьма заметную роль. Светлой памяти Николая Александровича Плохинского автор посвящает эту книгу.
статистике в смежных ооластях науки, в том числе сельскохозяйственной (Немчинов, 1945; Перегудов и др., 1948; Федоров, 1957; Финни, 1957; Фишер, 1958; Снедекор, 1961; и др.). В последние годы набор методов статистического анализа данных в почвоведении значительно расширился, и что особенно важно, были показаны интерпретационные возможности разных методов, без чего немыслимо грамотное и гибкое их использование. Наряду с получившими широкое распространение наиболее простыми методами дисперсионного, корреляционного и регрессионного анализа стали достаточно часто использоваться методы факторного анализа, теории случайных процессос, дискримина~ттного анализа. Все более интенсивно внедряются методы непараметрической статистики» Много сделано в области математического планирования экспериментов и др. В общем и целом особенностью в использовании статистических методов в последние годы можно считать повышение интереса к многомерной статистике. Долгие годы статистика служила лишь средством свертки информации и оценки надежности выводов. Не утратив этого назначения, статистика со своим обширным набором методов сейчас все более часто выступает в качестве метода познания объекта, инструмента анализа данных. Как особое направление анализ данных (Мостел- лер, Тьюки, 1982) опирается на весьма правдоподобное допущение, что любой массив грамотно собранных результатов экспериментальных исследований неисчерпаем по заключенной в нем информации, и нужно лишь уметь эту информацию извлечь, нужно заставить экспериментальные данные заговорить. В качестве средства, позволяющего это сделать, и используется широкий набор различных статистических мегодов анализа. Использование статистических методов в почвоведении представляется не просто возможным, а жизненно необходимым, поскольку главный объект исследования - почва, почвенный покров - является едва ли не самым сложным природным образованием. Подобные образования в математике относятся к так называемым диффузным, или сложным, системам, в которых имеет место действие и взаимодействие множества разнородных факторов, определяющих протекание различных по своей природе, но в большей или меньшей мере связанных друг с другом, процессов. При изучении таких систем учесть все факторы и процессы, ими вызываемые, практически невозможно, тем более, что даже в самых простых ситуациях какие-то факторы или процессы могут оказаться просто неизвестными. В подобных случаях обойтись без идей и методов математической статистики почти невозможно. Строго говоря, в экспериментальном почвоведении сейчас трудно найти область исследования, в которой можно было бы, оставаясь на уровне современного развития науки, обойтись без методологии и методов математической статистики. Начиная с 6
подготовительного этапа эксперимента и вплоть до представления окончательных результатов и их трактовки статистические особенности объекта исследования дают о себе знать. Рассмотрим для примера несколько типичных ситуаций, с которыми почвоведам постоянно приходится сталкиваться. Допустим, для характеристики некоторого участка почвенного покрова из разреза отобраны образцы по горизонтам. С помощью гранулометрического анализа установлено, что в горизонте Ai содержание ила 23,4%, а в горизонте Аг - 21,2%. Можно ли на основании этих данных высказать какие-либо заслуживающие доверия заключения, если не прибегать к идеям и методам математической статистики? Оказывается, нет. Действительно, даже чтобы утверждать, что в одном образце ила больше, чем в другом, нужно знать случайные погрешности анализов и уметь их соответствующим образом сопоставить с полученными данными по содержанию ила в образцах, а это уже предполагает статистический подход к решению вопроса. Тем более полученные результаты неосторожно трактовать как свидетельство различий в содержании ила не только в образцах, но и в горизонте Ai и горизонте Аг на изучаемом участке почвенного покрова. Подобное утверждение было бы спорным, даже если определенное в исследовавшихся образцах содержание ила было бы лишено всяких погрешностей, поскольку остается открытым вопрос, сохраняется ли подобное различие в других частях изучаемого участка почвенного покрова. Здесь на сцену снова выходят статистические соображения и без их учета задачу решить весьма трудно. Логика подсказывает, что для обоснованного заключения о том, что в горизонте Ai исследуемого участка почвенного покрова содержание ила больше, чем в горизонте А2, нужно исследовать не одну пару образцов, а несколько, но тогда нужно оценить число пар таких образцов и способ их отбора, решить, как поступить с результатами анализов, а все это опять-таки нельзя сделать без привлечения соответствующих статистических методов и приемов. Не исключает статистического подхода и замена индивидуальных образцов смешанным, поскольку вопрос о числе индивидуальных образцов, требующихся для приготовления смешанного, относится к категории статистических задач, да и сама идея замены индивидуальных образцов смешанными по своей сути имеет статистическую основу. Ни у кого не возникает сомнений в необходимости использования статистических методов при рассмотрении часто возникающих задач о связях между свойствами и явлениями, поскольку в почвоведении такие связи практически почти никогда не имеют четко выраженного функционального характера. Некоторые же проблемы почти невозможно решить без привлечения методов статистического анализа. Это относится, например, к случаю, когда требуется выяснить, почему при анализе образцов разного объема, отобранных из 7
одной и юи же почвы, средние неличины изучаемою признака оона- руживают отчетливую зависимость от размеров образцов. Очевидно, перечень задач и ситуаций, когда статистические методы могут и должны привлекаться для обработки и анализа данных, для оценки надежности выводов и рекомендаций, можно было бы существенно расширить. Значительно труднее найти примеры в области экспериментального почвоведения, где бы идеи и методы математической статистики были бы не нужны. При этом обращают на себя внимание два обстоятельства, о которых нельзя умолчать. Первое из них касается влияния методов математической статистики на технику проведения исследований в почвоведении. Второе, тесно связанное с первым, - формирование иных методов мышления, когда учитывается вероятностная природа и статистический характер тех явлений, которые почвоведами исследуются. Сейчас уже стало несомненным фактом то, что методы математической статистики, привлекаемые для решения тех или иных вопросов, постепенно начинают оказьюать определенное давление на экспериментатора, заставляя его менять саму стратегию проводимых исследований. Традиционно обращение к статистике происходило на этапе осмысливания собранного фактического материала, и при этом очень часто обнаруживалось, что стоящие перед исследователем задачи можно было бы успешно решить с помощью некоторого статистического приема, однако техника сбора эмпирической информации оказалась такой, которая использование этого приема анализа исключает. Статистические методы не менее требовательны к особенностям данных, способам их получения и организации, чем обычные методы анализа почв, регламентирующие способ подготовки образцов, чистоту реактивов и пр. Недопустимо, например, определять содержание гумуса по Тюрину, не отобрав крупных корней и не растерев соответствующим образом пробу почвы, хотя технологически такой анализ выполним и даст какой то результат. Статистические анализы также обычно технологически выполнимы, но это отнюдь не свидетельствует о принципиальной применимости соответствующего метода. Нетрудно догадаться, что об обеспечении пригодности того или иного статистического метода нужно заботиться существенно раньше, чем на стадии анализа данных. Таким образом, математическая статистика вынуждает экспериментатора с иных позиций подходить к постановке проводимых исследований, заставляет менять набор и последовательность этапов их выполнения. С учетом стоящих перед экспериментатором задач, он должен: - более четко, более конкретно сформулировать те вопросы, на которые должен быть получен ответ, в терминах и понятиях соответствующей области знания;
- перевести эти вопросы на язык статистических задач, на язык абстрактных понятий математической статистики; - для решения соответствующей статистической задачи среди известных статистических методов выбрать наиболее подходящий, учитывая при этом специфику объекта исследования, особенности изучаемого свойства, возможные способы опробования объекта и технические возможности их реализации и пр.; - зная требования к данным, подлежащим статистическому анализу, и условия применимости выбранного статистического метода, спланировать сам эксперимент; - провести эксперимент; - полученные в эксперименте результаты подвергнуть статистическому анализу ранее запланированным методом и на основании такого анализа сделать выводы и заключения, сформулированные в терминах и понятиях математической статистики; - сформулировать выводы и заключения на языке конкретной науки. С точки зрения автора описанная выше схема постановки экспериментов представляется наиболее желательной. Однако такая схема далеко не всегда оказывается легко реализуемой, и нужно быть готовым, например, к тому, что планировавшийся для статистического анализа метод оказывается мало пригодным по причине внутренних особенностей данных, полученных при проведении эксперимента. Это вызывает необходимость либо кдкого-то преобразования исследуемых величин, либо замены планировавшегося метода анализа на иной, более пригодный для решения задачи. При этом всегда нужно помнить, что хорошо спланированный эксперимент обычно отличается тем, что собранный массив данных можно анализировать с по- мощью разных методов, нужно лишь эти методах знать и умело ими пользоваться. Трудности в реализации всех этапов проведения эксперимента имеют разную природу и не могут быть оценены с единых позиций. Но если считать, что необходимость как получения эмпирических данных, так и их статистического анализа, обсуждению не подлежат, то наиболее трудными этапами оказываются переформулировка задач с языка специальной науки на язык математической статистики» с одной стороны, с другой - перевод результатов исследования, полученных в понятиях и терминах статистики и теории вероятностей, в выводы на языке конкретной науки. И дело здесь не только в том, что в первом случае, например, нужно знать методы, пригодные для решения статистических задач того или иного характера. Это само собой разумеется. Существенно более важно другое - наличие умения и опыта мыслить статистически, понимание того, что без 9
представлений о вероятностной природе явлений едва ли удастся дать достаточно естественное описание тех сложных структур, с которыми имеет дело экспериментатор. Математическому мышлению, предполагающему строгость в употреблении понятий и логичность заключений, умению видеть статистическую природу изучаемых явлений, нужно учиться, без этого почвоведение не сможет стать на уровень современных требований развития науки. Понимание вероятностно-статистической природы объектов и явлений в экспериментальном почвоведении необходимо не только в связи с использованием для анализа данных тех или иных статистических методов. Статистические законы в почвоведении действуют независимо от исследователя и вне связи с тем, используются статистические методы или нет, знает почвовед теорию вероятности и математическую статистику или представления о них не имеет. Объективность действия статистических законов, вероятностный характер подавляющего большинства явлений, с которыми имеет дело почвовед, определяет необходимость не только широкого привлечения соответствующих математических методов, но прежде всего умения мыслить вероятностно-статистическими категориями. Академик Б.В. Гнеденко писал: "Математизация знаний в период научно-технического прогресса является не данью моде или прихотью математиков, а неизбежной необходимостью. Много веков назад великий английский мыслитель Френсис Бэкон сказал, что как для повышения урожая плодов необходимо, в первую очередь, ухаживать не за ветвями дерева, а за его корнями, давая им подкормку, взрыхлять почву, так и для прогресса научного познания законов природы и использования в жизненной практике необходимо наши знания поставить на точную количественную основу. А там, где речь идет о количестве, там не обойтись без математики, без широкого привлечения ее понятий, методов и специфических для нее методов мышления." Привлечение математических понятий и методов в почвоведение идет и достаточно успешно. Сложнее обстоит дело с освоением методов математического мышления. Рассмотрению этих вопросов в их логической связи и посвящен настоящий учебник.
Глава 1 ИЗМЕРЕНИЯ, ИСПЫТАНИЯ, ВЕЛИЧИНЫ, СОВОКУПНОСТИ 1.1. ШКАЛЫ ИЗМЕРЕНИЙ Почвоведу приходится иметь дело с различными признаками, характеризующими природные тела и объекты исследования, и наличие некоторого признака или разная степень его проявления служат для исследователя основанием для установления равенства между сравниваемыми телами или объектами либо для утверждения, что тела различаются. Чтобы устанавливать равенство или различие по тем или иным признакам, нужно эти признаки как-то измерить. Легко убедиться в том, что для разных признаков нельзя одинаково осуществить измерения. Так, по результатам анализов мы можем сказать, какой из двух образцов почв содержит больше ила, а какой ~ меньше, и различие в содержании ила может быть выражено некоторым числом. Сопоставляя в поле две почвы, мы лишены возможности количественно оценить различия по степени их оглеения, и можем лишь констатировать, что в одной почве оглеение больше, чем в другой. Однако в ряде случаев даже понятие "больше-меньше" оказывается лишенным смысла, например, когда речь идет о систематизации отдельных растений, минералов, почв, структурных от- дельностей и других предметов исследования. Условно можно выделить четыре шкалы измерений. Если согласно некоторым правилам сравниваемые предметы или явления могут быть признаны лишь разными, либо неразличимыми, и каждой отдельной группе неразличимых между собой предметов (явлений) присваивается некоторый символ, наименование или число, позволяющее эту групп)- отделить от иной группы предметов (явлений), то такие наименования, символы или числа образуют именную (или классификационную) шкалу измерений. С именными шкалами имеют дело, когда указывают видовые названия растений, типы почв, растительные ассоциации, дают словесное название цвета почв и т.д. Порядковая шкала измерений используется в тех случаях, когда степень проявления интересующего исследователя свойства не поддается какой-либо точной количественной оценке, однако по степени проявления этого свойства предметы могут быть расположены в некоторый ранжированный ряд, так что для каждых соседних предметов можно сказать, где данное свойство проявляется больше, а 11
где меньше. Примером порядковой шкалы служат ряды почв разной степени оглеения, ряды возрастающей гидроморфности или элю- викрованности почв, классы бонитетов леса. Порядковые шкалы измерений можно использовать для сравнения окраски почв, когда почвенные пробы располагаются в ряд по возрастанию степени прокраски гумусом. Интервальные шкалы измерений применимы в тех случаях, когда расстояние между любыми членами шкалы может быть выражено числом, адекватным "расстоянию" между этими членами, хотя положение нуля отсчета и единица измерения произвольны. Например, на интервальной шкале измеряют температуры и окислительно- восстановительные потенциалы. Нуль отсчета здесь выбирают условно, а иногда и единица измерения может быть разной (градусы Цельсия и Фаренгейта), но независимо от положения нуля отсчета и единицы измерения отношение длин двух любых интервалов остается постоянным. Ввиду произвольности выбора нуля отсчета результаты измерений на интервальной шкале могут иметь как положительные, так и отрицательные значения. Наряду с температурой и окислительно- восстановительным потенциалом почвы npHMq)OM измерений на интервальной шкале служат как относительные, так и абсолютные от- метки рельефа, потенциалы естественного электрического поля и некоторые другие. На шкале отношении измерения требуют не только возможности нахождения числового значения изучаемого признака, но и вполне определенного положения нуля отсчета. В относительной шкале от единицы измерений не зависит не только отношение дайн интервалов, но и отношение любых точек шкал. Если мощности двух горизонтов различаются в два раза, то это различие останется без изменения независимо от того, будем ли мы измерять мощность в футах, дюймах или сантиметрах. Примерами признаков, измеряемых на относительной шкале, служат плотность и порозность почвы, рН и содержание микроэлементов, воздухопроницаемость и др. Результаты измерений на относительной шкале не могут быть отрицательными. В отличие от первых двух шкал интервальная и относительная шкалы относятся к шкалам количественным. В соответствии с различиями в шкалах измерений все признаки можно разделить на несколько категорий. Признаки, поддающиеся измерению на именных шкалах, называются качественными. Частным случаем качественных признаков являются альтернативные, когда вся шкала для измерений состоит всего лишь из двух градаций: признак имеется и признак отсутствует. Например, именная шкала почв некоторого участка может выглядеть следующим образом: 12
каштановые, лугово-каштановые, солонцы, солончаки. Для альтернативных признаков шкала может иметь, например, такой вид: солонцы и не солонцы. К категории "не солонцы" относятся все почвы за исключением солонцов. Признаки, которые по какому-либо принципу могут быть ранжированы, получили название порядковых признаков. Наконец, признаки, поддающиеся количественной оценке на интервальной или относительной шкале, называются количественными признаками. Приведенная классификация признаков довольно условна. Так, очевидно, что количественные признаки при желании можно рассматривать как порядковые и даже качественные. Например, по результатам гранулометрических анализов (содержание отдельных фракций - количественный признак) образцы почв можно расположить в ранжированный ряд и рассматривать гранулометрический состав как порядковый признак, пренебрегая тем, что результаты анализов точно известны. С другой стороны, порядковые признаки при выборе надлежащего способа измерения могут иногда перейти в категорию количественных признаков. Например, визуальную оценку окраски почв можно заменить объективными количественными характеристиками отражательной способности. Аналогично в ряде случаев качественные признаки можно по тому или иному принципу представить в виде порядковых признаков. Результаты измерений на разных уровнях обладают различными свойствами, что определяет различия в методах статистической обработки данных, и ниже мы неоднократно будем это использовать. 1.2. ИСПЫТАНИЯ, СОБЫТИЯ, ВЕЛИЧИНЫ Непременным условием грамотного использования статистических методов является четкое осознание смысла тех терминов и понятий, которые используются в математической статистике и теории вероятностей, и конкретного применения этих математических понятий к исследуемым природным явлениям. Одним из основных понятий в статистике является "испытание". Под испытанием понимают осуществление какого-нибудь определенного комплекса условий, который может быть воспроизведен сколь угодно большое т*ттс:го раз (если пе практически, то по крайней мере теоретически). Под комплексом условий понимают определенную методику выделения объекта изучения, способ его опробования и получение конечного результата измерений. Как некий акт испытание можно 13
рассматривать в рамках мысленного эксперимента и возможное число таких актов обычно считают бесконечно большим. Испытание может представлять собой и некоторую конкретную практическую реализацию. В этом случае число испытаний всегда конечно. Величины, в процессе испытаний не меняющие своих значений, называются постоянными. Если величина может принимать по крайней мере два различных значения, то она называется переменной. Если в некотором интервале переменная может принимать любые значения (содержит все действительные числа), то она называется непрерывной в указанном интервале. В отличие от нее дискретная переменная может принимать лишь некоторые значения, разделенные промежутками. Наиболее характерным примером дискретных величин являются величины, получающиеся в результате счета: число колоний микроорганизмов в чашке Петри, число ортштейнов крупнее заданного размера в данном объеме почвы и пр. В подобных случаях величины принимают лишь целочисленные значения, хотя в принципе дискретные величины могут принимать и дробные значения. Значительно чаще почвоведы имеют дело с непрерывными величинами, такими как порозность, мощность горизонтов, содержание гумуса, рН и т.п. На первый взгляд может показаться, что это не так, поскольку и для рН, и для мощностей горизонтов, и для всех других свойств переход от одного значения к другому всегда осуществляется скачком. Действительно, мощность горизонтов может быть 15, 16, 17 см и т.д. и не бывает равной 15,3, 16,1, 16,8 см. Казалось бы, это очень похоже на 15, 16, 17 и т.д. колоний на чашке Петри. С формальной стороны здесь есть сходство, но имеется и принципиальное различие, состоящее в том, что для дискретных переменных отсутствуют и не могут существовать промежуточные значения между соседними дискретными значениями, в то время как скачкообразный характер перехода от одних значений к другим у непрерывных связан не с дискретностью величин, а с практически разумной степенью округления переменных. Так, в чашке Петри не может быть 16,1 колонии, но это значение может определять мощность горизонта, хотя мы всегда мощность горизонтов округляем до целого числа сантиметров. Явления, происходящие в результате испытаний, в математической статистике и теории вероятностей принято называть событиями. Если при проведении испытания событие не может быть точно предсказано, то оно называется случайным событием. Например, если мы не можем точно предсказать, окажется ли взятый нами агрегат водопрочным или нет, то результат испытания ("водопрочный" - "неводопрочный") является случайным событием. Будучи 14
результатом измерения на той или иной шкале, событие представляет собой значение некоторой величины. Переменная величина, значение которой до проведения испытания заранее не может быть точно предсказано, называется случайной величиной. Иногда случайную величину определяют как такую переменную величину, значения которой зависят от случая. Так, в известных условиях проведения исследований мы никогда не можем предсказать' точного значения влажности почвы, которое окажется реализованным, а повторные измерения влажности дадут серию в той или иной мере различных результатов, каждый из которых является значением одной и той же случайной величины, называемой влажностью почвы. Почвоведы постоянно имеют дело со свойствами и признаками (например, порозность почвы и ее твердость, водопроницаемость, содержание гумуса, урожайность, мощность горизонтов и др.), которые являются случайными величинами. Следует заметить, что не все переменные величины всегда оказываются случайными. В ряде случаев значения переменной прямо или опосредованно выбираются или устанавливаются исследователем, и тогда переменная является неслучайной, или детерминированной. Такими переменными служат, например, нормы полива, заданные глубины отбора образцов, различные нормы гипсования, а также свойства нарочито подобранных тел (содержание питательных элементов в почве делянок, получивших разные нормы удобрений; свойства почв, специально подобранных для исследователей, и т.д.). В этом последнем случае степень детерминированности может быть различной и неслучайность величин проявляется, например, в том, что до проведения испытаний можно предугадать, где значения изучаемых свойств окажутся больше, а где меньше, хотя точные результаты анализов предсказать невозможно. 1.3. ОБЩИЕ И ВТОРОСТЕПЕННЫЕ УСЛОВИЯ ПРОВЕДЕНИЯ ИСПЫТАНИЙ Всякая "игра случая" происходит во вполне определенных условиях и только применительно к этим условиям переменная величина может считаться случайной, а отдельные значения переменной - принадлежащими одной случайной величине. Однако сказанное совсем не означает, что все условия без исключения, в той или иной мере влияющие на изучаемое явление, должны оставаться без изменения. В данном случае имеются в виду лишь условия, которые определяют испытание. При этом понятие испытания как комплекса условий не ограничивается методикой исследования (прописью анализа), а включает в себя также условия отбора образов (их размер, 15
время взятия и пр.), если это предполагается в испытании, строгое определение объекта исследования и др. В некоторых случаях в комплекс условий может входить даже указание индивидуальности аналитика. Результатом испытания является значение некоторой случайной величины. Если испытание проводится повторно (т.е. несколько раз воспроизводится один и тот же комплекс условий), то в итоге получается соответствующее число значений одной и той же случайной величины. Любое изменение в комплексе условий приводит к тому, что испытание окажется уже другим и получаемое в результате него значение будет принадлежать уже другой случайной величине. Неодинаковость результатов повторных испытаний (событий при воспроизведении одного и того же комплекса условий) - явление весьма частое. Оно связано с тем, что в перечне условий, определяющих испытание, практически невозможно учесть все те факторы, которые в той или иной степени определяют результат испытания, да и учитываемые условия могут иметь разный уровень предусматриваемой жесткости их выполнения (например, встряхивание суспензии руками - менее жесткое условие, чем встряхивание на качалке с фиксированной частотой, так же как условие отбора образцов почв "под елью" менее жестко, нежели отбор образцов "под елью на удалении от ствола в пределах от 1 до 3 м". Комплекс условий, определяющих характер испытания, включает лишь общие условия. Однако помимо общих условий существует масса второстепенных, не принимаемых во внимание и не учитываемых (а нередко и неизвестных) условий. Совокупное влияние этих второстепенных условий и вызывает хорошо известное варьирование результатов испытаний Таким образом, случайность вовсе не означает беспричинность. Среди факторов, вызывающих варьирование значений изучаемого свойства, условно следует выделять две различные по характеру группы. К первой группе можно отнести факторы, связанные с природой объекта в рамках заданных условий его изучения. С варьированием, вызванным такими факторами, мы сталкиваемся постоянно. Например, мощность отдельных горизонтов даже в пределах одного почвенного разреза может очень значительно меняться. Варьирование мощности есть результат и одновременно проявление многообразия в природе. В таком аспекте варьирование само по себе должно являться предметом изучения как всякое явление, имеющее свои причины и следствия. Ко второй группе следует отнести факторы, связанные с методикой измерения. Предположим, что некоторый образец почвы подвергается повторному калориметрированию для определения его 16
удельной теплоемкости, в результате чего исследователь получает несколько различных значений изучаемой величины. В процессе измерения образец почвы не изменяется и его теплоемкость остается неизменной, а различия в полученных значениях являются следствием нестабильности работы прибора, неточности отсчетов и других факторов методического характера.(Варьирование результатов в подобных случаях обычно представляет собой досадное явление, затрудняющее получение значения интересующего нас признака с достаточной точностью. Рассмотрение результатов подобных измерений как значений случайной величины позволяет оценить воспроизводимость используемого способа измерений (анализа), а при необходимости и выявить те условия, которые в наибольшей степени влияют на сходимость результатов в повторных испытаниях, и тем самым наметить пути совершенствования методики измерений. В большинстве случаев варьирование значений случайной величины, с которым почвовед имеет дело при проведении исследований, представляет собой суммарный результат влияния природных и методических факторов; их удельный вес в варьировании может быть весьма различен. 1.4. ОБЪЕКТ ИССЛЕДОВАНИЯ В комплексе условий, определяющих испытание, условно можно выделить три группы: а)группа условий, определяющих объект исследования; б)условия, определяющие особенности элементов опробования как носителей единичной информации (одного значения случайной величины) об объекте; в)условия выполнения конкретного анализа (методика анализа). Первая из перечисленных групп представляет собой интерес прежде всего потому, что неопределенность границ объекта сопряжена с опасностью причислить отдельные значения разных случайных величин к одной случайной величине, а с другой стороны, возможностью статистически необоснованной экстраполяции выводов на более обширное природное тело, нежели реально изучаемое. Под объектами понимают предметы познания и деятельности человека, а следовательно, непосредственно к соответствующим объектам в первую очередь относятся выводы проводимых исследований. В экспериментальном почвоведении объектами всегда являются материальные тела. Объектом может служить почвенный покров некоторого региона, толща какого-либо горизонта всех почв данного вида в пределах определенной территории, почвенный раствор конкретного слоя конкретной почвы опытного участка в фиксированный момент времени, микрофлора опытной делянки в данное время, 17
водопрочные агрегаты почвы, содержащиеся в данйое время, водопрочные агрегаты почвы, содержащиеся в данном вегетационном сосуде и т.д. Определить объект исследования - значит строго перечислить те условия, которые позволяют отделить объект от смежных природных образований в пространстве и времени. Критерием полноты набора таких условий должно служить отсутствие предпочтения той или иной части объекта (если таковой поступает в анализ не целиком) быть подвергнутой испытанию для получения единичного значения изучаемой случайной величины. Если какие-то части предполагаемого объекта исследовать нежелательно, то они не удовлетворяют некоторым условиям и, следовательно, эти условия должны быть включены в группу общих условий, определяющих объект. После такой операции пространственные (или временные) границы объекта, очевидно, сузятся. Так, если в первоначальном варианте объектом исследования был выбран почвенный покров некоторого вполне определенного поля, но заложение разрезов в микрозападииах, имеющихся на поле, нежелательно, то объектом будет служить не весь почвенный покров поля, а лишь часть его за вычетом участков под микропокижениями. Закладывая разрезы в пределах некоторой территории, почвоведы подчас скрупулезно выбирают его местоположение. Все учитываемые при этом условия следует отнести к тем условиям, которые определяют объект, а значит, и его границы, и его размеры, сокращающиеся с увеличением набора соответствующих условий. Сокращение размеров объекта означает не что иное, как уменьшение размеров того природного тела, к которому непосредственно могут быть отнесены выводы из исследований. Если сокращение размеров объекта нежелательно, то следует некоторые условия перевести в группу второстепенных, т.е. таких условий, которыми мы пренебрегаем при выборе частей объекта, могущих быть подвергнутыми испытанию. Если объект не поступает в анализ целиком, то любая его часть должна иметь равные шансы стать источником информации об объекте. Весьма часто свойства объекта зависят от времени испытаний, что особенно ярко выявляется для таких динамичных свойств, как влажность почвы, содержание подвижных форм элементов и др, В силу этого время проведения испытания (временной интервал) должно выступать в качестве временных границ изучаемого объекта наравне с его пространственными границами. 18
1.5. ФИЗИЧЕСКАЯ СОВОКУПНОСТЬ И ЕЕ КОМПОНЕНТЫ Характер сведений об изучаемом свойстве объекта зависит от того, что именно дает единичную информацию об объекте, что служит материальным носителем одного значения случайной величины, что является элементом опробования. Этот факт достаточно хорошо известен и нашел свое отражение в широко используемом приеме взятия смешанных образцов, поскольку при прочих равных условиях (пространственно-временном постоянстве объекта, одинаковом способе химического анализа) результаты анализов индивидуальных образцов варьируют обычно больше, нежели образцов смешанных. Известно также, что размер отбираемых в поле индивидуальных образцов всегда в той или иной степени сказывается на результатах анализов, так же как и размер единичной заливаемой площадки существенно определяет характер получаемых коэффициентов водопроницаемости. Условия, регламентирующие особенности элементов опробования, составляют вторую группу общих условий. Постоянство этих условий означает, что при проведении испытаний все элементы опробования должны быть в определенном смысле однородны. Так, при определении водопроницаемости заливаемые водой" площадки должны быть одинаковы по форме и размеру, отбираемые образцы должны иметь либо одинаковый объем (массу), либо должны отбираться на всю мощность горизонта (или его части) в виде цилиндра (призмы) одинакового сечения и т.д. Совокупность принадлежащих изучаемому объекту однородных в определенном смысле (согласно перечню условий второй группы) элементов опробования образует физическую совокупность. Вся возможная (если не практически, то теоретически) совокупность элементов опробования, принадлежащих объекту, образует генеральную физическую совокупность. В зависимости от особенностей изучаемого признака и методов его исследования в качестве компонентов физической совокупности может выступать некоторый объем или масса (например, при определении вещественного состава), поверхность (при анализе шлифов, при изучении площадей контуров почв и пр.) и даже линия (протяженность контуров вдоль некоторой линии, мощность горизонтов по вертикальной линии и пр.). Важно заметить, что размерность компонента физической совокупности может не совпадать с размерностью объекта. Так, если образец почвы, взятый для проведения гранулометрического анализа, трехмерен, как и объект исследования, то передняя стенка разреза - двумерный компонент (плоскость), принадлежащий трехмерному почвенному телу, а 19
вертикальная линия, по которой измеряется мощность горизонтов, одномерный компонент. Так как познания объекта осуществляются с помощью анализа образцов, поверхностей и пр., то свойства объекта всегда отражаются через свойства генеральной физической совокупности. 1.6. ДИСКРЕТНОСТЬ ОБЪЕКТОВ И ОСОБЕННОСТИ ЭЛЕМЕНТОВ ОПРОБОВАНИЯ Размер элемента опробования и его постоянство определяется целями проводимого исследования, особенностями объекта и анализируемого признака, и наконец, методикой выделения соответствующего материального носителя информации. По своей природе объекты могут быть дискретными и непрерывными, хотя это деление условно. Так, почвенный покров некоторой территории можно рассматривать как дискретное тело, состоящее из конечного числа элементарных почвенных ареалов, но с другой стороны, почвенный покров обладает несомненной континуальностью. Считать ли объект непрерывным или дискретным, во многом зависит от того, какие признаки объекта исследуются и какие методы для этого выбраны. Если при изучении объекта можно пренебречь дискретностью, то его можно рассматривать как непрерывный. Так, при исследовании глубины вскипания на некоторой территории (а также содержания гумуса в заданном горизонте почвы, величины рН и др.) дискретность почвенного покрова на изучаемой территории можно не принимать во внимание и считать объект непрерывным. Однако если на том же объекте изучается размер элементарных почвенных ареалов, то объект уже нельзя считать непрерывным и его следует рассматривать как совокупность отдельных дискретных составляющих (отдельных ареалов). Для дискретных объектов размер элементов опробования определяется размерами дискретных составляющих, в силу чего компоненты физической совокупности обычно имеют различный размер. Для непрерывных объектов постоянство характеристик элементов опробования (объема, массы, формы, площади и пр.) является необходимым условием чистоты проведения исследований. В силу усреднения признаков в пределах элемента опробования имеет, например, значение объем образцов, отбираемых на анализ закисного железа: 10 см3 или 500 см3, поскольку характер варьирования любого признака в пределах объекта есть функция размера элемента опробования. Если размеры элементов опробования в пределах непрерывного объекта неодинаковы (и условия второй группы эту 20
неодинаковость не оправдывают), то испытания нельзя рассматривать как повторные, к результаты опробования будут являться значениями разных случайных величин. В зависимости от характера проводимых исследований размеры элементов опробования могут сильно различаться, что определяется спецификой объекта, задачами исследований и методикой проводимых анализов. Элемент опробования может быть равен всему объекту (или соответствовать размеру объекта, если размерности объекта и элемента опробования не совпадают), а может составлять от него очень малую часть (соответствовать малой части). Если элемент опробования достаточно мал сравнительно с размерами всего объекта, то размеры такого элемента опробования можно считать точечными (тем не менее эти размеры должны отмечаться и оставаться без изменений при проведении испытаний). Положение точечного элемента опробования в пространстве, занимаемом объектом, можно назвать точкой опробования. Так, точкой опробования является разрез, заложенный в пределах достаточно большого поля, почвенный покров которого является объектом исследования. С другой стороны, небольшой образец почвы, служащий объектом исследования и целиком поступающий на калориметрирование для определения теплоемкости, служит иллюстрацией случая, когда элемент опробования равен объекту. 1.7. ТЕХНИКА ИЗМЕРЕНИЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ Для получения значения случайной величины изучаемое свойство компонента физической совокупности должно быть измерено на одной из четырех шкал. Условия, описывающие технику подготовки элемента опробования к измерению (анализу), если такая подготовка необходима (например, растирка образцов почв, отбор корней, приготовление проб и пр.), а также весь ход измерения (анализа) составляют третью группу общих условий. Как и все остальные условия, описывающие испытание, они должны оставаться неизменными, в противном случае получаемые в результате испытаний значения будут принадлежать разным случайным величинам. В некоторых случаях методикой анализа предусматривается возможность (и даже необходимость) повторных анализов одного и того же элемента опробования (образца, пробы) с использованием в дальнейшем среднего результата по повторным измерениям. Следует иметь в виду, что в подобных случаях средние результаты анализов отдельных элементов опробования можно считать значениями одной случайной величины только тогда, когда усреднение везде проводится по одинаковому числу повторностей. (На практике, когда 21
различия между повторными анализами одного элемента опробования заметно меньше различий между значениями свойства у разных элементов опробования, допустимо усредненные по неодинаковому числу повторностей значения для разных элементов опробования считать значениями одной случайной величины.) Одно и то же свойство компонентов данной физической совокупности можно измерять с помощью разных методов и методик. В принципе результаты измерений могут считаться значениями одной случайной величины лишь тогда, когда методика измерений (анализов) одинакова и неизменна. В противном случае исследователь будет иметь дело со столькими случайными величинами, характеризующими одно и то же свойство компонентов данной физической совокупности, сколько разных методов и методик было использовано. 1.8. СТАТИСТИЧЕСКАЯ СОВОКУПНОСТЬ, ОБЪЕМ СОВОКУПНОСТИ Соблюдение постоянства общих условий, определяющих испытание, является необходимым для того, чтобы результаты отдельных измерений можно было рассматривать в качестве значений одной случайной величины. При этом каждому компоненту физической совокупности в результате проведения испытаний соответствует одно событие (одно значение случайной величины), а физической совокупности - совокупность событий (значений случайной величины). Эта последняя получила название статистической совокупности. Статистическая совокупность всех возможных значений случайной величины, очевидно, соответствующая генеральной физической совокупности, называется генеральной статистической совокупностью. Число компонентов физической совокупности, а соответственно и статистической совокупности, называется объемом совокупности. Исследователь всегда подвергает исследованию конечное число элементов опробования, вследствие чего объемы физических совокупностей и соответствующих им статистических совокупностей всегда конечны. В отличие от таких совокупностей генеральные совокупности могут быть и бесконечными, т.е. объем генеральных физических и статистических совокупностей может быть бесконечно большим. Для непрерывных объектов объем генеральных физических совокупностей всегда бесконечно велик, так как после проведения анализа то, что служило элементом опробования, должно быть возвращено (что возможно иногда лишь теоретически) в объект на свое место в неизменном виде и любая часть этого испытанного элемента 22
опробования может войти в состав других компонентов физической совокупности. Положение не меняется и в том случае, когда подвергается испытанию весь объект целиком, т.е. когда элемент опробования равен объекту, поскольку, если не практически, то теоретически, испытание над объектом можно проводить бесконечное множество раз. В подобной ситуации каждый компонент физической совокупности есть объект с неизменными свойствами, поэтому неодинаковость значений в повторных испытаниях является результатом одних лишь методических погрешностей. Именно эти соображения лежат в основе характеристики методов анализа по воспроизводимости и сходимости. Когда объект является дискретным и каждый элемент опробования представлен одной из дискретных составляющих, объем генеральной физической совокупности (а соответственно и статистической совокупности) зависит от того, можно ли считать одинаковыми результаты повторных анализов отдельных дискретных составляющих объекта или нет. Если результаты повторных анализов одинаковы, то генеральная физическая совокупность является конечной, а ее объем равен числу дискретных составляющих. Так, при изучении состава древостоя некоторого участка леса генеральная физическая совокупность конечна и равна по объему числу деревьев, произрастающих на изучаемом участке (вид дерева определяется однозначно). Значительно чаще результаты повторных (иногда лишь теоретически возможных) испытаний отдельных дискретных составляющих не являются однозначными. В подобном случае считается, что элемент опробования после испытания в неизменном виде возвращается в объект и любая дискретная составляющая объекта может сколь угодно большое число раз стать элементом опробования, в силу чего генеральная физическая совокупность (и соответствующая ей статистическая совокупность) будет бесконечно велика. Например, при изучении площадей отдельных ареалов почв в пределах исследуемой территории генеральная физическая совокупность должна считаться бесконечно большой, так как площадь каждого отдельного ареала при повторных измерениях не является величиной постоянной, хотя число ареалов (дискретных составляющих) является конечным. С практической точки зрения генеральные физические совокупности при изучении дискретных объектов нередко могут рассматриваться как конечные, если варьирование результатов повторных испытаний одной и той же дискретной составляющей невелико сравнительно с варьированием результатов испытаний над разными дискретными составляющими. Именно так и обстоит дело, например, 23
при изучении размеров элементарных ареалов в пределах некоторой территории исследования. Поскольку дискретные объекты нечасто встречаются в исследованиях почвоведов, объемы генеральных физических совокупностей в подавляющем большинстве оказываются бесконечно большими, что при конечных размерах объектов может показаться странным. Однако следует заметить, что генеральная физическая совокупность вообще может быть несоизмерима с объектом в силу различия размерностей объекта и его компонентов. Действительно, некоторый агрегат почвы как объект исследования есть трехмерное тело, размеры которого могут быть выражены либо в единицах массы, либо в единицах объема. При анализе шлифа, приготовленного из агрегата, в качестве элемента опробования выступает поверхность, а значит, размерность поверхности имеет и сумма всех компонентов, входящих в бесконечно большую генеральную физическую совокупность. Очевидно, что сопоставлять размеры генеральной физической совокупности и объекта в данном случае невозможно, как лишено смысла сравнение площади с объемом (или массой). Однако и в случае, когда размеры объекта и компонента измеряются в одинаковых единицах, нет никаких оснований требовать обязательного равенства объекта сумме компонентов, составляющих генеральную физическую совокупность. Здесь важно подчеркнуть то обстоятельство, что свойства объекта характеризуются не иначе как через свойства генеральной физической совокупности, соответствующей объекту исследования. Свойства же генеральной физической совокупности, выявляющиеся в процессе испытаний, зависят от того, что представляют собой компоненты этой совокупности, т.е. элементы опробования, и каковы условия их получения. Физическая совокупность есть некоторая абстракция, необходимая для понимания того, с помощью чего мы создаем представление о свойствах объекта. Такой же абстракцией является и случайная величина, которая берется в качестве модели для описания изучаемого объекта. Итак, изучаемая переменная величина (событие) может считаться случайной лишь в определенных общих условиях, описывающих испытание; первая группа этих условий определяет границы объекта исследования, вторая группа характеризует элементы опробования, а соответственно и ту генеральную физическую совокупность, по свойствам которой создается суждение об объекте, и, наконец, третья группа отражает методику получения результатов измерения. Таким образом, результат единичного анализа можно рассматривать в качестве значения данной случайной величины только для заданных вполне определенных условий. 24
Если в силу природной разнокачественное™ компонентов физической совокупности или (и) вследствие методических погрешностей измерений изучаемый признак можно рассматривать в качестве случайной величины, то задачей исследования является изучение этой величины. Свойства же такой случайной величины проявляются через свойства генеральной статистической совокупности. Отсюда следует, что только свойства этой совокупности являются предметом любого исследования. Экспериментальное почвоведение имеет дело со случайными ве-. личинами, в которые вкладывается вполне определенное конкретное содержание. В качестве случайной величины может выступать рН, содержание гумуса или запасы гипса в почве, водопроницаемость и др. Нужно заметить, что наряду с такими, имеющими определенное почвенное содержание, случайными величинами исследователю приходится сталкиваться и с другими случайными величинами, не имеющими какого-либо конкретного смысла, но совершенно необходимыми,например, для проверки статистических гипотез (см. гл. 7). 1.9. МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ Хотя случайные величины являются переменными, их наиболее общие свойства можно охарактеризовать некоторыми постоянными величинами. В связи с этим особое значение имеет понятие математического ожидания, как среднего взвешенного из всех возможных значений случайной величины ("взвешенное" означает, что при вычислении среднего каждое значение берется столько раз, сколько оно встречается в реальной совокупности), или пропорционально этому количеству. Заметим, что существуют случайные величины, не имеющие математического ожидания, В дальнейшем математическое ожидание будем обозначать буквой Е с последующим указанием в скобках соответствующей случайной величины, например Е(х) - математическое ожидание случайной величины х, E(s2) - математическое ожидание случайной величины s2 и т.д. Отметим некоторые свойства математического ожидания. Математическое ожидание постоянной величины а равно этой постоянной величине: Е(а) =в. A.1) Если ко всем значениям случайной величины х прибавить постоянную величину а (которая может быть и положительной, и отрицательной), то математическое ожидание этой суммы равно сумме математического ожидания случайной величины хи а: Е(х + а)=Е(х)+а. A.2) 25
Математическое ожидание произведения случайной величины х на постоянную величину а равно произведению математического ожидания случайной величины х на эту постоянную: Е(ах)=аЕ(х). A.3) Очевидно также, что Е(х/а) -Е(х)/а. A.4) Математическое ожидание суммы (разности) случайных величин х и z равно сумме (разности) их математических ожиданий: Е(х + z) = Е(х) + E(z); Е(х -г)= Е(х) - E(z). A.5) Если варьирование значений случайных величин (например, х и z) осуществляется взаимно независимо, имеет место равенство: E(xz) =E(x) -E(z). A.6) 1.10. МНОГОМЕРНЫЕ СЛУЧАЙНЫЕ ВЕЛИЧИНЫ В предыдущих параграфах мы ограничивались рассмотрением какой-либо одной случайной величины. На практике могут возникать более сложные ситуации. Например, каждый компонент некоторой физической совокупности может характеризоваться не одним, а двумя, тремя и более свойствами. Так, в каждом из образцов, принадлежащих некоторому объекту, можно исследовать обменные кальций, магний и натрий, в результате чего одной физической совокупности образцов будут соответствовать три статистические совокупности результатов испытаний, отражающие свойства трех случайных величин. Отдельные тройки значений этих случайных величин связаны между собой принадлежностью одному элементу опробования, в силу чего физической совокупности кохмпонентов можно поставить в соответствие статистическую совокупность троек значений трех случайных величин. Появление некоторого сочетания значений трех случайных величин можно рассматривать как одно событие одной, но многомерной (в данном случае - трехмерной) случайной величины. Многомерная случайная величина, или случайный вектор, как всякая случайная величина соответствует вполне определенным общим условиям проведения испытаний. В зависимости от числа случайных величин, образующих случайный вектор, различают двумерные, трехмерные и т.д. случайные величины. При этом совсем не обязательно, чтобы все случайные величины, входящие в случайный вектор, принадлежали одной физической совокупности, как это имеет место в рассмотренном выше примере. Так, влажность почвы на глубинах 0-5, 5-10, 10-20 и 20-30 см можно рассматривать как четыре случайные величины, соответствующие четырем разным физическим совокупностям. Однако, учитывая, что каждому образцу в 26
слое 0-5 см соответствуют определенные образцы в нижележащих слоях, влажность почвы на четырех глубинах можно рассматривать как одну четырехмерную случайную величину. Здесь каждые четыре образца с разных глубин и соответствующие им значения случайных величин влажности связаны принадлежностью к одной точке поверхности почвы (соответствуют одной скважине). Аналогично в качестве многомерной случайной величины могут выступать связанные принадлежностью к одному разрезу величины мощности горизонтов, содержания гумуса по горизонтам, рН, глубина грунтовых вод и другие свойства. Общие условия для таких случайных векторов определяются общими условиями проведения испытаний при исследовании отдельных случайных величин. Эти общие условия, а следовательно, и физическая размерность случайной величины, должны быть постоянными для всего исследования, так как в противном случае мы будем иметь дело с разными случайными величинами. Заканчивая рассмотрение основополагающих понятий, отметим, что рассмотрение отдельных свойств почв как случайных величин далеко не всегда представляется очевидным и правомерным. Например, нередко возникают сомнения, можно ли считать, что содержание гумуса в данном образце является случайной величиной, если содержание гумуса как некоторой материальной субстанции в образце вполне определенно и неизменно,а значит, представляет собой постоянную величину. Очевидно, что содержание гумуса в данном образце в данный момент времени в принципе вполне определенно и физически есть величина постоянная. Дело лишь в том, что она нам не известна; а вследствие того, что отдельные измерения этой постоянной оказываются неодинаковыми, для описания изучаемого явления в качестве математической модели используется случайная величина. При этом математическое ожидание случайной величины и является той самой постоянной, которая характеризует содержание гумуса в образце и для оценки которой с приемлемой точностью иногда приходится неоднократно повторять измерения. Случайная величина как математическая модель лежит в основе многих статистических методов изучения почв и связанных с ними природных явлений, и плодотворность таких представлений сейчас уже ни у кого не вызывает сомнений. Вопросы для самоконтроля. 1. Каковы причины использования разных шкал измерений? 2. В чем проявляется относительность деления признаков на качественные, порядковые и количественные? 3. Что такое испытание и что является его результатом? 27
4. Какие события и величины относятся к категории случайных? 5. Всякая ли переменная величина является случайной и всегда ли случайная величина представляет собой переменную? 6. При каких условиях значения переменной могут считаться принадлежащими одной случайной величине? 7. Когда и почему второстепенные условия могут быть причиной переменности и случайности событий? 8. Почему пространственно-временные границы объекта должны входить в понятие испытания? 9. Для чего и когда требуется регламентация параметров элементов опробования? 10. Какова необходимость введения понятия генеральной физической совокупности? 11. В чем отличие генеральной статистической совокупности от статистической совокупности? 12. К чему приводит несоблюдение постоянства общих условий, определяющих испытание? 13. Что такое математическое ожидание и каковы его свойства? 14. Что такое А>мерная случайная величина и что может собой представлять элемент опробования, характеризуемый такой величиной? 15. Почему случайная величина как математическая модель находит широкое применение в экспериментальном почвоведении?
Глава 2 ВЫБОРКИ И ГРУППИРОВКА 2.1. РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРКИ И РАНДОМИЗАЦИЯ Целью экспериментального исследования всегда является изучение объекта с помощью свойств генеральной совокупности, при этом генеральные физические совокупности практически никогда не анализируются целиком, поскольку обычно технически это сделать невозможно, да и не нужно. В большинстве случаев о свойствах объекта приходится судить на основании результатов испытаний над некоторым конечным числом компонентов физической совокупности, называемым выборкой. Выборка никогда не представляет интереса сама по себе, но с ее помощью исследователь получает возможность судить о свойствах генеральной совокупности, а тем самым и об объекте. Целью всякого экспериментального исследования является изучение свойств объекта, а выборка служит всего лишь источником информации о нем. Именно поэтому крайне важно, чтобы выборка правильно отражала свойства объекта, чтобы выборка была представительна, репрезентативна. Лучшим способом обеспечения репрезентативности выборки считается рандомизация, т.е. случайность отбора компонентов физической совокупности на испытание. Рандомизация является условием чистоты опыта независимо от того, будут ли в дальнейшем подвергаться статистической обработке результаты исследований или нет. Очевидно, что случайность значений изучаемой величины в эксперименте обычно оказывается опосредованной случайностью выбора компонентов физической совокупности в процессе испытания. Случайность выбора компонента физической совокупности (или точки опробования) на анализ совсем не означает, что следует брать "что попало" и "где попало". Не говоря уже о том, что должны соблюдаться общие условия проведения испытания (а значит нельзя брать "что попало"), для обеспечения случайности следует пользоваться некоторыми правилами, регламентирующими выбор местоположения точки опробования в пространстве объекта (а иногда и во времени). 2.2. МЕХАНИЧЕСКИЙ ОТБОР Наиболее простым способом, нередко эффективно обеспечивающим репрезентативность выборки, является механический (или 29
систематический) отбор, когда образцы (точки опробования) для анализа отбирают через равные интервалы расстояния (или времени). По сути дела именно этот принцип лежит в основе отбора средней пробы на анализ, когда образец рассыпают на бумаге, делят линиями на несколько квадратов и из каждого ложкой берут некоторое количество почвы для приготовления пробы. Чаще всего механический отбор осуществляют вдоль некоторой линии. При этом нужно решить вопрос, через какой промежуток брать образцы (или делать измерения) и откуда начинать отсчет. Если объем выборки определен заранее, то желательно выбрать такой промежуток между соседними точками, чтобы вся линия опробования была представлена в выборке. Здесь можно поступить следующим образом: разделить длину линии опробования (измеренную в метрах, шагах и т.д. для непрерывных объектов или числом измерений для дискретных объектов) на предполагаемый объем выборки и, округлив полученное отношение до ближайшего удобного с практической точки зрения числа, взять последнее как искомый промежуток между точками опробования. Для обеспечения случайности начала отсчета его можно определить как число букв в слове, с которого начинается произвольно открытая страница любой книги. Это число и будет числом единиц длины, либо числом элементов дискретного объекта, с которого начинается отбор. Так, если из 48 агрегатов некоторого размера, выделенных при сухом просеивании образца почвы, для определения порозности нужно отобрать 5, то для проведения механического отбора все агрегаты должны быть расположены в один ряд. Исходя из отношения 48/5 интервал опробования можно взять равным 10. Отбор можно начать с третьего агрегата (если воспользоваться тем обстоятельством, что настоящий абзац начинается со слова, состоящего из трех букв). Тогда анализу будет подвергнут каждый десятый агрегат, начиная с третьего; они будут расположены на 3, 13, 23, 33 и 43-м местах. Механический отбор на поверхности можно осуществлять в точках, равномерно распределенных по площади, например, по углам квадратов, на которые разбивается вся исследуемая территория. Следует отметить, что систематический отбор, подкупающий своей простотой, не всегда оказывается надежным в обеспечении рандомизации. Известно, что свойства почвы в пространстве нередко изменяются с более или менее выраженной периодичностью, особенно в условиях антропогенного воздействия (лесные посадки, дренаж, орошение и пр.). Если в таких условиях расстояния между точками опробования окажутся близкими к длине периода в изменении 30
изучаемого свойства, то это может оказаться причиной искаженного представления об этом свойстве. 2.3- ТАБЛИЦА СЛУЧАЙНЫХ ЧИСЕЛ И ЕЕ ИСПОЛЬЗОВАНИЕ Наиболее надежную рандомизацию можно обеспечить, воспользовавшись таблицей случайных чисел. Для составления такой таблицы необходимо иметь достаточно длинный ряд цифр, последовательность которых чисто случайна. Для удобства пользования все случайные цифры располагают в определенной системе, например, считают, что каждые последовательно полученные 3, 4 или 5 цифр составляют трех-, четырех- или пятизначное число. По тем же соображениям удобства эти числа располагают в виде таблиц, причем каждые строки и столбцы цифр иногда еще и нумеруют. Полученная подобным путем таблица и называется таблицей случайных чисел (см. табл. I в ПриложенииI, Такая таблица предназначена для определения номеров тех точек опробования, в которых должны быть проведены измерения или взяты образцы. Предположим, что после сухого просеивания некоторого образца почвы мы получили 57 агрегатов размером 7-10 мм. Из этих 57 агрегатов нам нужно выбрать 5 для определения их порозности. Чтобы не было никакой предвзятости в выборе, расположим все агрегаты в виде цепочки, причем за начало цепочки будем считать ее левый конец. Припишем всем агрегатам номера от 01 до 57. Для определения номеров агрегатов, которые следует подвергнуть анализу, рассмотрим таблицу случайных чисел, причем нет никакой необходимости начинать просмотр таблицы с самого начала. Ее можно использовать с любого столбца и с любой строки, а вести просмотр можно в любом направлении - сверху вниз или снизу вверх, справа налево или в противоположном направлении. Например, можно начать просмотр с числа 62846, стоящего в 15-й строке столбца 15-19 (см. табл. I). Каждое число таблицы случайных чисел имеет пять знаков. Нас же в данном примере интересуют только двузначные числа (в пределах от 01 до 57), поэтому в каждом из пятизначных чисел будем рассматривать только первые две цифры, например в числе 62846 мы учитываем только 62. Агрегата с таким номером у нас нет. Идя от числа 62846 вниз по столбцу, получаем число 09 (первые две цифры 09351). Агрегат с таким номером у нас имеется, значит, это - первый из пяти нужных нам агрегатов. Аналогично просматривая В Приложении таблицы пронумерованы римскими цифрами. 31
следующие цифры вниз по столбцу, найдем номера остальных агрегатов: 36,42,01, 28. Точно так же в пятизначных числах можно было бы рассматривать только последние две цифры. Из того же столбца 15-19, начиная с 15-й строки и двигаясь вниз, мы получили бы: 46, 51, 23, 08, 28, т.е. анализу были бы подвергнуты агрегаты с этими номерами. Для отбора случайных образцов в поле можно поступить следующим образом. На прозрачной основе (калька, оргстекло) вычерчивают сетку квадратов. Каждую вертикальную и горизонтальную линии нумер уют, так что для каждого пересечения линий (точек) можно точно указать их адрес. Если такую сетку равномерно по площади распределенных точек (т.е. пересечений линий) произвольно, "как попало", наложить на карту изучаемой территории, то выбор местоположения намечаемого числа образцов можно свести к нахождению соответствующего числа адресов среди тех точек, которые выпали на всю площадь интересующей исследователя территории. Определив адрес первой точки, т.е. с помощью таблицы случайных чисел найдя номер сначала вертикальной, а затем горизонтальной линии, на пересечении которых лежит точка, устанавливают, выпала ли эта точка на изучаемую территорию или нет. Если выпала, то эта точка определяет место, где должен быть отобран первый образец. Аналогично отыскивают местоположение остальных точек отбора образцов. 2.4. ПОСЛОЙНАЯ ВЫБОРКА. ЗНАЧЕНИЕ РАНДОМИЗАЦИИ В некоторых случаях, когда объект неоднороден (например, почвенный покров участка как объекта образован почвами разной степени окулътуреиности или разного вида), причем доля участия разнородных частей известна, чтобы не ставить представительность этих частей в выборке в зависимость от случая, прибегают к послойной (или зональной) выборке. Суть этого способа состоит в том, что рандомизацию проводят дифференцированно для каждой части (зоны, слоя, как их называют в статистике), причем объемы подвы- боров в этих частях пропорциональны доле их участия в составе целого объекта. Такой прием позволяет более точно охарактеризовать объект, в особенности, если объем выборки невелик. Упомянутые выше приемы не исчерпывают всех способов рандомизации, однако большинство из них базируется на знании статистики, а мы лишь приступаем к знакомству с ней, поэтому изложением трех описанных выше способов мы и ограничимся. 32
Заканчивая рассмотрение вопроса о рандомизации выборок и способах ее обеспечения, отметим, что принцип рандомизации очень важен в научном эксперименте, если характер исследуемого явления допускает некоторую "вольность" в обращении с ним. Дело заключается не только в том, что исследователь может сознательно отбирать наиболее "подходящие" для работы компоненты физической совокупности. Даже при полной объективности и добросовестности в подходе к изучаемому вопросу нельзя избежать субъективного взгляда на отбираемые образцы, а также психологических и физиологических аспектов, нередко играющих немалую роль. Поэтому отобранные "на глаз" выборки всегда в той или иной степени дают превратное представление о характеризуемой ими совокупности1. Все вышесказанное о важности получения случайной выборки совсем не означает, что в отсутствии рандомизации опыты теряют свое значение и статистической обработке не подлежат. Дело в том, что в зависимости от характера проводимого исследования отсутствие рандомизации может в большей или меньшей мере извращать наше представление об изучаемых явлениях и процессах. В соответствии с этим и выводы, получаемые в результате статистической обработки таких опытов, также не будут лишены безупречности. Нужно твердо усвоить, что рандомизация - это не каприз математиков- теоретиков, а необходимое условие чистоты проводимых опытов. 2.5. ГРУППИРОВКА И РЯДЫ РАСПРЕДЕЛЕНИЯ Выборка как источник информации о генеральной совокупности дает возможность исследовать п значений случайной величины, где п - объем выборки. Используя для обозначения случайных величин буквы латинского алфавита, отдельные значения случайной величины X, можно обозначить как хь где / - номер испытания, принимающий значения от i = 1 до / = л. В зависимости от особенностей изучаемой случайной величины отдельные ее значения могут выражаться результатами измерений на любой из четырех шкал, т.е. это могут быть числа для количественных признаков, названия или условные обозначения для качественных признаков и т.д. При проведении испытаний практически никогда не бывает так, чтобы от первого результата xt к последнему хп значения случайной величины изменялись закономерно. Например, трудно допустить, что при определении водопрочности агрегатов некоторого размера •Более подробно вопрос о значении рандомизации изложен в предисловии В.Н. Пере- гудова к книге Дж.У. Снедекора "Статистические методы в применении к исследованиям в сельском хозяйстве и биологии". Сельхозиздат. М., 1961. В гл.17 той же книги можо найти описание способов получения рандомизированных выборок. 33
сначала будут попадаться только водопрочные агрегаты, а затем только неводопрочные. Столь же сомнительно, чтобы в рандомизированной выборке содержание обменного кальция от первого анализа к последнему постепенно уменьшалось или наоборот увеличивалось > Получаемые в процессе исследования выборочные данные обычно представляют собой неупорядоченный ряд результатов измерений. Упорядочение значений, приведение их в определенную систему представляет собой задачу, с которой прежде всего сталкивается исследователь при статистической обработке полученных результатов. При малом объеме совокупностей упорядочение данных не играет большой роли, но для совокупностей большого объема, когда число значений случайной величины измеряется десятками, тем более сотнями, упорядочение оказывается если не необходимым, то по меньшей мере желательным. Наведение порядка в хаосе полученных данных обычно сводится к представлению результатов испытаний в виде ряда распределения (или вариационного ряда). В простейшем случае ряд распределения может быть получен ран- жироЕанием данных, т.е. с помощью размещения всех значений случайной зеличины в порядке их возрастания (конечно, если признак не измерен на классификационном уровне). При этом исходная неупорядоченная последовательность значений х( (здесь /=1,2...л есть порядковый номер в получении значений ;с,) будет заменена последовательностью в порядке возрастания значений х{. Эти значения в упорядоченной последовательности можно обозначить X; , где / = 1,2,...,л есть номер (место) в ранжированной последовательности. Так, если при измерении рН получены п = 5 значений xt (для / от 1 до 5): 5,8; 5,4; 5,9; 6,3; 6,0, то после ранжирования х, разместятся в последовательности л2, х\, хз, *5, ха; обозначая эти ранжированные значения через х*, получим: х* =5,4; х\ =5,8; х\ =5,9; х*4 = 6,0; х5 = 6,3. Если объем выборки велик, то процедура ранжирования не слишком облегчает обзор данных, и тогда прибегают к их группировке, пригодной в качестве метода свертки информации и для качественных признаков. Получающийся при этом ряд распределения - это перечень классов значений случайной величины с указанием их встречаемости. Число, показывающее, сколько раз в пределах совокупности встречаются значения, принадлежащие тому или другому классу, называется абсолютной частотой (или просто частотой). 34
В дальнейшем абсолютную частоту (за исключением специально оговариваемых случаев) будем обозначать буквой/. Пусть к - число выделенных классов, а у = 1, 2, ..., к - номер класса. Значение у-того класса обозначим через Xj а соответствующую ему частоту - через yj. Тогда ряд попарно связанных значений Xj и/j образует ряд распределения (имеются в виду распределения частот по разным классам значений случайной величины). Очевидно, что для данной совокупности сумма частот всех классов равна объему совокупности п: J£fj=n> B.1) м где знак £ означаег суммирование частот^, для которых у пробе- гает значения оту = 1 до у: ~ /с, т.е. £ // ~ /i + h +• • л/к • Нередко подобную громоздкую запись суммирования можно записать проще: 2У/, что означает суммирование /J по у, и даже совсем j просто в виде £ /, если по смыслу описываемой операции не может быть разночтений. Встречаемость отдельных значений по классам fj можно охарактеризовать и с помощью относительных частот (или частостей), представляющих собой отношение абсолютных частот к объему выборки (или, что то же, объему ряда). Обозначив относительную час- тотуу-го класса /?,, получим /?; = — . Если сумма абсолютных частот по всем классам равна //, то сумма относительных частот равна единице (с точностью до округления): £р =Itll = A±£±^lL = l. B.2) j П П Иногда частоты выражаются не в долях единицы, а в процентах, и тогда сумма относительных частот оказывается равной 100%. Конкретное содержание рядов распределения и особенности их построения во многом определяются характером выборочной информации и уровнем измерений случайной величины. 35
2.6. ГРУППИРОВКА КАЧЕСТВЕННЫХ И ПОРЯДКОВЫХ ПРИЗНАКОВ При измерениях на именной шкале значениями отдельных классов Xj являются наименования, символы, числа, отражающие качественную особенность каждого класса, а группировка сводится к подсчету числа случаев, когда то или иное качество появилось при проведении испытаний. Примерами получающихся в подобных случаях рядов распределений может служить ряд, отражающий встречаемость отдельных групп минералов среди п = 200 зерен пылеватой фракции, выделенной из некоторого конкретного образца почвы (табл. 2.1). Таблица 2.1 Встречаемость зерен пылеватой фракции по разным группам минералов {pj даны с точностью до 0,01) Группа минералов (*;) Абсолютная частота/} Относительная частота/?/ Кварц Полевые шпаты (*0 (*2) 101 77 0,50 G,38 Слюды (*з) 15 0,08 Прочие (*4) 7 0,04 Сумма частот 200 1,00 Последовательность, в которой располагаются классы значений случайной величины, измеряемой на именной шкале, чаще всего определяются частотами соответствующих классов: первые содержат наиболее часто встречающиеся (в табл. 2.1 - кварц), последние - редко встречающиеся. Группировка результатов испытаний, в которой измерения проводятся на порядковой шкале, очень похожа на только что рассмотренную. Отличие состоит лишь в том, что, во-первых, классы значений здесь обычно располагаются не по принципу их встречаемости, а в порядке усиления (или уменьшения) проявления изучаемого признака, и во-вторых, положение границ между классами здесь обычно более условно. Примером получающихся при этом рядов распределений может служить табл.2.2. Таблица 2.2 Ряд распределения агрегатов с разной степенью выраженности серой окраски Окраска агрегатов ( Xj) Абсолютная частота/; Темно-серые 53 Серые 81 Светло-серые 11 Палевые 5 Всего 150 36
2Л. КЛАССЫ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ Более подробного рассмотрения заслуживает группировка значений случайных величин, измеренных на интервальной шкале или шкале отношений. Группировка количественных признаков начинается с того, что весь диапазон значений случайной величины делят на некоторое число интервалов одинакового размера, на некоторое число классов, как правило, одинаковой ширины. Выбор числа классов к осуществляют в известной мере произвольно. Прежде всего при этом обычно учитывают объем выборки и, с увеличением которой от 20- 30 до 500- 1000 рекомендуется число классов увеличивать от 5-6 до 10-11. Однако конкретные особенности совокупностей, как и преследуемые цели, могут существенно повлиять на выбор числа классов. От числа классов зависит их ширина, или классовый промежуток, выбор которого тоже в известной степени произволен. Примерную оценку классового промежутка с можно получить, разделив интервал, в пределах которого варьируют выборочные значения случайной величины, на планируемое число классов. Для этого среди всех значений случайной величины находят минимальное хШш и максимальное Хтах и разность между ними делят на к. Полученное отношение округляют до ближайшего "удобного" числа, которое и берут в качестве с. Так, если для порозности почвы вычисленное отношение оказалось равным 2,3%, то более разумно взять за величину с не 2,3%, а 2,0, либо 2,5%. При выборе классового промежутка нужно иметь в виду, что точность его вычисления должна соответствовать той точности, с которой получены значения случайной величины. Если обозначить погрешность, с которой проводятся результат измерений, через А, то классовый промежуток с должен быть кратен целому числу погрешностей А, т.е. должно соблюдаться условие с ± тД, где т - некоторое целое число, равное или большее 1. Поэтому, например, если значения рН вычислены с точностью до А = 0,05, то нельзя выбрать с = 0,07 и следует принять с = 0,05 (т = 1), либо взять с = 0,10 (т = 2). После того как выбор величины классового промежутка осуществлен, можно приступить к выделению самих классов, т.е. к установлению начала и конца каждого из них и к нахождению их середин. Под началом и концом класса следует понимать соответственно те наименьшие и наибольшие значения случайной величины, которые еще могут быть отнесены к данному классу. Очевидно, что при з* 37
таком понимании начала и конца классов одно и то же знсчение не может быть взято как конец одаого и начало соседнего классов. Обычно нумерацию ведут от классов с наименьшими знагзншгчи величины к классам с наибольшими значениями. В этом случае конец любого предыдущего класса меньше начала последующего всегда на величину Л, т.е, если конец у-го класса есть х", а начало O'+U-ro класса есть х)+1,то х)' = х;+1-Д. B.3) Начала соседних классов, как и их концы, отличаются друг от друга на величину классового промежутка, т.е. x'hx=x)+c B.4) и *у+1=х; + с. B.5) Не обязательно в качестве начала первого, наименьшего, класса брать jtmiii. Исходя из соображений удобства, за начало первого класса можно взять и значение, несколько меньшее лъ«п. В случае, когда с = А, начало и конец каждого класса будут выражены одним и тем же числом (x'j = x'j ), т.е. каждому классу будет соответствовать одно значение случайной величины. Если с > А, то каждому классу будет принадлежать несколько отличных значений, среднее из которых представляет собой середину класса. Обычно середину класса Xj находит как полусумму начала и конца класса: jf = *}+*)' B.6) 3 2 Если с = wA, то, как нетрудно показать, , тп-\ . *,=*}+ —Д. B.7) Для удобства вычислений желательно, чтобы число было целым, откуда следует, что выгодно брать число m нечетным. При w>10 середину классов можно вычислить как полусумму начал соседних классов: X'i + Х'Г Л" J J J+{ B.8) 38
или по эквивалентной формуле Sj = х}+0,5е. B.9) При этом число т целесообразно брать четным. Середины соседних классов, как и их концы и начала, отличаются друг от друга на величину классового промежутка. Иногда при выделении классов предпочтительнее находить более удобные значения середан классов, а не их начала и концы. В этих случаях после выбора ширины класса в окрестности Хтт (предпочтительно от Xmm до Xmm+ 0,5с) выбирают числовое значение, удовлетворяющее соображениям "удобства", и принимают его за середину первого класса. Затем, пользуясь приведенными выше соотношениями, устанавливают середины остальных классов, начала и их концы. В результате подсчета частот получают ряд распределения, в котором серединам классов Зс; соответствуют частоты fp показывающие, сколько раз значения случайной величины попали в соответствующий класс. Примером подобного ряда может служить табл.2.3, полученная при группировке и = 30 значений порозности агрегатов В УСЛОВИЯХ, КОГДа JCmin = 47,3%, Jtmax = 63,1% И Д = 0,1%. Группировка осуществлялась, исходя из удобства начал классов при с = 3,0% и полученном при этом числе классов к = 6 (начала x'j и концы x'j классов в табл.2.3 приведены для иллюстрации того интервала значений, которые принадлежат каждому классу). *;-*; */ /у Таблица 2.3 Рад распределения порозности агрегатов 47,0-49,9 50,0-52,9 53,0-55,9 56,0-58,9 59,0-61,9 62,0-64,9 48,5 51,5 54,5 57,5 60,5 63,5 1 3 6 7 9 4 Наряду с установлением начала и конца классов как необходимых элементов при подсчете часгот, в ряде случаев возникает также потребность в выделении границ между классами *,/#+;;, каждую из которых можно рассматривать одновременно и как верхнюю границу предыдущего j-ro класса и как нижнюю границу последующего (j+1)-го класса. Граница между классами равна полусумме конца предыдущего и начала последующего классов: X ; "Г X ;. 1 Очевидно такж^, что нижняя границау-го класса х/ -х\} находятся по формуле 39
XU-D/J = XJ -°»5Л = *J -°>5c ' <2Л !> а верхняя граница j-го класса Хуу+]} - по формуле х]1фх) = х]+0,5Д = х, +0,5с. B.12) При т = с/А £ 10 за границу между классами можно принимать начала отдельных классов, т.е. считать, что ХЛ(№) ~ ХН • Так для примера, представленного в табл.2.3, учитывая, что с/А = 30, за границу между первым и вторым классами можно принять 50,0%, за граничу между вторым и третьим 53,0% и т.д. Нижняя граница первого класса здесь равна 47,0%, а верхняя граница последнего составляет 65,0%. Нетрудно убедиться, что соседние границы между классами (а соответственно, нижняя и верхняя граница каждого класса) отличаются друг от друга ровно на величину классового промежутка. В отличии от начала и концов классов, которые всегда представляют собой значения, если не практически, то принципиально могущие получиться при проведении испытаний, границы между классами нередко оказываются условными, лишенными реального смысла. Действительно, если ряд распределения составлен для дискретной случайной величины, например, для числа колоний в чашке Петри, то граница, равная 18,5 колоний, есть чистая абстракция. 2.8. ГРУППИРОВКА ЛОГАРИФМОВ ПЕРЕМЕННЫХ На практике нередко встречаются ситуации, когда требуется осуществи хо группировку не отдельных значений х, а их логарифмов. Если для каждого х( уже известны у,- = lgxb то вся процедура группировки у,- ничем не отличается от того, что было описано в § 2.7. Если же для х{ логарифмы не найдены, а ряд распределения для х имеется, то возникает желание получить распределение логарифмов с помощью соответствующего преобразования рада распределения значений xh что совершенно недопустимо. Учитывая, что нахождение всех у, = lgx, иногда представляет определенные трудности, для построения ряда распределений у можно поступить следующим образом. Для Хтм и лъг находят их логарифмы >?тах = IgA'mcx И )>min = IgAmin. РаЗДСЛИй ОЗЗНОСТЬ Между Vmav И } mm На предполагаемое число классов к и округлив полученное отношение до "удобного" числа с двумя значащими цифрами, получают величину классового промежутка су С той же точностью Дг с какой берется су, устанавливаю! границы между классами у/УGЧ// (они же 40
cv являются началами классов y)+lt поскольку —— > 10) и середины классов fj. Подсчет частот по выделенным классам значений yj можно осуществить без нахождения всех у{ = \%хь если для Ууу+ц найти антилогарифмы с точностью до ОДА*, соответствующие Xyy+j) в логарифмическом масштабе. Подсчет частот по этим отдельным классам значений х{ дает распределение частот по классам $j. Для иллюстрации способа рассмотрим группировку п = 70 результатов определения водопроницаемости в логарифмическом масштабе. Ранжированные данные по водопроницаемости х{ с точностью до целых мм/мин образуют следующую совокупность: 1, I, 2, 2> 2, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 8, 8, 8, 8, 8, 9, 9, 9, 9, 10, 10, 10, 10, 11, 11, 12, 13, 13, 13, 13, 14, 14, 14, 14, 15, 16, 16, 16, 17, 17, 17, 17, 18, 18, 19, 19, 21, 21, 23, 24, 24, 26, 28, 31, 33, 33, 38, 48. Здесь Xmin = 1 и Яшах = 48, огкуда ушгх~ lgl = 0,0000 и jmax= lg48 = 1,6812. Если принягь к = 7, то, поскольку Ушах - .Vmin 16812 - 0,0000 £ш*—rus«L = ! = оД402, можно за величину классового к 1 промежутка взять су = 0,25. Тогда границами между классами (началами классов) окажутся значения Ууу+и = 0,00; 0,25; 0,50; ...; 1,75, антилогарифмы которых дадут граничные значения для ряда х: 1,0; 1,8; 3,2; 5,6; 10,0; 17,8; 31,6 и 56,2. При этом серединам классов у} 0,12; 0,3/; 0,62; ...; 1,62 будут соответствовать следующие начала и концы классов в значениях х: 1, 2-3, 4-5, 6-9, 10-17, 18-31 и 32-55 (в первом классе начало и конец класса совпадают, поскольку х( < 1,8 в данном случае это только л{- 1). Подсчет частот по этим классам дает следующий вариационный ряд для у{ = lgxt: Уj ОД 2 0,37 0,87 1,12 1.37 1,62 fi 2 1M. 23 12 4 Аналогичный прием можно использовать и в том случае, когда при наличии совокупности значений х требуется получить ряд распределения или других нелинейных функций от л*. 2.9. ПРЕДСТАВЛЕНИЕ РАСПРЕДЕЛЕНИЙ С ПОМОЩЬЮ КВАНТИЛЕЙ Результаты выборочных наблюдений могут быть представлены не только в виде рядов распределения, когда подсчету частот предшествует выделение классов значений признака. Свертку информации можно осуществить иначе, указав для изучаемой случайной 41
величины ряд значений эмпирически найденных квантилей. Квантиль - это такое значение случайной величины, меньше которого в совокупности содержится у-100% всего числа значений (или доля у от общего числа значений). Если у-100%-й квантиль случайной величины X обозначить Х(г), то лг(о,н» A0%-й квантиль) представляет собой значение, меньше которого в совокупности содержится 10% общего числа значений, a X(cj5) - значение, меньше которого содержится 75% результатов испытаний. Квантили, соответствующие значениям у, равным 0,1; 0,2; ...; 0,9, называются децилями. Децили делят ранжированную последовательность значений случайной величины на 10 равных по числу частей. Квантили, делящие ранжированную последовательность на 4 равные части, называются квартилями. Квартиль X(o..i5), отсекающий 25% наименьших значений, обычно называют нижним квартилем, а л>ол5), отсекающий 75% наименьших значений, (и соотвегственно 25% наибольших значений), - верхним квартилем. По аналогии с этим квантили jcrnjo) и Хф,щ называются нижним и верхним децилями, Квантиль Х(о,5о>, делящий ранжированную совокупность на дае равные по числу половины (являющийся вторым квартилем), называется медианой. Эмпирические значения квантилей по выборке объема п можно найти по общей формуле л;(у) =х*к +Д(**+1 -**) . V2.13) где хк и хк+х значения изучаемой случайной величины, находящиеся в ранжированной последовательности (в порядке возрастания) на к-и и (/ст1)-м местах, а к и А - соответственно целая и неотрицательная дробная @ < А < J) части в произведении у(л + 1)=* + Д, B.14) где у задается в долях единицы. Так для п = 25 и у = 0,25 при вычислении нижнего квартиля имеем у(и + 1) = 0,25 хB5 + 1) = 6,5 = 6 + 0,5; к = 6, А = 0,5 и, согласно B.13), получим Х(о,25)= х*в+ 0,5 х (х* - х*6)> т.е., чтобы найти искомый квантиль, следует к значению, стоящему на 6-м месте в ранжированной последовательности, прибавить половину разности значений, стоящих на 7-м и 6-м местах. Разумный набор квантилей и значения у, для которых допустимо вычислять квантили, зависят от объема выборок и желаемой детальности описания выборочной совокупности. Оптимальный набор у для описания эмпирического ряда может быть следующим: 0,05; 0,10; 0,25; 0,50; 0,75; 0,90; 0,95. Однако не д;я всех выборок такой набор квантилей можно получить, поскольку для того чтобы набор квантилей имел содержательность, устойчиво 42
отражал характер вариабельности исследуемого свойства, разумно использовать значения у, удовлетворяющие ограничению sy*l- B15) (Согласно менее жесткому ограничению, у и 1 - у не должны быть меньше 1/(и+1)). Поэтому вышеприведенный ряд значений у может быть использован дт1я нахождения квантилей лишь в рыборках с объемом п £ 100. При меньших объемах п набор значений будет сокращенным, а в некоторых случаях и несколько измененным (см. табл.2.4): 0,06 и 0,94, если для этих у еще можно вычислять квантили, а для у, равных 0,05 и 0,95, это уже невозможно, и аналогично 0,15 и 0,85 вместо 0,10 и 0,90. Таблица 2.4 Оптимальный набор значений у для вычисления квантилей в зависимости с г объема выборок л п п>\№ 11-99 25-70 16-24 5-15 2<я<5 0,05 0,06 0,10 0,10 0,10 0,15 0,25 0,25 0,25 0,25 0,25 У 0,50 0,50 0,50 0,50 0,50 0,50 0,75 0,75 0,75 0,25 0,25 0,90 0,90 0,90 0,85 0,95 0,94 Допустим, что при определении содержания гумуса в пахотном слое дерново-подзолистой почвы в пределах некоторого участка с повторностыо п = 25 были получены следующие результаты (х,-,%): 2,02; 1,68; 1,75; 2,12; 1,58; 2,28; 1,41; 1,78; 1,53; 3,19; 1,49; 1,83; 1,48; 2,11; 1,91; 1,85; 1,66; 2,33; 2,47; 1,78; 1,69; 1,89; 1,77; 1,93; 1,85. После ранжировки ряд приобрел следующий вид (**, %; здесь / - номер места в ранжированной последовательности от i = 1 до / = 25): 1,41; 1,48; 1,49; 1,53; 1,58; 1,66; 1,68; 1,69; 1,75; 1,77; 1,78; J ,78; 1,83; 1,85; 1,85; 1,89; 1,91; 1,93; 2,02; 2,11; 2,12; 2,28; 2,33; 2,47; 3,19. При л = 25 можно вычислить квантили для у, равных 0,10; 0,25; 0,50; 0,75 и 0,90 (см. табл.2.4). При у = 0,10 согласно B.14) имеем к = 2 и Л - 0,6. Соответственно по формуле B.13), округляя до сотых, получаем Х(оло) = 1,48 + 0,6 • A,49 - 1,48) = 1,49. Аналогично получим .\7о,25) = 1,67; хсо.50) = 1,83; Х(о,75) = 2,06 и Х@,90) = 2,39. Результаты свертки информации с помощью квантилей обычно представляют в виде таблицы, где наряду с вычисленными квантилями приводятся также минимальные и максимальные значения 43
(xmin, Xmax) и объем выборки п. Примером такого представления может служить табл. 2.5. Квантильный способ представления данных не является самым удачным в качестве промежуточной процедуры при вычислении средних и других статистических показателей, но в условиях обычной обеспеченности даже простой вычислительной техникой это не столь уж и важно. Этот метод свертки информации заслуживает внимания прежде всего простотой интерпретации результатов» а с другой стороны, возможностью в пределах одной таблицы представления данных для разноразмерных признаков, в том числе и для случаев, когда объемы выборок заметно различаются (см. табл.2.5). Таблица 2.5 Квантили некоторых свойств горизонта Am* дерново-подзолистой почвы (в скобках даны квантили для у = 0,15 и у = 0,85) Свойство Гумус, % Р2О5,мг/100г Водопроницаемость, мм/мин п 25 20 10 Xmin 1,41 4 0,4 0,10 1,49 F) - 0,25 1,67 11 0,7 Х(У)ДЛЯУ 0,50 1,83 18 1,1 0,75 2,06 24 2,3 0,90 2,39 C8) - .Xmax 3,19 48 5,2 2.10. ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ РАСПРЕДЕЛЕНИЙ. Данные, представленные в виде вариационного ряда, можно изобразить графически, если по оси абсцисс откладывать значения при- f. знака, а по оси ординат - частоту. J^ Существует несколько способов графического изображения рядов распределения. Если вариационный ряд представлен отдельными значениями дискретной случайной величины (с = А) с указанием их абсолютных или относительных частот, то график представляет собой значение Рис.2.1. Распределение частот fj числа 0рДИНаТ В ТОЧКаХ, Соответствующих Xj ортшгейнов, крупнее 3 мм, выде- отдельным значениям Случайной ве- ленных из 100 образцов подзолистого ЛИЧИНЫ, И ВЫСОТОЙ, ЛрОПлФЦИОНаЛЬ- горизонта (объем образца 100 см3) ВОЙ ИХ Часто!ам (]>ЯС.?. I ). 404 30 204 101 0 1 + Т" 6*j 44
4 0Д5- 0,20-| ОД* 0,Ш 0,03 0£0 2>,5 -1,0 4,5 5JD 5,5 6/1 6,5 7,0 7,5 3tj Рис.2.2. Гистограмма распределения относительных частот pi по классам значений рН (Xj ) для пахотного слоя почвы в пределах по- Для непрерывных случайных величии графическое изображение ряда распределения может быть дано в виде столбчатой диаграммы (или гистограммы). При этом вариационный ряд изображают в виде столбиков, границы между которыми проходят по ординатам, соответствующим границам между классами, ширина основания столбиков равна величине классового промежутка, а высота пропорциональна частоте отдельных классов (рис.2.2). При необходимости сравнения на одном рисунке двух или большего числа распределений выясняется, что гистограмма оказывается для этого не лучшим способом. В таких случаях гораздо удобнее пользоваться графическим изображением распределений в виде полигона час- тот. Для построения полигона частот на график наносят точки, координаты которых соответствуют серединам отдельных классов и их частотам, после чего точки, соответствующие соседним классам, соединяют отрезками прямых. Полигон частот должен начинаться и заканчиваться на оси абсцисс, чтобы получилась замкнутая фигура, а это можно сделать, если с обоих концов ряда добавить по одному ближайшему классу, имеющему нулевые частоты (рис.2.3). Так, для ряда распределения рН (рисЛ.2) полигон следует начать с класса, для которого Xj = 3,50, а заканчивать классом, для которого Xj = 7,50; частоты этих классов равны нулю (рис.2.3). Название "полигон частот" объясняется тем, что полученная в результате построения фигура представляет собой многоугольник, ограниченный снизу отрезком оси абсцисс, а сверху и сбоку - ломаной линией. 3£ 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 Х} Рис.2.3. Полигон распределения относительных частот pj по классам значений рН (Xj). 45
I зон 20 10 о График, отражающий распределение, можно получить и не прибегав к группировке. Дз1я этого ряд полученных значений ранжируют и в полученной последовательности от наименьшего значения к наибольшему каждому значению приписывают порядковый номер с г 1 до п, где п ~ объем выборки. Если теперь, откладывая по оси абсцисс значения случайной величины, а по оси ординат - их номер в ранжированной последовательности, нанести на график точки, соответствующие координатам "значение - номер" и соседние точки соединить отрезками прямых, то получается график, называемый огивой (рис.2.4). Пусть, например, ранжированная последовательность п = 30 значений водопроницаемости (х, мм/мин), определяемой методом трубок с переменным напором, на дерново- подзолистой почве под луговой растительностью такова: 6, 10, 21, 22, 29, 31, 32, 33, 34, 36, 39, 41, 43, 44, 44, 44, 48, 48, 50,54, 55, 57, 57, 60. 63, 71, 86, 86,92, 125. Тогда ее огива имеет вид, изображенный на рис.2.4. При квантильной характеристике распределений для построения графика находят точки с координатами у (ордината) и щ (абсцисса) и соседние точки соединяют отрезками прямых. Если на том же графике взять точки с ко- / ординатами у и х„ где /i + l JC/ есть /-е значение переменной в ранжированной последовательности (/ ~ 1, 2, ..., п) и соседние точки соединить отрезками прямых то лепсо убедиться, что такого рода функция распределения достаточно точно характеризуется ломаной, построенной по нескольким кван- тильным точкам (рис.2.5). 0 20 49 60 80 100 120 х Рис.2.4 Огива распределения водопроницае мости (х, мм/мин) ] 0,8- 0,6- 0,4- 0,2- 0- » + 1 / у / 1 ' 1 » I"" 1,2 1,6 2,0 2,4 2,8 \2 Рис.2.5. Распределение 25 значений содержания гумуса (х) и квантилей распределения (жирная линия) 46
Вопросы для самоконтроля. 1. Что такое выборка и какими свойствами она должна обладать? 2. В какой мере репрезентативность выборки связана с рандомизацией? 3. В чем отличие механической выборки от послойной? 4. Что такое ряд распределения и как он может выглядеть? 5.В чем состоит специфика классов при группировке значений дискретных и непрерывных случайных величин? 6. Что такое квантиль случайной величины? 7. Какие ограничения существуют для вычисления квантилей? 8. Чем отличаются децили от квартилей и что между ними общего? 9. О чем может говорить равенство нижних дециля и квартиля? 10. Что общего у гистограммы и полигона частот и чем они отличаются друг от друга?
Глава 3 ВЕРОЯТНОСТЬ. ПАРАМЕТРЫ РАСПРЕДЕЛЕНИЙ ЗЛ. СТАТИСТИЧЕСКАЯ УСТОЙЧИВОСТЬ Несмотря на то, что результаты единичных испытаний над случайной величиной не предсказуемы заранее, случайности также оказываются подчиненными некоторым законам, законам случайности. В этом нетрудно убедиться, если, соблюдая неизменность общих условий, подучить ряд репрезентативных выборок, принадлежащих ода ой и той же случайной величине. Нагфимер, данные, приведенные в табл. 3.1, показывают, что относительные частоты доя каждой группы минералов от выборки к выборке не остаются одинаковыми, но меняются они не совсем бессистемно. Действительно, ни разу не оказалось, чтобы зерен кварца в выборке было очень мало или они составляли подавляющую часть от общего числа просмотренных зерен. Точно также на слюдистые минералы во всех выборках пришлось около 10% и не было случая, чтЬбы этих минералов оказалось больше, чем кварца или полевых шпатов. Таблица 3.1 Относительные частоты, характеризующие встречаемость разных групп минералов по повторным выборкам одинакового объема (просматривалось по 100 зерен минералов пылеватой фракции) Номер выборки 1 2 3 4 5 кварц *1 0,51 0,56 0,47 0,45 0,52 Группы минералов Xj полевые шпаты х2 0,40 0,33 0,38 0,42 0,35 слюда *з 0,07 0,06 0,11 0,08 0,12 прочие *4 0,02 0,05 0,04 0,05 0,01 Можно утверждать, что дальнейшее увеличение числа выборок не изменит выявленную в общих чертах картину распределения относительных частот, и для каждой группы минералов относительные частоты будут колебаться в некоторых более или менее узких пределах. 48
Рассмотренный пример является иллюстрацией общей закономерности, получившей название устойчивости частоты (или статистической устойчивости), которая известна давно и успешно используется для прогноза событий. Это нашло отражение в множестве народных примет, пословиц и поговорок (февраль - кривые дороги; яблоко от яблони недалеко падает; июль - сеногной и др.). 32. ВЕРОЯТНОСТЬ. НЕВОЗМОЖНЫЕ, ДОСТОВЕРНЫЕ, НЕСОВМЕСТИМЫЕ СОБЫТИЯ Рассматривая табл. 3.1, нетрудно предугадать, что единичное случайно взятое зерно из подвергнутого анализу образца вряд ли окажется слюдой или тем более принадлежащим к группе прочих минералов, так как по имеющимся у нас результатам эти минералы встречаются относительно редко. Скорее всего случайно взятое зерно будет либо кварцевым, либо полевошпатовым поскольку эти группы минералов встречаются почти одинаково часто и нет оснований сомневаться, что выявленное соотношение частостей в последующих экспериментах может существенно измениться. Таким образом, оценивая возможность того, что случайно взятое единичное зерно окажется кварцевым или будет относиться к другим группам минералов, мы, опираясь на статистическую устойчивость, обращаемся к относительным частотам как показателям вероятности некоторого события. Вероятность - это количественная мера возможности осуществления того или иного события. По относительным частотам можно судить о вероятности лишь с большей или меньшей степенью приближения, но, производя повторные выборки, можно убедиться, что относительные частоты для каждого события колеблются около некоторых постоянных величин. Эти постоянные величины и являются вероятностями соответствующих событий. Такое определение вероятности, основанное на поведении относительных частот, получило название статистического. К определению вероятности можно подойти и иначе. В принципе изучаемый объект (известное количество пылеватой фракции, выделенной из исходного образца некоторой почвы) представляет собой конечную совокупность зерен различной минералогической природы. Если из общего числа зерен N на кварц, полевые шпаты, слюды и прочие минералы приходится соответственно N\, N2, N2, и Na зерен, то их отношение к числу N характеризует /долю шансов отдельно взятого зерна оказаться кварцем или другим минералом. Следовательно, вероятность можно рассматривать как долю шансов, 49
благоприятствующих, тому или иному исход> того или иного события. Такое определение вероятности известно как классическое. Подобное определение вероятности позволяет рассматривать вероятность не только как меру возможности осуществления некого рого события, но и как характеристику того, какая доля от общего объема генеральной совокупности приходится на данный класс событий. Таким подходом к вероятности мы нередко будем пользоваться. Вероятность как количественную меру возможности события чаще всего обозначают буквой Р. Как и относительная частота, вероятность не может быть меньше нуля или больше единицы (или 100%, если вероятность выражается в процентах). Событие, у которого ног никаких шансов на осуществление, называется невозможным: щш него Р = 0. Событие, которое при проведении испытания обязательно наступает, называется достоверным; для такого события Р = 1. Каждое зерно изучаемой фракции механических элементов может оказаться либо кварцевым, либо полевошпатовым, либо принадлежать какой-либо другой группе минералов. Однако невозможно, чтобы одно зерно одновременно принадлежало двум разным, группам минералов, такие два события в единичном испытании произойти не могут. Если наступление одного события исключает возможность наступления другого, т.е. если события не могут осуществляться одновременно, то такие события называются несовмеалимы- ми (непересекающимися). Теорема сложения вероятностей состоит в следующем. Вероятность наступления хотя бы одного из определенного набора попарно несовместимых событий равна сумме вероятностей этих событий. Пусть некоторые события А и В несовместимы; обозначив через Р(А) вероятность события А, через Р(В') - вероятность события В, через Р(А или В) - вероятность любого из событий А или В, теорему сложения вероятностей можно записать так: Р(А или В) = Р(А)+ Р(В). C.1) В данных общих условиях эксперимента сумма вероятностей всех возможных несовместимых событий, как и сумма относительных частот в выборках, равна единице: 'fpy=l (/=U ■■•*), где А' - число возможных событий. Так, если вероятности, соответствующие приведенным в табл. 3.1 группам минералов, равны соответственно Р\ = 0,503, Рг = 0,348, Ръ = 0,114, Ра = 0,035 и их сумма равна 1, то вероятность того, что случайно взятое зерно окажется кварцевым .или полевошпатовым, 50
согласно теореме сложения вероятностей, равна О 503 + 0,348 = 0,851, т.е. на эти две группы приходится 85,1% общей численности зерен в изучаемом образце пылеватой фракции. Вероят- ность того, что зерно окажется слюдой или попадет в группу "прочих" минералов, очевидно, равна 0,П4 + 0,035 = 0,149. Ту же вероятность можно получить, вычитая из единицы 0;851, поскольку эта разность оценивает вероятность обнаружения не кварца и не полевых шпатов, т.е. слюд и прочих минералов. Теорема сложения вероятностей несовместимых событий в той или иной форме достаточно часто используется в статистических методах. 3.3. ПЕРЕСЕКАЮЩИЕСЯ СОБЫТИЯ. НЕЗАВИСИМОСТЬ СОБЫТИЙ Пересекающиеся события, как следует из самого названия, могут происходить одновременно. Так, в совокупности агрегатов каждый из агрегатов может быть механически прочным (событие А) или непрочным (обозначим это событие А ). Очевидно, эти события непересекающиеся (либо Л, либо А ) и если их вероятности равны Р(А) и Р(А ), то Р(А) + Р(А ) = i. Те же агрегаты могут быть водопрочными (событие В) или неводопрочными (событие В ) и при этом Р(В) + Р(В ) = 1, поскольку эти события также несовместимы. Вместе с тем каждый агрегат может быть механически прочен (непрочен) и в то же время водопрочен (неводопрочен), т.е. события А (или А)иВ (или В ) пересекающиеся. Если пересекающиеся события А и В независимы, то вероятность их совместного появления Р(АВ) равна произведению вероятностей соответствующих событий Р(А) и Р(В): Р(АВ)=Р(А) -Р(В). C.2) Это равенство обычно используется для определения независимости событий: если вероятность совместного появления событий равна произведению вероятностей этих событий, то события независимы. Так, если для механической прочности Р(а) = 0,3 и РA) = 0,7, а для водопрочности Р(в) = 0,6 п Р(~в ) =0,4, то в случае независимости этих пересекающихся событий вероятность того, что агрегат одновременно будет и механически прочен, и водопрочен, есть Р(лв) = 0,3-0,6 = 0,18. Аналогично получим Р(ав ) = = 0,3 • 0,4 = 0,12, Р(а в) = 0,7 • 0,6 = 0,42 и Р(л р ) = С,7 • 0,4 = 0,28. Поскольку этими случаями исчерпываются все возможные сочетания механической прочности и водопрочности, следует ожидать, что 51
Р(ав) +Р(аШ) +РA в) +РA ~в ) = 1. В самом деле, получаем 0,18 + 0,12 + 0,42 + 0,28= 1,00. Если в действительности окажется, что вероятность совместного появления изучаемых событий будет отлична от вычисленных, например, получится, что Р(ав) = 0,3 (это, кстати, возможно лишь в том случае, когда все механически прочные агрегаты в то же время водопрочны, поскольку Р(а) = 0,3), то можно утверждать, что водо- прочность и механическая прочность агрегатов не независимы. Могут пересекаться на только два события. Например, если пересекаются три события А, В, и С, то при их взаимной независимости имеют место следующие равенства: Р(АВ) = Р(А) . Р(В); Р(АС) = Р(А) • Р(С); п -. Р(ВС) = Р(В) • Р(С); Р(АВС) =Р(А) < Р(В) - Р(С). У } Если же хотя бы одно из равенств не соблюдается, то события независимыми считать нельзя. 3.4. ЗАКОН РАСПРЕДЕЛЕНИЯ. РАСПРЕДЕЛЕНИЕ ДИСКРЕТНЫХ ВЕЛИЧИН В рассмотренном выше примере с минералогической оценкой отдельных зерен пылеватой фракции мы познакомились со случайной величиной, измеренной на классификационном уровне. Каждой градации такой случайной величины может быть поставлена в соответствие некоторая вполне определенная вероятность. Аналогично, для порядковых величин с конечным числом возможных градаций каждой градации соответствует некоторая вероятность, сумма которых по всем градациям равна 1. Совокупность всех возможных событий при проведении испытания с указанием их вероятности может рассматриваться в качестве закона распределения случайной величины. С принципиальной точки зрения подобный способ описания закона распределения далеко не всегда оказывается возможным. Дело не только в том, что число возможных событий может оказаться слишком большим. Большое число возможных исходов испытаний создает лишь технические трудности, но если число таких исходов принципиально бесконечно велико, то эти трудности оказываются не только технического характера. Для иллюстрации сказанного рассмотрим сначала распределение вероятностей дискретной случайной величины. Допустим, что объектом исследования является слой 15-19 см горизонта Аг дерново- подзолистой почвы некоторого конкретного участка. В пределах этого объекта в единичных объемах 100 см3 (объем цилиндра высотой 4 см) количество (в штуках) ортштейнов крупнее 3 мм меняется в 52
пределах от 0 до 26. Распределение вероятностей (с точностью до 0,001) по классам значений при ширине класса с = 4 имеет вид: х)-х] 0-3 4-7 8-И 12-15 16-19 20-23 24-27 Pj 0,238 0,251 0,207 0,164 0,097 0,032 0,011 Приведенный ряд распределения вероятностей, показывает, например, что с вероятностью 0,164 в случайно взятом объеме 100 см3 может оказаться либо 12, либо 13, либо 14, либо 15 ортштейнов крупнее 3 мм, а с вероятностью 0,032 - их число заключено в интервале от 20 до 23. С другой стороны, можно утверждать, что почти в половине всех случаев B3,8 + 25,1 = 48,9%) число ортштейнов в объеме 100 см3 менее 8 штук и лишь в 4,3% всех возможных случаев это число равно или превышает 20. Использование теоремы сложения вероятностей в последнем случае вполне оправдано, так как результат единичного испытания не может оказаться равным одновременно и 3, и 4, а, следовательно, принадлежать разным классам. По тем же соображениям одновременно не может получиться 8 и 9 или 9 и 11 ортштейнов, а это означает, что при уменьшении ширины класса вдюятности новых классов должны подчиняться теореме сложения вероятностей несовместимых событий. Так, если вместо с = 4 взять с = 2, то, например, на месте класса, начало и конец которого равны 8 и 11, а Р = 0,207, появятся два новых класса от 8 до 9 и от 10 до 11, а их вероятности равны 0,112 и 0,095 @,112 + 0,095 = 0,207). Ширину класса можно уменьшить еще в два раза и взять с ~ I. В этом случае на месте каждого исходного класса при с = 4 окажется уже 4 класса. Применительно к произвольно взятому нами классу с началом 8 и концом И получим классы со значениями 8, 9, 10 и 11 и соответствующие им вероятности 0,058, 0,054, 0,050 и 0,045, причем сумма первых двух вероятностей равна 0,112, а вторых - 0,095 Очевидно, дальнейшее уменьшение классового промежутка невозможно, так как при с = А каждый класс представлен единственным значением случайной величины. Поскольку в случае дискретных случайных величин уменьшение классового промежутка не может продолжаться беспредельно, вероятности для отдельных значений таких величин представляют собой вполне определенные конечные величины, хотя они и могут быть очень малы. Таким образом, закон распределения дискретной случайной величины может быть задан перечислением всех значений такой величины с указанием их вероятностей. Иногда закон распределения можно описать математически, если известен вид зависимости Р(х) отх. 4* 53
Графическое распределение вероятностей дискретной случайной величкчы может быть представлено в виде серии ординат, соответствующих значениям случайной величины, с высотой, пропорциональной соответствующей вероятности, а также и в виде гистограммы. 3.5. КРИВАЯ РАСПРЕДЕЛЕНИЯ НЕПРЕРЫВНЫХ ВЕЛИЧИН Несколько иначе обстоит дело в рядах распределения непрерывных величин, поскольку, по крайней мере теоретически, классовый промежуток в таких рядах может быть сколь угодно мал. Предположим, что в некоторых условиях проведения испытания нам известно распределение вероятностей по классам порозности отдельных агрегатов (см. табл. 3.2). Согласно этим данным, например, порозность в границах 31,5- 32,5% встречается в 1,4% всех случаев, т.е. в средцем 14 раз на 1000 агрегатов. В этом ряде порозностей агрегатов классовый промежуток равен 1,0%, но его можно взять и равным 0,5%. Тогда на месте каждого существующего класса (мы не будем касаться крайних классов, где указана только одна из границ) появилось бы два класса значений порозности, между которыми соответствующим образом распределились бы вероятности Р, приведенные для исходных классов в табл.3.2. Очевидно, сумма вероятностей по каждым двум вновь образованным классам должна быть равна вероятности соотвегсгвующего исходного класса. Ясно также, что вероятность каждого новообразованного класса будет меньше, чем исходного, так как каждый класс при с = 0,5% составляет лишь часть от класса исходного при с = 1,0%. Таблица 3.2 Распределение вероятностей по классам порозности отдельных агрегатов xJI{J+\) 31,5 <31,5 0,002 32,5 32,0 0,014 33,5 33,0 0,079 34,5 34,0 0,207 35,5 35,0 0,291 36,5 36,0 0,269 37,5 37,0 0,110 38,5 38,0 0,019 39,5 39,0 0,006 >39,5 0,003 При уменьшении величины классового промежутка будут соответственно уменьшаться и вероятности для получающихся более узких классов. Теоретически величину классового промежутка с (как и точность измерений А) можно уменьшать до бесконечно малого размера, поскольку порозность агрегата есть величина непрерывная. При с-й) вероятности, соответствующие отдельным классам, также будут стремиться к нулю, а это означает, что для непрерывных величин нельзя указать вероятность каждого из возможных их значений; этим и отличаются непрерывные ряды от дискретных. 54
31 32 33 34 35 36 37 38 39 X Заметим, что невозможность указать вероятность того или другого значения непрерывной случайной величины не означает, что нельзя указать вероятность, напрмер, для порозности 34,73% (см. табл. 3.2). Здесь вероятность конечна и в принципе может быть указана, но лишь потому, что х = 34,73% есть не отдельное значение случайной величины, а середина целого класса значений от 34,725 до 34,734%. Отдельным значением является 34,73000...%, а для такого значения вероятность бесконечно мала и не может быть указана. В связи со сказанным становится вполне понятным и то, что распределение непрерывной случайной величины не может быть представлено в виде гистограммы, где по оси ординат откладывается вероятность: при уменьшении классового промежутка вероятность по отдельным классам значений уменьшается и при с-^0 высота столбиков оказывается бесконечно малой. При построении гистограммы этих трудностей можно избежать, если вероятность на гистограмме выражать не высотой столбиков, а их площадью. В этом случае на гистограмме распределения вероятностей по классам порозности а1регатов (рис. 3.1, а) общая площадь всей фигуры (крайние классы, имеющие очень малую вероятность, на гистограмме не отражены, но в суммарной площади должны учитываться) считается равной единице, а площадь каждого отдельного столбика в долях единицы соответствует вероятности отдельных классов значений порозности. 31 32 33 34 35 36 37 38 39 X Рис.3.1. Изменение общего вида гистограммы, когда ширина класса с-»0, а выражением вероятности является площадь (заштрихованная на рисунке площадь соответствует вероятности значениям порозности отдельных агрегатов оказаться в интервале от 32,5% до 33,5%) 55
Так, для класса в границах от 32,5 до 33,5% площадь столбика на гистограмме (см. рис.3 Л, а) составляет 0,079 от общей площади столбчатой диаграммы, что соответствует вероятности этого класса значений. При уменьшении классового промежутка на месте каждого исходного столбика на гистограмме появляются более узкие столбики, суммарная площадь которых должна быть равна площади исходного столбика (см. рис.3.1, б), а суммарная площадь всех столбиков - оставаться равной единице. Для непрерывных случайных величин ширину класса можно уменьшить до сколь угодно малых значений, и при этом общий вид гистограммы делается все менее угловатым. В пределе при с->0 гистограмма оказывается ограниченной сверху некоторой плавной линией, получившей название кривой распределения (см. рис.3.1, в). 3.6. ПЛОТНОСТЬ ВЕРОЯТНОСТИ. ИНТЕГРАЛ ВЕРОЯТНОСТИ Согласно вышеизложенному, площадь, заключенная между кривой распределения и осью абсцисс, должна быть равна площади исходной гистограммы, а площадь любого столбика исходной гистограммы- площади, ограниченной соответствующими отрезками оси абсцисс, ординат и кривой (заштрихованные участки на рис.3 Л, а, б, в). Для каждого достаточно узкого столбшса гистограммы вероятность АР можно представить как произведение ширины основания Ал: на высоту столбика, а это означает, что на оси ординат отклады- АР „ АР dP вается величина —. При Дл-*0 отношение — стремится к — в Ах Ах dx точке х. Эта производная получила название плотности вероятности и в дальнейшем будем обозначать ее (я(х). Следовательно, плотность вероятности -W-f C.4) есть ордината кривой распределения в точке jc, а кривую распределения можно рассматривать как график плотности вероятности. Таким образом, кривая распределения является графическим выражением закона распределения непрерывной случайной величины. Для любого заданного интервала значений от х\ до Х2, лежащего в пределах возможной для случайной величины области значений, вероятность Р(х\ <х <хг), выражением коъорой является соответствующая площадь под кривой распределения, ограниченная 56
ординатами в точках xi и хг, можно найти с помощью интегрирования: х2 Р(х1 < х < х2) = J ®(x)dx. C.5) х Здесь |©(х)Лс-знак интегрирования, показьюающий, что дня на- х. хождения искомой площади требуется просуммировать на отрезке от xi до xi все произведения co(x)dx. Очевидно, что если случайная величина задана в конечной обла- 6 ста значений от а до Ь, то jco(x)dx = 1, т.е. вся площадь под кривой а распределения равна 1. Если случайная величина может принимать +00 значения от - оо до +оо, то соответственно получим j®(x)dx = L -оо Поскольку рассматриваемый интеграл характеризует вероятность того, что случайная величина примет значения в пределах некоторого заданного интервала, он получил название интеграла вероятности и в дальнейшем будем обозначать его ф(х). Таким образом <р(х} ,х2) = <р(х2) - <р(хх) = jco(x)<bc. C.6) xi Закон распределения непрерывных случайных величин может быть описан в форме зависимости ю или <р от х. Подчеркивая различия между дискретными и непрерывными случайными величинами, отметим, что часто непрерывные случайные величины приходится условно рассматривать как дискретные, а в некоторых случаях пренебрегать дискретностью величин и привлекать для описания их зяконов распределения методы, разработанные для непрерывных величин. 3.7. КОНСТАНТЫ И ПАРАМЕТРЫ РАСПРЕДЕЛЕНИЯ Случайные величины являются переменными. Однако их можно охарактеризовать некоторыми постоянными величинами, константами. В подавляющем большинстве случаев исследователи ставят опыты в целях изучения этих констант, нахождения среди наблюдаемой вариации общего, постоянного. Нередко любые константы, характеризующие случайную величину, называют параметрами. Столь широкое толкование термина "параметр" нельзя признать оправданным. В дальнейшем под параметрами будем 57
noiiniirih .тишь те константы, которые входят в выражение закона расшм;д-леппя сл\чайной величины, число же параметров распределения зявисн': от закона распределения. Среди кожч-шт чаще всего рассматриваются такие, которые ха- рактеритлот средний уровень случайной величины ("средний" - в широкм смысле слова). К этой группе могут быть отнесены мода и медиана, (это так называемые непараметрические средниеI, а также среднее арифметическое, среднее геометрическое, среднее квадрати- ческое л др. Вторая группа констант отражает степень вариабельности, изменчивости случайной величины. Сюда относятся дисперсия, стандартное отклонение, коэффициент вариации и некоторые другие показатели. Можно назвать и ряд других констант, с которыми приходится иметь дело в связи со статистическим анализом экспериментальных данных, таких как коэффициенты асимметрии и эксцесса, коэффициент корреляции и другие, но с ними более подробно мы познакомимся несколько позже. Следует отметить, что константы вообще и параметры в частности относятся к генеральным совокупностям и не могут быть найдены по выборочным данным. Константы - это генеральные показатели. Именно о таких показателях и будет идти речь в данной главе. 3.8..МОДА Одной из констант, характеризующих средний уровень случайной величины, является мода Мо. Мода - это наиболее часто встречающееся значение случайной величины, имеющее большую вероятность осуществления, чем другие значения. Для признаков, измеренных на именной или порядковой шкале, мода представляет собой тот класс, которому соответствует наибольшая вероятность. Так, модой является кварц, если в генеральной совокупности зерен некоторой фракции гранулометрического состава на кварц приходится вероятность Р = 0,71, а следовательно, любому другому минералу может соответствовать заведомо меньшая вероятность. Для дискретных количественных признаков модой служит то значение случайной величины, которому соответствует наибольшая вероятность. Рассмотрим, например, ряд распределения вероятностей Pj по числу Xj импульсов ос-излучения за одну минуту: ' Заметим, что отнесение моды и медианы к средним не является общепринятым. S
Pj О 1 2 0,333 0,366 0,201 3 4 5 6 0,074 0,020 0,005 05001 Здесь модой является Mo = 1 импульс/мин. Для непрерывных случайных величин мода представляет собой то значение, которому соответствует наибольшая плотность вероятности, т.е. наибольшая ордината на кривой распределения. Иными словами, модальному значению непрерывной случайной величины соответствует вершина кривой распределения1. Так, на кривой распределения содержания гумуса (рис. 3,2) ее вершине соответствует содержание гумуса, равное 4,12%, которое и является модой. Мода как показатель среднего значения признака используется сравнительно редко, однако в ряде случаев указание модальной величины оказывается весьма полезным. Например, указание модального возраста растений, при котором они более всего отзывчивы на то или иное воздействие (внесение подкормок, рыхление, поливы), позволяет более разумно подходить к планированию различных мероприятий, чем на основе среднего арифметического возраста, который может не совпадать с модальным. В ряде случаев модальная величина содержания элементов питания в почве может сказать гораздо больше, нежели среднее арифметическое содержание этих элементов. Так, на слабоокультурен- ных почвах при неравномерном внесении удобрений в сравнительно небольшом числе отобранных в поле образцов может обнаруживаться большая концентрация элементов питания, что сместит среднее арифметическое содержание этих элементов для изучаемого объекта (поля, опытного участка) в сторону относительно больших концентраций. В то же время модальная величина содержания этих элементов будет характеризовать наиболее распространенные, фоновые концентрации, которые могут быть очень невелики как по абсолютным значениям, так и сравнительно с соответствующими средними арифметическими. Знание модальных величин содержания элементов питания может 0,0 1,0 2,0 3,0 4,0 5,0 6,0 .V Рис.3.2. Кривая распределения содержания гумуса с Мо = 4,12% 1 Заметим, что существуют распределения, для которых нельзя указать моду. 59
способствовать более разумному планированию мероприятий по удобрению почв. Кривые распределения изучаемых случайных величин нередко могут иметь две вершины и более. Аналогичная картина может наблюдаться и в распределении вероятностей дискретных признаков. В таких случаях принято говорить о двумодальности или позшмодальности. При этом моды могут быть (и чаще всего бывают) неравноценными, т.е. соответствующие этим модам вероятности (плот! ости вероятностей) не являются равными. Однако сам по себе факт полимодальности представляет интерес тт >б! тчно свидетельствует о том, что в рамках заданных общих условий проведения испытаний имеются какие-то второстепенные факторы, обусловливающие предпочтительное появление значений случайной величины в нескольких разных интервалах. Выявление причин полимодальности обычно помогает глубже проникнуть в суть изучаемого явления. Из сказанного видно, что мода может быть указана при измерениях, выполненных на любой шкале, причем если изучаемый признак является количественным, тс мода выражается именованным числом, имеющим размерность соответствующей случайной величины. 3.9. МЕДИАНА Для случайных величин, значения которых могут быть ранжированы, в качестве среднего иногда рассматривают медиану. Так как значения, большие и меньшие медианы, равновероятны, то на графике распределения плотности вероятности медиане соответствует ордината, которая делит площадь под кривой распределения на две равные части. Например, на графике распределения плотности вероятности для плотности почвы (рис, 3.3) Med= 1,21 г/см^. Для дискретных признаков более правильно утверждение, что в одной половине ранжированного ряда все значения случайных величин должны быть менг.ше или равны медиане, а в другой - больше или равны ей. Появление слов "или равны" связано с тем, что в ранжированной последовательности значений дискретной случайной величины середина такой 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 * Рис.3.3. Кривая распределения плотло- сти почвы с Med = 1,21 г/см3 60
последовательности обычно приходится на дискретное значение, которое повторяется многократно. В примере из § 3.8, где приведено распределение импульсов ot-излучения, середина ранжированного ряда приходится на 1 импульс/мин. При этом по одну сторон} от медианы находятся значения 0 (на них приходится 0,333 от общей длины ранжированной последовательности) и некоторая часть значений 1 (на них приходится 0,167 длины последовательности, так что 0,333 + 0,167 = 0,5, а это означает серединное положение медианы). По другую сторону от медианы находятся значения: 6, 5, 4, 3, 2 (в сумме составляющие 0,301 общей длины последовательности) и остальная часть значений 1 (на нее приходится 0,199 общей длины последовательности, причем в сумме 0,199 + 0,301 = 0,5). Таким образом, здесь Med = 1 импульс/мин. Для количественных признаков медиана - величина именованная, имеющая размерность, соответствующую случайной величине. ЗЛО. СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ Среди констант, характеризующих средний уровень случайной величины, особое место занимает среднее арифметическое (или просто среднее), обычно являющееся одним их параметров распределения. Как всякая константа распределения, среднее характеризует генеральную совокупность значений случайной величины, что нередко подчеркивается употреблением названия генеральное среднее (или теоретическое среднее), если имеется опасение спутать среднее с его выборочной оценкой, о которой речь пойдет ниже. Если в генеральной совокупности отдельные значения могут повторяться, то при вычислении среднего эти значения берут соответствующее число раз (юти пропорционально их встречаемости, их математическому Еесу, их вероятности), и в этом смысле среднее является средним взвешенным. Следовательно, среднее арифметическое есть не что иное, как математическое ожидание соответствующей случайной величины. Обозначая среднее случайной величины X как щ. (индекс у у, можно опускать, если без пояснений понятно, о какой случайной величине идет речь), получим ц = ВД C.7) Для дискретной случайной величины, принимающей т различных значений с вероятностями Р, (/ = l,2,...,w), среднее можно вычислить по формуле * = %PJXJ> C.8) 61
где вероятности /у, выраженные б долях единицы, представляют собой математические веса^-х значений случайной величины X, Так, если в объеме 100 см3 данного горизонта почвы (или объекта исследования с заданными просгранственными границами) число ортштейнов крупнее 3 мм может быть равным 0, 1.2,3 или 4 соответственно с вероятностями 0,750, 0,200, 0,040, 0,008 и 0,002, то я>ед~ нее число ортштейнов в объегле 100 см3 составит ц = 0,750 • 0 + 0,200 . 1 + 0,040 • 2 + 0,008 • 3 + 0,002 - 4 ~ 0,312. Для непрерывной случайной величины X, принимающей значения в промежутке от а до Ь (а < Ъ), среднее находится с помощью ин- хеширования: ь ь \х = j xdP = J xa>{x)dxt C.9) a a где co(x) - плотность вероятности случайней величины X, Очевидно, что для вычисления среднего ао вышеприведенным формулам нужно знать закон распределения случайной величины. Среднее арифметическое, определяемое всеми значениями случайной величины и их вероятностями, является как бы центром тяжести статистической совокупности, и поэтому среднее нередко называют центром распределения, 3.11. СВОЙСТВА СРЕДНЕГО Среднее арифметическое является размерной величиной и имеег ту же размерность, что и характеризуемая им случайная величина В то же время среднее есть абстрактная величина, что наиболее ярко проявляется в тех случаях, когда значение, численно равное среднему, реально не может существовать. Так, лишено конкретного смысла среднее число колоний на чашку Петри, равное 3,7, так как число колоний реально не может быть дробным. Для признаков, измеряемых по шкале отношений, среднее арифметическое всегда положительно, чего нельзя сказать о средних для признаков, измеренных на интервальной шкале. Например, среднее содержание кремнекислоты в почве всегда положительно, но окислительно-восстановительный потенциал в среднем может быть и отрицательной величиной. Поскольку среднее выступает как центр распределения, разность между отдельными значениями случайной величины X и соответствующим средним |д, (среднее всегда является вычитаемым) хг- ц на- зываегся центральным отклонением. Очевидно, что центральные отклонения могут быть как положительными, так и отрицательными, сохраняя размерность соответствующей случайной величины. 62
Заметим, что генеральной совокупности случайной величины ставится в соответствие генеральная совокупность центральных отклонений, представляющих собой значения некоторой другой случайной величины. Учитывая свойства математических ожиданий (см § 1.9), легко убедиться, что среднее в генеральной совокупности центральных отклонений равно нулю (как и сумма центральных отклонений в статистической совокупности): Е(х - у) ~ Е(х) -ц = у* - у ~ 0, т.е. для дискретных величин: для непрерывных случайных величин, принимающих значения в интервале от а до Ь\ ь |(х-ц)о(х)Л: = 0. C.11) а Так как среднее есть математическое ожидание, то используя свойства математического ожидания, можно установить, что: если у = х 4- а, то у.у = ух + а; C Л 2) если у ~ ах, то ц>; = аах; C.13) если v - л* 4 z, то ц^ = цх v ц~. C.14) Здесь а - постоянная величина, а х, у, z - значения случайных вели чин X, Y, Z. Если случайные величины X и Z взаимно независимы' и у = xz, то Иг = Rv|i2 . C.15) Если у не является линейной функцией случайной величины А\ то среднее цу не может быть выражено через uv. Например, если >> = ах , то уу ? аух2. 3.12. СРЕДНЕЕ И СИСТЕМАТИЧЕСКИЕ ПОГРЕШНОСТИ АНАЛИЗА Утверждая, что среднее часто есть то, ради познания чего осуществляется все исследование, мы немного неточны. Правильнее утверждать, что за невозможностью (обычно технической) непосредственного познания истинного значения изучаемой постоянной мы вынуждены довольствоваться с учетом особенностей на ших средств познания изучением некоторой другой постоянной величины, которая является средним в некоторой генеральной совокупности. Выбирая в качестве модели явления случайную величину, ■Требоа'и'/ге ;*■: зависимости достаточно, но но является необходимым. 63
мы отнюдь не всегда можем быть уверены, что среднее случайной величины есть именно то, что мы хотели бы познать. Действительно, определяя содержание гумуса в некотором образце почвы, мы в общем преследуем цель определить истинное содержание гумуса, но реально имеем дело с варьирующими результатами повторных измерений, осуществляемых по той или иной методике. Прибегая к модели случайной величины, мы вынуждены считать целью изучение среднего этой величины. Мы не можем поставить другую цель, так как оценка содержания гумуса возможна лишь при использовании некоторого всегда конкретного способа анализа. Однако совсем не исключено, что среднее в генеральной совокупности результатов анализов не равно истинному содержанию гумуса, т.е. эти две постоянные не равны между собой. В большинстве случаев мы лишены возможности дать определенный ответ на вопрос: равны или нет среднее значение случайной величины, с которой мы реально имеем дело, и истинное значение изучаемого явления. Вместе с тем в ряде случаев этот вопрос можно ставить и успешно решать. Чаще всего постановка подобных задач имеет место в аналитической практике, когда требуется оценить пригодность того или иного метода анализа. Суть подобных исследований сводится к установлению правильности анализа, т.е. к определению наличия и величины различия между истинной величиной а изучаемого признака (например, содержанием какого-либо компонента в массе почвы) и генеральным средним результатов анализов этого признака. Разность ц - а является систематической погрешностью анализа. Если а = ц, то метод считается правильным. Если же а * ц, то метод имеет систематическую погрешность, которую можно учитывать, внося в результаты анализа поправку: Цпопр. = ц - я. Очевидно, проверка правильности возможна при условии, что истинное значение признака в точности известно. Иногда это может быть обеспечено строгими теоретическими расчетами, иногда - с помощью эталонов. Так, если в эталонном образце почвы истинное содержание S102 равно а = 83,521%, а при использовании желатинового метода валового анализа генеральное среднее результатов анализов есть |Л = 83,315%, то используемый метод не является правильным и применительно к исследуемому эталону характеризуется систематической погрешностью 83,315 -83,521 = -0,206%. В данном случае вопрос о правильности метода решается в чисто теоретическом плане, и нас не интересует величина систематической ошибки, а лишь ее наличие. 64
Если имеется ошибка (даже ничтожно малая), то метод нельзя считать правильным, если нет ошибки, то метод правилен. В реальной практике допустимо пренебречь небольшими различиями, считая метод практически правильным, если цпопр. хотя и не равно нулю, но достаточно мало. Однако это уже относится к вопросам практической оценки правильности метода, которые будут рассмотрены ниже. ЗЛЗ. ДИСПЕРСИЯ В качестве параметра, характеризующего вариацию значений случайной величины, наиболее часто используется дисперсия. Дисперсия величины X в статистике нередко обозначается D(x) или V&r(x)i а чаще всего а2. Если следует уточнить, какую случайную величину характеризует дисперсия, ее обозначение может содержать соответствующий индекс, например, с2х. Математически дисперсия есть среднее квадратов отклонений от среднего, т.е. среднее квадратов центральных отклонений. Иначе говоря, дисперсия случайной величины X есть математическое ожидание квадрата отклонения случайной величины от своего среднего: а2 = £[(*-цJ]. C.16) Дисперсия не может быть отрицательной. Дисперсия постоянная именованная величина, имеющая размерность, равную квадрату размерности соответствующей случайной величины. Из выражения C.16), учитывая свойства математического ожидания (см. § 1.9), следует, что дисперсия случайной величины равна разности между математическим ожиданием квадрата случайной величины и квадратом ее математического ожидания: а* = Е(х*) - 2\лЕ(х) + ц2 = Е(Х2) . ц2 = Е(Х2) . [Е(х)у. C.17) Очевидно, что численное значение дасперсии будет тем больше, чем большие значения могут иметь центральные отклонения, т.е. чем значительней колеблются отдельные значения случайной величины около среднего. Наоборот, чем меньше интервал возможных колебаний случайной величины, тем меньше будет дисперсия. Дисперсия постоянной величины равна нулю: D(a) = 0. Для дискретных случайных величин дисперсия представляет собой сумму произведений квадратов отклонений у-го значения величины X от среднего ц на вероятность Pj (в долях единицы) соответствующего значения: a2=I,Pj(xj-\iJ. C.18) 5 £.А.Дмитриев 65
Для непрерывных случайных величин, принимающих значение в интервале от а до Ъ (а <Ь), дисперсия представляет собой интеграл: о2 =j(x-vJ<d(x)dx1 C.19) а где со (х) - плотность вероятности случайной величины. Квадратный корень из дисперсии в статистике получил название среднего квадратического отклонения. Не менее часто это отклонение называют стандартным (или просто стандартом). Почти общепринятым является обозначение стандартного отклонения буквой сг: о = ^D(x) (в силу чего стандарт иногда называют сигмой). Стандартное отклонение есть постоянная величина, условно считающаяся положительной, поэтому перед ней ставить знаки плюс-минус недопустимо. Среднее квадратическое отклонение - величина именованная, имеющая размерность случайной величины. Чаще всего именно стандарт, а не дисперсия, используется в прикладных исследованиях в качестве меры изменчивости, вариабельности изучаемой случайной величины. Используя свойства математического ожидания из § 1.9, можно показать, что дисперсия не изменится, если все значения случайной величины X уменьшить или увеличить на постоянную величину а, т.е. ес- ли у = jc + а (или у = х - а), то о2у-^2х и Gy~ox. C.20) Если все значения случайной величины X умножить на постоянное число а, то дисперсия увеличится в а2 раз, а стандарт - в \а\ раз, т.е. если у = ах, то а2у = а2ох и Оу = \а\ох. C.21) Для независимых случайных величин дисперсия их суммы, как и дисперсия разности, равна сумме дисперсий случайных величин, т.е. если у = х + г или у = х - г, то при условии независимости xhz o2y--:o2x+o2z. C.22) Заметим, что это утверждение справедливо только для дисперсий, и здесь стандарт функций равен не сумме стандартов случайных величин, а квадратному корню из суммы дисперсий: Vy = Vax + °z- C.23) 66
3.14. СТАНДАРТИЗОВАННОЕ ОТКЛОНЕНИЕ, КОЭФФИЦИЕНТ ВАРИАЦИИ Среднее квадратическое отклонение, характеризуя степень неодинаковости значений случайной величины, часто выступает в качестве меры вариабельности, в качестге единицы измерения отклонений отдельных значений случайной величины от среднего и от других значений. Как уже было отмечено, разность между /-м значением случайной величины Хи ее средним ц есть центральное отклонение, характеризующее отличие от среднего в единицах размерности случайной величины. Центральное отклонение, выраженное числом стандартных отклонений, получило название стандартизованного (нормированного) отклонения. Обозначая стандартизованное отклонение щ для /-го значения случайной величины X получим и/^^Ji. C.24) а Так как для данной случайной величины ц и а постоянные, то и есть линейная функция от X, а следовательно, вид закона распределения при переходе от случайной величины X к величине U не меняется. При этом каждому значению х{ соответствует вполне определенное и единственное значение щ. В отличие от центрального отклонения стандартизованное отклонение безразмерно, что оказывается очень удобным. Как и центральные отклонения, стандартизованные отклонения имеют среднее, равное нулю: Е(и) = ^ = 0. Однако в отличие от центральных отклонений эти отклонения имеют дисперсию (и стандарт соответственно) равную единице: о2и-\. В подобных случаях говорят, что случайная величина имеет параметры ноль и единица (ц =" 0; а2 = 1). Именно такой случайной величиной и является стандартизованное отклонение. Отмеченные особенности стандартизованных отклонений имеют огромное значение, так как позволяют законы распределения одного вида, имеющие разные средние и дисперсии, свести к одному закону с параметрами ноль и единица, и наоборот, от одного этого закона перейти к любому конкретному с параметрами \ьх и с2х, если заменить случайную величину U случайной величиной X согласно выражению, полученному из формулы C.24): х = цх + wax, C.25) 67
Как мера варьирования, стандартное отклонение не всегда оказывается удобным, в частности при необходимости сравнения вариабельности разноразмерных случайных величин. В связи с этим широкое распространение получила безразмерная величина отношения стандарта к среднему, обычно выраженная в процентах, получившая название коэффициента вариации: К =-100%. C.26) Ц Как мера относительного варьирования, эта константа представляет интерес и в тех случаях, когда а увеличивается пропорционально ц так, что V сравнительно мало зависит от среднего. Заметим, что коэффициент вариации допустимо использовать для характеристики вариабельности лишь тех случайных величин, которые принципиально не могут приобретать отрицательных значений, например, для измерений на интервальной шкале (отметки рельефа местности, ОВП, температура и др.). 3.15. МОМЕНТЫ В качестве констант, характеризующих случайную величину, можно использовать математические ожидания целых степеней случайной величины. Такие константы общег о вида Ш = Е(*) C.27) получили название начальных моментов /г-й степени. Очевидно, что среднее арифметическое относится к такого рода моментам для случая Л = 1, т.е. является начальным моментом первой степени: \ц\) = Е(х) = ц. При к = 2, т.е. когда все значения х возводятся в квадрат, начальный момент представляет собой среднее значение квадрата случайной величины: щг> = Е(х2). Аналогично можно найти начальные моменты третьего, четвертого и других более высоких порядков, хотя эти последние обычно практического интереса уже не представляют. В А>ю степень можно возводить не сами значения случайной величины Ху а их центральные отклонения х - ц. Математическое ожидание центральных отклонений к-й степени называется центральным о моментом к-й степени. Обозначая его ц/^, запишем li{k)=El(x-uk}. C.28) Центральный момент первой степени равен нулю, поскольку равна нулю сумма отклонений от среднего (формулы (ЗЛО) и C.11)). 68
Центральный момент второй степени, как это следует из сопоставления формул C.16) и C.27) при к = 2, представляет собой дисперсию: ^B)=а2. C.29) Из центральных моментов наряду с дисперсией обычно заслуживают внимания также моменты третьей и четвертой степеней о ° •iC) и цD). Между начальным и центральным моментами существует определенная связь. В частном случае при к = 2 она находит отражение в формуле C.17). Эти зависимости при к от 1 до 4 выглядят следующим образом: о H(i)=0; ° _ 2 _ 2 ^B) - ^B) - НЧ1) ~ ° > C.30) ^C) = ИC)-ЗЦB)-ЦA)+2м-о); э 2 4 ^D) = ИD) -4К'3) -ЦA) +6ЦB) -И<1) -ЗЦA). Как начальные, так и центральные моменты имеют размерность к-й степени соответствующей случайной величины. Моменты могут представлять интерес не только сами по себе как константы распределения, но и использоваться для вычисления некоторых других показателей. Наиболее важными из них являются коэффициенты асимметрии и эксцесса. Коэффициент асимметрии, как показывает его название, характеризует степень асимметричности распределения относительно среднего. Математически он представляет собой отношение среднего куба центральных отклонений к кубу стандартного отклонения: о ° а= **?&.. C.31) /о <j Коэффициент асимметрии - величина безразмерная, могущая принимать значения от -оо до +<». В случае симметричных распределений ц(з> = 0 и а = 0. Для распределений, имеющих крутую левую ветвь и полого падающую правую ветвь, а > 0 и асимметрия называется положительной. Если сравнительно с правой ветвью распределения левая более поло? а, то а < 0 и асимметрия отрицательна. Такая асимметрия встречается реже. Коэффициент эксцесса характеризует выпуклость или "придавленность" кривой распределения. В его основе лежит отношение <* 69
среднего значения четвертой степени центральных отклонений (т.е. центрального момента четвертой степени) к четвертой степени стандарта, т.е. к квадрату центрального момента второй степени), которое, будучи уменьшенным на 3, и дает коэффициент эксцесса: t.ha..}.ha..3. C.32) а МB) Коэффициент эксцесса также есть величина безразмерная, которая может принимать значения, как меньшие нуля (эксцесс отрицателен, кривая распределения "придавлена" или даже двувершинна), так и большие нуля (эксцесс положителен). Причины, по которым для получения коэффициента эксцесса, упомянутое выше отношение следует уменьшать на 3, будут установлены ниже при рассмотрении закона нормального распределения. Не существует общепринятых градаций того, какие значения а и б считать большими, а какие малыми. Однако распределения при JocJ < 0,5 можно условно отнести к слабоасимметричным, при 0,5 < |а| й 1,0 -к среднеасимметричным, а при |а| > 1,0 - к сильноасимметричным. Положительную эксцессивность допустимо рассматривать как слабую при е £ 1, как среднюю при 1 < е <> 5 и как сильную при б > 5. 3.16. СРЕДНЕЕ И ДИСПЕРСИЯ В СОВОКУПНОСТИ АЛЬТЕРНАТИВНЫХ ПРИЗНАКОВ Характеризуя состояние пахотных земель в области, нередко говорят, например, что в среднем половина земель требует известкования. Ясно, что "в среднем" не означает, что в каждом хозяйстве потребность в известковании одинакова. Если в лесном биогеоценозе на ель приходится в среднем 75%, то оправдано было бы полагать, что в любой выборке три четверти деревьев окажутся елью. Очевидно, что и половина, и 75% (три четверти) действительно имеют смысл какого-то среднего. Этим средним является доля. В генеральной совокупности альтернативных признаков доля представляет собой отношение числа событий, обладающих некоторым признаком, к общему числу событий и, будучи по смыслу вероятностью соответствующего события, обозначается, как и вероятность, через Р. Доля альтернативных событий (отсутствие признака) обозначается Q. Следовательно, Q есть вероятность отсутствия признака. Доли Р и Q могут быть выражены либо в долях единицы (откуда они и получили свое название) и тогда Р + Q = 1, либо в процентах, и тогда их сумма равна 100%. 70
То, что доля относится к категории средних, можно показать с помощью формулы C.8), учитывая, что единичное испытание есть оценка принадлежности элемента опробований к классу, обладающему каким-то признаком (х\ = 1), или к классу, в котором этот признак отсутствует {хг = 0). Если первому классу соответствует вероятность Р, а второму -вероятность Q, то ц = Р1+2-0 = Р. C.33) Это значение показывает среднее число благоприятных событий (с наличием признака) на одно испытание, когда элементом опробования является единичный дискретный компонент физической совокупности (например, агрегат некоторой крупности, характеризуемый водопрочностью), или когда элемент опробования принадлежит континуальному объекту (например, некоторому горизонту, и характеризуется наличием в образце белоглазки). Согласно формуле C.18), учитывая, что ц = Р, l-P = g и Р + Q = 1, найдем выражение для дисперсии: а2 = р£=РA _/>). C.34) Таким образом, в совокупности альтернативных признаков среднее и дисперсия определяются одной величиной доли Р. В силу того, что когда Р и Q выражены в долях единицы, сумма Р + Q равна единице, дисперсия в совокупности альтернативных признаков имеет важную особенность: она не может быть больше, чем 0,25 и достигает максимума при условии равенства долей, т.е. при Р = Q = 0,5. Соответственно величина стандартного отклонения в подобных совокупностях не может быть больше, чем 0,5. Как уменьшение, так и увеличение Р относительно значения Р = 0,5 приводит к уменьшению дисперсии и стандартного отклонения. Чтобы понять, в чем же проявляется максимальность стандартного отклонения при близости долей к значению 0,5, рассмотрим пример. Допустим, что имеется совокупность агрегатов некоторого размера. Каждый агрегат может быть либо водопрочным, либо неводопрочным, причем доля водопрочных агрегатов равна Р (заметим, что это число, будучи долей шансов агрегату оказаться водопрочным, есть вероятность). В чем же будет проявляться неоднородность, характеристикой которой является стандартное отклонение? Очевидно, например, в том, насколько различными будут получаться результаты испытаний на водопрочность в последовательности случайно отбираемых на анализ агрегатов. Если в такой последовательности будут перемежаться как водопрочные, так и неводопрочные агрегаты, то неоднородность будет большой. Существенно меньшей неоднородность результатов испытаний окажется в том случае, когда длинные последовательности из водопрочных 71
агрегатов изредка будут прерываться попаданием неводопрочных, или наоборот. Однако эти последние случаи соответствуют либо большим значениям доли Р, либо, наоборот, малым значением; а наибольшая пестрота в результатах обнаружится при близости долей Р и Q к 0,5. Именно это и отражает зависимость стандартного отклонения от величины Р: если при Р = 0,5 имеем о = С,5 и при Р = 0,3 (или Р = 0,7) а = 0,46, то при Р = 0,1 (или Р = 0,9), получим а = 0,30, а при Р = 0,01 (или Р = 0,99) а = 0,10. Тот факт, что стандартное отклонение в совокупности альтернативных признаков ограничено сверху, возможный максимум этой величины известен, а значение стандартного отклонения сравнительно мало меняется в достаточно широком интервале значений доли (это видно из приведенных выше данных), позволяет достаточно надежно планировать число испытаний (объем выборок) при определении долей (см. гл. 8). Заметим, что если испытания на наличие того или иного события проводить не на единичных компонентах дискретной совокупности, а на элементах опробования, содержащих п дискретных компонентов, и результаты испытаний выражать числом х случаев наличия интересующего нас признака (очевидно, при этом х может в единичных испытаниях принимать значения 0, 1,2, ..., л), то и среднее, и дисперсия окажутся в п раз больше тех, которые получаются по формулам C.33) и C.34) при п = 1 (см. ниже § 4.4). Вопросы для самоконтроля. 1. Что такое статистическая устойчивость? 2. Что такое вероятность и мерой чего она является? 3. Какие события называются невозможными и какие достоверными? 4. Могут ли независимые события быть несовместимыми? 5. Какие события называются пересекающимися? 6. Что такое кривая распределения и что она показывает? 7. Можно ли в принципе указать вероятность того, что содержание гумуса в почве равно 2,63%, и если можно, то что эта вероятность показывает? 8. Что такое плотность вероятности и интеграл вероятности? 9. Какими константами можно охарактеризовать средний уровень случайной величины? 10. Что следует из того, что для некоторой совокупности медиана Меньше среднего? 11. Что называется ожиданием случайной величины?
Глава 4 ЗАКОНЫ РАСПРЕДЕЛЕНИЯ 4.1. ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ Естествоиспытателям приходится иметь дело с бесчисленным множеством случайных величин, в чем-то отличных друг от друга и, следовательно, подчиняющихся в чем-то разным законам распределения. Однако среди этого множества законов распределений можно выделить небольшое число хорошо изученных законов, к которым с большим или меньшим приближением удается свести значительную часть реально встречающихся распределений. Среди таких законов наибольшую известность и значение, несомненно, имеет закон нормального распределения. Нормально распределенная величина - непрерывная переменная, которая может принимать значения от -оо до +оо. Подобное распределение обычно имеет место в тех случаях, когда варьирование признака в рамках общих условий, определяющих испытание, вызывается большим числом взаимно независимых факторов, доля участия каждого из которых в создании общей вариабельности признака очень невелика. При этом каждое из получаемых значений оказывается результатом случайного сочетания различных по величине и направлению воздействий на этот признак всей совокупности факторов, составляющих второстепенные, не контролируемые условия испытаний. Очевидно, что сигуации, в которых все факторы действуют на признак в одном направлении, увеличивая или уменьшая его значение, наименее вероятны, в силу чего наименьшие значения признака встречаются весьма редко. Гораздо более вероятным случаем является такой, когда одни факторы ведут к возрастанию значений переменной, другие же к их уменьшению, вследствие чего встречаемость значений признака, занимающих срединное положение в вариационном ряде, оказывается наибольшей. Получающийся в результате этого вид распределения столь часто встречается при исследовании различных явлений, что его первоначально принимали за норму распределения случайных величин, и потому это распределение и получило название нормального. В почвоведении нормальный закон обычно неплохо аппроксимирует распределения плотности почвы, общей порозности и влажности, содержания макроэлементов и гумуса, рН, мощности горизонтов, а также распределение ошибок многих анализов. 73
Математически закон нормального распределения можно выразить формулой Гаусса-Лапласа: cd(x) = —{—e^x'^^\ D.1) где со (х) - плотность вероятности нормального распределения слу чайной величины X, имеющей среднее у, и дисперсию а2, е = 2,718... - основание натуральных логарифмов и п = 3,14.... Закон нормального распределения содержит два параметра: среднее и дисперсию. В наиболее простом случае, когда величина X имеет параметры ц = 0 и а2 = 1 (обозначим такую величину через Z) формула D.1) примет вид: ^^ * -72 D.2) л/2я Как следует из приведенных формул, основные особенности нормального распределения связаны с тем, что показатель степени второго сомножителя отрицателен, а отклонение переменной от среднего возводится в квадрат. Максимальное значение плотности вероятности достигается при значениях переменной, равной среднему (х = |i при z = 0), а равным отклонениям от среднего в большую или меньшую сторону соответствуют одинаковые плотности вероятности. В связи с этим нормальное распределение симметрично относительно плотности вероятности, соответствующей среднему, в то же время являющемуся и модой, и медианой распределения. Иначе говоря, при нормальном распределении имеет место равенство ц == Mo = Med. Из симметричности нормального распределения еле- о дует, что центральный момент третьей степени ц/3\ = 0 и коэффициент асимметрии а = 0. Для нормального распределения центральный момент четвертой степени в три раза превышает квадрат дисперсии: \iu\ = 3 \х22 = За4. Поскольку нормальный закон распределения в некотором смысле считается эталонным, лежащим в основе обширного комплекса различных статистических методов и критериев, целесообразно в качестве характеризующих это распределение безразмерных констант взять "удобные", служащие некоторыми "точками отсчета". В силу этого за коэффициент эксцесса 8 взято отношение \хиу<з4, уменьшенное на 3 (см. формулу C.32)). При этом для нормального распределения 8 = 0. 74
Воспользовавшись формулой D.2), легко установить, что для зна- ^ений г равных, например, 0, 1, 2, 3 и 4, плотности вероятности соответственно равны (с точностью до 0,0001) 0,3989, 0,2420, 0,0540, 00044 и 0,0001, что является хорошей иллюстрацией быстроты уменьшения <ь(г) с ростом абсолютного значения z, в особенности если эту зависимость представить графически (см. рис. 4.1). График нормального распределения имеет вид одновершинной симметричной кривой, обе ветви которой уходят в бесконечность, асимптотически приближаясь к оси абсцисс. Заметим, что на кривой распределения точки перехода от выпуклости к вогнутости, симметрично расположенные относительно вершины, соответствуют значениям-1 и +1. Среди конкретных случайных величин X практически невозможно найти такую, у которой среднее и дисперсия в точности были бы равны соответственно нулю и единице. Тем не менее нормально распределенная величина Z с параметрами ноль и единица (Ц = 0, а2=1) заслуживает особого внимания, поскольку к распределению с такими параметрами можно свести любое нормальное распределение, если значения х заменить их стандартизованными отклонениями. Действительно, как мы уже отмечали, отклонения и имеют параметры щ, = 0 и аи2 = 1, а а так как и есть линейная функция от х, то вид закона распределения при замене х на и не меняется; если х была распределена нормально, то и и должна быть распределена по такому же закону с параметрами 0 и 1, т.е. как z. От распределения случайной величины с параметрами 0 и 1 легко перейти к распределению конкретной случайной величины с параметрами ц и а2; если распределения и и z одинаковы, то заменяя и на х~\х Ц*-3*г Ц*-2вгг |1*-аж Мж \Lx+°x Их**** 2,20 2ДО 3,56 4,24 4,92 5,60 6,28 Хг Рис.4.1. Кривая нормального распределения (случайные величины имеют параметры: г: ц2 = 0 и <т2 = 1; х: \х.х и <зх\ содержание гумуса хГ: ц = 4,24 и а = 0,68) z, где z = - а получим 75
х = ц + zo, D.3) откуда можно найти значения х, соогветствующие заданному значению г. так z = 0 отвечает значение х = }r, z = 1 - значение х = ц + а; г = —1,3 — значение х = ц- 1,3а и т.д. Предположим, что содержание гумуса в верхнем 20-сантиметровом слое выщелоченною тяжелосуглинистого чернозема подчиняется закону нормального распределения с параметрами ц = 4,24% и а = 0,68%. Тогда, согласно формуле D.3) z = 0 будет соответствовать значение х = 4,24% ; z= 1 - значение х = 4,92% ; z = 2 - значение х = 5,60% ; z = -1 - значение х = 3,56% и т.д., а графически распределение содержания гумуса можно представить уже известной нам кривой распределения (см. рис. 4.1), где на оси абсцисс отложена соответствующая шкала содержания гумуса (шкала хг). 4,2. ИНТЕГРАЛ ВЕРОЯТНОСТИ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ Учитывая симметрию кривой нормального распределения, можно заключить, что при этом распределении вероятности значений, превышающих среднее и меньших него, одинаковы и равны 0,5. Поскольку графически выражением вероятности служит площадь под кривой распределения, это проявляется в равенстве площадей под кривой справа и слева о г наибольшей ординаты, соответствующей значению ц. Вероятность того, что нормально распределенная случайная величина X с параметрами \i и а2 примет значение в интервале от xi до хг (xi < хг)> можно найти графически как долю площади под кривой распределения в соответствующем интервале значений х от общей площади под кривой распределения. Однако более точно это можно сделать, вычислив интеграл вероятности, который для нормального закона имеет вид ф[х1х2] = Ф(х2)-ф(х1) = -]= ]V<*-^2°2rfx. D.4) Предпочтительнее находить интеграл вероятности не вычислением по формуле D.4), а с помощью заранее составленных таблиц. Однако ясно, что табулировать интегралы вероятности для различных переменных с разными средними и дисперсиями совершенно нереально, да в этом и нет надобности, поскольку всегда имеется простая возможность от распределения конкретной величины X перейти к распределению величины Z с параметрами 0 и 1, и наоборот. Существует несколько подходов к табулированию интегралов вероятности нормального распределения. Наиболее часто в таблицу 76
помещают значение <p(z) для интервалов значений переменной от О до г или от -z до z. В табл.П Приложения приведены интегралы вероятности нормального распределения в интервале от -оо до z: F(z) = -j= je-z/2dz \2п -оо D.5) Функция распределения F(z), как следует из формулы D.5), пока- зьрает долю, которая приходится на значения переменных, меньших z, от общего объема совокупности. Так, из табл.П можно установить, что значениям z < -2,00 соответствует F(z) = 0,02275, т.е. при нормальном распределении с параметрами ц = 0 и о2 = 1 вероятность встретить значение, меньше -2,00, равна 0,02275, или иначе говоря, на такие значения приходится 2,275% от всех возможных значений z. Из той же таблицы следует, что P(z <-0,69у) = 0,24510, т.е. примерно четверть всех значений не превосходит -0,69, а для Р = 99,010% значения z не будут больше, чем 2,33. Так как Р(-оо < z < +оо) = 1, то, зная F(zt) = P(z < z\), не 1рудно найти вероятность P(z\ <z): P(z\<z) = \-F(z\). D.6) Пусть, например, z\ =1,30; тогда F(z\) = 0,90320, т.е. P(z < 1,30) = 0,90320, откуда P(z > 1,30) = 1 - F(zi) = 1-0,90320 = = 0,09680 и, следовательно, значения, большие чем z = 1,30 в нормально распределенной совокупности встречаются в 9,680% случаев. Зная функцию распределения для значений z\ и zi (zi < Z2), легко найти вероятность того, что случайная величина примет значение в интервале от z\ до zi\ P(zx <z<z2)= F(z2) -F(z\). D.7) Так, для z\ = -1,75 и zi = 0,38 значения F(z) соответственно равны 0,04006 и 0,64803; поэтому вероятность того, что случайно полученное значение z будет находиться в интервале от -1,75 до 0,38, равна 0,64803 -0,04006 = 0,60797. В этом случае искомая вероятность графически представляет собой разность между площадями под кривой распределения, ограниченной справа ординатами, соответствующими значениям z\ и zi (рис.4.2). -3-2 -1 0 1 1 3 Z Рис.4.2. Графическое выражение вероятности P(z\<z< zi) как разности интегралов F(zi) -F(z{) (площади, соответствующие F(z) заштрихованы вертикально для z\ = -1,75 и горизонтально ДЛЯ 22 = 0,38) 77
Если z\ и а имеют одинаковую абсолютную величину и отличаются только знаками (z\ < zi, \z\\ = |Z2|), то в силу симметрии нормального распределения имеем F(zi) = 1 -F(z2) = P(z < zi) = P(z > z2), а вероятность того, что случайная величина примет значение в интервале от z\ до Z2, составит P(zx < z < zi) = F(zi) -F(zx) = 1 - 2F(zi). D.8) Найдем, например, вероятность того, что z примет значение от z\ = -2,00 до zi = 2,00. Учитьгеая, что F(z\) = 0,02275 и F(zi) = 0,97725, находим F(-2,00 <z <2,00) = 0,97725 - 0602275 = = 0,95450. Тот же результат получим, используя формулу D.8): Р(-2,00 < z < 2,00) = 1 - 2 • 0,02275 = 0,95450. Интервал, ограниченный значениями, равноотстоящими по обе стороны от среднего, при нормальном распределении соответствует середине ряда распределения, т.е. наиболее часто встречающимся значениям переменной1. При этом отклонения в большую или меньшую сторону от указанного интервала равновероятны. Все это обусловливает особый интерес к интервалам значений от -z до z. Можно показать, что значения нормально рраспределенной величины при Р = 0,50 заключены в пределах от -0,674 до 0,674. Вероятности 0,90 соответствует интервал от -1,64 до 1,64, а 95% объема совокупности не выходит за пределы значений z = -1,96 и z = 1,96. Вероятностям 0,99 и 0,999 соответствуют интервалы, ограниченные значениями z = ±2,58 и z = ±3,29. Приведенные данные наглядно показывают, как с увеличением абсолютной величины z растет вероятность, соответствующая выделяемому интервалу значений. Из них также видно, что при нормальном распределении большая часть значений переменной не слишком сильно отклоняется от среднего (если отклонения рассматриваются как стандартные). Учитывая, что для нормально распределенной величины X с па раметрами ц и а2 нормированные отклонения распределены как величина Z, можно найти не только вероятность значений в заданном интервале от х\ до хг, но и интервал значений х\ < х < Х2, соответствующий заданной вероятности. В первом случае для значений х 'Заметим, что среди значений х\ и хг чаще встречается jci, если отношение вероятности попадания в малую окрестность х\ к вероятности попадания в малую окрестность хг больше единицы. Таким образом, представления о наиболее часто встречающихся значениях переменной основываются не на вероятностях, а на отношениях вероятностей (можно пользоваться отношением плотностей вероятностей). 78
одят нормированные отклонения м, которые, будучи нормально ределенными, представляют собой величину z, а затем с по- ью F(z) определяют искомые вероятности; во втором случае для *ой вероятности Р по таблице отыскивают соответствующие «дочения ±2 и по формуле D.3) находят искомые значения лл и Х7. Пусть, например, требуется найти вероятность того, что в выщелоченном черноземе содержание гумуса не превысит х = 3,50%, если и = 4,24%, о = 0,68%, а распределение нормально. Тогда, поскольку ySz= 3>50~4'24 =-1,09, получим Р(х< 3,50) =P(z< ~\,09) = 0,68 = 0,13786, т.е. содержание гумуса менее 3,50% в этих черноземах встречается в 13,786% случаев. С вероятностью Р = 0,95, которой соответствуют z = ±1,96, содержание гумуса в выщелоченном черноземе в силу * формулы D.3) заключено в - интервале от *, = 4,24-1,96-0,68 = 2,91% до х2 = 4,24 + 1,96 • 0,68 = 5,57%. Очевидно, вне полученного интервала содержание гумуса встречается в 5% всех возможных случаев, причем в 2,5% случаев содержание гумуса в этих почвах ниже 2,91% и столь же часто оно превышает 5,57%. 4.3. ЛОГНОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Если закону нормального распределения подчиняется не сама случайная величина X, а ее логарифм / = logpc (a - основание логарифма), то величина X называется логарифмически нормально (лог- нормально) распределенной, Логнормальный закон описывается обычным уравнением Гаусса-Лапласа: •с—' .тт. <■*■» XG^lll где Ц/ и а/2 - параметры нормально распределенной величины L, т.е. Ц/ = E(l) = E(\ogax) - средний логарифм, а а/2 = Е[{1 - ju./J] - средний квадрат отклонения логарифма значений от среднего логарифма (дисперсия ряда логарифмов). При логнормальном законе распределения величина X может принимать значения от 0 до +<х>. Заметим, что антилогарифм величины ц,, т.е. gx~ яМ/ называется средним геометрическим величины X, которое отличается от математического ожидания (среднего арифметического) \хх = Е(х) случайной величины X, причем gx < \ix. Соответственно антилогарифм величины а/2 не равен дисперсии ах2 величины X. Связь между ц, и цх и между а/2 и ах2 можно выразить соотношениями 79
Ьц,+—- И \ix=e cl=e2b»i+b2°>(eb4-l), где b = logae. Если / - натуральный логарифм от х (/ = hut), то и al=e2»'+°>(e°- -1). D.10) D.11) D.12) D.13) Так как при нормальном распределении среднее и медиана равны, и, следовательно, для случайной величины L имеем Ц/ = Med/, медиана делит ряд распределения на две части, которым соответствуют одинаковые вероятности Р = 0,5, то среднее геометрическое gx логнормально распределенной величины равно медиане этой величины: gx = Medx. При логнормальном распределении мода Мох меньше не только среднего \хХУ но и медианы Medx. В общем виде Мо может быть вычислена по формуле: Мох=*>'-*2а<\ D.14) а при использовании натуральных логарифмов - по формуле Mov =ец'-а' . D.15) Таким образом, если случайная величина X имеет логнормальное распределение, то для моды, медианы и среднего арифметического справедливы неравенства Мох < Medx < цх. Коэффициент вариации Vx логнормально распределенной случайной величины X, как выраженное в процентах отношение ах к \iXi связан с дисперсией ряда логарифмов следующей зависимостью: о] = Mog 1 + 100 D.16) После перехода к десятичным логарифмам формула D.16) примет вид а/ = 0,4343 lg uooJ D.17) 80
Еще более просто выглядит формула D.16) для натуральных логарифмов: a,2=ln uooJ D.18) Пусть, например, водопроницаемость почвы х (мм/мин) распределена по логнормальному закону и тогда величина / = 1шс распределена по нормальному закону. Если для ряда распределения логарифмов ц,= 0,70 и а/=0,80, то gx = Medx = e070 = 2,01 мм/мин, a щ., ЪЛох и ох7 находим по формулам D.12), D.15) и D.13): л™ 0.802 0,70+-- . п~ цх = е 2 = el,uz = 2,77 мм/мин, Мох = в0-70-0'802 = е0'06 = 1,06 мм/мин, а2 =е2о.7о+о,8о2Ло,802 .Л == е2-04(е0-64 -1) = 7,6906-0,8965 = 639 и ах = 2,63 мм/мин. Для определения вероятности, соответствующей тому или иному интервалу значений логнормально распределенной величины X, следует от значений х перейти к их логарифмам, найти для этих логарифмов нормированные отклонения и, пользуясь таблицей F(z), вычислить соответствующую вероятность. Так, в данном примере вероятность нахождения водопроницаемости в интервале от х\ = 1 до Х2= 10 мм/мин находится следующим образом: /i =lnl = 0,00 и 0,00-0,70 0,80 uh=z}= —-^^г— = ~°>88, h = lnlO = 2,30 = Z2 = 2>30 °'70 = 4-2,00 , F(z\) = 0,18943, Ffz2; = 0,97725 и 0,о 0 Р(Кх< 10) = РA< / < 2,30) = 0,97725 - 0,18943 = 0,78782 * 78,8%. Для нахождения интервала значений х, соответствующего заданной вероятности Р, следует по формуле D.3) (естественно, заменив в ней л1 на /, ц на ц, и а на а7) определить граничные значения /i и /г, антилогарифмы которых и дадут искомые граничные значения х. Так, для Р = 0,9 (этой вероятности соответствуют z = ±1,64) получим Л = 0,70 - 1,64 • 0,80 = -0,61 и h = 0,70 +1,64- 0,80 = 2,01, откуда Х2 = в2»01 = 7,46 мм/мин и х\ = е-0*6* = 0,54 мм/мин. Итак, с вероятностью 0,9 водопроницаемость исследуемой почвы колеблется в интервале от 0,54 до 7,46. 6 Е.А.Дмитриев 81
Возможность аппроксимации какого-либо эмпирического распределения логнормальным законом (наиболее часто это распределение водопроницаемостей и содержания некоторых микроэлементов), совсем не означает, что в связи с этим следует отказаться от среднего арифметического в пользу геометрического. Закон распределения не имеет решающего значения в выборе среднего. Вид вычисляемого среднего (среднее арифметическое, среднее геометрическое и др.) определяется задачами исследования и выбором критериев качества. 4.4. БИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Биномиальное распределение возникает в том случае, когда каждое испытание имеет два возможных несовместимых друг с другом исхода, как например, в случае, когда каждое из зерен песчаной фракции может оказаться кварцевым или некварцевым, а тот или иной агрегат - водопрочным или нет. Если в условиях проведения испытаний вероятность наличия признака (например "кварца") обозначить через Р, а его отсутствия - через Q (при этом Р + Q = 1), то вероятность Рп(х) в п испытаниях получить х раз (х = 0, 1, 2..., п) наличие признака определяется выражением Рп(х)= п- PxQ"-\ D.19) х\(п-х)\ где знак ! называется факториалом и означает, что следует перемножить целые числа от I до числа, стоящего под знаком факториала. Так, п\ = 1 • 2 • 3 •... • (п - 1) • п. Заметим, что факториал нуля считается равным единице @! = 1). При биномиальном распределении в качестве случайной величины выступает число случаев с заданным исходом (наличием кварца, водопрочностыо и пр.) при фиксированном объеме выборки п. Единственным параметром этого распределения является Р (поскольку Q = 1 - Р), который может принимать значения в интервале от 0 до 1. Для выборки объема п дисперсия биномиального распределения находится по формуле: а* = nPQ, D.20) из которой следует, что дисперсия не может превосходить 0,25л. Это наибольшее значение дисперсия принимает при Р = Q = 0,5. Математическое ожидание \i = E(x) = лР D.21) случайной величины в биномиальном распределении представляет собой среднее число появлений признака в выборках объема л. 82
Пусть среди достаточно большой совокупности агрегатов некоторого размера 20% приходится на водопрочные, т.е. вероятность того, что агрегат окажется водопрочным, Р = 0,2. Если из такой совокупности брать выборки объемом п = 5, то среднее число водопрочных агрегатов в одной выборке составит ц = 5 • 0,2 = 1,00, а дисперсия, характеризующая вариацию в выборках, есть <j2 = 5 • 0,2 • 0,8 = 0,80. Вероятность получить в единичной выборке Х = 0, 1, ..., 5 водопрочных агрегатов можно вычислить по формуле 5! р (х) = : 0,2х 0,8 х . Подставляя в нее последовательно зна- э jc!E-jc)! чения х от 0 до 5, получим (с точностью до 0,0001): х 0 1 2 3 4 5 Рь(х) 0,3277 0,4096 0,2048 0,0512 0,0064 0,0003 На рис. 4.3 изображен график полученного распределения. Вычисление вероятностей Рп(х) по формуле D.19) не представляет больших трудностей, пока число п невелико. При больших значениях п для нахождения Рп(х) прибегают к логарифмированию выражения D.19): lgPn(x) = IgTi! - lgx\ - lg (n - х)! + x\gP + (п - x)\gQ. D.22) Поскольку логарифмы факториалов можно найти в справочниках по математике, нахождение ]gP„(x), а затем и искомой вероятности Рп(х) не составляет большого труда. Биномиальное распределение симметрично, когда Р = Q = 0,5. При P*Q распределение несимметрично и имеет одну моду, причем с увеличением х на единицу Р„(х + 1) возрастает сравнительно с Рп(х) до тех пор, пока выполняется условие х <Pn-Q. В рассмотренном примере Рп - Q = 0.2 • 5 - 0,8 = 0,2. Так как х = 0 < 0,2, то Рь(\) > Fs@), но л: = 1, а тем более х = 2, 3,..., 5, уже превышают 0,2, в связи с чем вероятности получения двух и большего числа водопрочных агрегатов из пяти оказываются более низкими, чем Ps(l) (рис.4.3). При больших п максимум Р„(х) расположен в окрестности значения jc = Pw, причем при и-»оо и любых х величина Рп(х) также стремится к нулю. i Г з 4 5 х Рис.4.3. Распределение числа х водопрочных агрегатов в выборке объема п = 5 при биномиальном распределении (водопрочных агрегатов 20%) 83
Симметричность биномиального распределения зависит не толь, ко от величины Р, но и от объема выборки п. Действительно, так как при этом распределении центральный момент третьего порядка определяется выражением цC)=пР0B-Р), D.23) а а2 = nPQ, то согласно формуле C.31) получим, что коэффициент асимметрии а =-%=£. D.24) yfiPQ 0,8-0,2 Для рассмотренного выше примера имеем а = —===== = 0,7 . V5-0,2-0,8 Центральный момент четвертой степени при биномиальном распределении определяется по формуле цD) = лРф.Ре(л-2) + 1], D.25) а коэффициент эксцесса в силу формулы C.32) составляет —-в = PQ =1-6Р+6Р2 D.26) п nPQ _!_- 6 D 0,2-0,8 ЛЛС В данном примере имеем е = -— = 0,05 . Коэффициент вариации наряду с обычным способом его вычисления по формуле C.26) можно найти из выражения £-%. D.27) Г = 100,^-%. I 08 В данном примере находим К = 100 • I—!— = 90%. По мере увеличения п биномиальное распределение приближается к нормальному и тем быстрее, чем меньше отличаются друг от друга Ри£. Использование для описания распределения дискретной величины х нормального закона с параметрами \л = пР и а2 = nPQ 84
практически допустимо при п > 25, если Р = Q = 0,5, а в случае близости Р к 0 или 1 при соблюдении условия, что nPQ > 91 . 4.5. РАСПРЕДЕЛЕНИЕ ПУАССОНА Распределение Пуассона используется для описания встречаемости случайных событий, происходящих в течение того или иного интервала времени (например, число ос-частиц, излучаемых почвой в единицу времени), либо в пределах некоторого пространства (на плоскости или в объеме почвы, как, например, число ходов червей на некотором участке поверхности почвы, число ортштейнов в заданном объеме, число зерен циркона на шлифе и т.д.). Пуассоновское распределение описывается выражением P{x)±vLe-»t D.28) х\ где Р(х) - вероятность в единичном испытании получить х раз (х = 0, 1, 2, ...) интересующее нас событие, ц - среднее число таких событий на одно испытание, е - основание натуральных логарифмов. Пуассоновское распределение можно использовать для аппроксимации биномиального распределения, когда вероятность Р появления изучаемого признака очень мала (например, наличие семян сорняков среди группы из п взятых зерен посевного материала) и тогда ц = пР. Распределение Пуассона возникает в тех случаях, когда вероятность обнаружения события в бесконечно малом временном интервале (или области пространства) бесконечно мала, причем для любых двух непересекающихся интервалов времени (или областей пространства) вероятность обнаружения любого числа событий в одном не зависит от числа событий в другом. Распределение Пуассона характерно тем, что среднее ц и дисперсия а2 численно равны и, как следует из формулы D.28), это распределение описывается одним параметром. Заметим, что в распределении Пуассона, как и при биномиальном распределении, случайной величиной является число случаев, а не значение таких свойств, как, например, содержание железа или водопроницаемость. Для этих последних может иметь место равенство средних и дисперсий, но это не должно служить достаточным 1 Повидимому, эти условия достаточно жестки, т.к., по исследованиям Раффа использование нормальной функции распределения вместо биномиальной практически допустимо (ошибки не превосходят 0,05 для всех л-), если nPm > 1,07. 6* 85
основанием для аппроксимации их распределений законом Пуассона, который здесь не применим. Если общее число испытаний (выборок) равно N, to число выборок N(x), когда х = 0, 1, 2,..., можно найти по формуле N(x) =NP(x). D.29) Пусть среди агрегатов размером 2-3 мм на агрегаты капролито- вого происхождения приходится 2%, т.е. вероятность того, что случайно выбранный агрегат окажется ханролитом, Р = 0,02. Для выборки объемом п = 100 среди агрегатов в среднем будет содержаться ц = пР = 100 • 0,02 = 2 таких агрегата. Вероятность того, что в отдельной выборке окажется х = 0, 1, 2,... капролита5 выражается фор- 2х мулой Р(х) =—е'2 в которую нужно последовательно подставить х = 0, х = 1 и т.д. Согласно формуле D.29), среди N = 100 таких выборок число выборок при х = 0 должно быть теоретически равно (округляя до целых) 14, при х = 1 оно равно 27, и далее для NB), NC), ND), NE) и NF) соответственно 27, 18, 9, 4 и 1. Если в выборку брать не 100 агрегатов, а больше (например, 150) или меньше (например, 50 или 25), то \х будет меняться, а соответственно будет изменяться иР(х)} что иллюстрирует рис. 4.4. Луассоновское распределение вероятностей обычно очень асимметрично. При [i < 1 максимальная вероятность Р(х) соответствует значению х = 0. С увеличением ц распределение становится более симметричным, причем при данном \х возрастание Р(х) с увеличением х наблюдается Рис.4.4. Пуассоновское распределение . « у . .. до тех пор, пока л; + 1 < ц (рис.4.4). вероятностей при различном среднем ц. При пуассоновском распределении равны между собой не только среднее и дисперсия (начальный момент первой степени и центральный момент второй степени), но и центральный момент третьей степени: о о М- = ЦB) = М-(з) • D3°) В связи с этим, как следует из формулы C.31), коэффициент асимметрии при пуассоновском распределении обратно пропорционален стандарту распределения (или квадратному корню из среднего): Р(х) 0,5 0,4 0,3 од- 0,1- Л Л J С L^|i=0,5 \у-1Ь=1,0 /U^y.11^2,0 Х\\ ^Чу^<г'1=5'0 > 2 4 6 8 10 X 86
а=-^ = -. D.31) Так как при пуассоновском распределении центральный момент четвертой степени выражается соотношением ^D) = ц(Зц+1), D.32) то из формулы C.32) получим, что коэффициент эксцесса обратно пропорционален среднему (или дисперсии): e = i = -L D.33) Ц а2 Для рассмотренного выше примера, когда ц = 2, получим а = 0,71 ие = 0,50. Из рассмотрения формул D.31) и D.33) следует, что для распределения Пуассона асимметрия и эксцессивность положительны и с увеличением среднего уменьшаются. 4.6. ДРУГИЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЙ ДИСКРЕТНЫХ ВЕЛИЧИН Рассмотрим еще некоторые законы, которые могут быть использованы для аппроксимации распределений случайных величин в почвоведении. Среди таких законов, описывающих распределения дискретных случайных величин, можно отметить отрицательный биномиальный закон. Он описывает распределение случайной величины X, представляющей собой число испытаний, в результате которых интересующее нас событие впервые появляется ровно к раз (вероятность появления такого события в единичном испытании равна Р, а вероятность непоявления равна Q = 1 - Р). Очевидно, при этом х не может быть меньше Р, а распределение вероятности Р(х) выражается формулой р{х)=ckx:lpk(\-p)x~k =ck:\pkQx-k, D.34) где х = /с, /с+ 1, ,.м a C*l{ - число сочетаний из х- 1 элементов по к - \ элементу. Название этого закона связано с тем, что правые части формулы D.34) представляют собой последовательные члены 87
разложения бинома с отрицательным показателем: Pk[i-{l-p)]-k=Pk(l-QYk. Для этого закона имеют место следующие соотношения: к D.35) D.36) D.37) о2 а = - ц=?' _k(i-p) р2 1-р кО "Р2' 1-Р Jk(l-P) y[kQ' 8 = l+4(l-P)-f(l-PJ J+4Q+Q2 D.38) k(l-P) kQ ' F-IOOJ^. D.39) Если для отрицательного биномиального закона принять к = 1, то jc будет представлять собой число испытаний, необходимых для того, чтобы интересующее нас событие впервые произошло ровно один раз. При к = 1 имеем C%l\ = 1 и выражение D.34) примет вид: P(x)-PQX'1 D.40) где х= 1, 2, 3, .... Распределение вероятносгей, описываемое формулой D.40), называется геометрическим. Для него справедливы соотношения (при Р + Q = 1) ц = 1, D.41) 2 Q a = i7£, D.43) Р2 8 = 6+—, D.44) К = 100^2- D.45) Биномиальное распределение возникает в том случае, когда генеральная совокупность, из которой берется и элементов, бесконечно велика. Если же генеральная совокупность конечна и случайно 88
Отобранные из нее компоненты обратно не возвращаются, то распределение среди п отобранных элементов числа х элементов, содержащих интересующее нас свойство, подчиняется гипергеометри- цескому закону, который можно рассматривать как модификацию биномиального. Обозначая объем генеральной совокупности через #, а число элементов этой совокупности с интересующим нас свойством - через А/, получим, что среди п взятых элементов вероятность обнаружить х элементов с заданным свойством есть six г*п-х р(х\ = UA/ '^N-M D.46) где х = 0, 1, 2, ..., пш(М,п). Ограничение сверху возможных значений х наименьшим из значений М или п вытекает из того, что при п>М максимально возможное значение лимитировано значением х = Му а при п< М- значение х = п. Для гипергеометрического распределения, учитывая, что Р = — N п N"M и Q = , получим следующие формулы: N \i = пР. D.47) ^^nPQ(N-n) D48) ЛГ-1 ' (l-2P)(N-2njN^i) D>49) y[nPQ-(N-2)jN-n ' ywP(N-l) 4.7. ДРУГИЕ ЗАКОНЫ НЕПРЕРЫВНЫХ РАСПРЕДЕЛЕНИЙ Для непрерывных случайных величин аналогом геометрического распределения является показательное (экспоненциальное) распределение. Закон экспоненциального распределения случайной величины X определяется одним параметром X > 0 и имеет вид afxJ^Xe-**. С4-51) Интеграл вероятности определяется выражением <р(х) = !-*-* D.52) при х > 0. Для этого распределения имеют место соотношения а - 89
ц = 1, D.53) А. а2=^-, D.54) Med = —= ц1п2, D.55) Л, V= 100%. а = 2 и е = 6. Экспоненциальный закон имеет место, например, при распределении длин отрезков (времени, пространства) между последовательными событиями, если распределение таких событий подчиняется пуассоновскому закону. Гамма-распределением называется такое распределение, при котором случайная величина X принимает значения х > 0 и имеет место плотность вероятности Г(Р) где р и X - параметры распределения, а Г(Р) - гамма-функция Эйлера. Среднее и дисперсия гамма-распределенной случайной величины таковы: ц = £ D.57) А, И _2 Р откуда %2 - D-58) F = 100l- D.59) 104 Р = -^. D.60) При гамма-распределении Мо = (р - 1)'Х (при р > 1), <х = 2Д/р, 6 = 6/0. При целочисленных значениях р их можно рассматривать как число независимых факторов, распределенных по экспоненциальному закону, суммарное воздействие которых определяет распределение случайной величины X. Если р достаточно велико (р > 11 и V < 30%), то гамма-распределение мало отличается от нормального, а при р = 1 оно совпадает с экспоненциальным. 90
Гамма-распределение является непрерывным аналогом отрицательного биномиального распределения. При X = мц* и р = п гамма- распределение называется эрланговским распределением с параметрами п и и\ описывающим распределение протяженности интервалов (времени, пространства) до появления пуассоновских событий с параметром ц\ Если распределение случайной величины X определяется влиянием "слабого звена" среди факторов, оказывающих влияние на эту величину, ее распределение описывается законом Вейбулла (Вейбулла - Гнеденко). В этом случае а>(х) = р D.61) ф(х) = 1-ехр D.62) полагая — = X, получим ю(х) = РА*мехр(-Я*р), D.63) ф(х) = 1-ехр(-лхр). D.64) Распределение Вейбулла имеет два параметра р и 9 (или р и X), которые всегда больше нуля, и характеризуется тем, что независимо от значений параметров вероятность Р(х<0) одинакова и равна 0,6321. Величину (9Р =1Д) называют масштабным параметром, а р - параметром формы распределения Вейбулла. Среднее и дисперсия этого распределения таковы: ц = ег[1+1| = ГРгAД] = *.* Р р. -Г2|1 4 уу Если р < 1, то Мо = 0; если же р > 1, то 2 Мо = Л р1- 1 IP D.65) D.66) D.67) Распределение Вейбулла при р = 1 переходит в экспоненциал!,- ное, а при р = 3,3 оно хорошо аппроксимируется нормальным с 01
параметрами ц « 0,8975 -9, о * 0,3 • 0 и коэффициентом вариации К* 30%. При {3 = 2 распределение Вейбулла совпадает с распределением Рэлея, для которого характерна умеренная положительная асимметрия и соотношения ц = ^ = 0,8862-6, D.68) Л - q2| 1 _ я I _ ,,21 7 11 _aoi/i/;.q2 _ло-710...2 Bz| 1 |=^z|—1| =0,2146- 9Z = 0,2732-^ D.69) и F = 100J--1=52,27%. Для распределения Рэлея Mo =-^г = 0,707Ь6 и Med = eVln2 = 0,8326 0. D.70) л/2 Если случайная величина X может принимать значения только в интервале от а до Ъ (а < 6), причем плотность вероятности на этом отрезке постоянна и равна ю(*) = т—> D.71) Ь-а где а <х <Ъ, то случайная величина X называется равномерно распределенной. Для такой величины H = Med = —, D.72) а2 = <*^ ' D.73) 12 и а = 0 и с = -1,2. Например, по этому закону распределяются ошибки округления последнего десятичного знака. Ранее был рассмотрен логнормальный закон распределения, когда нормальному закону подчиняегся не сама случайная величина X, а ее логарифмы. Однако нормальному закону могут подчиняться и некоторые другие функции от X. Распределения ряда таких случайных величин, логарифмические функции от которых имеют нормальное распределение, образуют семейство распределений Джонсона. В практике почвенных исследований нашли применение логарифмические преобразования вида и =у + rjlnfx-s/, D.74) 92
w = Y+rjln , D75) e+X-x и = у + ц Arsh , D.76) где U - функция случайной величины Х\ у, т\, е, к - некоторые константы, Arsh - ареа-синус: Arshi ^—^ I = In х - е [х-е + 1 DЛ7) Константы у, г\ зависят от асимметрии и эксцесса распределения случайной величины X и определяют форму распределения, е определяет уровень значений, а X - масштаб случайной величины. Если функцию U случайной величины X можно рассматривать как нормально распределенную, то случайная величина X считается распределенной по соответствующему закону Джонсона. Вопросы для самоконтроля. 1. Каковы основные особенности закона нормального распределения? 2. Можно ли из области почвоведения привести примеры строго нормально распределенных величин? 3. В чем состоят общие принципы отыскания вероятности попадания нормально распределенной случайной величины в заданный интервал значений с помощью таблицы интегралов вероятности? 4. Какое распределение называется логнормальным и какие значения при этом может принимать случайная величина? 5. Что называется средним геометрическим и как оно соотносится со средним арифметическим, модой и медианой при логнормальном распределении? 6. Какими общими особенностями обладают случайные величины, распределение которых описывается законом Пуассона и биномиальным законом? 7. Чем отличаются условия применимости закона Пуассона и биномиального закона?
Глава 5 ВЫБОРОЧНЫЕ ОЦЕНКИ И ОШИБКИ РЕПРЕЗЕНТАТИВНОСТИ 5.1. КОНСТАНТЫ И ИХ ОЦЕНКИ В большинстве случаев исследователь практически имеет дело не с генеральными совокупностями, а с выборками, содержащими информацию о свойствах генеральной совокупности. Выборки всегда являются конечными и, составляя часть генеральной совокупности, не позволяют получить точных значений тех констант, тех параметров исследуемых случайных величин, ради изучения которых проводится исследование. Выборочные результаты испытаний дают возможность вычислить лишь оценки (констант, параметров), например оценку среднего х для генерального среднего ц, выборочную дисперсию s2 как оценку дисперсии а2 и т.д. В то время как константы - величины постоянные, выборочные оценки констант являются случайными величинами, в отношении которых справедливы все указанные выше их особенности (см. гл. 1). В перечень общих условий, определяющих испытание, в качестве обязательного условия входит постоянство объема выборки. Если это условие не соблюдено, то при прочих равных условиях (один объект, одна и та же генеральная физическая совокупность, неизменная методика анализа или процесса измерения) получаемые в повторных выборках оценки, например, средних, окажутся значениями разных случайных величин (по меньшей мере эти величины будут иметь разные дисперсии). Случайность оценок проявится в том, что, будучи вычисленными по результатам повторных выборок, эти оценки принимают неодинаковые и заранее неизвестные значения, хотя обычно исследователь имеет дело лишь с одной выборкой из изучаемой генеральной совокупности и получает одно значение для оцениваемой константы. То, что оценки констант являются случайными величинами, означает, что получаемые оценки нельзя отождествлять с самими константами. В методологическом отношении такое отождествление соответствует постановке знака равенства между явлением (каковым является оценка) и сущностью (константой). Всегда следует учитывать, что выборка позволяет лишь с той или иной погрешностью судить о константе, но в силу случайности оценки мы не имеем возможности сказать, насколько и в какую сторону (в большую или 94
иеяьшую) отличается оценка от неизвестной нам оцениваемой константы. * Наиболее часто константы характеризуются оценками, выражаемыми одним числом. Такие оценки получили название точечных. Точечными оценками являются, например, выборочные значения среднего х , дисперсии s2 и т.д. 5.2. ОЦЕНКА МОДЫ Поскольку мода Мо есть значение, встречающееся наиболее часто (для дискретных величин) или имеющее наибольшую плотность вероятности (для непрерывных величин), для оценки моды нужно располагать таким объемом данных, чтобы о встречаемости уже что-то можно было бы сказать. Поэтому оценку моды обычно бывает целесообразно находить, когда выборка насчитывает по меньшей мере 2-3 десятка данных и имеется возможность построения ряда распределения. В этом случае за оценку моды то принимают середину модального класса, т.е. класса, имеющего наибольшую частоту. Если ширина класса с равна точности измерений А и середина любого класса представляет собой единственное значение случайной величины, то выборочное значение моды приравнивают тому значению, которое встречается наиболее часто. Пусть, например, число ортштейнов крупнее 3 мм в объеме 100 см3 в пределах некоторого слоя дерново-подзолистой почвы по результатам п = 30 наблюдений дало следующий ряд: Xj 0 1 2 3 4 5 fj 3 8 13 4 0 2 Здесь то = 2. Если с > А, то в качестве моды допустимо принимать середину модального класса, но при необходимости можно получить и более точную оценку моды, используя линейную интерполяцию: ■~- *,.-,»■ + С-:f^f у E-1) где индексы т, т-\ и т+1 соответствуют модальному, предмо- дальному и послемодальному классам, а х^т_Хут - граница между модальным и предмодальным классами (или нижняя граница модального класса). 95
Таблица 5.1 Распределение плотности дерново-подзолистой почвы в пахотном слое (п = 150) */ -к- 1,08 7 1,13 19 1,18 21 1,23 29 1,28 26 1,33 18 1,38 12 1,43 9 1,48 6 1,53 3 Обычно найденную по экспериментальным данным оценку моды называют просто модой. Это допустимо, если не забывать, что полученная по выборочным данным мода является выборочной модой, оценкой, которая лишь с большей или меньшей погрешностью характеризует истинное значение моды, генеральную моду. По данным, представленным в табл.5.1, за оценку моды можно принять середину класса с наибольшей частотой то = 1,23 г/см3. Учитавая, что здесь с - 0,05, а нижняя граница модального класса х{т-\ут = 1*205, найдем более точную оценку: 29-21 то = 1,205 + 0,05 = 1,24 г/см3. 2-29-B1 + 26) 5.3. ОЦЕНКА МЕДИАНЫ В отличие от моды оценку медианы можно получить по выборочным наблюдениям малого объема (при п > 2), если признак поддается ранжировке. Если результаты наблюдений над количественным признаком не представлены в виде вариационного ряда, то для нахождения оценки медианы данные следует ранжировать. Обозначая ранжированные значения случайной величины ху полученные в выборке объема я, через х*, где / = 1,2, ...я, из соотношения B.13) получим для вычисления медианы (выборочной) med: при п четном: * / * *\ ха + хй+\ med = xi+ 0,5(aVi -x^- -*-^, E.2) при п нечетном: med = хй« , E.3) где индексы при х* - номер значения в их ранжированной последовательности. Пусть, например, в выборке объемом п = 5 получены следующие данные по содержанию обменного Са (после ранжировки): *Г: 7,4; 7,8; 8,2; 8,9; 9,8. 96
SfaK как п нечетно и (// + 1)/2 = 3, то значение, стоящее на третьем цвете, и лвляется оценкой медиалы: med = 8,2 мг.экв/100 г почвы. Рассмотрим теперь ранжированную выборочную последовательность значений содержания гумуса: х*: 1,35; 1,75; 1,85; 1,90; 2,05; 2,20. Здесь w = 6- четное и медианой является полусумма значений, стоящих на 3-м и 4-м местах: med = 0,5 • A,85 + 1,90) = 1,88 %. Для данных, представленных в виде вариационного ряда такого, что с > А в качестве оценки медианы можно принять середину медианного класса, т.е. класса, в котором содержится значение, соответствующее середине ранжированного ряда. Так, для плотности почвы (см. табл.5.1) при /1=150 середина ранжированного ряда приходится на значения, занимающие 75 и 76-е места. Легко установить, что соответствующие значения принадлежат четвертому классу, для которого *4 = 1,23, а поэтому можно считать, что med = 1,23 г/см3. Из результатов такого подсчета, кстати, следует, что х15 и х76 должны быть наибольшими значениями из тех, что попали в класс с серединой Xj = 1,23, так как значение плотности, стоящее на 77-м месте, уже принадлежит следующему классу (сумма частот в первых четырех классах равна 76). Поэтому можно полагать, что med = 1,23 - не самое лучшее решение. Действительно, в подобных случаях более точную оценку медианы получают с помощью линейной интерполяции по формуле med = х{т_хут +с f- , E.4) J m где т - номер медианного класса, х^т_1)/т - нижняя граница медианного класса, с - ширина класса, fm - частота медианного класса, jmm-\ £ fj - сумма частот классов, предшествующих медианному. н В рассматриваемом примере с = 0,05, т = 4, хуа = 1,205, £ fj =47 и тогда согласно формуле E.4) найдем 150 ,„ med = 1,205 + 0,05^ = 1,25 . 29 7 Е.А.Дмитриек 97
Утверждение, что вычисление медианы по формуле E.4) (илц моды по формуле E.1)) дает более точную оценку, нежели приравнивание медианы (или моды) к середине соответствующего класса, не означает, что каждая конкретная оценка оказывается ближе или дальше от оцениваемого генерального показателя. Например, нельзя утверждать, что значение плотности 1,25 ближе к генеральному значению медианы, чем 1,23. Дело в том, что любая выборочная медиана (и мода) есть случайная оценка, и если в среднем использование формулы E.4) или E.1) улучшает оценку (об этом речь пойдет ниже), то совсем не обязательно, чтобы это улучшение происходило в каждом конкретном случае. Медиану как показатель среднего значения признака вычисляют сравнительно редко. Однако возможны такие ситуации, когда медиана оказываегся наиболее применимой для характеристики средней тенденции изучаемого свойства. Подобные случаи имеют место, когда существует некоторая неопределенность крайних значений признака (чаще всего максимального), что исключает возможность вычисления среднего арифметического. Наиболее часто такая ситуация складывается при изучении водопроницаемости (наличие "провальной" водопроницаемости), но может возникнуть и при других обстоятельствах, например, при подсчете площадей с различным уклоном местности для некоторой территории (табл. 5.2). К последнему классу углов отнесены углы, превосходящие 15°, и для этого класса отсутствует верхняя граница; поэтому найти средний арифметический угол наклона не представляется возможным. Однако медианное значение найти можно. Очевидно, оно должно соответствовать тому углу, который приходится в ранжированном ряде на 50-й процент площади. Заметим, что в табл. 5.2 классы углов наклона неодинаковы: классовый промежуток меняется от 0,5° в первых двух классах до 10° в предпоследнем классе. Для подобных исследований это весьма распространенное явление. Однако для вычисления медианы это не существенно. Следует лишь иметь в виду, что в формуле E.4) величину классового промежутка нужно брать для модального класса. Т аблица 5 . 2 Процент площадей с различным уклоном местности Угол наклона, градусы Процент площади 0-0,5 0,6-1,0 1,1-2,0 2,1-5,0 5,1-15,0 >15,0 31,4 „.23,? 15,4 11,8 9,1 8,6 Из табл. 5.2 следует, что 50-й процент находится во втором классе (т = 2) с граничными углами 0,6 -1,0°. Поскольку нижняя и верхняя границы медианного класса соответственно равны 0,55° и 1,05°, 98
ндоестве частот в данном примере выступают проценты. Так как Ш?/ = 31,4 ,/ж = 23,7 и 0,5 и = 50,0, то согласно формуле E.4) получа- ' 500-314 mmed = 0,55 + 0,5 337 = °'94° * Итак, медианное значение угла наклона местности приближенно равно 0,9°. 5.4. ОЦЕНКА СРЕДНЕГО АРИФМЕТИЧЕСКОГО Как уже было отмечено, среднее арифметическое - это константа, часто являющаяся параметром распределения. Важность этой константы и необходимость нахождения ее оценок практически в любых исследованиях послужили достаточно серьезным основанием для того, чтобы ввести различные обозначения для среднего и его оценки. Сейчас принято среднее как константу обозначать греческой буквой ц, как это уже делали, а оценку среднего - латинской буквой с чертой, например, для случайной величины X - в виде х . Такая система обозначений сразу показывает о чем идет речь, о среднем или его оценке, и если, например, рассматривается среднее х , то это среднее выборочное, т.е. оценка среднего, а не сама константа И*. Оценку среднего можно получить разными способами. Один из самых простых и, как можно предположить, не самый точный способ состоит в нахождении среднего как полусуммы наименьшего и наибольшего значения величины, поскольку эти значения обычно называют лимитами, то такая оценка равна полусумме лимитов: - = *min+*max ^ E>5) Эта оценка, очевидно, тем лучше характеризует среднее, чем симметричнее распределение случайной величины. Преимущество такой оценки в простоте ее вычисления, что используется для предварительного анализа полученного материала и для контроля от грубых промахов при вычислении среднего более сложным методом. Недостатки такого способа связаны с тем, что вычисление среднего основано на учете только двух крайних значений, и они наиболее изменчивы, что и делает эту оценку не очень надежной. Для иллюстрации этого и других способов нахождения разных оценок допустим, что плотность почвы охарактеризована выборкой объемом и = 5 со значениями xt (г/см3): 1,23; 1,25; 1,25; 1,27: 1,30. Тогда оценка х по формуле E.5) составит 0,5 • A,23 + 1,30) = 1,26. 99
объемом тг = 5 со значениями х,- (г/см3): 1,23; 1,25; 1,25; 1,27; 1,30. Тог* да оценка Зс по формуле E.5) составит 0,5 • A,23 + 1,30) = 1,26. При симметричности распределения в качестве оценки среднего х можно использовать медиану. Тогда для данного примера получим Зс = med = 1,25. Наиболее часто оценку среднего находят как среднее арифметическое всех значений: Зс=£^-. E.6) п В дальнейшем мы будем иметь в виду именно такую оценку среднего. Так как для данного примера £х, -6,30, то 7 = -Lr- = 1,26. Одинаковые значения ь выборке могут встречаться два и большее число раз (здесь, например, значение 1,25 встречается дважды) и соответствующее число таких значений должно входить в £х, при вычислении среднею. Иначе говоря, при нахождении суммы зна чений они должны быть взвешены их частотой, в силу чего такая оценка среднего есть среднее взвешенное. Это особо следует иметь в виду при вычислении среднего по сгруппированным данным, когда выборочная совокупность представлена в виде вариационного ряда с серединами классов Xj и их частотами^. При этом среднее находят по формуле х=^ . E.7) п Так, по данным, представленным в табл. 5.1, средняя плотность _ 1,03-7 + 1,13.19+...+1,53-3 189,60 Л^А почвы есть х = = = 1,264 150 150 Оценки среднего, найденные по сгруппированным данным, конечно, не вполне равноценны оценкам, полученным по несгруппиро- ваниым значениям переменной, но возникающие при этом ошибки обычно настолько незначительны, что ими вполне допустимо пренебречь. 5.5. МЕТОДЫ ХАРАКТЕРИСТИКИ ВАРЬИРОВАНИЯ Результаты выборочных наблюдений дают возможность различными способами отразить меру неодинаковости значений случайной величины. Наиболее просто степень варьирования признака отражается с помощью лимитов, *.е. минимального и максимального значений случайной величины, полученных в выборке. 100
Так, если среди пяти значений плотности почвы Xmin = 1,23, а -^ = 1,30 г/см3, то это может быть записано так: ЪЛМ(х) = A,23 + 1,30) г/смз. Иногда одновременно с указанием лимитов приводят амплитуду колебаний, или размах варьирования Ry (индекс указывает объем выборки), представляющую собой разность между максимальным дгтах и минимальным Xmin значениями признака: ■*^(л) = -^niax — Xmin. E «8) Например, для плотности почвы получим RE) = 0,07 г/см3. Лимиты и размах особенно широко используют для характеристики некоторых климатических особенностей изучаемого района. Тдк, помимо средних многолетних температур воздуха по отдель- ш>1М декадам, месяцам или сезонам обычно приводят минимальные и максимальные температуры за соответствующий период. Амплитудой обычно характеризуют размах колебаний температуры почвы на разных глубинах. Широкое применение лимиты находят также в микробиологии при описании размеров изучаемых объектов. Лимиты и размах как показатели варьирования имеют существенный недостаток, состоящий в том, что они учитывают только крайние значения признака, которые наиболее легко меняются. Пусть, например, при оценке содержания обменного калия в пахотном слое дерново-подзолистой почвы в пределах поля площадью 10 га в трех повторных выборках объемом п = 7 лимиты и размах оказались следующими (мг/100 г почвы): LIM D,54-10,5) D,44-13,2) E,04-9,0) Ren 6,0 8,8 4,0 С увеличением объема выборки вероятность получить редко встречающиеся значения возрастает. Это приводит к тому, что лимиты и размах оказываются функцией объема выборки, что также ограничивает использование этих показателей варьирования. Как следует из рассмотренного выше примера, лимиты по калию не выходили за пределы D,4 -s- 13,2), а размах не превышал R(i) = 8,8. В выборке же объемом п = 35 для того же поля было получено: LIM = C,8 ч- 13,5) и #C5) = ,9,7 мг/100 г почвы. Все эмпирически найденные лимиты и размахи представляют собой оценки некоторых констант при фиксированных объемах выборок. Если закон распределения случайной величины известен, то можно указывать и соответствующие константы. Например, известно, что при нормальном распределении с увеличением объема выборки размах сначала, пока п невелико, растет интенсивно, но по мере увеличения п этот рост затухает (табл.5.3). 101
Таблица 5.3 Увеличение размаха варьирования R(# с ростом объема выборки п для нормального Z-pacnpcделения с параметрами 0 и 1. п кт 2 1,13 4 2,06 6 2,53 8 2,85 10 3,08 15 3,47 20 3,73 В качестве меры варьирования можно использовать межквар- тыльное расстояние (межквартильный размах) R(q), представляющее собой разность между верхним и нижним квартилями: Rig) = *<0Л5) " Х@.25). E.9) Если квартили получены на основе выборочных данных по формуле B,13), то и они сами, и размах являются оценками некоторых констант. Пусть, например, в выборке объемом п = 7 были получены значения содержания обменного калия (мг/100 г почвы): х( : 4,5; 7,2; 7,3; 8,0; 8,3; 9,0; 10,5. Тогда, поскольку Х(о,25) = 7,2 и Л(о,75) = 9,0, имеем R(q) = 1,8 (в этом случае jRG> = 6,0). В качестве меры вариации свойства межквартильный размах используют сравнительно редко. В то же время он весьма прост в интерпретации, так как показывает интервал (точнее - оценку интервала, если размах найден по выборке) возможных различий между крайними значениями интервала (обычно вблизи центра распределения), содержащего половину всех возможных значений. Лимиты и размах учитывают лишь некоторые значения случайной величины, полученные в выборке, и в этом состоит их слабость. Учет всех значений можно осуществить при вычислении среднего абсолютного отклонения 9sZl*i-*l E10) п (центральные отклонения берутся по модулю, т.е. без учета знака). Для характеристики неоднородности значений случайной величины его используют сравнительно редко, а если и вычисляют, то с целью проверки некоторых особенностей распределения, что и будет показано ниже. Непредпочтительность использования этого показателя в качестве меры разнообразия связана с его математическими свойствами, что заставило исследователей прибегать к характеристике варьирования с помощью более удобной для теоретических исследований величины - дисперсии и ее оценки. 5.6. ОЦЕНКА ДИСПЕРСИИ И СТАНДАРТА Дисперсия относигся к наиболее важным константам распределения и: как уже было отмечено, ее обычно обозначают а2. Оценку 102
Ьютерсии, являющуюся не константой, а случайной величиной, Сгобы не смешивать с самой дисперсией (эту оценку для простоты •часто также называют дисперсией) обозначают s2. Соответственно стандартное отклонение и его оценку обозначают а и s. Оценку дисперсии как средний квадрат отклонений от среднего по выборочным данным вычисляют по формуле ^£(*,-*J EП) Заметим, что знаменателем последней формулы служит w-1, а не л, как казалось бы, должно быть. Дело в том, что дисперсия есть средний квадрат отклонения от среднего, т.е. от ц. Вместо ц мы располагаем его оценкой х . Оталонения jc,-J оказываются связанными условием . ]Г (х{ - х) - 0, а это означает, что, зная п - 1 отклонений Xj-x , всегда можно найти и последнее л-е, т.е. оно уже самостоятельно информации не несет, а вся информация содержится в любых п - 1 отклонениях. Таким образом, из п слагаемых в числителе формулы EЛ1) оказывается п - 1 независимых. Число независимых элементов, по которым осуществляегся оценка, в статистике называется числом степеней свободы^ в дальнейшем будем обозначать его v. В обшем случае оно равно числу элементов, по которому вычисляется оценка, минус число ограничений на эти элементы. При вычислении оценки дисперсии по выборке объемом п число ограничений равно 1 (условие равенства нулю суммы отклонений), поэтому здесь v = п - I. При нахождении оценки среднего по выборке объема п на отдельные значения случайной величины никаких ограничений не накладывается и v = п. В дальнейшем мы увидим, что число степеней свободы является очень важным понятием и в каждом конкретном случае нужно уметь его оценить. Оценка дисперсии, как и сама дисперсия, есть величина положительная, а ее размерность равна квадрату размерности случайной величины. Извлекая корень из оценки дисперсии, получим оценку стандарта s, также являющуюся всегда положительной и имеющую размерность соответствующей случайной величины. Формула E.11) показывает, что для нахождения оценки дисперсии нужно знать отклонения от среднего для всех значений xh после чего эти отклонения возвести в квадрат, просуммировать и разделить на п - 1. Для ряда значений плотности почвы это будет иметь следующий вид ( п = 5, ]>>, = 6,30, х- 1,26): 103
Xi Xj- x (Xi-хУ Тогда 1,23 1,25 -0,03 -0,01 0,0009 0,0001 Z(x,.-3cJ= 0,0028, 1,25 1,27 -0,01 0,01 0,0001 0,0001 / = 0,0028: E-1): 1,30 0,04 0,0016 = 0,0007 (Г/СМЗJ; s = ^0,0007 = 0,026 г/смз. Практически вычисления проще вести по иной формуле, в особенности при наличии даже самой простой вычислительной техники. Легко показать, что формуле E.11) равносильны следующие: E.12) , E.13) При использовании для вычисления ЭВМ и электронных калькуляторов наиболее удобна формула E.12). Для рассмотренного примера при этом получим с.2 j 2>,2- .2 _ £*. п 2 —2 U32+l,252+...+l,302 6,302 s2 = ^— = 0,0007. 5-1 В некоторых случаях требуется пусть менее точное, но быстрое получение стандартных отклонений, и тогда вопрос не решается с помощью приведенных выше формул. Мы уже отмечали, что с ростом объема выборки размах возрастает. Если изучаемое распределение не слишком сильно отличается от нормального, то имеется простая возможность быстрой оценки s по известным значениям п и /?0i>. Дело в том, что если в случае нормального распределения величины Z с параметрами 0 и 1 известна зависимость математического ожидания для R(z,n) от л, где R(z.n) ~ число стандартных отклонений, укладывающихся в размахе, то размах R^) любой другой нормально распределенной случайной величины с дисперсией а2 должен в среднем составлять R(n) = °-R(z*> E.14) В этом выражении могут быть известны и и соответствующее ему значение R(z,n)> а также выборочная оценка /?с»>» что позволяет получить оценку для а: j = -5f!L. E.15) R(Z.n) 104
Учитывая приблизительность такого способа получения оценки sf можно воспользоваться несколькими легко запоминающимися округленными значениями R(z,nh на которые нужно разделить полученный размах R(jj) в зависимости от объема выборки п (при п = 2 получится точное значение s): п 2 5 10 25 100 fUzjd 1,41 2 3 4 5 Так, для плотности почвы при п = 5 и R(S) = 0,07 получим ^«.0,07:2 = 0,035. Конечно, для серьезных статистических исследований этот способ рекомендовать нельзя (хотя подробные таблицы для R(z,n) имеются), но он пригоден в качестве экспресс-метода, а также для контроля грубых просчетов при вычислении s и s2 по формулам E.11)-E.13). 5.7. СТАТИСТИЧЕСКИЕ ОЦЕНКИ ПРИ ОБЪЕДИНЕНИИ ВЫБОРОК Две или большее число выборок могут принадлежать одной генеральной совокупности и при этом очевидно, что полученные в разных выборках оценки, например среднего или дисперсии, оценивают одно и то же среднее или дисперсию. Если выборки действительно получены из одной генеральной совокупности или имеются основания исходить из такого допущения, то выборки можно просуммировать, объединить в одну и по такой суммарной выборке найти единые оценки интересующих исследователя констант. При наличии всех исходных данных, полученных при выборочных исследованиях, их можно просто рассматривать как одну выборку суммарного объема п = Щ (где rij - объем отдельных выборок), для которой и вычисляют все необходимые оценки. Однако, если исследователя интересуют только среднее и дисперсия, а по отдельным выборкам соответствующие оценки уже имеются, то нет никакой необходимости обращаться к исходным данным, так как наличие ;щя к выборок сведений об их объеме itj (/ = 1,2 ... к) и значениях Xj и sj вполне достаточно для вычисления х и s объединенной выборки. Это тем более важно, если нет исходных значений случайной величины по выборкам (например, при использовании данных из литературных источников). Если объем суммарной выборки п = щ, ю Х" ; п ' E.16) 105
i=J ^ ' (M7) Из приведенных формул следует, что среднее х объединенной выборки вычисляется как среднее взвешенное, в силу чего для каждого Xj в качестве веса берут объем соответствующей выборки иу. При вычислении s2 дая объединенной выборки сумму квадратов отклонений отдельных значений от общего среднего х (чисштель в формуле E.17), являющийся аналогом числителя формулы E.11)) находят как сумму двух членов, первый из которых есть сумма произведений 7-х оценок дисперсий на соответствующее им число степеней свободы (?ij- 1). а второй есть сумма квадратов отклонений частных средних Xj от общего среднего 5с , взвешенных соответствующими объемами выборок iij. Естественно, стандартное отклонение объединенной выборки находят как корень из дисперсии s2, причемДшсло степеней свободы,^ которыми найдены эти оценки/равно сумме объемов частных выборок минус единица, т,е. п - \1'Техника подобных вычислений хорошо видна из таблицы 5.4. ' Таблица 5.4 Вычисление х , s2 и s суммарной выборки по значениям частных средних Xj и стандартов sj в трех выборках объема л/, характеризующих порозность агрегатов (%) в пределах одной генеральной совокупности Величины nJ XJ SJ ftjXj (nj-l)'S/ »A*j -*>2 Номер 1 10 38,6 2,4 386 51,84 1,6 частной выборки 2 10 37,8 2,9 378 75,69 1,6 3 20 38,2 2,7 764 138,51 0,0 К ЗЕ Суммы Б nj = п = 40 Y.njXj =1528 и,-l)-jr/ = 266,04 nj(Xj - Зс J = 3,2 5.8. УСРЕДНЕНИЕ ОЦЕНОК ДИСПЕРСИЙ В ряде случаев заведомо известно, что выборки принадлежат разным генеральным совокупностям, в силу чего их объединение невозможно. В то же время имеются достаточные основания считать, что дисперсии случайных величин, характеризуемых разными выборками, одинаковы, и полученные оценки sj1 по каждой из этих 106
выборок не дают оснований считать иначе (о проверке подобных допущений см. § 9.2 и 9.3). Тогда, усредняя к оценок sf (j' = I, 2,..., к), можно получить одну оценку s2, одинаковую для всех величин дисперсии а2. Подобная ситуация достаточно часто встречается при оценке сходимости (воспроизводимости) какого-либо метода анализа на заведомо разных объектах, имеющих близкие, хотя, как правило, различные, средние значения изучаемых свойств. Так как сходимость (воспроизводимость) обычно характеризуется дисперсией или стандартом и относится к характеристике качества анализа (методики), а не того, что анализируется, то усреднение оценок дисперсий в подобных случаях представляется вполне допустимым и разумным. Действительно, если при оценке сходимости классического метода валового анализа SiCh в почве на к = 6 образцах, проанализированных с одинаковой л, = 5 повторностыо, были получены стандартные отклонения sf {/ = 1, 2,..., 6): 0,044; 0,048; 0,035; 0,060; 0,065 и 0,041%, то желательность усреднения полученных оценок не вызывает сомнений. Заметим, что усреднение стандартных отклонений всегда осуществляют с помощью усреднения дисперсий, так что усредненная оценка стандарта получается только как квадратный корень из усредненной оценки дисперсии. Усреднение оценок дисперсий производят с учетом их математического веса, в качестве которого выступают соответствующие каждой оценке sf числа степеней свободы vy = //,-- 1, где )ij- объем j-n выборки: ,_!'}<«,-0_Z'j(»;-l> EЛ8) S = Е(И;-1) Tnj-k Усредненной оценке дисперсии соответствует число степеней свободы, которое на к меньше суммы объемов выборок (т.е. равно сумме чисел степеней свободы усредненных оценок). При равенстве объемов всех выборок (т = т- ... = щ = п) формула E.18) принимает вид *.*'' к ■ E19) Соответствующее этой оценке дисперсии число степеней свободы v = к(п - 1). Так, для усреднения стандартных отклонений, оценивающих аналитические ошибки определения SiO:, сначала найдем 107
усредненную оценку дисперсии по формуле E.19), поскольку все к выборок имеют одинаковый объем: 2 0,0442 + 0,0482 + 0,0352 + 0,0602 + 0,0652 + 0,0412 Л ЛЛЛСА s = — ■ - = 0,00250 от- 6 куда получим s = 0,050%. Эти оценки получены для числа степеней свободы v = 6 E - 1) = 24. Если объем каждой из к выборок равен nj9 а ху- есть /-е (i=l,2,..., nj) значение bj-й выборке, для которой оценка среднего равна Xj , то для каждой/-й выборки число sf(nj- 1) = E(*j--*, J» т.е. является суммой квадратов отклонений от своего среднего Xj. Следовательно, для всех к выборок числитель формулы E.18) представляет собой сумму суммы квадратов отклонений и равенство E.18) можно записать в виде 2 1Е<*„-*/J Последняя формула показывает, что вычисление усредненной оценки дисперсии можно осуществить не прибегая к предварительным вычислениям оценки дисперсий по отдельным выборкам (если, конечно, они не были вычислены ранее). В частном случае, когда все к выборок имеют одинаковый объем rtj = 2, усредненную оценку дисперсии при числе степеней свободы v = к можно найти по формуле ~W E-21) где Rj = ху - Х2/ есть размах ву-й выборке. Пусть, например, в к = 5 образцах почв с повторностью п = 2 было определено содержание ила пипеточным методом и получены следующие пары результатов: j 1 2 3.4 5 xij 21,1 24,2 22,7 27,8 25,4 X2j 21,8 25,5 21,5 26,9 25,1 Тогда для Rj получим соответственно значение 0,7; 1,3; 1,2; 0,9; 0,3, откуда по формуле E.21) находим 2 0,72 +U2 +U2 +0,92 +0,32 4?52 А .. 5 = = = 0,45 2-5 10 и соответственно s = 0,67 при v = 5. 108
5.9. ОЦЕНКА КОЭФФИЦИЕНТА ВАРИАЦИИ Зная выборочные оценки среднего и стандартного отклонения, можно вычислить оценку коэффициента вариации v по формуле, аналогичной C.26): v = ^100%. E.22) х Так, если по выборке объема п = 5 для плотности почвы (г/см3) х= 1,09 и >? = 0,15, то v=—100 = 13,8%. 1,09 Интерпретация оценок коэффициента вариации принципиально ничем не отличается от интерпретации соответствующих им констант; при этом следует учитьюать, что выборочная оценка коэффициента вариации в отличие от самого коэффициента вариации есть величина переменная и случайная. Хотя в большинстве случаев коэффициенты вариации колеблются в пределах от 0 до 50%, реже до 100%, указать придержки, какие коэффициенты считать большими, какие малыми, очень трудно. Помимо абсолютных оценок (например, коэффициент v = 0,001% всегда мал, так же как v = 200% практически всегда велик), следует исходить еще и из специфики характеризуемого явления. Например, для водопроницаемости,измеряемой трубками диаметром 50 мм, в большинстве случаев v = 20-50% вполне обычно, a v = 5% нужно рассматривать как очень малый коэффициент вариации. В то же время при определении плотности почвы буриком объемом 100 см3 коэффициенты вариации редко превышают 5-10%, а значение v = 1-3% представляет собой вполне обычную величину, которую низкой считать нет особых оснований. В некоторых случаях, например при изучении концентраций веществ, содержание которых в почве очень мало (микроэлементы, пестициды и пр.) вполне естественными могут быть коэффициенты вариации, превышающие 100% (иногда в 1,5-2 раза). Понятие о большом и малом коэффициенте вариации может меняться даже для одного и того же свойства в зависимости от объекта исследования. Например, коэффициенты вариации водопроницаемости, вполне обычные для тяжелых почв, можно расценивать как очень высокие на песчаных почвах, где водопроницаемость гораздо более выровнена, нежели на почвах суглинистых и глинистых, а коэффициенты вариации для рН и содержания подвижных форм элементов питания могут быть на порядок более высокими в окультуриваемых почвах, чем в целинных, вследствие неравномерности внесения извести и удобрений. 109
Из сказанного следует, что для суждения об относительной вели- чине коэффициента вариации необходимо хотя бы приблизительно знать средние величины этих коэффициентов для аналогичных случаев, т.е. для объектов, подобных изучаемому, и при использовании сходных методов анализа. 5.10. ОШИБКИ РЕПРЕЗЕНТАТИВНОСТИ Как неоднокртно отмечалось выше, оценки, плучаемые на основе выборочных наблюдений, в отличие от соответствующих констант представляют собой переменные случайные величины. В связи с этим каждая такая величина имеет некоторый закон распределения и может быть охарактеризована теми или иными константами (средним, дисперсией, стандартным отклонением, коэффициентом вариации и др.). Например, для оценок среднего х могут существовать свое среднее ц* и дисперсия а|, для оценки дисперсии s2 - среднее ц ?. и дисперсия а22 и т.д. Существенным при этом является то, что целый ряд констант, характеризующих распределение оценок, зависит от объема выборки, по которой вычисляется оценка. Иначе говоря, для оценок как случайных величин постоянство объема выборки является важным общим условием, определяющим (наряду с другими условиями) принадлежность отдельных оценок (практически получаемых или теоретически возможных) к одной генеральной совокупности (одной случайной величине). Последнее означает, например, что среднее содержание обменного кальция х = 7,42 мгэкв/ЮОг, полученное в выборке объемом /1=5, принадлежит к генеральной совокупности оценок того же свойства у того же объекта по той же методике, когда оценки получаются по выборкам объема п - 5. Если в тех же общих условиях испытаний изучаемого свойства выборка имеет объем п = 6 или любой другой объем п ф 5, то оценка среднего принадлежит иной случайной величине. Случайные величины х , соответствующие разным л, имеют одинаковые средние, но по меньшей мере различаются своими дисперсиями. Очевидно, что чем больше выборка, тем с большей точностью должно быть получено среднее, иначе говоря, тем меньше шансов, что средняя оценка сильно отличается от генерального среднего. Возможность единично полученной оценки более или менее отклоняться от среднего связана с величиной стандартного отклонения в ряду оценок. Именно этот параметр распределения и зависит от объема выборки, уменьшаясь с ростом п. ПО
Минимальный объем выборки есть п = 1. При этом оценкой среднего х в каждой выборке является единственное полученное в результате испытаний значение х. Если в индексе в скобках указать фбъем выборки (хЦ то при п = 1 получим х,х\ = х. В этом случае очевидно, что дисперсия ряда средних а| равна дисперсии а2х случайной величины X: а| = а^. При равенстве объема выборки п объему генеральной совокупности N оценка среднего равна среднему х( v) = цх, т.е. превращается в константу, а соответственно а| =0. При \<n<N имеем с2х > а| > 0 и при и, близких к N, дисперсия о| близка к нулю. Аналогичная зависимость дисперсии оценок от объема выборки наблюдается и для оценок других констант. Ясно, что чем меньше интервал, в пределах которого могут колебаться значения оценок около своего среднего, тем лучше точечная оценка характеризует константу, тем меньше погрешность в оценке константы. Так как характеристикой варьирования оценок около своего среднего может быть стандартное отклонение, то применительно к оценкам его называют ошибкой соответствующей оценки. Учитывая, что размер этой ошибки является функцией объема выборки, соответствующие ошибки получили название ошибок выборочности, или ошибок репрезентативности. Таким образом, для оценок среднего Зс ошибкой среднего являегся стандартное отклонение сг?, для дисперсии s2 - это а 2, для коэффициента вариации v - это av и т.д. 5.11. ОШИБКА СРЕДНЕГО Среди ошибок репрезентативности наиболее часто представляет интерес ошибка среднего. Чтобы показать, как она определяется, допустим, что исследуемая случайная величина X распределена с дисперсией а2, а выборка имеет фиксированный объем п. Представим выборочное среднее в следующем виде: - 2>, ^1 1 1 1 п п п п п Заметим, что в выражении (*) каждое из слагаемых представляет собой произведение значения случайной величины х на постоянное 111
число (поскольку п - величина постоянная). Функция такого вида, как это следует из формулы C.21) имеет дисперсию 'АР-?*- С другой стороны, б выражении (*) х есть сумма п значений случайных величин, имеющих одинаковые дисперсии (**), а согласно формуле C.22), дисперсия такой суммы равна сумме дисперсий слагаемых, т.е. Л 1 2 1 откуда П /Г 2 а а|= — E.23) п и соответственно *х=-Т=- E-24) Итак, стандартное отклонение для совокупности оценок среднего, т.е. ошибок среднего, обратно пропорционально квадратному корню из объема выборки. Это значит, что если стандарт распределения случайной величины известен, то для заданного объема выборки ошибку среднего можно легко вычислить, причем эта ошибка представляет собой константу (поэтому и обозначена греческой буквой). Вычисление ошибки по формуле E.24) обычно практически невозможно ввиду отсутствия сведений о точной величине дисперсии а2 случайной величины. Однако если известна ее выборочная оценка, то правомерна замена а на s> хотя при этом вместо ошибки среднего Of будет получена ее оценка : %=-7- E.25) Именно эту величину обычно и называют ошибкой среднего, однако обозначение ее латинской буквой подчеркивает, что это по сути не сама ошибка, а ее оценка. В этом отношении обозначение ошибки среднего (и других ошибок репрезентативности) буквой т, широко распространенное до недавнего времени, менее удачно, к тому же при подобном обозначении оказывается замаскированной принадлежность ошибок к стандартным отклонениям. Из формулы E.25) следует, что для получения ошибки среднего нет необходимости располагать несколькими выборками 112
Еакового объема. Достаточно иметь одну выборку с объемом ( чтобы получить оценки дисперсии и среднего, а также и его )КИ. Ошибка среднего определяется величиной среднего квадратиче- рсого отклонения и объемом выборочной совокупности. Чем больше варьирование изучаемого свойства и, значит, чем больше а, тем 'больше оказывается и а^ (или s^ ) при данном п. С другой стороны, jcaic бы ни было велико среднее квадратическое отклонение, при достаточном увеличении числа наблюдений п можно получить сколь угодно малое s^ . Это, как увидим ниже, обычно используют при планировании объема выборок. Так, если мощность пахотного слоя определяется с п = 5, харак- . теризуется х = 24,3 см и s = 2,6 см, то ^ = -~ = 1,2 см. Это означает, что если бы в пределах исследуемого участка почвенного покрова измерение мощности пахотного слоя проводилось с повторностью п = 5 многократно, то оценки средней мощности варьировали бы со средним квадратическим отклонением, близким (учитывая выбороч- ность этой оценки) к 1,2 см. 5.12. ОШИБКИ ДРУГИХ ОЦЕНОК Ошибки дисперсий и стандартных отклонений обычно не представляют практического интереса, так как о точности оценок этих констант можно судить, воспользовавшись иными, более корректными подходами, о чем речь пойдет ниже. Однако с принципиальной точки зрения эти ошибки заслуживают внимания, поскольку они принадлежат к группе ошибок репрезентативности, иллюстрируют случайность соответствующих оценок и единообразие в подходе к характеристике их варьирования. С учетом сказанного приведем ошибки для некоторых оценок. При нормальном распределении случайной величины X и больших объемах выборок (например, при п > 100) оценка дисперсии s2 имеет стандартное отклонение °>'=*2Ш' E.26) а для оценки среднего квадратического отклонения s ошибку можно найти по формуле '■'Ж <527) 8 Е.А.Дмитриев 113
При малых объемах выборки п оценку ss долее правильно находить по формуле s s4 =■ 5 V2(«-0 * Для коэффициента вариации v ошибка sy составляет E.28) = V- 0,5+0,0001-v2 или менее точно: 4ъп' E.29) E.30) Среднее абсолютное отклонение в, вычисляемое по формуле EЛ0)> являясь оценкой соответствующего генерального значения, также имеет свою ошибку репрезентативности, которая при условии нормальности распределения величины х приближенно равна ^ = ji-I.-L« 0,603 JL. E.31) Ошибку медианы 5med можно вычислить по формуле *med=C-4r, E.32) где с - некоторый коэффициент, зависящий от п. В выборке объемом п = 2 коэффициент с в точности равен единице (при этом Med = х ) и с увеличением п постепенно возрастает: в случае нормального рас- ■£ пределения он стремится к л— при п -> <х>: п 4 6 8 10 12 20 оо с 1,09 1,14 1,16 1,18 1,19 1,21 1,25 5.13. ОШИБКИ ФУНКЦИЙ ОТ СЛУЧАЙНЫХ ВЕЛИЧИН Часто полученные в результате выборочных наблюдений оценки среднего используют в дальнейшем для нахождения тех или иных величин, представляющих собой функцию от этих средних. Так, средние значения плотности почвы используют для вычисления массы того или иного слоя почвЫу а совместно со средними значениями содержания какого-либо вещества (например, воды или элемента 114
ццтания) - ддя оценки запасов соответствующего вещества. В подобных случаях функция, будучи зависимой от оценки, т.е. от случайной величины, сама оказывается случайной величиной, а следовательно, имеющей варьирование, которое можно охарактеризовать соответствующей ошибкой (стандартным отклонением). Пусть у функция от случайной величины X, ошибка репрезентативности которой есть 5Я , величины а, Ъ, к - постоянные, а е - основание натуральных логарифмов. Тогда ошибка функции sy в зависимости от вида функции может быть вычислена по следующим формулам1: если у = а + х , то sy = s^ ; E.33) если у = а х , то sy = \a\ s^ ; E.34) если у = ±,то * НI^ = ^; <535> если у = хк , то sy= xk~l • s^*J\k\ ; E.36) если у = VJ , то sv = -—=■; E.37) V2J если у = аеЬх , то sy -\b\ys^ '> E.38) если у = algftx , то ^ = -^^ . E.39) В том случае, когда у есть функция двух или большего числа случайных величин, ее ошибка оказывается функцией ошибок этих величин. Наиболее просто ошибку функции можно найти тогда, когда случайные величины, выступающие в качестве аргументов, взаимно независимы. Так, для суммы или разности двух величин Зс и г , имеющих ошибки s^ и s^, ошибка равна квадратному корню из суммы квадратов этих ошибок: если у = х - I, или у = х + z > то sy = у j|- + jj . E.40) Это правило справедливо для любого числа слагаемых и вычитаемых при условии их независимости. Ошибки произведения и частного оценок средних независимых случайных величин в общем виде допустимо находать по следующей формуле: - Гл У E.41) 1 Степень приближения формул E.35) - E.39) невысока и пользоваться ими нужно очень осторожно. 115
При у = х z эту формулу можно переписать в виде sy = V(^xJ+(^zJ . E.42) X а при у = з в виде z _ yjizsxJ +(xs-zJ E.43) Для иллюстрации использования некоторых из приведенных выше формул допустим, что требуется оценить запас влаги в слое 0-25 см, если в слое 0-10 см плотность почвы 5j с соответствующей ошибкой Sj равна 1,02 ± 0,03 г/см3, а абсолютная влажность иу и ее ошибка sw равны 29,51 ±0,72%. В слое 10-25 см значения этих свойств таковы: d2±s^ - 1,13 ± 0,02 г/см3 и w2 ±s$ = 23,79 ± 0,65%. Запас воды W в четвертьметровом слое почвы вычисляется как сумма запасов воды W\ и Wi в слоях 0-10 см и 10—25 см: W = W\ + Wi. Запас воды W^ в ;-м слое, выраженный в мм, вычисляется по формуле Щ = 091.Ц%кь (*) где wt - абсолютная влажность почвы в %, ^ - плотность почвы в г/см3, А/ - мощность слоя в см. Учитывая, что h\ = 10 см и fa = 15 см, получаем: PFi = ОД • 29,51 • 1,02 • 10 = 30Д мм, И^2 = 0,1 • 23,79 - 1,13 - 15 = 40,3мм, W = 30,1 + 40,3 = 70,4мм. Из входящих в формулу (*) величин выборочными являются di и wt (выборочной может быть и й,), а поэтому ошибка sw. для каждого отдельного /-го слоя будет определяться ошибками средаей плотности почвы и ее влажности. Согласно формуле E.42), для произведения \vxdx ошибка s-^ оказывается равной ^B9,5b0,03J + A,02 • 0,72J = 1,15 . Так как ft и 0,1 - величины постоянные, то ошибка % в силу формулы E.34) есть 0,1 • 10 • 1,15 = 1,15 мм. Аналогично для слоя 10-15 см получим s-^ = VB3,79-0,02J + (U3.0,65J =0,88 и sWi = ОД. 15-0,88 = 1,32 мм. Зная ошибки в оценке среднего запаса влаги по отдельным слоям, легко определить и ошибку s^ суммарного запаса влаги в слое 0-25 см; согласно формуле E.40) sw - ^/1Д52 +1,322 = 1,8 мм. 116
Итак, в результате выборочное™ сведений о влажности и плотности почвы, запас влаги в слое 0-25 см, оцениваемый величиной 70,4 мм, характеризует истинный запас влаги с ошибкой репрезентативности, равной 1,8 мм. При использовании формул E.40) -E.43) существенно выполнение условия независимости переменных. Это можно проиллюстрировать на примере вычисления порозно- стн почвы. Пусть для некоторого горизонта почвы средняя плотность твердой фазы с ее ошибкой равна g ±sg = 2,67±0,02 г/см3, а плотность почвы характеризуется значениями 1- 1,24 г/см3 и s-d = 0,04 г/см3. Для вычисления порозности Р существуют две равноценные формулы: z-d Р = ± 100 (*) Р = 100-—100, (**) g дающие одинаковую величину порозности. В данном случае Р = 53,6 %. Для нахождения ошибки sP порозности, вычисляемой по формуле (*), следует прежде всего найти ошибку sgmd разности g-d. Согласно формуле E.40), имеем (в дальнейшем нам потребуется величина s2g_d, поэтому квадратный корень мы извлекать не будем): s\_d =0,022+0,042 =0,0020. Теперь, учитывая, что g-d =1,43 и используя формулы E.43) и E.34), получим ♦ i™V2,672.0,002 + l,432.0,022 лп0/ 0 sP = 100— — = 1,7%. Звездочка обозначает, что 2,672 ошибка sP рассчитана для функции вида (*). Если порозность вычисляется по формуле (**), то согласно формулам E.43) и E.34) с учетом равенства E.33), ошибка порозности У2,672.0,042+1,242-0,022 2,672 Итак, ошибка в одном случае оказалась равной 1,5, в другом- 1,7%. Причина этих различий заключается в том, что при вычислении sp не было соблюдено условие независимости средних: составит sp = 100-^ - -^ - = 1,5 %. 8* 117
вычисление ошибки отношения — по формуле E.43) неправо- g мерно, поскольку разность g - d зависит от g. Если порозность представлена в виде функции (**) от g и rf, то при вычислении ошибки sP нарушения принципа независимости нет (вообще говоря, оно остается, поскольку в принципе d не независимо от g, но этой зависимостью допустимо пренебречь по причине ее малости). В итоге получаем Р ± sP = 53,6 ± 1,5 %. 5.14. КАЧЕСТВО ОЦЕНОК Выше мы отмечали, что для одной и той же константы ошибку можно получить разными способами. Так, для среднего арифметического в принципе можно взять в качестве оценки полусумму лимитов (формула E.5)), хотя чаще используют среднее взвешенное (формулы E.6) или E.7)). В случае симметричности распределения оценкой среднего арифметического может служить выборочная медиана (формулы E.2) -E.4)), а иногда и мода (формула E.1)). Аналогичная неоднозначность подходов существует и при нахождении оценок дисперсии, коэффициента вариации и других констант. Очевидно, что оценки, полученные разными способами, отличаются не только сложностью и трудностью их вычисления, но и некоторыми качественными особенностями. Качество оценок может проявляться по-разному, и некоторые из качеств оценок полезно знать. Прежде всего заметим, что, будучи переменными случайными величинами, оценки могут быть охарактеризованы математическими ожиданиями. Очевидно, что наиболее желательна ситуация, когда среднее взвешенное значение оценки равно оцениваемой константе, но это бывает далеко не всегда. Равенство или неравенство математических ожиданий оценок и соответствующих им констант служит критерием для определения такого качества ошибок, которое получило название смещенности. Если математические ожидания при любом объеме выборки равны оцениваемому параметру или константе, то такие оценки называют несмещенными. Для смещенных оценок их математическое ожидание отлично от оцениваемой постоянной величины. Например, выборочное среднее, вычисляемое по формулам E.6) и E.7), является несмещенной оценкой генерального среднего ц, так как Е(х ) = Е(х) = ц при любых п. Такая же несмещенная оценка для а2 есть s1, вычисляемая по формуле E.11), поскольку E(s2) = а2. Если сумму квадратов центральных отклонений £(*,-*J 118
разделить на п, а не на п - 1, как в формуле E.11), то полученный средний квадрат также является оценкой дисперсии, но оценкой смещенной, посколь- ку Е\ :а2. Понятие смещенности, как видно, относится к средним, а не к отдельным значениям оценок. В связи с этим можно утверждать, что в среднем смещенная оценка дисперсии, полученная по формуле E.44), занижает оцениваемый параметр о\ то это совсем не означает, что каждая конкретная единичная смещенная оценка отличается от соответствующего параметра больше, чем несмещенная оценка. Так, в пример с плотностью почвы (см. § 5.6) бычо получено значение ^ = 0,00070 (г/см^. Согласно формуле E.44), s, = 0,00056 (г/см3J. Хотя последняя оценка смещенная, это отнюдь не дает оснований утверждать, что оцениваемая величина а? ближе к 0,00070, чем к 0,00056. Сравнение формул E.11) и E.44) показывает, что по мере роста п различие между оценками ^ и si стирается. Оценки, которые с увеличением п стремятся к оцениваемой константе, называются состоятельными оценками. Несмещенные оценки всегда являются состоятельными. В этом отношении как выборочное среднее арифметическое, так и обе оценки дисперсии, смещенная и несмещенная, являются состоятельными оценками. 5.15. ОЦЕНКИ КОЭФФИЦИЕНТОВ АСИММЕТРИИ И ЭКСЦЕССА И ИХ ОШИБКИ Вычисление несмещенных оценок коэффициентов асимметрии и эксцесса производятся по достаточно громоздким формулам и обычно оказывается мало оправданным потому, что точное значение таких коэффициентов, как правило, не слишком необходимо, а ошибки этих коэффициентов при этом настолько велики, что смещенностью вполне допустимо пренебречь. По этой причине оценки А и Е коэффициентов асимметрии а и эксцесса б находят по формулам наиболее простого вида: А = У"-£(*/-*>3 _ E.45) *»-W Е(*,-*J VI (*,-*) 119
£= *•£(*,--^L_3 E46) К*, -хJ или, если оценка дисперсии s2 уже вычислена: А = HLJXf-xj* ^ E 47) Ttf3 Е=ч£(х,-х)А 3 E48) Соответственно ошибки ^иЯ могут быть вычислены по формулам *-^, E-49) 24 E.50) из сравнения которых видно, что ошибка коэффициента эксцесса в 2 раза больше ошибки коэффициента асимметрии: sE = ЪА. 5.16. ОЦЕНКА ДОЛИ И ЕЕ ОШИБКА Исследователю сравнительно редко бывают известны генеральные доли с наличием признака Р или его отсутствием Q, как, например, доля березы в колке, где все деревья наперечет и объем генеральной совокупности деревьев конечен. Обычно о доле приходится судить на основании выборки того или иного объема и, среди элементов опробования которой некоторое их число /+ оказывается с наличием признака, а /__ - с его отсутствием. При этом /+ + /. = л, а р = А, q = L_ E.51) п п представляют собой оценки долей Р и £), причем р + q = 1. Так, если при оценке всхожести из п = 100 зерен всхожими оказались/+ = 0,90, то р = 0,90. Оценку дисперсии семян по всхожести по аналогии с C.34) можно определить по формуле s2=p{\-p), E.52) и она окажется равной s2 = 0,90 • A - 0,90) = 0,09. 120
Однако существенно больший интерес представляет ошибка доли, характеризующая возможную вариацию р при данном объеме выборки л. По аналогии с обычной ошибкой среднего ошибку доли sp можно вычислить из выражения В рассматриваемом примере она составляет s J^ = 0,03. V 100 Ошибка доли всегда меньше 0,5 и при заданном постоянном п достигает максимального значения при/? = q = 0,5. Вопросы для самоконтроля. 1. В чем принципиальное отличие констант распределения от их оценок? 2. Зависит ли возможносгь получения оценок моды и медианы от уровня измерений признака и объема выборки? 3. Чем отличаются оценки среднего арифметического, полученные разными способами? 4. В чем отличие и что общего у смещенной и несмещенной оценок дисперсии? 5. Что показьюают ошибки репрезентативности и к чему они относятся - к константам или к их оценкам? 6. Что общего между всеми ошибками репрезентативности? 7. Можно ли провести аналогию между зависимостью случайных величин от особенностей элементов опробования и зависимостью оценок от объемов выборок? 8. Что такое качество оценок? 9. Чему может быть равна ошибка доли и почему?
Глава 6 ТЕХНИКА ВЫЧИСЛЕНИЙ И ПРЕДСТАВЛЕНИЕ РЕЗУЛЬТАТОВ 6.L ОБЩИЕ ВОПРОСЫ ТЕХНИКИ ВЫЧИСЛЕНИЙ Приведенные в предыдущих разделах формулы далеко не всегда в их исходном виде используются для вычисления различных оценок, поскольку та форма записи, которая хорошо отражает смысл показателя, отнюдь не всегда указывает оптимальный путь для проведения вычислений. Конечно, это касается не всех показателей, а лишь тех, где приходится иметь дело с суммами некоторых функций от значений случайных величин, поэтому мы здесь не будем касаться техники вычислений таких показателей, как коэффициент вариации или ошибки оценок. Из рассмотрения формул, по которым находятся оценки среднего E.6), дисперсии E.11), коэффициентов асимметрии E.43) и эксцесса E.44), следует, что основные трудности технического характера связаны с отысканием сумм: £х, , £(х,- ЗсJ , Z(*, -*K , Z(x/ ~*L • В свое время, когда исследователи располагали лишь примитивной вычислительной техникой, было разработано немало приемов для упрощения вычислений этих сумм. Отчасти они строились на том, что исходные значения х{ случайной величины X можно преобразовать тем или иным способом, чтобы иметь дело с более простыми числовыми значениями. Например,/все значения х, можно уменьшить на некоторое постоянное число а и все оценки находить для значений у -х -а. В дальнейшем, поскольку интерес представляет не величина Г, а X, требуется внесение поправок, Х01Я при таком преобразовании поправку приходится вносить лишь для среднего (х = у +я),!оценки же для дисперсии, коэффициентов асимметрии и эксцесса в поправках не нуждаются, поскольку для рядов х и у они в данном случае одинаковы. I Все значения х можно умножить на некоторое постоянное число а и вести вычисления для значений у = ах. В этом случае необходимо вносить поправки (см. формулу C.21)) не только для среднего, но и с2 - У 2 *У для дисперсии: х = — , sx = ~-. а а2 ; Возможно использование и обоих видов преобразований одновременно. В настоящее время к этим приемам прибегают сравнительно редко, так как даже простые электронные калькуляторы
позволяют успешно вести вычисления и с непреобразованными данными. Другой аспект проблемы упрощения вычислений связан с возможностью представления интересующих нас сумм в ином более развернутом виде и технически легче реализуемом при практическом решении задач. Для упрощения записей обозначим суммы значений случайной величины в к-й степени буквой S с индексом к: s*=2>,V F-1) а суммы центральных отклонений в к-\\ степени буквой С с индексом к: С* =Е (*/-*)* . F.2) Так, при к~ 1 сумму £#,- будем обозначать S\ или просто 5, £х? =Ли ^х,4=Ли т.д. Аналогично для суммы кубов центральных отклонений имеем С3 =Х(Х/ ~*K • При it- 1, как известно, С\ ~ Z(*i ~*) = 0 и эта величина интереса не представляет. Наиболее часто используется сумма квадратов C2=X(*j-*) • Если имеется необходимость, то в качестве индекса может добавляться обозначение случайной величины, например, X*, = Sx, I(z,.-zJ=C2,z. С учетом принятых обозначений формулы E.6), E.11), E.43), а также E.45), E.46) для вычисления средних и других оценок примут следующий вид: хЛ. F-3) п F.4) F.5) F.6) F.7) F.8) *2 Л = Е = А Е = ^2 . 71-Г с34п C2tJC2 С2 и2 = -£-• nsb ' ■%-'• ИГ4 123
Обычно в основе представления исходных сумм Ск лежат зависимости C.30), описанные при рассмотрении моментов При этом ока зывается, что для вычисления средних, дисперсий, коэффициентов асимметрии и эксцесса необходимо и достаточно найти суммы для первых четырех степеней1: J CW2- —; F.9) П C3=S3--S.S2+~S3; F.10) п п* C4=S4-±S.S3+±S2.S>-±S\ F.11) 6.2. ВЫЧИСЛЕНИЕ ОЦЕНОК ПО НЕСГРУЩЩРОВАШШМ ДАННЫМ Для несгругашрованных данных значения переменной в той последовательности, в которой они получены, возводят последовательно во вторую, третью и четвертую степени, а затем находят суммы значений случайной величины в соответствующей степени как это показано в табл.6.1. ' Учитывая, что п = 15 и используя формулы F.9)-F И) легко найти суммы разных степеней отклонений от ' среднего: С2 = 308-^1-= 34,93 ; С3 = 1630-^.64.308+Х.643 = 17 • 1э 15 152 ' С4 =9224--^1630-64 + -^--308-644 =134,07. *^ 15 Дальнейшие вычисления х,#,АиЕпо формулам F.3) -F.6) не вызывают затруднений: х = ~ = 4 27 • ^ _ 34>93 ^ tn 15 ' ' J "TiTi '50; А- ^-17'77 оiv /г 15-134,07 , А ~ г = 0,33 Е = 3 = -135 34,937Н93 34,932 ' Заметим что таблицы к-х степеней случайной величины, подобные табл. 6.1, обычно не составляют, поскольку современные калькуляторы позволяют получать интересующие исследователя суммы без промежуточных записей. Более того, поскольку сами суммы • Для наиболее часто используемой суммы Сг, если нет опасения спутать ее с суммой иных степеней, цифровой индекс может быть опущен. суммой 124
Таблица 6.1 Нахождение сумм S* для ряда значений твердости солонца (х - число ударов, обеспечивающее погружение плунжера на глубину 10 см) |_ 1 2 3 4 1 5 | 6 7 8 9 10 11 12 13 14 15 _ z*f Xj 3 3 2 3 5 7 3 4 4 3 6 6 6 3 6- 64 х? 9 9 4 9 25 49 9 16 16 9 36 36 36 9 36 308 х? 27 27 8 27 125 343 27 64 64 27 216 216 216 27 216 1630 *i4 81 81 16 81 625 2401 81 256 256 81 1296 1296 1296 81 1296 9224 нужны лишь для вычисления средних, дисперсий, стандартов и других показателей, их, если позволяет вычислительная техника, вообще не выводят из калькулятора. 6.3. ВЫЧИСЛЕНИЯ ОЦЕНОК ПО СГРУППИРОВАННЫМ ДАННЫМ Если экспериментально полученные исходные данные представлены в виде перечня середин классов Xj с соответствующими им частотами^, то процедура отыскания необходимых сумм практически мало чем отличается от описанной выше. Разница заключается лишь в том, что вместо отдельных значений х{ в /с-й степени приходится брать значения середины классов х; в А-й степени с соответствующим им математическим весом fy Тогда 1/Л-; 1/л-2; 1/л3; !/>*/• F.12) F.13) F.14) F.15) 125
В табл.6.2 вычислены суммы Sk для исходных значений 5с, и fj. Далее вычисления ведутся по формулам F.9) -F.11) и F.3) -F.6): С, = 534200 - ОЮ- = 282869 ; 2 150 Сз = 66590000——6140-534200 + -^-61403 =21565844; 150 1502 С = 9821180000——6140 х 4 150 х66590000+-Дг 61402-534200 ^-j-61404 = 3025268939; 150" 150J * = «М°=40,9; ^ = 2И869=1898 А = 21565844 -Уш 150 149 282869 V282869 Е= 3025268939-150 7 2828692 Таблица 6.2 Вычисление х , s2, А и Е для водопроницаемости почвы с использованием формул F.12)-F.1S) для нахождения St j 1 2 3 4 5 6 7 8 о 10 I *> 10 30 50 70 90 ПО 130 150 170 190 fj 69 32 12 13 11 2 4 0 4 3 150 /;*; 690 960 600' 910 990 220 520 0 680 570 6140 f)XJ 6900 28800 30000 63700 89100 24200 67600 0 115600 108300 534200 fjtj 69000 864000 1500000 4459000 8019000 2662000 8788000 0 19652000 20577000 66590000 //*/ 690000 2592000 75000000 312130000 721710000 292820000 1142440000 0 3340840000 3909630000 9821180000 Из приведенного примера легко видеть, что даже при наличии калькуляторов вычисления могут оказаться весьма громоздкими. В связи с этим часто используют такой прием. Значения х заменяют на у} = Xj - Хх , где с - ширина класса, a xi- середина наименьшего класса. При этом у{ примут значения на единицу меньшие номера класса: >>у =j- 1. 126
В дальнейшем для значений у сначала находят все необходимые суммы S^ согласно формулам F.12) -F.15) (заменив в них Xj на yj), а затем и С^> по формулам F.9) -F.11). Искомые значения среднего и дисперсии для изучаемой переменной X вычисляют по формулам cSv X =Jti +- п ^..Л*| л-1 F.16) F.17) Таблица 6.3 Вычисление Зс , s2, А и £ для водопроницаемости почвы с использованием преобразования у, - —*— (xi = 10,<? = 20) j 1 2 3 4 5 6 7 8 9 10 J&ttL *У 10 3.0 50 70 90 ПО 130 150 170 190 fj 69 32 12 13 11 2 4 0 4 3 У) 0 1 2 3 4 5 6 7 8 9 fjyj 0 32 24 39 44 10 24 0 32 27 232 W 0 32 48 117 176 50 144 0 256 243 1066 W 0 32 96 351 704 250 864 0 2048 2187 6532 W 0 32 192 1053 2816 1250 5184 0 16384 19683 46594 Коэффициенты А и Е вычисляют по формулам F.5) и F.6), в которых все Ск берут с индексом у. Такой прием существенно упрощает вычисления, в чем легко убедиться, проведя вычисления для ранее рассмотренного примера (см. табл.6.2) и учитывая, что с = 20 и х,= 10 (табл. 6.3). Согласно формулам F.9) -F.11) получаем C2W=1066 2322 150 = 707; Сад = 6532 — 232-1066 + -^ 150 1502 2323 = 2696; 0^=46594- 150 • 6532-232+- 1502 -1066-232z- 150' •2324=1908. Наконец, по формулам F.16), F.17) и F.5), F.6) находим 127
^10.20.^ = 40,9; ^202.™=1898; А-_ ™*'f» = 1,76; 150 149 707-V707 7072 6.4. ВЫЧИСЛЕНИЕ ОЦЕНОК ПРИ ДОБАВЛЕНИИ ИЛИ ОТБРАСЫВАНИИ ЕДИНИЧНЫХ ЗНАЧЕНИЙ Часто по тем или иным соображениям нужно изъять из выборки одно или несколько значений и для полученной выборки уменьшенного объема заново вычислить оценки среднего и дисперсии (а также стандартного отклонения, коэффициента вариации, ошибки среднего). Если по выборке исходного объема п оценки х и s2 известны, то "исправленные" оценки среднего х * и дисперсии si в выборке объема пФ -п-к, где к - число отбрасываемых значений, можно вычислить без обращения ко всем п* значениям х. Пометив все отбрасываемые значения, например, индексом х_, получим п х - £ х_ (и-1>2 + пх2 -2>2 -(п-к)х2 s2 = к- . п-к-1 При отбрасывании одного значения х. (при к = 1) имеем _ пх - х_ х, =■ F.19) F.20) и-1 (и -1)s2 (х - х) s2=—- "-Г ~ L F.21) и-2 Допустим, что имеется и = 8 значений х содержания гумуса (%): 1,34; 1,48; 1,27; 1,15; 1,42; 1,36; 2,42; 2,15. Для этой выборки х -■ 1,57 и s2 = 0,208. Если отбросить одно значение х. = 2,42, то при и. = 7 по 8 • 1.57 - 2 42 формулам F.20), F.21) получим х. = —* = 1,45 , 8-1 , (8 -1H^08 - fB,42 - U7J s; = '- = о,ю5. 8-2 128
Если из исходной выборки с /1= 8 исключить два, например, наибольших значения х„ B,15 и 2,42), то, согласно формулам F.18), 8-1,57-B,15+ 2,42) F.19), найдем хт - ——~i-——}—l = 1,33 , 6 , 7 0,208+ 8-1,572 -2J52 -2,422 -6-tf32 АЛ1,, 5 Сходная ситуация можех возникнуть, когда к выборке объема п дополнительно добавляется к значений (обозначим такие значения х+). Если оценки х и s2 былк ранее вычислены, то для нахождения оценок х • к si по выборке увеличенного объема п* = п + к можно воспользоваться формулами Л* ~ л + Г ^ F.22) 2 _ (w-1)j2 +wjc2 +Sxf -(n + fcKc* л = ^^ . F 23) При A: = 1 получим _ rix + x. и+1 F.24) 2 _ ("" 1)?2+7Й(^"ЖJ <625> s+ — . n Отсутствие необходимости обращения ко всем исходным значениям, образующим выборку, не только упрощает процедуру нахождения новых оценок среднего и дисперсии при отбрасывании или прибавлении единичных значений, но и позволяет найти такие оценки в том случае, когда отдельные значения исходной выборки частично (а иногда и полностью) отсутствуют (например, при использовании литературных данных). 6.5. ПРЕДСТАВЛЕНИЕ РЕЗУЛЬТАТОВ СТАТИСТИЧЕСКОГО АНАЛИЗА Выше мы познакомились лишь с оценками и их ошибками, но и этого достаточно для выяснения того, какие результаты необходимо приводить в качестве итога статистического анализа. Набор показателей, характеризующих изучаемое свойство, рассматриваемое в качестве случайной величины, может быть достаточно обширен, однако всегда следует иметь в виду, что наличие возможностей их вычисления еще не означает, что все они должны быть приведены. 129
Вычислять, а тем более придавать гласности, нужно лишь те пока- затели, которые необходимы и достаточны для решения тех задач, ради которых проводилось исследование. Поэтому, например, совсем необязательно отыскивать все те оценки, техника вычисления которых была описана в двух предыдущих параграфах. В такой же мере это относится и к ошибкам оценок, тем более, что при желании ошибки обычно можно вычислить, если необходимые для этого данные представлены. Это последнее определяет некоторый минимум сведений, который следует приводить, чтобы не обесценить результаты статистического анализа. Эгот минимум обязательно должен включать объем выборки л, среднее х и по меньшей мере один из таких показателей как стандартное отклонение s> коэффициент вариации v или ошибка среднего s-% . Какой из этих показателей следует привести, зависит от направления обсуждения и анализа эмпирически полученных данных, но если хотя бы один из них приведен, то, пользуясь формулами E.20) и E.23), можно при необходимости найти остальные два. Более того, этих данных достаточно, чтобы найти ошибку коэффициента вариации и многих других оценок (А, £, 9 и др.), а это особенно важно, если задачи исследования предполагают необходимость указания соответствующих оценок. Сказанное совсем не означает, что если приведена, например величина стандарта s, то противопоказано давать ошибку среднего 5^ и коэффициент вариации. Если ведется обсуждение этих величин, если они нужны не просто как свидетельство того, что они вычислены, то указание таких показателей не только возможно, но и необходимо. Наряду с желательностью оптимизации набора статистических показателей не менее важно уметь приводить результаты статистического анализа с нужной степенью точности. Так, стандартные отклонения (и ошибки оценок в том числе) должны содержать не более, чем две значащие цифры (если первая из них есть 1 или 2, то допустимо приводить и три цифры). Точность оценки констант определяется точностью ошибок и бессмысленно приводить оценки с большей точностью, нежели их ошибки, но вполне допустимо ограничиться меньшей точностью, если большая точность практически не нужна. В примере с характеристикой твердости солонца (см. табл. 6.1) при п = 15 было получено 5F = 4.27 и s2 = 2,50. Поскольку в значении s = д/2,50 = 1,58 первой значащей цифрой является единица, оценку стандарта можно приводить с тремя значащими цифрами, как нами 130
и сделано. Ошибка среднего согласно формуле E 23) есть s^ -- 0,41, в ней достаточно иметь две значащие цифры; так как эта ошибка приводится с точностью А = 0,01, то и оценку среднего следует давать с такой же точностью. Вычислив по формуле E.20) коэффициент вариации v = 37,00%, а затем по формуле E.28) его ошибку sv = 6,8%, заключаем, что приводить оценку коэффициента вариации с Точностью до 0,01% безграмотно. При такой его ошибке коэффициент вариации можно приводить лишь с точностью до 0,1% и даже до 1%. Ошибки коэффициентов асимметрии и эксцесса по формулам E.47) и E.48) соответственно равны 0,63 и 1,26. Поэтому коэффициенты А и Е с большей точностью, чем до 0,01, приводить нет смысла, а из практических соображений допустимо даже ограничиться точностью до А = 0,1, и тогда оценки будут иметь вид Л =0,3 и £ = -1,4. Вопросы для самоконтроля. 1. С чем связано отличие рабочих формул от исходных для вычисления основных оценок? 2. Чем определяется набор оценок и их ошибок, которые следует вычислять? 3. Какими соображениями следует руководствоваться при опре^ делении минимального набора статистических показателей, которые должны указываться при подведении итогов статистического анализа? 4. С какой точностью следует приводить оценки и чем она определяется?
Глава 7 СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ И ИХ ПРОВЕРКА 7.1. ОСНОВНЫЕ ПОНЯТИЯ Исследователь, располагая результатами выборочных наблюдений и используя оценки вместо интересующих его констант, вынужден делать свои выводы и заключения относительно свойств изучаемых случайных величин. Принятие решений в таких условиях иногда создает немалые трудности, поскольку выводы должны делаться в отношении свойств генеральных совокупностей, а при этом всегда имеется возможность противопоставить выдвигаемому утверждению некоторое другое. Действительно, в силу выборочное™ полученных сведений оценки одной и той же константы в разных выборках обычно бывают неодинаковыми, а поэтому различия в оценке еще не являются свидетельством того, что оцениваемые константы не равны между собой. Это представляется достаточно ясным и не вызывающим сомнений до тех пор, пока выборки принадлежат одной генеральной совокупности. Однако обычно выборки принадлежат в чем-то различным генеральным совокупностям, и тогда появляется искушение все различия в результатах выборочных наблюдений объяснять тем, что отличны друг от друга генеральные совокупности и соответствующие им константы. В таких случаях обычно главным критерием оказывается "похожесть на правду", и если выборочные показатели этому критерию удовлетворяют, то выводы из их сравнения рассматриваются соответствующими истине, т.е. отражающими свойства генеральных совокупностей. Тем не менее непротиворечивость логике изучаемого явления в подобных случаях не всегда может служить убедительным аргументом в пользу выдвигаемого утверждения, например о неравенстве констант. Так, вполне логично считать, что промывка почвы должна приводить к уменьшению величины плотного остатка. Поэтому если соответствующие выборочные средние до и после промывки оказываются равными 1,23 и 1,12%, то исследователь считает себя вправе настаивать на подобном заключении. Однако скептик может сказать, что промывка величину плотного остатка не изменила, а наблюдаемые различия всего лишь следствие случайной вариации. Если в результате внесения нового вида удобрения по результатам полевого опыта урожайность зерновой культуры оказалась выше на 4 ц/га, то в отличие от энтузиаста исследователя осторожно 132
оценивающий ситуацию специалист может усомниться в реальности прибавки, особенно если этому специалисту нужно принимать решение об организации производства соответствующего удобрения. Очевидно, что одни логические рассуждения при этом не могут помочь в решении вопроса, какому из утверждений следует отдать предпочтение. Круг вопросов аналогичного характера может быть бесконечен, и во всех подобных случаях суждения о наличии сходства или различия, о равенстве или неравенстве всегда имеют характер лишь более или менее правдоподобных допущений, причем в силу неполноты информации любому предположению может быть противопоставлено другое, отвергающее первое. Естественно, что эти допущения касаются свойств генеральных совокупностей, поскольку именно они являются объектом статистических исследований, а выборка служит лишь источником информации об этих совокупностях. Некоторое предположение о свойствах генеральной совокупности, которой принадлежит выборка, представляет собой статистическую гипотезу. Обычно она сводится к тому, что одной или нескольким константам приписывается некоторое значение. Это исходное предположение называется нулевой гипотезой и обозначается Но. Например, допущение, что среднее ц равно постоянному числу я, записывается как Но: \л = а. Нулевой гипотезе противопоставляется некоторая альтернативная гипотеза Н\, которую можно сформулировать по-разному, например как цФ а или \х> а. Содержание нулевых или альтернативных гипотез, как мы увидим ниже, бывает весьма различным и касается предположений не только о константах, но и о более общих особенностях генеральных совокупностей, например о соответствии закона распределения изучаемой случайной величины некоторому виду (например, нормальному). Статистическая гипотеза может быть подвергнута проверке, суть которой сводится к выяснению, насколько полученные в выборочном наблюдении данные соответствуют выдвигаемой гипотезе. В результате такой проверки нулевая гипотеза либо принимается, либо отвергается в пользу альтернативной. Объективизация процедуры проверки гипотез осуществляется с помощью соответствующих критериев или тестов, представляющих собой определенный набор правил, позволяющих принять или отклонить выдвигаемую нулевую гипотезу. В основе критерия обычно лежит случайная величина с известным законом распределения, единичное значение которой вычисляется по результатам выборочных наблюдений с учетом выдвигаемой нулевой гипотезы. Подобного рода случайные величины нередко называются статистиками для проверки гипотез. 133
Правила, согласно которым нуль-гипотеза отвергается или принимается, носят чисто вероятностный характер и определяются исходя из задач исследования, особенностей объекта и других соображении. Обычно всю область значений случайной величины, используемой в качестве статистики для проверки гипотезы, разделяют на две части, одна из Которых соответствует области принятия нулевой гипотезы, а другая, так называемая критическая область, - отклонению ее. Критическая область статистики для проверки гипотезы состоит из всех значений, при которых принимается решение отвергнуть #о. Значение, соответствующее границе между этими областями называется критическим значением и устанавливается в зависимости от принятого уровня значимости а, представляющего собой ту вероятность, с которой значение случайной величины может оказаться в критической области. Если полученное в результате проведенного исследования значение случайной величины попадает в критическую область, то нулевая гипотеза отвергается. Принятие или отвержение одной и той же нулевой гипотезы может зависеть от того, какова альтернативная гипотеза. Например, гипотеза Но: ц = 0, не отвергнутая при Ни ц * 0, может быть отвергнута с тем же а при Hi: ц> 0,1. ^Зтклонение нулевой гипотезы при попадании значения случайной величины в критическую область нельзя рассматривать как доказательство того, что гипотеза неверна, так как значения, выходящие за пределы области принятия гипотезы Но могут иметь место и в случае правильности нуль-гипотезы, и вероятность такого события известна - она равна а. Отклоняя правильную нулевую гипотезу, мы допускаем так называемую ошибку первого рода, принятый же уровень значимости а характеризует риск допустить такую ошибку. Иначе говоря, уровень значимости характеризует ту вероятность, которой решено пренебрегать в данном исследовании. Вероятность Р = 1 - а, которая соответствует области принятия нулевой гипотезы, называется доверительной вероятностью. Если значение случайной величины попадает в такую область, то нулевая гипотеза при принятом уровне значимости а (или доверительной вероятности Р) не отвергается, но это тоже ни в коей мере нельзя расценивать как доказательство правильности нулевой гипотезы, так как в действительности она может оказаться неверной. Например, ц может отличаться от д, но если разность между ними относительно невелика, то нулевая гипотеза Но: ц = а чаще будет оставаться в силе, нежели отвергаться. Нужно иметь в виду, что в некоторых случаях a priori известно, что нулевая гипотеза неверна, и тем не менее ее следует проверять. Так, практически мы не имеем дела со свойствами, распределение которых является строго 134
нормальным. Это делается очевидным, если вспомнить, что нормально распределенная случайная величина должна принимать значения от -оо до +оо. Тем не менее гипотезу о нормальности распределения достаточно часто проверяют, но не для того чтобы проверить ее правильность, а чтобы выяснить допустимость аппроксимации изучаемого распределения нормальным законом. Принятие нулевой гипотезы, когда она неверна, носит название ошибки второго рода. Вероятность такой ошибки обозначается р. С вероятностью 1 - р принятия нулевой гипотезы, когда она верна, связывается в математической статистике понятие мощность критерия. Очевидно, что уменьшая вероятность ошибки первого рода (а), мы неизбежно увеличиваем вероятность ошибки второго рода р. Выбор уровня значимости а (а устанавливается обычно а, а не р) определяется условиями проведения эксперимента, ответственностью выводов и учетом того, ошибка какого рода наиболее нежелательна. В большинстве случаев принимают а = 0,05 E%), что соответствует доверительной вероятности Р = 0,95. В большинстве случаев предпочтение нулевой гипотезы оказывается равносильным признанию безрезультатности проведенных исследований. Именно так можно оценить результаты эксперимента, если нет оснований считать, что тот или иной фактор влияет на изучаемый признак или нет оснований говорить о наличии динамики свойства. Нередко это бывает связано с недостаточностью объема выборок, увеличение которых по техническим или иным причинам не представляется возможным. В подобных случаях бывает допустимо увеличить уровень значимости до 10% (а иногда и до 20%), но это означает, что в среднем из 10 (или из 5) случаев в одном мы будем отклонять правильную нулевую гипотезу, т.е. надежность выводов окажется очень небольшой. Для проверки спорных положений, при ответственных рекомендациях выводы должны быть обеспечены с доверительной вероятностью 0,99 или 0,999 (с 1%-м или 0,1%-м уровнем значимости). Заканчивая рассмотрение основных понятий, связанных с проверкой статистических гипотез, отметим два важных обстоятельства. Во-первых, общераспространенные термины "принять гипотезу", "отвергнуть гипотезу", по своей сути являются сокращением более тонких понятий таких, как "нет достаточных оснований, чтобы нулевую гипотезу считать неверной" или "более предпочтительно считать, что верна альтернативная гипотеза, нежели нулевая". Во- вторых, проверка статистической гипотезы не дает возможности что-либо доказать. Результаты проверки всегда носят вероятностный характер и всегда остается (хотя подчас и ничтожно малая) 135
вероятность того, что принятая гипотеза, нулевая или альтернативная, не соответствует действительности. Поэтому при статистическом анализе результатов испытаний следует избегать выражений со словом "доказано" (например, "мы доказали, что различия существуют"), заменяя их более слабыми утверждениями ("можно считать, что средние отличны друг от друга", "допустимо рассматривать распределение как нормальное" и пр.), отмечая одновременно уровень значимости как меру надежности делаемых заключений. 7.2. СТАТИСТИКИ ДЛЯ ПРОВЕРКИ ГИПОТЕЗ Существует достаточно много статистик для проверки гипотез. Мы ограничимся рассмотрением лишь нескольких наиболее важных распределений, используемых для построения критериев. 1. Распределение Стьюдента. С появлением этого распределения в статистике началась новая эра, поскольку оказалось возможным по малообъемным выборкам делать столь же статистически обоснованные заключения, как и по выборкам большого объема. Распределение Стьюдента - это распределение отклонений нормально распределенной случайной величины от генерального среднего, нормированных выборочной оценкой среднего квадратическо- го отклонения. Это распределение зависит от числа степеней свободы v, с которым найдена оценка среднего квадратического отклонения. Классическим примером распределения Стьюдента является распределение стандартизованных отклонений Зс-ц ' = ~' <7Л> где х - нормально распределенное выборочное среднее; \л - генеральное среднее; s^ - ошибка среднего, вычисленная по выборке объема п\ t - значение случайной величины, распределенной по Стьюденту с v = п - 1 числом степеней свободы. Кривая распределения Стьюдента похожа по внешнему виду на , ,__...-, . , , . , кривую нормального -3 ~2 -1 ° l 2 Ъ lyt распределения: она одно- Рис.7.1. Кривые нормального распределения {г, верШИННа, СИММетрИЧНа, сплошная линия) и распределения ^-Стьюдента при ее ветви асИМПТОТИЧесКИ v = 3 (пунктирная линия) Приближаются К ОСИ аб- сцисс (рис. 7.1). При 136
v-x» распределение Стьюдента стремится к нормальному распределению с параметрами ц = 0 и а = 1. Наибольшее отличие распределения Стьюдента от нормального наблюдается при v = 1, когда при значениях переменной величины г, близких к среднему, плотность вероятности распределения Стьюдента меньше, а при значениях, сильно отличающихся от среднего, больше, чем при нормальном распределении. Для распределения Стьюдента составлены таблицы. Наиболее распространенными являются те из них, в которых указаны критические значения fa, больше которых единичное случайно полученное значение | t | при данном v может произойти с вероятностью а (см. табл. Ш Приложения). Очевидно, что fa есть квантиль A - а) распределения t. Из табл. Ж видно, что для одинакового уровня значимости a критические значения ta с увеличением v уменьшаются, причем особенно интенсивно при малых v и а. Так, при увеличении числа степеней свободы с 1 до 2 значение fo,05 уменьшается почти в 3 раза (с 12,71 до 4,30), а fo.oi - более, чем в 6 раз (с 63,66 до 9,92). При дальнейшем росте числа степеней свободы уменьшение fa постепенно замедляется. Например, если v = 10, то Го,о5 = 2,23, а fo.oi = 3,17, в то время как при v = со (т.е. при нормальном распределении) Го,о5 = 1,96 и fo.oi = 2,58. Отмеченный характер зависимости ta от v и а заслуживает внимания, поскольку он во многом определяет стратегию выборочного исследования, в частности повторность в проведении исследований. 2. Распределение хи-квадрат. Допустим, что случайная величина Z распределена нормально с параметрами цг = 0 и о\ - 1. Если взять п случайных значений г и найти сумму их квадратов, то полученная сумма будет представлять собой значение некоторой случайной величины, обозначаемой х2 (хи-квадрат): X2 = ЕЛ G.2) Очевидно, эта случайная величина, будучи суммой квадратов, всегда положительна и должна зависеть от числа слагаемых. Величина %2 может принимать значения от 0 до -ню. Вид кривой распределения существенно зависит от числа 2 4 Рис.7.2. Кривые распределения числом степеней свободы v 12 X2 2 с различным 137
слагаемых, точнее, от числа независимых слагаемых, т.е. от числа степеней свободы v. При очень малых v распределение сильно асимметрично (рис. 7.2), но асимметрия быстро уменьшается по мере уве- личент*<1 числа степеней свободы. Для распределения у} среднее число равно числу степеней свободы, а дисперсия - удвоенному числу степеней свободы: ц 2 =v, a22 = 2v. Так как закон распределения %2 известен, то не составляет большого труда вычислить критические значения %2а, случайно превысить которые при заданном v можно с вероятностью а (см. табл. 1УПриложения). 3. Распределение F Фишера. Если имеются две оценки *у2 и s\ одной и той же дисперсии а2 нормально распределенной случайной величины, то, принимая, что s2 > s\, можно найти отношение этих оценок представляющее собой случайную величину, распределение которой было изучено Фишером, названо его имененем и обозначено буквой F. Будучи отношением двух случайных величин, распределение F зависит от числа степеней свободы vi и V2, с которыми найдены оценки дисперсий в числителе (vi) и в знаменателе (v2). Так как с увеличением vi и V2 обе оценки стремятся к одному и тому же параметру а2, то, как легко догадаться, F при этом стремится к единице. Чем меньше vi и V2, тем больше шансов получить в случайном порядке достаточно отличные от единицы значения F. В этом легко убедиться, если обратиться к таблице критических значений Fa, вероятность превысить которые равна а (см. табл. V Приложения). Поскольку в отличие от величин Г и х2 случайная величина F зависит от двух чисел степеней свободы, таблица квантилей распределения F имеет два входа - искомые значения Fa находятся на пересечении столбца и строки, соответствующих числам степеней свободы для числителя и знаменателя (т.е. числам степеней свободы, с которыми найдены большая и меньшая оценки дисперсии соответственно). Вопросы для самоконтроля» 1. Что называется статистической гипотезой и зачем нужны альтернативные гипотезы? 2. Что собой представляют критерии проверки гипотез и на чем они основываются? 138
3. Что такое уровень значимости и доверительная вероятность? 4. Почему при проверке статистических гипотез нельзя ничего доказать и какой смысл имеют выводы из проводимой оценки гипотез? 5. Что определяет выбор критического значения статистики для проверки гипотезы? 6. В чем сходство и различие распределений Стьюдента и нормального? При каких условиях различия в этих распределениях особенно велики и какие практические выводы можно сделать из этого? 7. Что является случайной величиной хи-квадрат и от чего зависят особенности ее распределения? 8. Каковы особенности распределения статистики F Фишера? Как зависит критическое значение Fa при заданном а от числа степеней свободы, с которыми найдены оценки дисперсий?
Глава 8 СТАТИСТИЧЕСКИЙ АНАЛИЗ ОДНОЙ ВЫБОРКИ 8.1. ОБЩИЕ ВОПРОСЫ АНАЛИЗА ВЫБОРКИ Уже по одной выборке можно узнать немало интересного об изучаемой случайной величине, нужно лишь уметь извлекать содержащуюся в ней информацию, количество которой во многом зависит от объема выборки и априорных знаний о свойствах изучаемого объекта. Так, если существует достаточно оснований считать, что свойство имеет распределение, близкое к нормальному, то единичное значение можно рассматривать в качестве точечной оценки среднего арифметического (а также моды и медианы). Если же распределение заведомо асимметрично, то единичное значение скорее может служить оценкой моды. Если известно, что вариация значений свойства относительно невелика (достаточно часто это наблюдается для рН, содержания ила и некоторых других свойств), то даже однократный анализ свойства может дать представление о границах его вариабельности. Однако численную оценку дисперсии, стандартного отклонения и коэффициента вариации можно получить лишь в том случае, когда выборка содержит хотя бы два результата измерения. По мере дальнейшего возрастания объема выборки уже можно получить оценки коэффициентов асимметрии и эксцесса, широкого набора квантилей, появляется возможность составить суждение о целесообразности аппроксимации изучаемого распределения тем или иным законом. С ростом объема выборки уменьшаются ошибки оценок, увеличивается надежность выводов при проверке гипотез. Возможность привлечения тех или иных статистических методов к анализу выборки не означает, что эту возможность нужно всегда и повсеместно реализовывать. Прежде всего нужно использовать лишь те подходы и методы, которые диктуются самим исследованием. Нередко для решения одной и той же задачи могут оказаться пригодными разные методы, и исследователь имеет право либо воспользоваться одним из них, либо реализовать возможность сопоставления результатов, полученных с помощью разных методов. Некоторые из таких методов рассмотрены ниже. 140
S J. ВЫБРАКОВКА Выбраковка представляет собой процедуру отбрасывания одного или нескольких значений (либо наименьших, наибольших ь выборочной совокупности, либо и тех и других) на том основании, что они слишком отличаются от основной массы остальных результатов. Выбраковку обычно осуществляют на первых же этапах анализа выборки и очень часто производят ''на глаз". Например, если при анализе одного и того же образца почвы на содержание гумуса получены результаты (в %): 1,51; 1,52; 1,53; 1,53; 1,61, то последнее значение почти наверняка может быть выбраковано, и основания для этого кажутся вполне очевидными. Выбраковка - процедура весьма ответственная, особенно, когда выборка лгала по объему, так как в этом случае существенно меняются все оценки и их ошибки. Однако и в выборках, насчитывающих несколько десятков значений, отбрасывание даже одного из них может существенно изменить статистические оценки, в особенности, коэффициентов эксцесса и асимметрии, в меньшей мере - дисперсии, еще меньшей ~ среднего, и практически не изменяется оценка медианы, Если никаких нарушений в общих условиях проведения испыга- ний замечено не было, то выбраковку следует проводить с осторожностью, по возможности исполь зуя критерия выбраковки, причем в выборках с объемом п й 3 выбраковку лучлге вообще не проводить, как это было показано специальными исследованиями. Критерии выбраковки могут строиться на разных статистиках для проверки гипотез. При этом проверяемые гипотезы представляют собой некоторые преддоложения о принадлежности (или непринадлежности) всех полученных в эксперименте значений одной и той же случайной величине. Если вызывающее сомнение значение обозначить Хсомн, а множество значений в изучаемой генеральной совокупности X, то нулевая гипотеза состоит в предположении, что хСомн, как и все остальные полученные в выборке значения, принадлежат множеству X что может быть записано в виде Но: хСом» € X (е-знак принадлежности элемента множеству). Альтернативная гипотеза озшчаег, что Хсомн в отличие от всех прочих я не принадлежит случайной ветчине X, т.е. Н\: Лсомн-еА". Причины непринадлежности могут быть различны. Это может быть незамеченное в процессе работы грубое нарушение методики, сбой в регистрирующей аппаратуре, описка при записи результата и другие аналогичные обстоятельства, приводящие к появлению артефакта (лаг. arte - "искусственно" и factus -"сделанный"). Однако большое отклонение Хсоми от основной массы значений не обязательно расценивать как 141
артефакт, поскольку оно может быть, HanpnMq), связано с принадлежностью хсомн другой случайной величине, отличной от X по каким-то параметрам, а, может быть и по виду распределения. Правила, оправдывающие выбраковку, обычно строят применительно к случаю, когда выборка принадлежит величине с нормальным (или близким к нему) распределением. Рассмотрим один из критериев выбраковки, заметив, что Хсомн всегда представляет собой такое значение, которое наиболее сильно отличается от всех остальных, а при этом центральное отклонение [хсомн - х \ оказывается наибольшим из всех возможных. Соответственно максимальное значение по абсолютной величине имеет и стандартизованное отклонение Так как максимум стандартизованного отклонения тгаах есть случайная величина, меняющая свое значение от выборки к выборке, то, зная, закон ее распределения, можно tmax, вычисленное но форму- ле (8.1), использовать в качестве статистики дая проверки гипотезы. Для этого нужно лишь знать критические значения ттах для соответствующего уровня значимости а, и тогда критерий проверки гипотезы о правомерности выбраковки примет следующий вид: если хтах ~ хтах » ТО нулевая гипотеза может быть отвергнута, и выбраковка соответствующего значения Лсомк признается допустимой; если xmax<xmax , то следует считать, что статистических оснований для выбраковки нет. Для случая, когда выборки принадлежат нормально распределенной величине, закон распределения ттах известен, что позволяет табулировать критические значения xmaXe для заданного уровня значимости а в зависимости от объема выборки п (см. табл. VI Приложения). Из рассмотрения табл. М следует, что при данном уровне значимости а с увеличением п критическое значение ттах возрастает, что вполне естественно, поскольку с увеличением объема выборки увеличивается размах варьирования и возрастает вероятность появления больших отклонений от среднего. В приведенном примере проверка статистической объективности выбраковки результата Хсомн выглядит следующим образом ( предположение о близости распределения к нормальному здесь вполне допустимо): х = 1,54; .у = 0,04; rmax=- — = 1/75. Из табл. М 0,04 142
находим, что если п = 5, то rmajt =1,92, что больше тЮах = 1,75. Таким образом, отклонять нулевую гипотезу оснований нет, а соответственно нет статистических оснований и для выбраковки, Процедурой отбрасывания крайних значений нужно пользовать- ся с большой осторожностью, даже если выбраковка представляется статистически оправданной. Дело не только в том, что изучаемое распределение может отличаться от нормального и тогда попадание статистики в критическую область может не столько свидетельствовать в пользу правомерности выбраковки, сколько в подтверждение того, что распределение отлично от нормального. Отбрасывание крайних значений более опасно-потому, что эти значения чаще всего являются вполне естественной принтддежностью соответствующей совокупности и, что особенно важно, подчас оказываются наиболее заслуживающими внимания среди всех других. Например, в раде распределения глубин промачиваиш* почвы при поливе наибольшие значения, существенно отличающиеся от остальных значений, встречаются редко и желание их отбросить всегда очень велико. Однако такие значения никак не являются "засорителями" совокупности, они ее непременная составляющая. Выбраковывая их, мы исключаем одни из самых интересных и важных значений, поскольку именно с ними оказываются связанными как непроизводительные потери поливной воды, так и подъем уровня грунтовых вод, со всеми следующими за этим отрицательными последствиями. Выбраковка есть по сути дела процедура удаления брака, т.е. результатов, возникших по причине нарушения техники измерения, проведения анализа. Но вряд ли имеются основания рассматривать как бракованные, присущие объекту значения, даже сильно уклоняющиеся от всех остальных. Из этого, однако, не следует, что такие значения вообще нельзя отбрасывать, В процессе анализа данных иногда оказывается весьма полезным те или иные значения исключить из выборки, но это не имеет отношения к выбраковке, так как °тбрасываемые значения сами по себе заслуживают изучения. Выбраковка же должна быть скорее исключением, чем правилом. 8-3. АНАЛИЗ ВАРИАЦИИ, АСИММЕТРИИ И ЭКСЦЕССА После выбраковки, если она необходима и допустима, обычно Вь*числяют основные оценки и их ошибки. Поскольку многие приемы статистического анализа основываются на допущении о нормальности распределения, проверка этого допущения заслуживает внимания. Самый простой способ, позволяющий составить предварительное представление о нормальности (точнее, об отличии от НоРмальности) распределения, основан на рассмотрении величины 143
коэцфкдоента вариации. Конечно, коэффициент вариации прежде всего интересен как безразмерный показатель вариабельности случайной величины. Для многих свойств вариабельность и коэффициент й^ришши как мера ее оценки могут существенно зависеть от особенностей элементов опробования, обнаруживая очень заметную тенденцию к уменьшению с увеличением пространства усреднения. Поэтому анализ величины коэффициеюа вариации без учета параметров (массы, объема, площади, формы) элементен опробования оказывается столь же сомнительным, как оценка твердости почвы без учета ее влажности. В:яшшис особенностей пробоотбора {или вообще опробования) ш величину коэффициента ьариации представляет интерес не только потому, что вариация св< шетва являемся важной характеристикой изучаемого объекта по исследуемому свойству, но и по той причине, что от величины п формы пространства усреднения может зависеть качество шшр оксидации распределения случайной величины тем иглi иным законом. Величина коэффициента вариации позволяет косвенно судить о возможное™ агатрж шации распределения случайной величины нормальным законом, Ь основе этого приема дежш то соображение, что при симметричности, свойственное нормальному закону, левая ветвь распределения (ветвь с наименьшими значениями) не может быть слишком короткой, если се измерять чис^тм u/авдартаых от- клонений. Если изучаемое свойство измерено на ткаж, отношений и, следовательно, отдельные значения не могут быть отрицательны, то эта ветвь по меньшей мере должна быть равной двум стандартам, в противном случае начнет сказываться асимметрия в распределении; это означает, что коэффициент вариации не должен превышать 50%. С учетом- сказанного превышение коэффициентом вариации величины 50% можно рассматривать как серьезный аргумент в пользу того, что изучаемое распределение заметно отличается от нормального. Если v < 50%, а тем более, когда v < 30%, распределение в принципе может быть неплохо аппроксимировано нормальным законом, но малость величины коэффициента вариации еще не означает, что распределение близко к нормальному, так как существуют распределения явно отличные от нормального, хотя и имеющие небольшие коэффициенты вариации. Так, при округлении чисел с точностью А в интервале от а - А/2 до а + А/2 распределение допустимо считать равномерным со средним, равным я, и, как это следует из формулы D.73), стандартным отклонением а ~ A/BV3). При этом коэффициент вариации 144
оказывается равным V = —-j= = 28,87 —, откуда следует, что F->0 laS a приа-юо. Например, если содержание ила округляется до целых процентов и А = i%, то при а = 10% имеем V= 2,9%, а при а = 50% получим К=0,6%. Как видим, малость коэффициента вариации не может служить достаточным основанием для того, чтобы признать допустимой аппроксимацию нормальным законом. Заметим, что иногда очень большой коэффициент вариации, существенно превышающий 50%, может не быть свидетельством отличия распределения от нормального, если коэффициент вариации вычислен для случайной величины, полученной в результате измерений на интервальной шкале. В подобных случаях коэффициент "вариации лучше не вычислять. Оценку нормальности распределений можно строить на анализе асимметричности и эксцессивности распределений, хотя такой анализ нередко представляет интерес и сам по себе. Дело в том, что факт обнаружения соответствующих особенностей в распределении может служить поводом для выявления причин их возникновения, а тем самым служит более глубокому пониманию сути изучаемых явлений. При необходимости получаемые знания могут быть использованы и для разработки методов получения исходной информации. Как было отмечено ранее, при нормальном распределении асимметрия и эксцесс отсутствуют (а = 0. е = 0). Полученные по выборочным наблюдениям оценки А и Е практически никогда не бывают в точности равны нулю, даже если генеральная совокупность распределена строго нормально. Однако отличие А и Е от нуля связано не только с тем, что они представляют собой оценки. Достаточно часто распределения в генеральных совокупностях имеют ту или иную асимметричность и эксцессивность, что не может не находить своего отражения в оценках АиЕ. Причины асимметричности распределений могут быть различными. Например, среди факторов, влияющих на изучаемый признак, может существовать такой, который является определяющим, а сам распределен асимметрично. Так, известно, что значительной положительной асимметрией обычно характеризуется распределение во- допроницаемостей, что может быть прямым следствием пуассонов- ского распределения числа крупных пор, приходящихся на единичную площадь при измерении водопроницаемости. Аналогично может обстоять дело с распределением содержания некоторых элементов, если среди первичных почвенных частиц большая их часть лишена этих элементов и лишь в некоторых частицах их 145
концентрация велика. Причиной асимметрии может служить способ количественной характеристики признака. Так, размер пор может быть охарактеризован и их диаметром, и площадью поперечного сечения. При этом если распределение диаметров симметрично, то асимметричным является распределение площадей и наоборот. Достаточно часто распределение рН может считаться симметричным, но это никогда не имеет места для распределения активностей водородного иона. В рамках заданных общих условий проведения испытаний среди второстепенных условий может существовать мощный фактор, определяющий повышенную встречаемость значений случайной величины в одном, двух или большем числе интервалов значений. В таких ситуациях распределение может оказаться мономодальным или полимодальным. Так, неравномерное промачивание почвы дождевыми или поливными водами может оказаться причиной различной эксцессивности распределения влажности почвы на разных глубинах. Иногда такие распределения удается рассматривать в качестве суммы двух или большего числа распределений и множество значений одной случайной величины представлять в виде суммы случайных величин со своими параметрами. Нужно иметь в виду, что асимметричность и эксцессивность распределений могут существенно зависеть от размеров элементов опробования, убывая с их ростом. Отсюда следует, что указание особенностей элементов опробования играет очень большую роль и отсутствие таких сведений может обесценить информацию. Естественно, что при выборочных наблюдениях, имея дело с оценками, исследователь лишен возможности делать безапелляционные выводы о наличии или мере асимметрии и эксцесса. Получив оценки А и Е, прежде чем обсуждать их величину, нужно выяснить, существуют ли основания считать, что асимметрия и (или) эксцесс вообще имеются у изучаемого распределения. В применении к статистическим моделям эта дилемма для асимметрии выглядит как Но: а - 0; Н\: а ^ 0, а для эксцесса как Яо: в = 0; Hi: e * 0. Для проверки гипотез чаще всего прибегают к статистике, предположительно распределенной по нормальному закону с параметрами 0 и 1. Вычисление таких статистик осуществляется с помощью ошибок sA и sE. Счи- И И тается, что если J—L>3 и •L-^->3, то соответствующие нулевые SA SE гипотезы должны быть отброшены в пользу альтернативных. Построение этих критериев проверки гипотез основано на том, что вычисляемые отклонения являются по сути стандартизованными отклонениями. Действительно, здесь числители представляют собой 146
отклонения оценок А или Е от генеральных значений а или е, равных нулю, в условиях проверяемых нулевых гипотез. Поэтому отно- И |Е| шения ~иис некоторым приближением можно считать распре- *л se деленными по Стьюденту. Упрощение сводится к тому, что критическое значение приравнено 3 независимо от объемов выборок. Следует иметь в виду, что при малых объемах выборок ошибки рассматриваемых оценок настолько велики, что вычисление оценок А и Е очень часто оказывается лишенным смысла. В § 6.2 в примере с анализом твердости при л = 15 было найдено А = 0,33 и Е = -1,35. Проверим, можно ли утверждать, что генеральная совокупность, которой принадлежит выборка, имеет асимметричное или эксцессивное распределение. Согласно E.47) и E.48), получаем sA = J— = 0,63 и sE = J— = 1,26; тогда — = —— = 0,5 и V15 V 15 s a 0,63 1—L = = 1,1. В обоих случаях полученные отношения заметно sE 1,26 меньше 3, поэтому никаких оснований для отказа от нулевых гипотез нет, а следовательно, нет оснований и для утверждений, что распределение твердости имеет какую-либо асимметрию или эксцесс. Нередко из подобного анализа делается вывод, что коэффициенты асимметрии и (или) эксцесса недостоверны. Лучше употреблять выражение "статистически незначимы". Однако как бы выводы такого рода не формулировались, суть их состоит в том, что коэффициенты а и (или) б (но не А или Е) нельзя считать отличными от нуля, а уж тем более утверждать, что, например, эксцессивность, судя по значению Е = -1,35, имеет среднюю величину. Из рассмотренного примера видно, что даже при не такой уж малой выборке как п = 15 о статистической значимости коэффициентов асимметрии и эксцесса говорить трудно вследствие очень больших ошибок этих коэффициентов. Действительно, чтобы утверждать, что а * 0 (или е * 0), нужно, чтобы полученные оценки А (или Е) по меньшей мере в 3 раза по абсолютной величине превышали ошибку, т.е. чтобы в рассмотренном выше примере было \А\ > 0,63 • 3 = 1,89 и \Е\ > 1,26-3 =3,78. Если пойти по иному пути и исходя из заданного значения А (или Е) вычислить минимальный объем выборки, обеспечивающий признание асимметрии (или эксцесса) значимым, то окажется, что при \А\ = 1,0 объем выборки должен быть по меньшей мере равным п = 54, а при И| = 0,5 нужно иметь п = 216. Такой же минимальный объем и = 216 обеспечивает возможность утверждать, что е * 0 при \Щ = 1,0. 147
Из рассмотренных примеров видно, что в единичных выборках небольшого объема вычисление коэффициентов асимметрии и эксцесса не слишком целесообразно, поскольку даже при больших значениях оценок \А\ и \Е\ утверждать что-либо по поводу этих коэффициентов оказывается затруднительным. Незначимость коэффициентов асимметрии или (и) эксцесса не есть доказательство отсутствия асимметрии (эксцесса). Просто при этом у нас нет достаточных оснований считать, что они имеются. С другой стороны, отсутствие значимой асимметрии и (или) эксцесса нельзя рассматривать как доказательство (или показатель) нормальности распределения случайной величины. Дело в том, что существуют случайные величины, не имеющие асимметрии или (и) эксцесса, но тем не менее распределенные не по нормальному закону. Другое дело, если есть возможность утверждать, что коэффициент асимметрии (эксцесса) отличен от нуля. Тем самым можно утверждать, что распределение отлично от нормального. Именно так обстоит дело с распределением водопроницаемости И (см. § 6.3), где при п = 150, А = 1,76 и Е = 2,67 получено — = 8,8 и За J—L = 6,7, что в обоих случаях превышает критическое значение 3. SE Здесь есть серьезные основания для утверждения, что а*0ие*0и что распределение отлично от нормального, Н.4. ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ С ПОМОЩЬЮ КРИТЕРИЯ УИЛКА-ШАПИРО Как было отмечено, судить о нормальности распределений по отсутствию асимметрии и эксцесса, как это нередко делается, достаточно рискованно. В то же время нормальность слишком часто оказывается необходимым условием корректного использования различных статистических методов, что вынуждает осуществлять проверку гипотезы о нормальности изучаемого распределения. Существует немало критериев проверки такой гипотезы. Некоторые из таких критериев, называемых нередко критериями согласия, *могут быть использованы для проверки возможности аппроксимации изучаемого распределения разными законами, не обязательно только нормальным.' Другие критерии являются узкоспециализированными, пригодными для оценки согласия изучаемого распределения с законом какого-либо конкретного вида. Одни критерии удобно применять при небольших объемах выборок, другие можно применять 148
лишь в тех случаях, когда выборки насчитывают многие десятки наблюдений. Для проверки нормальности распределения, когда объем выборки 3 < п <, 50, можно использовать критерий Уилка-Шапиро (узкоспециализированный). Применимость этого критерия ограничена условием несгруппированности исходных данных. Процедуру проверки нулевой гипотезы, сводящейся к предположению, что выборка принадлежит нормально распределенной величине, начинают с построения ранжированного ряда значений хг (i = 1, 2, ..., п) от наименьшего (г = 1) до наибольшего (i = и). По выборочным данным вычисляют сумму квадратов центральных отклонений С (по формуле F.9)). Далее находят величину к согласно сле- дующим правилам: если п - нечетное, то к = , если п - четное, то к =—. Затем вычисляют вспомогательную величину В по формуле: где ап_м - некоторые коэффициенты, значения которых в зависимости от п для 1=1, 2,..., к приведены в специальной таблице (см. табл. VII Приложения). Заметим, что в формуле (8.2) сомножители, стоящие в скобках, представляют собой не что иное, как разности между значениями, расположенными симметрично относительно концов ранжированного ряда (при нечетном п медианное значение, занимающее [(п + 1) / 2]-е место при вычислении величины В не используется). Наконец, вычисляют величину W по формуле И/ = *1 , (8.3) С которая и служит статистикой доя проверки гипотезы о нормальности распределения. Если W< W^ny то с уровнем значимости а распределение считается отличным от нормального. Если же W превышает критические значения 1¥а,„, то распределение допустимо рассматривать как нормальное. Критические значения W^n находят в зависимости от а и п из таблиц (см. табл. VIII Приложения). Например, проверим допустимость предположения о нормальности распределения содержания гумуса, если в выборке с п = 5 ю* 149
результаты, приведенные в ранжированной последователь - ности,были: 1,51; 1,52; 1,53; 1,53; 1,61. Находим к = = 2. Взяв из табл. \1 коэффициенты ап_м для п = 5 и i - 1 и 2,получим В = 0,6646 A,61 - 1,51) + 0,2413 A,53 - 1,52) = 0.06887. Согласно формуле F.9), С = 0,0064 и ж = 0'06887 = 0,741, Для * 0,0064 и = 5 имеем Жо^ = 0,762 и, поскольку W = 0,741 < 0,762, можно утверждать (рискуя ошибиться при этом в 5% случаев), что распределение отлично от нормального. 8.5. ПРОВЕРКА ГИПОТЕЗЫ О НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ С ПОМОЩЬЮ КРИТЕРИЯ ХИ-КВАДРАТ В тех случаях, когда выборка достаточно велика и представлена серединами классов с соответствующими частотами, проверку возможности аппроксимации изучаемого распределения тем или иным законом достаточно часто осуществляют с помощью статистики хи- квадрат. Чтобы вычислить статистику %2, необходимо знать те теоретические частоты, которые соответствовали бы отдельным классам значений переменной величины, если бы изучаемое распределение строго подчинялось аппроксимирующему закону, а частоты были бы пропорциональны вероятностям соответствующих классов. При этом обычно приходится делать некоторые допущения, например, при аппроксимации нормальным законом при вычислении теоретических частот предполагается, что среднее и дисперсия равны имеющимся для них оценкам (ц = х , а2 = s2), a суммы абсолютных частот эмпирически найденных ( £ /} ) и теоретических ( £ /} ) °ДИ" наковы и равны п. Мы уже частично рассматривали вопрос о технике вычислений теоретических частот для биномиального и пуассоновского распределений (см. § 4.4 и 4.5). При аппроксимации распределения переменной X нормальным законом для отыскания теоретических частот fj для каждого j-ro класса необходимо найти границы между классами Xjrfj+l\H, выразив их в виде стандартизованных отклонений Zy = (.Ху//у+1\-ц)/ст, для полученных значений отыскать с помощью табл. И Приложения значения функции F(z). Если эта функция табулирована для интервалов от - оо до z, то по разности между значениями F(z), соответствующими соседним границам 150
между классами, можно найти вероятности отдельных классов Pj = F(Zj) -F(Zjj), а умножив их на я, получить теоретические частоты fj. Технику этих вычислений хорошо иллюстрирует табл. 8.1. Таблица 8 . 1 Нахождение теоретических частот для рапределения плотности в пахотном слое дерново-подзолистой почвы (п = 150, с = 0,10 г/см3, ц = 1,27, а = 0,113, аппроксимация нормальным законом) */ 1,05 1,15 1,25 1,35 1,45 1,55 £ fj 7 40 46 39 15 3 150 XJ\J«) 1,10 1,20 1,30 1,40 1,50 ZJ -1,50 -0,62 0,26 1,15 2,04 F(zj) 0,0668 0,2676 0,6026 0,8749 0,9793 Pj 0,0668 0,2008 0,3350 0,2723 0,1044 0,0207 1,0000 fj 10,0 30,1 50,3 40,8 15,7 3,1 150,0 Поясним, что значения х^/.+л найдены по формуле B.12), а вероятности и теоретические частоты крайних классов вычислены не просто как вероятности (и частоты) соответствующих классов. Вероятности крайних классов здесь отражают еще и возможность получения любых значений, меньших наименьшего класса, а для конца распределения - значений, превышающих наибольший класс. Так, для наибольшего класса с х = 1,55 значение Pj = 0,0207, полученное как разность 1 - 0,9793, характеризует вероятность того, что плотность почвы примет значения, большие, чем 1,50. Аналогично, для класса с х = 1,05 значение / = 10,0 и это нужно понимать так, что /= 10,0 есть теоретическая частота того, что х окажется меньше, чем х = 1,10. Из сопоставления эмпирически найденных^ и теоретических частот /, видно, что при их общем сходстве в поведении они в то же время неодинаковы. Проверку гипотезы о нормальности распределения можно осуществить с помощью статистики х2> вычисляемой по любой из формул: х2_^(/;-/;>2 (8.4) fj 151
или 2 ^ fj (8.5) h Если x2 ^ Xa » то нулевая гипотеза о сходстве изучаемого распределения и аппроксимирующего отбрасывается; если у} <%2а, то она остается в силе. Нужно иметь в виду, что %2 допустимо вычислять при условии, что ни одна из частот fj не меньше 5, а объем выборки достаточно велик (и > 100, а по некоторым рекомендациям и л > 200). Если для того или иного класса значений частота f} оказывается меньше 5, то можно провести укрупнение классов. При аппроксимации нормальным законом наименьшие частоты имеют крайние классы, в связи с этим можно объединить крайние классы для того, чтобы суммарная частота превысила 5. Так, поскольку для класса с серединой х} = 1,55 в рассматриваемом примере частота /, = 3,1 < 5, следует объединить этот класс с предыдущим. Эмпирическая частота такого класса равна сумме эмпирических частот: 15 + 3 = 18, а соответствующая теоретическая частота есть 15,7 + 3,1 = 18,8. Распределение вычисляемой по формулам (8.4) или (8.5) величины X2 зависит от числа степеней свободы v, которое равно числу классов к (после их укрупнения, если это необходимо) минус число ограничений. Число ограничений зависит от того, каким законом аппроксимируется изучаемое распределение. При аппроксимации нормальным законом таких ограничений оказывается три. Это допущения, что цх -х , а^. =^ и равенство сумм эмпирических и теоретических частот: Y*fj - Z fj • Поэтому при проверке нормальности распределения с помощью критерия у} значение v = к -3. Это означает, кстати, что классов при проверке такой гипотезы не может быть меньше, чем 4. С учетом сказанного продолжим рассмотрение данного примера. Вычисление статистики %2 с помощью формулы (8.4) приведено в табл. 8.2. Так как к = 5, то v = 5 - 3 = 2. Из табл. IV Приложения при v = 2 находим Хо,о5= 5,99. Поскольку %2 = 4,64 < х£о$= 5,99, нулевая гипотеза не может быть отвергнута с уровнем значимости a = 0,05, а 152
распределение плотности почвы допустимо рассматривать как нормальное. Т аблица 8 . 2 Вычисление %2 для ряда распределения плотности почвы *j 1,05 1,15 1,25 1,35 1,45 fj 7 40 46 39 18 fj 10,0 30,1 50,3 40,8 18,8 frh -3,0 9,9 -4,3 -1,8 -0,8 (fi-fj> 0,90 3,26 0,37 0,08 0,03 X2 = 4,64 8.6. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ СРЕДНЕГО Если величина X распределена нормально, а оценка стандартного отклонения найдена с числом степеней свободы v, то закон рас- х-и пределения t = — нам известен, а, значит, мы можем указать, в Sx каких пределах может меняться t с заданной доверительной вероятностью Р (или с заданным уровнем значимости ос = 1 - Р). Если t с вероятностью Р по абсолютной величине не может быть больше га, то отклонение х от ц с соответствующим уровнем значимости а не может, очевидно, превышать tas^ . Таким образом, значение можно рассматривать как абсолютную погрешность с уровнем значимости а оценки цпо J. Если ц не известно, то у нас нет возможности определить, в какую сторону от ц смещена точечная оценка Зс, занижает ли эта оценка среднее или , наоборот, завышает. Однако мы можем утверждать, что по абсолютной величине отклонение этой оценки от генерального значения среднего в любую сторону с уровнем значимости а не превышает Аа =tas^- Так как х не отличается от ц более, чем на tas^ , то верно и обратное утверждение, а именно, что ц не может отличаться от х более, чем на tas^, т. е. среднее \а с уровнем значимости а должно лежать в интервале значений от x-taSx до x+tas-x~ (с учетом симметричности распределения i). Эти два значения ограничивают так называемый доверительный интервал среднего: 153
x-tasxuliux+tasz. (8.7) Обозначая доверительный интервал среднего при уровне значимости а через ха , запишем xa=x±tass. (8.8) Значения , ограничивающие доверительный интервал, называются доверительными границами. Очевидно, нижняя граница среднего есть f;=x-fas5, (8.9) а верхняя равна x£=x + tass. (8.10) В данном случае среднее характеризуется двумя числами, соответствующими двум доверительным границам. Подобная оценка констант получила название интервальной оценки. Применимость подобного способа оценки среднего ограничена условием близости закона распределения х к нормальному. Однако оценки х обладают замечательным свойством, состоящим в том, что с увеличением п распределение х стремится к нормальному независимо от закона распределения X. В связи с этим распределение х можно считать практически нормальным при п > 30, а при близости распределения X к нормальному и при существенно меньших значениях п. Для нормально распределенных величин X распределение х нормально при любых и, а для симметричных - при п> 10. Эта особенность оценок среднего позволяет достаточно корректно использовать доверительные интервалы среднего при решении широкого круга задач] Как следует из вышеизложенного, для нахождения доверительных интервалов нужно для заданного уровня значимости взять критическое значение га (см. табл. Ш Приложения) с учетом v, с которым найдена ошибка среднего, и, подставив необходимые значения в формулу (8.7) или (8.8), провести вычисления. Так , если точечная оценка влажности почвы с п = 10 окажется равной * = 25,7% при ^ = 1,10, то генеральное среднее влажности почвы с риском ошибиться в 5% случаев (т.е. при а = 0,05) будет заключено в следующем интервале (при v = 9 имеем Го,о5 = 2,26): f0f05= 25>7 ± 2Д6 - 1,10 = 25,7 ± 2,5 = B3,2 * 28ДI. Иначе говоря, с 95%-й уверенностью можно утверждать, что средняя влажность почвы \х.х имеет значение в интервале от 23,2 до 28,2%. 1 Символ -г ознчает "от ... до". 154
Заметим, что повторность, в особенности если она невелика, существенно влияет на ширину доверительного интервала, а тем самым и на точность оценки среднего. Для рассмотренного примера при п = 10 и а = 0,05 по формуле (8.6) находим Ао,о5 = 2,26 • 1,10 = 2,5, т.е. абсолютная погрешность равна 2,5% влажности почвы. С уменьшением п не только возрастает ошибка среднего, но и увеличивается га при том же а. Однако даже если бы то же значение s2 удалось получить при меньшем и, точность оценки среднего оказалась бы ниже. Допустим, что те же средние 5с = 25,7 и s-= 1,10 были получены при п = 3. Для а - 0,05 и v = 2 имеем Го,о5 = 4,30 и xojb = 25,7 ± 4,30 • 1,10 = B1,0 * 30,4) при Ao,os = 4,30 - 1,10 = 4,7. Как видим, уменьшение обьема выборки с 10 до 3 даже при неизменности оценок х и Sf привело к существенному расширению доверительного интервала и соответствующему увеличению абсолютной погрешности почти в 2 раза. 8.7. ПОКАЗАТЕЛЬ ТОЧНОСТИ ОПЫТА И ПОКАЗАТЕЛЬ ОТНОСИТЕЛЬНОЙ ВЕРОЯТНОЙ ПОГРЕШНОСТИ Достаточно часто погрешность, с которой найдена оценка среднего, выражают безразмерным показателем, представляющим собой отношение ошибки среднего к среднему, выраженное в процентах: Этот показатель получил название точности опыта (по Сапеги- ну). В силу своей безразмерное™ он позволяет сравнивать точность оценок разноразмерных средних. Если одинаковые средние и их ошибки получены при разных объемах выборок ( а это возможно при неодинаковой дисперсии), то показатель Р, согласно формуле (8.11), также будет одинаков независимо от различий в объемах выборок. Поэтому если, например, значения х = 25 J и s- = 1,10 оказались полученными как при п = 10, так и при п = 3 (см. § 8.6), то показатель точности опыта в обоих случаях один и тот же: Р = ——100 = 4,3 %. В то же время мы отмечали, что при разных п точность в оценке среднего нельзя считать одинаковой, если точность связывать с одинаковым уровнем значимости. Несовершенство рассматриваемого показателя состоит еще и в его названии: чем выше показатель точности, тем меньше точность. 155
Если абсолютная вероятная погрешность оценки среднего Аа, вычисляемая по формуле (8.6), показывает, на сколько может отличаться генеральное среднее ц от оценки х при заданном уровне значимости а, то отношение Р =4^-Ю0 = ^100% (8.12) JC X можно назвать относительной вероятной погрешностью. Величина Ра показывает, сколько процентов от среднего, принятого за 100%, составляет абсолютная вероятная погрешность оценки среднего или иначе, на сколько процентов от среднего отстоят границы доверительного интервала, в пределах которого находится искомое среднее при уровне значимости а. Из сопоставления Р и Ра следует, что Ра = Pta. Если а = 0,05, то для данного эксперимента показатель относительной вероятной погрешности имеет по меньшей мере в 2 раза большее значение, чем Р, так как при л-*» значение fo,o5-*l,96. Возвращаясь к примеру с влажностью почвы, при п = 10 получим Poos = — • ЮО = 9,7%, а при п = 3 имеем Р0,05 =—• 100 = 18,4%. Как видим, в отличие от показателя точности опыта в обоих случаях одинакового, показатель относительной вероятной погрешности при а = 0,05 с уменьшением л от 10 до 3 возрастает почти вдвое (при условии постоянства среднего и его ошибки). 8-8. ГАРАНТИРОВАННЫЕ МИНИМУМЫ И МАКСИМУМЫ СРЕДНЕГО В некоторых случаях исследователя может интересовать не доверительный интервал возможных значений среднего, а лишь то значение, меньше которого не может быть среднее при заданном риске ошибиться. Такое значение получило название гарантированного минимума среднего. Если обозначить его minCc )ш то получим min(J)a= х- t2a jj. (8.13) Заметим, что для получения гарантированного минимума с уровнем значимости а в формулу (8.13) нужно подставить значение r-Стыодента, взятое из таблицы Ж Приложения для числа степеней свободы v, с которым найдена s^% для удвоенного уровня, т.е. для 2а. По аналогии с гарантированным минимумом среднего можно найти и его гарантированный максимум: 156
max(x )a = x + t2a Sj . (8.14) / Между гарантированным минимумом и нижней доверительной границей (как между гарантированным максимумом и верхней доверительной границей) существует нечто общее: они об^а ограничивают снизу (или сверху) возможные значения среднего/Однако если нижней границе всегда соответствует верхняя границ? (и наоборот), так что при этом доверительный интервал ограничен с двух сторон (двусторонний доверительный интервал) , то гарантированный минимум, как и максимум, ограничивает доверительную область значений среднего только с одной стороны (односторонний доверительный интервал). В связи с этим при двустороннем доверительном интервале уровень значимости а характеризует вероятность того, что среднее окажется меньше нижней границы или выше верхней (эти вероятности одинаковы и равны а/2), а при оценке гарантированного минимума (максимума) уровень значимости а есть вероятность того, что среднее можег быть меньше min(x )a (больше тах(х )a). В связи с этим совпадение значений гарантированного минимума с нижней доверительной границей ( а максимума - с верхней) возможно при условии, что оценка двустороннего доверительного интервала производится с вдвое большим уровнем значимости, чем гарантированного минимума (максимума). Гарантированные минимумы и максимумы представляют интерес при решении разных задач, но чаще всего в связи с необходимостью оценки возможных экспериментальных ситуаций. Это может быть, например, гарантированный минимум весеннего запаса влаги в почве. Нас не беспокоит, что этот запас в действительности окажется больше минимума, а возможный минимум требуется знать, так как от этого зависят виды на урожай. При оценке содержания обменного натрия в солонцах гарантированный максимум позволяет оценить предельное количество гипса, которое потребуется для мелиорации солонцов. По гарантированному максимуму сопротивления вспашке можно судить о наибольших возможных расходах горючего и т.д. Техника вычислений гарантированных минимумов или максимумов трудностей не представляет. Например, если в случае оценки обеспеченности растений влагой для влажности почвы при п = 10, получили * = 25,7 и ^ = 1,10, то с риском a = 0,05 можно утверждать, что средняя влажность не должна быть ниже, чем (для v = 9 имеем Голо =1,83) minEF)o,o5 = 25,7 - 1,83 • 1,10 = 23,7%. Аналогично можно найти гарантированный максимум среднего расхода воды на 157
инфильтрацию через ложе канала; если при п = 25 получено x±s- = 3,13 ±0,02 мм/сутки, то с а = 0,01 (для v = 24 имеем fo,o2 = 2,49) находим maxEF)o,oi = 3,13 + 2,49 • 0,02 = 3,18 мм/сутки. 8.9. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДИСПЕРСИИ Для дисперсии, как и для среднего, наряду с точечной оценкой можно вычислить нижнюю и верхнюю доверительные границы. Хотя оценка дисперсии и имеет свою ошибку репрезентативности, до- верительный интервал для дисперсии лучше находить с помощью иного метода, основанного на распределении х2- Если изучаемая случайная величина имеет распределение, близкое к нормальному и выборка объема п дала точечную оценку s2 дисперсии а2, то с уровнем значимости а значение а2 будет лежать в следующих пределах: —Ij—L^o2^—\ i. (8.15) Ха/2 Xl-a/2 В формуле (8.15) %^/2 есть критическое значение %2, распределенной с v степенями свободы, больше которого значения %2 встречаются с вероятностью •—. Критическое значение Xi2-a/2 есть значение, ос вероятность превысить которое равна 1 . Если a = 0,05, то для левой части формулы (8.15) из табл. ^Приложения находят значение х 0,025» а Я1151 правой части - значение %1,975 • Допустим, при определении плотности почвы с объемом выборки п = 5 получили s - 0,10 г/см3. Чтобы определить доверительный интервал возможных значений дисперсии плотности с a = 0,05, находим по табл. IV для v = 4 критические значения у}\ % 20т =11,14, п «о гт А /о,сч 0Д02E-1) 2 0Д02E-1) X5,975 = 0,48. По формуле (8.15) получаем ——~—<: а1 <— к ; 0,0036 < а2 < 0,08333. Обозначая доверительный интервал для дисперсии через s I, имеем s 2т = @,0036 -г 0,0833). Доверительный интервал для стандартного отклонения получим, извлекая квадратные корни: s 005=@,06 + 0,29). Заметим, что границы доверительных интервалов расположены асимметрично относительно точечных оценок дисперсии и стандарта: точечные оценки сдвинуты к нижней границе. 158
8Л0. СРАВНЕНИЕ СРЕДНИХ С ПОСТОЯННЫМИ ВЕЛИЧИНАМИ В некоторых случаях исследователь практически точно знает, чему должно быть равно среднее. Например, приготовив буферный раствор по известному рецепту, мы знаем величину рН этого раствора. В стандартном образце почвы заранее известно содержание отдельных элементов и т. д. Однако средний результат анализа ц совсем не обязательно оказывается равным истинному значению изучаемого признака а. Тем более обычно не бывают равны постоянные величины а и оценка среднего х . Вместе с тем, если отличие а от Зс естественно, то отсутствие равенства между ц и а может вызвать тревогу, так как это означает, что метод анализа имеет систематическую погрешность. Если систематической погрешности нет, то должно иметь место равенство ц = а. Тогда при данных оценках х и s- значение а с уровнем значимости а должно находиться в пределах доверительного интервала для среднего (формула (8.8)), т.е. отклонение а от х по модулю не должно превышать tas^ . Сказанного достаточно для того, чтобы сформулировать проверяемые гипотезы и критерии их проверки. Примем Но: ц = я, Hi: \х ф а. Если ц = а и распределение х х -а близко к нормальному, то отношение распределено как t - Стьюдента cv = n- 1, и лишь с малой вероятностью а значение l-i l Может превысить ta. Тогда при t>ta оудем считать, что верна альтернативная гипотеза, т.е. среднее результатов измерения ц не равно постоянной величине я, а при / <7а нулевая гипотеза не отвергается и допустимо считать , что ц = а. Допустим, в стандартном почвенном образце содержание SiCb равно а-: 82,15%. По результатам 4-кратного анализа некоторым методом было получено х-82,03 при s-^ 0,039. Требуется выяснить, можно ли отличие полученного х от а считать результатом простой игры случая (аналитических погрешностей случайного характера) или эта разница столь велика , что более разумно ее связывать с наличием систематических погрешностей. Так как 82 03 — 82 15 1=—! 1—=3,08, а для v = 3 из табл. Ш Приложения находим 0,039 * fo,o5= 3,18, и, значит, t <7a, то у нас нет оснований считать, что метод имеет систематическую погрешность. Конечно, такое заключение еще не есть доказательство правильности метода, но согласно 159
принятым критериям с уровнем значимости а = 0,05 можно считать метод правильным. 8.11. ПЛАНИРОВАНИЕ ОБЪЕМОВ ЕДИНИЧНЫХ ВЫБОРОК Грамотно спланированным опытом можно считать такой, когда ответ на поставленный вопрос получается при наименьших затратах средств и времени, а это прежде всего означает, чтФ число повторно- стей в опыте должно быть по возможности необходимым и достаточным для получения ответа с требуемой точностью и надежностью. При этом нельзя упускать из вида, что всякое планирование численностей совокупностей базируется на ряде допущений , и результаты спланированных опытов по их уровням точности или надежности не могут не зависеть от того , насколько эти допущения оправдываются. С другой стороны, даже при правильности начальных допущений исход испытания может оказаться неудовлетворительным вследствие неизбежного варьирования между возможными выборками. В силу всего этого бессмысленно ставить задачу абсолютно точного планирования объемов выборок, но это совсем не значит, что планирование объемов вообще лишено какого-либо смысла, хотя бы потому, что объем выборки является одним из важнейших, а нередко единственным фактором, определяющим точность оценок и надежность выводов. Абсолютная Аа и относительная Ра вероятные погрешности оценки среднего (формулы (8.6) и (8.12)) с учетом формулы E.23) имеют вид Да=-р*. (8.16) <п х Из этих формул видно, что Да и Ра зависят прежде всего от вели- чины отношения -f=, на которую мы можем активно влиять через объем выборки п. Заметим, что при данном а значения ta и Vw попарно связаны, поскольку ta соответствует v = п - 1, так что каждому а и л соответствует некоторое стандартное отношение -~г, убы- вающее с ростом л. 160
*,=тг^ (8Л9> Если значения среднего и стандартного отклонения предположительно известны и требуется при заданном а получить оценку среднего с погрешностью Аа или Рш то, как следует из формул (8.16) и (8.17), нужно найти величину сомножителя -—-, обеспечивающего л/и равенство левых и правых частей в этих формулах, а затем и соответствующую полученному отношению -j= величину объема вы- борки. Если табулировать и, соответствующие отдельным значениям -j=, то нахождение необходимого объема выборки сводится к вы- числению вспомогательной величины к\ по одной из формул *i= —, (8.18) s 100* или, принимая во внимание равенство E.22), - по формуле *i=— (8.20) v и нахождению из табл.К Приложения искомого п для заданного а согласно условию к\ = -f=. Формула, по которой следует вычислять fci, зависит от того, какая погрешность более интересует исследователя (абсолютная или относительная), и от наличия сведений (иногда очень приблизительных) о предполагаемых значениях среднего х , стандарта s или коэффициента вариации v. Данным приемом можно пользоваться при условии, что v < 40% и прогнозируемый объем выборки п < 50. Допустим, что требуется спланировать опыт по определению влажности завядания таким образом , чтобы оценка среднего была получена с относительной погрешностью Po,os= 5%. Проводившиеся ранее аналогичные эксперименты показали, что коэффициент вариации при подобных определениях очень близок к v = 6%. По формуле (8.20) получим к\ = — = 0,83 и из табл.К для а = 0,05 найдем, 6 что объем выборки, могущий обеспечить требуемую точность (обозначим его ла), есть ло,о5= 9. 11 Е.А,Дмитриев 161
Иногда в итоге проведенного исследования результат по то* ности оказывается хуже, чем хотелось бы, и опыт нужно либо пере* делать , либо проделать некоторое число дополнительных измерь ний. Например, по 4 повторностям содержание Р2О5 (в мг/ЮОг почвы} оказалось определенным с погрешностью До,о5=6, а желательно чтобы абсолютная погрешность оценки среднего не превышала Ао,о5 = 4. Так как вариация данного свойства в рамках опыта оцени- вается s = 2,8, то для простоты, округляя эту оценку до 3 и пользуясь 4 формулой (8.18), получим к\ =— =1,33, а из таблЛХ находим ло,о5= 5. Следовательно, требуется добрать еще один образец. Точно так же можно оценивать объем выборки, обеспечивающий статистически значимое отличие среднего от постоянной величины, если разность между средним х и постоянной а превысит некоторую величину. Для этого следует, зная (быть может предположительно) стандартное отклонение s в изучаемой совокупности и задавая предполагаемую или минимальную величину разности d- рс-я| (большей разностью уже нельзя пренебречь), вычислить *,=- (8-21) S и по табл.К найти искомое иа. Допустим, что изучаемый метод валового анализа характеризуется воспроизводимостью при оценке SiCh величиной s- 0,08. Содержание SiCh в эталонном образце известно и следует выяснить, имеет ли метод анализа систематическую погрешность, причем ею можно пренебречь, если она не превышает rf = 0,1. Тогда, поскольку W \ ._ к\ = 1,25 , опыт нужно провести с повторностью ло,о5 = 6. Если в результате вычислений окажется, что к\ < 0,37, то искомое па можно найти по формуле пп = а "" -2 (8.22) ч где ta берется из табл.Ш Приложения для v = 00. Пусть, при изучении плотного остатка водной вытяжки из пахотного горизонта в пределах некоторого поля было обнаружено, что вариация этой величины характеризуется значением v= 100%. Исследователь желает оценить среднюю величину плотного остатка с относительной погрешностью Ро,о5= 20%. Согласно формуле (8.20), имеем к\ = 20 : 100 = 0,2. Так как в таблице К Приложения значение 162
^Bfai k\ < 0,37 отсутствует, то воспользуемся формулой (8.22); при- ЩШ для а = 0,05 Г = 2,0, получим па = 2,02: о,22 = 100. ^Ири планировании объемов выборок не только значения ла, ис- В^яемые десятками и сотнями, но и сравнительно небольшие, но Высящиеся к трудоемким или дорогим анализам, нередко вызы- Еде» разочарование у исследователей и , как следствие технической Возможности проведения такого объема измерений, отказ от ^пользования статистических методов. Рассогласованность жела- Арного объема выборок и практической возможности реализации даого объема испытаний не столь уж редкое явление, но это отнюдь |$ может служить основанием для отказа от статистического подхода к анализу изучаемых явлений. . При возникновении подобной ситуации прежде всего следует лрознать, что в условиях существующей системы проведения испы- фний (особенности объекта, элементов опробования, способов ана- даза и пр.) достигнуть желаемой точности в оценке средних невозможно. В целях сближения планируемой величины па и технически выполняемой повторности можно пойти на увеличение задаваемой погрешности или уровня значимости. Если это не даст должного эффекта, то в итоге проведенного эксперимента с повторностью, меньшей, чем это вытекает из результатов планирования, оценки будут иметь весьма малую надежность, и скрывать это не следует. Отказ от статистического анализа данных на том основании, что требуемая повторность даже при согласии на большие погрешности яри высоких уровнях значимости оказывается технически неосуществимой, не может иметь оправданий. От того, что исследователь не стал приводить статистические характеристики полученных результатов, они точнее не будут, но сокрытие самого этого факта не допустимо. Если целью исследования является познание среднего уровня, то для достижения заданной точности оценок средних можно не только увеличивать число повторностей. В некоторых случаях этого можно достигнуть , меняя форму, размер или способ отбора элементов опробования (например, путём замены индивидуальных образцов на смешанные). 8Л2- ПОГРЕШНОСТИ ОЦЕНКИ СРЕДНЕГО И СМЕШАННЫЕ ОБРАЗЦЫ Идея о замене анализа группы образцов анализом одного смешанного образца была реализована почвоведами почти 100 лет назад, хотя математического обоснования этой процедуры сделано яе; 163
было и в основе метода лежали чисто интуитивные представления о механизмах снятия вариабельности, мешающей изучению среднего. Сама по себе замена математического усреднения физическим исходит из допущения о равноценности этих процедур. Такое допущение в принципе правомерно лишь относительно свойств, обладающих аддитивностью, например для валовых содержаний элементов или веществ, плотности почвы и других, конечно, если протекание анализа практически не зависит от особенностей состава или организации анализируемых образцов. Для многих свойств, изучаемых почвоведами, аддитивность может в большей или меньшей степени нарушаться, и тогда физическое усреднение не может считаться равнозначным математическому. Это относится к таким свойствам, как рН, состав поглощенных катионов, окислительно-восстановительные потенциалы, содержание подвижных элементов, переходящих в ту или иную вытяжку, и пр. Все это требует осторожного подхода к интерпретации полученных тем или иным способом данных, имея в виду, что как результаты математического усреднения, так и результаты анализа смешанных образцов, не совпадая по значениям, характеризуют один и тот же объект исследования. При условиях соблюдения аддитивности обычно считают, что в соответствии с формулой E.23) дисперсия результатов анализа смешанных образцов аBл), составленных из п индивидуальных, в п раз меньше, чем дисперсия а2 результатов анализа индивидуальных образцов: о2(п)= —. (8.23) Так как а^,) по своему смыслу аналогична ошибке среднего а7 и характеризует погрешность в оценке среднего, то, располагая некоторой априорной информацией о величине а, можно отыскать то значение /*, при котором ау не превысит заданного значения. Из формулы (8.23) следует, что, взяв соответствующее и, можно получить сколь угодно малое значение ао,). Однако в действительности дело обстоит сложнее, поскольку величина а2, характеризующая вариацию значений результатов анализа индивидуальных образцов, определяется не только неодинаковостью значений изучаемого состава в отдельных образцах, но и ошибками измерений. Эти ошибки, обычно называемые аналитическими у нередко могут быть не только соизмеримыми с неоднородностью элементов опробывания по изучаемому свойству, но и существенно превышать природную вариабельность. 164
Достаточно часто можно считать, что случайные ошибки анали- |ов независимы от природной неоднородности свойств в пределах объекта. Тогда, используя в качестве меры вариации дисперсию, подучим, что дисперсия результатов анализа индивидуальных образ- 2 цов а2 может быть представлена как сумма аналитической аан и 2 Природной а лр дисперсии: o^G2aN+o2nv. (8.24) Учитывая это, а также формулу E.24), заключаем, что по результатам п измерений случайной величины X оценка среднего х характеризуется ошибкой с*в7ГЧ1~ а-+а^_ (8.25) Если из п индивидуальных образцов приготовить один смешанный, то при этом дисперсия результатов анализа окажется равной л o?rt=oi,+^2. (8.26) п поскольку процедура смешивания может влиять только на природную дисперсию и тогда соответственно L2 ^°"р (8-27> JO ан П Сопоставляя формулы (8.25) и (8.27), легко убедиться,что результаты математического и физического усреднения в принципе нельзя считать равноценными по величине дисперсий, характеризующих вариацию соответствующих значений. Во-первых, физическое усреднение всегда дает большую дисперсию, нежели математическое усреднение и тем большую, чем больший вес в общей дисперсии а2 приходится на аналитическую дисперсию <з\н. Во-вторых, оказывается, что с помощью смешанных образцов дисперсию результатов анализов нельзя сделать сколь угодно малой даже теоретически, поскольку при w-юо, как это следует из формулы (8.27), ао,; не может быть меньше аан. Все рассмотренные в этом разделе соотношения между дисперсиями можно отнести и к их оценкам. Так, если в горизонте А1А2 дерново-подзолистой почвы содержание MgO в индивидуальных образцах варьирует с дисперсией *у2= 0,0215, а аналитическая дисперсия метода анализа оценивается величиной s^ = 0,0204, то, как следует из рассмотрения формул (8.25) /1* 165
и (8.27), если в них а заменить на л, использование смешанных образцов для анализа содержания MgO лишено всякого смысла, поскольку дисперсия результатов практически целиком определяется аналитическими ошибками и не зависит от числа индивидуальных образцов, из которых приготовляются смешанные. Желательной погрешности в оценке среднего здесь можно добиться с помощью анализа соответствующего числа индивидуальных образцов. Иначе обстоит дело с анализом содержания в ?ом же горизонте валового железа, поскольку при аналитической дисперсии содержания РегОз, равной s^ = 0,00154, общее варьирование результатов при анализе индивидуальных образцов оценивается как s2- 0,022, т.е. на порядок более высокой величиной. Очевидно, в варьировании результатов явно доминирующую роль здесь играет пространственная неоднородность объекта, а это значит, что здесь смешанные образцы могут быть весьма полезны. 8.13. ОЦЕНКА ИНТЕРВАЛА ВОЗМОЖНЫХ ЗНАЧЕНИЙ ПРИЗНАКА В ряде случаев наряду со среднем уровнем немалый интерес может представлять информация о возможных отдельных значениях случайной величины. Например, далеко не всегда сведения о среднем содержании в почвах некоторого поля элементов питания могут служить достаточным основанием для суждения об обеспеченности отдельных растений этими элементами питания. По тем же соображениям слабым утешением может служить вывод о непревышении среднего содержания в почве некоторого пестицида ПДК (предельно допустимой концентрации), если потребитель сельскохозяйственной продукции использует для питания конкретное растение. По выборочным данным информацию о возможных пределах колебаний случайной величины дают лимиты, которые во всех возможных случаях целесообразно приводить с соответствующим предметным анализом и интерпретацией. Однако лимиты, как мы отмечали, зависят от объема выборки и это существенно затрудняет их использование в качестве показателей возможных пределов колебаний признака. Наиболее удобным оказывается способ оценки интервала возможных колебаний для заданного уровня значимости а (или доверительной вероятности Р = 1 - а). Такой способ может быть реализован, если закон распределения изучаемой случайной величины известен. В том случае, когда случайная величина X распределена нормально (или достаточно близко к этому), доверительный 166
интервал значений ха для заданного уровня значимости а при объеме выборки п можно найти по формуле (гнЛ xa = x±tasj , (8.28) где ta соответствует v = п - 1. Так, если среднее содержание в почве Р2О5 (мг/100г) составляет х = 10,0 и s - 2,0, то при п = 10 и а = 0,05 получаем _x0f05 =10,0±2,2б.2,0у^- =E,1 + 14,9). Это означает, что в отдельных объемах почвы, равных объему отбиравшихся образцов в пределах изучаемого поля, в 95% случаев содержание Р2О5 может колебаться от 5,1 до 14,9 мг/100г. Когда случайная величина X распределена логнормально или по кривым распределения Джонсона, используя формулу (8.28), можно найти интервальную оценку значений для соответствующих логарифмических функций от случайной величины X, а затем обратным преобразованием найти доверительные интервалы и для значений х. Например, если считать, что распределение содержания X гербицида симазина в почве неплохо аппроксимируется логнормальным законом, причем известны / =-1,40 и £/=0,30, то при п = 16, при а = 0,05 получим /005 = l±t^5s^^ = -1,4012,13-0,30^ = (-2,06 + -0,74), откуда хс,05=:@,13 + 0,48). Очевидно, что исследователя не всегда могут в равной степени интересовать обе границы значений случайной величины. Так, если среднее содержание гербицида не превышает ПДК, то нижняя граница не представляет интереса, чего нельзя сказать о верхней границе. В таких случаях можно ограничиться вычислением гарантированных (с уровнем значимости а) минимальных (min(x)a) или максимальных (max(jc)a) значений случайной величины: min(x)a = i- t2asJ^- (8.29) max(jc)a =x+r2a^J (8.30) Причины, по которым в таких случаях f-Стьюдента берется дГв* уровня значимости 2а, рассматривались нами ранее (см. § 8.8) ^ 167
8.14. ГРАНИЦЫ ТИПИЧНЫХ ЗНАЧЕНИЙ Понятие о типичном обычно связывается с близостью к среднему или с наиболее частой встречаемостью. В этом смысле говорят о типичных разрезах, профильных кривых, значениях свойств. Однако чисто интуитивное представление о типичном там, где это возможно желательно сделать более строго определенным. Очевидно,Дго критерии, позволяющие отделить типичное от нетипичного, могут быть выработаны только на договорной основе и по сути своей должны иметь вероятностную основу. Наиболее часто за типичные принимаются значения, которым соответствует наибольшая вероятность (плотность вероятности) в пределах интервала, содержащего 50% объема генеральной совокупности. Для нормально распределенных (или достаточно близких к этому) случайных величин типичными значениями при этом являются значения, укладывающиеся в 50%-й доверительный интервал (т.е. для а=0,5). Граничные значения ха (см. формулу (8.28)) при ос=0,5 можно назвать границами типичности, которые в случае нормального распределения определяют по формуле Г/нТ *о,5 -*±ro,5^ п > (8.31) где Го,5 соответствует а = п - 1. Подобный подход к оценке интервала типичных значений допустим при не слишком больших отличиях распределений от нормального. Это условие соблюдается, по-видимому, гораздо реже, чем может показаться, и, что очень существенно, с увеличением объема выборки ситуация не имеет тенденции к улучшению как при определении интервала' возможных значений признака вообще, так и при определении границ типичных значений в частности. Этим оценка доверительного интервала значений признака принципиально отличается от нахождения доверительного интервала среднего, когда с ростом объема выборки распределение оценок асимптотически стремится к нормальному. Это определяет допустимость и целесообразность некоторых упрощений при вычислении типичных значе- /л+Т ний. Так, замечая, что с ростом п произведение r05J в правой части формулы (8.31) достаточно быстро стабилизируется и при п > 8 изменяется в пределах от 0,74 (п = 9) до 0,67 (w-юо) , можно принять это произведение округленно равным 0,7 и тогда (при п > 8) получим хо,5= x±OJs. (8.32) При 5 й п < 8 сомножитель при s допустимо принять равным 0,8, а при /1 = 3 или п = 4 - равным 0,9. 168
8.15. АНАЛИЗ КВАНТИЛЕЙ Анализ квантилей и лимитов может оказаться весьма полезным док ДОЯ интерпретации особенностей изучаемой случайной величины, так и для понимания результатов других статистических вычислений. Поскольку в качестве некоторого стандарта при изучении распределений очень часто используется нормальное распределение, полезно заметить, что для нормально распределенной случайной величины нижний и верхний квантили симметрично отстоят от медианы (и среднего арифметического) в меньшую и большую сторону. Абсолютное отклонение крайних квартилей от медианы, выраженное через стандартное отклонение, равно 0,674а. Поэтому меж- квартильный размах Rq ( см. формулу E.9)) равен 1,348а, и это может быть использовано для оценки стандарта по размаху: S* = 1348 = °'742(*(°'75) " *(°'25)) * (8.33) Симметричные относительно медианы квантили Хф,\5) и л:(о,85) при нормальном распределении отстоят от медианы на 1,036а, а следовательно, отклонения л:(о,50) -*(о,15) = Х(о,85) - *(о,50) по своему значению примерно в 1,5 раза больше, чем отклонения от медианы нижнего и верхнего квартилей: *@,50) ~ *@,15) _ *@,85) ~ *@,30) _ *@,85) ~ *@,15)= j 54 /g 34) Х(с\ sm "" Х(с\ ?<rt Х(п т*\ — Х/(\ <л\ Х(о 7« — Х/{ 40,50) ~А@,25) А@,75) ~л@,50) л@,75) ~" л@,25) Междецильный размах Х(о,90) - jc(o,io> оказывается почти в 2 раза больше межквартильного размаха: *@,50) ~ Х@,Ю) ^(О^О) ~ *@,50) *@,90) ~ X@,10) = 1,90. (8.35) Х@,50) ~ Х@,25) х@,75) "" *@,50) X{<bjb) ~ *@,25) Отмеченные выше особенности квантилей при нормальном распределении достаточны для анализа квантилей выборочного распределения с учетом того, что асимметрия проявляется в различии отклонений у- и A- у) - квантилей от медианы, а эксцессивность - в отклонении значений отношений от приведенных в выражениях (8.34) - (8.35) в большую сторону при положительной эксцессив- ности и в меньшую при отрицательной. Пусть, например, валовое содержание (в %) SiCh в горизонте АгВ дерново-подзолистой почвы характеризуется следующими квантилями: Х(о,ю)= 75,8; Jt(o,25)= 80,4; JC(o,50)= 81,6; Х(о,75)= 82,6; Х(о,90)= 84,2. Заметим, что нижний квартиль меньше медианы почти на столько же, насколько верхний квартиль больше нее, что свидетельствует о неплохой симметричности распределения в центре. 169
Если доля у <0,5, то отношение разности отклонений у- и A-у)- квантилей от медианы .V(o,50) к сумме этих отклонений может служить показателем асимметричности распределения: [~VA-Y) ^*@,50)]-[*@,50) ~Х(у)\ ХA_у) +Ху -2Х(, 40,50) [Х(\-у) ~*@t50)| + [x@,50) ~X(y)J Л"A-У) ХУ (8.36) Если верхние квантили [jt(i-v)] отклоняются от медианы на большую величину, чем нижние [х(у)], то ау принимает положительные значения, что соответствует положительной асимметрии. При ином соотношении отклонений асимметрия отрицательна. В случае симметричности распределения яу = 0. В данном примере при у=0,25 получаем 82,6 + 80,4-2-81,6 nnQ 82,6-80,4 Об асимметрии можно судить и по более простому показателю . Х(\-У) ~Х@,50) ~ -„ а'у= , E.3/) ^((UO) ~ху принимающему значения, равные 1, для симметричных распределений, а у< 1 при отрицательной асимметрии и а у> 1 при положительной. В данном примере при у=0,25 имеем 82,6-81,6 а о,25= =0,83. 81,6-80,4 Показатели ау и а у между собой связаны зависимостью а' -1 ау=-1 (8.38) Y n;+i и содержат по сути дела одну и ту же информацию об асимметрии распределения, однако по соображениям удобства интерпретации более предпочтительным можно считать показатель ау. Итак, крайние квартили рассматриваемого распределения весьма симметрично расположены относительно центра. Если теперь сопоставить крайние децили, то мы обнаружим, что отклонение нижнего дециля от медианы существенно больше, чем верхнего: Х(о,50) - лг<о,ю) = 81,6 - 75,8 = 5,8 и Х(ощ - Х(о,50) = 84,2 - 81,6 = = 2,6. Это является свидетельством асимметричности распределения в области значений, ограниченных крайними децилями, что подтверждается ростом значений коэффициента асимметрии: 170
84,2-81,6 ... , /оооч jm\o) = — — = 0,45; согласно формуле (8.38) имеем 81,6 — 75,8 ^•10)-0,45 + Г °'Ж Как видим, в изучаемом распределении асимметричность обнаруживается лишь в распределении крайних значений, но не в центре. Изучаемое распределение проявляет не только отрицательную асимметричность, но и положительную эксцессивность, о чем свидетельствует отношение межквантильного размаха для у = 0,10 и A-у) = 0,90 к межквартильному размаху, в 2 раза превышающее зна~ in/ л. /о осчч х(о,9)~~х(о,1) 84,2-75,8 чение 1,9 (см. формулу (8.35)): —^—к—±- = ~- - 3,8. х@,75) ~ *@,25) *>2,0 ™ 80,4 Эксцессивность особенно заметно оказывается связанной с левой ветвью распределения (со значениями, меньшими медианного), где @'5)—^- = 4,8 в то время как аналогичное отношение для правой *@,5)-"х@,25) части распределения равно 2,6, что гораздо меньше отличается от значения 1,9, присущего нормальному распределению. Очевидно, изучаемое распределение содержания 8Юг в горизонте АгВ является следствием отсутствия в ограниченной части объема горизонта АгВ элювиальных процессов и (или) наличия в этой части иллювиальных процессов. Существенное снижение содержания SiCh в этой части объема и приводит к возникновению отрицательной асимметрии и положительного эксцесса. Квантильный анализ позволяет выяснить тонкие особенности поведения значений случайной величины, за счет каких групп значений возникают отличия от нормального распределения и пр. Так, с помощью квантильного анализа в распределениях, нормальность которых не отвергается критерием хи-квадрат, но имеющих статистически значимую асимметрию, обычно устанавливается, что центральная часть в таких распределениях действительно ведет себя как нормально распределенная (распределение этой части и оценивается на основании критерия хи-квадрат), и лишь один или оба крайних дециля (или лг(о,о5), *<о,95), лимиты) проявляют слишком большие отличия от медианы. Эти большие отклонения от центра и определяют появление высоких коэффициентов асимметрии. Анализ поведения квантилей и лимитов часто оказывается очень полезным для понимания поведения изучаемого свойства и механизмов влияния факторов, его определяющих. 171
8.16. АНАЛИЗ СОВОКУПНОСТИ КАК СМЕСИ ПОДСОВОКУПНОСТЕЙ Единичная выборка, характеризующая объект исследования, может оказаться предметом достаточно сложного анализа, в особенности, если выборка имеет большой объем, а в распределении обнаруживаются те или иные отличия от нормального. Наличие асимметрии или эксцесса, а тем более хорошо выраженной полимодальности достаточно часто можно рассматривать как результат смешения двух или большего числа подсовокупностей, имеющих в чем-то различные параметры распределения. Естественным желанием в таких ситуациях бывает нахождение оценок параметров подсовокупностей и соотношения их объемов, что может оказаться интересным как с точки зрения изучения организации свойства в пространстве объекта, так и для понимания механизмов формирования дифференцированное™ объекта по изучаемому свойству. Наиболее простая модель, которой можно при этом воспользоваться, основана на допущении, что генеральная совокупность, представляет собой смесь двух подсовокупностей с разными средними Ц1 и Ц2 и дисперсиями а,2 и а\ , которые могут быть и одинаковыми. Если моду суммарного распределения можно считать модой одной из подсовокупностей, то при симметричности распределения в последней оценка этой моды может служить оценкой соответствующего среднего. Тогда относительно моды более короткую ветвь распределения можно считат^ образованной половиной одной из подсовокупностей, что позволяет оценить как ее дисперсию, так и объем соответствующей ей подвыборки. Наконец, располагая наряду с этими сведениями оценками среднего и дисперсиями для выборки в целом, можно вычислить аналогичные оценки и для второй подсовокупности, а по отношению объемов подвыборок составить представление о долевом участии подсовокупностей в суммарной совокупности. Допустим, что после полива поля с некоторой глубины были отобраны образцы на влажность почвы (п = 100). Сведенные в вариационный ряд с шириной класса с = 1,0% результаты определения влажности оказались следующими: Xj 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 fj 14 13 24 14 6456873311 172
Статистический анализ показал, что среднее х= 11,33 приходится на класс с серединой 11%, частота которого fj- 6 далеко не самая высокая. Она в 4 раза меньше частоты модального класса с серединой 9%. Так как s2= 10,47 и 5= 3,31 (сумма квадратов центральных отклонений С- 1086,11 при v = 99), то отклонение среднего от модального класса достаточно велико и свидетельствует о наличии асимметрии. Действительно коэффициент асимметрии А =0,75 при ^=0,24 позволяет утверждать, что распределение влажности положительно асимметрично. Из рассмотрения приведенного выше вариационного ряда следует, что распределение влажности не только положительно асимметрично, но и двумодально, хотя вторая мода в области класса с xj = 15% выражена не слишком отчетливо. Аппроксимация изучаемого распределения нормальным законом здесь явно неудачна (рис. 8.1). fjjj 2СН 15 i Ю i 5Н О Можно допустить, что отмеченные особенности в распределении влажности почвы являются следствием того, что в результате полива на изучаемой глубине почва не везде оказалась увлажненной. При этом в выборке были представлены две подсовокупности значений влажности: не измененные поливом (исходные) и измененные им. Тогда первым из них должна соответствовать левая часть ряда распределения, а второй - правая. Учитывая, что в рассматриваемом примере наиболее отчетливо выражена мода в левой части распределения, и допуская, что эту моду можно рассматривать в качестве моды среднего первой подсовокупности, в качестве оценки *, и moi по формуле E.1) получим: 24-13 6 8 10 12 14 16 18 Xj Рис.8.1. Эмпирическое A) и теоретическое B) распределения частот по классам влажности почвы (х) при их аппроксимации нормальным законом с \л - 11,33% и а = 3,31% 3c-, = moi = 8,5 +1,0- = 9,02. 2-24-A3 + 14) Если все значения х, которые меньше moi, относятся к первой подсовокупности, то при симметричности этого распределения объем т подвыборки, соответствующей этой подсовокупности, равен удвоенному числу значений х, меньших moi. Величину т в этом 173
случае можно найти по формуле (прибегая к линейному интерполированию внутри модального класса): "i=2(L/;^(-)J, (8.39) где индекс т - номер модального класса, a fmt\ - частота в пределах модального класса, соответствующая значениям, меньшим модального, и определяемая из выражения то- Хт-\ /*->=/(■.)—7-^ <8-40> ИЛИ fm(-)=fm Р,5 + то-хи (8.41) Подставляя в формулы (8.39), (8.41) известные значения частот, моды, середины модального класса хт и классового промежутка с, 9,02-9,0^ получим пх = 2 1 + 4 + 13 + +24 0,5 + L0 = 61. Очевидно, что если п = 100 и ал = 61, то П2=п-т= 100 -61 =39. Из формулы E.14) можно установить, чему равно среднее х2 для второй подвыборки, если известны общее среднее х и объем выборки и, среднее одной подвыборки хх и объемы т и т обеих подвыбо- рок: _ хп-ххпх х2 =—:—- (8.42) Подставляя в эту формулу необходимые данные, находим 11,33100-9,02-61 39 = 14,94. Удваивая сумму квадратов центральных отклонений в левой ветви распределения, можно найти сумму квадратов центральных отклонений для первой подсовокупности: с,=2^/)(х,-*«) +/*_)(*„-i,^ I (8'43) Подставляя конкретные значения, получим С, = 2Щ6.0 -9,02J + 4G,0 -9,02J + 13(8,0 - 9,02)* + 12,5(9,0 -9,02)^]= = 77,94. Прии1=61 имеем v=60n^f =1,30, т.е. я=1,14. 174
Учитывая связь между оценками дисперсий подсовокупностей и дисперсией суммарной совокупности (см. формулу E.15)), легко установить, что, располагая сведениями о средних, суммах квадратов отклонений и объемах суммарной выборки и одной из подвыбо- рок, можно найти сумму квадратов центральных отклонений Сг для второй подвыборки, а затем и интересующую нас оценку соответствующей дисперсии s2: <- -\2 С,=С-СХ — ПП\ (*!-*) (8.44) п-щ (напомним, что значения без индекса соответствуют суммарной совокупности). Получаем С2 =1086,11-77,94- 100.61(9,02-11,33J = 174,42; 100-61 так как И2=39 и v = 38,тояг2=4,59, т.е. ^2=2,14. По найденным оценкам параметров двух подсовокупностей можно вычислить выравнивающие частоты для отдельных классов значений влажности и проверить пригодность аппроксимации нормальным законом распреде- 20Н 15Н 101 о лений в подсовокупностях (рис. 8.2). Проведенный анализ совокупности как суммы двух подсовокупностей, по-видимому, оказался успешным. Из этого анализа следует, что на изучаемой глубине в 61% объема почвы (в 61 случае из 100) после полива влажность не изменилась, в среднем имея хх = 9,0% при s\ =1,14%. В 39% объема почва была увлажнена до Зс2= 14,9% приs2= 2,24%. В рассматриваемом примере вычисления оценок параметров подсовокупностей начинались с подсовокупности, имеющей наименьшие значения. Если же более выраженной оказывается правая мода, т.е. мода с более высоким значением, то вычисления следует начинать с поиска оценок параметров подсовокупности, формирующих правую часть суммарного распределения. Техника этих вычислений в принципе не отличается от рассмотренной выше, необходимо лишь учитывать, что 8 10 12 14 16 18 xj Рис.8.2. Эмпирическое A) и теоретическое B) распределения частот по классам влажности почвы (х) при их аппроксимации нормальным законом двух подсовокупностей 175
информацию о параметрах распределений подсовокупности мы получаем по правой ветви распределения, содержащей наибольшие значения изучаемой случайной величины. С учетом этого формулы (8.39)—(8.41) должны иметь следующий вид (индекс " для подсовокупности с наибольшими значениями сохраняется): «2 =2(S/}+/«+)). (8-45) х т - то Лм»/--3 . (8-46> с U+)=fm{0M^^), (8-47) где к - число классов, a fm/+\ - частота в пределах модального класса, соответствующая значениям, превышающим моду. Соответственно формула (8.43) при этом имеет вид I ;'»m+l \ / J (8.48) а в формулах (8.42) и (8.44) индексы "Г и " следует поменять местами. На этом анализ данных по влажности почвы можно было бы и закончить, однако на материалах данного примера можно рассмотреть и возможные пути его продолжения. Заметим, что подсовокупность увлажненных образцов почвы возникла в результате повышения некоторой исходной влажности почвы. Если допустить, что эта исходная влажность имела те же параметры распределения, какими обладает первая из взятых подсовокупностей, т.е. случайная величина х\, а возрастание влажности рассматривать как сложение с величиной xi некоторой независимой от нее случайной величины Z, ТО Х2=Х\ + Z. В этом случае среднюю прибавку влажности почвы, произошедшую в 39% объема изучаемого горизонта, можно оценить как z = х2 - х{ = 14,94 - 9,02 = 5,92%. Дисперсия этого прироста влажности в отдельных точках, очевидно, может оцениваться по разности: s\-s\- s ,2 = = 4,59- 1,30 = 3,29, откуда sz= 1,81. Полученные результаты позволяют считать, что исходная влажность почвы на рассматриваемой глубине, равная в среднем xj = 9,02% при л =1,14%, в результате полива возрастает до х= 11,33%, т.е. на 2,31%, но при этом в 3 раза (до ^ = 3,31) увеличивается стандартное отклонение, характеризующее вариацию влажности на этой глубине. Причиной столь неадекватной реакции 176
вариабельности на прирост влажности является то, что увлажнение слоя происходит не сплошь, не повсеместно, а локально, по языкам дромачивания. В области таких промочек, а они занимают по найденным оценкам около 39% объема горизонта, влажность возрастает в среднем на 5,92% со стандартным отклонением прибавки влажности sz= 1,81, в результате чего стандартное отклонение влажности в этих увлажненных зонах повышается до 52=2,14. Большая же часть объема горизонта F1%) при этом своей влажности не изменяет. 8.17. ОЦЕНКА ГРАНИЧНЫХ ЗНАЧЕНИЙ МЕЖДУ ПОДСОВОКУПНОСТЯМИ Продолжая анализ данных на примере с влажностью почвы, заметим, что поскольку как и исходная влажность, так и ее прибавка при увлажнении имеют большую неоднородность, то в условии независимости этих случайных величин совсем не обязательно, чтобы для увлажненной почвы значения влажности были более высокими, чем для почвы, не увлажненной поливом. Это хорошо видно на рис. 8.2, где в некоторой области значения влажности почвы могут принадлежать и той , и другой подсовокупностям. Очевидно, что принадлежность отдельных значений к разным подсовокупностям может быть далеко неравновероятной. Так, влажность 6-7% едва ли можно отнести к подсовокупности, соответствующей увлажненным образцам почвы, но в отношении значения 11 или 12% определенное суждение вынести очень трудно. Тем не менее чисто статастически вопрос о том, какое значение следует принять за граничное, разделяющее области предпочтительной принадлежности к одной или другой подсовокупности, может быть решен. Наиболее надежное нахождение граничного значения хт возможно в том случае, когда смежные подсовокупности имеют распределения, близкие к нормальным, а объемы выборок насчитывают по меньшей мере десятки значений. Существенную роль играет и относительная величина различий между средними подсовокупностей. Если в качестве критерия выбора граничного значения взять равность ошибок первого рода при оценке принадлежности значений к подсовокупностям, то граничное значение следует искать как такое значение, которое обеспечивает равенство вероятностей: Р(х\ > хт) = Р(Х2 < хт)> (8.49) где XI и X2 - значения, принадлежащие первой и второй подсовокупностям. 177
Граничное значение х\п допустимо рассматривать как значение, в большую сторону от которого все значения принадлежат одной подсовокупности, а в меньшую сторону - другой. Однако следует иметь в виду, что при этом мы можем допустить ошибку, относя к первой подсовокупности значения, принадлежащие ко второй, и наоборот. Если средние подсовокупностей равны jij и цг, причем jxi < ji2, то вероятность упомянутой выше ошибки оценивается выражением (8,49). Так как эта вероятность иногда может быть настолько высокой, что пренебрегать ею было бы рисковано, то более правильно рассматривать граничное значение как такое, по одну сторону от которого более предпочтительно все значения рассматривать принадлежащими одной случайной величине, а по другую сторону - к другой случайной величине. В техническом отношении нахождение граничного значения хт можно осуществить, если с некоторыми допущениями условие (8.49) заменить условием равенства абсолютных значений нормированных отклонений jci/2 от средних разделяемых подсовокупностей1: х1/2~*1 Х2~ХУ2 откуда Х\ S-у • "^2*^1 412 sl +s2 (8.50) (8.51) Подставляя в (8.51) известные нам оценки, получим WW + WW 1/2 1,14 + 2,14 Из приведенных вычислений следует, что в тех случаях, когда влажность почвы не превышает 11,08%, ее предпочтительно рассматривать как исходную, не испытавшую изменений в результате полива, и наоборот. Следует заметить, что изложенные выше приемы отыскания граничных значений могут быть использованы отнюдь не только в качестве одного из этапов анализа совокупности как смеси подсовокупностей. Граничное значение можно вычислить и для совокупностей, изучавшихся раздельно. Так, если в условиях Молдавии карбонатные черноземы на глубине 30-40 см содержат в среднем *, = 2,83% гумуса при si = 0,40% (m = 98), а обыкновенные черноземы на той же 1 Объёмы разделяемых подсовокупностей должны быть достаточно велики (и > 30) или по меньшей мере практически одинаковы. 178
даубине имеют х2= 3,30% при л*2 = 0,51% (П2=117), то граничное зна- 2,83-0,51 + 3,30.0,40 иение окажется равным дг1/2 = : = 3,04%. f^ F 1/2 0,40 + 0,51 Предпочтительность отнесейия черноземов к подтипу карбонатных, если в них на соответствующей глубине содержится менее 3,04% гумуса, и к обыкновенным, если гумуса окажется больше 3,04%, не означает, что с помощью подобного критерия можно строго однозначно разделять эти подтипы. Однако полезность подобного рода оценок, например для целей диагностики почв, отрицать нельзя. Последний из рассмотренных примеров, очевидно, относится уже К случаю анализа двух совокупностей, чему будет полностью посвя- -щена следующая глава. 8.18. АНАЛИЗ ДОЛЕЙ Как и при анализе обычных средних, оценка доли и ее ошибка представляют интерес вследствие того, что наряду с точечной ' оценкой имеется возможность найти доверительный интервал для доли, а если нужно, то и ее гарантированные максимум или минимум. Однако, будучи средним, доля обладает известными особенностями, определяющими специфику некоторых подходов при решении подобных задач. Для их иллюстрации рассмотрим пример, в котором требуется определить долю площадей, приходящихся на солонцы, в пределах некоторого хозяйства. Основой для такой оценки служит почвенная карта, а способ определения доли заключается в подсчете числа точек, приходящихся в целом на все хозяйство (и) и в том числе выпадающих на солонцы (f+). Этот способ определения доли поверхности основан на допущении, что любая точка на карте имеет равную вероятность быть опробованной, а положение точек опробования в полной мере определяется игрой случая. Реально процедуру подсчета ии/+ можно осуществлять, многократно накладывая произвольным образом на анализируемую карту разреженную сетку равномерно распределенных точек (например, чтобы на всю площадь приходилось не более 100 точек). Смещая случайным образом сетку и подсчитывая каждый раз общее число точек и число точек, приходящихся на солонцы, получим суммарные значения йи/+, которые позволяют оценить как долю поверхности р, так и ее ошибку sp. Если из общего числа точек и=1038 на солонцы выпало /^=321, то доля солонцов от общей площади 179
321 характеризуемой территории составляет/?= =0,309. Ошибка л, ^«ч /0,309.0,691 ЛЛ1. доли, согласно формуле E.53), есть sp = J— - =0,014. Абсолютная погрешность оценки доли определяется обычным образом по формуле (8.6) и для а=0.05 при v « oo (f0 05 = 1,96 ) получим А0 05 = 1,96-0,014 = 0,027 . Итак, точечная оценка доли площади под солонцами равна 30,9% при погрешности 2,7% в ту или иную сторону (риск большей погрешности, чем 2,7%, составляет 5%). Это означает, что доверительный интервал для дода, вычисляемый по формуле fa=p±taspf (8.52) аналогичной (8.8), таков: Ими = °>309 ± 1,96 -0,014 = @,282+0,336). Подобного рода оценки представляют интерес при общей характеристике почвенного покрова, и тогда аналогичные оценки можно получить и для других почв. Для этого при каждом подсчете точек можно сразу вести дифференцированно учет числа точек, приходящихся на разные почвы, выделенные на карте. Как и в случае анализа обычных средних, по тем или иным соображениям исследователя может интересовать лишь одна из границ; тогда можно вычислить гарантированный минимум min(p)a или гарантированный максимум тах(р)а доли с уровнем значимости а: mm(p)a=p-t2as, (8.53) max(p)a= P+t2a s. (8.54) Например, для характеристики почвенного покрова изучаемой территории как объекта сельскохозяйственного использования или предполагаемой мелиорации особый интерес может представлять максимум возможной доли поверхности под солонцами, что позволит оценить как максимальные возможные потери сельскохозяйственной продукции, так и максимальные затраты на мелиорацию таких почв. В рассматриваемом примере с риском ошибиться в 5% случаев доля солонцов не должна превышать тах(р)о,о5=0,309+1,64-0,0144=0,333 , т.е. 33,3% общей площади территории. Как следует из формул (8.52) - (8.54) , вычисление доверительных границ и гарантированных максимумов и минимумов доли основано на допущении о нормальности распределения оценок доли р. Такое допущение тем лучше оправдывается, чем ближе 180
доля Р к 0,5 и чем больше п. Когда доля Р оказывается слишком малой или наоборот слишком большой, распределение оценок доли р становится отличным от нормального, особенно при небольших объемах выборок (сказывается то, что величина доли может принимать значения лишь в интервале от нуля до единицы). В результате этого использование формул (8.52) - (8.54) для нахождения доверительных границ и гарантированных минимума и максимума доли оказывается мало пригодным. Как показал Фишер, это положение можно легко исправить, если воспользоваться так называемым ^-преобразованием. Если долю р представить в виде квадрата синуса некоторого угла ср/2, т.е. • 2 Ф /> = sin ~, (8.55) то <p = 2arcsin^/p. (8 56) Заменяя распределение долей р распределением углов ср, получим распределение, близкое к нормальному, с дисперсией а^, зависящей только от объема выборки п. Если углы измерять в радианах, то а1=~ (8.57) и ошибка репрезентативности при оценке генерального значения угла, соответствующего доле Р, по углу ф, соответствующему оценке доли/?, составит 1 *=-Г- • (8.58) Располагая сведениями о ф и об объеме выборки и, можно получить интервальную оценку для генерального значения угла: а при необходимости гарантированные минимум min(^) или максимум тах(^>) угла с уровнем значимости а: тт(<р)а=<р^ , (8.60) m*x(<p)a = <p+!f* . (8.61) 181
Для упрощения вычислений значения ср, соответствующие разным значениям р, могут быть табулированы (см. табл. XVH Приложения). С помощью обратного преобразования, согласно формуле (8.55), или воспользовавшись табл.ХУЦ можно перейти от углов к долям и из результатов вычислений углов по формулам (8.59) -(8.61) найти доверительные границы доли, их гарантированный максимум или минимум. Так, если при обследовании некоторого поля среди и= 100 скважин в /+ =7 случаях глубина промачивания после полива превышала 1 м, то оценка доли поверхности с глубиной промачивания свыше 1м есть р=7:100=0,07. Для интервальной оценки доли Р воспользуемся ср-преобразованием. Из табл.ХУИ найдем, что доле /?=0,07 соответствует ф=0,536. Если нас удовлетворяет уровень значимости <х=0,05, то (при v=99 имеем г 0 05 = 1,98) 1 QQ ^0 05 = 0,536 ± -~= = 0,536 ± 0,198 = @,338 * 0,734). VlOO Согласно той же табл.ХУИ можно обнаружить, что полученным доверительным границам угла соответствуют следующие границы доли: /?005 = @,028-5-0,129). Таким образом, с вероятностью Р=0,95 (или с риском ошибиться а=5%) можно утверждать, что доля поверхности поля, на которой глубина промачивания после полива превышает 1м, составляет от 2,8% до 12,9%. Вопросы для самоконтроля. 1. Что собой представляет выбраковка как статистическая задача? 2. Можно ли по коэффициенту вариации судить о нормальности распределения? 3. Что может быть причиной асимметричности или эксцессив- ности распределений? 4. Можно ли по отсутствию асимметрии и эксцесса судить о нормальности распределения и наоборот? 5. В чем различия критериев Уилка-Шапиро и хи-квадрат, используемых для проверки нормальности распределений? 6. Какие частоты называются теоретическими и каковы общие принципы их вычисления? 182
7. Что показывает абсолютная погрешность оценки среднего и от чего она зависит? 8. Какие оценки называются интервальными и что они показывают? 9. В чем различие показателя точности опыта и показателя относительной вероятной погрешности? 10. Что показывает гарантированный максимум (минимум) среднего и когда его следует вычислять? 11. Какие гипотезы составляют при сравнении средних с постоянными величинами и какими могут быть критерии их проверки? 12. Какие принципы лежат в основе методов исчисления достаточных объемов выборок? 13. В чем сходство и различие математического усреднения результатов анализа индивидуальных образцов почвы и физического усреднения при анализе одного смешанного образца, приготовленного из тех же индивидуальных образцов? 14. Что общего и в чем отличие интервальной оценки среднего и оценки интервала возможных значений случайной величины? 15. Какие значения можно считать типичными? 16. Как в значениях квантилей обнаруживает себя асимметрия распределений? 17. Какие особенности распределений находят отражение в поведении квантилей? 18. К чему сводится анализ совокупности, когда ее можно рассматривать как сумму двух подсовокупностей? 19. Какие соображения лежат в основе методов нахождения граничных значений между подсовокупностями? 20. Как дать интервальную оценку доли и ее гарантированный максимум (минимум)? 21. Почему при близости доли к 0 или 1 приходится прибегать к ф-преобразованию?
Глава 9 АНАЛИЗ ГРУППЫ ВЫБОРОК 9.1. ОБЩИЕ ОСОБЕННОСТИ АНАЛИЗА Наиболее часто исследователи, проводя наблюдения, ставят своей целью не характеристику какого-либо объекта самого по себе, а выясняют наличие сходства или различия между объектами, проявление динамики какого-либо свойства во времени, влияние некоторого фактора на то или иное свойство. Почти всегда в таких случаях наиболее интересующие исследователя вопросы сводятся к выяснению того, различаются ли объекты по средним показателям, меняются ли во времени средние значения, приводит ли воздействие (известкование, орошение и прочее) к изменению средних значений свойств (рН, урожайности, засоленности и пр.). Сравнительно редко подобные вопросы возникают относительно дисперсий, коэффициентов вариации, асимметрии и других особенностей случайных величин. В статистическом отношении решение многих задач подобного характера можно свести к проверке нулевой гипотезы об отсутствии различий между сравниваемыми константами (распределениями) при различных альтернативах, из которых чаще всего берется гипотеза о наличии каких-то различий. Поскольку методы сравнения средних зависят от того, допустимо ли дисперсии считать одинаковыми или нет, начнем с анализа однородности дисперсий. 9.2. СРАВНЕНИЕ ДВУХ ДИСПЕРСИЙ Если по двум выборкам получены оценки s \ и s \ дисперсий а \ и а 2 , то нулевую гипотезу Но: а \ = а \ (гипотезу об однородности дисперсий) против альтернативной Я7: а2 ф<з\ обычно проверяют с помощью статистики F. В полной мере корректна такая проверка при условии нормальности обоих распределений, однако, как показывает практика, использование статистики при неизвестных законах распределений сравниваемых случайных величин использование F-распределения для проверки однородности дисперсий не дает существенных ошибок. Для сравнения дисперсий вычисляют отношение большей оценки дисперсии к меньшей (s * > s \ ): 184
F = s\/s\. (9.1) Если Fa есть критическое значение F, найденное по табл. V Приложения для заданного а и числа степеней свободы vi и V2, с которыми получены оценки s] и s\ , то при F >Fa нулевую гипотезу отвергают (с риском ошибки а) и считают, что дисперсии а \ и а\ не равны. При F < Fa гипотеза об однородности остается в силе, что позволяет при необходимости вычислить усредненную оценку дисперсии согласно формуле E.16) с числом степеней свободы v = vi + V2. - Однородность стандартных отклонений оценивается путем проверки однородности дисперсий. Так, если при изучении влажности почвы на двух участках было получено ^i = 2,16 при п\ = 5 для одного участка и si = 1,37 при т = 4 для другого, то проверка однородности стандартов (Но : ai = 02) осуществляется с помощью проверки однородности дисперсий (Но : а* =о22). Так как F = 2,1 б2: 1,372 = 2,5, что меньше Fo.os = 9,1 (при vi = 5 - 1 = 4 и V2= 4 -1 = 3), то нет оснований считать, что дисперсии (а соответственно и стандартные отклонения) влажности на сравниваемых участках различны. 9.3. СРАВНЕНИЕ БОЛЕЕ ЧЕМ ДВУХ ДИСПЕРСИЙ Если число сравниваемых дисперсий больше двух, то имеется возможность подбора разных пар оценок дисперсий для нахождения их отношений. Использование в подобных случаях критерия, основанного на F-распределении, приводит к завышению значимости различий, причем оно тем больше, чем больше выборок сравниваются друг с другом. В связи с этим проверку однородности дисперсий, когда число оценок более двух, осуществляют с помощью специальных статистик. В том случае, когда совокупности имеют распределение, близкое к нормальному, и все оценки дисперсий найдены с одинаковым числом степеней свободы v, можно использовать критерий, основанный на отношении максимальной оценки дисперсии к минимальной: Fmax=.92maxA2min. (9.2) Если Fmax > Fmaxia, где Fraax;a - табулированные критические значения Fmax в зависимости от v и числа к сравниваемых оценок дисперсий (см. табл. X Приложения), то дисперсии считаются неоднородными, т.е. отдельные оценки дисперсий являются оценками по меньшей мере двух разных дисперсий. Пусть, например, на некоторой глубине в исследуемой почве в последовательные к =10 сроков наблюдений варьирование 185
влажности, определенной с одинаковой по всем срокам повторно- стью п = 5, оценивается следующими значениями /•: 1,69; 0,36; 1,44; 3,61; 2,56; 10,24; 17,64; 7,84; 0,90; 0,16. Тогда, учитывая, что ^max = WM и ^in = 0,16, находим Fmax = 17,64 : 0,16 = ПО. Соглас- но табл. X, при v=5-l=4Hg = fc=iO получим Fmax:o,o5 = 44,6 . Поскольку Fmax = 110 > Fmax,o,o5 = 44,6, следует признать, что дисперсия влажности в разные сроки наблюдений не может считаться неизменной. Можно воспользоваться интересным приемом, представляющим попарное сравнение всех дисперсий. Наиболее просто и сравнение, и отображение его результатов осуществляется методом Ньюмена - Койльса, согласно которому все к оценок дисперсий s 2 располагают в ранжированный ряд от наименьшей s*2 до наибольшей s*k2. Сначала оценки дисперсий сравнивают с s*1, начиная с наибольшей. Если Fmax = sj2 : s*2 </w,a при g = А:, то нулевую гипотезу об одно родности дисперсий не отвергают и на этом сравнение дисперсий заканчивают. Если же iw > Ртгх^Сддя v и g = А:), то различия между дисперсиями о*2 и а£2 расценивают как значимые и приступают к СраВНеНИЮ ОЦеНОК S*2 И ^-1 СОПОСТаВЛеНИеМ Fmax = S^/S*1 С Fmax;a для числа степеней свободы v и числа сравниваемых дисперсий g = к - 1. ПрИ Fmax < Fmax;a(v,k-1) BCe ДИСПерСИИ ОТ а*2 ДО СГ^ ВКЛЮЧИ- тельно считают одинаковыми и дальнейшее сравнение оценок с s*2 прекращают. При Fmax > Fmax:a(Kk-i) считают, что а*2 ^сг^2_, и приступают к сравнению s*£_2 с .у*2, отношение которых сравнивают с Fmax а для числа степеней свободы v и числа сравниваемых оценок g = к - 2. Такое сопоставление, если нужно, производят для всех пар оценок дисперсий. При значимости этих различий с s*2 затем сравнивают s^ и т.д., до тех пор, пока различия не окажутся незначимыми. Тогда берутся за сравнение оценок, начиная опять с большей, с^2 , затем с sf и т.д. Если номера оценок сравниваемых дисперсий в ранжированной последовательности равны / и w, причем 1 <т, то для отношения Fmax= s *2/s*1 критическое значение Fraax;a берут для g = т -1 + 1. Подчеркивая в ранжированной последовательности незначимо различающиеся оценки дисперсий и лежащие между ними оценки 186
Вкой сплошной линией, можно получить простую форму представ- Квкя результатов такого анализа. ВТ так, приведенные выше к = 10 оценок дисперсий влажности после ранжировки дают следующий ряд s*2 : 0,16; 0,36; 0,90; 1,44; 1,69; Р&56; 3,61; 7,84; 10,24; 17,64 . Сопоставляя s*2 последовательно с *•$» 592 и тд#' наВДем fr»ax = 17,64 : 0,16 = ПО, что превышает "Fmax;o,o5 = 44,6 (v= 4, g = 10) (см. Табл. X ), поэтому s*2 = 0.16 и 3*1 = 17,64 следует считать оценками разных дисперсий (о*2* а *1). Далее, находим Fmax = 10,24 : 0,16 = 64, что превышает Tw.-cos =41,1 (v= 4, g = 9); следовательно, различия также могут считаться значимыми. Значимыми они оказываются и при сравнении s*2 c s*% (Ям* = 49,0 > Fmax;o,o5 = 37,5). Однако различия между s*2 и Sy2 значимыми считать нет оснований, поэтому дальнейшее сравнение оценок дисперсий с s*2 можно прекратить и считать все оценки от s*2 до s*2 различающимися незначимо и подчеркнуть их одной непрерывной линией. Аналогично можно сравнивать оценки дисперсий с 5^2 , начиная с ; s*l> затем с s*2 и т.д. Результаты проведенного сравнения оценок i дисперсий в итоге можно представить следующим образом: 0,16 0,36 0,90 1,44 1,69 2,56 3,61 7,84 10,24 17,64 Из рассмотрения полученных данных следует, что с а = 0,05 дисперсии нельзя считать однородными (одинаковыми), так как отсутствует одна непрерывная линия, объединяющая все оценки дисперсий в их ранжированной последовательности. Если оценкам .у*2 , s*i »—» 5*о соответствуют дисперсии а*2, a^J2, ..., o*q , то, поскольку s\2 ни одной сплошной линией не объединена с тремя самыми большими оценками, можно утверждать, что дисперсия а*2 значимо отличается от а*82, а*92 и o*q . С тем же риском а = 0,05 можно утверждать, что s*l, с одной стороны, hj*2 и s*2 , с другой, являются оценками разных дисперсий. В то же время дисперсии в интервале от аз2 до а у2 нельзя считать отличными ни от а*2 или а^2, ни от дисперсий aj2, а^2 или а*1, так как их оценки объединены хотя бы одной сплошной линией. 187
Если выборки, дисперсии которых сравнивают, принадлежат ге> неральным совокупностям, имеющим нормальное или близкое к нему распределение (и это условие достаточно жесткое), то оценку однородности ряда дисперсий можно проводить с помощью так называемого критерия Бартлета> основанного на том, что некоторая статистика В распределена как х2 с числом степеней свободы v = к - 1, где к ~ число оценок одной и той же дисперсии. Критерий Бартлета можно использовать и в том случае, когда объемы отдельных выборок не равны. Для вычисления В необходимо найти усредненную оценку дисперсии согласно формуле E,16) и некоторую величину ( W С = 0,4343 1 + - I 3(к~\) I 1 J nJ 1 J Тогда #: fl»y-fcjig^-z[(^-i)ig^] (9.3) (9.4) где s j и и, - оценка дисперсий и объем /-той выборки (/=1,2, ..., к), s2 - усредненная оценка дисперсии. Если В > х£ Для v = /: - 1, то с соответствующей вероятностью нулевую гипотезу об однородности ряда дисперсий отвергают и признают, что сравниваемые выборочные дисперсии являются оценками двух или большего числа различных дисперсий. Как следует из формул E.16), (9.3), (9.4), при использовании критерия Бартлета требуется для каждой отдельной выборки объема п, найти величины 1/(^-1), (лу-1) и (rij-l)\gs2j , а затем суммы соответствующих величин для всех к выборок. После этого последовательно отыскивают s2, lg s2, С и, наконец, 5. Технику вычислений рассмотрим на конкретном примере. Пусть при составлении статистического паспорта на пипетметод механического анализа проанализировано 9 образцов (к = 9), из которых один с 10-кратной повторностыо, а остальные с повторностью п/=2К 1 При использовании критерия Бартлета желательно, чтобы rij £ 5. При несоблюдении этого условия критерий малопригоден и результаты анализа следует интерпретировать с большой осторожностью. 188
Для фракции физической глины полученные оценки дисперсии s2j, характеризующие воспроизводимость анализа, представлены в табл. 9.1 ♦ Следует выяснить, можно ли считать, что все полученные выборочные дисперсии являются оценками одной и той же дисперсии (это может иметь место, если варьирование результатов в по- вторностях не зависит от индивидуальных особенностей анализируемых образцов) или же такое допущение не оправдано и выборочные дисперсии представляют собой оценку различных дисперсий. Оценку однородности дисперсий проведем с помощью критерия Бартлета. Вычисления необходимых сумм приведены в табл. 9.1. Таблица 9. 1 Вычисление необходимых сумм при использовании критерия Бартлета nJ 10 2 2 2 2 2 2 2 2 Z»y=26 А 6,917 0,020 1,300 0,021 0,250 2,756 4,202 0,325 0,044 — 4' (nr\) s) 62,253 0,020 1,300 0,021 0,250 2,756 4,202 0,325 0,044 (nrl)lgsj 7,5591 -1,6990 0,1139 -1,6778 -0,6021 0,4402 0,6234 -0,4881 -1,3565 1^1^ = 71,171 Z[(*,-I)lg^]-2,913I i/for1) 0,111 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 V—!— = 8,111 71171 Дальнейшие вычисления имеют следующий вид: s2= л1 ^ =4,187; 26-9 lgs2= 0,6219; С = 0,4343 1+- 1 3(9-1) 8,111- 1 26-9 : 0,5800; д_ B6-9H,6219-2,9131 П2 0,5800 При v = 9 - 1 = 8 находим Xo.os = 15,5 . Так как В < Хо,05 > т0 У нас нет оснований считать, что дисперсии неоднородны, а следовательно, можно допустить, что при определении пипетметодом содержания физической глины дисперсия как характеристика воспроизводимости метода не зависит от специфики взятых образцов. Лучшей оценкой дисперсии при этом служит s2 = 4,19(%J и s - 2,0%. 189
9.4. СРЕДНЯЯ РАЗНОСТЬ И ЕЕ ЗНАЧИМОСТЬ В ряде случаев оценку значимости различий между средними двух совокупностей приходится осуществлять на основании выборок, в которых отдельные значения из разных выборок попарно связаны друг с другом. Наиболее часто такая связь является следствием принадлежности результатов разных испытаний к одному элементу опробования, например, когда изучаемое свойство в каждом образце определяется двумя разными методами. В подобных ситуациях объемы выборок одинаковы. Задачу оценки значимости различий между средними \х\ и Ц2 можно решать разными способами. Наиболее просто это можно сделать, прибегая к вычислению попарных разностей между значениями x\t и хгь где хц - значения первой случайной величины, X2t - второй случайной величины, / = 1,2, ..., п есть номер пары, ал- число пар (объем любой из выборок). Тогда ряд разностей rff= xi, -хц можно рассматривать как выборку из некоторой генеральной совокупности со средним \id к дисперсией а \ . Если средние jjli и \х.г одинаковы, то \id должно быть равно нулю. Эта нулевая гипотеза Н0: \xd = 0 обычно против альтернативной Hf. \id* 0 (или, что то же самое, Hf. \i\ * цг) и подвергается проверке. В связи с этим для ряда значений 4 вычисляют обычным образом среднее d и его ошибку s^ (см. формулы E.6), E.11), E.23)), а затем находят t =\d \/ Sj . Если t > ta для v = п - 1, то нулевую гипотезу отвергают и делают заключение, что средняя разность \id (и разность между средними |xi - \xi) не равна нулю, а значит, средние \х\ и }Л2 отличны друг от друга. К подобному случаю сравнения средних можно свести задачу по изучению влияния предварительного высушивания почвы при 105° на величину максимальной гигроскопичности. Если каждый из 5 образцов почвы был в этом опыте разделен на две части и в одной из них была определена максимальная гигроскопичность без предварительного высушивания (х\(), а в другой - после высушивания (хг/), то согласно описанному выше способу проверка предположения о роли высушивания может выглядеть следующим образом: jci, 6,41 6,27 6,33 6,05 5,52 JC2| 5,84 6,21 5,99 5,69 5,05 dt 0,57 0,06 0,34 0,36 0,47 Здесь d = 0,36; s s = 0,086; t = 0,36 : 0,086 = 4,19. При v = 5 - 1 = 4 находим fo,o5 = 2,78. Следовательно, у нас есть основания считать, что средняя разность отлична от нуля, а тем самым мы можем 190
Утверждать, что высушивание изменяет в среднем величину максимальной гигроскопичности (судя по знаку разности - уменьшает). 9.5. СРАВНЕНИЕ ДВУХ СРЕДНИХ ПРИ ОДИНАКОВОСТИ ДИСПЕРСИЙ И НЕКОРРЕЛИРОВАННОСТИ ВЫБОРОК В общем случае для проверки нулевой гипотезы Н0: Ц1 = \ii против альтернативной Hi: ул * Ц2 при наличии оценок Зс i и х г и их ошибок s^ и sx исходят из допущения, что разность d - х i -x г является нормально распределенной случайной величиной со средней ц</ = 0. Оценкой sd стандарта этой величины, обычно называемой ошибкой разности, может служить + 4 • (9-5) =я Тогда t = d/sd должно быть распределено как r-Стьюдента и если t £ ta, то нулевую гипотезу отвергают; если же t < ta > то различия между средними считают статистически незначимыми. При условии одинаковости дисперсий (это можно проверить с помощью критерия F) ошибку разности вычисляют с учетом усредненной оценки дисперсии i (см. формулу E.16)). При этом ошибки средних х i и х г S S примут вид —?= и -j=, где п\ и т - объемы выборок, а ошибка разности есть щ +и2 sd=sp^ (9.6) и ей соответствует число степеней свободы v = л7 + п2 - 2. С этим v считается распределенной и f-Стьюдента. В частном случае, когда ni= n2 = п> получим sd = sfijn> (9.7) причем v = 2 (л - 1). Так, с уменьшением влажности чернозема с 33,4 до 31,3% твердость (в кг/см2) возросла, судя по выборочным данным, с х \ = 9,2 при .У; = 1,15 и п1 = 13 до х2 = 11,5 при52 = 1,72 и п2 = 5. Для проверки предположения о том, что средние значения твердости с колебанием влажности остаются неизменными (ц1 = Ц2), при альтернативе, Что твердость в среднем меняется (цл * цг), проведем необходимые вычисления с учетом того, что дисперсии допустимо считать одинаковыми (а ] = а |): 191
И в77^ ^ ^-i^—-0,69, d = 9,2 - 11,5 = - 2,3; r = 2,3 : 0,69 = 3,33. При v = 13 + 5 - 2=16 даже ro.oi = 2,92, не говоря о fo.os, меньше t = 3,33, поэтому можно с большой уверенностью утверждать (риск ошибиться в утверждении не более 1%), что средняя твердость при различной влажности не одинакова. 9.6. СРАВНЕНИЕ ГРУППЫ СРЕДНИХ Если исследователем получено к выборочных оценок среднего, то число их возможных пар при сравнениях равно 0,5/с(/с-1). Чем больше к, тем шире возможность найти достаточно большую величину разности, что приходится учитывать при сопоставлении средних, когда к > 2. Недоучет этого обстоятельства приводит к преувеличению числа значимых разностей. Наиболее просто задача сравнения группы средних решается в том случае, когда все к выборок имеют одинаковый объем п, причем дисперсии всех совокупностей можно считать однородными. При наличии этих условий вычисляют усредненную оценку S2 дисперсии по формуле E.17) с числом степеней свободы v = k(n-\) и ошибку средних ^зс» одинаковую (что обусловлено использованием единого усредненного значения s при постоянстве п) для всех к значений х у (/' = 1,2,..., к), согласно формуле E.23). Наиболее предпочтительным следует считать способ сравнения, когда оценки средних ранжируют и затем попарно сравнивают. Если разность d между любыми двумя оценками средних превышает или по крайней мере равна dai называемой наименьшей значимой разностью (нередко называемой наименьшей существенной разностью, или НСР), то разность ца между соответствующими средними считают значимой с вероятностью Р = 1 - а. Существует несколько способов вычисления da. По Дункану, da^qaSj, (9.8) где qa - некоторая величина, являющаяся функцией числа степеней свободы v, с которым найдена ошибка среднего (v = к(п - 1)), и числа сравниваемых средних g (см. табл. XI Приложения). Если g = 2, то qa- ta4l • Можно для всего ряда средних вычислить одну критическую величину da (чаще всего именно так и делают), но это обычно приводит к тому, что значимость различий несколько преуменьшается. Более правилен подход, описанный ранее при сравнении группы 192
[ерсий, согласно которому в ранжированной последователь- оценок х* от,наименьшей Зс* до наибольшей х£ сначала вают значимость различии между щ и ^ по разности fc* - х* сравнением ее с da , вычисленной по формуле (9.8), где qa рется для g = к. Если х£ - х* < da , то все xj считают оценками Одного среднего и на этом анализ значимости различий заканчивается. Если же окажется, что х£ - х* >da , то различия между ц\ g ц* считают значимыми и приступают к сравнению Зс* с х^, разность между которыми сравнивают с da , вычисленной при да , датой из табл. XI для того же v и g = к - 1. . Если и здесь окажется, что d >da, то сравнивают Зс* с Зс£_2 и т.д. до тех пор, пока разность между оценками средних не окажется меньше критической. На этом сравнение оценок средних с Зс* завершают. В ранжированной последовательности эти оценки и все уценки, лежащие между ними, подчеркивают одной сплошной линией, показывающей, что эти оценки могут считаться оценками одно- Го среднего. Затем процедуру сравнения повторяют для Зс£ , х% и t-Д., в каждом случае завершая подчеркиванием незначимо различающихся средних, если эти средние уже не объединены одной сплошной линией при предыдущем сравнении. При всех сравнениях .средних значение qa берут из табл. XI для g, зависящего от числа оценок, заключенных между сравниваемыми оценками. Если в ранжированной последовательности номера сравниваемых оценок рав- Иы/hwi, причем I<т, тоg = m- / + 1. Так, при сравнении Зс2* с Зс6* Получим g = 6-2+l=5. Допустим, что с повторностыо п = 4 были определены значения J>H почвы на к = 5 участках с различным растительным покровом, При этом получили следующие оценки средних xj и дисперсий Sj: Xj 5,64 5,11 6,47 5,78 7,16 s) 0,38 0,26 0,41 0,31 0,55 Поскольку нет оснований считать дисперсии разными {Ртах = 0>55 : 0,26 = 2,1 < Fmax;o,o5 = 50,7), найдем усредненную оценку среднего квадратического отклонения s =^1,91:5 = 0,62 и ^шибку среднего s-= 0,62 :V? =0,31 с числом степеней свободы JV = 5 • D - 1) = 15. После ранжировки получим Зс*: I 5,11; 5,64; 5,78; 6,47; 7,16. ! 193 | 13 Е.А.Дмитриеи
При сравнении крайних значений х* = 5,11 и х$ =7,16 нц^Л g = 5, v = 15, откуда rfo.os = 3,31 • 0,31 = 1,03 (в табл. XI go,os = 3,3u | Разность 7,16 - 5,11 = 2,05 превышает 1,03, следовательно,^ можно считать значимой. Более того, даже разнос^ х*4 - х* = 6,47 - 5,11 = 1.36 превышает do,os = 1,03, хотя она и найде, на для g = 5. Поэтому вычислять rfo.os для g = 4 уже нет смысла (оца окажется меньше 1,03). Сравнение разности х3* - х* = 5,78 - 5,11 = 0,67 с rfo.os 5 =3,160,31 = 0,98 свидетельствует о том, что эта разность незначима поэтому сравнение Зс2ф с *; можно уже не производить. Аналогично осуществляется сравнение х^ последовательно J Х5, 5с4 ,...; 3?з с х$, х*А и т.д. Подчеркивая оценки незначимо отли. чающихся друг от друга средних одной чертой, получим: 5,11 5,64 5,78 6,47 7,16 Если х*, х\,..., х5* являются оценками средних ц* , у.\ ,..., ц* >Щ из полученного отображения результатов анализа следует,что ц| значимо (с а = 0,05) отличается от у>*4и у.*5, а ц^ицз отличаются только от Цз » поскольку оценки х^и Х3 хотя бы одной непрерывной линией объединены как с х*, так ис х4*. Если оценки средних найдены с неодинаковыми повторностями rip то сравнение средних несколько усложняется. В том случае, когда дисперсии можно считать одинаковыми, усредненную оценку сред! него квадратического отклонения s для всех к выборок можно найти! по формуле E.16) с числом степеней свободы v = E(/iy- ~ 1), а наименьшую значимую разность - по формуле ^чЛ[^А. <9-9) где Л/ и пт - объемы выборок для значений сопоставляемых оценок средних в их ранжированной последовательности, ag = w- / + 1 (при / <т). 9Л. СРАВНЕНИЕ СРЕДНИХ ПРИ НЕРАВЕНСТВЕ ДИСПЕРСИЙ Если случайные величины, средние которых следует сравнить имеют разные дисперсии, то усреднение оценок дисперсий неправо мерно, и тогда ошибку разности нужно вычислять непосредственно через ошибки средних по формуле (9.5). Очень часто при этом 194
[>т, что ошибка разности sd определена с числом степеней сво- j v = гц +п2 - 2 и с таким же числом распределено t = \d\/sd. Это ко не так, что особенно важно иметь в виду при небольших объ- I выборок. С некоторыми допущениями значения v в подобных ах можно оценить по формуле v=—; Г> (9.10) и\ + _A-цJ л, -1 п2 -1 (9.11) ^Х. "^Х, v-B важности отмеченного обстоятельства легко убедиться на при- |йре с изучением содержания гумуса на двух участках почвенного «крова. Пусть для первого участка ^ = 3,12 при П/ = 4и5у = 0,24, а второго х2 = 3,46 при п2 = 9 и s2 = 0,09 . Тогда, поскольку flsl = 0,242/0,092 = 7,1 > Fo,o5 = 4,1 и дисперсии нельзя считать оди- ковыми, находим s^ = 0,24/ <Д =0,12; s^ = 0,09/V9 =0,03; «7^2^00? = 0,12; \d\ =3,12 -3,46 = 0,34; t =0,34/0,12 = 2,8. ■ '« По формулам (9.11) и (9.10) получим, что г можно считать рас- еделенным с числом степеней свободы v = 3: » т^—т = °>94;v =—2—^ г =3>4 • ■ 0,122+0,032 0,942 A-0,94J 3 8 у Так как при v = 3 имеем fo.os = 3,12, что больше t = 2,8, то гипофизу о равенстве средних не отвергаем. Если v принимать равным Hi + т - 2 = 11 (пренебрегая тем, что дисперсии не равны), то результат оказался бы иным: Го,о5= 2,20 < t = 2,8 и среднее содержание "Гумуса на участках можно было бы признать разным, но такой под- Ход, как правило, преувеличивает значимость различий. Полезно .заметить, что, как следует из рассмотрения формул (9.10) и (9.11), ес- fom объем одной из выборок, например nh стремится к оо, то оценка ^среднего Зс, стремится к среднему ць соответствующая ошибка s^ ^стремится к нулю и v определяется объемом второй выборки (п2 - 1), ^а сама задача сводится к выяснению значимости различий между неизвестным средним Ц2 и постоянной величиной ць 195
9.8-ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ СРАВНЕНИЯ СРЕДНИХ Сравнивая средние, всегда следует учитывать их статистическую природу, накладывающую определенный отпечаток на характер выводов, всегда имеющих вероятностную основу. В связи с этим, когда для простоты говорится о том, что полученные средние статистически не различаются, нужно понимать, что речь идет не об оценках средних, которые если и не одинаковы, то ставить под сомнение их различие бессмысленно, а о тех генеральных средних, которые нам в точности неизвестны. Если же различие между средними утверждается, то совсем не обязательно, чтобы это различие было равно разности между оценками соответствующих средних. Само по себе утверждение о существовании различий есть лишь утверждение, что разность между средними отлична от нуля. При необходимости, располагая значениями оценок разности d и ее ошибки sd с соответствующим числом степеней свободы v, можно получить интервальную оценку разности согласно формуле (8.8): da = d±tasd> (9.12) где taSd представляет собой абсолютную погрешность в оценке разности с уровнем значимости а. Так, в § 9.7 было получено, что различие между двумя участками по содержанию гумуса составляет d = хх - х2 = -0,34 при ^=0,12 и v = 3. Отсюда d0,os = (-0,34) ±3,12 - 0,12 = (-0,34) ±0,37 = +0,03 ч--0,71 . Как видим, погрешность в оценке разности здесь составила 0,37% содержания гумуса. В рамках проводимого исследования такая погрешность оказалась достаточно большой, в силу чего разность Ц1 - Ц2 с вероятностью Р = 0,95 может оказаться не только отрицательной, но и положительной. Поэтому и не была отвергнута нулевая гипотеза о равенстве средних с уровнем значимости а = 0.05 . Утверждение о наличии или отсутствии различий ни в коей мере нельзя трактовать как доказательство существования различий, а тем более их отсутствия. Имея дело со случайными величинами и проверяя гипотезы с помощью некоторых критериев, исследователь практически никогда не имеет абсолютно полной гарантии верности полученных выводов. Вывода всегда имеют надежность, в большей или меньшей мере отличную от 100%. В §9.6. оценивалась значимость различий в группе средних. Покажем на этом примере, что если получение значимых различий рассматривать как доказательство существования различий, то очень быстро можно прийти к абсурду. 196
^ основании отсутствия значимых различий будем считать дока- : равенство средних ц * и ц з (их оценки соответственно равны [1 и 5,78). По аналогичным соображениям можно считать дока- равенство Цз = М-4 (их оценки 5,78 и 6,47), но тогда должно место равенство ц,ш = \хт4 . Однако, следуя той же логике, мы казали наличие разности между ц,* и |ij . Абсурдность ситуации видна. Значимость различий между средними во многом зависит от объ- 1ов выборок. С увеличением объемов, с одной стороны, уменьшая ошибки средних и разностей, а с другой стороны, умень- ается критическое значение ta. Поэтому при небольших п доставлю часто различия оказываются статистически незначимыми, и оборот. Однако нельзя обольщаться тем, что с помощью статис- всегда можно получить нужный результат: чтобы показать, различий нет, следует взять небольшие выборки, чтобы полузначимые различия - выборки большого размера. Во-первых, значимость различий очень часто связана с большой погреш- ью оценок и если эти погрешности превышают практически или ринципиально важные минимальные различия между средними, то яедование нельзя считать завершенным или удачным. Во-вторых, атлетически значимые различия могут быть столь малы по своей *е,что это лишает их практического значения, а иногда и еретического интереса. На значимости различий иногда строят попытки классификации ьектов: отсутствие различий служит основанием для отнесения ьектов к одной какой-то группе, их наличие - к разным группам, [акой подход нельзя считать удачным, поскольку с увеличением ема выборок происходит не уточнение классификационных рупп, а увеличение их числа, связанное с ростом числа значимых |шзличий. % 9.9. ПЛАНИРОВАНИЕ ЧИСЛЕННОСТИ ВЫБОРОК f ПРИ СРАВНЕНИИ СРЕДНИХ Ь Чаще всего планирование объемов выборок при сравнении сред- производят, исходя из того, что после проведения исследования я между средними должны быть оценены как статистически чимые. Постановка задачи в таком виде, вообще говоря, не очень Дело в том, что далеко не все, казалось бы, хорошо спланиро- ie опыты дают предполагавшийся результат, и в этом нет ни- о страшного. Если бы было иначе, то незачем проводить 197
эксперимент, ведь его результат в точности известен и введен в условие задачи. Планирование объемов выборок для оценки значимости различий между средними обычно строят исходя из ряда допущений. Во- первых, делают предположение о том, что разность между средними d известна. Если значение даже приближенно трудно предположить, то в качестве d берут наименьшую величину различий между сред ними, которой уже нельзя пренебречь и которая имеет либо практи ческое, либо принципиальное значение. При этом не следует забы вать, что чем меньше выбрано d, тем надежней будут заключения, но тем больше окажется и планируемый объем выборок. Чем больше берется предполагаемая величина d, тем меньших заграт потребует планируемый опыт, но гарантии получения значимых различий при этом сокращаются. Во-вторых, при планировании численностей выборок приходится предполагать известными дисперсии сравниваемых совокупностей Чаще всего при этом используют некоторую априорную информацию, полученную на сходных объектах в сходных условиях проведения опытов, а иногда и оценки, полученные ранее на изучаемых объектах. Соотношение объемов сравниваемых двух выборок по возможности всегда должно быть оптимальным. Если дисперсии совокупностей допустимо считать одинаковыми и равными s2t то оптимальным является равенство объемов выборок: rij = п2 = —, где п - суммарный объем двух выборок. При этом ошибка разности оказывается наименьшей и, как следует из формулы (9.6), она составляет Sd fr (9.13) Чтобы предполагаемая разность между средними d могла быть расценена как значимая, нужно, чтобы отношение ,= И=й/« (9.14) sd 2s оказалось не меньше гш соответствующего v = п - 2. Учитывая зависимость ta от п и производя некоторые преобразования формулы (9.14), можно установить, что для нахождения искомого суммарного для двух выборок объема па нужно вычислить вспомогательную величину d^ к2~ As2 (9Л5) 198
по таблице стандартных отношении —, где ta соответствует п г = п - 2 (см. табл. XII Приложения), найти искомое па согласно /2 до'вию кг =-2-. Планируемые объемы каждой из выборок будут п 1аковы и равны щ = и2 = па /2. » Пусть, например, неоднократными исследованиями было установлено, что аналитическая ошибка определения плотности твердой "фазы почв пикнометрическим методом близка к s = 0,03 г/см3. Если |дам требуется установить, различаются ли между собой два образца Що плотности твердой фазы не менее чем на d =0,05 г/см3, то, поскольку к2~ 0,052 / 4-0,032 = 0,69 , из табл. XII получаем ло,о5 = 9. ^Округляя 9/2 в большую сторону, получим, что каждый образец . дужно анализировать с 5-кратной повторностью. >; Если дисперсии нельзя считать одинаковыми, то целесообразно брать разные объемы выборок. При этом следует учитывать,что от соотношения объемов п\ и пг зависит не только величина ошибки разности, но и соответствующее ей число степеней свободы v. При данном суммарном объеме выборок п = п\ + пг оптимальным соотношением между п\ и пг является такое, которое обеспечивает получение наименьшей ошибки разности sd при наибольшем v. Можно показать, что это достигается, если — = — . При этом ошибке sd п2 s2 соответствует v = п - 2. Тогда для нахождения суммарного объема выборок пш обеспечивающего получение значимой разности, если она по абсолютной величине по меньшей мере равна d, следует вычислить величину t2 И по табл. XII найти па из условия кг =—. Объемы отдельных выбо- п рок при этом составят *=777"' пк=п«~\- (917> % + s2 Подобный подход к оценке необходимого объема выборок целесообразно использовать, когда имеются серьезные основания считать, что дисперсия изучаемого свойства зависит от его среднего гУровня, а также в тех случаях, когда проведенные исследования 1' •* 199
выявили неоднородность дисперсий, но не позволили с необходимой точностью и надежностью оценить различие в средних. Пусть, например, при определении твердости почвы на двух участках с п\ = пг = 10 получили результаты хх = 45,3 , s\ = 4,3 и х2 =: 39,8, S2 = 7,4, не позволившие утверждать, что различия по твердости имеются. Тогда для проведения повторного исследования, могущего дать более определенный ответ, если различия между средними не 52 менее, чем d = 5, получим кг =-, = 0,18; ло,о5 = 24- D,3 + 7,4J 24-4 3 п = ^ ^ «9; п2 =24-9 = 15. 1о-05 4,3 + 7,4 2°'05 Если вычисленное значение кг < 0,13 , то искомое па можно найти по формуле Уа (9.18) к2 ВЗЯВ ta ДЛЯ V = 00. Планирование численности выборок как при оценке средних (см. § 8.11), так и при их сравнении, нередко вскрывает ситуации, когда требующаяся повторность оказывается настолько большой, что практически не может быть реализованной. Наиболее распространенной реакцией исследователя в таких случаях бывает, к сожалению, разочарование в статистических методах и отказ от их использования. Невозможность практической реализации рекомендуемой повторности означает, что в рамках проводимого эксперимента нельзя сделать достаточно надежные выводы и заключения могут носить лишь характер предположений, настаивать на которых лучше не стоит. Само это знание малой надежности вьюодов должно расцениваться как важная информация о качестве проведенного исследования, и нет оснований скрывать малую надежность выводов, если исследование все же проведено с достаточной повторностью. 9.10. КВАНТИЛЬНЫЙ АНАЛИЗ ГРУППЫ ВЫБОРОК Наряду с решением задач о сходстве или различии тех или иных констант, характеризующих сравниваемые случайные величины, немалый интерес представляет анализ более тонкой структуры в организации данных и ее изменении в разных объектах. Например, для объяснения природы объектов исследователю может очень помочь не только установление факта изменчивости средних или дисперсий, но и то, как такая изменчивость происходит. Ведь при переходе от 200
Si02, 84-1 82 80 78 % объекта к другому среднее, например, может измениться как изменения всех значений на некоторую величину, так и вие того, что лишь некоторая часть значений заметно воз- t или уменьшилась. В решении этих вопросов большую помощь вает анализ поведения квантилей распределений. При этом [ не обязательно (хотя и возможно) проверять те или иные ста- *еские гипотезы. Тем не менее познавательное значение такого фидеистического анализа не вызывает сомнений. / Проведение квартального анализа наиболее удобно при графическом отображении результатов вычислений. ^Дяя иллюстрации интерпретационных возможностей квантиль- ЯЙГО подхода рассмотрим поведение квартилей и крайних децилей удержания валового SiCh ф дерново-подзолистой 0В£ве. Элементы опробо- щдеия представляли собой ЯЙвшндрические образцы даометрической формы Объемом 10 см3, что имеет минципиальное значение Щ& интерпретации результатов анализов. v Предварительно заме- $Ш, что с процессом опод- ^мшвания связьгоается появление содержания SiCh 1 валовом составе почвы и ЧШ этот процесс сильнее Шражен, тем больше содержание оксида кремния, 8 йаоборот. Следователь- Ф, значения верхних квантилей соответствуют более оподзоленному Материалу в пределах горизонта, а нижних - менее оподзоленному •ГО даже иллювиально обогащенному продуктами выноса из вышележащих горизонтов. Если напряженность и направленность Фоовиально-иллювиальных процессов с глубиной во всех кистях горизонта меняется одинаково, то квантили содержания 8Юг должны меняться по профилю почвы однообразно, но ЭЕого, как оказывается, не происходит. На рис. 9.1 представлены Фантили раздельно по верхним (в), средним (с) и нижним (н) третям •вследовавшихся горизонтов, показывающие, что в горизонте W&2 и вплоть до середины АгВ медианное содержание W2 остается практически без изменений, после чего резко 201 76' 74 н в Al*2 А2В в с т Рис.9.1. Изменение квантилей содержания валового Sid по подгоризонтам дерново- подзолистой почвы
снижается. В то же время нижний дециль Х(о,ю;, остающийся постоянным в средней и нижней третях А1А2, начинает резко уменьшаться уже в верхней трети горизонта АгВ, отражая тем самым появление и увеличение в горизонте АгВ и Bi доли участия почвенного материала, в той или иной мере не затронутого элювиальными процессами или содержащего признаки иллювиальных явлений. В верхней трети А2В объемная доля участия такого материала близка к 10% и заведомо меньше 25%, так как нижний квартиль Х(о,25) здесь еще не меняет своего значения по сравнению с вышележащими горизонтами. В середине АэВ доля слабо или совсем незатронутого элювиальными процессами материала уже превышает 25%, но меньше 50% (здесь медиана еще не обнаруживает изменений). Верхние квартиль и дециль содержания SiCh соответствуют наиболее обогащенным кремнекислотой участкам, а это в рассматриваемом случае может быть связано с локализование наиболее опод- золенными участками горизонтов. Примечателен тот факт, что верхние квартиль и дециль до середины АгВ не только не проявляют еще тенденции к снижению, но имеют еще тенденцию увеличивать свое значение, что может быть связано только с тем, что хотя элювиальные процессы в горизонте АгВ и не идут повсеместно также интенсивно, как в А1А2, но локально эти процессы здесь заходят значительно глубже. Более того, можно утверждать, что в горизонте А2В локально оподзоленные участки не просто репрезентируют вышележащий элювиальный горизонт А1А2, а содержат материал с экстремально выраженными элювиальными явлениями. Рассмотрение поведения квантилей в разных горизонтах (слоях, глубинах) позволяет судить о характере изменчивости изучаемого свойства по профилю почвы. Прежде всего заслуживает внимания анализ размаха колебаний между у- и A - у)-квантилями (между Х(о,25) и Х(о,75), Х(о,\) и лг(о,9) и другими). Например, из рис. 9.1 видно, что степень изменчивости в содержании Si02, оцениваемая по размаху между первым и третьим квартилями, при переходе от горизонта А1А2 к нижней трети горизонта А2В увеличивается в 3 раза, причем в верхней грети горизонта АгВ увеличения размаха еще не наблюдается. В то же время размах между крайними децилями уже в верхней трети горизонта АгВ в 2 раза больше, чем в А1А2 и достигает максимума к середине А2В. Особый интерес здесь представляет неодинаковость поведения размахов между первым и третьим квартилями и нижним и верхним децилями при переходе от горизонта А1А2 к верхней трети горизонта АгВ. При неизменности межквартильного размаха (и, соответственно, вариации в средней области ранжированного ряда) децили уже определенно отражают рост вариации 202
' переменной. Столь богатой информации о характере изменчивости изучаемого свойства обычные статистические методы дать не могут. Наряду со степенью изменчивости квантили позволяют судить об асимметричности в изменчивости и характере ее проявления. Для этого достаточно рассмотреть отклонения у- и A - у)-квантилей от медианы, которые при симметричности в изменчивости должны быть одинаковы. Так, по coдqшaнию SiCh в горизонте AiA2 изменчивость в пределах крайних квартилей и децилей можно считать почти симметричной (медиана располагается близко к середине между крайними квантилями). В верхней и средней третях горизонта А2В асиммегрия отчетливо выражена в гораздо большей (в 2 - 2,5 раза) удаленности нижнего дециля от медианы сравнительно с верхним децилем. Как видим, рассмотрение квантилей и их изменения по профилю почвы позволяет вскрыть детальную картину характера изменчивости изучаемого свойства, а тем самым глубже познать механизмы, определяющие специфику дифференциации почвенной толщи по изучаемому свойству. Квантили могут оказаться весьма ценным способом характеристики переменных в случае анализа информационной ценности образцов разного размера, с помощью которых характеризуется изучаемый объект. Не меньший интерес представляет рассмотрение поведения квантилей для изучения особенностей влияния отдельных факторов на изучаемый признак. Например, рассмотрение долевого участия тех или иных значений переменной величины может помочь в выяснении особенностей увеличения содержания в почве питательных элементов при внесении удобрений, вскрыть характер неравномерности увлажнения почвы при орошении или специфику расходования из почвы влаги путем ее десукции. Квантили могут оказать большую помощь также для анализа структур смены почв в пространстве, например в условиях комплексного почвенного покрова. Учитывая, что определение квантилей не предполагает каких- либо ограничений на характер переменных величин, оправданность применения квантильного метода анализа оказывается гораздо более широкой, чем обычных статистических методов обработки данных. 9.11. СРАВНЕНИЕ ДОЛЕЙ При сравнении долей нулевая гипотеза сводится к предположению, что генеральные доли Pi и Рг равны, а различия в оценках рх и Pi обязаны не более чем обычной игре случая. Если эта гипотеза 203
верна, то при разности между оценками долей d-p[-p1 и ошибке разности, вычисляемой обычным способом: Sd=H+s2p2> (9Л9) где sp и s?2 - ошибки долей, найденные по формуле E.53), отноше- ' и 2 ние t - — не должно превышать критического значения ta , которое берется обычно для v = п\ + ni - 2. Если окажется, что г >ta, то с соответствующим уровнем значимости а от нулевой гипотезы можно отказаться в пользу альтернативной гипотезы, состоящей, например, в том, что генеральные доли Pi и Pi не равны между собой. Пусть, например, до и после вспашки поля доля водопрочных агрегатов, определенных по Андрианову в выборках по т= т = 100 агрегатов, оказалась соответственно равной рх = 0,78 и #= 0,70 . Тогда, поскольку spt = = 0,001716 „ si =^^=0,002100, 0>78-0,70 sjWsU0, Р2 100 V0,001716 + 0,002100 0,062 что существенно меньше t0 05= 1,97, у нас нет серьезных оснований утверждать, что вспашка изменила долю водопрочных агрегатов в почве. Более предпочтительно оценивать значимость различий долей, особенно если их величина приближается к нулю или единице, используя преобразование долей в углы ср. При этом нулевую гипотезу о равенстве долей заменяют гипотезой о равенстве углов. Соответствующие полученным оценкам долей р, ид углы ср} и ср2 находят из табл. XVII Приложения. Если объемы соответствующих выборок равны т и пг, то в силу формулы (8.58) разности углов d = cpj - ф2 соответствует ошибка причем v = m + пг - 2. При условии "Nt^T' <9-20> tM = \d\\hK>tQL (9.21) нулевую гипотезу о равенстве углов (а соответственно и долей) отвергают. 204
I Заметим, что если величина t распределена с некоторым числом степеней свободы, например с v = m+ пг- 2, как в выражении (9.21), то t1 является случайной величиной, распределенной как Fc vi = 1 й V2= /ii + /12 — 2. Поэтому если все члены в выражении (9.21) возвести в квадрат, а это иногда способствует упрощению вычислений, то проверка нулевой гипотезы будет осуществляться с помощью статистики F: нулевая гипотеза отвергается при условии, что F = rf2Al^>Fa (922) В рассмотренном выше примере с водопрочностыо агрегатов для долей р{ = 0,78 ид = 0,70 углы согласно табл. ХУЦ оказываются равными q>! = 2,165 и q>2 = 1,982 . Так как d = 2,165 - 1,982 = 0,183 и /II = /12 = 100, то получаем п = 0,183 J- VI / = 0,183J-^H- = 13 tf 100 + 100 что меньше f005 = 1,97 . По формуле (9.22) находим F=0,1832!™^=1,67, 200 что меньше F005= 3,9 при vi =1 и V2 = 198. Вопросы для самоконтроля. 1. К чему относится утверждение об однородности дисперсий - к дисперсиям или их оценкам? 2. С помощью какого критерия можно сравнить между собой два стандартных отклонения? 3. В чем особенности проверки гипотезы об однородности дисперсий в том случае, когда число оценок дисперсий больше двух? 4. Одинакова ли применимость критерия Бартлета однородности дисперсий и критерия, основанного на максимальности отношения оценок дисперсий? 5. Какая нулевая гипотеза проверяется при сравнении средних? 6. Какую роль играет однородность дисперсий при сравнении средних? 7. Что означает незначимость различий между средними и с чем она может быть связана?
Глава 10 ДИСПЕРСИОННЫЙ АНАЛИЗ 10.1. ОБЩЕЕ ПРЕДСТАВЛЕНИЕ О ПРИНЦИПАХ ДИСПЕРСИОННОГО АНАЛИЗА В сложной цепи взаимосвязанных явлений в качестве причин варьирования изучаемого признака, называемого результативным, могут рассматриваться некоторые другие признаки и явления, которые обычно назьюаются факторами. Естественно, что это деление чисто условно, так как те признаки, которые в данном случае рассматриваются как фактор, в другом случае могут выступать в качестве результативных, тем более, что вопрос о причинности далеко не всегда решается просто. Выяснение роли тех или иных факторов в варьировании значений результативного признака может быть осуществлено с помощью специального метода, получившего название дисперсионного анализа. Чтобы судить о том, влияет ли данный фактор на результативный признак, нужно чтобы сам факториальный признак имел несколько уровней, которые принято называть градациями фактора. Например, чтобы судить о влиянии глубины вспашки на урожай пшеницы, нужно, чтобы факториальный признак (глубина вспашки) имел по крайней мере две градации, т.е. две отличные глубины вспашки. Для проведения дисперсионного анализа данные наблюдений над результативным признаком по отдельным градациям фактора сводят в таблицу, составляющую так называемый дисперсионный комплекс. Если изучается влияние на результативный признак градаций одного какого-либо фактора, то дисперсионный комплекс называется однофакторным. Число учитываемых факторов может быть больше одного, тогда комплексы называются двух-, трехфакторны- ми и т.д. Градации учитываемых факторов по своему характеру могут быть различны. В одних случаях они могут быть фиксированы исследователем, не случайны, и тогда дисперсионный комплекс соответствует так называемой I модели. Фиксированные градации факторов обычно устанавливаются экспериментатором, исходя из целей проводимого опыта. Такими фиксированными градациями служат, например, различные дозы удобрений или норма известкования, способы полива или приемы обработки почвы при изучении их влияния на свойства почвы. 206
В других случаях градации фактора носят случайный характер, и тогда дисперсионный комплекс соответствует так назьюаемой II модели. Примером этой модели служит дисперсионный комплекс, составленный для изучения влияния индивидуальности растений на белковость зерна. Здесь отдельные градации изучаемого фактора случайные представители из некоторого множества растений данного сорта. Такими же случайными градациями могут считаться отдельные точки (разрезы), в которых изучаются свойства какой-либо почвы. В двух- и более факторных комплексах один фактор может иметь фиксированные градации, а другой случайные. Модель такого комплекса называется смешанной (или III моделью). К такой модели относится, например, дисперсионный комплекс, предназначенный для выяснения роли в урожайности пшеницы сортовой специфики (фиксированные градации) на нескольких опытных участках (случайные градации). Если числа наблюдений п над результативным признаком по отдельным градациям изучаемого фактора в однофакторном комплексе или по отдельным сочетаниям градаций в многофакторном комплексе одинаковы, то комплекс называется равномерным, если же эти числа различны, то комплекс называется неравномерным. Общее число наблюдений над результативным признаком N = Ел принято называть объемом дисперсионного комплекса. Сущность дисперсионного анализа состоит в вычленении из общей вариабельности результативного признака той части, которая определяется влиянием учитываемых факторов, и части, связанной с влиянием на результативный признак всех прочих факторов, не учитываемых и объединяемых в группу случайных факторов. Степень вариабельности при этом оценивается величинами дисперсий, и дисперсионный анализ сводится к разложению общей дисперсии на составляющие и к оценке статистической значимости дисперсий, связанных с влиянием тех или иных учитываемых факторов на величину результативного признака. Дисперсионный анализ однофакторного комплекса строится в предположении, что любое значение х результативного признака можно выразить через его среднее значение ц для комплекса в целом, через условное среднее щ для /-й градации фактора А (/ = 1,2, .., а, где а - число градаций фактора А) и через случайные отклонения w = x-//„ распределение которых в пределах отдельных градаций фактора А нормально со средним ц^= 0 и дисперсией g2w одинаковой для каждой из градаций фактора А: x=n + (Mi-v) + w. (ЮЛ) 207
Если градации фактора А случайны (II модель), то условные средние д представляют собой случайные значения, принадлежащие некоторой случайной величине, и тогда, обобщая соотношение A0.1) на всю возможную совокупность значений х, общую дисперсию а2 можно выразить через дисперсию о2А условных сред- них и случайную дисперсию а 2W (см. формулы C.20) и C.22)): Для I модели щ не являются случайными величинами (поскольку градации А фиксированы исследователем), поэтому их неодинаковость нельзя характеризовать с помощью дисперсии. Однако, если использовать те же технические приемы вычислений, то можно получить некий аналог дисперсии для выражения неодинаковости неслучайных величин. Обозначая его кА , для I модели получим °2 = *а + <**• (Ю.З) Аналогичные соотношения лежат в основе дисперсионного анализа многофакторных комплексов. Результаты выборочных наблюденний над результативным признаком, сведенные в дисперсионный комплекс, не дают возможности найти дисперсии, характеризующие вклад случайных и организованных (учитываемых) факторов в общее варьирование случайной величины X. Выборочные наблюдения позволяют лишь получить оценки sA , кА, s2Wb соответствующих параметров оА, к2А ,а^, поэтому для суждения о значимости влияния учитываемого фактора (или факторов) на величину результативного признака нужно оценить значимость соответствующей дисперсии (или дисперсий). Применительно к однофакторному комплексу нулевая гипотеза состоит в предположении, что фактор А на результативный признак не влияет, поэтому все частные средние щ одинаковы и равны общему среднему ц и, следовательно, оА (или кА) равна нулю. Если обнаружится, что при таком допущении вероятность получения данного значения sA (или к\) слишком мала, то это можно рассматривать как аргумент для отказа от нулевой гипотезы в пользу альтернативной гипотезы, состоящей в предположении, что агА (или кА) * 0, а это равносильно признанию статистической значимости влияния фактора А на результативный признак. 208
& 2. РАЗЛОЖЕНИЕ СУММЫ КВАДРАТОВ И ДИСПЕРСИИ W ПРИ ДИСПЕРСИОННОМ АНАЛИЗЕ * (НА ПРИМЕРЕ ОДНОФАКТОРНОГО КОМПЛЕКСА) дисперсионный анализ основывается на возможности расчтене •^ обшей суммы квадратов центральных отклонений и соответ" дауюшего ей числа степеней свободы на отдельные составляющее уделяемые структурой дисперсионного комплекса. В простейшей ^ае, когда результат измерений *, образуют однофакторный ^мплекс с а градациями фактора А и повторностью п 0 = 1 2 У* Ь 2 ";) М0ЖН° вь™'"> три суммы квадратов:' общую сумму Ст, представляющую собой сумму квадратов отклонений отделе X* от общего среднего х = -^ , где д/ = 2а/. . 9 N '1' факгориальную сумму квадратов СА, представляющую собой суммт квадратов отклонении частных средних х; от общей средней ? взвешенных соответствующим числом повторностей п ■ С-?^^ " (I0.S) случайную сумму квадратов С*, отражающую варьирование в пое деиак отдельных градации фактора А и равную сумме квадратов от" клонении хд от своих частных средних х•: Си'=?[?Ь-^J]- A0.6) Происхождение названий сумм квадратов очевидно: Ст характе ризует общее варьирование в пределах дисперсионного комгшекса" связанное с влиянием на результативный признак всех возмочь* (тотальных) факторов Т как случайных, так и учитываемых- С ва рьирование в ряду средних, которое может быть в определенной сте" пени результатом воздействия на изучаемый признак учитываемого нами фактора A; Cw - варьирование.связанное с влиянием на ре3уГ ^ГчтоТжГсе сТс1Х;случайных факторов w- м-но -: казать, что между Сг, Сжи Сосуществует простая зависимость- ct = Ca + Cw. ' Число степеней свободы, с которым вычисляется общая сумма тдратов, на единицу меньше объема дисперсионного комплекс^ Т.е. у,• = N- 1. Число степеней свободы, соответствующее фазд альнои сумме квадратов, зависит только от числа средних* 14 Е.А.Дмитриев 209
vA= a -I. Для Cwчисло степеней свободы равно объему комплекса Дг за вычетом числа средних х{, т.е. a: vw = N - а . Очевидно, что здесь также имеет место свойство слагаемое™: vT=vA + vw. A0.8) В существовании указанных соотношений легко убедиться на примере, в качестве которого возьмем II модель однофакторного равномерного комплекса. Результативный признак - содержание гумуса Х(%), факториальный признак А - индивидуальные особен- ности местоположения разрезов, в которых из пахотного слоя отбирались образцы в 4-кратной повторности (щ = п = 4). Число разрезов а = 5 соответствует пяти случайным градациям фактора А. Объем дисперсионного комплекса N = 2>/ =ап -20. Результаты проведенных анализов сведены в табл. 10 Л. Таблица 10.1 Лг Ai А2 Аз А4 As 3,05 3,30 3,01 3,42 2,99 х» 3,19 3,21 3,17 3,29 2,87 3,27 3,09 3,26 3,36 3,11 3,13 3,44 3,08 3,21 3,15 Щ 4 4 4 4 4 12,64 13,04 12,52 13,28 12,12 X г 3,16 3,26 3,13 3,32 3,03 Поскольку 2>^ = 63,60 и х = —!— =3,18 получим: Ст= C,05 - 3,18J + ... + C,15 - 3,18J= 0,4050; С л = 4[C,1б - 3,18J + ... + C,03 -3,18J] = 0,2056; Cw = C,05 - 3,16J + .... + C,15 - 3,03J = 0,1994; СА + Cw = 0,2056 + 0,1994 = 0,4050 = Cr; vr=20- 1 = 19; vA = 5- 1 =4; v^=20-5= 15; у^ + у^=4 + 15= 19=vr. Вычисление сумм квадратов обычно осуществляется не по формулам A0.4) - A0.6), а способом, основанным на формуле F.9). Учитывая, что в однофакторном равномерном комплексе все повторности п{ одинаковы и равны п> то, принимая обозначения согласно F.1) -F-2): N = an, St^xy, S=£Si=E%, S2=Zx{ TSf H. II =- N НИЯ 210 можно получить следующие рабочие формулы для отыска сА=нА-н, CT = S2-H, A0.9) A0.10)
CW = S2-HA. A0.11) Для рассматриваемого примера имеем: НА = 202,4536 , ц* 202,2480, S2 = 202,6530 и Ст= 0,4050 , СА = 0,2056 , Сж= 0,1994. При делении суммы квадратов на соответствующее число степеней свободы получаются средние квадраты, называемые соответственно общим, факпгориальным и случайным: N-\ а-\ N-a Средний квадрат QT служит оценкой общей дисперсии а2, характеризующей варьирование значений xtJ вокруг общей средней х , вызванное влиянием на результативный признак как изучаемого фактора А, так и случайных причин. Случайный средний квадрат Qw служит оценкой случайной дисперсии o2w и, значит, Qw=s2w Средний квадрат QA характеризует варьирование в ряду выборочных средних х,, и поэтому он отражает не только варьирование средних ц,, если [а для разных градаций А неодинаковы, но и то варьирование, которое имеет место в силу того, что вместо щ мы используем их оценки xt. Можно показать, что в случае равномерного комплекса II модели Q^ является оценкой a 2W + поА , а для I модели - оценкой а 2w + riK2A . Отсюда следует, что зная средние квадраты Q^ и Q^ ,можно получить оценки s2A (или к\) для а2А (или к2А), характеризующих варьирование (неодинаковость) средних ц,: 4(или^) = ^-^ (Ю.13) Обычно нахождение оценки дисперсии s\ (или к2А) имеет смысл проводить лишь в том случае, когда влияние изучаемого фактора не вызывает особых сомнений, т.е. когда есть основания утверждать, что <уа (или к2А) отлична от нуля. Значимость влияния фактора на результативный признак оценивается с помощью статистики F, которую можно вычислить как отношение: FA/W~-^-. Qw Если F> Fa для vi = a - 1 и V2 = N- я, то с соответствующей вероятностью влияние фактора на результативный признак считается статистически значимым. Действительно, поскольку Q^ является оценкой выражения ®w + n<32A (или o2w + nK2A), a Qw - оценкой o2w, то дисперсионное 211
отношение F = —— в случае отсутствия влияния фактора на резу;;... Qw тативный признак, т.е. когда аА2 (или кА) равно нулю, будучи отношением двух независимых оценок Q^ и Q^ одной и той же диспе ~ сии а ]у , должно варьровать около 1. Если аА (или к\ ) больше О, * о центр распределения F оказывается больше 1. В случае, когда выборочная величина F оказывается настолько большой, что случайными причинами появление такого ее значения трудно объяснить, нулевую гипотезу об отсутствии влияния изучаемого фактора отбрасывают и признают, что <ja (или к\ ) больше 0. Для приведенного выше примера получим: ^ 0,2056 ЛЛС1>1 _ 2 0,1994 ЛЛ1„ Q^ = ——- = 0,0514, Q^ = sw" = ~\— = 0,0133 4 15 YA/W --I = 3,9 ,что превышает Fo,os = 3,1 для vi = 4 и V2= 15. Поскольку с вероятностью Р = 0,95 влияние местоположения разрезок на содержание гумуса статистически значимо, можно оценить и дисперсию а \ , которая характеризует* степень варьирования среднего содержания гумуса между разрезами: д, = 0,0514-0,0133 =00095 Если в результате проведенного анализа обнаруживается, что величина FA/W < Fa и, следовательно, нет оснований считать, что изучаемый фактор оказывает влияние на распределение результа тивного признака, то средние квадраты Qw и QA в равной степени можно рассматривать как оценки одной и той же дисперсии a 2W , ха растеризующей в этом случае варьирование в пределах всего комплекса. При этом лучшей для a2w можно считать оценку s^., усредненную из Qn/ и Q^. Усреднение следует проводить с учетом "веса" этих средних квадратов, в качестве которого выступает соответствующее им число степеней свободы: Qw(N-a) + QA{a-\) (N-a) + (a-l) Откуда, учитывая, что Qw(N - а) = Ст QA(a - 1) - СА, CW+CA=CT, s2 =- получим sw 2 _ СТ 212
Как видим, в том случае, когда влияние фактора на результативный признак незначимо, оценкой дисперсии изучаемой величины может служить s2T . Если результаты дисперсионного анализа свести в таблицу, то она примет вид, представленный в табл. 10.2. Таблица 10.2 Источник варьирования Местоположение разреза (фактор А) Случайные причины (фактор W) Случайные и учитываемые факторы G) V 4 15 19 Сумма квадратов С 0,2056 0,1994 0,4050 Средний квадрат Q 0,0514 0,0133 0,0213 Оцениваемый параметр °W + ™A a w О т -С5 А + G w F 3,9* 5^ = 0,0133 5^=0,0095 5^=0,0115 sA = 0,091 '*F>Fo.os = $,\. Проведенное исследование свидетельствует о том, что содержание гумуса варьирует как в образцах, отобранных в одном разрезе (степень этого варьирования характеризуется величиной Sw- 0,115%), так и от одного разреза к другому (степень варьирования средних для разрезов содержания гумуса почти столь же велика, как и в пределах одного разреза, и оценивается величиной sA = 0,097%). Значимость между средними квадратами обычно отображают звездочками у значений F, отмечая в примечании к таблице, какому минимальному уровню значимости соответствует различие (см. табл. 10.2). 10.3. ОЦЕНКА СТЕПЕНИ ВЛИЯНИЯ ИЗУЧАЕМОГО ФАКТОРА И ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ СРЕДНИХ Установление влияния изучаемого фактора на результативный признак вызывает естественное желание оценить степень этого влияния, т.е. ту долю варьирования результативного признака, которая обязана своим происхождением воздействию данного фактора. Очень привлекательным в этом плане представляется равенство Q A0.7). Однако попытку взять отношение —— в качестве оценки по- казателя степени влияния нельзя считать удачной по той причине, что факториальная сумма квадратов является не только (а нередко и не столько) результатом влияния изучаемого фактора А на признак, по и следствием варьирования оценок xi. Для получения исправленного показателя степени влияния из величины СА нужно взять лишь ту часть, которая своим происхождением обязана только влиянию 14* 213
фактора А, С учетом этого для II модели дисперсионного комплекса степень влияния можно оценить по формуле Миллса ^=1-7Г"> A0.14) где е\ - показатель степени влияния фактора А в долях единицы. Для модели I типа в качестве показателя степени влияния пользуются так называемым внутриклассовым коэффициентом корреляции, вычисляемым по формуле _ Qa~Qw Пл,гч 'A-QA+{n-iJw A0л5) или Га = кА A0.16) кА +sw Следует иметь в виду, что как rAt так и е\ , вычисляемые по формулам A0.14) - A0.16), оказываются смещенными оценками рА и r\ \ , причем тем более смещенными (преуменьшенными), чем меньше число градаций а при данном объеме дисперсионного комплекса N. Вычисление е\ и гА имеет смысл производить лишь в том случае, когда влияние изучаемого фактора статистически значимо. Рассмотренный в 10.2 пример относится ко II модели дисперсионного анализа. Учитывая, что фактор А влияет значимо, оценим 2 , 0,0133 л„0 „ степень этого влияния: е А = 1 — = 0,38 . Полученная величина А 0,0213 означает, что местоположение разреза на 38% определяет варьирование содержания гумуса. Остальные 62% из общей вариабельности свойства являются следствием влияния случайных факторов, т.е. не учитываемых нами и обусловливающих наличие неоднородности в содержании гумуса в пределах одного разреза. При условии значимости влияния изучаемого фактора на результативный признак приобретает смысл установление границ возможных значений средних \х по отдельным градациям фактора А. Эти доверительные границы вычисляют согласно выражению fia^Xi±ta^y A0.17) л/л где га берут из табл.ЖПриложения для v = vw = N - a, a sw = JQW . 214
;. Если влияние фактора статистически значимым не признано, то >. доверительные границы среднего для комплекса в целом можно оценить по формуле Ia=x±ta^=, A0.18) где ta берется для v = N-l,&sT= ^QT . По результатам дисперсионного анализа содержания гумуса (Табл. 10.1 и 10.2) имеем: sw = 0,115 , при vw = 15 ro,os = 2,13 и х/;005= х, ± 0,12 . Для градации А и например, получаем х1;0,05 = 3,16 ±0,12%. 10.4. УСЛОВИЯ ПРИМЕНИМОСТИ ДИСПЕРСИОННОГО АНАЛИЗА И ПРЕОБРАЗОВАНИЯ ЗНАЧЕНИЙ РЕЗУЛЬТАТИВНОГО ПРИЗНАКА Дисперсионный анализ строится в предположении, что изучаемый признак имеет нормальное распределение и его дисперсия по всем градациям учитываемого фактора одинакова. Как показывает практика, условие нормальности распределения не является очень жестким, но условие однородности дисперсий должно выполняться строго. Проверка выполнения этого условия осуществляется с помощью критериев однородности дисперсий. Если обнаружится, что дисперсии нельзя считать одинаковыми, то дисперсионный анализ с исходными значениями х результативного признака проводиться не может и приходится прибегать к некоторым нелинейным преобразованиям значений результативного признака. Так, если случайная величина X имеет распределение Пуассона, когда дисперсия равна среднему, то дисперсионный анализ явно не применим. В этом случае можно воспользоваться преобразованием у = у[х и вести дисперсионный анализ по значениям у, для которых дисперсия почти не зависит от среднего. В случае пропорциональности стандарта распределения среднему, а также в условиях, когда эффекты воздействия факторов не суммируются (в основе дисперсионного анализа лежит слагаемость эффектов), а перемножаются, значения результативного признака можно заменить их логарифмами. Заметим, что проведение преобразований не всегда дает желаемый эффект, в силу чего после проведения преобразований проверку пригодности данных для дисперсионного анализа следует повторить. 215
Замена значений х на линейные функции от них (увеличение чщ уменьшение всех значений на постоянную величину, умножение или деление на постоянную величину) не изменяет пригодности данных для проведения дисперсионного анализа, однако к таким преобразо- ваниям иногда прибегают с целью упрощения вычислений. Вычисленные по преобразованным данным значения F, г и е2 в полной мере относятся и к непреобразованным данным. Если длл исследователя представляют интерес средние, дисперсии и стандартные отклонения для исходных данных, то полученные при дисперсионном анализе линейно преобразованных данных соответствующие оценки требуют корректировки (см. §6.1). 10.5. ДИСПЕРСИОННЫЙ АНАЛИЗ НЕРАВНОМЕРНОГО ОДНОФАКТОРНОГО КОМПЛЕКСА Схема вычислений при анализе неравномерного комплекса мало чем отличается от приведенной выше. Отличия состоят в том, что объем дисперсионного комплекса N можно найти только как £л, , а S2 величину НА - как сумму отношений —*-, вычисленных для отдельных градаций фактора А: В неравномерном комплексе при оценке к\ (или s2A ) и гл по формулам A0.13) и A0.15) вместо п следует подставлять усредненную величину п , вычисляемую по формуле N2 -V?i2 N(a-\) 10,6 ДИСПЕРСИОННЫЙ АНАЛИЗ ДВУХФАКТОРНОГО КОМПЛЕКСА С ПОВТОРНОСТЯМИ Наиболее простым является тот случай, когда в двухфакторном комплексе для каждой градации одного фактора (например, А) имеется полный набор всех градаций другого фактора (В). Если д ш любого сочетания градаций факторов А и В величина результативного признака определялась с повторностыо, превышающей единицу, то можно не только определить влияние факторов А и В » отдельности, но и влияние взаимодействия факторов А В (наличие 216
Ёмкого влияния проявляется в том, что характер изменений результативного признака при смене градаций одного фактора зависит от градации другого фактора). g При анализе равномерных комплексов с повторностью п общая , квадратов Ст может быть представлена в виде С г = С а + С в + САВ + Cw. Если число градаций фактора А равно а> а число градаций фактора В равно Ь, то объем дисперсионного комплекса N = abn , а числа, степеней свободы, с которыми находятся отдельные суммы квадратов, таковы: vT = N-l, vA = a-l, vB=b-l,vAB = vAvB, vw = ab(n-\). Очевидно, что vt = vA + vB + vab + vw • Схема вычислений и все небходимые формулы при проведении дасперсионного анализа двухфакторного равномерного комплекса, где значения результативного признака равны л^ (/ = 1, 2,..., а; J* 1, 2, ..., Ь\\- 1,2,..., /i), представлены в таблице 10.3. ; Обычно оценку значимости факторов начинают с АВ. В том случае, когда FAB/W < Fa (vi = vAB и vi - vw) это влияние признают незна- ^чимым, и тогда в качестве оценки для <32w берут усредненную вели- чину Qnr =-iL- , где С w. = CV+ С^я и vjr = vw+ vab. Значимость : vw* ' дисперсий a2A и g2b в этом случае определяют по отношению соответствующих средних квадратов к Q ц/.: /^/и, ~—-™ .. (VI = Ул И V2 = V и/. ) И F^ = —■£- (V1 - Уд И V2 = V и/. ). В том же случае, когда влияние взаимодействия факторов А В оказывается значимым, способ оценки значимости дисперсий о2А и о?в или кА hkJ зависит от того, каков характер градаций учитываемых факторов. Если факторы имеют фиксированные градации (I модель), то QAy QB и QAB взаимно независимы, и тогда значимость &А нов определяют по величине отношения QA и Qz? к случайному среднему квадрату: FAAV =-^- (vi = vA и V2 = vlv) и FBAr = ~-. (Vl = VBH V2= Vh/). Если же градации факторов имеют случайный характер (П модель), то и Q^, и QB содержат некоторую часть, зависящую °т совместного влияния факторов. В связи с этим проверку 217
статистической значимости а2А и а2в (т.е. проверку отличия этих дисперсий от нуля) осуществляют по величине отношений Fa/ab~- - --*- (vi = v^h v2=vAB) и FB/AB = --2- (v\ = vB и V2=vAB). Qab V * * ^ ™ Qab Наконец, если дисперсионный комплекс соответствует смешанной модели, то значимость влияния фактора с фиксированными градациями определяют по отношению соответствующего среднего квадрата к Q^, а влияние фактора со случайными градациями - сравнением среднего квадрата с QAB. Таблица 10.3 Схема вычислений при дисперсионном анализе двухфакторного равномерного комплекса с а градациями по фактору А, Ь градациями по фактору В и повтороностью п (i = 1,2,.., a; J = /Д..Д- / = 1,2,.., п; S = %хш>' $2 = Тхш* si = 5># / «У/ = 2>#; #/ у р * j 1-Sy S*« ~; Яд = "> Нав = Источник варьирования В АВ W Т V я-1 лЬ(л -1) С НА-И Нв-Н ст- с a- cB-cw S2 -Нав S2-H Q САЬЛ CbNb Сав^ав СцЛ>ц' . F I модель Qa/Qw Qb/Qw Qab/Qw II модель Qa/Qab QB/Q.4B Qab/Qw I модель: k\ = Qa Qw , k\-. bn II модель: s^Qa"Qab , s\-- bn Qb "Qw f,2 _ Qab "Qw ' KAB ~ Qb ~ Qab л _ Qab ~ Qw » *ab ~ Роль факторов А, В них взаимодействия АВ в варьировании результативного признака при условии, что соответствующее F по меньшей мере превышает 1, можно оценить величинами s2A , s2B и s2AB (или к2А , к\, к2АВ). Техника подобных вычислений, в сводном виде представленная в табл. 10.3, может быть проиллюстрирована следующим примером. Изучалось влияние характера органических добавок в почву (фактор Л) и вида дождевых червей (фактор В) на водопрочность капролитов. Для этого в сосуды с почвой были помещены черви двух видов (градации В\ и Bi), причем в одни сосуды органических добавок не вносили (А\), а в другие добавляли листья различных деревьев (Аг и Аз). Водопрочность капролитов (х,%) определялась с повторностью п = 2 (табл. 10.4). 218
Таблица 10.4 Зависимость водопрочное™ капролитов (хр, %) от характера органических добавок в почву (фактор А) и вида дождевых червей (фактор В). (I модель двухфакторного равномерного комплекса с а = 3; Ь = 2; л = 2; * = 1,2,.., а; у = 1,2,.., ft; / = 1,2,.., л). Градации фактора Ai Ai А2 Аз Sj Xyl и 15 14 16 29 35 Ь D) A21) B25) A96) B56) (841) A225) Градации h sy | (ф 26 | F76) 30 : (900) 64 j D096) 120 14400 фактора Bj Вг х* | D) |s* \ (si) 3 8 24 30 27 32 F4) E76) (900) G29) A024) 11 | A21) 54 1B916) 59 ! C481) 124 15376 st 37 84 123 pi = = 244 sf 1369 7056 15129 = 23554 -> о 244 •52=6166; Y,Sj = 29776; £S,y = 12190; //=32-2=12; Я =^—-= 4961,3; Я, = "«1 = 5888,5; Яй = i?™ = 4962,7; *,, = ^ = 6095,0. Источник варьирования A В AB ' W T ■^■"■■^■■-■^■4 V 3-1 =2 2-1 = 1 2-1=2 2-3-B-l) = 6 12-1 = 11 i ——=^———■ i С 5888,5-4961,3 = 927,2 4962,7-4961,3= 1,4 1204,7-927,2-1,4-71,0 = 205,1 6166-6095,0 = 71,0 6166-4961,3= 1204,7 0 463,6 1,4 102,6 11,8 109,5 F 39,3""^ 0,Г 8,7* 463,6-11,8 2-2 '" 112,9 102,6-11,8 = 45,4 F > Fo.os; ***F > Fo.ooi; "F > Fo.os .-• Проведение дисперсионного анализа обычно завершают сопоставлением полученных оценок средних. В многофакторных комплексах средние можно вычислять для разных групп подмножеств Данных и при этом возникает известная трудность в индексации оценок. Удобная форма лаконичной индексации для стандартной Последовательности буквенных обозначений состоит в замене индуса на точку для тех индексов, по которым осуществлено усреднение. Так, в двухфакторном комплексе с а градациями фактора А и b Градациями фактора В средние можно вычислить для отдельных Градаций одного из факторов или для конкретного сочетания обоих ^факторов. Если в последовательности индексов ij при оценке средне- f °э где i = 1,2,..., а и у = 1, 2,..., ft, заменить индекс / на точку, то х.;- 219
будет означать среднее по всем градациям фактора А дляу-й града. } ции В. Аналогично, xim есть среднее для /-й градации фактора Л, а Xjj - среднее для сочетания i-й градации фактора А су-й градацией В. Используя подобную систему индексации, рассмотрим некоторые результаты проведенного дисперсионного анализа. Как следует из табл. 10.4, наиболее существенно на водопрочности капролитов ска- зывается характер органических добавок. В среднем для обоих видов червей без внесения листьев водопрочность капролитов равна 37 х1# = — = 9%, а при внесении листьев разных деревьев 84 123 х2т =— = 21% и х,т = = 31%. Сам по себе вид червей не оказы- 4 4 вает значимого влияния на водопрочность капролитов. Это проявляется в том, что в среднем по всем градациям фактора А 120 водопрочность капролитов очень близка: х#1 = = 20% и 6 х.2=—=21%. 6 Однако водопрочность капролитов зависит от сочетания вида червей с характером органических добавок. Действительно, если внесение листьев (градация Аг) сравнительно с контролем {А \) у вида червей В\ практически не приводит к увеличению водопрочности капролитов (х и = —= 13% и х 21= —= 15%) то у червей вида В2 водопрочность капролитов увеличивается от х п = —= 6% до 54 Х22= — = 27%. Различие в органических добавках (Ai и Аз) практически не сказывается на водопрочности капролитов червей вида Вг{х и = 27% и х 32 = 30%), но очень заметно проявляется в водопрочности капролитов червей вида В1 (х и = 15% и ni = 32%). Эти особенности нашли свое отражение в том, что водопрочность капролитов значимо зависит от взаимодействия факторов А и В. 10.7. ДИСПЕРСИОННЫЙ АНАЛИЗ ДВУХФАКТОРНОГО БЕСПОВТОРНОСТНОГО КОМПЛЕКСА В двухфакторном комплексе каждому сочетанию градаций факторов может соответствовать лишь одно измерение результативного признака. В таких комплексах, называемых бесповторностными, 220
Кщую сумму квадратов Ст можно разложить на три части, одна из Вторых СА связана с влиянием фактора А, другая Св определяется Боданием фактора В и третья Cw зависит от воздействия на результативный признак случайных причин: СТ-СА + Св+ Cw. Соответ- ^венно общее число степеней свободы v оказывается суммой чисел фепеней свободы, с которыми найдены отдельные суммы квадратов: vr= va + vb+ vn^ где vA = а - 1, vB- b - 1, vw= vAvB, vT- N -l. Заменим, что в бесповторностном комплексе нельзя оценить влияние взаимодействия факторов Д и если такое влияние существует, то оно мажет существенно сказаться на величине случайной суммы квадратов (и соответствующем среднем квадрате), поскольку взаимодействие факторов оказывается отнесенным к случайным факторам. Схема вычислений при анализе двухфакторного бесповторност- ного комплекса (табл. 10.5) достаточно проста и не требует особых пояснений. Заметим лишь, что QA и QB являются оценками соответ- 9 *У *? **) "} *7 ственно ow + boA и ow + aoB для II модели или ow + bKA и а]у + ак \ для I модели, a Qw - оценкой а 2W (и значит Qц/ = s2W). Таблица 10.5 Схема вычислений при дисперсионном анализе бесповторностного двухфакторного комплекса с а градациями фактора Ли b градациями фактора В (JSf = ab;S = Z^*' *=Z^; A=S>0/ «a?V H = ^;Ha = -L^;Нв = ^— ; /=1,2,..,в,\/ = 1,2,..,6) Источник варьирования А В W т V va — а - i vs^b- J vv/ ~ vavb vt = N- 1 С Ca=Ha-H Cb=Hb-H Cw= Ct-Ca—Св Ct=S2-H Q Qa = С a /va Qb = Cb/vb Qw= Cw/vw Qt = Ct/vt F Fa/w = Qa/Qw Fbav = Qb/Qw * » (или ,* ) = &J^E.; /c | (или , | ) = &Z. Обычно вычисление опенок ,?^ (fc^) и s\ (k2B) имеет смысл только в том случае, если влияние соответствующих факторов статистически значимо, т.е. когда FA/w-^->Fa (при vi = v^ и Qw V2=vw)u FB/w = --^~>Fa(npuvi = vBnv2=vw). Если же один из факторов оказывает незначимое влияние (например, А), то соответствующий средний квадрат (QA) можно рассматривать наряду с Q^ как независимую оценку генеральной 221
случайной дисперсии gw, что позволяет вычислить усредненную оценку случайной дисперсии (при незначимости влияния А) по фор. W 'W + V. муле Q w. = s2w. -Cw.h ir , где Сw- = Cw+ CA и v Тогда при вычислении оценки значимой дисперсии (например, оценок s\ или /с|) в соответствующей формуле (см. табл. 10.5) можно использовать вместо Q^ величину Q w.. Таблица 10.6 Результаты взвешивания пробных укосов клевера (двухфакторный бесповторностный комплекс; использовано преобразование вида»= 100(лгу— 0,50); в скобках приведены квадраты соответствующих значений ) л, Ах Л2 Аъ А* А 5 Sj s2j yj У a (Ji) пРи градации Bj В\ j Вг \ Въ \ Ва 13 ! 30 j 22 1 37 A69); (900) ! D84) 1A369) 28 j 32 j 31 j 33 G84IA024I (961) 1A089) 4 i 27 j 19 : 25 A6) ! G29) 1 C61) ! F25) 11 j 15 j 33 j 27 A21)! B25) 1A089I G29) 6 : 24 j 35 j 31 C6) j E76) jA225)j (961) 62 j 128 j 140 j 153 3844 j 16384 j 19600 I 23409 12 | 26 j 28 | 31 Вь \ Be 14 j 15 A96IB25) 22 j 11 D84)|A21) 13 : 22 A69ID84) 19 j 8 C61)| F4) 20 : 12 D00IA44) 88 j 68 7744 j 4624 18 j 14 i i Si 131 157 110 113 128 5 = 639 £Sy2 =75605 sf 17161 24649 12100 12769 16384 >'i 22 26 18 19 21 J^Sf =83063 S2 = 16121 i a = 5, b = 6, # = 5-6 = 30, H 75605 639 83063 = 13611, HA = 30 6 13844, #* = - 15121, ^ = 21. Таблица 10.7 Окончание дисперсионного анализа (см. табл. 10.6) Источник варьирования А В W т V 5-1 =4 6-1 =5 4 • 5 = 20 30-1 =29 С 13844-13611 =233 15121-13611 = 1510 2510-233-1510 = 767 16121-13611 =2510 Q 58 302 38 87 F 1,5" 7,9*" ' Wm = 4 + 20 = 24, CWm = 233 + 767 = 1000, Q Wm • 1000 ~24~ = 42,/с' 302 - 42 = 52. F > Fo,oo\, ~F < Fo,o5. 222
Предположим, что для оценки однородности травостоя на каждом из пяти вытянутых вдоль склона участков, занятых клевером, фыло выкошено по 6 пробных двухметровых площадок, равномерно размещенных вдоль склона (табл. 10.6). Чтобы выяснить, влияет ли индивидуальность участков (фактор А, а = 5) и их местоположение в разных частях склона (фактор В, Ь = 6) на величину укоса клевера, дроведем дисперсионный анализ этого комплекса согласно приведенной выше схеме (табл. 10.7). Из табл. 10.7 следует, что влияние индивидуальности участков '•(фактор А) на урожай клевера незначимо, но очень надежно обнаруживается влияние местоположения пробных площадок на различных частях склона (фактор В). 10.8. ИЕРАРХИЧЕСКАЯ СХЕМА ДИСПЕРСИОННОГО АНАЛИЗА В рассмотренных выше схемах дисперсионного auamna каждая градация одного фактора сочеталась с каждой градацией другого фактора, причем в принципе было безразличным, какой фактор считать первым (А), а какой - вторым (В). Однако подобные схемы встречаются далеко не всегда. Если, например, на а участках (фактор А) отобрано по Ъ растений (фактор В), с каждого из которых взято для определения хлорофилла по п листьев, то очевидно, что хотя каждое растение и можно рассматривать как градацию фактора В, но эти градации для разных градаций фактора А не ода наковы: данному растению на участке А\ нельзя однозначно найти соответствующее растение на участке /h. Отсутствие таких соответствий приводит к отсутствию взаимодействия факторов. Особенностью подобных схем является то, что по своему в таянию на результативный признак факторы могут быть расположены в определенной последовательности от более общих факторов к более частным. Полученная при этом ступенчатая схема дисперсионно! о комплекса получила название иерархической схемы (или схемы выборки из выборок). Иерархические лестницы факториальных признаков могут иметь различную длину, а сами ступени - различную "высоту". Например, в качестве ступеней можно взять участки noBq-шюсти почвы увели чивающейся крупности: 0,01 м2 в пределах 1 м2, 1 м2 в пределах 25 м2, 25 м2 в пределах 0,1 га и т.д. Такое построение дисперсионного комплекса позволяет обнаружить ту часть от общего варьирования результативного признака, которая возникает на отдельных этапах, ступенях увеличении размеров характеризуемых объектов. Здесь
ступени могут быть и более "высокими": например, отдельные пол». а пределах территории одного хозяйства, отдельные хозяйства в п?> . делах района и т.д. Предположим, что на а контурах, соответствующих одной и : ; же почвенной разности, взято по b площадок, в пределах которых г "точках" отобрано по d образцов. Если каждый образец проана. . зирован п раз, то общее варьирование всех полученных значешь изучаемого свойства можно рассматривать как результат влиян , случайных факторов И7, обусловливающих неодинаковость дани? анализа одного и того же образца (аналитическая погрешность^ как результат варьирования свойства между образцами в предел, одной "точки" (фактор £>), между "точками" в пределах одной п. щадки (фактор Q, между площадками в пределах одного кошу (фактор В) и, наконец, между контурами (фактор А). Таким образом, возрастание варьирования изучаемого признак по мере увеличения площади опробования можно рассматривать к- ступенчатый процесс, в котором переход на очередную ступе* крупности площади как-то сказывается на общем варьирован- свойства. Задача дисперсионного анализа в этом случае сводится оценке той роли в общем варьировании признака, которую играт, отдельные ступени. В рассматриваемом примере все четыре учитываемые фактор имеют случайные градации, и следовательно, дисперсионный ко\ плекс относится ко II модели. В равномерном комплексе его объе> N = abedn. Если в таком четырехфакторном комплексе принять / = 2, ..., a;j = 1, 2, ..., b\ k = 1, 2, ..., с; / = 1, 2, ..., d; m =• 1, 2, ..., пу г;- a,b,c,d - соотвеахтвенно число градаций по факторам А,В,С и Д а -повторность, то с учетом отмеченных выше особенностей иерарх! ческого комплекса получим, что число градаций по факторам А, ! С и D окажется соответственно равным a, ab, abc и abed. При это отдельные градации факторов можно обозначить с помощью индсм сов: Л,-, By, CiJkfDi/k/. Иерархический дисперсионный анализ строят исходя из допущения о возможности разложения общей дисперсии а2 на отдельные составляющие, характеризующие вариацию средних для отдельны? градаций более низкого уровня в пределах градаций последующего более высокого уровня: а2 = <з2А + а| + о2с + o2D + а и,. A0.20) В соответствии с этим общую сумму квадратов С можно представить в виде CT = CA + CB+CC + CD + Cw. Для нахождения этих сумм квадратов требуется прежде всего вычислить суммы значений Xgkim (в дальнейшем для простоты индексы 224
Вм х будем опускать) в пределах отдельных градаций факторов и в Едем по комплексу, а также сумму квадратов всех N значений х: £■ s=i:x,si = j:x,Sv=j:x,s(fi=zxtswa=zx9s2 = j:x*. 00,21) ~ ijklm jkbn klm Im m ijklm Схема дальнейших вычислений и используемые при этом форму- до приведены в табл. 10.8. Напомним, что каждое значение F сопоставляется с табличным да чисел степеней свободы vi и V2, соответствующих числам степеней свободы, с которыми при вычислении F найдены средние квадраты» стоящие в числителе и знаменателе. Например, для Fq^ это yi=VCH V2= VD. Отметим, что если средние квадраты Q& и Qr являются оценками соответственно дисперсий с2W и а2 (и, значит, Qw=sly и Qr = /), то остальные средние квадраты оценивают более сложные выражения: Од-хги' + иа^; Qc -» a L + па 2П + </иа 3,; (Ю.22) Q^-^a^ + waz> + dnoc + cdnoB ; Q^ ->cj^ + na^ + dnoc + cdno2B + bcdno2A . Соотношения A0.22) лежат в основе тех формул (см. табл. 10.8), йо которым находятся оценки отдельных дисперсий. При F < 1 оценка соответствующей дисперсии не может быть вычислена и ее условно можно приравнять нулю. Сумма дисперсий, стоящих в правой части формулы A0.20), лишь приближенно оказывается равной оценке £ дисперсии а2, как это и должно быть, учитывая, что мы имеем дело с оценками. Для иллюстрации техники вычислений при анализе подобного Комплекса допустим, что в пределах поля в случайном порядке было выбрано два участка площадью 500 м2 (фактор А, а - 2), внутри Каждого из которых также случайно взяты по две площадки размером 5 м2 (фактор В, Ь = 2). В каждой из таких площадок взято в Случайном порядке по 4 площадки по 1 м2 (фактор С, с = 4), с которых отбиралось по два образца объемом 100 см3 (фактор D, d = 2). Из каждого образца бралось две пробы и в них определялось значе- ниерН(л = 2). В этой схеме "выборки из выборок" можно оценить тот вклад в Общую дисперсию изучаемого свойства, который определяют Неоднородности более мелких участков поверхности в пределах более крупных участков. Для упрощения вычислений отдельные Значения рН (обозначим их х) были преобразованы по формуле 225
Таблица 1 0.8 Схема вычислений при дисперсионном анализе равномерного иерархического четырехфакторного комплекса (Н модель). (Числа градаций по факторам А, В, Си Dсоответственно равны а» Ь, с, а\ повторность равна л, объем дисперсионного комплекса N = abcdn, Н = , Н N j bcdn ' S^ z% нв = ——, нс = J——, hd • can an HSifkl m Источник варьирования A В С D W T V v = a - 1 v = a(b - 1) v = ab(c - 1) v = abc(d- 1) v = abcd(n - 1) С сА = нА-н С в = Нв -HA С с = Не ~Нв Cj} = Hd -Не Cw-Hw~Hd ■ Ct=si-h о. Qa = CA/vA Qb=Cb/vb Qc=Cc/vc Qd^Cd/vd Qw~ Cw/vw , gr=C7/vr F FA/b=Qa/Qb F&c - QbIQc Fcm = QdQD Fd/w- QrJQw При условии значимости влияния соответствующего фактора (и по меньшей мере при F>\):slD i_Qd-Qw Л_0с-0о p2_Qb-Qc -> *l dn cdn .Qa-Qb bcdn у = 100(x - 7,00). Исходные данные для значений у и все этапы отыскания различных сумм S представлены в табл. 10.9. Так как а = 2, Ъ = 2, с = 4, d = 2 и п = 2, то iV = 64 и Я =1^061 = 35438, Я,= *^ = 36222, Нв =^= 38093, 64 32 16 9119ftR 116ЯЯЯ Нс = _ - 52822, Нд = —= 58294 . Дальнейшие вычисления, сведенные в табл. 10.10, показывают, что влияние факторов А и В оказалось незначимым. Окончательные, приведенные к значениям рН, средние квадратиче- ские отклонения, характеризующие варьирование этого свойства в пространстве, таковы: sw = 0,10, sD = 0,11, sc = 0,15, sB ~ sA = 0. Эти результаты говорят о том, что в пределах изучаемого поля варьирование значений рН в образцах, отобранных на метровке, характер;; зуегся стандартным отклонением sD = 0,11. Практически такая же вариабельность наблюдается и между мет ровками в пределах 25-метровой площадки (sc = 0,14). Между площадками в пределах одного участка, как и между отдельными участками на поле, различия по величине рН допустимо считать отсутствующими. Все это может служить основанием для заключения, что вариабельность величин рН возникает лишь на низших ступенях 226
Таблица 1 0.9 Четырехфакторный иерархический равномерный комплекс {х - значения рН; использовано преобразование вида у = 100(дг - 7,00)) 1даера градаций факторов 1 J * 1 \ 1 f 2 1 2 2 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 ! 2 | 1 ; 2 ! i ; 2 i i i 2; 1 j 2 j 1 ; 2 j 1 1 2 : 1 j 2 | 2 | 1 ; 2 ! 1 : 2 ! 1 : 2 ! 1 2; 1 : 2 j 1 ! 2 ! 1 1 2 ; Jfy**» 42 22 25 33 37 23 42 9 23 -8 4 33 43 18 43 18 21 18 37 9 23 41 -28 -2 -7 12 30 11 46 46 25 27 39 42 37 18 41 42 17 20 25 7 8 29 34 33 32 34 18 15 39 8 37 41 -67 2 -1 14 4 32 61 59 33 37 v2 УукЬп 1764 484 625 1089 1369 529 1764 81 529 64 16 1089 1849 324 1849 324 441 324 1369 81 529 1681 784 4 49 144 900 121 2116 2116 625 729 1521 1764 1369 324 1681 1764 289 400 625 49 64 841 1156 1089 1024 1156 324 225 1521 64 1369 1681 4489 4 1 196 16 1024 3721 3481 1089 1369 Sykl 81 64 62 51 78 65 59 ! 29 : 48 -1 12 ! 62 : 77 j 51 ! 75 ! 52 j 39 • 33 j 76 ! 17 60 1 82 : -95 : 0 -8 26 34 43 107 105 58 64 S2 6561 4096 3844 2601 6084 4225 3481 841 2304 1 144 3844 5929 2601 5625 2704 I52i 1089 5776 289 3600 6724 9025 0 64 676 1156 1849 11449 11025 3364 4096 145 113 143 88 47 74 128 127 72 93 142 -95 18 77 212 122 s2 ^yk 21025 12769 20449 7744 2209 5476 16384 16129 5184 8649 20164 9025 324 5929 44944 14884 s* 489 376 212 429 S2 St Sf 239121 865 748225 141376 44944 641 410881 184041 &*1506; £3?*U59106. 52 = 61452; X^*/ = 116588; 2^ = 211288 ; ZS,y = 609482 ;
Таблица 10. lq Окончание дисперсионного анализа (см. табл. 10.9) Источник варьирования Различия между площадками, В Различия между метровками, С Различия между образцами, D Случайные причины, W Факторы в целом, Т 1 ' i V 1 2 12 16 32 63 i ■ i С 36222-35438 = 784 38093-36222= 1871 52822-38093= 14729 58294-52822 = 5472 61452-58294 = 3158 61452-35438 = 26014 Г"" 1 2 784 936 1227 342 99 413 F 784 : 936 = 0,р 936: 1227 = 0,8- 1227:342 = 3,6** 342 : 99 = 3,4*" 4 = 342 " = 122; 4 = 1^1-211=221; 4=0; А =0 ;sw= 9,9;5D = U,0;5C= 14,9. 2 4 "F< Fo,o5; **Fo,oi < F< Fo.ooi увеличения площади поверхности почвы, когда эта площадь менее 25 м2, т.е. варьирование рН является результатом микронеоднородности почвы, а в мезомасштабе - между площадками и между участками - дополнительного варьирования не возникает, а, значит, как отдельные площадки размером 25 м2, так и участки по 500 м2 можно считать по величине рН однородными. ♦ * * Применение дисперсионного анализа в большинстве случаев оказывается возможным лишь тогда, когда при получении экспериментального материала учитывается предполагаемая схема его анализа. Для дисперсионного анализа планирование эксперимента дает важные преимущества, главные из которых состоят в том, что в много- факторных опытах удается установить не только влияние отдельных факторов на результативный признак, но и эффект взаимодействия этих факторов, который нередко оказывается очень важной характеристикой при анализе некоторых явлений. Постановка правильно спланированного многофакторного эксперимента - это хорошо продуманный перечень вопросов, который ставится перед из учаемым природным явлением, а, как справедливо заметил Р.А. Фишер, природа охотнее всего отвечает на логичный и продуманный вопросник и часто воздерживается от ответа впредь до решения какого-либо другого вопроса, если мы задаем ей один, казалось бы, простой вопрос. Каждое значение результативного признака в многофакторном комплексе служит для оценки влияния всех факторов и всех эффектов взаимодействия, а не одного какого-то фактора, как это обычно бывает при сложившихся принципах постановки опытов. В силу этого дисперсионный анализ позволяет дать более полную картину существующих взаимосвязей при меньшей затрате средств и времени на постановку экспериментов. 228
Вопросы для самоконтроля. 1. В чем принципиальное различие I и II модели дисперсионных комплексов и какое это находит отражение в технике вычислений и интерпретации результатов? 2. Что является непременным условием возможности проведения дисперсионного анализа? 3. Почему анализ влияния фактора на средние значения признака называется дисперсионным анализом? 4. На чем основаны принципы дисперсионного анализа? 5. Что представляет собой разложение суммы квадратов и всегда ли факториальные суммы квадратов являются результатом влияния факторов на результативный признак? 6. Почему средние квадраты не всегда являются оценками дисперсий и оценками чего в таких случаях они являются? 7. Допустимо ли применять дисперсионный анализ, если результативный признак представляет собой случайную величину, распределенную по закону Пуассона? 8. С чем связаны трудности дисперсионного анализа неравномерных комплексов? 9. Какие особенности присущи иерархическому дисперсионному комплексу и к какой модели он относится? 10. С чем связана возможность проведения дисперсионного анализа, если эксперимент проведен без повторностей?
Глава 11 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ 11.1. ВИДЫ СВЯЗЕЙ И ИХ ПРЕДСТАВЛЕНИЕ Среди задач, решаемых с помощью статистических методов, особое место занимают задачи, связанные с изучением связей между переменными величинами. Задачи такого рода в статистике решаются с помощью специальных методов корреляционного и регрессной ного анализа. Наиболее просто дело обстоит в том случае, когда связь функциональная и каждому значению одной переменной соответствует вполне определенное значение другой переменной, как, например, связь между площадью крута и его радиусом. В почвоведении большинство представляющих интерес связей имеют не столь определенный характер. Так, при всей очевидности наличия зависимости между массой агрегатов и их объемом, можнг легко убедиться, что при этом агрегаты одинакового объема имеют более или менее различные массы и наоборот. Связи, при которых одному и тому же значению одной переменной могут соответствен вать неодинаковые значения другой переменной, получили названк корреляционных1. Степень варьирования значений одного признака при фиксиро ванном значении другого может быть различной. Если эта степень варьирования относительно мала, то связь близка к функциональ ной. При большом варьировании связь между изучаемыми величинами менее выражена, степень связи меньше. Если любому значению одного признака может соответствовать любое значение другого признака, то связь между такими признаками отсутствует. Корреляционные связи, таким образом, могут быть разной степени выраженности, разной степени тесноты. Предельным случаем наибольшей тесноты связи является связь функциональная. Наименьшая теснота связи соответствует случаю отсутствия связи, когда варьирование обоих признаков осуществляется взаимно независимо. Степень тесноты связи может быть выражена с помощью специальных показателей, вычисляемых при проведении так называемого корреляционного анализа. Характер взаимной изменчивости сравниваемых признаков может быть отображен в различной форме. При сравнительно 1 Correlation - связь, соотношение. Корреляционная связь - это связь связности величин (точнее, связность, парность). 230
Я^льшом объеме выборок результаты наблюдений над двумя И^знаками можно представить в виде двух сопряженных рядов так, R&B паре с каждым значением jc, величины X стоит соответствую- Еде значение yt переменной Y. Такой ряд попарно связанных значе- Ejg именуется корреляционным радом. ^Примером корреляционного ряда может служить ряд, отражаю- ip0i взаимозависимость между содержанием в почве углерода (х) и 'ф&дего азота (у) в процентах: ' х 0,90 1,00 1,08 1,20 1,27 1,36 Г у 0,08 0,11 0,09 0,11 0,10 0,12. Число пар значений в корреляционном ряду называется его обь- «иом. В данном случае объем ряда п = 6. При больших объемах выборочных наблюдений прибегают к по- Йроению корреляционных таблиц, или корреляционных решеток. В ?аких таблицах столбцы соответствуют отдельным классам с серединами Xj по признаку X (/ = 1,2, ..., /с, где к число классов по X), а строки - классам с серединами у( по признаку У (/ = 1, 2, ..., т, где т- число классов по У). В каждую клетку, находящуюся на пересечении отдельных столбцов и строк, вписываются частоты fjh показывающие, сколько раз встречаются значения признака X, попадающие в класс с Xj, когда сопряженные значения второго Признака принадлежат к классу yt. Так, из корреляционной табл. 11.1 следует, что при содержании физической глины менее 10% (£, = 5) величина наименьшей влагоем- кости менее 5,0% (у{ = 2,5) была встречена 3 раза (/h = 3). Таблица 11.1 Корреляционная таблица зависимости наименьшей влагоемкости (у,%) от содержания в почве физической глины {х,%) й 2,5 7,5 12,5 17,5 22,5 27,5 L- 5 3 10 15 3 31 15 10 13 1 24 25 1 6 1 8 35 3 3 */ 45 2 1 3 55 2 1 3 65 8 8 75 6 6 /# 3 10 26 22 9 16 п=86 При том же содержании глины в 10 случаях была обнаружена наименьшая влагоемкость в пределах 5,0 - 9,9% (у2= 7,5), причем та 231
же величина наименьшей влагоемкости была зафиксирована и в тяжелых почвах: в 10 случаях, когда х2 = 15 и один раз при хг = 25. В корреляционой таблице сумма частот по столбцам fj характеризует распределение частот одного признака (х), а сумма частот по строкам// - распределение частот второго признака. Очевидно, что объемы выборок по обоим признакам пх = Щ и^ = Z/J одинаковы и равны объему корреляционной таблицы и. Связь между признаками может быть выражена графически. Если по одной оси координат отложить значения признака х, а по другой - у, то каждой паре наблюдений на графике будет соответствовать точка с координатами х( и yt. Совокупность точек для всех наблюдений образует на полученном точечном графике корреляционное поле (рис. 11.1). Когда результаты наблюдений после группировки сведены в корреляционную таблицу, визуализация связи с помощью корреляционного поля точек уже невозможна, но в принципе может быть осуществлена путем построения призмограммы. Построение такого графика обычно занимает много времени и не всегда оправдано, поскольку с неменьшим успехом решает задачу визуализации сама корреляционная таблица, если принимать во внимание как размещение ненулевых частот fa в поле таблицы, так и поведение значений этих частот. К примеру, из таблицы 11.1 следует, что с увеличением содержания физической глины влагоемкость возрастает, причем наиболее заметно величина влагоемкости увеличивается при изменении Xj от 5% до 25%. Влагоемкость Jv ^ 7,5 встречается лишь при Xj = 5, а при Xj > 65 встречается только Ji = 27,5. Как корреляционные, так и функциональные связи по форме могут быть прямолинейными (или просто линейными) и криволинейными. При корреляционной линейной связи, хотя каждому значению одного признака и соответствует ряд отличных значений другого признака, однако равным приращениям одного признака соответствуют О 20 40 60 Рис.11.1. Зависимость между логарифмом диффузивности (у) и влажностью (х) почвы 232
1,40 1,20-1 "Л V в среднем одинаковые приращения другого признака. Графическое изображение такой связи представляет собой корреляционное поле точек, достаточно часто имеющее вид более или менее вытянутого эллипса, длинная ось которого и отражает усредненную тенденцию прямолинейной зависимости между признаками (см. рис. 11.1). При функциональной линейной связи корреляционный эллипс стягивается в прямую линию. Криволинейность при корреляционной связи проявляется в том, что корреляционное поле точек имеет изогнутую форму и среднее течение линии, характеризующей взаимное изменение значений переменных, идет по кривой, так что равным приращениям одного признака соответствуют в среднем разные приращения другого. Примером подобной связи может служить зависимость между плотностью почвы верхних слоев и содержанием в них гумуса в лесных биогеоценозах (рис. 11.2). Часто различают прямые и обратные связи. Прямыми связями называют такие, в которых увеличение одного признака сопровождается увеличением другого и наоборот (см. рис. 11.1). При обратных связях увеличению одной переменной соответствует уменьшение другой. О наличии крив о линейности и характере направленности (прямая или обратная) связей иногда можно судить и по корреляционным таблицам. К примеру, из табл. 11.1 следует, что связь между влагоемкостью и содержанием физической глины отчетливо криволинейна и в своем характере прямая, хотя к криволинейным связям обычно понятие прямых и обратных связей применяется редко, тем более, что само направление связи в разных участках значений переменных может быть разным. § i,oo H Щ 0,804 0,60 А 0,40 0,0 —1 1 I I I 1 И I—Т Г" 2,0 4,0 6,0 8,0 10,0 Гумус, % Рис.11.2. Зависимость между плотностью почвы и содержанием гумуса в ней (верхние горизонты почв в лесных биогеоценозах) 233
11.2. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ В большинстве случаев исследователь не знает a priori вид связи, существующей между случайными величинами. Обычно о характере зависимости судят лишь после получения экспериментальных данных. В зависимости от характера точечного графика в первом приближении решается вопрос, можно ли изучаемую связь аппроксимировать уравнением прямой или эту связь более целесообразно считать криволинейной. Действительно прямолинейные связи встречаются достаточно редко. Но во многих случаях аппроксимация линейной зависимостью оказывается достаточно удачной, особенно если переменные принимают значения в сравнительно узком диапазоне. Нередко не большой криволинейностыо пренебрегают умышленно по той причине, что линейные связи наиболее просто анализируются. Показателем степени прямолинейной связи между признаками служит коэффициент корреляции. Проведение корреляционного анализа для оценки степени связи с помощью коэффициента корреляции может считаться корректным, если выборочные совокупное?я соответствуют полностью рандомизированной (недетерминировая ной) модели, т.е. когда обе переменные, связь между которыми изучается, являются величинами случайными. Если для одного из признаков значения произвольно подбираются исследователем (детерминированная модель), что в явной или скрытой форме имеет место достаточно часто, то технически вычисление коэффициента корреляции возможно, но возникают трудности с интерпретацией результатов корреляционного анализа (на что обычно не обращается, к сожалению, внимания). Выборочная величина коэффициента корреляции, вычисленная для полностью рандомизированной модели, является оценкой соответствующего генерального коэффициента корреляции. Однако интерпретация величин коэффициента корреляции и оценка их значимости хорошо известны лишь для случая, когда значения сопоставляемых величин в генеральных совокупностях распределены нормально, т.е. когда имеет место двумерное нормальное распределение. Недетерминированные модели такого типа можно назвать корреляционными моделями. Для пояснения особенностей коэффициента корреляции как меры линейной связи между случайными величинами обратимся к корреляционному ряду, отражающему зависимость между содержанием в почве углерода (х) и общего азота (у): JC, 0,90 1,00 1,08 1,20 1,27 1,36 yt 0,08 0,11 0,09 0,11 0,10 0,12. 234
Заменим этот исходный ряд х( и yt на ряд сопряженных значении х —х У~У Стандартизированных отклонений xXj = -J , и ryi =-J , учи- sx sy ^ываяучто х= 1,135,^ = 0,173, у = 0,102 и лу = 0,015,получим %щ -1,36 -0,78 -0,32 +0,38 +0,78 +1,30 -1,47 +0,53 -0,80 +0,53 -0,13 +1,20. %Л Очевидно, что в случае прямой связи между сопоставляемыми величинами стандартизированные отклонения в парах предпочтительно должны иметь одинаковый знак (как в нашем случае, например)» а пр*1 обратной связи, когда возрастанию одного признака соответствует уменьшение другого, знаки отклонений должны быть по преимуществу противоположные. Поэтому если попарно переложить стандартизированные отклонения и найти сумму всех произведений Ътхту, то как знак этой суммы, так и ее значение могут нести информацию о направлении связи и ее величине. Мешает использованию Ътхту в качестве меры связи то, что будучи суммой, эта величина зависит от длины корреляционного ряда. Учитывая, Ч£0 Ътхху не может по абсолютной величине превышать число п - 1, эде п - объем корреляционного ряда, причем равенство Ътхту = п - 1 возможно лишь в том случае, когда связь между хи у строго линейна и функциональна, отношение 1.тхту кй-1 может быть использовано в качестве меры корреляционной связи. Эта мера получила название коэффициента корреляции и в качестве параметра двумерного распределения обычно обозначается Греческой буквой р, а ее оценка, найденная по выборочным наблюдениям, обозначается аналогичной буквой латинского алфавита г, и таким образом _1>хг, A1.1) т . /7-1 Для рассматриваемого примера будем иметь: тхту\ 1,999 -0,413 0,256 0,201 -0,101 1,560, 3 502 £гхГу = +3,502 и, учитывая, что п = 6, г -——- = 0,70. 6 — 1 Поскольку xXj = ^—- и Ту. = ——— , из формулы A1.1) получим sx sy г_£(*<-*Хц-50 (П.2) {n-\)sxsy 235
£(*, - *)(.v, - у) г = ■ W-1 Sxsy (П.З) В формуле A1.3) числитель представляет собой оценку среднего значения попарных произведений центральных отклонений, полу. чившего название ковариации и обозначаемого обычно cov{x,jA Таким образом, в генеральных совокупностях х и у коэффициент корреляции cov{x, у] Р=- ахоу (П.4) представляет собой отношение ковариации к произведению стандартных отклонений соответствующих случайных величин. Поскольку ковариация может рассматриваться как мера совместной вариации величин, как "совместная дисперсия л: и у" а произведение ахсту есть среднее геометрическое из дисперсий ох<зу = ^сг£а2у , то коэффициент корреляции можно считать стандартизованной кова- риацией. Величина коэффициента корреляции может принимать значения в интервале от -1 до +1. Эти крайние случаи соответствуют функциональной прямолинейной связи между признаками, обратной, когда р = -1, и прямой при р = 4-1. При отсутствии прямолинейной связи р = 0. Промежуточные величины р между нулем и единицей соответствуют разной степени тесноты связи. При линейной связи на точечном графике, отражающем эту связь между значениями нормально распределенных величин х и yf корреляционное поле точек имеет вид более или менее вытянутого эллипса. По мере увеличения тесноты в г Рис. 11.3. Вид корреляционного эллипса при различной степени связи 236
[ корреляционный эллипс делается все более вытянутым, и при «шальной связи р = 111 он превращается в прямую линию 11.3). При р = 0 корреляционное поле точек имеет форму круга. образом, по виду корреляционного эллипса можно составить оставление о степени тесноты связи (и, конечно, о ее направле- 11.3. ОЦЕНКИ И ЗНАЧИМОСТЬ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ Коэффициент корреляции г, вычисляемый по выборочным дан- I, является точечной оценкой генерального коэффициента р, который характеризует степень связи между признаками в генеральных совокупностях. В силу выборочное™ даже при отсутствии связи £фи р = 0) оценка г обычно отлична от нуля. Поэтому, получив оценку г, исследователь вынужден сразу же решать вопрос, дает ли полученная оценка какие-либо основания для утверждения, что связь есть, имея в виду связь в генеральных совокупностях, а не в рамках полученных выборок. Другими словами, вопрос сводится к Оценке значимости связи, т.е. к проверке утверждения, что р * 0. Как всякая оценка, г является величиной случайной и, следовательно, она может быть охарактеризована стандартным отклонением, именуемым ошибкой коэффициента корреляции. Обычно оценку ошибки коэффициента корреляции вычисляют по формулам при и>100: 1-г2 или при п <100 ^=-7=, A1.5) л/п-1 Для проверки нулевой гипотезы Но: р = 0 против альтернативы Hi: p*0 прибегают к вычислению статистики r-Стьюдента (учитывая, что при верности нулевой гипотезы г - р = г): '--• A1.7) И если t > (a (ta берется при п < 100 для v = п ~ 1, при п > 100 для v = oo), то Но отвергается их соответствующим уровнем значимости Делается утверждение о наличии линейной связи (р * 0). Подобный способ оценки значимости коэффициента корреляции Не является безукоризненным, особенно если оцениваемый коэффициент корреляции по абсолютной величине близок к единице 237
(при этом распределение оценок г заметно отличается от нормально. И го, а распределение отношений — - от распределения Стьюдента). Sr Более правильную оценку значимости р можно получить, если воспользоваться преобразованием z, предложенным Р.А.Фишером, где z=0,5{ln(l + r)-ln(l-r)} A1.8) (z =f(r) см. в табл.ХШ Приложения). Преимущество случайной величины z по сравнению с г состоит в том, что z распределена приближенно нормально практически независимо от величины среднего значения \xz и объема выборок п. К тому же среднее квадратическое отклонение аг, характеризующее варьирование z, определяется только объемом выборок п и не зависит otz: СТг=7^Г <п-9' Поскольку гипотезе Но: р = 0 соответствует Но: \iz = 0, то критерий проверки гипотез сводится к вычислению t-—=z^fn^3 A1.10) и сравнению полученного t с га для v = оо. При г > га можно утверж дать (с риском ошибиться в 100а% случаев), что связь имеется (р*0). К примеру, для г = +0,70, согласно табл. ХШ, z = 0,8673. При п = 6 t = 0,8673 V6-3 = 1,50, что меньше to,os = 1,96, поэтому утверждать что \\.z значимо отличается от нуля, нет оснований, а соответственно нельзя считать статистически значимым и коэффициент корреляции (т.е. нельзя утверждать, что р ф 0). Как видим, хотя полученный ко эффициент корреляции и достаточно велик, однако при столь малом объеме корреляционного ряда считать корреляцию статистически значимой нельзя. Такое значение коэффициента корреляции г може! быть результатом обычной игры случая, когда связь между изучаемыми явлениями отсутствует. Использование преобразования z дает возможность корректного получения интервальной оценки р. Для этого следует найти доверительные границы цг, что легко сделать, принимая во внимание нормальность распределения z и то, что математическое ожидание для z примерно равно 238
цг = 0,5{1пA+/>)-1пA-р)}-^-^: (fa берется для v = оо). Затем, прибегая к помощи табл.Х1У Приложения, можно найти те значения г, которые соответствуют нижней и верхней границам для \х2. Так для нашего примера получим (п = 6; г = 0,70; z = 0,8673; a = 0,05): 0,8673-1,96 4--^ < ц, < 0,8673 + 1,96-Д—^^ , v3 2'5 уЗ 2 О т.е.-0,33 <цг< 1,93. Нижняя граница для ц2 получилась в данном случае отрицательной, а это значит, что нижняя граница интервальной оценки р также отрицательна по знаку. Обращаясь к табл.Х1У, найдем, что доверительные границы коэффициента корреляции оказываются равными г005 = -0,32 •*- 0,96. Как видим, с a = 0,05 генеральное значение коэффициента корреляции может находиться в очень широкой области, включающей не только практически все положительные значения коэффициента корреляции, но и большую часть отрицательных. Очевидно, он может иметь и нулевое значение. Все операции по проверке значимости коэффициента корреляции можно упростить, заранее вычислив для различных абсолютных значений оценок г минимальные объемы корреляционных рядов, обеспечивающих возможность утверждать с уровнем значимости а, •что р * 0, т.е. утверждения наличия линейной связи (табл.ХУ Приложения). Та же таблица может служить для оценки необходимого и достаточного числа повторностей пш чтобы при ожидаемой величине г коэффициента корреляции можно было утверждать, что связь есть (р * 0) при за/данном уровне значимости а. Именно этот подход и положен в основу при составлении соответствующей таблицы. Как следует из формулы A1.10), чтобы отклонить Но: \xz = 0 (и Но: р = 0) для заданного z (и г), нужно по меньшей мере обеспечить равенство г = ta. Тогда искомое па определится по формуле ла=4+з- (пл2) Z Так, воспользовавшись табл.ХУ, мы обнаружим, что коэффици- с'п корреляции, оценка которого по модулю равна 0,70, можно счи- а«ь статистически значимым с a = 0,05, если п по крайней мере 239
равно 9. У нас повторность п = 6, что меньше 9, следовательно, ко- эффициент корреляции незначим, И минимальная повторность, ко. торая может обеспечить значимость коэффициента корреляции при г = 0,70, есть ло,о5 = 9, что следует иметь в виду, если опыт планкру, ется повторить. 11.4. ВЕЛИЧИНА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ И ЕГО СМЫСЛ При корреляционных связях абсолютная величина р обычно отлична от единицы, в связи с чем перед исследователями возникает проблема качественной оценки степени тесноты связи между изучаемыми признаками,т.е. при каких р связь можно считать тесной, а при каких - слабой. Общепринятой градации для такой оценки не существует, но некоторые условные рекомендации дать можно. Они основываются на том, что квадрат коэффициента корреляции является оценкой в долях единицы той части варьирования одного признака, которая связана с варьированием другого признака. Если, например, связь между содержанием в почве углерода и валового азота характеризуется коэффициентом корреляции г = 0,70, то это можно интерпретировать так, что на 0,702, или на 49%, варьирование содержания углерода связано с варьированием содержания азота, а на 51% варьирование этих признаков осуществляется взаимно независимо. Величина квадрата коэффициента корреляции может иметь самостоятельный интерес, поэтому ее иногда выделяют в качестве особого параметра, именуемого коэффициентом детерминации. Если с учетом сказанного оценить разные абсолютные значения коэффициентов корреляции, то за весьма тесную связь условно можно считать такую, при которой |р| > 0,85 (при этом варьирование признаков взаимосвязано приблизительно на 75% и более), за тесную связь - когда 0,85 > р > 0,7 (при этом взаимосвязанная вариация признаков лежит в пределах 75-50%), и слабой можно считать связь, если р <* 0,7 (при этом варьирование одного признака менее чем на 50% связано с варьированием другого признака). Указанные нридержки для качественной характеристики степени связи хотя и условны, однако они в определенном смысле и абсолютны, так как установлены безотносительно к изучаемым явлениям, исходя лишь из особенностей самого коэффициента корреляции. Нужно иметь в виду, что строго прямолинейные связи межДУ свойствами природных объектов и явлений - достаточно редкий случай. Обычно даже там, где связь считается прямолинейной, * действительности имеет место некоторая криволинейность. 240
рую либо не замечают, либо ею пренебрегают. В силу этого Ьициент корреляции, являющийся мерой прямолинейной связи, до отличается от единицы, даже если связь функциональная, но рямолинейная1. це более важным обстоятельством, определяющим величину ко- яента корреляции, является то, что каждый изучаемый приз- \ часто находится в сложной взаимосвязи с большим числом дру- 10£ лризнаков, прямо или косвенно оказывающих влияние на его •^ьирование. В силу этого связь между каждой парой взятых приз- ДОов оказывается в той или иной мере затушеванной, смазанной деянием всех прочих неучитываемых признаков. Роль не принятых ^внимание факторов может быть разной, как следствие этого, коэффициент корреляции будет то больше, то меньше отличаться от <дрнницы. ; Так, связь между величиной максимальной гигроскопичности и задержанием физической глины для некоторого типа почвы обычно достаточно велика, хотя и осложнена недоучетом минералогическо- Ю состава почв, характера поглощающего комплекса и некоторых других явлений, так или иначе сказывающихся на величине макси- М|Ш>ной гигроскопичности. Связь же между урожайностью некоторой культуры и, например, содержанием в почве подвижных фосфатов, хотя и существует, однако обычно бывает невелика, так как в ЯОДеныпей, а обычно и в большей степени, урожайность зависит еще ШОТ множества других факторов: различные свойства почв, погод- Ше условия, особенности хозяйствования, сортовая специфика культуры и т.д. Следует заметить, что величина коэффициента корреляции, даже Шоп она и велика, еще не дает оснований для суждения о практи- ЗДасой важности обнаруженной связи. Нередко встречаются случаи, яагда небольшая по величине связь оказывается очень важной в практическом отношении, и в то же время связь, близкая к Функциональной, может подчас представлять лишь академический "Ийтерес. Причина разной практической значимости одной и той же ■®шчины связи заключена в особенностях коэффициента корреляции, что обнаруживается из рассмотрения формулы A1.1). Поскольку стандартизированные отклонения тх и ту не претерпевают изменений при линейных преобразованиях переменных х и у, Ф коэффициент корреляции оказывается одинаковым для очень |^ных по внешнему облику корреляционных рядов. ание р возможно лишь при априорной гарантии отсутствия нелинейных свя- :, если х\у хг,..^п - независимые реализации нормальной величины с нулевым и единичной дисперсией, a yj = xj- (xjKf3 , I <> j £ п , то гп -» р (х,у) = О, хотя * hj> имеется функциональная связь. 241
Рассмотрим для примера ряд значений xt и соответствующие ему ряды значений у\, у" и у'" : 1,27 1,36 30 50 100 120 100,10 100,12. Оценка корреляции между значениями ряда х и любым из рядов у дает одинаковый результат: г = 0,70, поскольку у"=у\ + 70 и у"' = 100 + 0,001 у" , а при подобных преобразованиях 1 Уг ' И * У1 * В то же время, если допустить, что л: есть плотность почвы, а у - урожай сена, то связь в парах значений х, -у\ несомне!шо заслуживает дальнейшего изучения, в парах Х/-.у" это менее интересно, а в парах Х{ -у"' с практической точки зрения никакого значения не имеет, даже если бы она была очень статистически значимой. При интерпретации результатов анализа следует иметь в виду, что коэффициент корреляции отражает степень связи между изменчивостью случайной величины вне зависимости от абсолютной величины этой изменчивости и от того среднего уровня переменной величины, на котором изменчивость проявляется. Сам по себе коэффициент корреляции не вскрывает ни природы связи, ни что от чего зависит. Он характеризует меру связи между величинами, а не зависимость х от у или наоборот (это проявляется в том, что гху = гух). Природу связи, причинно-следственные отношения, лежащие в основе связей, позволяет вскрыть лишь предметный анализ. 11.5. ТЕХНИКА ВЫЧИСЛЕНИЙ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ Формула A1.1) хорошо вскрывает смысл и особенности коэффициента корреляции, но мало пригодна для практического использования. При вычислении коэффициента корреляции исходят из выражения, вытекающего из формулы A1.2): где согласно формуле F.2), С2х и С2у есть суммы квадратов центральных отклонений для рядов х и уу а Сху по аналогии с принятым*1 242 х{ 0,90 1,00 1,08 1,20 у\ 10 40 20 40 у/ 80 ПО 90 110 у/' 100,08 100,11 100,09 100,11
Назначениями в формуле F.2) есть сумма попарных произведений Ь^ггральных отклонений: Cxy = Z(^-3cX^-y). A1.14) Суммы С2х и С2у обычно находятся согласно формуле F.9): ?2 S2 Г - ? --£- и Г - 9 у ^ Сху по аналогичной формуле ^ху — ^ху srs„ A1.15) A1.16) raeSx=5>;. ,Sy=2>, , s2x =Zxj, s2y=Zyf, sxy = 2>,.y,. Таким образом, для вычисления г нужно найти перечисленные суммы. Техника нахождения этих сумм представлена в табл. 11.2 и к«к и последующие вычисления С2ж, С2у, Сху и г, пояснений не требует. I *; 0,90 1,00 1,08 1,20 1,27 1,36 6,81 У; 0,08 0,11 0,09 0,11 0,10 0,12 0,61 А 0,8100 1,0000 1,1664 1,4400 1,6129 1,8496 7,8789 у] 0,0064 0,0121 0,0081 0,0121 0,0100 0,0144 0,0631 Таблица 1 ху 0,0720 0,1100 0,0972 0,1320 0,1270 0,1632 0,7014 1 .2 С2х = 7,8789-6,812/б = 0,1496; С2у= 0,0631 -0,612/б = 0,0011; Сху =0,7014-6,81-0,61/6 = 0,0090; °>0090 г = , — = 0,70. V0?1496-0,0011 При вычислении коэффициента корреляции по данным, представленным в виде корреляционной таблицы, нахождение сумм S осуществляется на основе середин классов с учетом соответствую- ВШх частот: 5Я = I f}x}; Sy = £ f,y,; 52x = £/,*?; S2y = £/jy,2, *y ~HfjtXjyi> rP£J = 1, 2, ..., А:, /г- число классов по признаку X, ** 1, 2,..., т, т - число классов по признаку F, j£ - частота класса с **рединой Xj yfi - частота класса с серединой yt yfj{ - частота для сования классов Xj и У/. ,& 243
Если взять в качестве примера данные, приведенные в табл.1 \,\ то получим Sx = 2090, Sy = 1435, S2x = 97550, S2y = 28038, S^ = 47025 и C2x = 46758, C2j = 4093, Cxy = 12151 и, наконец, г = 0,88. 11.6. ЧАСТНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ Коэффициент корреляции гху отражает связь между случайными величинами 1иУв данных общих условиях проведения испытаний. Среди второстепенных условий при этом могут быть и обычно бывают факторы, которые в большей или меньшей мере оказывают влияние на какую-либо одну или на обе случайные величины. Это влияние можег быть прямым или опосредованным, но сам факт возможности такого влияния означает, что перевод того или иного фактора из второстепенных условий в общие может повлиять на характер изучаемой связи. В эксперименте далеко не всегда имеется техническая возможность тот или иной фактор стабилизировать на заданном уровне, но, если в качестве одной из случайных величин, например Z, этот фактор может быть измерен наряду с X и У, то связь между X и У при исключении влияния Z может быть оценена. Коэффициент корреляции, характеризующий подобную связь, получил название частного коэффициента корреляции. Его принято обозначать буквами р или г (соответственно для константы или ее оценки) с индексами, указывающими, между какими признаками связь оценивается, а через точку - при исключении какого признак а. В случае, когда между любой парой признаков из X, У и Z связь не очень сильно отличается от прямолинейной и степень связи оценивается парными коэффициентами корреляции rxy, rxz и ryz, то част ный коэффициент корреляции rxyz между признаками X и У при исключенном влиянии Z может быть вычислен по формуле - - Г*У-Г"ГУ A1Л7) Так, если связь между урожайностью травосмеси (У) и суммой поглощенных оснований (X) оценивается гху = 0,78, а между урожай ностью и содержанием глины (Z) - rZJ = 0,86, то естественно возни кает вопрос, не является ли связь между X и У следствием всего лишь того, что урожайность зависит от содержания глины, а поскольку от этого последнего очень существенно зависит сумма поглощенных оснований, то наличие связи между урожайностью и суммой поглощенных оснований представляется вполне естественным. Подтверждением правомерности таких соображений служит и то, что между содержанием ила и суммой обменных катионов связь 244
сьма велика: rV2 = 0,88. Возникающие в этой ситуации предположения могут быть проверены либо постановкой специальных опы- ов, где при фиксированности содержания физической глины изуча- ся зависимость урожайности травосмеси от различий в сумме поглощенных оснований, либо путем вычисления частного коэффициента корреляции rxyz, что технически, очевидно, проще (хотя равноценность этих подходов не очевидна). Согласно формуле A1.17) > 0,78-0,86-0,88 получаем гх>,г =- J(l-0,862)(l-0,882) = 0,10. Как видим, зависимость урожайности травосмеси от суммы поглощенных оснований при исключенном влиянии содержания физи- |юекой глины оценивается очень маленькой величиной коэффициента корреляции. Относительно высокая величина коэффициента корреляции гх>=0,78 явилась, очевидно, следствием того, что уро- ■ жайность прямо или косвенно связана с содержанием глины, а сумма поглощенных оснований в определенной степени является косвенной оценкой содержания глины. Графически отношение между \ X и Y может быть отображено с помощью корреляционных эллипсов. При различных фиксированных значениях Z корреляционное поле точек на графике зависимости у от х по форме оказывается весьма близким к кругу, так как Txy.z~ 0,10 мало отличается от нуля (эти корреляционные поля на рис. 11.4 обведены сплошной линией)* Однако в целом корреляционное поле точек в координатах у и х для различных z оказывается сильно вытянутым (эллипс, очерченный пунктирной линией) в силу того, что частные корреляционные эллипсы для разных z оказываются смещенными друг относительно друга вдоль некоторой линии. В результате этого получается положительный корреляционный эллипс, к тому же отражающий достаточно большую степень связи. Вообще говоря, соотношение между частными корреляциями и общей корреляцией может быть различно. На рис. 11.5 схематично 245 . 16* Рис.11.4. Соотношение между частными корреляционными эллипсами (сплошная линия) и общим корреляционным эллипсом (пунктирная линия)
показаны некоторые из возможных случаев такого соотношения. Общий положительный корреляционный эллипс может получиться в результате суммирования не только положительных частных корреляционных эллипсов (а), но и при суммировании отрицательных частных корреляционных эллипсов (б). При наличии заметной отрицательной частной корреляции общая связь может быть как положительной F), так и отрицательной (в) и равной нулю (г). Следует иметь в виду, что умышленно организуя эксперимент или непреднамеренно проводя его в узком интервале значений интенсивно влияющего фактора, исследователь можег получить оценку по сути дела частного коэффициента корреляции, иногда Риса 1.5. Некоторые виды соотноше- Даже не догадываясь об этом. ний между частными и общими корре- Учитывая, СКОЛЬ Заметно МОГУТ ляционными эллипсами отличаться общие и частные коэффициенты корреляции, необходимо с большой осторожностью сравнивать направления и теснот\ связей между одинаковыми признаками казалось бы в очень сходных условиях. 11.7. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ СПИРМЕНА Рассмотренные выше коэффициенты корреляции вычисляются л интерпретируются исходя из допущения о нормальности раслред - ления обеих случайных величин. В действительности такое допущение не всегда выполняется. И хотя к малым отклонениям от но мальности коэффициент корреляции не очень чувствителен, одна; "засоренность" той или иной выборки даже одаим-даумя сильно с клоняющимися от остальной группы значениями может оказать ; причиной не только изменения меры тесноты связи, но и ее знака. В тех случаях, когда о законе распределений ничего не извести , а тем более, когда есть серьезные основания думать, что одна iviA обе случайные величины имеют распределения заметно отличные с г нормального или "засоренные" сильно отклоняющимися от основной массы значениями, целесообразно прибегать к характеристике меры коррелированное™ с помощью коэффициента корреляция Спирмена ps (или его оценки rs). 246 •<9
Коэффициент корреляции Спирмена относится к категории так «взываемых ранговых статистик. Для его вычисления необходимо значения хг и у{ в корреляционном ряду заменить их рангами Я(хг) и RCyd- Rjm этого значения каждой случайной величины ранжируются {см. § 2.5) и в порядке возрастания приписываются ранги от 1 до ?г, где п - объем выборки. Ранги таким образом представляют собой •целые числа 1,2,...,;/, соответствующие номеру занимаемого места в ранжированной последовательности. Если два или большее число значений имеют одинаковую величину, vim обычно приписывается одинаковый раыг, равный среднему значению из номеров, занимаемых этими значениями мест. К примеру, в корреляционном ряду, отражающем связь между содержанием углерода (х() и азота (у?) по результатам анализа // = 6 образцов: Xi 1,00 1,08 1,20 1,27 1,30 1,36 yt 0,11 0,09 0,11 0,10 0,08 0,12 Заменив л, и у{ на их ранги R(xt) и R(yt), получим корреляционный ряд: R(x0 1 2 3 4 5 6 R(y0 4,5 2 4,5 3 1 6 Очевидно, при положительной связи меньшим рангам R(xt) должны соответствовать меньшие ранги Я(у;) и наоборот. При отрицательной свягзи меньшим значениям рангов Я(хг) будут соответствовать большие ранги /?(у,) . Неустойчивость в таких соотношениях должна соответствовать снижению тесноты связи вплоть до ее отсутствия, когда любому рангу одного признака может соответствовать любой ранг другого признака. Коэффициент корреляции Спирмена, отражающий эту меру связи, вычисляется по формуле где d{= R(x^) - R(jyi)> те- попарная разность рангов. % Коэффициент: корреляции Спирмена может принимать значения °т-1до+1. В рассматриваемом примере, поскольку ряд разностей имеет вид 4:-3,5; 0; -1,5; I; 4; 0 и 21 d? =31,5, получаем rs = l 7——v = 0,10. 1 6.C6-1) 247
Будучи вычислены на основании результатов выборочных экспериментов, значения rs оказываются оценками некоторых генерала ных значений этих коэффициентов ps. Поэтому, чтобы иметь уверенность в том, что связь, характеризуемая подобным образом, есть, нужно оценить значимость коэффициента корреляции p5j т.е. значимость его отличия от нуля. Таким образом, нулевая гипотеза при этом имеет вид Но: ps = 0. Альтернативой этой гипотезе чаще всего выступает предположение Hi: ps* 0. Проверку нулевой гипотезы против Н\ проще всего осуществить, сопоставив вычисленное значение rs с критическим значением rs , извлекаемым из табл.XVI Приложения для заданного уровня значимости а и соответствующего объема корреляционного ряда п. При \rs\ > rs нулевая гипотеза отвергается с уровнем значимости а и делается заключение о наличии связи. В нашем примере л=6и, согласно табл. XVI, rs^s = 0,85, что существенно больше полученного rs- 0,10 , поэтому говорить о наличии связи между X и Г у нас нет никаких серьезных оснований. Критическое значение rs при п > 10 можно оценить с хорошим приближением по формуле rs. ~ ,[тГл , 0,19 п-1 м A1.19) где ta берется из табл.Ж Приложения для v = оо. При п > 40 хорошую оценку rs можно получить по более простой формуле rs.=-j=- A1.20) Для иллюстрации устойчивости коэффициента корреляции Спирмена к единичным "выбросам" значений обратимся к только что рассмотренному примеру. Можно установить, что обычный ко эффициент корреляции здесь столь же мал (г = 0,04), как и rs~ 0,10 Теперь допустим, что в исходном корреляционном ряду последнее значение х{ оказалось не 1,36, а 1,86. Очевидно, что это изменение ж повлечет за собой изменения соответствующего ранга, а поэтому ь коэффициент корреляции Спирмена останется без изменения. Но обычный коэффициент корреляции при этом возрастет до г = 0,43. Коэффициент корреляции Спирмена с успехом может быть использован для оценки наличия закономерного изменения переменной во времени или пространстве, есДи такое изменение не слишком отличается от линейного. 248
р Отличная от случайной последовательность, проявляющаяся в ■ повышении (или понижении) случайной величины вдоль некоторой линии, именуется линейным трендом. Поскольку коэффициент корреляции Спирмена является мерой линейной связи между рангами, то о наличии линейного тренда можно судить по rs. В этом случае оценивается связь между рангом переменной и номером (рангом) места этой переменной в пространственной (или временной) последовательности. Так, если 10-кратное измерение мощности горизонта А вдоль некоторой линии через каждые 0,5 м дало результаты (xif см): xt 5 7 6 10 9 12 12 11 14 12 , наталкивающие исследователя на предположение, что эта последовательность неслучайна, то, заменив последовательность xt последовательностью их рангов R(xi), и приписав ?-му месту в пространственной последовательности ранг Rh численно равный f, получим корреляционный ряд: Rt 1 2 3 4 5 6 7 8 9 10 R(x0 13254886 10 8. Ряд попарных разностей d{ при этом оказывается равным: dt 0 -1 +i -i +1 -2 -1 +2 -1 +2 . Поскольку п = 10 и У d] = 18, получаем rs =1 7 г = +0,89. 10(l02-lj Из табл.ХУТ Приложения следует, что при п = 10 rs = 0,79, а значит с большой уверенностью можно утверждать (риск ошибиться в этом утверждении не превышает 1%), что мощность горизонта А линейно связана с положением точки промера вдоль линии опробования и увеличивается от начала линии к ее концу (об этом свидетельствует положительный знак у rs). Иначе говоря, можно утверждать, что в изменении мощности горизонта А имеется линейный тренд, к тому же весьма отчетливо выраженный, поскольку rs близок к единице. Из приведенных примеров легко усмотреть важную особенность рассматриваемого коэффициента - отсутствие необходимости количественного выражения результатов измерений. Действительно ко- . эффициент корреляции Спирмена может быть использован для оценки степени связи, когда один или оба признака оказываются 249
измеренными на порядковой шкале. Так, один из признаков може представлять собой, например, степень окрашенности почвенной, образца в серый цвет, если образцы по этому признаку ранжиро вать, а затем приписать им соответствующий ранг в получаемой по следовательности. В заключение следует заметить, что приписывание смежным в ранжированной последовательности значениям х{ или у{ одинаковых рангов не может не сказаться на значении коэффициента корреля ции Спирмена. вычисляемого по формуле A1.18). И хотя rs можно считать достаточно устойчивым к замене нескольких разных рангов в их последовательности на одинаковые ранги, равные средним их значениям, при большом числе усредняемых рангов, а тем более когда усреднение приходится делать на относительно большой группе рангов, коэффициент корреляции Спирмена следует вычислять по формуле, учитывающей усреднение рангов: . . Н"'-')-^-7^ A1.21,- где Г представляет собой уменьшенную в 12 раз сумму произведений числа т смежно расположенных усредненных рангов на -квадрат этого числа без единицы: 1 Ык ( T^ — Zmjlmi-l), A1.22) где / = 1, 2, ..., /с, к - число групп усредненных рангов, mt - число усредненных рангов в 1-й группе (/?//> 2). Индексы у Г показывают, что соответствующая величина находится для ряда рангов в совокупности признака X или Y. Для иллюстрации техники вычислений в подобной ситуации допустим, что 15 образцов почвы, в которых было определено содержание органического углерода, были ранжированы по окраске (по выраженности у образцов серого цвета). В отличие от содержания углерода (признак X), где одинаковых значений не оказалось и ранги R(xt) со значениями от 1 до 15 (и - 15) нигде усреднять не пришлось, окраска почвы (признак Y) у ряда образцов оказалась настолько сходной, что в ранжированной по окраске последовательности ряду образцов пришлось приписывать одинаковые ранги Я(у1). В окончательном виде корреляционный ряд получил вид: R(xt) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 R(y,) 2 2 2 4 6,5 5 6,5 9 9 11,5 9 11,5 14 15 13. 250
Легко убедиться, что здесь £<// = 19,0, и по формуле A1.18) 649,0 15(l52 В ряду R(xt) усреднения рангов не было и поэтому Тх = 0. В ряду R(y\) имеется к = 4 группы усредненных рангов со средними значениями 2; 6,5; 9 и 11,5. Число mt в двух группах оказалось равным 2 и в двух группах - 3. Поэтому по формуле A1.22) получим Ту=—[з(з2-1) + 2B2-1) + з(з2-1) + 2B2-1)] = 5,0. Воспользовавшись формулой A1.21), найдем rs более точно: -•15(l52-l)-19,0-0-5,0 |l45(l52-l)-2.o][l45(l52-l)-2.5?0 0,966. Как видим, с точностью до тысячных результат оказался таким же, как по формуле, не предусматривающей введения поправки. Рассмотренный пример может дать кое-какое представление о том, какие усреднения рангов могут не играть роли доя оценки коэффициента корреляции Спирмена. 11.8. ТЕТРАХОРР1ЧЕСКИЙ ПОКАЗАТЕЛЬ СВЯЗИ Для вычисления обычного парного коэффициента корреляции необходимо, чтобы оба признака были измерены на количественных шкалах. Коэффициент корреляции Спирмена можно вычислить, если один или оба признака измерены на порядковой'шкале. Но связь может существовать и между признаками качественными и даже альтернативными. В этом последнем случае она проявляется в отсутствии независимости их взаимного появления. Такая связь тоже может быть измерена, Поскольку альтернативные признаки могут иметь лишь две ipa дации, то корреляционная решетка, отражающая связь между такими двумя признаками, оказывается представленной четырехклеточ- ной таблицей. Если столбцы такой таблицы соответствуют например, признаку А с двумя градациями А и А , из которых первая обозначает наличие этого признака, а вторая - отсутствие, а строки принадлежат признаку В с аналогичными градациями В и В , то весь возможный набор сочетаний признаков оказывается ограниченным четырьмя вариантами: АВ> А В , А В и А В , а 251
частоты этих событий / разместятся на пересечении соответствующих столбцов и строк, имея соответствующие индексы (табл. 11.3). Таблица 11.3 Схема четырехклеточной корреляционной решетки В в в А /ав fa h А 1 h, hb h fB h n = fA+fj=fB + h Сумма частот по столбцам дает общее число случаев /а = /ав+/Ав с наличием признака А или /2 = /АВ + fAB с его от сутствием. Общее число случаев с наличием или отсутствием второго признака дают частоты fB = fAB + fAB и fB = fAB + /АВ . Сумма все; частот четырехклеточной таблицы дает общий объем корреляцией ной решетки я. Если допустить, что единичные результаты измере ния есть единица при наличии того или иного признака и ноль при его отсутствии, то оценками средних значений для признаков А и В будут доли рА - /А /п и рв - /в /п, а формула вычисления коэффициента корреляции по редуцированной до четырех клеток корреляционной решетке примет вид (формула Бравэ) Jab'Ja~b~Jab'Jab /ПГ. Tq = ; ^= -=— . A1 .L$. VJ А ' f~A ' fs 'f'B Вычисленный по этой формуле коэффициент Бравэ нередко име нуется тетрахорическим показателем связи. Как и обычный коэффициент корреляции гв может принимать значения в интервале от - до +1. В первом случае это соответствует наличию признака А, ког да (и только когда) отсутствует признак В и наоборот. Если наличие- признака А неизбежно влечет за собой наличие признака В и наоборот, то гв = 1. Во всех остальных случаях -1 < гв < +1. Если вспомнить, что вероятность (см. § 3.3) совместного осуществления независимых событий А и В равна произведению вероятно стей этих событий, то соответствующие этому условию теоретиче ские частоты в клетках четырехпольной таблицы могут быть найдены путем деления произведения итоговых частот в соответ ствующих строке и столбце на общий объем корреляционной табли цы. Например, эмпирической частоте fAB будет соответствовать теоретическая частота, соответствующая условию независимости 252
- f . / признаков Л и В, /^ = ———, частоте fAg - теоретическая часто- та /Ав ~ ~—~ и тд- ^ случае, если эмпирические частоты в точности равны теоретическим, что соответствует независимости признаков А и В, тетрахорический показатель связи оказывается равным нулю, в чем легко убедиться, подставив в формулу A1.23) вместо эмпирических частот их теоретические значения. Будучи вычисленным на основании выборочных данных, гв оказывается оценкой некоторого генерального показателя рв. Поскольку отличие рв от нуля означает отсутствие независимости признаков Л и В, то критерием проверки гипотезы Яо: р#= О можно взять критерий согласия, основанный на статистике %2: если ^/ав-/лв-/лв-/лв\-»/*) AL24) Ja'Jb'Ja' J в для v = 1, признаки А и В считаются не независимыми, а рвФ 0. В числителе левой части неравенства A1.24) член л/2 представляет собой так называемую поправку на непрерывность. Если объем выборочной совокупности насчитывает по меньшей мере несколько сотен наблюдений, эту поправку можно не вносить и тогда Х2 = иг|. A1.25) Оценку значимости рв с помощью %2 допустимо проводить при условии, что все теоретические частоты в клетках таблицы должны быть не менее 5. Для иллюстрации техники вычислений тетрахорического показателя связи рассмотрим результаты измерений в л = 182 точках принадлежности почв к лугово-каштановым (А) или прочим A; солонцы, светло-каштановые), а растительности - с наличием типчака (В) и без него (я). Учитывая, что при наличии лугово-кагатановых почв в/А = 38 случаях, а типчака в/5 = 58 (табл. 11.4), при взаимной независимости этих событий частота их совместной встречи 38-58 Должна была бы быть fAB- = 12,1, а это меньше эмпири- 182 ческой частоты /АВ = 32, можно ожидать, что сравниваемые явления не независимы. 253
Таблица 1 \ Корреляционная решетка зависимости наличия ( А ) или отсутствия (А ) лугово-каштановой почвы при наличии (В ) или отсутствии (В ) типчака В в А 32 6 Л = 38 /1 26 118 £ = 144 Л = 58 /*=124 я= 182 Поскольку /лв , являющаяся наименьшей из всех четырех теоретических частот, больше 5, то проверка значимости связи с помощью х2 допустима. т-г 1 •«« ЛЛч 32*118 —6*26 _ ___ По формуле (П.23) получаем гв = , = 0,577. V38-144-58-124 Формулы A1.24) и A1.25) дают значения у} соответственно равные 57,6 и 60,6, что существенно выше Хо,оо5= 7>88 даже для а = 0,005, поэтому каких-либо достойных внимания сомнений в наличии связи здесь быть не может. Следует заметить, что тв могут достигать своих крайних значений + 1 и -1 лишь в тех случаях, когда fB = fA и соответственно, /-=/^. В рассмотренном примере получить гв = 1 принципиально невозможно, поскольку типчак встречен в 58 точках, а лугово- каштановая почва только в 38. Если бы даже все события А произошли при условии наличия события В и/АВ = 38, мы получили быгя=0,70. В тех случаях, когда один или оба признака измерены на количественных шкалах, альтернативные классы одного из признаков можно выделить таким образом, чтобы было обеспечено равенство /а =/в- Допустим, признак А, измеренный на классификационном уровне, среди п измерений был обнаружен в fA числе случаев. Если второй признак В, измеренный на количественной шкале, предпочтительно связан с А таким образом, что наличию А соответствуют более высокие значения, то числу/^ случаев наличия А должно соответствовать равное ему число fB наиболее высоких значений признака В, которые и составят класс В по этому признаку. К классу В будут отнесены все остальные более малые значения. Например, в ранжированной последовательности признака х граничным значением, разделяющим классы В и В будет у-квантиль Х(у), где у = 1 -Рв> Рв = /в1п~ Доля значений х{ больших Х(у) при условии /а =/в- Тогда событием В будет х >JC(Y>, а В - х <jc<T). 254
[ частоты/л и/в одинаковы, то одинаковы частоты fj и /^ |r_ = f £ . В этом случае, сохраняя обозначение п для объема че- Гехклеточной таблицы и/АВ для частоты совместных событий А и Я принимая обозначения/ -fA =/#, получим более простое выра- ае для формулы A1.23): r -fAB-n-f2 A1.26) Так, если среди п = 100 кубиков с ребром 2 см в пределах карбо- рггно-иллювиального горизонта солоди белоглазка (А) была обна- |*ужена в/А = 16 случаях, и резонно допустить, что именно этим образцам должно соответствовать наибольшее содержание карбонатов ^событие £), то, принимая/л =/# = 16 и имея рв = 16 : 100 = 0,16 и у s=l -0,16 = 0,84, по известным формулам B.13 - 2.14) можно вычислить квантиль Х(о,84) содержания карбонатов, который оказался (равным 17,9%. После подсчета частот четырехпольная таблица f убрела вид, представленный в табл. 11.5. Таблица 11.5 Корреляционная таблица связи наличия белоглазки (А) с содержанием СаСОз более Х(о,84)= 17,9% (В) В{х>\7,9) В (х<П,9) А 9 7 16 А 1 11 84 16 84 100 Подставляя в формулу A1.26) соответствующие значения, полу- 9-100-162 л ло там rB=—t г =0,48. 16A00-16) 11.9. НЕСИММЕТРИЧНЫЕ МЕРЫ АССОЦИАЦИИ ТетраХорический показатель связи относится к центрированным (ноль - отсутствие связи, пределы колебаний от -1 до +1) симметричным показателям. Его можно трактовать и как меру приуроченности появления одного признака к наличию второго, и второго к первому, и как меру связи между отсутствием одного признака и отсутствием второго, так как гАВ = гвл = г^% = г^ . Однако существуют явления, связь между которыми не имеет симметричного характера. Возникновение оглеения, например, мы связьюаем практически однозначно с повышением увлажнения почвы, но отнюдь не всегда повышение увлажнения влечет за собой 255
оглеение. Такого рода связи могут оцениваться несимметричными мерами ассоциации, наиболее широко используемыми в геоботахщ. ке. Весьма часто в качестве несимметричной меры ассоциации используется коэффициент Дайса КОа/в=^, A1.27) /в показывающий, насколько наличие признака В влечет за собой появление события А. Соответственно коэффициент KDb/a = ^- (П.28) J A отражает ассоциированность события В с событием А. В этих фор мулах/л и/я - частоты появления событий А я В среди п испытаний. /лв - частота совместного их появления (см. табл. 11.3). Коэффици ент Дайса нецентрирован. Например, КОл/5 = 0 соответствует "отрицательной ассоциации" событий: при наличии В событие /. отсутствует. Если события В я А независимы друг от друга KD^/в = 0,5. При КОл/£ = 1 наличие признака В однозначно вызы вает появление признака А. Оценки коэффициентов Дайса имеют дисперсии ^2 :=kdaib^-kdaib) A1.29) Jb KDb/aJI-KDb/a) (i i.30} v2 S*&BIA " J A Принимая во внимание, что повторности при оценках подобных мер ассоциации обычно исчисляются десятками и более, допустимо считать, что ошибкам, полученным по формулам A1.29-11.30) соответствует число степеней свободы v = <x>. При необходимости эти ошибки можно использовать для нахождения доверительных интервалов KD. Обращаясь к ранее рассмотренным данным, представленным в табл. 11.4, получим два коэффициента Дайса: KD^/b^ 32/58 = 0,55 и KD^ = 32/38 = 0,84, из которых следует, что наличие типчака в растительности E) практически не играет роли в том, будет ли здесь почва лугов о-каштановая или нет, поскольку KDy4/5= 0,55 близок к 0,5, соответствующему отсутствию ассоциированности. Это, в частности, означает, что проведение границ распространения лугово- каштановых почв по границам распространения типчака лишено 256
|рований. Но в то же время предпочтительность наличия типчака i лугово-каштановой почве не вызьшает сомнений. Из рассмотренного примера уже должно быть видно, что коэф- *енты Дайса неудобны для интерпретации из-за своей нецент- !*Ированности. В связи с этим более удобно пользоваться центрированной модификацией коэффициентов Дайса, так называемым трансформированным коэффициентом Дайса - TKD. Для оценки меры ассоциированности признака А с признаком В YKD может быть вычислен по формулам (обозначения см. в табл. 11.3) TKDAm=fAB~flB , A1.31) JB ЕЛИ TKDa/b = 2^.-1. A1.32) JB Соответственно, для нахождения меры ассоциации признака В с признаком А получим TKDb/a^*"^, A1.33) J A нли TKDh/a = 2^2.-1. A1.34) J A Очевидно, что между TKD и KD существует связь очень простого вида: TKD = 2KD-1. Удобство TKD как меры ассоциации заключается в том, что этот коэффициент так же как коэффициент корреляции г и rSi как показатель связи гв, может меняться в интервале значений от -1 до +1. Эти крайние значения соответствуют либо непременному отсутствию одного признака при наличии другого (TKD = -1), либо обязательному присутствию первого, если второй есть (TKD = +1). Нулевое значение TKD соответствует отсутствию зависимости появления одного признака от наличия второго. Проверка значимости зависимостей, измеряемых TKD (и KD) Может приближенно осуществляться с помощью %2, вычисляемых по формулам: угЛ^в-Глв) ={tkDa/bJ./b (п.з5) JB Дня зависимости наличия А от наличия В и 47 Е.А.Дмитриев 257
%2Jf*>-fAB) ={TKDBIAf.fA A1.36) J A для зависимости Вот А. Если %2> Ха2 ДДЯ v = 1, то с уровнем значимости а гипотеза о независимости отвергается. Для данных, представленных в табл. 11.4, будем иметь (формула 11.31) TKDа/в = 32~26 =0,103 и (по формуле 11.34) 58 TKD^= 2^-1=0,684. 38 Соответственно (формулы 11.35-11.36) для зависимости А/В: Х2= 0,1032-58 = 0,62, для зависимости В/А: %2 =0,6842-38 = 17,79 . Поскольку для v = 1, Хо,05= 3,84 и xo.oi = ^М\ можно заключить, что о какой-либо зависимости А от В говорить не приходится, а обратная зависимость статистически очень значима. Это проявляется и в значениях TKD, мало отличного от нуля для TKD^/д = 0,103 и достаточно высокого у TKDB/A = 0,68. Как и при анализе коэффициентов Дайса, мы пришли к заключению, что распространение типчака отчетливо связано с наличием лугов о-каштановых почв, хотя обратного никак нельзя утверждать. При этом вывод об отсутствии ассоциированности лугово-кашта- новых почв с типчаком на основе анализа TKD выглядит гораздо более естественно, чем при рассмотрении нецентрированных коэффициентов Дайса. Вопросы для самоконтроля. 1. В чем отличие корреляционных связей от функциональных? 2. Что называется корреляционным рядом и корреляционной таблицей? 3. Какие связи называются прямыми и прямолинейными? 4. Какая модель называется корреляционной? 5. Что собой представляет коэффициент корреляции и пределы его колебаний? 6. Что называется корреляционным эллипсом? Какова связь его формы с величиной коэффициента корреляции? 7. Как оценивается статистическая значимость коэффициента корреляции и что это означает? 8. Что показывает коэффициент детерминации? 258
9. Насколько статистическая значимость и величина коэффициента корреляции могут определять практическую важность изучае- |>й связи? 10. Что показьгоает частный коэффициент корреляции? 11. В чем специфика коэффициента корреляции Спирмена? 12. Какие задачи можно решать с помощью коэффициента кор- |#1яции Спирмена? гГ 13. Какими показателями можно измерить взаимную сопряжен- Гть альтернативных признаков? л 14. С помощью какого критерия оценивается статистическая зна- юсть тетрахорического показателя связи? 15. Что общего и в чем отличие тетрахорического показателя свя- коэффициента Дайса и трансформированного коэффициента $айса?
Глава 12 РЕГРЕССИЯ 12.1. ПОНЯТИЕ О РЕГРЕССИОННОМ АНАЛИЗЕ Корреляционный анализ дает возможность получить общее пред- ставление о наличии взаимно связанной вариации у признаков и степени тесноты этой связи. Для решения некоторых задач этого бывает вполне достаточно, однако в значительном числе случаев корреляционный анализ может рассматриваться как первый этап в изучении взаимной изменчивости признаков. Следующим этапом таких исследований является определение количественной зависимости между значениями переменных, осуществляемое с помощью регрессионного анализа. Регрессионному анализу может и не предшествовать корреляционный, и не только потому, что первый является вполне самостоятельным анализом, но и в силу того, что условия применимости регрессионного анализа гораздо менее жестки, чем корреляционного. Очень часто значения одного из признаков произвольно подбираются, исходя из задач эксперимента. Вычисление коэффициента корреляции в такой детерминированной модели нельзя считать корректным, но регрессионный анализ здесь обычно может быть использован, так как основное условие правомерности его применимости состоит в том, что для любого заданного значения переменной, взятой в качестве аргумента (независимая переменная), распределение величин второго признака (зависимой переменной) близко к нормальному. Такая модель нередко именуется регрессионной. Очевидно корреляционная модель всегда является и регрессионной, но при этом обратного сказать нельзя. Предположим, имеется ряд сопряженных результатов измерения величины испарения (в мм/сутки) со свободной водной поверхности (х) и с поверхности насыщенной влагой почвы (у) в пределах некоторого участка почвенного покрова: х 0,3 0,3 0,4 0,4 0,4 0,5 0,5 0,6 0,6 0,7 0,7 0,7 0,8 0,8 у 0,4 0,5 0,4 0,6 0,7 0,5 0,7 0,6 0,9 0,6 0,9 1,0 0,9 1,0 Из приведенных данных видно, что при одинаковом испарении с поверхности воды испарение с поверхности почвы в большей или меньшей мере отлично друг от друга. Усредняя значения у, для каждого отдельного значения х получим так называемые условные 260
Кедни< Еаданн г (среднее значение признака Г при условии, что X имеет е у( иное значение): 0,3 0,4 0,5 0,45 0,57 0,60 0,6 0,75 0,7 0,83 0,8 0,95. \ Нанеся на точечный график, отражающий зависимость между х и !* (рис. 12.1), значения у<х\ и соединив соседние точки отрезками прямых, получим некоторую линию, именуемую эмпирической ли- $даей регрессии. Эта линия показьюает, как меняются условные сред- > вие значения испарения с поверхности почвы с изменением испарения со свободной водной поверхности. Очевидно, что любое 4^рачение у,х\, будучи вычисленным на основе выборочных данных, Цсть в действительности лишь случайная оценка некоторого условного среднего \ьу . И этим прежде всего объясняется обычно наблюдаемая изломанность эмпирической линии регрессии. > Изучаемую зависимость ц^ ОТ х с большим или меньшим приближением можно описать уравнением того или иного вида. Вид .зависимости может быть теоретически выведен, но чаще всего о характере связи исследователь нечто узнает лишь в результате проведения эксперимента, и практически всегда математическое описание зависимости представляет собой более или менее удачную аппроксимацию истинной связи. Уравнения, описывающие зависимость между переменными при Корреляционном характере связи, получили название уравнений регрессии. Будучи аппроксимацией, такие уравнения дают возможность получить условное среднее {iy Для заданного значения х, выравненное согласно выбранному виду уравнения регрессии, и поэтому в зависимости от выбора вида уравнения одному и тому же значению х могут соответствовать более или менее совпадающие с истинными условными средними \iy выравненные средние ц . При рассмотрении рис. 12.1, например, в качестве аппроксимирующего очень напрашивается уравнение прямой: 261 . 17* 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 х Рис. 12.1. Эмпирическая (пунктир) и теоретическая линии регрессии испарения влаги из почвы (у) от испарения с водной поверхности (х) - 1; теоретическая линия регрессии х/у - 2
»уи=ау/х+Ру!хх> 02.1) где ау/х и ру1х есть некоторые постоянные величины, именуемые параметрами уравнения регрессии, в данном случае линейной, при условии, что у рассматривается в качестве функции от х, что нашло отражение в индексах при этих коэффициентах. Не располагая всей полнотой информации о случайных величинах х и у мы лишены возможности в точности определить ау/х и $у/х, но оценки ау/х и Ъу/Х для них могут быть получены. При этом уравнение регрессии A2.1) может быть записано: У(х)=ау/х + Ьу/хх, A2.2) где р/х\ - выравненная оценка условного среднего juy . Если в рассматриваемом примере ау/х= 0,16 и Ьу/Х = 0,97, то A2.2) приобретает вид: У(х\- 0,16 + 0,97х. Графически выражение такой зависимости у*х\ от х (в данном случае это прямая линия, см. рис, 12.1) получило название теоретической линии регрессии. Для каждого сопряженного ряда величин X и Y обычно бывает можно найти множество уравнений данного вида (например, уравнений прямой) с несколькими отличными коэффициентами, которые удовлетворительно характеризуют количественную зависимость между изучаемыми признаками. Но среди всех этих уравнений, видимо, может существовать одно, которое в некотором смысле наилучшим образом описывает изучаемую связь. Наиболее часто наилучшими оценками параметров уравнения регрессии считаются такие, которые обеспечивают получение минимальной суммы квадратов отклонений эмпирически найденных значений зависимой переменной у{ от вычисленных по уравнению у*х\: l(tt - У(х,)) = min'' = *> 2> -> п- A2.3) Способ, позволяющий найти оценки параметров уравнения данного вида, удовлетворяющие уравнению A2.3), получил название способа наименьших квадратов. Говорить о существовании связи между признаками можно лишь тогда, когда условные средние одного признака различны для отличающихся значений другого признака. Параметры уравнения регрессии, количественно характеризующие изменение функции с изменением аргумента, получили название коэффициентов регрессии, Таким коэффициентом регрессии, например, является $yjx в уравнении A2.1) или его оценка Ъу/х в уравнении A2.2). Если 262
коэффициент регрессии равен нулю, то функция от соответствующего аргумента не зависит. Так, предположив, что в уравнении A2.1) Ру/х* 0> получим, что fiy -oLyjx при любых значениях х и •При этом все \лу одинаковы и равны \iy. Оценки коэффициентов регрессии никогда не бывают в точности равны нулю, даже если в генеральных совокупностях связь между переменными полностью отсутствует. В связи с этим перед регрессионным анализом встает еще одна задача, а именно выяснить, насколько неслучайно эмпирически полученный коэффициент регрессии отличен от нуля и, следовательно, можно ли утверждать, что связь между признаками реально существует. Критерии, используемые для оценки статистической значимости ' коэффициентов регрессии (значимости отличия их от нуля), требуют соблюдения еще одного дополнительного условия: дисперсии зависимой переменной при различных значениях независимой переменной должны быть одинаковы. Обычно это условие достаточно хорошо соблюдается. Там же, где есть основания предполагать, что это допущение не соответствует действительности, следует провести проверку однородности дисперсий описанными выше способами. 12.2. ПРЯМОЛИНЕЙНАЯ РЕГРЕССИЯ Наиболее простым видом регрессии является линейная регрессия. Такая регрессия легче поддается анализу, а в графическом выражении для такой регрессии проще обнаруживаются все отступления от нее. Не удивительно поэтому, что если есть возможность какими- либо способами свести криволинейную регрессию к прямолинейной, то такие возможности используются. Наиболее часто при этом при- меняется изменение масштаба для одной или обеих переменных, на- пример, путем замены величин на их логарифмы, квадраты, квадратные корни и пр. Вид необходимого преобразования проще выбрать при наличии точечного графика, отражающего зависимость сравниваемых величин Подобрав способ преобразования, позволяющий свести криволинейную регрессионную зависимость к прямолинейной, следует убедиться, что к полученным преобразованным данным регрессинный анализ может быть применен. Если при различных значениях аргумента значения зависимой переменной нельзя считать хотя бы приблизительно распределенными нормально, а тем более, если дисперсии функционального признака при различных значениях аргумента нельзя считать одинаковыми, то регрессионный анализ таких данных корректно выполнен быть не может, даже когда зависимость 263
между преобразованными переменными очень хорошо описывается уравнением прямой. Если аппроксимирующим уравнением берется уравнение прямой вида A2.2), то для отыскания оценок ау/х и Ъу/х нужно иметь систему из двух уравнений. При использовании способа наименьших квадратов коэффициенты ау/х и Ьу/Х находятся путем решения системы уравнений [nay{x+bylxYdx = Idy k/x£-*+V*I*2=2>.y. A2.4) Из этой системы следует, что , _ЪУ п A2.5) иУ/х T*'-{Zx) п ИЛИ Ых =У~Ьу/хХ • A2.7) Из приведенных формул следует, что для нахождения оценок параметров линейной регрессии нужно найти суммы 2дг, Ту, £х2 и Ъху> а дальнейшие вычисления трудностей не представляют. Для примера со скоростью испарения влаги из почвы у в качестве функции от скорости испарения с водной поверхности (х) техника вычислений выгляди! следующим образом (размерность х и у мм/сутки): X 0,3 0,3 0,4 0,4 0,4 0,5 0,5 0,6 0,6 0,7 0,7 0,7 0,8 0,8 1.x = 7,7 У 0,4 0,5 0,4 0,6 0,7 0,5 0,7 0,6 0,9 0,6 0,9 1,0 0,9 Ю Zy = 9,7 xi 0,09 0,09 0,16 0,16 0,16 0,25 0,25 0,36 0,36 0,49 0,49 0,49 0,64 0,64 1*2=4,63 ху 0,12 0,15 0,16 0,24 0,28 0,25 0,35 0,36 0,54 0,42 0,63 0,70 0,72 0,80 Ъху = 5,72 264
,„ 7,7-9,70 V2 — 0385 9,70-0,97-7,7 ... &„/,. = ~i— = = 0,97, av/r = = 0,16. ,« 7,72 0,395 'A 14 14 В уравнении линейной регрессии коэффициенты а и р и их оценки а и Ъ представляют собой размерные величины: свободный член а (и а) имеют размерность функционального признака, коэффициент регрессии C (и Ъ) - отношение размерностей функции к аргументу. Так, в полученном уравнении у<х\ = 0,16 + 0,97х, ау/х = 0,16 мм/сутки и Ъу/Х = 0,97(мм/сутки)/(мм/сутки), т.е. Ъу/Х оказывается в нашем примере безразмерным по причине одинаковости размерностей функции и аргумента. Пользуясь уравнением регрессии можно установить, чему в среднем равно значение зависимой переменной при заданном значении независимой переменной. Есзш коэффициенты в уравнении являются оценками, как это обычно и бывает, то результат вычислений будет оценкой условного среднего. Так, при х = 0,5 получим У(х) = 0,16 + 0,97-0,5 = 0,64 мм/сутки. Следует заметить, что всякое уравнение регрессии имеет определенные границы применимости, В общем случае нельзя уравнение, полученное на основании анализов одной группы объектов (например, подзолистых почв), использовать для прогнозирования значений зависимой переменной другой группы (например, у солонцов). Рискованно также прибегать к уравнению регрессии для оценки значений функционального признака, если значения аргумента выходят за пределы тех значений свойства, по которым уравнение было выведено, поскольку часто те зависимости, которые мы рассматриваем как прямолинейные в действительности являются некоторой частью криволинейной зависимости, отчетливо обнаруживаемой лишь при соответствующем расширении значений аргумента. Именно поэтому, приводя уравнения регрессии, всегда следует указывать область их применимости. Если регрессионный анализ проводится на корреляционной модели, то в качестве функции с равным основанием может быть взят и признак У, и признак X. Этим двум подходам будут соответствовать два уравнения регрессии: у*х\ = ау/х + Ъу/хх и xty\ = ах/у + Ьх/уу. Коэффициент регрессии Ьу/Х в первом из них показывает, насколько изменяется в среднем у при изменении х на единицу измерения, Ьх/у во втором - на сколько изменится в среднем х при изменении у на единицу измерения. 265
На первый взгляд может показаться, что Ьх/у представляет собой обратную величину от Ьу/х. И если, к примеру, Ъу/х = 0,97, то Ьх/у должен быть равен 1/0,97 = 1,03, т.е. при изменении испарения с поверхности почвы на 1 мм/сутки испарение с водной поверхности должно измениться на 1,03 мм/сутки. Легко убедится, что в действительности это далеко не так. Заменив в формуле A2.5) х на у и наоборот и выполнив все вычисления по нахождению необходимых сумм, получим Yxy-LZll 5 72 9'70,7'7 о / — = — = = о,бэ , (У Л2 9 72 0,589 yv2.UJJ_ 7,31- — что существенно отличается от ожидаемого нами значения 1,03. При корреляционных связях абсолютная величина любого коэффициента регрессии всегда меньше обратной величины другого, в силу чего эти коэффициенты и именуются коэффициентами регрессии (от латинского regressio - движение назад). По этой причине недопустимо простыми алгебраическими преобразованиями из уравнения регрессии у по л получать уравнение х по у. Искомые коэффициенты в уравнении регрессии х по у можно получить лишь с помощью формул A2.5-12.7) (похменяв в них д: и у местами). Для нашего примера эта зависимость будет иметь вид: x(yp0,10+0,65j. Соответствующая этой зависимости теоретическая линия регрессии х/у (см.рис.12.1) не совпадает с линией регрессии у/х, и в этом проявляется специфика корреляционной связи. Чем меньше степень линейной связи, тем больше угол между линиями регрессии. При г (или р) = 0 линии регрессии х/у и у/х оказываются взаимно перпендикулярными и идущими параллельно осям координат. При строго функциональной связи (|р| = 1) линии регрессии сливаются в одну. Эти особенности линейной регрессии хорошо вскрываются при рассмотрении взаимосвязи коэффициента регрессии и коэффициента корреляции. Если в формуле A2.5) числитель и знаменатель разделить на // - 1 и обобщить полученное выражение на генеральную двумерную совокупность, то мы получим генеральный коэффициент регрессии в виде covM По аналогии с ним коэффициент регрессии х по у будет представлять собой отношение ковариации величин х и у к дисперсии 266
Из формулы A1.4) видно, что cov{x,y\=paxoy A2.10) и, следовательно, >„*=%> A2Л1) Из рассмотрения последних формул видно, что любой из коэффициентов регрессии может быть равен обратной величине другого только в том случае, когда |р| = I. Из тех же формул следует, что при р = 0 Рух = $х/у = 0, а при р * 0 оба коэффициента регрессии и коэффициент корреляции всегда имеют одинаковый знак. Перемножая коэффициенты регрессии, получим Р>/х"Рх/> =Р2 И Р = /Ру/хРх/у . A2.13) т.е. коэффициент корреляции есть среднее геометрическое- из коэффициентов регрессии. Поскольку всегда |р| < 1, то произведение коэффициентов регрессии не может превышать единицу, что можно использовать для проверки правильности вычислений. Соотношения A2Л 1-12.13) остаются справедливыми и доя оценки соответствующих параметров: Ъу/х=—г\ bx/y=^-r; г = Jby/xbx/y . 02.14) ^х Sy Так дтя рассматриваемого нами примера, согласно формуле A1.13), можно найти, что г = 0,80, а поскольку sx = 0,174 и sv = 0,213, то bv/Y = _ МП .о,80 = 0,97 , bxlv = ^lZi-0,80 = 0,65иг = Д97-0,65 - 0,79 у/х 0I?4 х/у 0,213 V (возможные различия в численном значении оценок, вычисляемых по разным формулам, связаны с округлениями при вычислениях). Следует заметить, что при исследовании корреляционных связей всегда имеется техническая возможность вычисления и коэффициента корреляции и обоих коэффициентов регрессии, но корректность таких вычислений и иитепретируемость результатов корреляционно- регрессионного анализа определяется мерой соответствия изучаемой системы корреляционной или регрессионной моделям. 267
12.3. ЗНАЧИМОСТЬ ПАРАМЕТРОВ ЛИНЕЙНОЙ РЕГРЕССИИ При корреляционных связях уравнения регрессии вида A2.1-12.2) показывают, как в среднем меняется с изменением аргумента среднее значение функции, а не отдельные ее значения. В регрессионной модели, как было отмечено ранее, дисперсия функции при разных значениях аргумента предполагается одинаковой. Тогда отдельные значения функции, например, у в зависимости от аргумента х могут быть описаны уравнением где w - значения случайной величины W, имеющие размерность у, со средним \х^ и некоторой дисперсией a2w ^O1. Соответственно дисперсию функции о2у в этом случае можно представить в виде суммы двух дисперсий, одна из которых о2 связана с зависимостью Д v от х согласно A2. 1), а вторая v2w - с вариацией у(х) возле \ь.у аг'^а2 +а2 02.16) У У[х) w • Для конкретной выборочной реализации, когда формула A2.15) приобретает вид y(xray/x+by/xx+w=y(x)+w, A2.17) и когда у есть оценка среднего, используя принцип дисперсионного анализа, можно общую сумму квадратов СГ=С2У-^(У>-УJ °2Л8) с соответствующим ей числом степеней свободы vT-n- 1 разложить на две составляющих: факториальную Су/Х, связанную с наличием регрессии у/х : СУ/Х=Т,(У(Х)-УJ A2.19) с числом степеней свободы vy/x = 1, и случайную Cw с vw~ n - 2: п W - V A2.20) Очевидно, что при этом Ст = Су/х + Cw и vr = vy/x+ vw. С практической точки зрения, полезно знать, принимая во внимание 1 Иначе говоря, предполагается, что случайные величины uw = при всех х\, л:2, ..., х„ независимы, одинаково распределены (т.е. линейность исчерпывает все связи) и их распределение не сильно отличается от стандартного нормального. 268
обозначения A1.14 - 11.16), что существует ряд равноценных формул доя вычисления С: Cw=C2y-^-, A2.21) Cw=C2y~by/xCxy, A2.22) Cw=(l-r>H2y. A2.23) Рабочие формулы для вычисления Ciy, Сгх, Сху были приведены ранее A1.14-11.16). Сумме квадратов Cw соответствует vw = п - 2, поэтому оценкой дисперсии a2w, характеризующей случайное варьирование отдельных значений yt вокруг линии регрессии у/х, может служить величина л — 2 Среднее квадратическое отклонение sw имеет важное значение для оценки статистической значимости параметров уравнения регрессии а и р по их оценкам а и b и для построения доверительной зоны регрессии. Для регрессии у/х ошибки для awb могут быть получены согласно формулам *w А Z*,2 «£(*/-*) \nCix ■w\^- A2.25) или ъцг *w jZ(x}-xf ^ A2.26) A2.27) Используя эти ошибки, можно оценить статистическую значимость параметров а и р. Проверяемые при этом нулевые и альтернативные гипотезы обычно имеют вид: Но: а = О, Ни а ф 0 и Но: Р = О, Hi: p ф 0. Проверка гипотез осуществляется с использованием критерия Стьюдента: при t < ta считается верной нулевая гипотеза, при t>ta- нулевая гипотеза отвергается в пользу альтернативной. Здесь ta - значение величины t при v = п - 2 и заданном уровне значимости И И a, a t - вычисленное значение: t = — и t = —. *а Sb 269
В рассматриваемом примере с испарением влаги для случая регрессии у/х Сгу = 0,589, Cix = 0,395, Сху = 0,385, откуда по формуле A2.21) Cw =0,589-^y= °>214' ПРИ я = 14 по формуле A2.24), sw - "J = 0,0178 и sw- 0,134. Поскольку ^=4,63, то по форму- 463 лам A2.25) и A2.27) найдем: sa =0,134/ ' =0,123 и у 14-0,395 с °»134 П9П sb = , =0,213. д/0,395 Поскольку при v = 14 - 2 = 12 fo.os = 2,18, а для ау/х- 0,16 и ^v/jc-0,97 г = ——= 1,30 и г = —— = 4,55, то есть основание у 0,123 0,213 утверждать, что §у/х * 0, но в отношении ау/х того же сказать нельзя. Значимость отличия коэффициента регрессии от нуля означает, что условные средние для функционального признака можно считать зависимыми от значений переменной х. Незначимость отличия ау/х от нуля можно рассматривать как свидетельство того, что линия регрессии может проходить через начало координат. В этом случае уравнение линейной регрессии может быть представлено в виде £у(ж)=Р,/** A2.28) и соответственно У(*)=Ьу1*х ' О2-29) где оценка коэффициента регрессии по способу наименьших квадратов вычисляется по формуле 6v/ -2fias^2L. A2.30) y*~Yxi s lx При этом ошибка коэффициента регрессии где sw находится согласно формуле A2.24), а *«*«-£-» <12-31> '2х 270 <W„~&. 02.32)
В нашем примере получим Cw =731—! = 0,243; sw = 0,142; 4,63 Ьу/х 124 Поскольку t = -У— - —— = 18,73 существенно больше Го,о5 =2,18 sb 0,066 (и даже fo.ooi = 4,32), то можно с очень большой уверенностью утверждать, что $у/х * 0. По полученным данным уравнение будет иметь вид: у,х\ - 1,24х. 12.4. АНАЛИЗ КРИВОЛИНЕЙНЫХ СВЯЗЕЙ Прямолинейные связи представляют собой один из наиболее простых видов связей, к тому же далеко не самый распространенный. Гораздо чаще исследователю приходится сталкиваться со связями криволинейными. При этом лишь сравнительно редко вид связи теоретически оказывается предсказуем, и тогда задача сводится к нахождению параметров уравнения регрессии данного известного вида. В большинстве случаев почвовед получает первое представление о характере изучаемой связи после проведения эксперимента. О виде связи в этом случае можно только догадываться, что вынуждает исследователя заниматься подбором наиболее удачного вида уравнения регрессии. Для этого можно брать уравнения разного вида и, определив их параметры, оценивать хотя бы визуально, степень сходства полученных теоретических линий регрессии с эмпирической. Большую помощь в выборе вида уравнений связи при этом оказывает точечный график. Нередко бывает, что несколько уравнений разного вида хорошо описывают характеризуемую связь, но не зная природу взаимосвязи, нельзя с определенностью сказать, какое из этих уравнений более естественно. Удачный подбор уравнения еще не есть основание для утверждений, что изучаемая связь в действительности имеет именно такой вид, что именно это уравнение должно объяснить природу связи. Основной задачей при анализе криволинейных связей является нахождение оценок параметров в уравнении данного вида. Чаще всего оценки параметров отыскиваются по способу наименьших квадратов согласно условию A2.3). Технически наиболее просто Проводятся вычисления по этому способу, когда уравнение регрессии Может быть представлено в виде линейной связи относительно оцениваемых параметров. При этом гребуется решить систему из 271
стольких уравнений, сколько параметров входит в предполагаемое уравнение связи. В общем случае способ получения отдельных урав* нений такой системы состоит в том, что сначала отыскивается об. щий вид уравнений системы, для чего все члены исходного уравне- ния связи последовательно умножаются на коэффициенты при определяемых параметрах, и в результате получается столько уравнений, сколько параметров содержит исходное уравнение. К примеру, в уравнении параболы второго порядка общего вида у = а + Ьх + сх2 требуется определить значения а, Ъ и с. Коэффициенты при этих параметрах соответственно равны 1, х и х2. Умножая все члены исходного уравнения на 1, получим вид первого уравнения системы, умножая на л: - второго, на х2 -третьего: у = а + Ьх + сх2, ух = ах + Ьх2 + сх3, ух2 = ах2 + Ъхг + сх4. Если в каждое из этих уравнений последовательно подставить все пары значений хиу и затем все полученные уравнения одного вида просуммировать, то получится система уравнений, решая которую относительно а, Ъ и с можно получить искомые оценки по способ) наименьших квадратов. Так, если имеется п пар значений х и у, то первое уравнение будет получено в результате суммирования: у{ =a + bx{ +CXJ2 у2 =а + Ьх2 +сх\ yn=a + bxn+cx2n ^Уг ^na + b^Xi+c^Tx? . Аналогичным образом можно получить и другие два уравнения, и тогда система уравнений примет вид |Ел*/=в1^+*1*/2+<£*/ A2.33) Легко убедиться, что такой же способ составления системы использован и в случае линейной регрессии A2.4). 272
Основная вычислительная работа при отыскании оценок пара- яров криволинейной зависимости, как следует из способа состав- ния системы уравнений типа A2.33), связана с нахождением раз- [чных сумм: 2>, 2>2 и др. Для наглядности рассмотрим технику 1числения при аппроксимации связи между величиной наименьшей [агоемкости (х, %) и содержанием в почве физической глины (у,%) >авнением параболы второго порядка (табл. 12.1). Система урав- ш в общем виде для этого случая нами уже получена A2.33). Таблица 12.1 Вычисление сумм для оценки параметров уравнения параболы 2-го порядка (jc - содержание физической глины,%;>> - наименьшая влагоемкость почвы,%) X 2 3 7 5 6 9 6 8 11 19 13 21 24 21 45 56 65 59 65 71 76 592 Z_ 4 7 10 12 13 13 15 15 15 15 18 18 19 22 23 26 26 27 27 29 30 384 х2 4 9 49 25 36 81 36 64 121 361 169 441 576 441 2025 3136 4225 3481 4225 5041 5776 30322 X* 8 27 343 125 216 729 216 512 1331 6859 2197 9261 13824 9261 91125 175616 274625 205379 274625 357911 438976 1863166 х< 16 81 2401 625 1296 6561 1296 4096 14641 130321 28561 194481 331776 194481 4100625 9834496 17850625 12117361 17850625 25411681 33362176 121438222 *£ 8 21 70 60 78 117 90 120 165 285 234 378 456 462 1035 1456 1690 1593 1755 2059 2280 14412 х2у 16 63 490 300 468 1053 540 960 1815 5415 3042 7938 10944 9702 46575 81536 109850 93987 114075 146189 173280 808238 Подставив в нее соответствующие суммы из табл. 12.1 и учитывая, что п = 21, получим [384 = 21а+ 592*+30322с |l4412 = 592a+303226+1863166c [808238 =30322л + 1863166ft+121438222с. Решая эту систему, найдем а = 8,46, Ъ = 0,540, с = -0,00375 и соответственно уравнение регрессии вида: у,х\ = 8,46+0,540л: -0,00375х2. Подставляя в это уравнение содержание физической глины х, **ожно получить усредненную оценку наименьшей влагоемкости Почвы. Например, для х = 20% получим 273
у{х) =8,46 + 0,540-20- 0,00375- 202 =17,7. Изучаемая связь может аппроксимироваться уравнениями разного вида. В целом схема вычислений для оценки параметров уравнений регрессии остается той же, как в рассмотренном нами примере, хотя иногда приходится прибегать к некоторым преобразованиям исходного уравнения, чтобы придать зависимости линейную форму. Ниже приводятся системы уравнений, которые приходится решать для отыскания параметров уравнений регрессии некоторых видов. 1. у = ах + blgx \llyx = a^x2^b^xlgx [Lyigx = <*I>ig*+*>Z(ig*J • 2. у = abx;lgy = lga+xlgb [Xxlgy^lgaZx + lgbZx2. Ъ.у =axb\\gy =lga + blgx fc\gy = n\ga + bZ\gx jsig УЧ x^lgdZXgx + bZ (lg x)\ 4. у - axbecx; In у = In a+bin x + ex fckiy^nhia + bj^hix + c^x \j^lnxlny = lnay£\nx + bY,(lnx) +с%х\пх \£xln у = \па^х + bJ^xkix + cYtX1 Вычисление оценок параметров уравнений регрессии обычно представляет собой достаточно трудоемкую процедуру, особенно если объем корреляционных рядов велик, а число параметров в уравнении регрессии превышает два. Поэтому подобного рода работу целесообразно осуществлять на ЭВМ. 12.5. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ Переменная величина у нередко может рассматриваться в качестве функции к разных величин jci, JC2,..., хк. Значения независимых переменных могут быть заданы исследователем (детерминированная модель), а могут быть получены в результате рандомизированного отбора (рандомизированная, или недетерминированная модель). 274
Если в последнем случае распределение величин Yt Xi, Хг> ..., Хк ^допустимо считать нормальным, то модель считается корреляционной. При числе независимых переменных больше одного регрессионный анализ именуется множественным. Проведение множественного регрессионного анализа вполне корректно осуществимо только в том случае, когда распределение зависимой переменной при различ- * ных фиксированных значениях независимых переменных близко к нормальному и дисперсия зависимой переменной у при различных значениях признаков х может считаться одинаковой. При прямолинейной множественной регрессии, т.е. когда зависимая переменная рассматривается как линейная функция от каждой из независимых переменных, уравнение регрессии имеет вид: У(*>хг-..хк) = а + Ь^ + *№+-+М* > A2.34) где Уихх\- есть оценка условного среднего значения признака Y при данных значениях независимых переменных Х\, Х% ...,ХЬ a a, Ь\, Ьъ ..., Ьк - оценки параметров уравнения регрессии. Систему уравнений, позволяющую отыскивать оценки искомых параметров по способу наименьших квадратов, можно составить согласно правилам, изложенным в предыдущем параграфе, но следует иметь в виду, что при числе независимых переменных, превышающем два (а их число может в некоторых случаях измеряться десятками!), трудность вычисления очень велика и лишь вычисления с помощью ЭВМ по специальным программам дают возможность решить эти задачи. Чтобы рассмотреть особенности множественного регрессионного анализа обратимся к простейшему из уравнений регрессии этого типа, включающему лишь две независимых переменных: У(Х[,хг)=а + ь\^^Ь2х2. A2.35) По способу наименьших квадратов параметры этого уравнения могут быть найдены по формулам: Г .Г -С .Г 1 __ 2х2 ^ухх ^ххх2 ^ух2 С .Г -С2 ^2х} ^2х2 ^х{х2 h - ^2х\ '^У*г ~^*1*г '^УЬ A2.36) D , Г .С -С2 ^2хх ^2х2 ^х,х2 a = y-blxl -b2x2i где у , х{ и х2 - средние арифметические зависимой и независимых переменных, а величины С по аналогии с формулами A1.15-11.16) 275
СЪ ^2х2 Г Wtx2 с с ^ух2 s2x si С Х2 "Л2х2- — l3 v *Ь v- _ С *1 х2 1 - ° х.х, | -*у« — ! С ^*2 ~ ° ух2 ' 2 /2 A237) ГДе 0Х( - 2 Хи ; «>х2 - 2 x2i ' *$> - 2 Уг » ^2х, ~ 2 ХМ » ^2х2 ~ X ^2/ 5 ^х, = ЕУг*м; *V2 = Z>№/; * = i, 2,..., п. Допустим, для черноземных почв некоторого района имеются сведения о величине максимальной гигроскопичности, содержании ила и гумуса. Рассматривая величину максимальной гигроскопичности как зависимую переменную (у), желательно найти уравнение регрессии, отражающее зависимость у от содержания ила (х\) и гумуса (xi). В табл. 12.2 приведены исходные данные и все вычисления, связанные с отысканием необходимых S. Подставляя найденные суммы S в уравнение A2.37) и учитывая, что п = 13, найдем C1Xi -9124 334' 13 = 542,77; С7х = 835,89- 94,72 13 146,04; 334-94 7 С,- =2504,8- ' =71,74; хЛ 'в 1553-947 Cvx =1186,66 --^--^- = 55,36; УХ2 13 Зс, = 334:13 = 25,7 ; х2 = 94,7:13 = 7,28. Отсюда по формулам A2.36): fc, = Cvx =4124,3-155'3'334 =134,28; ух, '13 7 = 155,3:13 = 11,95; 146,04-134,28-71,74-55,36 542,77-146,04-71,742 = 0,21, 542,77-55,36-71,74-134,28 542,77-146,04-71,742 = 0,28, а = 11,95 - 0,21 • 25,7 - 0,28 • 7,28 = 4,5. Следовательно, уравнение регрессии y/xi,X2 имеет вид: У(х„х2) =4,5+0,21*, +0,28х2. 276
Таблица 12.2 Вычисление сумм »Vnpn множественном регрессионном анализе (у - максимальная гигроскопичность, х\ - содержание ила, хг - содержание гумуса; все переменные в % массы сухой почвы) ~!Г У 14,1 13,1 13,7 11,1 12,2 14,0 10,5 14,9 П,4 11,0 13,3 10,5 5,5 155,3 Л'! 31 31 25 32 28 37 29 27 21 19 22 20 12 334 Х2 7,6 7,5 5,1 7,4 7,8 7,7 4,6 И,7 5,8 2,2 13,1 12,2 2,0 94,7 *,2 961 961 625 1024 784 1369 841 729 441 361 484 400 144 9124 х2 Х2 51,16 56,25 26,01 54,76 60,84 59,29 21,16 136,89 33,64 4,84 171,61 148,84 4,00 835,89 Х\Х2 235,6 232,5 127,5 236,8 218,4 284,9 133,4 315,9 121,8 41,8 288,2 244,0 24,0 2504,8 ух\ 437,1 406,1 342,5 355,2 341,6 518,0 304,5 402,3 239,4 209,0 292,6 210,0 66,0 4124,3 ухг 107,16 98,25 69,87 82,14 95,16 107,80 48,30 174,33 66,12 24,20 174,23 128,10 11,00 1186,66 У2 198,81 171,61 187,69 123,21 148,84 196,00 110,25 222,01 129,96 121,00 176,89 110,25 30,25 1926,77 В уравнении множественной регрессии коэффициенты Ь\, Ьг, ..., Ьк являются так называемыми частными коэффициентами регрессии, отражающими зависимость переменной у от одного из признаков хихгУ..,хк при исключении влияния остальных независимых переменных, что можно отобразить индексами у соответствующих коэффициентов регрессии, например, Ьу/ХгХ х х , для частной регрессии у по х\ при исключенном влиянии независимых переменных хг, лз, ..., хк (в индексе они отделены точкой). Так, в рассмотренном нами примере by =by/x^2 =0,21 и b2=by/x^ -0,28. Частные коэффициенты регрессии всегда в той или иной мере отличаются от соответствующих парных коэффициентов регрессии. Так, для рассматриваемого примера легко установить, что С2у =71,53, а поскольку С2Хг = 146,04 и Сух^ - 55,36 , то коэффициент Корреляции между у и хг по формуле A1.13) гу/х = 0,88 . Найдя, что •Уу=2,44, а $Х2 =3,49, получим, согласно формуле A2.14), парный Коэффициент регрессии Ьу/Хг = 0,62, который существенно отличается от аналогичного частного коэффициента регрессии by/X2.Xi = 0,28. Размерность частных коэффициентов регрессии, как и парных Коэффициентов, равна отношению размерности зависимой переменной к размерности соответствующей независимой переменной. 277 18*
При множественной регрессии случайная (остаточная) сумма квадратов Cw может быть найдена по формуле аналогичной A2.22): Cw =С2У -b\cyXx -Ь2Сух2 — '~ЬьСухк' A2.38) Поскольку Cw соответствует число степеней свободы v = п - к -1, то оценка случайной дисперсии 2 ^W 4= f-r- A2.39) n-k-l Располагая величиной s^, можно вычислить ошибки отдельных коэффициентов регрессии sb. В случае двух независимых переменных ошибки s^ и s^ могут быть найдены по формулам ДА = I %с, ' A2-40> \Г* Л1Х2 Поскольку материалы выборочных наблюдений позволяют получать лишь оценки параметров уравнения регрессии, то одной из задач множественного регрессионного анализа является оценка статистической значимости коэффициентов регрессии, т.е. определение значимости отличия отдельных pi, P2, ..., р* от нуля при данных значениях их оценок fci, 62, ..., Ък и соответствующих им ошибок sbi sbi...,sb . Значимость коэффициента регрессии проверяется с помощью статистики t =—. Если t > ta для у = л-/г-1,тос уровнем Ч значимости а соответствуюищй коэффициент регрессии считается значимым (т.е. р * 0), а тем самым признается наличие связи между у и соответствующей независимой переменной. Так, в рассматриваемом примере имеем I 11R4 Cw = 71,58 - 0,21 ■ 134,28 - 0,28 - 55,36 = 27,83, % =J —=1,67, JA = l'61 = 0,074 и t = 0,21 : 0,074 = 2,85, I 71.742 ,542,77--^- V 146,04 278
sK 1,6? = Па14Я и t = 0,28:0,143= 1,92. 71742 Jl46,04---^- V 542,77 Учитывая, что при v = 10 Го,о5 = 2,23, приходим к выводу, что величина максимальной гигроскопичности статистически значимо связана с содержанием ила (х\)> о влиянии же содержания гумуса с заданной уверенностью ничего определенного сказать нельзя. При множественном регрессионном анализе зависимость функции от отдельных аргументов может быть представлена не только линейным видом. Если есть основания для беспокойства, что линейная аппроксимация зависимости у от того или иного аргумента слишком груба, то в уравнение множественной регрессии могут быть введены нелинейные составляющие, и тогда уравнение множественной регрессии будет относиться к нелинейным. Чаще всего нелинейность вводится либо в виде параболических составляющих, либо логарифмических, чтобы сохранить линейность относительно оцениваемых коэффициентов, например в таком виде: у(хих2>х3) = а + Ь{х{ + Ь2х2 +Ьъх\ +Ьлхъ +b5 lgx3. И хотя соблюдение линейности упрощает процедуру вычислений, проведение множественного регрессионного анализа практически всегда является трудоемким процессом, а в случае, когда число оцениваемых параметров превышает 3-4, когда число независимых переменных велико (а оно может иногда измеряться десятками), проведение множественного регрессионного анализа с технической стороны оказывается весьма сложной задачей, решить которую можно лишь с помощью ЭВМ. Но если трудности вычислений в настоящее время сравнительно легко преодолимы при обеспеченности современной вычислительной техникой, то интерпретация результатов статистического анализа всегда остается уделом исследователя, а эта задача подчас не менее сложна, нежели сама техника счета. 12.6. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ В СТАНДАРТИЗОВАННОМ ВИДЕ Частные коэффициенты регрессии отражают количественную зависимость признака, рассматриваемого в качестве функции от значений отдельных независимых переменных. Однако роль каждой из независимых переменных в определении значения зависимой переменной определяется не только величиной коэффициента регрессии, но и тем, как сильно могут меняться значения разных аргументов. 279
Степень участия каждой из независимых переменных в оценке величины функционального признака может быть охарактеризована с о помощью стандартизованных коэффициентов регрессии Ъ, показывающих насколько меняется нормированное отклонение У\х\>х2>">Хк)-~У uv =— зависимой переменной, если нормированное sy X ~~Х отклонение их = одной из независимых переменных меняется на единицу. Уравнение регрессии в стандартизованном масштабе имеет вид: йу = Ь, иХ] +Ь2иХ2 4-...+ Ьд. иХк . A2.42) Вычисление коэффициентов регрессии осуществляется по формулам и h ^ h h ^ h h ^ A2.43) о у о у о у Применение этих коэффициентов должно осуществляться с осторожностью, гак как их обоснованная интерпретация возможна только в случае корреляционной модели (для недетерминированной модели эти коэффициенты могут быть вычислены и при этом они о могут служить оценками для C в генеральной многомерной совокупности, однако интерпретация этих коэффициентов оказывается затруднительной). Так, если в результате проведенного анализа было установлено, что уравнение регрессии, описывающее зависимость удельной теплоты смачивания (у, дж/г почвы) от содержания ила (jci,%), величины максимальной гигроскопичности (х2,%) и содержания гумуса (хз,%) , имеет вид у(хх, л2, хъ) = 1,6 + 0,034х1 +1,7 \хг + 1,25х3, а 5^=7,64, sx =9,40, sX2=2,89 и 5^=2,59, то, допуская, что рассматриваемый пример соответствует корреляционной модели, 940 * 289 получим: Ъ\ = 0,034 -±— = 0,04 ; Ь2 = 1,71 -=- = 0,64 , 7,64 7,64 4=1,25-^ = 0,42. 3 7,64 В стандартизованном масштабе уравнение регрессии приобретает вид йу(х\ = 0,04wX( +0,64wX2 +0,42ыХз. 280
Из этого уравнения видно, что при изменении отдельных аргументов на одно стандартное отклонение функциональный признак (теплота смачивания), измеренный в аналогичных единицах, изменяется далеко не одинаково. Наиболее значительно влияние максимальной гигроскопичносги (х2), и совсем ничтожно влияние содержания ила (х\): на единицу изменения wx значение й / ч меняется в среднем на 0,04. Полезно заметить, что абсолютная величина стандартизованных коэффициентов регрессии не связана с их статистической значимостью. В рассматриваемом примере при п = 20 и ошибках коэффициентов регрессии ^ =0,290, s^ =0,96 и s^ =0,46 из трех аргументов статистически значимое влияние оказывает лишь содержание гумуса (л*з), но стандартизованный коэффициент регрессии при этом признаке на трегь меньше, чем при хг (максимальной гигроскопичности). Если множественный регрессионный анализ проводится на корреляционной модели, можно вычислить множественный коэффициент корреляции R, характеризующий степень связи между зависимой переменной и всеми независимыми переменными: Величина R2 (множественный коэффициент детерминации) при этом оценивает ту долю от общего варьирования признака у, которая обусловлена существованием связи между у и величинами независимых переменных х. 17 8 В рассматриваемом примере R2 = 1 L- = 0,69 и R = 0,83. Ва- JO,J рьирование значений теплоты смачивания на 69% связано с вариацией учтенных в исследовании признаков, а на 31% варьирование происходит под влиянием случайных неучтенных факторов. Квадрат множественного коэффициента корреляции можно представить в виде: r2 =A+dhX^ +^+-"+**;^-dh' A2,45) где ryXx, ryXi, —,ryXk есть парные, вычисленные по формуле A1.2) или A1.3) коэффициенты корреляции между признаками уих\,уи хг> ..., уихк. Если объем множественной модели п достаточно велик, а число независимых переменных к настолько мало, что отношение 281
л-1 допустимо считать практически равным единице, и соответ- п-к-1 ственно величиной можно пренебречь, то R2 с достаточным n-fc-1 приближением можно оценить по выражению Л2 =I_CV_> A246) С2у При этом доля участия каждой из независимых переменных лл, хг, ..., лА (при исключенном влиянии всех остальных) в создании общего о варьирования признака у будет оцениваться величинами bx ryx^ 5 о о b2ryXi , ...,bkryx , а в сумме они дадут оценку доли вариабельности признака у, обусловленной влиянием всех учитываемых независимых признаков х: R? = Ъ, гуХ] +Ь2 гуХг +...+Ьк гуХк . (*2.47) В нашем примере коэффициенты корреляции между уихихгихъ соответственно равны: гух - 0,60 гух = 0,76 и гух = 0,54. Согласно формуле A2.47) получаем R; =0,04-0,60 + 0,64-0,76 + 0,42.0,54 = 0,024 + 0,486 + 0,227 = 0,74. В рассматриваемом примере п очень невелико, в силу чего формула A2.47) дает преувеличенное представление о той роли, которую играют как отдельные независимые переменные, так и учитываемые факторы в целом в варьировании значений у. Однако даже в данном случае расхождения между коэффициентами детерминации R2 = 0,69 и Rl = 0,74 не настолько велики, чтобы пренебречь возможностью оценки относительной доли участия отдельных факторов в создании вариабельности зависимой переменной. Из разложения R% видно, что около 49% варьирования значений теплоты смачивания связано с вариацией максимальной гигроскопичности, около 23% - с вариацией содержания гумуса и лишь 2% (в принципе об этом вообще не стоит и упоминать) - с вариацией содержания ила. Статистическую значимость множественной регрессии (корреляции) можно оценить с помощью статистики F, если найти отношение оценки Sy/X x х^ дисперсии, обусловленной существованием регрессии у по переменным х\, хг> ..., хк , к оценке s]y случайной дисперсии: 282
«2 F syi*x>x2'-x* A2.48) *w где Л =С^>^^ t A2.49) к a Cy/x„x2)..,x, =^2^ ~Cw • A2.50) Если F >Fa для vi = /cHV2 = fl-A:- 1, то связь между у и хотя бы одним из аргументов признается статистически значимой. В нашем примере С2у = 1108 , Cw = 285 и Су/х|Х 1>х, = 1108 - 285 = 823 = 823. Поскольку /с = 3, то •?*/* Х2,х3 = = 274. Учитьгоая, что s2w =17,8, получим F = -z-r= 15,4. При л = 20 и 17,8 к = 3 vi = 3 и V2 = 16. Пользуясь табл. V Приложения узнаем, что при таких числах степней свободы для а = 0,01 F = 5,3, что существенно меньше полученного нами. Следовательно, практически с полной уверенностью можно утверждать, что теплота смачивания связана с учитываемыми признаками (или хотя бы с одним из них). 12.8. ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ РЕГРЕССИОННОГО АНАЛИЗА Регрессионный анализ - весьма эффективное средство познания изучаемых явлений, однако всегда нужно иметь в виду, что интерпретация результатов такого анализа должна проводиться с большой осторожностью и со знанием специфики предмета исследования. Прежде всего нельзя упускать из вида то важное обстоятельство, что ни корреляционный, ни регрессионный анализ не вскрывают в явном виде причинно-следственные отношения между изучаемыми признаками. Нахождение функции по известному аргументу может иметь смысл как определения следствия по известной причине, так и причины, вызвавшей известное следствие. Примером первого служит уравнение регрессии влажности завядания (у) по величине максимальной гигроскопичности (х): у(х) = 2,34 + 1,41*. Оценкой причины (влажности почвы, у,%) по известному следствию (электропроводности, х, ом1) служит уравнение Я*) = Ю,2 + 3-104х. 283
В некоторых случаях вообще бывает трудно указать, что есть причина, а что следствие, как, например, при изучении зависимости между объемом агрегатов и их массой. Иногда наличие той или иной связи между признаками вызвано их зависимостью от некоторого фактора, оставшегося в рамках проведенного эксперимента "за скобками". Так, возможная связь между твердостью почвы и объемом пор аэрации может быть следствием зависимости и того и другого от влажности. Явно недооцениваемые трудности в интерпретации результатов регрессионного анализа связаны с тем, что в почвоведении изучаемые зависимости обычно представляют собой "вырезку" из весьма сложной цепи взаимосвязанных явлений, в силу чего учитываемые факторы, выступающие в качестве аргументов функции, берут на себя обязанности отразить влияние многих других факторов, нами не учитываемых. По этой причине коэффициенты регрессии при тех или иных аргументах практически никогда не отражают в чистом виде роль соответствующих факторов, что существенно затрудняет интерпретацию коэффициентов регрессии. Для иллюстрации этого методологически важного положения обратимся к примеру, рассмотренному в 12.5. При анализе связи между величиной максимальной гигроскопичности (у) и содержанием ила (х\) и гумуса (xi) мы нашли, что ух х = 4,5+0,2 Ь^ +0,28л: 2. Из этого уравнения следует, что каждый процент гумуса изменяет максимальную гигроскопичность на 0,28%. Если исключить из рассмотрения содержание ила, то уравнение регрессии примет вид: ух = 7,4 +0,62л: 2, здесь каждый процент гумуса приводит к изменению максимальной гигроскопичности в среднем на 0,62%. Еще более удивительный результат получается, если наряду с илом и гумусом учесть влияние суммы обменных оснований (хз): Ух„х2,хг =2,7 + 0Д2х1 +0,03х2 +0,13*3. Согласно этому уравнению, содержание гумуса практически не влияет на максимальную гигроскопичность почвы. Стоит заметить, что при этом меняются не только абсолютные значения коэффициентов регрессии, но и их статистическая значимость. Исследователь почти всегда не может учесть влияние всех факторов, связанных с функциональным признаком, в силу чего всегда имеется опасность преуменьшения или преувеличения роли того или иного фактора, а из приведенного примера видно, сколь могут быть велики различия в коэффициентах регрессии. В большинстве случаев получающиеся результаты регрессионного анализа не противоречат логике изучаемого явления, в силу чего интерпретация результатов выглядит вполне правдоподобной и 284
даже убедительной. Но не следует забывать, что правдоподобность еще не есть свидетельство соответствия действительности. Необходимость осторожности в интерпретации результатов бывает очевидна лишь в том случае, когда получающаяся связь выглядит противоречащей здравому смыслу. Так, для степных почв Крыма урожайность зерновых (у, ц/га) связана с запасом в почве подвижного фосфора в пересчете на Р2О5 (х, т/га) уравнением Я*) = 21,7-8,9х. Поскольку отрицательная зависимость между урожайностью и содержанием фосфора представляется странной, исследователь догадывается, что здесь что-то не так, и по размышлении устанавливает, что во всем виновата солонцеватость почв, которая повышает подвижность фосфора, но в то же время снижает урожай. Повышение содержания подвижного фосфора в почве может оказывать положительное влияние на урожайность, но отрицательное влияние солонцеватости такое влияние маскирует. Для прогноза урожайности по содержанию подвижного фосфора последнее уравнение пригодно, но оно, очевидно, не годится для разработки приемов активного воздействия на урожай, и не только потому, что для повышения урожая нужно было бы извлекать фосфор из почвы. Дело в том, что если бы из уравнения следовали более естественные и более выполнимые рекомендации по управлению функцией, это еще не означает, что наши попытки управления оказались бы эффективными. Ведь отрицательная связь урожая с запасами подвижного фосфора вполне закономерна, но даже если бы мы сумели убрать какое-то количество фосфора из почвы, урожайность вряд ли бы возросла, так как в изучаемой природной обстановке урожайность снижается с ростом содержания фосфора не благодаря этому росту, а несмотря на этот рост. И подобные подчас неожиданные ситуации могут возникать в казалось бы вполне понятных и легко анализируемых условиях. Именно по этой причине уравнения регрессии оказываются пригодными для прогноза функции по известным значениям аргументов в условиях, аналогичных тем, в которых собирался фактический материал для построения уравнения, но они с большой осторожностью могут быть использованы для целей разработки методов управления функциональным признаком путем воздействия на признаки, выступающие в качестве аргументов. 285
Вопросы для самоконтроля. 1. Какой анализ называется регрессионным и какое у него назначение? 2. В чем проявляется сходство и различие эмпирической и теоретической линий регрессии? 3. Какими качествами обладают оценки параметров уравнения регрессии, найденные по способу наименьших квадратов? 4. В чем отличие корреляционной модели от регрессионной? 5. Для чего используются уравнения регрессии и что регламентируют условия их применения? 6. Когда и почему при линейной регрессии коэффициент регрессии х по у не равен обратной величине коэффициента регрессии у по х(ьх,у*уьу,ху> 7. Есть ли ограничения на величину и знак произведения коэффициентов линейной регрессии ьу1х-ьх1у и что такое произведение показывает? 8. Как проверяется значимость параметров уравнения регрессии? 9. В чем отличие линейной регрессии от крив о линейной? 10. Что показывают коэффициенты регрессии в уравнении множественной регрессии и какова их размерность? 11. Каковы особенности использования и интерпретации уравнений множественной регрессии в стандартизованном виде? 12. Какой смысл имеет коэффициент множественной корреляции и как он связан с парными коэффициентами корреляции? 13. В какой мере уравнения регрессии отражают причинно- следственные отношения между признаками? 14. Как и для решения какого рода задач можно использовать уравнения регрессии? 15. В чем заключаются трудности интерпретации результатов регрессионного анализа?
ПРИЛОЖЕНИЯ
Таблица случайных чисел B500 случайных цифр) Таблица I 00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 00-04 54463 15389 85941 61149 05219 41417 28357 17783 40950 82995 96754 34357 06318 62111 47534 98614 24856 96887 90801 55165 75884 16777 46230 42902 81007 68089 20411 58212 70577 94522 42626 16051 08244 59497 97155 98409 45476 89300 50051 31753 79152 44560 68328 46939 83544 91621 91896 55751 85156 07521 OS-OQ 22662 85205 40756 69440 81619 98326 94070 00015 84820 64157 17676 88040 37403 52820 09243 75993 03648 12479 21472 77312 12952 37116 43877 66892 00333 01121 67081 13160 42866 74358 86819 33763 27647 04392 13428 66162 84882 69700 95137 85178 53829 38750 83378 38689 86141 00881 67126 62515 87689 56898 10-14 65905 18850 82414 11286 10651 87719 20652 10806 29881 66164 55659 53364 49927 07243 67879 84460 44898 80621 42815 83666 84318 58550 80207 46134 39693 51111 89950 06468 24969 71659 85651 57194 33851 09419 40293 95763 65109 50741 91631 31310 77250 8635 63369 58625 15707 04900 04151 21108 95493 12236 1S-1Q 70639 39226 02015 88218 67079 92294 35774 83091 85966 41180 44105 71726 57715 79931 00544 62846 09351 66223 77408 36028 95108 42958 88877 01432 28039 72373 16944 15718 61210 62038 88678 16752 44705 89964 09985 47420 96597 30329 66315 89642 20190 56540 71381 08342 86256 54224 03795 80830 88842 60277 ?о-?д 79365 42249 13858 58925 92511 46614 16249 91530 62800 10089 47361 45690 50423 89292 23410 59844 98795 86085 37390 28420 72305 21460 89380 94710 10154 06902 93054 82627 76046 79643 17401 54450 94211 51211 58434 20792 25930 11658 91428 98364 56535 64900 39564 30459 23068 46177 59077 02263 00664 39102 ?S-?Q 67382 90669 78030 03638 59888 50948 75019 36466 70326 41757 34833 66334 67372 84767 12740 14922 18644 78285 76766 70219 64620 43910 32992 23474 95425 74373 87687 76999 67699 79169 03252 19031 46716 04894 01412 61527 66790 23166 12275 02306 18760 42912 05615 85863 13782 55309 11848 29303 55017 62315 Ч0-Я4 29085 96325 16269 52862 84502 64886 21145 39981 84740 78258 86679 60332 63116 85693 02540 48730 39765 02432 52615 81369 91318 01175 91380 20423 39220 96199 96693 05999 42054 44741 99547 58580 11738 72882 69124 20441 65706 05400 24816 24617 69942 13953 42451 20781 08467 17852 12630 37204 55539 12239 3S-™ 69831 23248 65978 62733 72095 20002 05217 62481 62660 96488 23930 22554 48888 73947 54440 73443 71058 53342 32141 41943 89872 87894 03164 60137 19774 97017 87236 58680 12696 05437 32404 47629 55784 17805 82171 39435 61203 66669 68091 09609 77448 79149 64559 09284 89469 27491 98375 96926 17771 07105 40-44 47058 60933 01385 33451 83463 97365 47286 49177 77379 88629 53249 90600 21505 22278 32949 48167 90368 42846 30268 47366 45375 81378 98656 60609 31782 41273 77054 96739 93758 39038 17918 54132 95374 21896 59058 11859 53634 48708 71710 83942 33278 18710 97501 26333 93842 89415 52068 30506 69448 11844 4S-4Q 08186 26927 15345 77455 75577 30976 76305 75779 90279 37231 27083- 71113 80182 11551 13491 34770 44104 94771 18106 41067 85436 10620 59337 13119 49037 21546 33848 63700 03283 13163 62880 60631 72655 83864 82859 41567 22557 03887 33258 22716 48805 ^861^ 65747 91777 55349 23466 60142 09808 87530 01117
Таблица П Интеграл вероятности F(z) = , J в dz л/2я _оо (вероятность P(zi<z) = F(z); ноль целых и запятая опущены) у. -3,9 -3,8 -3,7 -3,6 -3,5 -3,4 -з,з -3,2 -3,1 -3,0 -2,9 -2,8 -2,7 -2,6 -2,5 -2,4 -2,3 -2,2 -2,1 -2,0 -1,9 -1,8 -1,7 -U6 -1,5 -1,4 -1,3 -1,2 -1,1 -1,0 -0,9 -0,8 -0,7 -0,6 -0,5 -0,4 -0,3 -0,2 -0,1 -0,0 0,00 00005 00007 00011 00016 00023 00034 00048 00бб9 00097 00135 00187 00256 00347 00466 00621 00820 01072 01390 01786 02275 02872 03593 04457 05480 06681 08076 09680 П507 13567 15866 18406 21186 24196 27425 30854 34458 38209 42074 46017 50000 0,01 00005 00007 00010 00015 00022 00032 00047 00066 00094 00131 00181 00248 00336 00453, 00604 00798 01044 01355 01743 02222 02807 03515 04363 05370 06552 07927 09510 11314 13350 15625 18141 20897 23885 27093 30503 34090 37828 41683 45620 49601 0,07 00004 00007 00010 00015 00022 00031 00045 00064 00090 00126 00175 00240 00326 00440 00587 00776 01017 01321 01700 02169 02743 03438 04272 05262 06426 07780 09342 11123 13136 15386 17879 20611 23576 26763 30153 33724 37448 41294 45224 49202 о,оя 00004 00006 00010 00014 00021 00030 00043 00062 00087 00122 00170 00233 00317 00427 00570 00755 00990 01287 01659 02118 02680 03362 04182 05155 06301 07636 09176 10935 12924 15150 17619 20327 23270 26435 29806 33360 37070 40905 44828 48803 0,04 00004 00006 00009 00014 00020 00029 00042 00060 00084 00118 00164 00226 00308 00414 00554 00734 00964 01255 01618 02068 02619 03288 04093 05050 06178 07993 09012 10749 12714 14917 17361 20045 22965 26109 29460 32997 36693 40516 44433 48405 0,05 00004 00006 00009 00013 00019 00028 00040 00058 00082 00114 00159 00219 00298 00402 00539 00714 00939 01222 01578 02018 02559 03216 04006 04947 06057 07353 08851 10565 12507 14686 17106 19766 22663 25785 29116 32697 36317 40129 44038 48006 0;06 00004 00006 00008 00013 00019 00027 00039 00056 00079 00111 00154 00212 00289 00391 00523 00695 00914 01191 01539 01970 02500 03144 03920 04846 05938 07214 08692 10384 12302 14457 16853 19489 22363 25463 28774 32276 35942 39743 43644 47608 0,07 00004 00005 00008 00012 00018 00026 00038 00054 00076 00107 00149 00205 00280 00379 00508 00676 00889 01160 01500 01923 02442 03074 03836 04746 05821 07078 08534 10204 12100 14231 16602 19215 22065 25143 28434 31918 35569 39358 43250 47210 0,08 00003 00005 00008 00012 00017 00025 00036 00052 00074 00104 00144 00199 00272 00368 00494 00657 00866 01130 01463 01876 02385 03005 03754 04648 05705 06944 08379 10027 11900 14007 16354 18943 21770 24825 28096 31561 35197 38974 42858 46812 0,00 00003 00005 00008 00011 00017 00024 00035 00050 00071 00100 00140 00193 00264 00357 00480 00639 00842 01101 01426 01831 02330 02938 03673 04551 05592 068 U 08226 09852 11702 13786 16109 18673 21476 24510 27760 31207 34827 38591 42466 46416 289
Таблица П. Окончание 7. 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 us 1,6 1J 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 0,00 50000 53983 57926 61791 65542 69146 72575 75804 78814 81594 84134 86433 88493 90320 91924 93319 94520 95543 96407 97128 97725 98214 98610 98928 99180 99379 99534 99653 99744 99813 99865 99903 99931 99952 99966 99977 99984 99989 99993 99995 0,01 50399 54380 58317 62172 65910 69497 72907 76115 79103 81859 84375 86650 88686 90490 92073 93448 94630 95637 96485 97193 97778 98257 98645 98956 99202 99396 99547 99664 99752 99819 99869 99906 99934 99953 99968 99978 99985 99990 99993 99995 0,0? 50798 54776 58706 62552 66276 69847 73237 76424 79389 82121 84614 86864 88877 90658 92220 93574 94738 95728 96562 97257 97831 98300 98679 98983 99224 99413 99560 99674 99760 99825 99874 99910 99936 99955 99969 99978 99985 99990 99993 99996 0,0Т 51197 55172 59095 62930 66640 70194 73565 76730 79673 82381 84850 87076 89065 90824 92364 93699 94845 95818 96638 97320 97882 98341 98713 99010 99245 99430 99573 99683 99767 99831 99878 99913 99938 99957 99970 99979 99986 99990 99994 99996 0,04 51595 55567 59483 63307 67003 70540 73891 77035 79955 82639 85083 87286 89251 90988 92507 93822 94950 95907 96712 97381 97932 98382 98745 99036 99266 99446 99585 99693 99774 99836 99882 99916 99940 99958 99971 99980 99986 99991 99994 99996 0,05 51994 55962 59871 63683 67364 70884 74215 77337 80234 82894 85314 87403 89435 91149 92647 93943 95053 95994 96784 97441 97982 98422 98778 99061 99286 99461 99598 99702 99781 99841 99886 99918 99942 99960 99972 99981 99987 99991 99994 99996 0,06 52392 56356 60257 64058 67724 71226 74537 77637 80511 83147 85543 87698 89617 91308 92786 94062 95154 96080 96856 97500 98030 98461 98809 99086 99305 99477 99609 99711 99788 99846 99889 99921 99944 99961 99973 99981 99987 99992 99994 99996 007 52790 56749 60642 64431 68082 71566 74857 77935 80785 83398 85769 87900 89796 91466 92922 94179 95254 96164 96926 97558 98077 98500 98840 99П1 99324 99492 99621 99720 99795 99851 99893 99924 99946 99962 99974 99982 99988 99992 99995 99996 0,08 53188 57142 61026 64803 68439 71904 75175 78230 81057 83646 85993 88100 89973 91621 93056 94295 95352 96246 96995 97615 98124 98537 98870 99134 99343 99506 99632 99728 99801 99856 99896 99926 99948 99964 99975 99983 99988 99992 99995 99997 Q0Q 53586 57535 61409 65ПЗ 68793 72240 75490 78524 81327 83891 86214 88298 90147 91774 93189 94408 95449 96327 97062 97670 98169 98574 98899 99158 99361 99520 99643 99736 99807 99861 99900 99929 99950 99965 99976 99983 99989 99992 99995 99997
Таблица Критические значения статистики Стьюдента ta при различном числе степеней свободы v; вероятность = а V 1 2 3 4 5 6 7 8 9 10 П 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 оо 0,50 1,00 0,82 0,76 0,74 0,73 0,72 0,71 0,71 0,70 0,70 0,70 0,70 0,69 0,69 0,69 0,69 0,69 0,69 0,69 0,69 0,69 0,69 0,68 0,68 0,68 0,68 0,68 0,68 0,68 0,68 0,68 0,68 0,68 0,67 0,20 3,08 1,89 1,64 1,53 1,48 1,44 1,42 1,40 1,38 1,37 1,36 1,36 1,35 1,34 1,34 1,34 1,33 1,33 1,33 1,32 1,32 1,32 1,32 1,32 1,32 1,32 1,31 1,31 1,31 1,31 1,30 1,30 1,29 1,28 Уровень 0,10 6,31 2,92 2,35 2,13 2,02 1,94 1,90 1,86 1,83 1,81 1,80 1,78 1,77 1,76 1,75 1,75 1,74 1,73 1,73 1,72 1,72 1,72 1,71 1,71 1,71 1,71 1,70 1,70 1,70 1,70 1,68 1,67 1,66 1,64 0,05 12,71 4,30 3,18 2,78 2,57 2,45 2,36 2,31 2,26 2,23 2,20 2,18 2,16 2,14 2,13 2,12 2,11 2,10 2,09 2,09 2,08 2,07 2,07 2,06 2,06 2,06 2,05 2,0S 2,04 2,04 2,02 2,00 1,98 1,96 значимости а 0,02 31,82 6,96 4,54 3,75 3,36 3,14 3,00 2,90 2,82 2,76 2,72 2,68 2,65 2,62 2,60 2,58 2,57 2,55 2,54 2,53 2,52 2,51 2,50 2,49 2,48 2,48 2,47 2,47 2,46 2,46 2,42 2,39 2,36 2,33 0,01 63,66 9,92 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,11 3,06 3,01 2,98 2,95 2,92 2,90 2,88 2,86 2,84 2,83 2,82 2,81 2,80 2,79 2,78 2,77 2,76 2,76 2,75 2,70 2,66 2,62 2,58 0,002 318,3 22,33 10,21 7,17 5,89 5,21 4,78 4,50 4,30 4,14 4,02 3,93 3,85 3,79 3,73 3,69 3,65 3,61 3,58 3,55 3,53 3,50 3,48 3,47 3,45 3,44 3,42 3,41 3,40 3,38 3,30 3,23 3,16 3,09 0,001 636,6 31,60 12,94 8,61 6,86 5,06 5,40 5,04 4,78 4,59 4,44 4,32 4,22 4,14 4,07 4,02 3,96 3,92 3,88 3,85 3,82 3,79 3,77 3,74 3,72 3,71 3,69 3,67 3,66 3,65 3,55 3,46 3,37 3,29 291
Таблица Квантили распределения х2 (вероятность Р( %2 > Ха ) = а) V 1 2 3 4 5 6 7 8 9 10 Н 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 0,995 0,0439 0,010 0,072 0,21 0,41 0,68 0,98 1,34 1,74 2,16 2,60 3,07 3,57 4,08 4,60 5,14 5,69 6,27 6,84 7,43 8,03 8,64 9,26 9,89 10,52 11,16 11,81 12,46 13,12 13,79 14,46 15,13 15,82 16,50 17,19 17,89 18,59 19,29 19,99 20,71 0,990 0,0316 0,020 0,115 0,30 0,55 0,87 1,24 1,65 2,09 2,59 3,05 3,57 4,11 4,66 5,23 5,81 6,42 7,02 7,63 8,26 8,89 9,54 10,19 10,86 11,52 12,19 12,88 13,57 14,26 14,95 \5,66 16,36 17,07 17,79 18,51 19,23 19,96 20,69 21,43 22,16 Уровень значимости а 0,975 0,0398 0,051 0,22 0,48 0,83 U24 1,69 2,18 2,70 3,24 3,82 4,40 5,01 5,63 6,26 6,91 7,56 8,23 8,91 9,59 10,28 10,98 11,69 12,40 13,12 13,84 14,57 15,31 16,05 16,79 17,54 18,29 19,05 19,81 20,57 21,34 22,11 22,88 23,65 24,43 0,950 0,0239 0,103 0,35 0,71 1,15 1,64 2,17 2,73 3,33 3,94 4,58 5,23 5,89 6,57 7,26 7,96 8,67 9,39 10,12 10,85 11,59 12,33 13,09 13,85 14,61 15,38 16,15 16,93 17,71 18,49 19,28 20,07 20,87 21,66 22,47 23,27 24,08 24,88 25,69 26,51 0,050 3,84 5,99 7,82 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,69 24,99 26,29 27,59 28,87 30,14 31,41 32,61 33,93 35,17 36,42 37,65 38,89 40,11 41,34 42,56 43,77 44,99 46,19 47,40 48,60 49,80 50,99 52,19 53,38 54,57 55,76 0,025 5,02 7,38 9,35 11,14 12,83 14,45 16,01 17,54 19,02 20,48 21,92 23,34 24,74 26,12 27,49 28,85 30,19 31,53 32,85 34,17 35,48 36,78 38,08 39,36 40,65 41,92 43,19 44,46 45,72 46,98 48,23 49,48 50,73 51,97 53,20 54,44 55,67 56,89 58,12 59,34 0,010 6,64 9,21 11,35 13,28 15,09 \6,8\ 18,48 20,09 21,67 23,21 24,73 26,22 27,69 29,14 30,58 32,00 33,41 34,81 36,12 37,57 38,93 40,29 41,64 42,98 44,61 45,64 46,96 48,28 49,59 50,89 52,20 53,48 54,78 56,06 57,34 58,62 59,89 61,16 62,43 63,69 0,005 7,88 10,60 12,84 14,86 16,75 18,55 20,28 21,96 23,59 25,19 26,76 28,30 29,82 31,32 32,80 34,27 35,72 37,16 38,58 39,99 41,40 42,79 44,18 45,56 46,93 48,29 49,65 50,99 52,34 53,67 55,00 56,33 57,65 58,96 60,28 61,58 62,88 64,18 65,48 66,77
Таблица V Критические значения Fa для а = 0,01 (верхнее число) и а = 0,05 (нижнее число) в зависимости от числа степеней свободы vi (числителя) и \г (знаменателя). Вероятность P(F> Fa) = a V2 1 2 3 4 5 6 7 8 9 10 11 12 14 16 20 24 ' 30 40 50 75 100 200 500 qq 1 4052 4999 5403 5625 5764 5859 5928 5981 6022 6056 6082 6106 6142 6169 6208 6234 6258 6286 6302 6323 6334 6352 6361 6366 161 200 216 225 230 234 237 239 241 242 243 244 245 246 248 249 250 251 252 253 253 254 254 254 2 98,5 99,0 99,2 99,2 99,3 99,3 99,3 99,4 99,4 99,4 99,4 99,4 99,4 99,4 99,5 99,5 99,5 99,5 99,5 99,5 99,5 99,5 99,5 99,5 18,5 19,0 19,2 19,2 19,3 19,3 19,4 19,4 19,4 19,4 19,4 19,4 19,4 19,4 19,4 19,4 19,5 19,5 19,5 19,5 19,5 19,5 19,5 19,5 3K4,1 30,8 29,5 28,7 28,2 27,9 27,7 27,5 27,4 27,2 27,1 27,1 26,9 26, В 26,7 26,6 26,5 26,4 26,4 26,3 26,2 26,2 26,1 26,1 10,1 9,6 9,3 9,1 9,0 8,9 8,9 8,8 8,8 8,8 8,8 8,7 8,7 8,7 8,7 8,6 8,6 8,6 8,6 8,6 8,6 8,5 8,5 8,5 4 21,2 18,8 16,7 16,0 15,5 15,2 15,0 14,8 14,7 14,6 14,5 14,4 14,2 14,1 14,0 13,9 13,8 13,7 13,7 13,6 13,5 13,5 13,5 13,5 7.7 6,9 6,6 6,4 6,3 6,2 6,1 6,0 6,0 6,0 5,9 5,9 5,9 5,8 5,8 5,8 5,7 5,7 5,7 5,7 5,7 5,7 5,6 5,6 5 16,3 13,3 12,1 11,0 11,0 10,7 10,5 10,3 10,2 10,1 10,0 9,9 9,8 9,7 9,6 9,5 9,4 9,3 9,2 9,1 9,1 9,1 9,0 9,0 6,6 5,8 5,4 5,2 5,1 5,0 4,9 4,8 4,8 4,7 4,7 4,7 4,6 4,6 4,6 4,5 4,5 4,5 4,4 4,4 4,4 4,4 4,4 4,4 6 13,4 10,9 9,8 9,2 8,8 8,5 8,3 8,1 8,0 7,9 7,8 7,7 7,6 7,5 7,4 7,3 7,2 7,1 7,1 7,0 7,0 6,9 6,9 6,9 6.0 5,1 4,8 4,5 4,4 4,3 4,2 4,1 4,1 4,1 4,0 4,0 4,0 3,9 3,9 3,8 3,8 3,8 3,8 3,7 3,7 3,7 3,7 3,7 7 N2 3 9,6 8 5 7,9 7,5 7,2 7,0 6,8 6,7 6,6 6,5 6,5 6,4 6,3 6,2 6,1 6,0 5,9 5,9 5,8 5,8 5,7 5,7 5,7 5 6 4 7 4*4 4 1 4,0 3,9 3,8 3,7 3,7 3,6 3,6 3,6 3,5 3,5 3,4 3,4 3,4 3,3 3,3 3,3 3,3 3,3 3,2 3,2 8 П,3 8,7 1,6 7,0 6,6 6,4 6,2 6,0 5,9 5,8 5,7 5,7 5,6 5,5 5,4 5,3 5,2 5,1 5,1 5,0 5,0 4,9 4,9 4,9 5,3 4,6 4,1 3,8 3,7 3,6 3,5 3,4 3,4 3,3 3,1 3,3 3,2 3,2 3,2 3, 1 3, 1 3, 1 3,0 3,0 3,0 3,0 2,9 2,9 9 10,6 8,0 7,0 6,4 6,1 5,8 5,6 5,5 5,4 5,3 5,2 5,1 5,0 4,9 4,8 4,7 4,6 4,6 4,5 4,5 4,4 4,4 4,3 4,3 5.1 4,3 3,6 3,6 3,5 3,4 3,3 3,2 3,2 3,1 3,1 3,1 3,0 3,0 2,9 2,9 2,9 2,8 2,8 2,8 2,8 2,7 2,7 2,7 10 10,0 7,9 6,6 6,0 5,6 5,4 5,2 5,1 5,0 4,9 4,8 4,7 4,6 4,5 4,4 4,3 4,3 4,2 4, 1 4, 1 4,0 4,0 3,9 3,9 5 0 4,1 3,7 3,5 3,3 3,2 3,1 3,1 3,0 2,0 2,9 2,9 2,9 2,8 2,8 2,7 2,7 2,7 2,6 2,6 2,6 2,6 2,6 2,5 U 9,7 7,2 6,2 5,7 5,3 5,1 4,9 4,7 4,6 4,5 4,5 4,4 4,3 4,2 4, 1 4,0 3,9 3,9 3,8 3,7 3,7 3,7 3,6 3,6 4.8 4,0 3,6 3,4 3,2 3,1 3,0 3,0 2,9 2,9 2,8 2,8 2,7 2,7 2,7 2,6 2,6 2,5 2,5 2,5 2,5 2,4 2,4 2,4 12 9,3 6,9 6,0 5,4 5,1 4,8 4,7 4,5 4,4 4,3 4,2 4,2 4,1 4,0 3,9 3,8 3,7 3,6 3,6 3,5 3,5 3, 4 3,4 3,4 4 8 3,9 3,5 3,3 3,1 3,0 2,9 2,9 2,8 2,8 2,7 2,7 2,6 2.6 2.5 2,5 2,5 2,4 2,4 2,4 2,4 2,3 2,3 2,3
Таблица V. Продолжение V2 1 2 3 4 5 6 7 8 9 10 11 12 14 16 20 24 30 40 50 75 100 200 500 оо 13 9,1 6/7 5J il 4^9 4^6 М 43 4~2 4Л 4~0 4,0 3,9 3,8 3,7 3,6 3,5 3,4 3,4 3,3 зГз V3 572 зГГ" 4,7 3,8 3,4 3,2 3,0 2,9 2,8 2,8 2,7 2,7 2,6 2,6 2,6 2,5 2,5 2,4 2,4 2,3 2,3 2,3 2,3 2,2 2,2 2,2 14 8,9 6,5 5,6 5,0 4,7 4,5 4,3 4,1 4,0 3,9 3,9 3,8 3,7 3,6 3,5 3,4 3,3 3,3 3,2 3,1 3,1 3,1 3,0 3,0 4,6 3,7 3,3 3,1 3,0 2,9 2,8 2,7 2,7 2,6 2,6 2,5 2,5 2,4 2,4 2,4 2,3 2,3 2,2 2,2 2,2 2,2 2,1 2,1 15 8,7 6,4 5,4 4,9 4,6 4,3 4,1 4,0 3,9 3,8 3,7 3,7 3,6 3,5 3,4 3,3 3,2 3,2 3,1 3,0 3,0 2,9 2,9 2,9 4,5 3,7 3,3 3,1 2,9 2,8 2,7 2,6 2,6 2,6 2,5 2,5 2,4 2,4 2,3 2,3 2,3 2,2 2,2 2,2 2,1 2,1 2,1 2,1 16 8,5 6,2 5,3 4,8 4,4 4,2 4,0 3,9 3,8 3,7 3,6 3,5 3,5 3,4 3,3 3,2 3,1 3,0 3,0 2,9 2,9 2,8 2,8 2,8 4,5 3,6 3,2 3,0 2,9 2,7 2,7 2,6 2,5 2,5 2,5 2,4 2,4 2,3 2,3 2,2 2,2 2,2 2,1 2,1 2,1 2,0 2,0 2,0 17 8,4 6,1 5,2 4,7 4,3 4,1 3,9 3,8 3,7 3,6 3,5 3,5 3,4 3,3 3,2 3,1 3,0 2,9 2,9 2,8 2,8 2,7 2,7 2,7 4,5 3,6 3,2 3,0 2,8 2,7 2,6 2,6 2,5 2,5 2,4 2,4 2,3 2,3 2,2 2,2 2,2 2,1 2,1 2,0 2,0 2,0 2,0 2,0 18 8,3 6,0 5,1 4,6 4,2 4,0 3,8 3,7 3,6 3,5 3,4 3,4 3,3 3,2 3,1 3,0 2,9 2,8 2,8 2,7 2,7 2,6 2,6 2,6 4,4 3,5 3,2 2,9 2,8 2,7 2,6 2,5 2,5 2,4 2,4 2,3 2,3 2,2 2,2 2,1 2,1 2,1 2,0 2,0 2,0 1,9 1,9 1,9 19 8,2 5,9 5,0 4,5 4,2 3,9 3,8 3,6 3,5 3,4 3,4 3,3 3,2 3,1 3,0 2,9 2,9 2,8 2,7 2,6 2,6 2,5 2,5 2,5 4,4 3,5 3,1 2,9 2,7 2,6 2,5 2,5 2,4 2,4 2,3 2,3 2,3 2,2 2,1 2,1 2,1 2,0 2,0 2,0 1,9 1,9 1,9 1,9 20 8,1 5,8 4,9 4,4 4,1 3,9 3,7 3,6 3,4 3,4 3,3 3,2 3,1 3,0 2,9 2,9 2,8 2,7 2,6 2,6 2,5 2,5 2,4 2,4 4,3 3,5 3,1. 2,9 2,7 2,6 2,5 2,4 2,4 2,3 2,3 2,3 2,2 2,2 2,1 2,1 2,0 2,0 2,0 1,9 1,9 1,9 1,8 1,8 21 8,0 5,8 4,9 4,4 4,0 3,8 3,6 3,5 3,4 3,3 3,2 3,2 3,1 3,0 2,9 2,8 2,7 2,6 2,6 2,5 2,5 2,4 2,4 2,4 4,3 3,5 3,1 2,8 2,7 2,6 2,5 2,4 2,4 2,3 2,3 2,2 2,2 2,1 2,1 2,0 2,0 2,0 1,9 1,9 1,9 1,8 1,8 1,8 22 7,9 5,7 4,8 4,3 4,0 3,8 3,6 3,4 3,3 3,3 3,2 3,1 3,0 2,9 2,8 2,7 2,7 2,6 2,5 2,5 2,4 2,4 2,3 2,3 4,3 3,4 3,0 2,8 2,7 2,6 2,5 2,4 2,3 2,3 2,3 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,8 1,8 1,8 23 7,9 5,7 4,8 4,3 4,0 3,7 3,5 3,4 3,3 3,2 3,1 3,1 3,0 2,9 2,8 2,7 2,6 2,5 2,5 2,4 2,4 2,3 2,3 2,3 4,3 3,4 3,0 2,8 2,6 2,5 2,4 2,4 2,4 2,3 2,2 2,2 2,1 2,1 2,0 2,0 2,0 1,9 1,9 1,8 1,8 1,8 1,8 1,8 24 7,8 5,6 4,7 4,2 3,9 3,7 3,5 3,4 3,2 3,2 3,1 3,0 2,9 2,8 2,7 2,7 2,6 2,5 2,4 2,4 2,3 2,3 2,2 2,2 4,3 3,4 3,0 2,8 2,6 2,5 2,4 2,4 2,3 2,3 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,9 1,8 1,8 1,8 1,7 1,7 25 7,8 5,6 4,7 4,2 3,9 3,6 3,5 3,3 3,2 3,1 3,0 3,0 2,9 2,8 2,7 2,6 2,5 2,4 2,4 2,3 2,3 2,2 2,2 2,2 4,2 3,4 3,0 2,8 2,6 2,5 2,4 2,3 2,3 2,2 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,8 1,7 1,7 1,7 26 7,7 5,5 4,6 4,1 3,8 3,6 3,4 3,3 3,2 3,1 3,0 3,0 2,9 2,8 2,7 2,6 2,5 2,4 2,4 2,3 2,2 2,2 2,1 2,1 I 4,2 3,4 3,0 2,7 2,6 2,5 2,4 2,3 2,3 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,8 1,8 1,7 1,7 1,7
Таблица V. Окончание vi V2 1 2 3 4 5 6 7 8 9 10 11 12 14 16 20 24 30 40 50 75 100 200 500 оо 27 7,7 5^5 4^6 4J 3^ 3^6 3^4 зЗ 3J 3J 3~0 2,9 2,8 2,7 2,6 2,5 2,5 2,4 2,3 2,2 2,2 2,2 2,\ 2,1 4,2 3,3 3,0 2,7 2,6 2,5 2,4 2,3 2,2 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,8 1,7 1,7 1,7 1,7 28 7,6 5,4 4,6 4,1 3,8 3,5 3,4 3,2 3,1 3,0 2,9 2,9 2,8 2,7 2,6 2,5 2,4 2,3 2,2 2,2 2,2 2,1 2,1 2,1 4,2 3,3 2,9 2,7 2,6 2,4 2,4 2,3 2,2 2,2 2,1 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,7 1,7 1,7 29 7,6 5,4 4,5 4,0 3,7 3,5 3,3 3,2 3,1 3,0 2,9 2,9 2,8 2,7 2,6 2,5 2,7 2,3 2,3 2,2 2,1 2,1 2,1 2,0 4,2 3,3 2,9 2,7 2,5 2,4 2,3 2,3 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,8 1,7 1,7 1,7 1,6 1,6 30 7,6 5,4 4,5 4,0 3,7 3,5 3,3 3,2 3,1 3,0 2,9 2,8 2,7 2,7 2,5 2,5 2,4 2,3 2,2 2,2 2,1 2,1 2,0 2,0 4,2 3,3 2,9 2,7 2,5 2,4 2,3 2,3 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,8 1,7 1,7 1,7 1,6 1,6 32 7,5 5,3 4,5 4,0 3,7 3,4 3,2 3,1 3,0 2,9 2,9 2,8 2,7 2,6 2,4 2,4 2,3 2,2 2,2 2,1 2,0 2,0 2,0 2,0 4,1 3,3 2,9 2,7 2,5 2,4 2,3 2,2 2,2 2,1 2,1 2,1 2,0 2,0 1,9 Г, 9 1,8 1,8 1,7 1,7 1,7 1,6 1,6 1,6 34 7,4 5,3 4,4 3,9 3,6 3,4 3,2 3,1 3,0 2,9 2,8 2,8 2,7 2,6 2,5 2,4 2,3 2,2 2,1 2,1 2,0 2,0 1,9 1,9 4,1 3,3 2,9 2,6 2,5 2,4 2,3 2,2 2,1 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,6 1,6 1,6 1,6 1,5 36 7,4 5,2 4,4 3,9 3,6 3,3 3,2 3,0 2,9 2,9 2,8 2,7 2,6 2,5 2,4 2,3 2,3 2,2 2,1 2,0 2,0 1,9 1,9 1,9 4,1 3,3 2,9 2,6 2,5 2,4 2,3 2,2 2,1 2,1 2У\ 2,0 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,6 1,6 1,6 \,6 1,5 38 7,3 5,2 4,3 3,9 3,5 3,3 3,1 3,0 2,9 2,8 2,7 2,7 2,6 2,5 2,4 2,3 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 4,1 3,2 2,8 2,6 2,5 2,3 2,3 2,2 2,1 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,6 1,6 1,6 1,5 1,5 40 7,3 5,2 4,3 3,8 3,5 3,3 3,1 3,0 2,9 2,8 2,7 2,7 2,6 2,5 2,4 2,3 2,2 2,1 2,0 2,0 1,9 1,9 1,8 1,8 4,1 3,2 2,8 2,6 2,5 2,3 2,3 2,2 2,1, 2,1 2,1 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,7 1,6 1,6 1,5 1,5 1,5 50 7,2 5,1 4,2 3,7 3,4 3,2 3,0 2,9 2,8 2,7 2,6 2,6 2,5 2,4 2,3 2,2 2,1 2,0 1,9 1,9 1,8 1,8 1,7 1,7 4,0 3,2 2,8 2,6 2,4 2,3 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,7 1,7 1,7 1,6 1,6 1,5 1,5 1,5 1,5 1,4 70 7,0 4,9 4,1 3,6 3,3 3,1 2,9 2,8 2,7 2,6 2,5 2,4 2,3 2,3 2,1 2,1 2,0 1,9 1,8 1,7 1,7 1,6 1,6 1,5 4,0 3,1 2,7 2,5 2,3 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,1 1,6 1,5 1,5 1,4 1,4 1,4 1,3 100 6,9 4,8 4,0 3,5 3,2 3,0 2,8 2,7 2,6 2,5 2,4 2,4 2,3 2,2 2,1 2,0 1,9 1,8 1,7 1,6 1,6 1,5 1,5 1,4 3,9 3,1 2,7 2,5 2,3 2,2 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,6 1,6 1,5 1,5 1,4 1,4 1,3 1,3 1,3 400 6,7 4,7 3,8 3,4 3,1 2,8 2,7 2,5 2,5 2,4 2,3 2,2 2,1 2,0 1,9 1,8 1,7 1,6 1,6 1,5 1,4 1,3 1,2 1,2 3,9 3,0 2,6 2,4 2,2 2,1 2,0 2,0 1,9 1,8 1,8 1,8 1,7 1,7 1,6 1,5 1,5 1,4 1,4 1,3 1,3 1,2 1,2 1,1 оо 6,6 4,6 3,8 3,3 3,0 2,8 2,5 2,5 2,4 2,3 2,2 2,2 2,1 2,0 1,9 1,8 1,7 1,6 1,5 1,4 1,4 1,2 1,1 1,0 I 3,8 3,0 2,6 2,4 2,2 2,1 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,6 1,6 1,5 1,5 1,4 1,3 1,3 1,2 1,2 1,1 1,0
Таблица Ж Критические значения хаах в зависимости от объема выборки л. Д^««>^«вM=« п 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 а 0,05 1,41 1,71 1,92 2,07 2,18 2,27 2,35 2,41 2,47 2,52 2,56 2,60 2,64 2,67 2,70 2,73 2,75 2,78 2,80 2,82 2,84 2,86 2,88 2,90 2,91 0,01 1,42 1,73 1,97 2,16 2,31 2,43 2,53 2,62 2,69 2,75 2,81 2,86 2,90 2,94 2,98 3,02 3,05 3,08 3,11 3,13 3,16 3,18 3,20 3,22 3,24 п 28 ! 29 30 35 40 45 50 60 ! 70 | 80 90 100 120 150 200 1 300 400 500 I 600 700 800 900 1000 1500 2000 а 0,05 2,93 2,94 2,96й 3,02 3,08 3,12 3,16 3,22 3,28 3,33 3,37 3,40 3,46 3,53 3,61 3,73 3,80 3,87 3,92 3,96 3,99 4,02 4,05 4,14 4,21 0,01 3,26 3,28 3,29 3,36 3,42 3,48 3,52 3,58 3,64 3,70 3,74 3,77 3,83 3,90 3,98 4,09 4,17 4,24 4,28 4,32 4,35 4,38 4,41 4,50 4,56 296
Таблица VH Коэффициент #„_/+] для вычисления статистики Уилка-Шапиро при л от 3 до 50 (ноль целых и запятая опущены) 1 1 2 3 4 5 | г 1 2 3 4 5 6 7 8 9 / , 1 2 3 4 5 б 7 8 9 10 11 12 13 i 1 2 3 4 5 6 7 8 ! 9 10 11 12 13 14 15 | 16 37 | з 7071 11 5601 3315 2260 1429 0695 19 4808 3232 2561 2059 1641 1271 0932 0612 0303 27 4366 3018 2522 2152 1848 1584 1346 1128 0923 0728 0540 0358 0178 _4 6872 1677 12 5475 3325 2347 1586 0933 0303 20~" 4734 3211 2565 2085 1686 1334 1013 0711 0422 0140 28 4328 2992 2510 2151 1857 1601 1372 1162 0965 0778 0598 0424 0235 0084 5 6646 2413 13 5359 3325 2412 1707 1099 0539 21 ~ 4643 3185 2578 2119 1736 1399 1092 0804 0530 0263 29 4291 2968 2499 2150 1864 1616 1395 1192 1002 0822 0650 0483 0320 0159 Г\ 6 6431 2606 0875 к 14 5251 3318 2460 1802 1240 0727 0240 г 22 4590 3156 2571 2131 1764 1443 1150 0878 0618 0368 0122 п 1Q 4254 2944 2487 2148 , 1870 1630 1415 1219 1036 0862 0697 0537 0381 0227 0076 L 7 6233 3031 1401 i 15 5150 3306 2495 1878 1353 0880 0433 1 23 4542 3126 2563 2139 1787 1480 1201 0941 0696 0459 0228 1 31 4220 2921 2475 2145 1874 1641 1433 1243 1066 0899 0739 0585 0435 0289 0144 8 6052 3164 1743 0561 16 5056 3290 2521 1939 1447 1005 0593 0196 24. 4493 3098 2554 2145 1808 1512 1245 0997 0764 0539 0321 0107 32 4188 2898 2463 2141 1878 1651 1449 1265 1093 0931 0777 0629 0485 0344 0206 0068 9 5888 3244 1976 0947 17 4968 3273 2540 1988 1524 1109 0725 0359 25 4450 3069 2543 2148 1822 1539 1283 1046 0823 0610 0403 0200 33 4145 2876 2451 2137 1880 1660 14<>3 1284 1118 0961 0812 0669 0530 0395 0262 0131 10 5739 3291 2141 1224 0399 18 4886 3253 2553 2027 1587 1197 0837 0496 0164 26 4407 3043 2533 2151 1836 1563 1316 1089 0876 0672 0476 0284 0094 34 4127 2854 2439 2132 1882 1667 1467 1301 1140 0988 0844 0706 0572 0441 0314 0187 0062 297
Таблица УЕ Оконча I 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 i 25 ' 35 4096 2834 1 2427 | 2127 1883 1673 1487 1317 1160 1013 0873 0739 0610 0484 0361 0239 0119 43 3894 2684 2334 2078 1871 1695 1539 1398 1269 1149 1035 0927 0824 0724 0628 0534 0442 0352 0263 0175 0087 36 4068 2813 2415 2121 1883 1678 I486 1331 1179 1036 0900 0770 0645 0523 0404 0287 0172 0057 44 3872 2667 2323 2072 1868 1695 1542 1405 1278 1160 1049 0943 0842 0745 0651 0560 0471 0383 0286 0211 0126 0042 37 4040 2794 2403 2116 1883 1683 1505 1344 1196 1056 0924 0794 0667 0559 0444 0331 0220 ОНО 45 3850 2651 2313 2065 1865 1695 1545 1410 1286 1170 1062 0959 0860 0765 0673 0534 0497 0412 0328 0245 0163 0081 й 38 4015 2774 2391 2110 1880 1686 1513 1356 1211 1075 0947 0824 0706 0592 0481 0372 0264 0158 0053 fl 46 3830 2635 2302 2058 1865 1695 1548 1415 1293 1180 1073 0972 0876 0783 0694 0607 0522 0439 0357 0277 0197 0118 0039 1 39 3989 2755 2380 2104 1880 1689 1520 1366 1225 1092 0967 0848 0733 0622 0515 0409 0305 0203 0101 47 3808 2620 2291 2052 1859 1695 1550 1420 1300 1189 1085 0986 0892 0801 0713 0628 0546 0465 0385 0307 0220 0153 0076 40 3964 2737 2368 2098 1880 1691 1526 1376 1237 1108 0986 0870 0759 0651 0546 0444 0343 0244 0146 0049 48 3789 2604 2281 2045 1855 1693 1551 1423 1306 1197 1095 0998 0906 0817 0731 0648 0568 0489 0411 0335 0259 0185 0111 0037 41 3940 2719 2357 2091 1876 1693 1531 1384 1249 1123 1004 0891 0782 0677 0575 0476 0379 0283 0188 0094 49 3770 2589 2271 2038 1851 1692 1553 1427 1312 1205 1105 1010 0919 0832 0748 0667 0588 0511 0436 0362 0288 0215 0143 0071 42 3917 2701 2345 2085 1874 1694 1535 1392 1259 1136 1020 0909 0804 0701 0602 0506 0411 031* 0227 0136 0045 50 3751 2574 2260 2032 1847 1691 1554 1430 1317 1212 1113 1020 0932 . 0846 0664 0685 0603 0532 0459 0389 0314 0244 0174 0104 0035 298
Таблица МП Критические значения статистики Уилка-Шапиро Wa в зависимости от объема выборки п. Вероятность P(W< Wa) - a п 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 0,01 0,753 0,687 0,686 0,713 0,730 0,749 0,764 0,781 0,792 0,805 0,814 0,825 0,835 0,844 0,851 0,858 0,863 0,868 0,873 0,878 0,881 0,884 0,888 0,891 а 0,05 0,767 0,748 0,762 0,788 0,803 0,818 0,829 0,842 0,850 0,859 0,866 0,874 0,881 0,887 0,892 0,897 0,901 0,905 0,908 0,911 0,914 0,916 0,918 0,920 0,10 0,789 0,792 0,806 0,826 0,838 0,851 0,859 0,869 0,876 0,883 0,889 0,895 0,901 0,906 0,910 0,914 0,917 0,920 0,923 0,926 0,928 0,930 0,931 0,933 п 27 28 29 30 31 32 33 > 34 35 ; 36 37 1 38 1 39 40 1 41 42 43 44 45 1 46 47 ! 48 49 50 0,01 0,894 0,896 0,898 0,900 0,902 0,904 0,906 0,908 0,910 0,912 0,914 0,916 0,917 0,919 0,920 0,922 0,923 0,924 0,926 0,927 0,928 0,929 0,929 0,930 а 0,05 0,923 0,924 0,926 0,927 0,929 0,930 0,931 0,933 0,934 0,935 0,936 0,938 0,939 0,940 0,941 0,942 0,943 0,944 0,945 0,945 0,946 0,947 0,947 0,947 0,10 0,935 0,936 0,937 0,939 0,940 0,941 0,942 0,943 0,944 0,945 0,946 0,947 0,948 0,949 0,950 0,951 0,951 0,952 0,953 0,953 0,954 0,954 0,955 0,955 299
Достаточная численность единичной выборки ла, где ла = /1 4~п Таблица :*i кх >9,0 4,46-9,0 2,48-4,45 2,18-2,47 1,68-2,17 1,40-1,67 1,28- 1,39 1,18-1,27 1,09-1,17 1,03-1,08 0,97- 1,02 0,93 - 0,96 0,89-0,92 0,85-0,88 0,82-0,84 0,80-0,81 0,77 - 0,79 0,75 - 0,76 0,73-0,74 0,71-0,72 0,69-0,70 0,67 - 0,68 0,65-0,66 0,63-0,64 0,61-0,62 0,59-0,60 0,57 - 0,58 0,55-0,56 0,53-0,54 0,51-0,52 0,50 0,49 0,48 0,47 0,46 0,45 0,44 0,43 0,42 0,41 0,40 0,39 0,38 0,37 <0,37 0,20 2 2 2 2 3 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 5 6 6 6 6 7 7 7 8 8 8 9 9 9 10 10 10 10 10 11 12 12 13 14 1,7 *? Уровень значимости а 0,10 2 2 3 3 3 4 4 4 5 5 5 6 6 6 6 7 7 7 7 8 8 8 9 9 10 10 И 11 12 13 13 13 14 14 15 15 15 17 17 18 19 .20 21 22 2,9 *? 0,05 2 3 3 4 4 5 5 6 6 7 7 7 8 8 9 9 9 9 10 10 11 11 12 13 13 14 15 15 16 17 18 19 19 20 21 22 22 23 24 25 26 28 29 30 4,0 К2 0,01 3 4 5 5 6 7 8 9 10 10 11 12 13 13 14 14 15 16 17 17 18 19 20 21 22 23 24 26 28 29 30 32 33 34 35 37 38 40 42 44 46 48 50 53 6,8 К2 0,001 4 5 7 8 9 11 12 14 15 16 17 18 20 21 22 23 24 25 26 27 29 30 31 33 35 37 39 42 44 47 49 51 53 55 58 60 63 65 68 71 75 79 83 88 11,5 К2 300
Таблица X Критические значения статистики Fmn в зависимости от числа степеней свободы v, с которыми найдены оценки дисперсий, и числа сравниваемых оценок дисперсий g для а = 0,05 вероятность Р( FmKK > Fmtx^ ) = а V 2 3 4 5 6 7 8 9 10 12 15 20 30 60 со 2 39,0 15,4 9,60 7,15 5,82 4,99 4,43 4,03 3,72 3,28 2,86 2,46 2,07 1,67 1,00 3 87,5 27,8 15,5 10,8 8,38 6,94 6,00 5,44 4,85 4,16 3,54 2,95 2,40 1,85 1,00 4 142 39,2 20,6 13,7 10,4 8,44 7,18 6,31 5,67 4,79 4,01 3,29 2,61 1,96 1,00 5 202 50,7 25,2 16,3 12,1 9,70 8,12 7,11 6,34 5,30 4,37 3,54 2,78 2,04 1,00 6 266 62,0 29,5. 18,7 13,7 10,8 9,03 7,80 6,92 5,72 4,68 3,76 2,91 2,11 1,00 g 7 333 72,9 33,6 20,8 15,0 11,8 9,78 8,41 7,42 6,09 4,95 3,94 3,02 2,17 1,00 8 403 83,5 37,5 22,9 16,3 12,7 10,5 8,95 7,87 6,42 5,19 4,10 3,12 2,22 1,00 9 475 93,9 41,1 24,7 17,5 13,5 ил 9,45 8,28 6,72 5,40 4,24 3,21 2,26 1,00 10 550 104 44,6 26,5 18,6 14,3 11,7 9,91 8,66 7,00 5,59 4,37 3,29 2,30 1,00 П 626 114 48,0 28,2 19,7 15,1 12,2 10,3 9,01 7,25 5,77 4,49 3,36 2,33 1,00 12 704 124 51,4 29,9 20,7 15,8 12,7 10,7 9,34 7,48 5,93 4,59 3,39 2,36 1,00 301
Таблица XI Критические значения коэффициента Дункана ^а^ для а = 0,05 (v - число степеней свободы, g - число сопоставляемых оценок среднего) 1 , . .. .. , , . 8- ., . . , . . у [ 2 3 4 5 6 7 8 9 10 12 14 16 18 20 50 100 1 17,97 17,97 17,97 17,97 17,97 17,97 17,97 17,97 17,97 17,97 17,97 17,97 17.97 17,97 17,97 17,97 2 6,08 6,08 6,08 6,08 6,08 6,08 6,0$ 6,08 6,08 6,08 6,08 6,08 6^0$ 6,08 6,08 6,08 3 4,50 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4,52 4 3,93 4,01 4,03 4,03 4,03 4,03 4,03 4,03 4,03 4,03 4,03 4,03 4,03 4,03 4,03 4,03 5 3,64 3,75 3,80 3,81 3,81 3,81 3,81 3,81 3,81 3,81 3,81 3,81 3,81 3,81 3,81 3,81 6 3,46 3,59 3,65 3,68 3,69 3,70 3,70 3,70 3,70 3,70 3,70 3,70 3,70 3,70 3,70 3,70 7 3,34 3,48 3,55 3,59 3,61 3,62 3,63 3,63 3,63 3,63 3,63 3,63 3,63 3,63 3,63 3,63 8 3,26 3,40 3,48 3,52 3,55 3,57 3,58 3,58 3,58 3,58 3,58 3,58 3,58 3,58 3,58 3,58 9 3,20 3,34 3,42 3,47 3,50 3,52 3,54 3,54 3,55 3,55 3,55 3,55 3,55 3,55 3,55 3,55 10 3,15 3,29 3,38 3,43 3,46 3,49 3,50 3,52 3,52 3,53 3,53 3,53 3,53 3,53 3,53 3,53 11 3,11 3,26 3,34 3,40 3,44 3,46 3,48 3,49 3,50 3,51 3,51 3,51 3,51 3,51 3,51 3,51 12 3,08 3,22 3,31 3,37 3,41 3,44 3,46 3,47 3,48 3,50 3,50 3,50 3,50 3,50 3,50 3,50 13 3,06 3,20 3,29 3,35 3,39 3,42 3,44 3,46 3,47 3,48 3,49 3,49 3,49 3,49 3,49 3,49 14 3,03 3,18 3,27 3,33 3,37 3,40 3,43 3,44 3,46 3,47 3,48 3,48 3,48 3,48 3,48 3,48 15 3,01 3,16 3,25 3,31 3,36 3,39 3,41 3,43 3,45 3,46 3,48 3,48 3,48 3,48 3,48 3,48 16 3,00 3,14 3,24 3,30 3,34 3,38 3,40 3,42 3,44 3,46 3,47 3,48 3,48 3,48 3,48 3,48 17 2,98 3,13 3,22 3,28 3,33 3,37 3,39 3,41 3,43 3,45 3,46 3,47 3,48 3,48 3,48 3,48 18 2,97 3,12 3,21 3,27 3,32 3,36 3,38 3,40 3,42 3,44 3,46 3,47 3,47 3,47 3,47 3,47 19 2,96 3,11 3,20 3,26 3,31 3,35 3,38 3,40 3,42 3,44 3,45 3,47 3,47 3,47 3,47 3,47 20 2,95 3,10 3,19 3,26 3,30 3,34 3,37 3,39 3,41 3,44 3,45 3,46 3,47 3,47 3,47 3,47 24 2,92 3,07 3,16 3,23 3,28 3,32 3,34 3,37 3,39 3,42 3,44 3,46 3,46 3,47 3,48 3,48 30 2,89 3,04 3,13 3,20 3,25 3,29 3,32 3,35 3,37 3,40 3,43 3,45 3,46 3,47 3,49 3,49 40 2,86 3,01 3,10 3,17 3,22 3,27 3,30 3,33 3,35 3,39 3,42 3,44 3,46 3,47 3,50 3,50 60 2,83 2,98 3,07 3,14 3,20 3,24 3,28 3,31 3,33 3,37 3,41 3,43 3,45 3,47 3,54 3,54 120 2,80 2,95 3,04 3,12 3,17 3,22 3,25 3,29 3,31 3,36 3,39 3,42 3,45 3,47 3,58 3,60 оо I 2,77 2,92 3,02 3,09 3,15 3,19 3,23 3,26 3,29 3,34 3,38 3,41 3,44 3,47 3,64 3,74
Достаточная суммарная численность двух выборок ла> ла = / Таблица ХП = *2 кг >24,6 12,2-24,5 4,62-12,1 3,24-4,61 2,32-3,23 2,02-2,31 1,61-2,01 1,29-1,60 1,10-1,28 1,00-1,09 0,94-0,99 0,82-0,93 0,75-0,81 0,70-0,74 0,62 - 0,69 0,57-0,61 0,54 - 0,56 0,51-0,53 0,47-0,50 0,45 - 0,46 0,42 - 0,44 0,39-0,41 0,37 - 0,38 0,35-0,36 0,33-0,34 0,31 -0,32 0,29-0,30 0,27-0,28 0,25 - 0,26 0,23-0,24 0,22 0,21 0,20 0,19 0,18 0,17 0,16 0,15 0,14 0,13 < 0,13 0,20 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 7 7 7 7 8 8 9 9 9 10 10 11 и 11 12 13 13 14 1,7 /с2 Уровен 0,10 4 4 4 4 4 5 5 5 5 6 6 6 7 7 7 8 8 8 8 9 9 10 10 10 П П 12 12 13 14 15 15 16 16 17 18 19 20 21 22 2,9 ь значимости а 0,05 4 4 4 5 5 5 6 6 7 7 7 8 8 9 9 10 10 П И 12 12 13 13 14 15 15 16 17 18 19 20 21 22 23 24 25 26 28 30 33 4,0 *2 0,01 4 5 6 7 7 8 9 10 И П 12 13 13 14 15 16 17 17 18 19 20 21 22 23 24 26 27 29 30 33 34 36 37 39 41 44 46 49 51 55 6,8 fc2 0,001 6 7 8 9 П 12 13 15 16 17 18 19 21 22 24 25 26 27 29 30 32 34 35 37 39 41 43 46 49 53 56 58 61 64 61 IX 75 80 86 92 П,5 303
Таблица ХШ г 0,0 0,1 0? 0,3 0,4 0,> 0,6 0,7 0,8 0,9 0 0,0000 0,1003 0,2027 0,3095 0А236 0,5493 0,6931 0,8673 \ ,0986 J,4722 Значения величины 1 0,0100 0,1105 0,2132 0,3206 0,4356 0,5627 0,7089 0,8872 1,1270 1,5275 2 0,0200 0,1206 0,2237 0,3317 0,4477 0,5763 0,7250 0,9076 1,1568 1,5890 3 0,0300 0,1308 0,2342 0,3428 0,4599 0,5901 0,7414 0,9287 1Д881 1,6584 Z для значений / 4 0,0400 0,1409 0,2448 0,3541 0,4722 0,6042 0,7582 0,9505 1,2212 1,7380 5 0,0500 0,1511 0,2554 0,3654 0,4847 0,6184 0,7753 0,9730 1,2562 1,8318 • от 0,00 6 0,0600 0,1614 0,2661 0,3769 0,4973 0,6328 0,7928 0,9962 1,2933 1,9459 до 0,99 7 0,0700 0,1717 0,2769 0,3884 0,5101 0,6475 0,8107 1,0203 1,3331 2,0923 8 0,0800 0,1820 0,2877 0,4001 0,5230 0,6625 0,8291 1,0454 1,3758 2,2976 9 0,0900 0,1923 0,2986 0,4118 0,5361 0,6777 0,8480 1,0714 1,4219 2,6467 Таблица XIV Значения величины *• для значений z от 0,00 до 2,99 (ноль целых и запятая опущены) __£_ 0,0 о л 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 гл 2,3 2,4 2,5 2,6 2,7 2,8 2,9 ~_JL-_ , 0000 0997 1974 2913 3800 . 4621 5370 6044 6640 7163 7616 8005 8337 8617 8854 9051 9217 9354 9468 9562 9640 9704 9757 9801 9837 9866 9890 9910 9926 9940 1 0100 1096 2070 3004 3885 4699 5441 6107 6696 7211 7658 8041 8367 8643 8875 9069 9232 9366 9478 9571 9647 9710 9762 9805 9840 9869 . 9892 9912 9928 9941 2 0200 1194 2165 3095 3969 4777 5511 6169 6751 7259 7699 8076 8397 8668 8896 9087 9246 9379 9488 9579 9654 9716 9767 9809 9843 9871 9894 9914 9929 _, 9942 3 0300 1293 2260 3185 4053 4854 5580 6231 6805 7306 7739 8110 8426 Ь692 8917 9104 9261 9391 9498 9587 9661 9722 9771 9812 9846 9874 9897 9915 9931 9943 4 0400 1391 2355 3275 4136 4930 5649 6291 6858 7352 7779 8144 8455 8717 8937 9121 9275 9402 9508 9595 9668 9727 9776 9816 9849 9876 9899 9917 9932 9944 5 0500 1489 2449 3364 4219 5005 5717 6351 6911 7398 7818 8178 8483 8741 8957 9138 9289 9414 9518 9603 9674 9732 9780 9820 9852 9879 9901 9919 9933 9945 6 0600 1586 2543 3452 4301 5080 5784 6411 6963 7443 7857 8210 8511 8764 8977 9154 9302 9425 9527 9611 9680 9738 9785 9823 9855 9881 9903 9920 9935 9946 7 0700 1684 2636 3540 4382 5154 5850 6469 7014 7487 7895 8243 8538 8787 8996 9170 9316 9436 9536 9618 9686 9743 9789 9827 9858 9884 9904 9922 9936 9947 8 0800 1781 2729 3627 4462 5227 5915 6527 7064 7531 7932 8275 8565 8810 9015 9186 9329 9447 9545 9626 9693 9748 9793 9830 9861 9886 9906 9923 9937 9948 9 0900 1877 2821 3714 4542 5299 5980 6584 7114 7574 7969 8306 8591 8832 9033 9201 9341 9458 9554 9633 9699 9753 9797 9834 9864 9888 9908 9925 9938 9949 304
Таблица XV Минимальный объем корреляционного ряда ла, при котором с вероятностью Р = 1 - а можно утверждать, что р ^ 0 при данном г г 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10 0,11 0,12 0,13 0,14 0,15 0,16 0,17 0,18 0,19 0,20 0,21 0,22 0,23 0,24 0,25 0,26 0,27 0,28 0,29 0,30 0,31 0,32 0,33 0,34 0,35 0,36 0,37 0,38 0,39 0,40 0,41 0,42 0,43 0,44 0,45 0,46 0,47 0,48 0,49 0,50 0,10 27964 6769 ЗОЮ 1695 1022 753 554 424 336 272 225 190 162 140 122 107 95 85 77 69 63 58 53 49 45 42 39 36 34 32 30 28 27 25 24 23 21 20 19 19 18 17 16 16 15 14 14 13 13 12 0,05 38419 9607 4272 2404 1534 1067 785 601 476 385 318 268 228 197 172 151 134 119 107 91 88 80 74 68 62 58 54 50 47 44 41 38 36 34 32 31 29 27 26 25 24 2 22 21 20 19 18 18 17 16 SL 0,01 66361 16593 7377 4151 2647 1841 1354 1035 819 663 547 460 391 338 294 258 229 204 183 165 149 136 124 114 105 97 90 84 78 73 68 64 60 56 53 50 47 45 43 40 38 37 35 33 32 30 29 28 27 25 0,001 108310 27080 12038 6773 4318 3002 2208 1687 1335 1080 891 748 637 549 478 419 371 330 296 261 242 220 201 184 170 156 145 134 125 117 109 102 96 90 85 80 75 71 67 64 61 58 55 52 50 47 45 43 41 39 г 0,51 0,52 0,53 0,54 0,55 0,56 0,57 0,58 0,59 0,60 0,61 0,62 0,63 0,64 0,65 0,66 1 0,67 0,68 0,69 0,70 0,71 0,72 0,73 0,74 0,75 0,76 1 0,77 ' 0,78 0,79 I 0,80 0,81 | 0,82 1 0,83 0,84 0,85 0,86 0,87 ' 0,88 0,89 1 0,90 0,91 0,92 1 0,93 0,94 I 0,95 1 0,96 0,97 1 0,98 0,99 0,10 12 12 11 11 И 10 10 10 9 9 9 9 8 8 8 8 8 7 7 7 7 7 7 6 6 6 6 6 6 6 6 6 5 5 5 5 5 5 5 5 5 5 4 4 4 4 4 4 4 0,05 16 15 15 14 14 13 13 12 12 11 И 11 10 10 10 10 9 9 9 9 8 8 8 8 8 7 7 7 7 7 7 6 6 6 6 6 6 6 5 5 5 5 5 5 5 5 4 4 4 SL 0,01 24 23 23 22 21 20 19 19 18 17 17 16 16 15 15 14 14 13 13 12 12 12 11 11 И 10 10 10 9 9 9 8 8 8 8 7 7 7 7 7 6 6 6 6 5 5 5 5 4 0,001 38 36 35 33 32 31 29 28 27 26 25 24 23 22 22 21 20 19 . 19 \8 17 17 16 15 15 14 14 13 13 12 12 12 11 11 10 10 10 9 9 8 8 8 7 7 7 6 6 6 5 305
Критические значения коэффициента корреляции Спирмена г% (р, отличен от нуля с уровнем значимости а, если n^rt ) п 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 а 0,05 0,94 0,85 0,78 0,72 0,68 0,64 0,61 0,58 0,56 0,54 0,52 0,50 0,48 0,47 0,46 0,45 0,44 0,43 0,01 0,94 , 0,88 i 0,83 0,79 0,76 0,73 0,70 0,68 0,66 0,64 , 0,62 0,60 0,58 0,57 0,56 0,54 п 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 < 0,05 0,42 0,41 0,40 0,39 0,38 0,38 0,37 0,36 0,36 0,36 0,34 0,34 0,33 0,33 0,33 0,32 0,32 0,31 a ж 0,01 0,53 0,52 0,51 0,50 0,49 0,48 0,48 0,47 0,46 0,45 0,45 0,44 0,43 0,43 0,42 0,41 0,41 0,40 306
Таблица XVH Значения <р = 2arcsiiiv/> (<р даны в радианах; Р> %) р 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8- 0,9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 , 36 i 1 0 I 0,000 , 0,063 0,089 0,110 0,127 0,142 0,155 0,168 0,179 0,190 0,200 0,284 0,348 0,403 0,451 1 0,495 0,536 0,574 0,609 0,644 0,676 0,707 0,738 0,767 0,795 0,823 0,850 0,876 0,902 0,927 0,952 0,976 1,000 1,024 1,047 1,070 1,093 1,115 1,137 1,159 1,181 1,203 1,224 1,245 1,266 1,287 1 0,020 0,066 0,092 0,111 0,128 0,143 0,156 0,169 0,180 0,191 0,210 0,291 0,354 0,408 0,456 0,499 0,539 0,577 0,613 0,647 0,679 0,711 0,741 0,770 0,798 0,826 0,853 0,879 0,905 0,930 0,955 0,979 1,003 1,026 1,050 1,072 1,095 1,117 1,140 1,161 1,183 1,205 1,226 1,247 1,268 1,289 2 0,028 0,069 0,094 0,113 0,130 0,144 0,158 0,170 0,181 0,192 0,220 0,298 0,360 0,413 0,460 0,503 0,543 0,581 0,616 0,650 0,682 0,714 0,744 0,773 0,801 0,828 0,855 0,881 0,907 0,932 0,957 0,981 1,005 1,029 1,052 1,075 1,097 1,120 1,142 1,164 1,185 1,207 1,228 1,249 1,270 1,291 3 0,035 0,072 0,096 0,115 0,131 0,146 0,159 0,171 0,182 0,193 0,229 0,304 0,365 0,418 0,465 0,507 0,547 0,584 0,620 0,653 0,686 0,717 0,747 0,776 0,804 0,831 0,858 0,884 0,910 0,935 0,959 0,984 1,007 1,031 1,054 1,077 1,100 1,122 1,144 1,166 1,187 1,209 1,230 1,251 1,272 1,293 4 0,040 0,075 0,098 0,117 0,133 0,147 0,160 0,172 0,184 0,194 0,237 0,311 0,371 0,423 0,469 0,512 0,551 0,588 0,623 0,657 0,689 0,720 0,750 0,778 0,807 0,834 0,861 0,887 0,912 0,937 0,962 0,986 1,010 1,033 1,056 1,079 1,102 1,124 1,146 1,168 1,190 1,211 1,232 1,253 1,274 1,295 5 0,045 0,077 0,100 0,118 0,134 0,148 0,161 0,173 0,185 0,195 0,246 0,318 0,376 0,428 0,473 0,516 0,555 0,592 0,627 0,660 0,692 0,723 0,752 0,781 0,809 0,837 0,863 0,889 0,915 0,940 0,964 0,988 1,012 1,036 1,059 1,082 1,104 1,126 1,148 1,170 1,192 1,213 1,234 1,256 1,277 1,297 6 0,049 0,080 0,102 0,120 0,136 0,150 0,163 0,175 0,186 0,196 0,254 0,324 0,382 0,432 0,478 0,520 0,559 0,595 0,630 0,663 0,695 0,726 0,755 0,784 0,812 0,839 0,866 0,892 0,917 0,942 0,967 0,991 1,015 1,038 1,061 1,084 1,106 1,129 1,151 1,172 1,194 1,215 1,237 1,258 1,279 1,299 7 0,053 0,082 0,104 0,122 0,137 0,151 0,164 0,176 0,187 0,197 0,262 0,330 0,387 0,437 0,482 0,524 0,562 0,599 0,633 0,666 0,698 0,729 0,758 0,787 0,815 0,842 0,868 0,894 0,920 0,945 0,969 0,993 1,017 1,040 1,063 1,086 1,109 1,131 1,153 1,175 1,196 1,217 1,239 1,260 1,281 1,302 8 0,057 0,085 0,106 0,123 0,139 0,152 0,165 0,177 0,188 0,198 0,269 0,336 0,392 0,442 0,486 0,528 0,566 0,602 0,637 0,670 0,701 0,732 0,761 0,790 0,818 0,845 0,871 0,897 0,922 0,947 0,972 0,996 1,019 1,043 1,066 1,088 1,111 1,133 1,155 1,177 1,198 1,220 1,241 1,262 1,283 1,304 9 0,060 0,087 0,108 0,125 0,140 0,154 0,166 0,178 0,189 0,199 0,277 0,342 0,398 0,446 0,491 0,532 0,570 0,606 0,640 0,673 0,704 0,735 0,764 0,793 0,820 0,847 0,874 0,900 0,925 0,950 0,974 0,998 1,022 1,045 1,068 1,091 1,113 1,135 1,157 1,179 1,200 1,222 1,243 1,264 1,285 1,306 307
Таблица ХУЛ. Продолжение р 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 51 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 0 1,308 1,328 1,349 1,369 1,390 1,410 1,430 1,451 1,471 1,491 1,511 1,531 1,551 1,571 1,591 1,611 1,631 1,651 1,671 1,691 1,711 1,731 1,752 1,772 1,793 1,813 1,834 1,855 1,875 1,897 1,918 1,939 1,961 1,982 2,004 2,026 2,049 2,071 2,094 2,118 2,141 2,165 2,190 2,214 2,240 2,265 2,292 2,319 1 1,310 1,330 1,351 1,371 1,392 1,412 1,432 1,453 1,473 1,493 1,513 1,533 1,553 3,573 1,593 1,613 1,633 1,653 1,673 1,693 1,713 1,734 1,754 1,774 1,795 1,815 1,836 1,857 1,878 1,899 1,920 1,941 1,963 1,984 2,006 2,029 2,051 2,074 2,097 2,120 2,144 2,168 2,192 2,217 2,242 2,268 2,294 2,321 2 1,312 1,333 1,353 1,374 1,394 1,414 1,434 3,455 1,475 1,495 1,515 1,535 3,555 1,575 1,595 1,615 1,635 3,655 1,675 1,695 1,715 1,736 1,756 1,776 1,797 1,817 1,838 1,859 1,880 1,901 1,922 1,943 1,965 1,987 2,009 2,031 2,053 2,076 2,099 2,122 2,346 2,170 2,194 2,219 2,245 2,271 2,297 2,324 3 1,314 1,335 1,355 1,376 1,396 1,416 1,436 1,457 1,477 1,497 1,517 1,537 1,557 1,577 1,597 1,617 1,637 3,657 1,677 1,697 1,717 1,738 1,758 1,778 1,799 1,819 1,840 1,861 1,882 1,903 1,924 1,946 1,967 1,989 2,011 2,033 2,056 2,078 2,101 2,125 2,148 2,172 2,197 2,222 2,247 2,273 2,300 2,327 4 1,316 1,337 1,357 1,378 1,398 1,418 1,438 1,459 1,479 1,499 1,519 1,539 1,559 1,579 1,599 1,619 1,639 1,659 1,679 1,699 1,719 1,740 1,760 1,780 1,801 1,821 1,842 1,863 1,884 1,905 1,926 1,948 1,969 1,991 2,013 2,035 2,058 2,081 2,104 2,127 2,151 2,175 2,199 2,224 2,250 2,276 2,302 2,330 5 1,318 1,339 1,359 1,380 1,400 1,420 1,440 1,461 1,481 1,501 1,521 1,541 1,561 1,581 1,601 1,621 1,641 1,661 1,681 1,701 1,721 1,742 1,762 1,782 1,803 1,823 1,844 1,865 1,886 1,907 1,928 1,950 1,971 1,993 2,015 2,038 2,060 2,083 2,106 2,129 2,153 2,177 2,202 2,227 2,252 2,278 2,305 2,332 6 1,320 1,341 1,361 1,382 1,402 1,422 1,442 1,463 1,483 1,503 1,523 1,543 1,563 1,583 1,603 1,623 1,643 1,663 1,683 1,703 1,723 1,744 1,764 1,784 1,805 1,826 1,846 1,867 1,888 1,909 1,931 1,952 1,974 1,995 2,018 2,040 2,062 2,085 2,108 2,132 2,156 2,180 2,204 2,229 2,255 2,281 2,308 2,335 7 1,322 1,343 1,363 1,384 1,404 1,424 1,444 1,465 1,485 1,505 1,525 1,545 1,565 1,585 1,605 1,625 1,645 1,665 1,685 1,705 1,725 1,746 1,766 1,786 1,807 1,828 1,848 1,369 1,890 1,911 1,933 1,954 1,976 1,998 2,020 2,042 2,065 2,087 2,111 2,134 2,158 2,182 2,207 2,232 2,258 2,284 2,310 2,338 8 1,324 1,345 1,365 1,386 1,406 1,426 1,446 1,467 1,487 1,507 1,527 1,547 1,567 1,587 1,607 1,627 1,647 1,667 1,687 1,707 1,727. 3,748 1,768- 1,789 1,809 1,830 1,850 1,871 1,892 1,913 1,935 1,956 1,978 2,000 2,022 2,044 2,067 2,090 2,113 2,136 2,160 2,185 2,209 2,234 2,260 2,286 2,313 2,341 9 1,326 1,347 1,367 1,388 1,408 1,428 1,448 1,469 1,489 1,509 1,529 1,549 1,569 1,589 1,609 1,629 1,649 1,669 1,689 1,709 1,729 1,750 1,770 1,791 1,811 1,832 1,853 1,873 1,894 1,916 1,937 1,958 1,980 2,002 2,024 2,047 2,069 2,092 2,115 2,139 2,163 2,187 2,212 2,237 2,263 2,289 2,316 2,343 308
Таблица ХУД. Окончание р 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99,0 99,1 99,2 99,3 99,4 99,5 99,6 99,7 99,8 99,9 100 0 2,346 2,375 2,404 2,434 2,465 2,498 2,532 2,568 2,606 2,647 2,691 2,739 2,793 2,858 2,941 2,952 2,962 2,974 2,987 3,000 3,015 3,032 3,052 3,078 3,142 1 2,349 2,377 2,407 2,437 2,469 2,501 2,536 2,572 2,610 2,651 2,695 2,744 2,799 2,865 2,942 2,953 2,964 2,975 2,988 3,001 3,017 3,034 3,054 3,082 2 2,352 2,380 2,410 2,440 2,472 2,505 2,539 2,575 2,614 2,655 2,700 2,749 2,805 2,872 2,943 2,954 2,965 2,976 2,989 3,003 3,018 3,036 3,057 3,085 3 2,355 2,383 2,413 2,443 2,475 2,508 2,543 2,579 2,618 2,659 2,705 2,754 2,811 2,880 2,944 2,955 2,966 2,978 2,990 3,004 3,020 3,038 3,059 3,089 4 2,357 2,386 2,416 2,447 2,478 2,512 2,546 2,583 2,622 2,664 2,709 2,760 2,818 2,888 2,945 2,956 2,967 2,979 2,992 3,006 3,022 3,040 3,062 3,093 5 2,360 2,389 2,419 2,450 2,482 2,515 2,550 2,587 2,626 2,668 2,714 2,765 2,824 2,896 2,946 2,957 2,968 2,980 2,993 3,007 3,023 3,042 3,064 3,097 к 6 2,363 2,392 2,422 2,453 2,485 2,518 2,553 2,591 2,630 2,673 2,719 2,771 2,831 2,904 2,947 2,958 2,969 2,981 2,994 3,009 3,025 3,044 3,067 3,102 7 2,366 2,395 2,425 2,456 2,488 2,522 2,557 2,594 2,634 2,677 2,724 2,776 2,837 2,913 2,948 2,959 2,971 2,983 2,996 3,010 3,027 3,046 3,069 3,107 8 2,369 2,398 2,428 2,459 2,491 2,525 2,561 2,598 2,638 2,681 2,729 2,782 2,844 2,922 2,949 2,960 2,972 2,984 2,997 3,012 3,028 3,048 3,072 3,113 9 2,372 2,401 2,431 2,462 2,495 2,529 2,564 2,602 2,642 2,686 2,734 2,788 2,851 2,931 2,951 2,961 2,973 2,985 2,999 3,013 3,030 3,050 3,075 3,122 309
ЛИТЕРАТУРА Айвазян С.А. Статистическое исследование зависимостей. М., 1988. Б е й л и Н. Статистические методы в биологии. М., 1983. Благовещенский Ю.Н., Самсонова В.П., Дмитриев Е. А. Непараметрические методы в почвенных исследованиях. М., 1987. Дмитриев Е.А. Использование статистических методов при проведении режимных наблюдений. В кн.: Принципы организации и методы стационарного изучения почв. М., 1976. Зайцев Г. Н. Математическая статистика в экспериментальной ботанике. М., 1984. Лакин Г.Ф. Биометрия. М., 1980. Мостселлер Ф., Тьюки Д ж. Анализ данных и регрессия. М., 1982. Прохоров Ю.В., Розанов Ю.А. Теория вероятностей. Основные понятия. М., 1973. Снедекор Дж.У. Статистические методы в применении к исследованиям в сельском хозяйстве и биологии. М., 1961. У р б а х В . Ю. Биометрические методы. М., 1964. Химмельблау Д. Анализ процессов статистическими методами. М., 1973. Чертко Н.К. Математические методы в физической географии. Минск, 1987. СПРАВОЧНИКИ Айвазян С.А., Енюков И.С, Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М., 1983. Айвазян С.А., Енюков И.С, Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. М., 1985. Большее Л.Н., Смирнов Н.В. Таблицы математической статистики.М., 1983.
ОСНОВНЫЕ ОБОЗНАЧЕНИЯ Латинские буквы А - обозначение учитываемого фактора в дисперсионном анализе; оценка коэффициента асимметрии. а - коэффициент при вычислении статистики Уилка-Шапиро; оценка параметра а в уравнении регрессии; постоянная величина; число градаций фактора А в дисперсионном анализе. В - вспомогательная величина при вычислении статистики Уилка-Шапиро; обозначение учитываемого фактора в дисперсионном анализе; статистика Бартлета. Ъ - оценка параметра в уравнении регрессии; постоянная величина; число градаций фактора В в дисперсионном анализе. С - вспомогательная величина при вычислении статистики Бартлета; обозначение учитываемого фактора в дисперсионном анализе; сумма квадратов центральных отклонений. с - число градаций фактора С в дисперсионном анализе; ширина класса (классовый промежуток). cov - ковариация. D - дисперсия; обозначение случайной величины (разности между случайными величинами). d - разность между значениями. Е - обозначение математического ожидания; оценка коэффициента эксцесса. е2 - оценка показателя степени влияния. F - интеграл вероятности; статистика Фишера. Fmax - статистика для проверки однородности группы дисперсий. / - абсолютная частота; обозначение функции. g - среднее геометрическое; целочисленная переменная величина. Н - вспомогательная величина при вычислении суммы квадратов; обозначение гипотезы. / - обозначение номера в некоторой последовательности. j - обозначение номера в некоторой последовательности. KD - коэффициент Дайса. к - вспомогательная величина при планировании численности выборок; оценка к в дисперсионном анализе; целое число (при вычислении квантилей); число классов. / - логарифм логнормально распределенной случайной величины; номер места в последовательности. Med - медиана. Мо - мода. т - номер места в последовательности. med - оценка медианы. 311
mo - оценка моды. N - объем генеральной совокупности; объем дисперсионного комплекса; число выборок. п - объем выборки. Р - вероятность, доверительная вероятность; доля событий с наличием признака; показатель точности опыта. Ра - показатель относительной вероятной погрешности. р - относительная частота; оценка доли. Q - вероятность альтернативного события; доля событий с отсутствием признака; средний квадрат центральных отклонений в дисперсионном анализе. q - оценка доли. qa - вспомогательная величина (коэффициент Дункана). R - оценка множественного коэффициента корреляции; размах варьирования; ранг значения случайной величины. г -оценка коэфициента корреляции. гв - тетрахорический показатель связи (коэффициент Бравэ). rs - оценка коэффициента корреляции Спирмена. S - сумма значений случайной величины. s - оценка стандартного (среднего квадратического) отклонения. Т - вспомогательная величина при вычислении rs ; обозначение суммарного источника варьирования в дисперсионном анализе. TKD - трансформированный коэффициент Дайса. / - статистика Стьюдента. и - вспомогательная величина при вычислении числа степеней свободы; нормированное (стандартизованное) отклонение. V - коэффициент вариации. v - оценка коэффициента вариации. W - суммарное обозначение случайных источников варьирования в дисперсионном анализе; статистика Уилка-Шапиро. w - значение случайной величины, имеющей а*, = 0. X - обозначение случайной величины (аналогично: Y, Z и другие). х - значение случайной величины X (аналогично у, z и другие). ху - у-квантиль случайной величины X. z - значение нормально распределенной случайной величины с juz = 0иа22 = 1; вспомогательная величина, функция от оценки коэффициента корреляции г. Греческие буквы а - коэффициент асимметрии; параметр уравнения регрессии; уровень значимости, вероятность ошибки 1-го рода. 312
р - вероятность ошибки П-го рода; параметр распределения; п раметр уравнения регрессии. у - доля значений переменной величины, не превышающих з А - неотрицательная дробная часть числа; погрешность измер ний. Да - абсолютная вероятная погрешность оценки среднего с уро нем значимости а. 6 - коэффициент эксцесса. г}2 - показатель степени влияния. 9 - среднее абсолютное отклонение. к2 - вклад в общую дасперсию результативного признака фа тора с фиксированными градациями (дисперсионный ан )• X - параметр распределения, ц - среднее арифметическое. о fi(k) - начальный момент к-той степени. 1%) - центральный момент А>той степени. v - число степеней свободы. р - коэффициент корреляции. а - среднее квадратическое (стандартное) отклонение, стандар т - нормированные (стандартизованные) отклонения. тгаах- статистика для проверки правомерности выбряковки' Ф - интеграл вероятности; угол, функция доли. X2 - статистика хи-квадрат. со ~ плотность вероятности. Надбуквенные символы - - обозначение усреднения, обозначение точечной оценки сред него. = - обозначение доверительного интервала. ~- обозначение середины класса. л - обозначение выровненного условного среднего, uuljn теоретической частоты Верхние индексы * - обозначение ранжированное™ значений перемеНН°и- ' и "- обозначение начала и конца класса. ' и " - обозначение нижних и верхних границ доверительного тервала. 313
Предметный указатель Амплитуда колебаний Артефакт Асимметрия Вектор случайный Величина - детерминированная - многомерная -случайная 15, Вероятность - доверительная Выборка - механическая - послойная Выбраковка Гипотеза - альтернативная - нулевая - статистическая Гистограмма Граница - доверительная — среднего - между классами - между подсовокупностями - типичных значений Группировка Дециль Диаграмма столбчатая Дисперсионный анализ — применимость Дисперсионный комплекс — бесповторностный — вторая модель — иерархическая модель — многофакторный — неравномерный — однофакторный — первая модель — равномерный — третья модель Дисперсия Доверительный интервал Доля Закон распределения — биномиальный отрицательный — Вейбулла (-Гнеденко) 101 141 146 26 15 26 24 49 134 29 29 32 141 133 133 133 45 154 154 39 178 168 34 42 45 206 215 206 220 207 223 206 216 206 206 207 207 65 153 70 52 82 87 90 — гамма — геометрический - - гипергеометрический — Джонсона — логнормальный — нормальный — Пуассона — равномерный — Рэлея — Стьюдента — Фишера — хи-квадрат — экспоненциальный — эрланговский Значимость статистическая — уровень Испытание Интеграл вероятности Квантиль Квантильный анализ 169, Квартиль Класс - начало - конец - середина - ширина Ковариация Константы Корреляционная связь — криволинейная — обратная — прямая — прямолинейная (линейная) Корреляционная таблица Корреляционное поле Корреляционный -ряд - эллипс Коэффициент - асимметрии - вариации -Дайса(КО) — трансформированный (TKD) - детерминации - корреляции — внутриклассовый — множественный 89 88 88 92 79 73 84 92 91 136 138 137 89 90 134 134 13 57 42 200 42 34 38 38 38 37 236 57 232 233 233 232 231 232 231 233 69 68 256 257 240 234 214 281 314
— Спирмена — частный - регрессии — частный - эксцесса Кривая распределения Критерий - выбраковки - Дункана - Уилка-Шапиро - однородности — дисперсий Фишера — группы дисперсий Бартлета - проверки гипотез - согласия Критическая область Критическое значение Лимиты Максимум гарантированный — отдельных значений — среднего Медиана 42, Минимум гарантированный — отдельных значений — среднего Мода Модель - корреляционная - рандомизированная - регрессионная Моменты - начальные - центральные Объект исследования — дискретность Объем - выборки — планируемый 161, — усредненный - дисперсионного комплекса - корреляционного ряда - совокупности Огива Однородность дисперсий Ожидание математическое Отклонение -среднее — абсолютное — квадратическое - стандартное 247 244 265 277 69 56 142 192 148 185 185 188 133 148 134 134 90 167 156 60 167 156 58 234 234 260 68 68 17 20 30 197 216 207 231 22 46 184 25 102 66 66 - стандартизованное 67 - нормированное 67 - центральное 62 Оценка 94 - дисперсии 103 - доли 120 - интервальная 154 - дисперсии 158 - доли 180 - коэффициента корреляции 239 - разности между средними 196 - среднего 154 - констант 94 -коэффициента асиметрии 119 - коэффициента вариации 109 -коэффициента эксцесса 120 - медианы 94 - моды 95 - смещенность 118 - состоятельность 118 - среднего 99 - условного выравненного 262 - стандартного отклонения 169 - точечная 95 Ошибки - второго рода 135 - оценок параметров уравнения регрессии 269 - первого рода 134 - репрезентативности 111 - - абсолютного отклонения 114 - - дисперсии 113 --доли 121 - коэффициента вариации 114 - медианы 114 - среднего 112 - стандартного отклонения 113 - функций от оценок средних 115 Параметры распределения 57 Параметры уравнения регрессии 262 Плотность вероятности 56 Погрешность - анализа систематическая 64, 159 - измерений 37 - оценки среднего абсолютная 153 относительная 156 Показатель - асимметрии 170 - связи тетрахорический 252 - степени влияния фактора 214
- точности опыта - эксцесса Полигон частот Правильность метода 65, Преобразование значений Преобразование q> Преобразование z Признак - альтернативный - качественный - количественный - порядковый - результативный - факториальный Размах - варьирования - междецильный - межквартильный 102, Разность - наименьшая значимая -средних 191, -средняя Рандомизация Регрессия - криволинейная - множественная — в стандартизованном виде - прямолинейная - теоретическая линия - эмпирическая линия Репрезентативность Ряд - вариационный - корреляционный - распределения Связь - корреляционная - функциональная События - достоверные - невозможные - независимые - непересекающиеся - несовместимые 155 171 45 159 215 181 238 12 12 13 13 206 206 101 169 169 192 194 190 29 260 271 275 280 263 262 261 29 34 231 34 230 230 14 50 50 51 50 50 - пересекающиеся -случайные 14, Совокупность - генеральная - - статистическая — физическая - статистическая - физическая - как сумма подсовокупностей Способ наименьших квадратов Среднее - арифметическое - геометрическое - условное выравненное Средний квадрат Стандарт Статистика для проверки гипотез Степень влияния фактора Сумма квадратов — общая — случайная — факториальная Таблица корреляционная — четырехклеточная Теснота связи Точка опробования Тренд линейный Усреднение оценок дисперсий Устойчивость статистическая Фактор случайный Частота - абсолютная - относительная - теоретическая Числа случайные Число степеней свободы Шкала измерений — именная - -интервальная - - классификационная - - относительная - - порядковая Эксцесс Элемент опробования 51 24 22 19 22 19 172 262 61 80 261 211 66 133 213 209 209 209 231 252 240 21 249 107 49 209 34 34 35 150 31 103 11 11 12 11 12 И 146 19
ОГЛАВЛЕНИЕ Предисловие 3 Введение 5 Глава 1 .Измерения, испытания, величины, совокупности. 11 1.1. Шкалы измерений A1).1.2. Испытания, события, величины A3). 1.3. Общие и второстепенные условия проведения испытаний A5). 1.4. Объект исследва- ния A7). 1.5. Физическая совокупность и ее компоненты A9). 1.6. Дискретность объектов и особенности элементов опробования B0). 1.7. Техника измерений случайной величины B1). 1.8. Статистическая совокупность, объем совокупности B2). 1.9. Математическое ожидание B5). 1.10. Многомерные случайные величины B6). Вопросы для самоконтроля B7). Глава 2 . Выборки и группировка. 29 2.1. Репрезентативность выборки и рандомизация B9). 2.2.Механический отбор B9). 2.3. Таблица случайных чисел и ее использование C1). 2.4. Послойная выборка. Значение рандомизации C2). 2.5. Группировка и ряды распределения C3). 2.6. Группировка качественных и порядковых признаков C6). 2.7. Классы количественных признаков C7). 2.8. Группировка логарифмов переменных D0). 2.9. Представление распределений с помощью квантилей D1). 2,10. Графическое представление распределений D4). Вопросы для самоконтроля D7). Глава 3. Вероятность.Параметры распределений. 48 3.1. Статистическая устойчивость D8). 3.2. Вероятность, Невозможные, достоверные, несовместимые события D9). 3.3. Пересекающиеся события. Независимость событий E1). 3.4. Закон распределения. Распределение дискретных величин E2). 3.5. Кривая распределения непрерывных величин E4). 3.6. Плотность вероятности. Интеграл вероятности E6). 3.7. Константы и параметры распределения E7). 3.8. Мода E8). 3.9. Медиана F0). ЗЛО. Среднее арифметическое F1) .3.11. Свойства среднего F2). 3.12. Среднее и систематические погрешности анализа F3). 3.13. Дисперсия F5). 3.14. Стандартизованное отклонение, коэффициент вариации F7). 3.15. Моменты F8). ЗЛ 6. Среднее и дисперсия в совокупности альтернативных признаков G0). Вопросы для самоконтроля G2). Глава 4 . Законы распределения. 73 4,1. Закон нормального распределения G3). 4.2, Интеграл вероятности нор мального распределения G6). 4.3. Логнормальное распределение G9). 4.4. Биномиальное распределение (82). 4.5. Распределение Пуассона (84). 4.6. Другие законы распределений дискретных величин (87). 4.7. Другие законы непрерывных распределений (89). Вопросы для самоконтроля (93). Глава 5. Выборочные оценки и ошибки репрезентативности. 94 5.1. Константы и их оценки (94). 5.2. Оценка моды (95). 5.3. Оценка медианы (96). 5.4. Оценка среднего арифметического (99). 5.5. Методы характеристики варьирования A00). 5.6. Оценка дисперсии и стандарта A02) 5.7. Статистические оценки при объединении выборок A05). 5.8, Усреднение оценок дисперсий A06). 5.9. Оценка коэффициента вариации A09). 5 10. Ошибки репрезентативности A10). 5.11. Ошибка среднего A11). 5.12. Ошибки других оценок A13). 5.13. Ошибки функций от случайных величин A14). 5.14. Качество оценок A18). 5.15. Оценки коэффициентов асимметрии и эксцесса и их ошибки A19). 5.16. Оценка доли и ее ошибка A20). Вопросы для самоконтроля A21). 317
Глава 6. Техника вычислений и представление результатов. 122 6.1. Общие вопросы техники вычислений A22). 6.2. Вычисление оценок по несгрушшрованным данным A24). 6.3. Вычисления оценок по сгруппированным данным A25). 6.4. Вычисление оценок при добавлении или отбрасывании единичных значений A28). 6.5.Представление результатов статистического анализа A29). Вопросы для самоконтроля A31). Глава 7. Статистические гипотезы и их проверка. 132 7.1. Основные понятия A32). 7.2.Статистики для проверки гипотез A36). Вопросы для самоконтроля A38). Глава 8. Статистический авнализ одной выборки. 140 8.1. Общие вопросы анализа выборки A40). 8.2. Выбраковка A41). 8.3. Анализ вариации, асимметрии и эксцесса A43). 8.4. Проверка нормальности распределения с помощью критерия Уилка-Шапиро A48). 8.5. Проверка гипотезы о нормальности распределения с помощью критерия хи-квадрат A50). 8.6. Доверительный интервал среднего A53). 8.7. Показатель точности опыт* и показатель относительной вероятной погрешности A55). 8.8. Гарантированные минимумы и максимумы среднего A56). 8.9. Доверительный интервал дисперсии A58). 8.10. Сравнение средних с постоянными величинами A59). 8.11. Планирование объемов единичных выборок A60). 8.12. Погрешности оценки среднего и смешанные образцы A63). 8.13. Оценка интервала возможных значений признака A66). 8.14. Границы типичных значений A68). 8.15. Анализ квантилей A69). 8.16. Анализ совокупности как смеси подсовокупностей A72). 8.17. Оценка граничных значений между подсовокупностями A77). 8.18. Анализ долей A79). Вопросы для самоконтроля A82). Глава 9. Анализ группы выборок. 184 9.1. Общие особенности анализа A84). 9.2. Сравнение двух дисперсий A84). 9.3. Сравнение более чем двух дисперсий A85). 9.4. Средняя разность и ее значимость A90). 9.5. Сравнение двух средних при одинаковости дисперсий и некоррелированности выборок A91). 9.6. Сравнение группы средних A92). 9.7. Сравнение средних при неравенстве дисперсий A94). 9.8. Интерпретация результатов сравнения средних A96). 9.9. Планирование численности выборок при сравнении средних A97). 9.10. Квантильный анализ группы выборок B00). 9.Ц. Сравнение долей B03). Вопросы для самоконтроля B05). Глава 10. Дисперсионный анализ. 206 Ю.1. Общее представление о принципах дисперсионного анализа B06). 10.2. Разложение суммы квадратов и дисперсии при дисперсионном анализе (на примере однофакторного комплекса) B09). 10.3. Оценка степени влияния изучаемого фактора и доверительных интервалов средних B13). 10.4. Условия применимости дисперсионного анализа и преобразования значений результативного признака B15). 10.5. Дисперсионный анализ неравномерного однофакторного комплекса B16). 10.6. Дисперсионный анализ двухфакторного комплекса с повторностями B16). 10.7. Дисперсионный анализ двухфакторного бесповторностного комплекса B20). 10.8. Иерархическая схема дисперсионного анализа B23). Вопросы для самоконтроля B29). Глава 11. Корреляционный анализ. 230 11.1.Виды связей и их представление B30). 11.2.Коэффициент корреляции B34). 11.3-Оценки и значимость коэффициента корреляции B37). 11.4.Величина коэффициента корреляции и его смысл B40). 11.5.Техника вычислений коэффициента корреляцииB42). И.б.Частный коэффициент корреляции B44). 11.7.Коэффициент корреляции Спирмена B46). 11.8.Тетрахорический показа- 318
тель связи B51). 11.9.Несимметричные меры ассоциации B55). Вопросы для самоконтроля B58). Глава 12. Регрессия. 260 12.1. Понятие о регрессионном анализе B60). 12.2. Прямолинейная регрессия B63). 12.3. Значимость параметров линейной регрессии B68). 12.4. Анализ криволинейных связей B71). 12.5. Множественная регрессия B74). 12.6. Множественная регрессия в стандартизованном виде B79). 12.8. Интерпретация результатов регрессионного анализа B83). Вопросы для самоконтроля B86). Приложения. 287 Таблица I. Таблица случайных чисел B88). Таблица П. Интеграл вероятности F(z) нормального распределения B89). Таблица HL Критические значения статистики Стьюдента га B91). Таблица IV. Квантили распределения %2 B92). Таблица V. Критические значения Faраспределения Фишера B93). Таблица VL Критические значения хтшх B96). Таблица Ш Коэффициент #n_/+i для вычисления статистики Уилка-Шапиро B97). Таблица YBL Критические значения статистики Уилка-Шапиро Wa B99). Таблица К. Достаточная численность единичной выборки па C00). Таблица X Критические значения статистики Fm9X C01). ТаблицаЖ Критические значения коэффициента Дункана qa,g C02). Таблица Ж Достаточная суммарная численность двух выборок па, C03). Таблица ХЕ Значения величины г для значений г C04). Таблица XIV. Значения величины г для значений г C04). Таблица XV. Минимальный объем корреляционного ряда па C05). Таблица XVI Критические значения коэффициента корреляции Спирмена rs C06). Таблица XVE Значения <p=2arcsW7> C07). Литература. 310 Основные обозначения 311 Предметный указатель 314
Учебное издание Дмитриев Евгений Анатольевич Математическая статистика в почвоведении Зав. редакцией И. И. Щехура Редактор О. В. Апентьева Художественный редактор А. Л. Прокошев Переплет художника Б.С.Козакова Технический редактор Н.И.Матюшина ИБ № 7302 ЛР №040414 от 27.03.92 Подписано в печать 9.08.95 Формат 60x90/16 Бумага офс. № 2 Гарнитура Тайме . Офсетная печать Усл. печ.л. 20,0. Уч.-изд. л. 20,55 Тираж 1000 экз. Заказ 12бб Изд. №2822 Ордена "Знак Почета" издательство Московского университета. 103009, Москва, ул. Б.Никитская, 5/7. Типография ордена "Знак Почета" изд-ва МГУ. 119899, Москва, Ленинские горы.